Вы находитесь на странице: 1из 16

Pr stst

tr r stst
t

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

ndice
1. Introduccin

2. Muestreo
2.1. Muestras aleatorias simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
4

3. Inferencia estadstica paramtrica


3.1. Algunos estadsticos y sus distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. La variable aleatoria media muestral . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. La variable aleatoria varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . .

5
5
6
6

4. Estimacin puntual. Error de estimacin. Estimacin por intervalos de confianza


4.1. Estimacin de con 2 conocido . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Estimacin de con 2 desconocido . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Estimacin de la proporcin poblacional (p) . . . . . . . . . . . . . . . . . . . . .
4.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Estimacin de la variancia en una poblacin con distribucin normal . . . . . .
4.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

6
7
9
9
10
11
12
12
13

5. Problemas

13

6. Bibliografa

16

Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

1. Introduccin
Si realizamos una recapitulacin de lo estudiado hasta el momento, encontramos tres partes bien
diferenciadas
ESTADSTICA DESCRIPTIVA En ella se aprende una serie de tcnicas para organizar, presentar y
analizar un conjunto finito de observaciones, que segn el objetivo del estudio, constituyen
una poblacin o una muestra.
CLCULO DE PROBABILIDAD En esta parte se define la probabilidad como una medida de la posibilidad de ocurrencia de cada resultado de una experiencia aleatoria, extendiendo la nocin de
frecuencia relativa a las poblaciones infinitas.
DISTRIBUCIONES DE PROBABILIDAD A travs de ellas se presentan modelos matemticos del comportamiento (en trminos probabilsticos) de las poblaciones. Cada distribucin surge como
consecuencia de hiptesis establecidas sobre el comportamiento del fenmeno aleatorio analizado.
Tales hiptesis son las que permiten identificar una poblacin con la correspondiente distribucin. A su vez, cada distribucin depende de parmetros matemticos cuyo valor hemos
supuesto conocido.
En la cuarta y ltima parte de este curso se estudian mtodos que nos permiten obtener los valores
de tales parmetros poblacionales basndonos en los resultados muestrales. En estos mtodos se encuentra una integracin de las tres partes anteriores, ya que usan a la probabilidad como una medida
de la confianza de nuestras conclusiones.

2. Muestreo
Sabemos que una muestra es un subconjunto finito de una poblacin. Nada hemos dicho, hasta ahora, de cmo obtener la misma, es decir, de cmo se realiza la seleccin de las unidades elementales,
sobre las cuales se observa o mide una caracterstica de inters (variable) y cuyos valores constituyen
la muestra.
En el prrafo anterior aparecen dos conceptos claves en todo problema de muestreo. Ellos son: unidades elementales y variable. Ambos deben ser definidos previo a la seleccin de la muestra.
Un planteo correcto del objetivo del muestreo, lleva implcito una definicin precisa de la poblacin
a analizar y, en consecuencia, una correcta identificacin de las unidades elementales y la variable
que se hayan asociadas a tal poblacin.
Consideremos por ejemplo un lote de 100 artculos enviados por un fabricante a un cliente. Supongamos que el cliente est interesado en analizar la calidad de los artculos. As planteado el problema
indica que las observaciones se realizarn sobre los artculos, siendo por lo tanto cada artculo una
unidad elemental. La observacin de la calidad obliga al cliente a definir qu es la calidad, es decir,
qu observar en cada artculo (unidad elemental) para decidir sobre la misma.
Si slo le interesa clasificar los artculos en buenos o defectuosos, o si le interesa determinar un intervalo de valores para la caracterstica en observacin (longitud, dimetro, duracin, etc.) En el primer
caso la variable en estudio es la calidad del artculo, en el segundo la caracterstica elegida. Si la variable es la calidad del artculo, sta toma dos valores: bueno o defectuoso. El planteo ambiguo del
problema con respecto al objetivo del anlisis nos lleva a considerar dos opciones:
1. Si el cliente desea slo concluir con respecto a la calidad de los artculos que componen el lote,
la poblacin estar constituida por todos los valores (buenos o defectuosos) correspondientes
a los 100 artculos. Estamos ante una poblacin finita.
2. Si el cliente desea concluir con respecto a la calidad del proceso de produccin del fabricante,
la poblacin estar formada por los infinitos valores (buenos o defectuosos) correspondientes
Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

a los infinitos artculos que se producirn bajo este proceso si ste continuara operando indefinidamente. Evidentemente la poblacin es infinita y en este caso los valores de la variable que
resultan de observar los 100 artculos del lote, son una muestra de tal poblacin.
La diferencia crucial que determina si el lote debe ser considerado una poblacin o una muestra depender del tipo de decisin a tomarse: si va a evaluarse la calidad de este lote en particular o la
calidad del proceso de manufactura del proveedor.
Una vez que el objetivo del estudio se ha especificado, la poblacin queda identificada, y en consecuencia el conjunto de las unidades elementales. Ahora la muestra ya puede ser seleccionada.
Existen dos mtodos de seleccin de muestras:
MTODOS NO PROBABILSTICOS En estos mtodos la seleccin de la muestra se realiza de una
manera subjetiva, decidiendo el observador las unidades elementales a analizarse.
MTODOS PROBABILSTICOS Con ellos las unidades elementales se seleccionan a travs de mtodos aleatorios. La ventaja de estos mtodos con respecto al primero es que permite proporcionar una medida, expresada en probabilidad, de extraer conclusiones errneas acerca de la
poblacin. Es decir permite controlar los llamados errores de muestreo, que son los que se
producen al inferir de la muestra a la poblacin, por el hecho de no trabajar con la poblacin
completa sino con un subconjunto de la misma.
Existen otro tipo de errores, no asignables al muestreo en s, sino al plan de muestreo, y a los que el
muestreo probabilstica no controla. Es muy frecuente que un plan de muestreo mal diseado nos
lleve a muestrear una poblacin que no es la del objeto de estudio. As por ejemplo si se quiere analizar cierta caracterstica de los habitantes de la ciudad de Rosario y la muestra se elige seleccionando
nombres al azar de la gua telefnica, la poblacin fsica muestreada resulta ser la formada por los
habitantes de la ciudad de Rosario que poseen telfono y todas las conclusiones que se extraigan a
partir de esta muestra sern vlidas para tal poblacin pero no para todos los habitantes de Rosario.

2.1. Muestras aleatorias simples


Sea X la variable aleatoria que representa la poblacin en estudio y f X su funcin de densidad de probabilidad asociada. Diremos que una muestra extrada de esta poblacin es de extensin n si consta
de n observaciones. Este conjunto de n observaciones puede ser representado como un vector numrico n dimensional (x 1 , x 2 , . . . , x n ).
Supongamos que extraemos sucesivas muestras aleatorias de extensin n de la mencionada poblacin. Los vectores que representan a las distintas muestras son
x 11 , x 21 , . . . , x n1

1er a muestra,

x 12 , x 22 , . . . , x n2

2d a muestra,
..
.

..
.
x 1r , x 2r , . . . , x nr

r -ma muestra,

siendo x i el valor de la i -sima observacin de la j -sima muestra.


Evidentemente no tenemos por qu pensar que el valor de la primera observacin, para cada una de
las muestras, va a ser el mismo. Por el contrario, es lgico suponer que existe variabilidad. El mismo
razonamiento podemos hacer para las isimas observaciones de las r muestras. Esto quiere decir
que antes de la extraccin de la muestra, cada una de las observaciones puede ser pensada como una
variable aleatoria, en consecuencia una muestra aleatoria puede ser representada como un vector
aleatorio n dimensional y la notaremos
M = (X 1 , X 2 , . . . , X n ) ,
Siendo M 0 = (x 1 , x 2 , . . . , x n ) un valor observado de la muestra aleatoria.
En particular llamaremos muestra aleatoria simple (M.A.S.) a una muestra aleatoria que verifica:
Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

1. Cada una de las variables aleatorias X i tiene la misma funcin de densidad f que la variable X
en estudio y por lo tanto se verifica E (X i ) = E (X ), V (X i ) = V (X ).
2. Las variables aleatorias X i son independientes entre s.
Observemos que el primer supuesto nos indica que para cada observacin a realizar la poblacin
debe permanecer inalterada e igual a la original. El segundo supuesto pide que la aparicin de una
observacin no aumente o disminuya la probabilidad de aparicin de otras observaciones.
En caso de poblacin finita estos supuestos exigen que el muestreo se realice con reposicin. Si la
poblacin es infinita el muestreo puede ser con o sin reposicin.

3. Inferencia estadstica paramtrica


Una vez obtenidos los valores de una muestra, ellos sern usados con el objeto de obtener informacin con respecto a la poblacin de la cual la muestra fue extrada.
Recordemos nuevamente que una poblacin queda identificada al dar: la variable aleatoria, su distribucin de probabilidad y sus parmetros matemticos; es decir al dar X y f (x, ), funcin de densidad de X con parmetro matemtico .
Supongamos que la ley f resulta conocida ya sea por experiencias pasadas o por hiptesis sobre el
fenmeno en estudio pero desconocemos el valor del parmetro. As por ejemplo en un proceso de
produccin se conoce que la introduccin de una modificacin en el mismo produce un desplazamiento de la distribucin, es decir la ley de distribucin es la misma pero se corre la esperanza matemtica, siendo este nuevo valor desconocido.
Otro ejemplo es el caso de una poblacin que surge por la variabilidad de las mediciones de una
magnitud con un determinado proceso de medicin. Podemos suponer que las mediciones tienen
distribucin normal por el teorema central del lmite, y adems podemos conocer la precisin del
instrumento, es decir 2 . Luego nos interesar estimar el parmetro que coincide con la esperanza matemtica de la distribucin. Son dos los tipos de problemas a los que nos podemos enfrentar
cuando necesitamos informacin acerca del valor de un parmetro:
La necesidad de darle un valor numrico al parmetro que servir como aproximacin del valor
exacto, pero desconocido del mismo, por ejemplo para clculos posteriores de probabilidades.
Nos interesa conocer no un valor particular del parmetro sino un rango de valores posibles, es
decir si excede un nmero dado, si es menor que ste o dentro de qu intervalo tiene su posible
valor.
El primer caso es un problema de estimacin puntual mientras que el segundo es de estimacin por
intervalos de confianza, aunque la separacin entre ambas formas de estimacin no es tan neta sino
que se encuentran ntimamente relacionadas como veremos ms adelante.

3.1. Algunos estadsticos y sus distribuciones


Sea X una variable aleatoria con esperanza matemtica y variancia 2 y (X 1 , X 2 , . . . , X n ) una M.A.S.
de tamao n. Si Y = H (X 1 , X 2 , . . . , X n ) es una variable aleatoria que surge como funcin del vector
aleatorio muestral, Y es llamado un estadstico. Los estadsticos que analizaremos en particular son:
X=
S2 =

1 n
Xi ,
n i =1

1 n
Xi X
n 1 i =1

media muestral,
2

variancia muestral.

Tanto X como S 2 son variables aleatorias (los valores que asumen pueden variar de una muestra a
otra).
Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

3.1.1. La variable aleatoria media muestral


Si X = n1 ni=1 X i , bajo el supuesto de que (X 1 , X 2 , . . . , X n ) es una M.A.S. de X (cada variable aleatoria X i
tiene la misma distribucin y los mismos parmetros que la variable aleatoria X de la cual la muestra
fue extrada, es decir E (X i ) = ), entonces la esperanza matemtica de X es
E X =E

1 n
1 n
1
Xi =
E (X i ) = n = .
n i =1
n i =1
n

Por otra parte la variancia de X es


V X =V

1 n
1 n
Xi = 2
V (X i ) .
n i =1
n i =1

Como las X i son independientes entre s, y adems V (X i ) = 2 , i , resulta


V X =

2
1 n
V (X i ) =
.
2
n i =1
n

Por lo tanto la variancia de la variable aleatoria X es la variancia de la variable X dividido el tamao


de la muestra.
Estas dos propiedades de los parmetros de X nos indican que cualquiera sea la distribucin de la
misma, a medida que aumenta el tamao de la muestra, la V X tiende a cero y en consecuencia las
medias muestrales tienden a concentrarse alrededor del parmetro .
Con respecto a la distribucin de X podemos decir que
1. si la variable X N , 2 entonces por la propiedad reproductiva de la distribucin normal,
2

X N , n ,

2. si la variable X tiene cualquier distribucin, pero n es convenientemente grande, por el Teorema


2

Central del Lmite, la distribucin de X tiende a N , n .


3.1.2. La variable aleatoria varianza muestral
Presentamos la distribucin de la variable aleatoria S 2 slo en el caso en que la variable en estudio
X N , 2 .
Bajo este supuesto la variable aleatoria
de libertad. Notamos

(n1)S 2
2

tiene una distribucin chi-cuadrada con n 1 grados

(n 1)S 2
2n1 .
2

2
. Observamos que la media poblacional de S 2 coincide con la vaAdems E S 2 = 2 y V S 2 = n1
riancia de X y la variancia de S 2 tiende a cero cuando n crece. Al crecer el nmero de observaciones
la distribucin de S 2 se concentra cada vez ms alrededor del valor 2 .

4. Estimacin puntual. Error de estimacin. Estimacin por intervalos de


confianza
Cuando un estadstico es usado para obtener informacin con respecto al valor de un parmetro po
blacional se lo llama estimador. Si es un parmetro desconocido, al estimador de lo notamos .
2
De las propiedades analizadas en las distribuciones de X y S , surge que estos estadsticos son buenos estimadores de la esperanza poblacional y de la varianza poblacional 2 respectivamente, en
Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

el sentido de que las distribuciones de probabilidad de los mismos las podemos concentrar tanto
como queramos alrededor de los parmetros desconocidos ( o 2 respectivamente) aumentando el
tamao de la muestra. Luego
= X , 2 = S 2 .
Dijimos que realizar una estimacin puntual es asignarle al parmetro desconocido un valor, o sea
un nmero. Este valor se obtiene partiendo de los resultados muestrales (x 1 , x 2 , . . . , x n ). Se calcula el
valor del estimador elegido, el que se le dar al parmetro desconocido. O sea
A se asigna x =

x 1 +x 2 ++x n
,
n

A 2 se asigna s 2 =

1
n1

n
i =1

xi x .

Dado que el valor de estos estimadores est dependiendo de la muestra obtenida, no tenemos porque
pensar que el mismo coincidir con el valor del parmetro a estimar. Sabemos que los valores posibles
de cada estimador presentan variabilidad dentro de un determinado rango. Esto nos lleva a tratar de
medir el error que cometemos cuando a un parmetro le asignamos el valor del estimador, es decir,
el error de estimacin. Trataremos cada caso por separado:
Estimacin de con 2 conocido,
estimacin de con 2 desconocido,
estimacin de la proporcin poblacional (p),
estimacin de la varianza poblacional (2 ).

4.1. Estimacin de con 2 conocido


Sea X una variable aleatoria con distribucin normal, E (X ) = desconocida y varianza 2 conocida.
Con la finalidad de estimar se extrae una muestra de tamao n que asume los valores (x 1 , x 2 , . . . , x n ).
En la misma se calcula x. Este es el valor que se toma como estimacin puntual de . Qu error se
comete al asignarle a el valor de x? El error de estimacin se mide por x .
Para poder conocer con exactitud cunto vale x deberamos conocer el valor exacto de ; no es
esta nuestra situacin, por lo tanto debemos contentarnos con dar una cota, , del error de estimacin, a travs de analizar los valores posibles de X cuando la muestra es de tamao n.
La situacin ideal sera poder obtener el valor de con certeza, sin embargo sabemos que a partir de
una muestra no podemos obtener conclusiones acerca de la poblacin con seguridad total, as es que
debemos ser menos ambiciosos y aceptar trabajar con una probabilidad 1 cercana a 1, llamada
coeficiente de confianza. Luego la pregunta anterior debe ser formulada de la siguiente manera: cul
es el mximo error de estimacin que podemos cometer con probabilidad 1 , al asignarle a el
valor de x? Es decir debemos encontrar tal que se verifique
P

X <

= 1 .

Esto es equivalente a:
P < X < +

= 1 .

Estandarizando obtenemos
P
El valor
verifica

n<Z <

n = 1 .

n debe ser igualado a un valor z 2 que es el valor de la variable normal estndar Z que
P Z z 2 = P Z z 2 =

Ral Katz

.
2
7

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

z 2

z 2

Luego

.
(1)
n
Dado que es un valor supuesto conocido, n est dado y el valor de z tambin es fijo ya que depende
de la confianza fijada (1 ), luego el valor de puede ser calculado.
Observemos que se encuentra en relacin inversa al tamao de la muestra (a mayor tamao de
muestra, menor error de estimacin), y en relacin directa a la confianza (a mayor confianza, mayor
error de estimacin).
= z 2

Supongamos que el error calculado no resulta satisfactorio (demasiado grande), para disminuirlo
debemos disminuir la confianza o aumentar el tamao de la muestra. Si la confianza no se quiere
modificar, nos queda como opcin modificar n. Cuntas observaciones son necesarias para que al
estimar con x,el error mximo de estimacin sea (fijado) con una confianza (1 ) (fijada)? De la
expresin (1) obtenemos
2
n = z 2 2 .
2

El valor del error obtenido en (1), indica que


P

X < z 2

= 1 .

Trabajando algebraicamente obtenemos


P X z 2

X z 2

< < X + z 2

= 1 .

< < X + z 2

es un INTERVALO ALEATORIO para el parmetro . Una vez que la muestra ha sido extrada y x
calculada, reemplazando en la expresin anterior del intervalo aleatorio, obtenemos el INTERVALO
DE CONFIANZA para , que es un intervalo numrico.
x z 2

< < x + z 2

En un intervalo aleatorio, la parte aleatoria son los extremos del mismo, mientras que el parmetro
es un valor fijo. Por lo tanto la probabilidad (1 ) debe ser interpretada como la probabilidad de
que un intervalo aleatorio cubra el verdadero valor del parmetro. Pensada la probabilidad como una
frecuencia relativa nos indica que si se extraen un nmero suficientemente grande de muestras de
extensin n y con cada una de ellas se construye un intervalo de confianza para , aproximadamente
(1 ) % de tales intervalos cubrirn en verdadero valor de .

Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

Cuando el intervalo de confianza ha sido calculado, ste cubre o no el verdadero valor del parmetro,
por lo tanto pierde sentido hablar de la probabilidad (1), este valor debe ser interpretado como una
medida de la confianza del experimentador de obtener el cubrimiento de con el intervalo calculado.
4.1.1. Ejemplo
Un fabricante produce anillos para los pistones de un motor de automvil. El dimetro de un anillo
es una variable aleatoria X con distribucin normal y desviacin estndar = 0.001 mm. Para una
muestra aleatoria de 15 anillos se observ un dimetro promedio x = 74.036 mm. Obtenga un intervalo de confianza del 95 % y 99 % para el dimetro promedio, es decir E (X ).
Si x es la media muestral observada en una muestra aleatoria de tamao n, de una variable aleatoria
X con distribucin normal y variancia 2 conocida, entonces un intervalo de confianza para = E (X )
del 100 (1 ) % est dado por

x z 2
.
; x + z 2
n
n
Para = 0.05 se obtiene
74.036 1.96
Para = 0.01 se obtiene
74.036 2.58

0.001
15
0.001
15

; 74.036 + 1.96

; 74.036 + 2.58

0.001
15
0.001
15

= (74.0355; 74.0365) .

= (74.0353; 74.0367) .

Observamos que para un tamao de muestra fijo, a mayor confiabilidad se


corresponde menor precisin Es esto razonable?

4.2. Estimacin de con 2 desconocido


Dado que la distribucin de X depende de la varianza poblacional 2 , cuando esta es desconocida
debe ser estimada a travs de S 2 . El estadstico
X
n
S
deja de tener una distribucin normal estandarizada y se le conoce su distribucin slo en el caso en
que la variable en estudio X est distribuida normalmente. En tal situacin la distribucin del estadstico mencionado es la distribucin t Student con n 1 grados de libertad.
Esta distribucin t es de forma campanular y simtrica con eje de simetra en x = 0, siendo su parmetro matemtico un nmero natural n llamado grados de libertad. Cuando el nmero de grados de
libertad tiende a infinito, la distribucin t -Student se aproxima a una distribucin normal estandarizada.
Para estimar la esperanza matemtica de una variable aleatoria X N , (ambos parmetros desconocidos), extraemos una M.A.S. de tamao n y sobre ella calculamos x, que tomaremos como valor
del parmetro . Realizando el mismo razonamiento que en 4.1, el anlisis del error de estimacin
se efecta a travs de la distribucin de X . Es decir que fijado el tamao de la muestra y la confianza
deseada, queremos calcular la cota de error partiendo de:
P

X <

= 1 ,

(2)

donde es desconocido. Recordemos que


X
n t n1 .
S
Ral Katz

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

La expresin (2) puede transformarse en


P

X
n <
S
S

n = 1 .

El valor S n debe ser igualado a t n1, 2 , donde t n1, 2 es el valor de una variable aleatoria t -student
con n 1 grados de libertad que verifica
P

n > t n1, 2 = ,
S
2

Luego
P t n1, 2

o equivalentemente
P X t n1, 2

n < t n1, 2 = .
S
2

X t n1, 2

S
n

X t n1, 2

X + t n1, 2
S
n

S
n

= 1 ,

= 1 .

X + t n1, 2

S
n

es un intervalo aleatorio de , mientras que


x t n1, 2

s
n

x + t n1, 2

s
n

es un intervalo de confianza (sus extremos son valores numricos).


Observemos que = t n1, 2 sn depende al igual que en 4.1, de la confianza fijada y del tamao de
muestra elegido, pero se diferencia de aquel en que depende del valor que asume la variable aleatoria
S. Por lo tanto la cota del error resulta ser aleatoria. Una vez que la muestra fue extrada, si el valor
de resulta inapropiado, podemos disminuirlo reduciendo la confianza o aumentando el tamao
de la muestra. Sealemos que en este caso, el valor de n necesario para obtener la cota del error
deseada, no puede ser determinado algebraicamente, en razn de que el valor de t tambin depende
del tamao de la muestra. Lo nico que podemos concluir es que el tamao de muestra debe ser
aumentado, pero no sabemos cunto.
4.2.1. Ejemplo
Se seleccionaron al azar 15 resistores de la produccin de un proceso. La resistencia media observada
en la muestra fue de 9.8 ohms, mientras que la desviacin estndar muestral fue de 0.5 ohms. Determine un intervalo de confianza del 95 % para la resistencia media poblacional. Se supone que la
variable en estudio tiene distribucin normal.
Si x y s son la media aritmtica y la desviacin estndar observada en una muestra de tamao n,
de una variable X con distribucin normal y variancia 2 desconocida, entonces un intervalo de
confianza para X = E (X ) del 100 (1 ) % est dado por
x t n1, 2

s
n

< < x + t n1, 2

s
n

Para = 0.05 se obtiene de la tabla el valor t = 2.145 resultando el intervalo de confianza para X :
9.8

Ral Katz

2.145 0.5
15

; 9.8 +

2.145 0.5
15

= (9.523; 10.077).

10

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

4.3. Estimacin de la proporcin poblacional (p)


En ocasiones nos interesa conocer la proporcin p o frecuencia relativa de veces que se presenta
cierto suceso A en una poblacin, o lo que es equivalente, conocer la probabilidad de que ocurra el
suceso A. Sea por ejemplo el suceso
A: una unidad producida por un proceso es defectuosa.
Supongamos que P (A) = p es desconocida. Para estimar p vamos a considerar una variable aleatoria
X a la que le asignamos el valor 1 cuando ocurre el suceso A (una unidad es defectuosa) y el valor 0
cuando ocurre el suceso A (una unidad es buena). La variable aleatoria X que asume los valores 0 y
1 con probabilidades 1 p y p respectivamente, se denomina variable aleatoria con distribucin de
Bernoulli, de parmetro p. Para tal variable verifique que E (X ) = p y V (X ) = p(1 p).
Si se inspeccionan en forma independiente n unidades del proceso de produccin y se anotan los
valores para X 1 , X 2 , . . . , X n donde X i = 1 si la i -sima unidad inspeccionada tiene defectos y X i = 0 si
no es as, entonces una variable de inters es Y = X 1 + X 2 + + X n que representa el nmero total
de unidades defectuosas en la muestra de tamao n. (X 1 , X 2 , . . . , X n constituye una M.A.S de X ). La
variable aleatoria
Y
X1 + X2 + + Xn
=
n
n
denota la frecuencia relativa de unidades defectuosas en una muestra de tamao n y verifica
E

X1 + X2 + + Xn
1
Y
1
=E
= (E (X 1 ) + E (X 2 ) + + E (X n )) = np = p.
n
n
n
n

X1 + X2 + + Xn
1
p(1 p)
Y
1
=V
= 2 (V (X 1 ) + V (X 2 ) + + V (X n )) = 2 np(1 p) =
.
n
n
n
n
n

Por el teorema del lmite central Y /n tiende a distribuirse normalmente con parmetros p yp(1
p)/n.
Usaremos Y /n como estimador de p por cuanto para n convenientemente grande la variable aleatoria Y /n asume valores que se concentran alrededor de p. Si planteamos P Yn p < = 1 y
operamos del mismo que en 4.1 resulta
P

Y
z
n

p(1 p)
Y
< p < +z
n
n

p(1 p)
= 1 ,
n

donde z es un valor que se obtiene de la tabla normal estndar o reducida, que verifica P (Z z) =
1 /2 o equivalentemente P (Z z) = /2. Observamos la existencia de un problema que no haba
aparecido antes. Los lmites del intervalo aleatorio que hemos obtenidos estn dependiendo del parmetro que se desea estimar.
El problema puede superarse si sustituimos el valor de p por el valor de la frecuencia relativa observada en la muestra, es decir el valor que asume Y /n en la muestra y que notamos con f A (frecuencia
relativa del suceso A en la muestra) De este modo

fA 1 fA
fA 1 fA
fA z

, fA + z
n
n
constituye un intervalo de confianza para p.
p(1p)

Observacin: Podemos obtener una cota del error z


si tenemos en cuenta que la funcin
n
cuadrtica g (p) = p(1 p) para 0 p 1 asume su valor mximo cuando p = 1/2. Parap = 1/2,
g (1/2) = 1/4, luego z

Ral Katz

1
4n

z
.
2 n

11

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

4.3.1. Ejemplo
Una inspeccin cuidadosa de 70 soportes de concreto precolado revel que 28 estaban fisurados.
Construya un intervalo de confianza del 95 % de la verdadera proporcin de soportes con fisura.
Sea A: un soporte de concreto precolado est fisurado. De acuerdo a los datos f A = 28/70.
De la tabla de la normal estndar o reducida se obtiene para un nivel de confianza del 95 % el valor
z = 1.96 (P (Z 1.96) = 0.975) Luego un intervalo aproximado del 95 % de confianza para p es

28
70

28 1.96
70

1 28
70
70

28
70

28
+ 1.96
70

1 28
70
70

= (0.285; 0.515).

4.4. Estimacin de la variancia en una poblacin con distribucin normal


Ya hemos visto que la variable aleatoria S 2 es un buen estimador de la variancia 2 en razn de que
24
. En la unidad anterior se vio que si X 1 , X 2 , . . . , X n son n variables aleatorias
E S 2 = 2 y V S 2 = n1
independientes, donde cada una tiene distribucin N (0, 1) entonces la variable aleatoria T = X 12 +
X 22 + + X n2 tiene una distribucin chi-cuadrada con n grados de libertad y notamos: T 2n . Si
X N , y X 1 , X 2 , . . . , X n es una M.A.S de X entonces
n
i =1

Xi

2n .

Cuando se sustituye la media poblacional por la media muestral X , la variable aleatoria resultante
tiene una distribucin chi-cuadrada con n 1 grados de libertad. Se nota:
n
i =1

Siendo S 2 =

1
n1

n
i =1

Xi X

Xi X

2n .

podemos concluir que


n
Xi X
(n 1)S 2
=
2

i =1

2n1

cuando X 1 , X 2 , . . . , X n es una M.A.S de una variable aleatoria X , normalmente distribuida con media
y desviacin estndar .
Si planteamos P c 1

(n1)S 2
2

c 2 = 1 y operamos algebraicamente obtenemos que


P

(n 1)S 2
(n 1)S 2
2
= 1 ,
c2
c1

donde c 1 y c 2 son valores que se obtienen de la tabla chi-cuadrada y verifican


P

(n 1)S 2

c1 = 1 ,
2

(n 1)S 2

c2 = .
2

En sntesis:
(n 1)S 2 /c 2 , (n 1)S 2 /c 1 es un intervalo aleatorio que contiene con probabilidad 1 a 2 ,
siendo
(n 1)S 2

(n 1)S 2

P
c1 = 1 , y P
c2 = .
2

2
2
2
(n 1)s 2 /c 2 , (n 1)s 2 /c 1 es un intervalo con (1 )100 % de confianza para 2 .
Ral Katz

12

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

4.4.1. Ejemplo
En la produccin de resistores, la variancia de las resistencias refleja la estabilidad del proceso de
manufactura. Se desea estimar con un nivel de confianza igual a 0.90, la variancia poblacional de las
resistencias, sabiendo que en una muestra de 15 resistores se observ una desviacin estndar igual
a 0.5 ohms.
De la tabla chi cuadrado, para 14 grados de libertad, se obtienen los valores c 2 = 23.68 y c 1 = 6.57
(la probabilidad de que una variable aleatoria con distribucin chi-cuadrada y 14 grados de libertad
supere los valores 23.68 y 6.57 es 0.05 y 0.95 respectivamente) A partir de los datos de la muestra, el
intervalo con 90 % de confianza para 2 es
14 0.52 14 0.52
= (0.148; 0.533).
;
23.68
6.57

5. Problemas
1. A partir de una misma muestra, se calculan tres intervalos para la media de la fuerza de corte
de pernos de anclaje, con los siguientes niveles de confianza: 0.90, 0.95 y 0.99. Los intervalos
son (4.01, 6.02), (4.20, 5.83) y (3.57, 6.46). Establezca la correspondencia entre los intervalos y
los niveles de confianza. Justifique su respuesta.
2. En investigaciones hidrogrficas se usan telmetros de lser manuales de bajo peso. En las
pruebas de una marca con 15 de esos aparatos, se registran los siguientes errores (en metros) al
medir la distancia de un objeto situado a 500 m:
0.10
0.01
0.03

0.02
0.05
0.06

0.10
0.05
0.02

0.03
0.06
0.07

0.09
0.01
0.03

a) Realice estimaciones puntuales para: la media y la desviacin estndar del error, que se
comete con dichos telmetros.
b) Suponiendo que los errores de medicin tienen distribucin normal, encuentre e interprete un intervalo de confianza del 90 % para la media de dichos errores.
c) Un competidor afirma que con ese modelo de telmetros se sobrestima la distancia en
al menos 0.050 m. En base a los datos observados, existen razones para dudar de esa
afirmacin?
d) Bajo el supuesto de distribucin normal considerara inusual que un error de medicin
excediera el valor 0.15 m?
3. Un fabricante asegura que la capacidad media de cierta batera que produce la compaa es de
al menos 140 Ah. Un grupo para la defensa del consumidor desea probar la credibilidad de la
afirmacin del fabricante y mide la capacidad de 20 bateras seleccionadas al azar, obteniendo
los siguientes valores:
137.4
139.2
141.1
138.0

140.0
141.8
139.7
140.9

138.8
137.3
136.7
140.6

139.1
133.5
136.3
136.7

144.4
138.2
135.6
134.1

a) Evale la afirmacin del fabricante.


b) Debi realizar algn supuesto? Si su respuesta es afirmativa indique cul y cmo procedera para evaluar la validez de dicho supuesto.
c) Ejemplifique con los datos del problemas los conceptos de parmetros y estadsticos.
Ral Katz

13

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

4. Los siguientes datos corresponden al dimetro exterior (en pulgadas) de 20 tubos que se usan
para un cableado elctrico:
1.281
1.293
1.290
1.291

1.293
1.291
1.296
1.291

1.287
1.295
1.289
1.288

1.286
1.292
1.289
1.289

1.288
1.291
1.286
1.286

El fabricante de estos tubos sostiene que la media del dimetro exterior es de 1.29 pulgadas.
a) Permiten los datos de la muestra poner en tela de juicio tal valor?
b) Para responder 4a, debi realizar algn supuesto? Cul?
c) En el contexto del problema indique cules valores dados o calculados son parmetros y
cules son estadsticos.
5. El nmero de ciclos hasta el colapso en vigas de concreto armadas en agua es una variable
aleatoria X con E (X ) = 530 ciclos. Se realizaron 9 observaciones del nmero de ciclos hasta el
colapso en vigas anlogas armadas en aire, obtenindose los siguientes valores:
734
792
511

571
773
500

520
476
672

Con qu nivel de confianza permiten los datos inferir que el nmero promedio de ciclos hasta
el colapso de las vigas es mayor cuando son armadas en el aire? Explicite los supuestos que
realice y ejemplifique con los datos del problema los conceptos de parmetros y estadsticos.
6. La concentracin media de dixido de carbono en el aire en una cierta zona es de 355 p.p.m.v.
(partes por milln en volumen). Se analiza el aire en 20 puntos elegidos aleatoriamente a una
misma altura pero cerca del suelo. La media y desviacin estndar muestral observada es de
520 y 180 p.p.m.v. respectivamente.
a) Con que nivel de confianza puede inferir que la concentracin media es mayor cuando
las mediciones se realizan cerca del suelo?
b) Explicite los supuestos que debi realizar.
c) Seale en el contexto del problema cules de los datos dados son parmetros y cules son
estadsticos.
7. La probabilidad de que un lote de un producto qumico satisfaga la especificacin es igual a
0.75, cuando proviene del proveedor A. En una muestra de 70 lotes comprados a un proveedor
B , 62 de los mismos satisfacen la especificacin. Permiten los datos inferir que la probabilidad
de que un lote que proviene de B satisfaga la especificacin, es mayor que, la probabilidad de
que un lote que proviene de A satisfaga la especificacin?
8. Un proceso produce ciertos cojinetes cuyo dimetro interior es de 3 cm. Se seleccionan, en forma aleatoria, 12 de estos cojinetes y se mide su dimetro interior, obtenindose los siguientes
valores:
3.01
3.00
2.97

3.05
3.02
2.97

2.99
2.98
3.02

2.99
2.99
3.01

Suponiendo que el dimetro es una variable aleatoria con distribucin normal, permiten los
datos inferir con un 99 % de confianza que la variancia es inferior a 0.0025 cm2 ?
Ral Katz

14

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

9. Los siguientes datos corresponden a 29 mediciones repetidas de la densidad, para una muestra
de Tierra, expresada como un mltiplo de la densidad del agua.
5.50
5.36
5.62
5.27
5.46

5.61
5.29
5.29
5.39
5.30

4.88
5.58
5.44
5.42
5.74

5.07
5.65
5.34
5.47
5.68

5.26
5.57
5.79
5.63
5.85

5.55
5.53
5.10
5.34

a) Represente grficamente la informacin de la manera que considere ms conveniente.


b) Considera que existe una medicin atpica?
c) A partir de esas mediciones, cul es su estimacin de la densidad de la Tierra?
d) Se considera que el proceso de medicin es preciso siempre y cuando la desviacin estndar (poblacional) de las mediciones es inferior al 5 % de la densidad. Suponiendo que la
verdadera densidad del agua es igual a 5.48, permiten los datos de la muestra inferir que
las mediciones son precisas?
10. Una empresa de servicios pblicos de gas desea estimar el tiempo promedio entre la llegada de
la solicitud de servicio y la conexin del mismo. De los registros disponibles se seleccion una
muestra aleatoria de tamao 15. Los resultados obtenidos fueron:
114
103
114

78
117
72

96
126
104

137
86
73

78
99
86

a) Explique cul es la poblacin en estudio.


b) Analice si las siguientes afirmaciones son correctas:
con un nivel de confianza del 95 %, el tiempo medio de espera para la conexin es
superior a los 85 das.
con un nivel de confianza del 95 %, el tiempo medio de espera es inferior a los 110 das.
c) Al responder el tem 10a, debi realizar algn supuesto en relacin a la distribucin de
dicha poblacin?
11. Un topgrafo desea estimar la altura de un acantilado. A tal fin promedia los resultados de n
mediciones independientes. Si las mediciones que realiza no tienen error sistemtico y la precisin de su instrumento es = 1 m, cuntas mediciones debe realizar para estimar la altura
del acantilado con un error de a lo sumo 0.25 m y una confiabilidad del 95 %?
12. Un ingeniero civil examina 12 especmenes de concreto y obtiene los siguientes datos para la
resistencia a la compresin:
2216
2225
2381

2237
2301
2255

2249
2281
2275

2204
2263
2295

a) Con qu nivel de confianza el intervalo (2240.51, 2289.81) cubre el verdadero valor de la


resistencia media?
b) Debi realizar algn supuesto?

Ral Katz

15

I NTRODUCCIN A LA INFERENCIA ESTADSTICA

13. En un proyecto de construccin se midi la resistencia al esfuerzo cortante de 50 probetas del


terreno. La siguiente tabla sintetiza la informacin.
a) Represente grficamente la informacin
Intervalo
de clase
[2000 2250)
[2250 2500)
[2500 2750)
[2750 3000)
[3000 3250)

b) Cul es la resistencia media y la desviacin estndar en la muestra, cuando se conoce que las
mediciones tienen un error sistemtico por defecto de 50 unidades?
c) Bajo las condiciones del punto 13b, estime la proporcin de probetas que tienen una resistencia de
al menos 2300 y d una cota del error.

Frecuencia
absoluta
3
8
22
12
5

14. Un laboratorio produce cierto tipo de tabletas. Es importante limitar la variabilidad de los pesos
de las mismas. El Departamento de control de calidad prueba rutinariamente muestras aleatorias de tabletas de cada lote. El peso nominal de cada tableta es de 25 mg y los pesos medidos
en una muestra aleatoria de tamao 30 fueron:
24.1
25.8
22.7
24.5
26.4

27.2
27.3
26.9
26.1
25.4

26.7
23.2
24.8
25.9
23.3

23.6
26.9
24.0
25.4
24.3

26.4
27.1
23.4
22.9
23.8

25.2
26.7
25.0
24.9
23.0

a) Permiten los datos de la muestra inferir que la variancia poblacional de los pesos de dichas tabletas es inferior a 3.92 mg2 ?
b) Indique si en la resolucin anterior debi realizar algn supuesto. Cul?
c) Construya un diagrama de tallo hoja. Cules son sus observaciones en relacin a los datos?
d) Indique en el contexto del problemas los valores que son parmetros y los valores que son
estadsticos. Establezca la diferencia.

6. Bibliografa
1. Canavos, G. (1988). Probabilidad y Estadstica. Aplicaciones y Mtodos. Mxico: McGraw-Hill.
2. Devore, J.(2001). Probabilidad y Estadstica para Ingeniera y Ciencias. Mxico: Thomson Editores.
3. Meyer, P. (1993). Probabilidad y Aplicaciones Estadsticas. Mxico: Addison Wesley Iberoamericana.
4. Miller I. y Freund J. (1993). Probabilidad y Estadstica para Ingenieros. Mxico: Prentice Hall.
5. Milton S. y Arnold, J. (2004). Probabilidad y Estadstica con aplicaciones para ingeniera y ciencias computacionales. Mxico: McGraw-Hill.
6. Montgomery D. y Runger, G. (1996). Probabilidad y Estadstica Aplicadas a la Ingeniera. Mxico: McGraw-Hill.
7. Navidi, W. (2006). Estadstica para ingenieros y cientficos. Mxico: McGraw-Hill.
8. Scheaffer, R. y McClave, J. (1993). Probabilidad y Estadstica para Ingeniera. Mxico: Grupo
Editorial Iberoamericana.
9. Walpole, R. y Myers, R. (2001). Probabilidad y Estadstica. Mxico: McGraw-Hill.
En estos textos podr ahondar en el tema y encontrar otros ejemplos y problemas para resolver.
Ral Katz

16

Вам также может понравиться