Вы находитесь на странице: 1из 19

Profesor.

Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
Introduccin a la Inferencia Estadstica
Introduccin
El propsito de un estudio estadstico suele ser extraer conclusiones acerca de la naturaleza de una
poblacin. Al ser la poblacin grande y no poder ser estudiada en su integridad en la mayora de los
casos, las conclusiones obtenidas deben basarse entonces en el examen de solamente una parte de
sta, lo que nos lleva, en primer lugar a la justificacin, necesidad y definicin de las diferentes
tcnicas de muestreo.
Los primeros trminos obligados a los que debemos hacer referencia, definidos en el primer
captulo, sern los de estadstico y estimador.
Dentro de este contexto, ser necesario asumir un estadstico como una variable aleatoria que est
determinada por alguna distribucin conocida (representada por una frmula), por otro lado un
estimador es un valor que calculado desde la muestra a travs de un estadstico y que se aproxima
al parmetro de la poblacin. Las dos piezas definidas anteriormente, sern clave en las dos
amplias categoras de la inferencia estadstica: La estimacin y el contraste de hiptesis.
El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de
propiedades que nos servirn para elegir el mejor para un determinado parmetro de una
poblacin, as como algunos mtodos para la obtencin de ellos, tanto en la estimacin puntual
como por intervalos.
Cmo deducir la ley de probabilidad sobre determinado carcter de una poblacin cuando slo
conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relacin
entre el sexo y el rendimiento acadmico e intentamos extender las conclusiones obtenidas sobre
una muestra al resto de individuos de la poblacin de donde se extrajo sta.
La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca de la poblacin a
partir de una muestra extrada de la misma.
Tcnicas de muestreo sobre una poblacin
La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribucin
de unos individuos en dicha poblacin y las distribuciones de stos en todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
Costo reducido
Si los datos que buscamos los podemos obtener a partir de una pequea parte del total de la
poblacin, los gastos de recoleccin y tratamiento de los datos sern menores. Por ejemplo,
cuando se realizan encuestas previas a un estudio de intervencin, es ms barato intervenir
y vigilar a 4.000 personas, que a 30.000;

Mayor rapidez
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras mesas
electorales, se obtiene una aproximacin bastante buena del resultado final de unas
elecciones, muchas horas antes de que el recuento final de votos haya finalizado;

Ms posibilidades
Para hacer cierto tipo de estudios, por ejemplo el de cohorte, en cierto tipo de anlisis, no
son posibles en la prctica si no cuando aparece la enfermedad en estudio, para estimar la
tasa media de ocurrencia o una proporcin de incidencia acumulada; no se puede esperar a
que toda una poblacin enferme, ya que no quedaran individuos sanos y habra un
problema de salud publica. Es mejor vigilar a un pequeo grupo de pacientes y sacar
conclusiones sobre ellos.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos problemas
- Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en este captulo.
- Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de la poblacin
(inferencia).
El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los elementos de la
poblacin tienen la misma probabilidad de ser extrados; Aunque dependiendo del problema y con
el objetivo de reducir los costos o aumentar la precisin, otros tipos de muestreo pueden ser
considerados como veremos ms adelante: muestreo sistemtico, estratificado y por
conglomerados.

Muestreo Aleatorio Simple ( M.A.S )
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el proceso de
extraccin es tal que garantiza a cada uno de los elementos de la poblacin la misma oportunidad de
ser incluidos en dicha muestra, denominamos al proceso de seleccin muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
- Sin reemplazamiento de los elementos;
- Con reemplazamiento

Muestreo aleatorio sin reposicin
Consideremos una poblacin E formada por N elementos. Si observamos un elemento particular,
eeE, en un muestreo aleatorio sin reposicin se da la siguiente circunstancia:
- La probabilidad de que e sea elegido en primer lugar es 1/N;
- Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de (N-1)/N), la
probabilidad de que sea elegido en el segundo intento es de 1/(N-1).
- en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo cual si e no ha sido
seleccionado previamente, la probabilidad de que lo sea en este momento es de 1/(N-i).
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
El muestreo aleatorio con reposicin es tambin denominado muestreo aleatorio simple, que como
hemos mencionado se caracteriza por que
- cada elemento de la poblacin tiene la misma probabilidad de ser elegido, y
- las observaciones se realizan con reemplazamiento. De este modo, cada observacin es
realizada sobre la misma poblacin (no disminuye con las extracciones sucesivas).
Sea X una v.a. definida sobre la poblacin E, y f(x) su ley de probabilidad.
En una muestra aleatoria simple, cada observacin tiene la distribucin de probabilidad de la
poblacin: f
1
=f
2
=....=f
n
. Adems todos las observaciones de la v.a. son independientes, es decir

Las relaciones (7.1) - (7.2) caracterizan a las muestras aleatorias simples. La seleccin de una
muestra aleatoria puede realizarse con la ayuda de una tabla de nmeros aleatorios
Tablas de nmeros aleatorios: Lotera Nacional
Un ejemplo de una tabla de nmeros aleatorios consiste en la lista de los nmeros de Lotera
Nacional premiados a lo largo de su historia, pues se caracterizan por que cada dgito tiene la misma
probabilidad de ser elegido, y su eleccin es independiente de las dems extracciones.
Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de nmeros aleatorios de
k = 5 cifras (00000-99.999), una poblacin de N = 600 individuos, y deseamos extraer una muestra
de n = 6 de ellos. En este caso ordenamos a toda la poblacin (usando cualquier criterio) de modo
que a cada uno de sus elementos le corresponda un nmero del 1 al 600. En segundo lugar nos
dirigimos a la tabla de nmeros aleatorios, y comenzando en cualquier punto extraemos un nmero
t, y tomamos como primer elemento de la muestra al elemento de la poblacin:


El proceso se repite tomando los siguientes nmeros de la tabla de nmeros aleatorios, hasta obtener
la muestra de 10 individuos.

Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es aquel en el que se divide la poblacin de N individuos, en k
sub poblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio, de
tamaos respectivos N
1
, ..., N
k
,, donde

Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga

y realizando en cada una de estas sub poblaciones muestreos aleatorios simples de tamao n
i

.
Muestreo sistemtico
Cuando los elementos de la poblacin estn ordenados en fichas o en una lista, una manera de
muestrear consiste en Sea k = [N/n], donde [x], es la funcin mayor entero. Se procede de la
siguiente manera:
- Elegir aleatoriamente un nmero m, entre 1 y k;
- Tomar como muestra los elementos de la lista:

Esto es lo que se denomina muestreo sistemtico. Cuando el criterio de ordenacin de los elementos
en la lista es tal que los elementos ms parecidos tienden a estar ms cercanos, el muestreo
sistemtico suele ser ms preciso que el aleatorio simple, ya que recorre la poblacin de un modo
ms uniforme. Por otro lado, es a menudo ms fcil no cometer errores con un muestreo sistemtico
que con este ltimo.
Observacin
El mtodo tal como se ha definido anteriormente es sesgado si N/n no es entero, ya que los ltimos
elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en
considerar la lista como si fuese circular (el elemento N +1 coincide con el primero) y:
- Sea k el entero ms cercano a N/n;
- Se selecciona un nmero al azar m, entre 1 y N;
- Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos
en k, a partir de m, teniendo en cuenta que la lista es circular.
Se puede comprobar que con este mtodo todos los elementos de la lista tienen la misma
probabilidad de seleccin.

Propiedades deseables de un estimador
Sea X una v.a. cuya funcin de probabilidad (o densidad de probabilidad si es continua) depende de
unos parmetros u
1
, u
2
, ...., u
k
desconocidos.


Representamos mediante X
1
, X
2
,....., X
n
una muestra aleatoria simple de la variable. Denotamos
mediante f
c
a la funcin de densidad conjunta de la muestra, que por estar formada por
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
observaciones independientes (bajo el supuesto de independencia), puede factorizarse del siguiente
modo:



Se denomina estimador de un parmetro u
i
, a cualquier v.a.
i
u

que se exprese en funcin de la


muestra aleatoria y que tenga por objetivo aproximar el valor de u
i
.


Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque
depende unvocamente de los valores de la muestra observados (X
i
= x
i
), la eleccin de la muestra es
un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimacin el valor
numrico que toma el estimador sobre esa muestra.
Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria (que
usaremos para estimar el parmetro desconocido) deben ser:
Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado de la muestra se
aproxima al verdadero parmetro desconocido.

Carencia de sesgo (Insesgamiento)
El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el valor
del parmetro poblacional. Esto indica que el estimador del parmetro tiene distribucin
simtrica (Normal).

Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se obtenga
como estimacin el valor exacto del parmetro. Sin embargo podemos pedirle que su
dispersin (varianza) con respecto al valor central sea tan pequea como sea posible.

Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.

Algunos estimadores fundamentales
Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones
resultan fundamentales: estimadores de la esperanza matemtica y varianza de una distribucin de
probabilidad.
Estimador de la media de la poblacin
Consideremos las muestras de tamao n, X
1
, X
2
, ....., X
n
de un carcter sobre una poblacin que
viene expresado a travs de una v.a. X que posee media y varianza, es decir, existen E[X] y Var[X]:
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga


El estimador media muestral que denotaremos normalmente como X (en lugar de ) es



verifica:



Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye segn una ley
gaussiana (distribucin normal), cuando n es grande (Teorema del limite central)

Estimador de la varianza
A la hora de elegir un estimador de | | X Var =
2
o , podemos comenzar con el estimador ms
natural:


Podemos comprobar que cuando el carcter que se estudia sobre la poblacin es Normal, en
realidad este es un buen estimador para la varianza. Sin embargo se comprueba tambin su falta de
correccin de sesgo, lo que hace mas adecuado que se utilice como estimador de la varianza al
siguiente concepto: cuasi varianza muestral

Cuasivarianza muestral
Para tener un estimador insesgado de la varianza introducimos la cuasivarianza muestral que
se define como


Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
Se puede comprobar que realmente este estimador es insesgado y consistente
Proporcin muestral

Considrese una muestra aleatoria X
1
, X
2
, ....., X
n
, de una variable aleatoria que distribuye binomial,
con parmetros n y p, de tal forma que X
i
toma valores:

=
condicin la cumple se no
condicin la cumple se si
X
i
0
1


es fcil demostrar que si X: es el numero de elementos que cumplen la condicin, se da que:

=
i
X X , de tal forma que el estimador
n
X
n
X
p
i
= = , de as que p es la media de los
valores X
1
, X
2
, ....., X
n
de la distribucin binomial, en otras palabras p es una media aritmtica de
una variable cualitativa, esto significa que cumple todas las propiedades de la media, las que son:
insesgamento, consistencia, eficiencia, suficiencia.

ESTIMACIN POR INTERVALOS
Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores o intervalo, en los
que pueda precisarse --con una determinada probabilidad--, asociada a una distribucin de
probabilidad conocida, que el valor de un parmetro se encuentra dentro de esos lmites. Este
parmetro ser habitualmente una proporcin en el caso de variables dicotmicas, y la media o la
varianza para variables cuantitativas.
La tcnica de la estimacin por intervalos consiste en asociar a cada muestra un intervalo que se
sospecha que debe contener al parmetro. A ste se le denomina intervalo de confianza
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A la probabilidad de
que hayamos acertado al decir que el parmetro estaba contenido en dicho intervalo se le denomina
nivel de confianza. Tambin se denomina nivel de significacin a la probabilidad de equivocarnos.

Intervalo para la media poblacional si se conoce la varianza
Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a poder conocer
con exactitud mientras que es desconocido. Sin embargo nos aproxima del modo ms simple a
la estimacin confidencial de medias.
Para estimar , el estadstico que mejor nos va a ayudar es , del que conocemos su ley de
distribucin, cuando n tiende a ser grande:
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga


Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que la ley de
distribucin no dependa de ningn parmetro desconocido, para ello tipificamos:


Este es el modo en que haremos siempre la estimacin puntual: buscaremos una relacin en la que
intervengan el parmetro desconocido junto con su estimador y de modo que estos se distribuyan
segn una ley de probabilidad que es bien conocida y a ser posible tabulada.
De este modo, fijado 0 s o s 1 consideramos la v.a. Z es N(0;1) y tomamos un intervalo que
contenga una masa de probabilidad de 1 - o. Este intervalo lo queremos tan pequeo como sea
posible. Por ello lo mejor es tomarlo simtrico con respecto a la media (0), ya que all es donde se
acumula ms masa (vase la figura No 1). As las dos colas de la distribucin (zonas ms alejadas
de la media) se repartirn a partes iguales el resto de la masa de probabilidad .

Fig No 1

Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga

Figura No 2: Intervalo de confianza para la media.

Un intervalo de confianza de (1- )100% para la media de la poblacin cuando se conoce la
varianza poblacional y suponiendo que se cumple el Teorema de lmite central (TLC) (tamao
muestral considerablemente grande) es:
n
z X
o

o
=
2 / 1

Adicionalmente, si se tienen muestras grandes y se desconoce la varianza, se puede aprovechar la
propiedad de consistencia de estas (
2 2
o S
, cuando n es grande), considerando la varianza
muestral como estimacin de la varianza poblacional ( s = o ). De este modo se construir un
intervalo de confianza aproximado para la media de la poblacin, cuando se desconoce la varianza,
pero se cumple el TLC.

Intervalo para la media con varianza desconocida
Como hemos mencionado, los casos anteriores se presentarn poco en la prctica, ya que lo usual es
que sobre una poblacin quizs podamos conocer si se distribuye normalmente, pero el valor exacto
de los parmetros y no son conocidos. De ah nuestro inters en buscar intervalos de confianza
para ellos. El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan
sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo siguiente:


Dado el nivel de significacin 1 - o buscamos en una tabla de t
v
el percentil (1 - o)100% ,
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
t
v, 1 - o/2
, el cual deja por encima de si la cantidad o/2 de la masa de probabilidad (figura 3). Por
simetra la distribucin de T- Student se tiene que , luego




Figura No 3: La distribucin de T- Student tiene las mismas propiedades de simetra que la normal
tipificada.

Es decir, el intervalo de confianza al nivel 1 - o para la esperanza de una distribucin gaussiana
cuando sus parmetros son desconocidos es:


Intervalos para la diferencia de medias de dos poblaciones
Consideremos el caso en que tenemos dos poblaciones de modo que el carcter que estudiamos en
ambas (X
1
y X
2
) son v.a. distribuidas segn leyes Normal


En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no
tienen por que ser necesariamente del mismo tamao (respectivamente n
1
y n
2
)

Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
Podemos plantearnos a partir de las muestras el saber qu diferencias existen entre las medias de
ambas poblaciones, o por ejemplo estudiar las relacin existente entre sus dispersiones respectivas.
A ello vamos a dedicar los siguientes puntos.

Intervalo para la diferencia de medias homocedsticas
Supongamos que dos poblaciones tengan varianzas idnticas (homocedasticidad), . Es decir

Por razones anlogas a las expuestas en el caso de una poblacin una poblacin, se tiene que

si v =n1 +n2 2 es grande, en este caso se cumple el teorema del limite central y se utilizar la
Distribucin Normal para estimar el intervalo. Sin embargo cuando se da el caso contrario. El
siguiente cociente se distribuye entonces como una T-de Student con v =n1 +n2 2 grados de
libertad


donde se ha definido a como la cuasivarianza muestral ponderada de
2
1

S y
2
2

S


Si 1- o es el nivel de significacin con el que deseamos establecer el intervalo para la diferencia de
las dos medias, calculamos el valor tv, 1-o/2 que deja por encima de si o/2 de la masa de
probabilidad de Tn
1
+ n
2
-2 . Luego el intervalo de confianza al nivel 1 - o para la diferencia de
esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es:
2 1
2 / 1 , 2 1 2 1
2 1
2 / 1 , 2 1
1 1 1 1
n n
S t X X
n n
S t X X
p v p v
+ + s s +
o o

con v = n1 + n2 2, sin embargo cuando v >30, t se aproxima a normal estndar Z, en cuyo caso se
utilizara:
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
|
|
.
|

\
|
+ + s s
|
|
.
|

\
|
+
2 1
2
2 / 2 1 2 1
2 1
2
2 / 2 1
1 1 1 1
n n
z X X
n n
z X X o o
o o


Ejemplo
Queremos estudiar la influencia que puede tener el tabaco con el peso de los nios al nacer. Para
ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al da y otras
que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:



En ambos grupos los pesos de los recin nacidos provienen de sendas distribuciones normales de
medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las
mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo.
Solucin:
Si X
1
es la v.a. que describe el peso de un nio que nace de madre no fumadora, y X
2
el de un hijo
de madre fumadora, se tiene por hiptesis que




Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos
estimar un intervalo de confianza para
2 1
, lo que nos dar la diferencia de peso esperado entre
un nio del primer grupo y otro del segundo. El estadstico que se ha de aplicar para esta cuestin
es:



Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
donde



Consideramos un nivel de significacin que nos parezca aceptable, por ejemplo o = 0,05, y el
intervalo buscado se obtiene a partir de: (ver la Figura 4)

Figura: Regin que se utiliza para calcular el intervalo de confianza.






con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo
de madre no fumadora al de otro de madre fumadora est comprendido con un nivel de confianza
del 95% entre los 0,068 Kg y los 0,731 Kg.
Intervalos de confianza para la proporcin
Cuando tenemos una variable dicotmica (o de Bernoulli) a menudo interesa saber en qu
proporcin de casos, p, ocurre el xito en la realizacin de un experimento. Tambin nos puede
interesar el comparar la diferencia existente entre las proporciones en distintas poblaciones.
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
Tambin es de inters calcular para un nivel de significacin dado, el tamao muestral necesario
para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.
Intervalo para una proporcin
Sean X, X
2
....X
p
una variable Bernuolli. Si queremos estimar el parmetro p, la manera ms natural
de hacerlo consiste en definir la suma de estas --lo que nos proporciona una distribucin Binomial.



y tomar como estimador suyo la v.a.

n
X
p =


Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en las n pruebas p
.
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normal cuando el
tamao de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno:



El estimador p
no es ms que un cambio de escala de X.

la siguiente aproximacin, para n grande (n>60):

Nos permite encontrar el intervalo de confianza al nivel de significacin o para t se considera el
intervalo que hace que la distribucin de Z N(0, 1) deje la probabilidad o fuera del mismo. Es
decir, se considera el intervalo cuyos extremos son los cuantiles o/2 y 1 - o/2. As se puede afirmar
con una confianza de 1 - o que:
la siguiente expresin:
n
p p
z p
n
p p
z p
) 1 (

) 1 (

2 / 1 2 / 1

+ < [ <

o o
con una confianza de 1 - o
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga

en caso de que no se cumpla el teorema del limite central para proporciones (n<60). Existe un
intervalo aproximado debido a Agresti- Coull en 1998
1
, que es util para estimar un intervalo de
confianza del 95.4% mejor que el intervalo de la normal, este es.

n
q p
p
n
q p
p
~
~ ~
2

~
~ ~
2

+ < [ <


Donde 2
~
+ = X X , 4
~
+ = n n y
n
X
p
~
~
~
=
Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se realiza un
muestreo aleatorio simple con n =100 personas y se obtienen 35% que votarn a favor y 65% que
votarn en contra (suponemos que no hay indecisos para simplificar el problema a una variable
dicotmica). Con un nivel de significacin del 5%, calcule un intervalo de confianza para el
verdadero resultado de las elecciones.
Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una variable
dicotmica:


El parmetro a estimar en un intervalo de confianza con 1 - o = 0,95 es p, y tenemos sobre una
muestra de tamao n =100, la siguiente estimacin puntual de p:




Sabemos que



En la prctica el error que se comete no es muy grande si tomamos algo ms simple como


1
Agresti A, Coull B A. Approximate is better than "exact" for interval estimation of binomial
proportions. The American Statistician 52, 119-126. 1998.

Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga

As el intervalo de confianza buscado lo calculamos como:
100
65 , 0 35 , 0
35 , 0
100
65 , 0 35 , 0
35 , 0
975 , 0 975 , 0

+ < [ <

z z

100
65 , 0 35 , 0
96 , 1 35 , 0
100
65 , 0 35 , 0
96 , 1 35 , 0

+ < [ <



444 , 0 257 , 0
0935 , 0 35 , 0 0935 , 0 35 , 0
< [ <
+ < [ <

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del
95%.

Figura: Regin a partir de la cual se realiza una estimacin confidencial
para una proporcin, con una confianza del 95%.



Eleccin del tamao muestral para una proporcin
En un ejemplo previo con una muestra de 100 individuos se realiz una estimacin confidencial,
con un 95% de confianza, del porcentaje de votantes a una cuestin en un referndum, obtenindose
un margen de error de 9,3 puntos.
Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta el 97%
(o = 0, 03) hemos de tomar una muestra lgicamente de mayor tamao, N.
Un valor de N que satisfaga nuestros requerimientos con respecto al error sera:
Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
2
2
2 / 1
) 1 (
c
o
p p z
n

>


En una poblacin supuestamente infinita (N > 20.000). Si la poblacin no es infinita (N < 20.000),
habr que hacer una correccin al tamao de muestra por finitud, esta es:
N
n
n
n
O
O
+
=
1

Donde n
O
es el tamao de la muestra para muestras infinitas. Adicionalmente habr que hacer una
correccin al tamao final de la muestra por la no respuesta. Si en una poblacin se conoce que la
tasa de no respuesta es |, el tamao final ser:
|
=
1
'
n
n ,
que es la muestra final corregida por la no respuesta.
Si en un principio no tenemos una idea sobre que valores puede tomar H, debemos considerar el
peor caso posible, que es en el que se ha de estimar el tamao muestral cuando p = q = 1/2. As:

2
2
2 / 1
4c
o
>
z
n
; Cuando no se conoce el valor de p

Ejemplo
Continuemos el ltimo ejemplo. Se quiere estimar el resultado de un referndum mediante un
sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el tamao de
muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con un error del 1%
Solucin:
Como no se tiene una idea previa del posible resultado del referndum, hay que tomar un tamao de
muestra, N, que se calcula mediante:

773 . 11 25 , 772 . 11
01 , 0 4
17 , 2
01 , 0 4
2
2
2
2
985 , 0
~ =

>
z
n

Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
As para tener un resultado tan fiable, el nmero de personas a entrevistar debe ser muy elevado --lo
que puede volver excesivamente costoso el sondeo.
Problemas
Ejercicio 1. Un investigador est interesado en estimar la proporcin de aceptacin de un producto
escolar en el mercado. Su experiencia le indica que sera sorprendente que tal proporcin supere el
valor de 1/3. Qu tamao de muestra debe tomar para estimar la anterior proporcin, con una
confianza del 99%, para que el valor estimado no difiera del valor real en ms de 0,03?.
Ejercicio 2. Un cardilogo se encuentra interesado en encontrar lmites de confianza al 90%, para
la presin sistlica tras un cierto ejercicio fsico. Obtenerlos si en 50 individuos se obtuvo ,
y suponemos que el comportamiento de la v.a. es normal.
Ejercicio 3. En una muestra de 25 escolares, se obtuvo un peso medio de 40 kg y una desviacin
tpica de 9.4 kg. Obtener un intervalo de confianza (al 95%) para el peso medio poblacional de
escolares.
Ejercicio 4. En un determinado servicio de odontologa escolar se sabe que el 22% de las visitas
llevan consigo una extraccin dentaria inmediata. En cierto ao, de 2.366 visitas, 498 dieron lugar a
una extraccin inmediata. Entran en contradiccin las cifras de ese ao con el porcentaje
establecido de siempre?
Ejercicio 5. Se desea estimar el tiempo medio para terminar una tarea. Se sabe que la variacin de
este oficio es mximo de 5 segundo, se tom una muestra preliminar de 5 individuos, en los que se
obtuvieron los siguientes tiempos (en segundos): 7, 80, 67, 91, 73.
Determine un intervalo de confianza del 90% para el tiempo medio para terminar la tarea,
suponiendo que tal tiempo distribuye normal en los profesores.

Ejercicio 6. Los siguientes representan los tiempos de duracin en minutos que representan dos
pruebas matemticas en dos diferentes grupos

Grupos Tiempo en minutos
I 103 94 110 87 98
II 97 85 123 92 175 88 118

Suponiendo normalidad en , los tiempos, halle un intervalo de confianza del 95% para la diferencia
entre las medias entre los dos grupos. Sugerencia. Debe probar antes homocedasticidad o
heterocedasticidad de las varianzas.

Ejercicio 7. Un fisioterapeuta desea estimar con el 99% de confianza, la media de fuerza mxima
de un msculo particular en cierto grupo de individuos. Se inclina a suponer que los valores de
dicha fuerza muestran una distribucin aproximadamente normal con una varianza poblacional de
144. Una muestra de 15 individuos. Quienes participaron en el experimento, proporcionaron una
media de 84.3. Halle dicho intervalo de confianza.


Profesor. Juan de J Sandoval
Estadstico-Epidemilogo
______________________________________ Colaboracin Universidad de Mlaga
Ejercicio 8. Se realiz un estudio para investigar un nuevo mtodo de enseanza de las
matemticas. Se realizo un primer examen antes de aplicar el mtodo (multimedia), despus de un
tiempo de aplicar el mtodo se realizo nuevamente el examen. Los resultados fueron los siguientes
(calificacin de 0 a 5).

ANTES 1,00 2,10 2,10 1,20 2,00 2,10 1,40 2,30 2,50 3,00 2,00 3,00 2,20 3,40 2,90 1,30
DESPUES 2,30 2,80 3,00 2,00 3,00 3,60 2,20 4,00 3,10 4,60 3,00 3,00 1,80 4,60 2,10 3,10 1,60 2,40 1,90

Suponiendo normalidad en las notas de matemticas. Puede ud concluir que el mtodo fue efectivo
con un 95% de confianza?