Вы находитесь на странице: 1из 7

CMO CALCULAR EL TAMAO DE MUESTRA

El problema
El problema a resolver es el siguiente: queremos estudiar un
universo de personas (por ejemplo, personas de Brasil entre 15
y 65 aos, un total de 136 millones de personas) mediante una
encuesta a una muestra de este universo. Por el hecho de que la
muestra es de un tamao inferior al total del universo, vamos a
cometer cierto error en los datos que observemos. Si estamos
dispuestos a aceptar un % de error determinado, cul es el
tamao de muestra mnimo que necesito encuestar?

La forma en que mido el error


Cuando quiero fijar el mximo error que estoy dispuesto a
aceptar en una encuesta, lo habitual es referirnos a dos
parmetros: el margen de error y el nivel de confianza.
Qu significa cada cosa?
El margen de error es el intervalo en el cul espero encontrar
el dato que quiero medir de mi universo. El dato puede ser en
general de dos tipos: una media o una proporcin. Por ejemplo,
si quiero calcular la media de hijos que tienen los habitantes de
Brasil entre 15 y 65 aos, me gustara poder decir que la media
es 2,1 hijos/persona con un margen de error del 5%. Eso
significara que espero que la media est entre 2,1 5% y 2,1 +
5%, lo que da un intervalo de 2,00 <-> 2,21.
Si quisiera definir un margen de error para una proporcin,
procedera de forma similar. Por ejemplo, me gustara poder
estimar el nmero de personas de Brasil entre 15 y 65 aos que
viven en un piso de propiedad, afirmando que son un total de
61.35 millones personas (45% de la poblacin) con un margen
del 5% de error, lo que significara que la realidad est entre
68 millones (50%) y 54,5 millones (40%).

El nivel de confianza expresa la certeza de que realmente el


dato que buscamos est dentro del margen de error. Por
ejemplo, siguiendo con el caso anterior, si obtenemos un nivel
de confianza del 95%, podramos decir que el porcentaje de
personas de mi universo que viven en un piso de propiedad, en
el 95% de los casos se encontrar entre el 40% y el 50%. O
dicho de otra manera, si repitiese 100 veces mi encuesta
seleccionando muestras aleatorias del mismo tamao, 95 veces
la proporcin que busco estara dentro del intervalo y 5 veces
fuera.

Relacin entre error y tamao de muestra


Margen de error, nivel de confianza y tamao de la muestra
siempre van de la mano. Si quiero obtener un margen de error y
un nivel de confianza determinado (por ejemplo, error del 5%
con confianza 95%) necesitar un tamao de muestra mnimo
correspondiente. Modificar cualquiera de los 3 parmetros,
altera los restantes:
1. Reducir el margen de error obliga a aumentar el tamao de la
muestra.
2. Aumentar el nivel de confianza obliga a aumentar el tamao
de la muestra.
3. Si aumenta el tamao de mi muestra, puedo reducir el
margen de error o incrementar el nivel de confianza.
Pero, qu frmulas gobiernan la relacin entre los parmetros
anteriores? El conjunto de teoremas que se conocen como LEY
DE LOS GRANDES NMEROS viene a nuestro rescate. Estos
teoremas son los que dan soporte matemtico a la idea de
que el promedio de una muestra al azar de una poblacin de
gran tamao tender a estar cerca de la media de la poblacin
completa.
En
concreto,
el teorema
del
lmite
central demuestra que, en condiciones muy generales, la suma
de muchas variables aleatorias independientes (en el ejemplo,
los habitantes de Brasil que tienen piso de propiedad) se

aproxima
bien
a
una
llamada campana de Gauss).

distribucin

normal (tambin

Gracias al teorema del lmite central, cuando calculamos una


media (p.e. hijos por persona) o una proporcin (p.e. % de
personas con piso de propiedad) sobre una muestra, podemos
saber cul es la probabilidad de que el universo tenga ese
mismo valor o un valor parecido. El valor que calculemos en la
muestra ser el ms probable para nuestro universo y a medida
que nos alejamos de este valor (por arriba o por abajo) cada vez
sern valores menos probables. En mi ejemplo, si el 45% de mi
muestra de brasileos tiene piso de propiedad, puedo afirmar
que 45% es el valor ms probable del universo estudiado. Un
porcentaje de 44% ser algo menos probable, 43% an menos,
etc Lo mismo sucede para valores superiores: 46% es menos
probable que 45%.
La forma en que disminuye la probabilidad a medida que me
alejo de la media corresponde a una distribucin gaussiana.
Podemos fijar un intervalo alrededor del valor ms probable, de
manera que englobemos el 95% de la probabilidad (nivel de
confianza). La distancia a la que me tengo que alejar del valor
ms probable para englobar este 95% determina el margen de
error.

Segn el grfico anterior, para una distribucin normalizada


(media 0, desviacin 1) si queremos englobar los valores que
cubren el 95% de los casos, tengo que definir un margen de
error entre -1,96 y +1,96 de la media. Si quiero cubrir el 99% de
los casos, el margen debe alejarse hasta +-2,58.

Y entonces, qu est haciendo la calculadora?


Conociendo la propiedad anterior, es muy fcil adaptar las
frmulas de la distribucin gaussiana a cualquier caso (sea cul
sea la media y desviacin). Vamos a ver con detalle el caso de la
estimacin de una proporcin. Para ello usamos la siguiente
frmula:

Donde:
n = El tamao de la muestra que queremos calcular
N = Tamao del universo (p.e. 136 millones de brasileos entre
15 y 65 aos)
Z = Es la desviacin del valor medio que aceptamos para lograr
el nivel de confianza deseado. En funcin del nivel de confianza
que busquemos, usaremos un valor determinado que viene dado
por la forma que tiene la distribucin de Gauss. Los valores ms
frecuentes son:
Nivel de confianza 90% -> Z=1,645
Nivel de confianza 95% -> Z=1,96
Nivel de confianza 99% -> Z=2,575
e = Es el margen de error mximo que admito (p.e. 5%)

p = Es la proporcin que esperamos encontrar. Este parmetro


suele confundir bastante a primera vista: cmo voy a saber qu
proporcin espero, si justamente estamos haciendo una
encuesta para conocer esta proporcin?
La razn de que esta p aparezca en la frmula es que cuando
una poblacin es muy uniforme, la convergencia a una poblacin
normal es ms precisa, lo que permite reducir el tamao de
muestra. Si en mi ejemplo, yo espero que como mximo el % de
personas que tengan un piso de propiedad sea un 5%, podra
usar este valor como p y el tamao de mi muestra se reducira.
Si por el contrario, desconozco completamente qu puedo
esperar, la opcin ms prudente sera usar el peor caso: la
poblacin se distribuye a partes iguales entre propietarios y no
propietarios, por lo que p=50%.
Como regla general, usaremos p=50% si no tengo ninguna
informacin sobre el valor que espero encontrar. Si tengo alguna
informacin, usar el valor aproximado que espero (ajustando
hacia el 50% ante la duda).
La frmula anterior podemos simplificarla cuando trabajamos
con universos de tamao muy grande (se considera muy grande
a partir de 100.000 individuos), resultando lo siguiente:

Ejemplo: Retomamos nuestro caso anterior. Tenemos una


poblacin de 136 millones de brasileos entre 15 y 65 aos,
queremos saber qu % de ellos vive en un piso de propiedad,
con un margen de error del 5% y un nivel de confianza del 95%.
Supondremos que no tenemos ninguna informacin previa sobre
cul puede ser el % de propietarios que podemos obtener en la

encuesta. En este caso puedo usar la frmula simplificada pues


136 millones > 100.000, y usaremos p=50% pues no tengo
informacin previa sobre el resultado esperado:
n = 1,962 * 0,5 * (1 0,5) / 0,052 = 384,16 -> 385
Debo encuestar por lo tanto a 384 personas para mantenerme
dentro de los niveles de error definidos.
Si a raz de un estudio realizado el ao anterior obtuvimos que el
% de brasileos propietarios de su vivienda era del 20%, y se
espera que el dato de este ao no haya variado en ms de 5
puntos (entre 15% y 25%), podramos reemplazar p por el peor
caso esperado = 25%. El resultado sera:
n = 1,962 * 0,25 * (1 0,25) / 0,052 = 288,12 -> 289

Y si estoy tratando de estimar una media


Las frmulas anteriores se emplean para determinar el tamao
de muestra que necesito cuando quiero estimar una proporcin,
pero existen unas frmulas equivalentes cuando lo que trato de
estimar es una media (por ejemplo, la edad media de los
habitantes de un pas). Las frmulas son idnticas teniendo en
cuenta que p(p-1)en realidad es una medida de la varianza de
la poblacin. Si estimo una media, debo usar una estimacin de
dicha varianza en la frmula, en lugar de p(p-1). De esta forma,
el tamao de la muestra cuando trabajo con universos finitos es

Donde
2: Es la varianza que esperamos encontrar en la poblacin (es
el cuadrado de la desviacin estndar, ). Nuevamente, es un

dato que debemos obtener de un estudio previo o de una


estimacin propia.
Nuevamente, podemos simplificar esta frmula cuando el
tamao del universo es muy grande.

Ejemplo: Supongamos que queremos estimar cual es el


coeficiente intelectual medio de la poblacin mundial con un
margen de error de +-20 y un nivel de confianza del 99%
(corresponde a Z=2,575). Sabemos de un estudio anterior que
la desviacin estndar de este coeficiente intelectual es 50.
Usando la frmula para universos grandes (puesto que la
poblacin mundial es mayor a 100.000 individuos), tendramos
n = 2,5752 * 502 / 202 = 41,44 -> 42