Академический Документы
Профессиональный Документы
Культура Документы
Decidir cul es el mejor tamao para una muestra es una de las preocupaciones principales
relativas al muestreo. El primer principio es que no existe un tamao bueno para todo. Segn el
tipo de muestreo que se vaya a realizar, los objetivos que se persigan, las caractersticas de la
poblacin y las condiciones en las que se van a realizar las estimaciones, sern aconsejables
unos tamaos u otros. Podra parecer que una muestra es mejor cuanto ms grande. Pues s,
podra parecerlo, pero no es cierto. Cuanto ms grande las estimaciones sern ms precisas y
con menos riesgo de error. Pero tambin saldrn ms caras y tal vez se reduzca el control en la
recogida de datos, por lo que, repito, no exite un tamao bueno para todo.
Este documento tampoco es bueno para toda decisin de tamaos de muestra. Se ha pensado
para unas situaciones y no para cualesquiera. Pero no nos preocupemos en exceso. Mi
experiencia es que buena parte de las investigaciones cientficas publicadas en revistas de
prestigio hacen muestreos que dejan bastante que desear. Intentaremos no ser peores sino
mejorar un poco en panorama.
Principios generales
Tamao de la poblacin
Parece lgico suponer que conforme aumenta el tamao de la poblacin, tambin debe hacerlo el
de la muestra. En cierta medida es as. Pero la relacin entre ambos no es lineal, sino logartmica.
Vale, es un palabrejo. Quiero decir que conforme la poblacin es ms grande tambin debe serlo
la muestra, pero menos. El objetivo de la muestra es permitirnos realizar estimaciones sobre
valores de la poblacin. Es necesario partir de un tamao mnimo. Estaremos de acuerdo en que
una muestra de n = 1 no sirve para generalizar nada cuando medimos variables que tienen alguna
variacin en la poblacin. Si lo que queremos medir es si la gente se muere al quitarle la cabeza,
no hace falta obtener ninguna muestra, pues ya sabemos que la cabeza es fundamental para
mantener la vida (aunque la utilicemos slo un poco). Pero para averiguar qu piensan las
personas sobre el precio de la remolacha o en qu medida estn de acuerdo con la gestin de un
personaje poltico, ya sabemos que las opiniones difieren y que no hay que jugrsela con una
muestra de n = 1. Y n = 2? No hemos mejorado mucho.
Por ejemplo, vamos a realizar una estimacin por intervalo de una proporcin. Suponemos que la
varianza poblacional es 0,25. Utilizamos un error de precisin de 0,03. Y el riesgo de error es 0,05.
Vamos a ir considerando tamaos de poblacin como potencias de 10. Vers cmo la muestra no
se multiplica del mismo modo:
Esta circunstancia es trascendente. Imagina que queremos realizar estimaciones en una regin
con diez provincias. Cada provincia cuenta con 10 mil habitantes. Para hacer estimaciones con el
error de precisin y el riesgo de error considerados, necesitamos una muestra de 1056 personas
para toda la regin. Pero si queremos hacer estimaciones por provincia, necesitamos 965 para
cada una; es decir, 9650 (9 veces ms!) en total.
Variacin en la poblacin
Tambin es lgico pensar que conforme vare ms lo que queremos conocer, ser necesario
indagar en ms unidades. Si la gente opina de forma muy similar con respecto a algo, bastar con
preguntar a unas pocas. Si queremos hacer un estudio sobre el gasto de los hogares andaluces
en alimentacin, tal vez necesitemos una muestra grande porque sospechamos que hay muchas
formas diferentes de organizar la economa familiar y muchas peculiaridades.
Vamos a ver esta influencia con otra tabla, esta vez partimos de un tamao de poblacin
constante (diez mil unidades) para estimar una proporcin con un error de precisin de 0,03;
riesgo de equivocacin de 0,05; y una varianza que vamos a considerar entre 0,10 y 0,25;
utilizando intervalos de 0,03.
He dicho que este documento se escribe suponiendo que vamos a realizar estimaciones de
medias aritmticas o de proporciones. No he dicho nada de varianzas o desviaciones tipo. Se
supone tambin que si no conocemos la media o la proporcin poblacional cmo vamos a
conocer su desviacin? Qu hacemos entonces?
Cuando ocurre lo habitual, es decir, cuando no sabemos qu valor tiene la variacin poblacional,
adoptamos lo que se llama una postura conservadora. Ya hemos visto que conforme es mayor la
variacin, tambin es mayor el tamao de la muestra. Imagina que infravaloramos la variacin,
que es 0,22 en lugar de 0,13 como pensamos. La muestra va a ser ms pequea de lo que
debera ser (calcularemos 526 en lugar de 859 que es lo que deberamos haber hecho). Despus,
a la hora de hacer las estimaciones a partir de los datos de la muestra que hemos obtenido, nos
tropezaremos con las consecuencias del error: por culpa de un tamao de muestra demasiado
pequeo, nuestras estimaciones sern ms errneas o ms imprecisas o ambas cosas a un
mismo tiempo.
Qu valor tiene la varianza entonces, desde una perspectiva conservadora? Hemos de pensar
en una situacin lmite: la mxima varianza que se pueda obtener. En el caso de las proporciones
es fcil. La varianza de proporciones es p(1-p). Haz todas las pruebas que quieras, la varianza
mxima ocurre cuando p=0,5, lo que lleva a S2=0,5(1-0,5)=0,25. Asi que si no sabemos qu valor
tiene la varianza poblacional cuando estamos estimando proporciones, vale con la postura
conservadora de que S2=0,25.
En las medias aritmticas es ms complicado. Es muy difcil que el valor de la desviacin tipo
llegue a igualar el valor de la media aritmtica. Como la varianza es el cuadrado de la desviacin
tipo, lo que podemos hacer es imaginar un intervalo de valores esperables para la media de la
poblacin. Tomamos el lmite superior del intervalo y lo elevamos al cuadrado. He ah una
estimacin conservadora para la varianza poblacional. Por ejemplo, vamos a estimar el nmero de
peines que compra una persona en una poblacin, cada ao. No s nada sobre ello, pero dudara
que la media sea superior a 3. Entonces, podemos utilizar 32=9 como estimacin conservadora de
la varianza.
Error de precisin
Llamamos error de precisin al radio del intervalo de estimacin. Podemos pensar en ello con dos
formas diferentes para referirse a lo mismo:
Luego, a mayor error de precisin, menos precisin (ms imprecisin). El ideal es buscar la
mxima precisin posible (el mnimo valor para el error de precisin). Pero es lgico pensar que
conforme hacemos el intervalo ms pequeo, haya que exigir un tamao de muestra ms grande
o correr ms riesgo de equivocarse al suponer que el parmetro se encuentra dentro del intervalo.
Como el riesgo es algo que preferimos no tocas, est claro que la aspiracin de un error de
precisin mnimo debe buscarse mediante un tamao de muestra mximo, en las circunstancias
concretas donde se defina tal cosa.
Conforme aumenta el tamao de la muestra se obtienen valores de los estadsticos que deben
parecerse ms al valor del parmetro, si todo lo dems sigue igual. La tabla siguiente muestra
esta relacin, partiendo de una estimacin por intervalo de una proporcin, mediante un riesgo de
error de 0,05 y una poblacin de tamao 10 mil y varianza de 0,25.
ep 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10
n 4900 1937 965 567 370 260 193 148 118 96
Como eso de plantearse la sensacin positiva de la amplitud de un intervalo es algo que roza lo
asombroso para muchas mentes y muchos corazones, podemos pensar en estrategias
aparentemente menos sentimentales. Una de ellas es considera un error de precisin que no vaya
ms all de un 10% del valor supuesto para el parmetro. Para una proporcin del 50%, un error
de precisin del 5%. Para una proporcin del 3%, un error de precisin de 0,3%. Si estimamos
una media aritmtica, pongamos que el nmero medio de litros de bebida alcohlica que se
consumen en una familia espaola durante las vacaciones de Navidad, y creemos que ese valor
debe encontrarse entre los 15 y 25 litros, utilizamos el centro (20 litros) como referencia y un error
de precisin de la dcima parte, es decir, de 2 litros.
La sugerencia del prrafo anterior slo tiene sentido en situaciones de prdida total de referentes,
que es lo que suele ocurrir, por ejemplo, cuando hay que hacer un trabajo para una asignatura. En
una situacin prctica se utilizan los referentes habituales. As, por ejemplo, si vamos a estimar el
nmero de escaos que va a ocupar un partido en el Congreso de los Diputados tras unas
elecciones generales, lo habitual es procurar un error de precisin no superior a 2 escaos.
Riesgo de error
Como ya sabemos, lo que llamamos familiarmente con riesgo de error es la expresin abreviada
de otra ms larga: riesgo de equivocarse al afirmar que el parmetro se encuentra en el intervalo
de confianza que se propone. Es un valor de probabilidad que, como todos los valores de
probabilidad, debe encontrarse entre 0 y 1.
Como ocurre con el error de precisin, es el equipo investigador quien decide un valor para el
riesgo de error. Cmo escogerlo? Sabemos que a mayor riesgo, menor tamao de muestra,
puesto que somos menos exigentes con la situacin. Lo ideal es no equivocarse, lo que es
imposible de garantizar. As que aspiramos al mnimo error en la prctica, lo que aconseja el
mximo tamao de muestra. Observa la relacin en la siguiente tabla, para estimacin de una
proporcin con una poblacin de 10 mil unidades, una varianza poblacional de 0,25 y un error de
precisin de 0,03.
riesgo 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10
n 1557 1307 1157 1049 965 895 836 785 740 700
Ya ves que su efecto no es tan drstico como el del error de precisin. Pero, volvamos a la
pregunta Cmo escoger un valor para el riesgo de error?
Lo suyo sera pensar en cules son las consecuencias que se derivan de equivocarse. Cuanto
ms graves o indeseables sean, menor tendr que ser el riesgo de llegar a ello. Imagina cul es el
valor de riesgo que consideraras en las siguientes ocasiones: 1) si te equivocas mueres pues
hablamos del riesgo de tener un accidente de trfico, 2) si te equivocas no tendrs el yogurt gratis,
pues hablamos de tomar una decisin sobre qu calle tomar para ir a la universidad sabiendo que
en las inmediaciones estn repartiendo yogurt.
Tamao y objetivos
Los estudios tienen varios objetivos de anlisis. En principio, habra que calcular un tamao de
muestra para cada objetivo. Imagina este caso: tenemos dos proporciones que estimar. Una
consideramos que ronda el valor 40% (es decir, una varianza de [0,4(1-0,4)=] 0,24; y un error de
precisin de [0,4/10=] 0,04). En una poblacin de tamao prcticamente infinito y un riesgo de
0,05, el tamao de muestra es n = 577. De la otra proporcin suponemos que tiene un valor en
torno al 10% (es decir, una varianza de [0,1(1-0,1)=] 0,09; y un error de precisin de [0,1/10=]
0,01). En una poblacin de tamao prcticamente infinito y un riesgo de 0,05, el tamao de
muestra es n = 3458. Qu hacemos?
Una postura conservadora aconseja tomar el tamao ms grande de entre todos los calculados.
En este caso es 3458. No obstante, puede ser muy exagerado. En tales situaciones, podemos
prescindir de los tamaos extremos, sabiendo que las estimaciones que realizaremos despus
para esos objetivos tendrn menos precisin o seguridad.
Como es temporalmente costoso calcular un tamao de muestra para cada objetivo, es raro que
se lleve a la prctica. Hay dos soluciones. Una es considerar el objetivo estrella o ms importante.
La otra es considerar que no tenemos ni idea de nada y adoptar una postura conservadora que
llevar hacia un tamao mximo de muestra.
Existen varias utilidades que permiten calcular el tamao de una muestra. Hay de pago y gratis.
Las hay de Internet y de puesto local. Las hay en Windows y en otros sistemas. Las hay ms
claras y ms oscuras, con ms o menos situaciones de consideracin, etc.
Una de las utilidades de libre distribucin, pensadas para cubrir todas las situaciones expuestas
aqu, es MAS. Se puede bajar de
http://www.personal.us.es/vmanzano/distribuye/programas.htm
La siguiente figura muestra una pantalla tpica para MAS. Como observars, se encuentran todas
las variables consideradas: varianza de la poblacin, riesgo de error, error de precisin, tamao de
la poblacin y tamao de la muestra.
Hay dos aspectos interesantes para resaltar. El primero es que MAS sirve tambin para poner
cualquiera de las variables en funcin de las otras. Observa el recuadro de la derecha de la
La segunda caracterstica de inters a resaltar es que MAS genera un informe donde consta la
situacin de partida, los valores de las variables independientes, la frmula de clculo y el
resultado. Se accede a esta generacin pulsando el botn Leer / Escribir y escogiendo la opcin
Generar.
* Contexto:
Muestreo Aleatorio Simple desde una poblacin de tamao infinito.
Estimacin de una media o proporcin.
Supuesta una distribucin muestral normal.
Tiempo de interaccin: 01:43:14.
* Variables:
Variable dependiente: Tamao de la muestra (n)
Variables independientes:
Varianza poblacional (V) : 0,09
Distancia estandarizada (Z): 1,96
Probabilidad de error (p) : 0,05
Error de precisin (E) : 0,01
* Expresin de clculo:
n = V*Z/E
* Resultado: 3458