Вы находитесь на странице: 1из 7

IT-01 METODOLOGÍA DE MUESTREO

METODOLOGÍA DE MUESTREO
Introducción

En este documento trataremos de definir los conceptos básicos necesarios para


calcular una muestra representativa sobre el total de una población,
considerando como tal al conjunto de individuos de los que se quiere obtener una
información. Esto es, si deseamos conocer la opinión general de un total de
clientes, podríamos preguntarles a todos y sacar la media aritmética, pero para
aquellos casos en los que este número de clientes es muy elevado, la estadística
nos permite tomar sólo una muestra de forma aleatoria. De este modo,
preguntando únicamente a los clientes resultantes de la muestra, los porcentajes
medios que obtendremos de sus respuestas serán los mismos que si
preguntásemos al total de la población. El error que se comete debido al hecho de
que se obtienen conclusiones del total de una población a partir del análisis de sólo
una parte de ella, se denomina error de muestreo.

Obtener una muestra adecuada significa lograr una versión


simplificada de la población, que reproduzca de algún modo
sus rasgos básicos.

Cálculo del tamaño muestral.

Cada estudio tiene un tamaño muestral idóneo, que permite comprobar lo que se
pretende con la seguridad y precisión fijadas por el investigador. Esta seguridad y
precisión dependerán del rango de posibles respuestas (necesitaremos una muestra
más pequeña si las opciones son si o no, que si por el contrario la opción es elegir
entre 1 y 10). Así mismo, también influirá si el estudio se realiza sobre una
población finita o infinita.

FÓRMULAS:

Dos opciones de respuestas(Ejem: si o Varias opciones de respuestas (ejem:


no) valora entre x e y)

Población 2
NS2
finita n = Zα
i2 (N-1)+Zα2·S2

2 S2
Población n=Zα
infinita i2

A CONTINUACIÓN EXPLICAMOS CADA UNO DE LOS PARÁMETROS


QUE INTERVIENEN EN LAS FÓRMULAS.

Página 1 de 7
IT-01 METODOLOGÍA DE MUESTREO

• n = tamaño de la muestra representativa que deseamos obtener.


• N = tamaño de la población.
• Zα= Valor correspondiente a la distribución de Gauss (siendo α el nivel de
confianza elegido). Habitualmente los valores escogidos son Zα= 1,96 para
α=0,05 y Zα= 2,57 para α =0,01.

¿Qué significa esto?. La distribución de Gauss es la denominada distribución


normal y responde a la forma representada a continuación:

Fig. 1

Bajo esta campana está representada una población concreta. Sea cúal sea
el objeto del estudio o del análisis estadístico, existirá una mayoría de la
población que se encontrará ubicada en la parte central rayada de la fig. 1
(es decir si estamos midiendo la satisfacción de los clientes frente a un
servicio concreto, la mayoría de los clientes tendrán una percepción similar,
parte rayada), aunque siempre existirán opiniones dispersas (situadas en los
extremos), que por su poca representatividad y distancia a la parte más alta
de la campana, podrán ser despreciables. Por tanto, los valores de Zα
dependerán de del nivel de confianza α escogido:

Consideramos que todas las respuestas son fiables.


Nos sirven el 100%

Consideramos que el 1% de las respuestas son de


clientes muy satisfechos o muy insatisfechos con
respecto a la media, por tanto existirá un 1% de
encuestas que entrarán en el análisis que no nos
aportarán nada.

Consideramos que el 5% de las respuestas son de


clientes muy satisfechos o muy insatisfechos con
respecto a la media, por tanto existirá un 5% de
encuestas que entrarán en el análisis que no nos
aportarán nada.

Consideramos que el 10% de las respuestas son de


clientes muy satisfechos o muy insatisfechos con
respecto a la media, por tanto existirá un 10% de
encuestas que entrarán en el análisis que no nos
aportarán nada.

Fig. 2

Por tanto, el valor de z (siendo z una variable normal centrada y reducida),


elimina del intervalo ± zα una proporción a de los individuos.

Página 2 de 7
IT-01 METODOLOGÍA DE MUESTREO

• i = error de la estimación (tambien denominado e). Error que se prevé


cometer. Por ejemplo, para un error del 10%, introduciremos en la fórmula
el valor 0,1. Así, con un error del 10%, si el parámetro estimado resulta del
80%, tendríamos una seguridad del 95% (para α =0,05) de que el
parámetro real se sitúa entre el 70% y el 90%. Vemos, por tanto, que la
amplitud total del intervalo es el doble del error que introducimos en la
fórmula. (Ver fig. 4)
• Nivel de confianza (1-α): habitualmente 95% o 99%. Probabilidad
complementaria al error admitido α

Varias opciones de respuestas (ejem: valora


Dos opciones de respuestas(Ejem: si o no)
entre x e y)
• p = proporción en que la variable S2 o varianza/S o desviación típica: para
estudiada se da en la población. estos casos en los que existen un mayor
Prevalencia esperada del parámetro a número de posibles respuestas, la varianza
evaluar. En caso de desconocerse, nos dice cúal es el valor medio de la
aplicar la opción más desfavorable dispersión de las mismas respecto a la
(p=0,5), que hace mayor el tamaño media de dichas respuestas. Es decir,
muestral (ver fig. 3). respecto a la parte más alta de la campana
• q = 1 - p. de Gauss, cúal es el rango de respuestas
que estarían incluidos dentro del nivel de
confianza (1-α). Su fórmula es:
¿Cómo escogemos el nivel de
confianza?

El nivel de confianza (α) es el intervalo en


el cual existe una probabilidad 1 - α de
que esté contenido el parámetro p. Este
intervalo está comprendido entre +zα y -
OPCIÓN 1. NO EXISTEN ESTUDIOS
zα. En la figura 3 podemos ver estas
PREVIOS: En este caso, lo normal es que
probabilidades y las puntuaciones zα que
no se conozca ni la media ni la desviación
les corresponden. típica de la población, por tanto no
tendríamos información para aplicar la
fórmula y obtener la varianza.

En este caso tendremos que hacer una


estimación de estos valores. Para ello
tomaremos una muestra piloto de la
población np y sobre esta calcularemos lo
que se denomina la cuasi varianza:
Fig. 3
• Si np ≤ 30: es mejor estimar la varianza de
El resto de valores serían los mismos, pero en la población, mediante la cuasi varianza:
orden inverso (los valores de p pasarían a
ser los de q y al revés, ya que tal y como
decíamos q=1-p). ∑(Xi-X)2
S2n-1=
En la aplicación de las fórmulas para el
n- 1
cálculo del tamaño de la muestra suele
presentarse el problema de determinar el la cuasi varianza de la muestra, es un
valor de p. Esta dificultad se puede estimador centrado de la varianza de la
solventar de una de las siguientes población. A partir de la cuasi varianza, la
formas: varianza se calcula aplicando la siguiente
fórmula:

Página 3 de 7
IT-01 METODOLOGÍA DE MUESTREO

Dos opciones de respuestas(Ejem: si o no) Varias opciones de respuestas (ejem: valora


entre x e y)
OPCIÓN 1. NO EXISTEN ESTUDIOS
PREVIOS: Por la teoría de probabilidad se
sabe que la suma de probabilidades tiene
que ser igual a 1. En el caso que nos
ocupa, solo hay dos posibilidades: que • Si np > 30: Para valores grandes de
dicha variable se dé en la población np es prácticamente igual, tomar
(probabilidad p) o que no se dé como estimador de la varianza de la
(probabilidad q). Aplicando lo anterior población, la varianza o la cuasi
tendremos que p + q = 1. Como lo que varianza de la muestra, es decir la
nos interesa son los productos pq, vamos varianza calculada de esta muestra
a ver qué valores pueden tomar cada uno preliminar puede entonces utilizarse
de ellos y su producto: en la fórmula general. Para conocer
cómo es la aplicación de dicha
Como se puede observar el valor pq más fórmula, pasamos a la Opción 2.
elevado es el que corresponde a p = q =
0,5. Ese será el caso más desfavorable, OPCIÓN 2. EXISTEN ESTUDIOS
puesto que al estar en el numerador de PREVIOS: Para su aplicación
ambas fórmulas implica que, cuanto más analizamos una a una las respuestas de
elevado sea, mayor tendrá que ser la las distintas encuestas a cada una de
muestra, por lo tanto éste será el valor las preguntas. Suponemos una
que se tendrá que tomar cuando no se encuesta con un rango de respuesta
tenga ninguna información. entre 1 y 4, que en un estudio previo
se ha pasado a 5 clientes (n=5).
A un riesgo α = 0,05 le corresponde un Aplicando la fórmula:
valor de zα = 1,96 ≈ 2, si tomamos p = q
= 0,5 y sustituyendo estos valores en las Suponemos las siguientes respuestas:
fórmulas que dan el tamaño de la
muestra, quedan como sigue:
• Cuestion 1: 1, 2, 2, 3, 4
• Cuestión 2: ……………………
Población • Cuest………………………………
finita N
n=
i2(N-1)+1
Población Para aplicar la fórmula sacamos la
infinita 1 media (= sumatorio de las respuestas
n= entre el número total de encuestas
i2 consideradas)

que, aplicándolas para diferentes Lo aplicamos para la cuestión 1:


márgenes de error, nos permitirán
determinar el tamaño de la muestra. 1+2+2+3+4.
X= = 2,4
En el caso de poblaciones muy grandes 5
(superiores a 10.000) y con las
condiciones establecidas (riesgo = 0,05; Por tanto calculamos la (Xi – X)2 para
zα = 1,96 ≈ 2; p = q = 0,5), aplicaríamos cada una de las respuestas a la
la fórmula para poblaciones infinitas, cuestión 1, serán:
tenemos que, para un margen de error i,
el tamaño de la muestra es el que se (Xi1-X)2= -1,42=1,96
especifica a continuación:
(Xi2-X)2= -0,42=0,16

Página 4 de 7
IT-01 METODOLOGÍA DE MUESTREO

Dos opciones de respuestas(Ejem: si o no) Varias opciones de respuestas (ejem: valora


entre x e y)

(Xi3-X)2= -0,42=0,16

(Xi4-X)2= -0,62=0,36

fig. 4 (Xi5-X)2= -1,62=2,56

En el caso de poblaciones finitas, con las Por tanto:


condiciones establecidas (riesgo a = 0,05;
zα = 1,96 ≈ 2; p = q = 0,5), si aplicamos
la fórmula anterior, tenemos el tamaño de
la población para diferentes márgenes de
error, que se indica en la figura 5.

Fig. 5: Determinación del tamaño de la muestra 1,96+0,16+0,16+0,36+2,56


en el caso de poblaciones finitas
S 2=
5

Con lo que S2=1,04

De este modo, calcularemos la varianza


para cada pregunta de nuestra
encuesta, tomando el valor más
desfavorable para la aplicación de la
fórmula general (según se trate de
NOTA: Los espacios que quedan en blanco en el población finita o infinita) y obtención
cuadro es porque los valores que se obtienen de la muestra representativa n.
son superiores a la mitad de la población.
Cuando esto ocurre lo más aconsejable es
coger toda la población directamente, a no ser
que hayan razones de otra índole que
aconsejen no trabajar con su totalidad.

OPCIÓN 2: EXITEN ESTUDIOS ANTERIORES


sobre la misma temática. En estos casos
podemos obtener, a través de ellos, una idea
aproximada del valor de p y aplicar la fórmula
con datos reales.

Página 5 de 7
IT-01 METODOLOGÍA DE MUESTREO

Cómo sacar la muestra:

Generalmente, se distinguen dos tipos de muestras: muestras probabilísticas


(aquellas en las que todos los individuos tienen una probabilidad conocida de ser
incluidos en la muestra) y muestras no probabilístícas (en las que no se conoce la
probabilidad de cada individuo de ser incluido en la muestra).

Para seleccionar la muestra se pueden utilizar distintos métodos o combinaciones


de ellos, en función del coste y de la precisión que se desee conseguir.
Generalizando, podemos decir que cuando se desee calcular los errores de
muestreo y el intervalo de confianza en que se mueven las estimaciones, hay que
recurrir a las muestras probabilísticas. Cuando las estimaciones no tienen tanta
trascendencia, se recurre a las muestras no probabilísticas ya que es más
económico.

Dentro de las muestras probabilísticas, tenemos 4 métodos:

Muestreo aleatorio simple (es el más utlizado)

Cuando todos los individuos de la población tienen la misma probabilidad de ser elegidos, de acuerdo
con las leyes del azar. Se trata de hacer una lista completa de la población, asignar un número a cada
individuo y, finalmente, mediante una tabla de números aleatorios seleccionar los individuos que van a
formar parte de la muestra.

Muestreo, aleatorio sistemático

Se selecciona al azar al primer individuo, eligiéndose el resto a intervalos fijos. Para ello se halla el
coeficiente de elevación: N/n (siendo N el tamaño de la población y n el tamaño de la muestra), se elije,
al azar, un número no superior al coeficiente de elevación que será el número a partir del cual se inicia
la selección. El resto se selecciona sumando sucesivamente el coeficiente de elevación, al último número
hallado.

Muestreo aleatorio estratificado

Se clasifica la población en categorías excluyentes. Se elijen, de forma aleatoria, los individuos que
previamente se haya determinado en cada categoría. Es necesario conocer las fluctuaciones de la
varianza dentro de cada categoría y entre las distintas categorías, ya que dentro de cada categoría la
varianza ha de ser la mínima posible, y entre las categorías debe ser la máxima. La distribución de la
muestra entre las diferentes categorías recibe el nombre de afijación de la muestra y puede hacerse de
diferentes formas:

• Afijación simple: a cada categoría se le asigna el mismo número de individuos,


• Afijación proporcional: la asignación de los individuos a cada categoría es proporcional al
número de individuos que la componen, y
• Afijación óptima: el número de individuos que se asigna a cada categoría está en función de
la desviación típica. Así, cuando en una categoría la desviación típica es muy pequeña, nos
bastará con una muestra pequeña. Cuando la desviación típica sea elevada, la muestra deberá
ser mayor.

Muestreo aleatorio por conglomerados

Es muy similar al anterior. Se divide la población en conglomerados (se agrupa por zonas geográficas u
otras áreas de interés para la investigación) y se selecciona aleatoriamente cuáles de ellos formarán
parte de la muestra. Una vez seleccionados se toman todos los individuos que componen cada
conglomerado.

Página 6 de 7
IT-01 METODOLOGÍA DE MUESTREO

Las muestras no probabilísticas pueden realizarse de 3 formas:

Muestreo casual

Es la técnica más utilizada por las televisiones, radios y empresas de investigación de mercado. Se trata
de entrevistar a personas de forma casual. Generalmente el entrevistador se sitúa en la calle y pregunta
a las personas que pasan cerca de él. También se realiza por teléfono.

Muestreo intencional

Se seleccionan casos típicos de una población, a criterio de un experto.

Muestreo por cuotas

Se le asigna a cada entrevistador un número de entrevistas a realizar a personas que reúnan


determinadas características (por ejemplo: mujeres, entre 20 y 30 años, casadas).

Página 7 de 7