Вы находитесь на странице: 1из 14

CURSO TRANSVERSAL DE METODOLOGA CUANTITATIVA FACULTAD DE CIENCIAS SOCIALES DEPARTAMENTO DE PSICOLOGA UNIVERSIDAD DE CHILE La prctica del muestreo en la investigacin

social
Prof. Guillermo Cumsille

29 de Octubre de 2013

Introduccin
La idea es dar una mirada a los problemas que se presentan en la prctica del muestreo en diversos tipos de investigacin que usan la encuesta como mtodo de recoleccin de la informacin. Entiendo que entre ustedes hay diversos orgenes, conocimientos y habilidades, por lo que trataremos la mayora de los puntos, en un nivel ms bien bsico. El objetivo es que dispongan de informacin mnima para a) saber distinguir una buena muestra b) saber comprar una muestra al especialista

1. La lgica del muestreo


Costos y tiempo de abarcar a toda la poblacin que se quiere representar Errores no muestrales (no respuesta, fraude, errores de digitacin) se multiplican en un censo y son ms difciles de controlar Cocinera y sal, piscina y agua demasiado fra.

2. El uso de muestras en las encuestas


Ampliamente difundido y aceptado Representar la realidad mediante un modelo reducido Espejo, maqueta, foto del momento (periodicidad de muchas encuestas) Previo a la decisin del tipo de muestra ms adecuada, es la delimitacin precisa del universo o poblacin que se quiere representar

3. Poblacin y marco muestral


El marco muestral es una lista de miembros de la poblacin usados para obtener la muestra (entran en el proceso de seleccin). Ordenamiento de las unidades de muestreo para seleccionar la muestra. Muestra de sangre: universo: toda la sangre del cuerpo Marco muestral: la que va pasando por el brazo que uno elige para que lo pinchen. ENPCC: El universo de este estudio est compuesto por las personas de 15 aos y ms, pertenecientes a todos los niveles socio econmicos, residentes en las zonas urbanas de todas las regiones del pas. Segn proyecciones de poblacin del INE para junio del ao 2012, este universo es de 11.910.594 personas. El marco muestral se restringe a los integrantes del universo que residen en las 203 ciudades con un mnimo de 5.000 habitantes urbanos.

4. Tipos de muestra probabilstica


Caracterstica bsica: todos los miembros de la poblacin tienen una probabilidad conocida y distinta de cero de ser incluidos en la muestra (no necesariamente equiprobable). 4.1. Muestreo Aleatorio simple (equiprobable) Es el nico en que cada integrante de la poblacin tienen la misma probabilidad de ser incluido en la muestra Cmo opera: la lgica de papeles a tmbola, pero en la prctica, la seleccin se hace computacionalmente con sistema de nmeros aleatorios. Otra forma de aleatorio simple es el muestreo sistemtico: arranque aleatorio y salto sistemtico dado por la divisin entre tamao de la poblacin y tamao de la muestra. (se aplica esta misma lgica en algunas fases del muestreo multietpico) Requisitos para su aplicacin: tener identificados todos los integrantes del universo y su magnitud

La mayora de las veces requisitos no se dan: a) ENJ personas de 15 a 29 aos todo el pas, b) personas que vieron el debate presidencial, c) vctimas de violencia intrafamiliar, d) fumadores, e) consumidores de un producto masivo y f) un largo ETCTERA. Cundo se cumplen requisitos: a) personas con derecho a votar (nacional o circunscripcin o distrito o comuna), b) funcionarios de la PDI, c) clientes de un banco, d) compradores de una marca de auto, e) beneficiarios de ingreso tico, f) asistentes a una capacitacin, etc. Factibilidad prctica cuando se cumplen requisitos: a) imposible de caro (un caso en Isla de Pascua), b) deficientes bases de datos. An cuando hay listado confiable y acotado, casi nunca se aplica en su forma simple. Siempre se usa como ltima etapa de algn otro diseo. Muestreo Estratificado (combinado con aleatorio simple) Agrupa los elementos que componen la muestra en estratos diferenciados, de acuerdo a un criterio que hace homogneos a esos elementos. As, los elementos de un estrato son homogneos entre s en la variable de estratificacin (nivel de ingreso, macrozona, etc) y diferentes de los otros estratos. Se puede usar una o ms variables de estratificacin. Lo deseable es que estn relacionadas con las variables a medir, pero no relacionadas entre s. ENPCC: dos criterios de estratificacin: regin (15 categoras) y tamao ciudades (4 categoras), resultan 60 estratos tericos, pero 41 en la prctica (203 ciudades). Por ejemplo el estrato ciudades de ms 800.000 habitantes no existe en ninguna de las otras 14 regiones.

4.2.

Dentro de cada estrato, se hace una seleccin independiente de ciudades (finalmente resultaron 101) La lgica es que agrupando los elementos en estratos homogneos es posible mejorar la precisin y minimizar costos respecto a un aleatorio simple. Cada estrato es una agrupacin independiente de los dems estratos, por lo cual es posible tratar a cada estrato como una sub muestra representativa de esa poblacin y el conjunto de todos los estratos es representativo de la poblacin total. Muestra Por conglomerados Unidad de muestreo compuesta por varios elementos de la poblacin. Los elementos que los componen son heterogneos y los conglomerados son parecidos entre s. Existen conglomerados: a) naturales (un curso de un colegio, los trabajadores de una sucursal de un banco) y b) de rea (comunas, distritos censales, regiones) La lgica es que todos los conglomerados son parecidos entre s y, por tanto, se puede elegir slo algunos de los conglomerados que forman el marco muestral para ser seleccionados en la muestra. Dos modalidades: a) una etapa (se seleccionan todos los elementos de cada conglomerado elegido) y b) ms de una etapa (se hace una seleccin de elementos dentro de cada conglomerado elegido). Una unidad muestral que es Conglomerado en un estudio puede ser estrato en otro. Ej. Regin: a) En estudio cultura es estrato (consumo cultural asociado a oferta cultural y regin pone a todos ante la misma oferta: homogeneidad) b) Estudio electoral es conglomerado (en todas las regiones hay diversidad de opiniones polticas y, desde ese punto de vista, todas las regiones son parecidas entre s)

4.3.

5. Muestreo multietpico
Seleccin de elementos se realiza en forma sucesiva dentro de cada estrato o conglomerado. La modalidad ms comn en encuestas en hogares es 3 etapas: Se parte de comuna y dentro de ellas, se eligen: 1) manzanas, 2) viviendas, 3) entrevistado. Manzanas: seleccin aleatoria de acuerdo a mapas de la comuna. Se enumeran y se seleccionan. Cuando hay informacin, se puede hacer PPT (nmero de viviendas en cada manzana) Viviendas: a) Definir N de viviendas por manzana. Menos viviendas, ms dispersin, mejor, pero aumento de costos. b) Influencia del rendimiento y remuneracin apropiada para el encuestador. c) Enumerar viviendas y aplicar arranque aleatorio y salto sistemtico. d) Tabla en manual del encuestador especifica arranque asociado a cada intervalo. Entrevistado: filtro para seleccionar poblacin objetivo (mayores de, mujeres con hijos, vieron tal programa, etc) y luego Kich

PARA SELECCIN DEL ENTREVISTADO: AVERIGUE EL NMERO TOTAL DE PERSONAS DE 18 AOS Y MS, QUE VIVAN PERMANENTEMENTE EN ESE DOMICILIO. REGISTRE LAS PERSONAS EN CUADRO DE ABAJO, COMENZANDO POR LOS HOMBRES DE MAYOR A MENOR EDAD Y LUEGO LAS MUJERES DE MAYOR A MENOR EDAD. UBIQUESE EN LA FILA DE LA LTIMA PERSONA REGISTRADA, VERIFIQUE LA LETRA DE LA COLUMNA QUE DEBE USAR PARA LA SELECCIN DEL ENTREVISTADO. VINCULE LA LTIMA FILA (LTIMA PERSONA REGISTRADA) CON LA LETRA DE LA COLUMNA DE SELECCIN QUE CORRESPONDA, Y SELECCIONE A LA PERSONA CUYO N DE ORDEN LE INDICA DICHA INTERSECCIN. La letra va indicada en cada cartula

Nombre de pila o Relacin con el Jefe de Hogar

Sexo 1= Hombre 2= Mujer

Edad

N DE CHECK ORDE N

COLUMNA SELECCIN ENTREVISTADO A B C D E F G H I J K L M N

1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 2

1 1 1 1 2 2 2 2 3

1 1 1 2 2 1 2 2 2

1 1 1 2 1 2 3 3 2

1 1 2 2 2 3 3 3 5

1 1 2 2 3 3 4 4 4

1 2 2 3 3 4 5 5 6

1 2 2 3 4 4 5 6 5

1 2 3 3 5 5 4 6 8

1 2 3 3 4 6 6 7 8

1 2 3 4 4 5 6 7 7

1 2 3 4 5 6 7 8 8

1 2 3 4 5 6 7 8 9

6. El muestreo no probabilstico
Los elementos de la poblacin no tienen probabilidad conocida de seleccin, lo que anula la posibilidad de inferir a la poblacin e impide conocer el margen de error de las estimaciones. Su principal modalidad es la muestra por cuotas. Su caracterstica principal es que el encuestador elige los elementos de la muestra. La tarea del muestrista se limita a definir: a) Las variables para construir las cuotas b) Cuantas cuotas se usarn c) El tamao de cada cuota Es una forma de muestreo estratificado, pero sin seleccin aleatoria de los elementos que componen cada estrato. Modalidades mixtas: seleccin aleatoria en primeras etapas (manzanas) y cuotas en las ltimas (entrevistado) Depende de calidad de estadsticas sobre el universo para poder definir cuotas proporcionales Alguna experiencia internacional:

a) EEUU: Consejo Nacional de Encuestas Pblicas: ambas encuestas (probabilstica y por cuotas) igualmente aceptadas. b) Asociacin Alemana de Publicidad recomendaba exclusivamente probabilstica, pero a comienzos de la dcada 2000 abandon esa posicin. c) Elecciones en Alemania: Instituto Allensbach (dirigido por Nelle Neumann) utiliza muestra por cuotas y hace las mejores predicciones electorales (a la dcima); las predicciones erradas, utilizaron probabilstica y por cuotas por igual.

7. Muestra proporcional al tamao y muestra con afijacin no proporcional


A cada estrato, conglomerado o cuota se le asigna en los procesos de seleccin una probabilidad proporcional a su tamao. Si estratificamos por regin, tenemos que la RM pesa un 44,5% y la XI, un 0,6%. Dos soluciones: a) probabilidad de seleccin proporcional al tamao y, en ese caso, la RM tiene 74 veces ms probabilidad que la IX de ser seleccionada. En la prctica lo que se hace es incluir por decreto a la RM b) el tamao de la RM en la muestra debiera ser 74 veces el de la IX. Esto no es problema si queremos representatividad slo a nivel nacional. Pero si queremos representatividad regional, la IX requiere un tamao mnimo de 200 casos y mantener la proporcionalidad significara que la RM debiera tener 14.800. Sumemos las otras 13 regiones y tenemos una muestra inviable. Por ello, se utiliza la afijacin no proporcional y luego se pondera. En ENPCC, le dimos 500 casos a cada una de las 12 regiones ms pequeas, 600 a VIII y V y 1.000 a RM. lo que permiti hacer anlisis vlidos y representativos por regin. Si hubiramos distribuido los 8.200 en forma proporcional: RM 3.650 y IX 49 casos.

8. Ponderacin y expansin
a) Ponderadores La necesidad de tener representatividad regional obliga a asignar un tamao muestral mnimo en cada una de las regiones ms pequeas, generando una muestra desproporcionada en cuanto a la representacin de las distintas regiones. Por lo anterior, la aplicacin de ponderadores: restituye a cada regin su peso real en el universo nacional de poblacin urbana. restituye, al interior de cada regin, su peso real en el universo a cada segmento de la poblacin, segn las variables sexo y edad.

Los ponderadores se calculan proyectando la muestra lograda a lo que debiera haber sido una muestra proporcional al peso poblacional de cada segmento que sirve de base para la ponderacin. Este clculo debe hacerse para cada una de las 120 unidades de muestreo, (2 sexos x 15 regiones x 4 tramos de edad). Ejemplo, ponderador de la unidad de muestreo Hombres-II Regin-15 a 24 aos. Contamos con los siguientes datos: o El universo del estudio, segn proyecciones censales, es 11.910.954 personas (residentes urbanos en el pas de ambos sexos, de 15 aos y ms ) o Los hombres urbanos de 15 a 24 aos de la II regin, segn proyecciones censales, son 51.336. o La aplicacin del procedimiento aleatorio para la seleccin de la muestra result en 61 hombres de 15 a 24 aos de la II regin en el total de los 8.200 casos de la muestra. El Porcentaje Esperado se representa por
%Esperadoi N Pr oporcionali *100 Universo i

Esto significa que el % de la celda II Regin-Hombres-15 a 24 aos es de (51.336/11.910.954)*100, lo que resulta 0,4310%. El Porcentaje observado, se calcula aplicando la frmula siguiente
%Observado i NObservado i *100 Muetrai

Esto significa que el % de II Regin-Hombres-15 a 24 aos es de (61/8.200)*100, lo que resulta 0,7439%. El objetivo de la ponderacin es lograr que los resultados se basen en el % Esperado por ello el ponderador resulta de la divisin del esperado por el %Observado.
N Pr oporcionali *100 Universoi Muestra i* N Pr oporcionali % Esperado Ponderador i NObservadoi %Observado Universoi * NObtenidai *100 Muetrai

Para el ejercicio el ponderador de la celdilla IIRegin-Hombres-15 a 24 aos es 0,4310/0,7439=0,57937466 b) Expansores La expansin se utiliza cuando se desea conocer el valor en la poblacin de un resultado obtenido en la muestra efectiva. Se realiza la expansin para cada unidad de muestreo agregadas, utilizando las variables sexo (2 categoras), regin (15 categoras) y tramo de edad (4 categoras), resultando 120 unidades de muestreo agregadas. Para cada una, se obtiene un coeficiente segn la siguiente frmula:

Expansori

Poblacini MuestraPonderadai

El valor del expansor se interpreta como el nmero de elementos de la poblacin que es representado por cada elemento de la muestra efectiva.

9. El tamao de la muestra
Mientras ms grande, mejor, (disminuye el error muestral) siempre que sea manejable logsticamente. Ejemplos de tamao: a) comunas 400, distritos 600, circunscripciones 800, b) usuarios SML 400, c) nacional opinin CEP y CERC 1.200, d) beneficiarios ingreso tico 2 regiones 2.450, e) potenciales clientes universidad 400 apoderados estudiantes, f) identidades regionales 300x4 regiones, g) madres nacional entre 15 y 50 aos 2.000, h) estructura social CIES 2.500 nacional, i) usuarios Corporaciones judiciales 4.500 nacional, j) INJUV 7.000, ENPCC 8.200 k) INDH 4.082

y 400

10. El sobremuestreo y el reemplazo


Se define el tamao deseado, pero se sabe que habr prdidas por distintos motivos: a) rechazo, b) viviendas deshabitadas, c) seleccionado no se encuentra, d) usuario/beneficiario no se reconoce como tal, e) vivienda seleccionada es colegio, hospital, recinto militar, etc. Algunos se resuelven con revisitas, otros no, pero an as la revisita no resuelve el 100% Soluciones: la imputacin y la sustitucin de los no respondientes. Algunos sealan que la sustitucin genera sesgos porque los sustitutos tienen un perfil ms parecido a los que responden que a los que no lo hicieron y no se sabe cules habran sido los resultados. Mi opinin: cierto slo cuando motivo de no respuesta es rechazo, pero no en otros motivos. Modalidades de sustitucin: reemplazo y sobremuestreo

El reemplazo: inmediato en terreno (vivienda contigua, cliente que sigue, etc. lo hace encuestador). Sesgo y crtica vlida Panel de expertos INJUV: propuesta de ampliar plazo de terreno para no tener que reemplazar. Tres tipos de sobremuestreo: prdida histrica, replicado y rondas de seleccin

a) Prdida histrica requiere datos de experiencias pasadas, situacin muy excepcional. Tambin se puede hacer una hiptesis fundada sobre tasa de respuesta esperada y aplicar frmula de sobremuestreo que tambin considere hiptesis de proporcin de elegibles en el marco muestral. Ejemplo: si se quiere una muestra de 1.200, la tasa de respuesta esperada es del 80% y se estima que el 95% de los integrantes del marco muestral son elegibles (por deficiencia del marco), se hace una ecuacin entre 1.200 dividido por 0,76 (producto de 0.95x0,8), resultando 1.579 casos para muestra ajustada. b) Manzanas o unidades muestrales con dos fases de seleccin: primero cantidad de manzanas en base a una estimacin de prdidas y segundo las exactas para el N deseado. Se parte con las segundas y se van incorporando las primeras a medida que se vayan necesitando. Ejemplo: si definimos que se van a seleccionar 6 viviendas por manzana y a una comuna cualquiera le corresponden 60 casos, seleccionamos 14 manzanas. En una segunda ronda, seleccionamos las 10 manzanas entre las 14 seleccionadas en la primera ronda- que seran suficientes para obtener los 60 casos si es que no hubiera ningn rechazo ni otra prdida. Para recuperar los casos de no respuestas o no logro, se utilizan aquellas manzanas que no fueron seleccionadas en la segunda ronda, lo que facilita la recuperacin de la mayor parte de la precisin perdida debido a las no-respuestas (al permitir recuperar el tamao muestral original deseado), evitando los sesgos en las estimaciones, que introducen la mayora de los diseos muestrales que contemplan reemplazos.

c) Muestreo replicado: Este mtodo se caracteriza por replicar un determinado diseo muestral, cualquiera sea su complejidad, en un nmero determinado de muestras probabilsticas de idntico diseo, de menor tamao, y cada una de ellas igualmente representativa del Universo de Estudio, las que luego son combinadas para obtener las inferencias. Permite salir a terreno en forma modular submuestra tras submuestra hasta lograr el N deseado, pero se puede sobrepasar porque cada submuestra hay que hacerla completa. En este diseo, si se debe interrumpir el trabajo de terreno, la muestra ya obtenida es representativa del universo, porque cada submuestra tambin lo es. Algunos prefieren la imputacin, en vez de abultar la muestra para lograr tamao deseado. Se imputa un valor cuando se puede hacer una prediccin razonada del valor ausente. Viable para respuestas en blanco, pero para CASOS COMPLETOS FALTANTES? Otra solucin: se establecen los rasgos (socio demogrficos, por ejemplo) de los no respondientes y se asigna ms peso a las respuestas de sujetos de caractersticas parecidas a los no respondientes. Problema con la informacin para ponderar: ejemplo: hombres rechazan ms que las mujeres, depende de las variables a medir si es vlido ponderar ms las respuestas de los hombres o de los jvenes.

11. El error muestral


La cuestin es: si hubiramos hecho el censo, habramos obtenido los mismos resultados? Los resultados de las encuestas sobre intencin de voto difieren del resultado de la eleccin. Toda muestra lleva asociado un margen de error muestral. El margen de error se expresa como un % que debe sumarse y restarse al resultado y un nivel de confianza (otro %) que indica en cuntas muestras iguales a esa habramos obtenido los mismos resultados. Ejemplo: error 3% confianza 95% indica que a cada resultado debe sumrsele y restrsele 3% y que en 95 de cada 100 muestras como sa habramos logrado los mismos resultados.

Frmula

Puesto que la frmula de clculo del error contempla (adems del tamao de la muestra y del universo), la varianza en las respuestas, se hace un supuesto de varianza mxima: para una pregunta con dos alternativas, se supone que el 50% contesta A y el otro 50% contesta B, de manera que el error que se calcula siempre es el mximo. El tamao de la muestra siempre es decisivo para estimar el error, el del universo slo en las muestras finitas (menos de 50.000 unidades) Ejemplos: para 95% de nivel de confianza (lo ms comn) Muestra Margen de error Margen de error Universo finito Universo infinito De 15.000 1.000.000 (%) (%) 400 4,8 4,9 600 3,9 4,0 800 3,4 3,5 1.200 2,7 2,8 3.000 1,6 1,8

Error pensar que si la muestra tiene una alta proporcin del universo, el error es menor. Ejemplo extremo: universo 2, muestra 1, error 50% El error en las submuestras: el error que se calcula es para la muestra total, pero cada submuestra tienen un error mayor.

Вам также может понравиться