Investigador5 Mod1 Diseno Muestral

DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y
ECONÓMICAS. Ed.2
MÓDULO I: ASPECTOS GENERALES DEL DISEÑO MUESTRAL

DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
INDICE
INDICE ......................................................................................................... 2
INTRODUCCIÓN Y OBJETIVOS ......................................................................... 5
Unidad 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS GENERALES DEL

DISEÑO MUESTRAL........................................................................................ 6
1.1. Tipos de operaciones estadísticas ........................................................... 6
1.2. Conceptos generales ............................................................................. 7
1.2.1. Población y Muestra ........................................................................ 7

1.2.2. Tipos de muestreo .......................................................................... 8
1.2.3. Ventajas y limitaciones del uso de las encuestas por muestreo ............. 9
1.3. Etapas de una encuesta por muestreo....................................................10
1.4. Esquema general del diseño muestral ....................................................11
1.4.1. Ámbito de estudio ..........................................................................11

1.4.2. Marco .......................................................................................... 12
1.4.3. Variables de estratificación ............................................................ 13
1.4.4. Tamaño de la muestra ...................................................................13
1.4.5. Tipo de muestreo ..........................................................................14
1.4.6. Estimadores .................................................................................14
1.4.7. Evaluación de la calidad de los datos. ..............................................15
1.4.8. La falta de respuesta. ....................................................................16
1.5 Resumen ............................................................................................. 17
Unidad 2. PRINCIPALES CONCEPTOS DE LA TEORÍA DE MUESTRAS UTILIZADOS

EN EL DISEÑO DE LAS ENCUESTAS ................................................................ 18
2.1. Principios básicos del muestreo probabilístico .........................................18
2.1.1. Unidades de muestreo ....................................................................19

2.1.2. Probabilidades de inclusión de primer y segundo orden ...................... 20
2.1.3. Estimador .....................................................................................21
2.2. Métodos de selección de las unidades ....................................................26
2.2.1. Sin reemplazamiento (SR) .............................................................. 26

2.2.2. Con reemplazamiento ....................................................................27
2.3. Estimadores lineales insesgados ............................................................ 28
Módulo I: Aspectos generales del Diseño Muestral 2

2.4. Tipos de muestreo y estimadores .......................................................... 31
2.4.1. Muestreo de unidades elementales con probabilidades iguales .............31

2.4.2. Muestreo estratificado de unidades elementales con probabilidades
iguales ..................................................................................................34
2.4.3. El estimador de razón bajo muestreo de unidades elementales con
probabilidades iguales .............................................................................37
2.4.4. Muestreo de conglomerados de igual tamaño sin submuestreo ............39
2.4.5. Muestreo de conglomerados de diferentes tamaño sin submuestreo .....40
2.4.7. Muestreo de conglomerados de diferentes tamaño con submuestreo ....42
2.4.5. Muestreo sistemático .....................................................................43
2.5. Errores de muestreo y métodos de estimación ........................................45
2.5.1. Método de los conglomerados últimos ..............................................46

2.5.2. Método de las semimuestras reiteradas ............................................47
2.5.3. Método Jackknife ...........................................................................48
2.5.4. Método Bootstrap ..........................................................................49
2.5.5. Software para el cálculo de errores de muestreo ................................ 50
2.6. Resumen ............................................................................................ 51
UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS ENCUESTAS ....................52
3.1. Definición de marco .............................................................................52
3.2. Características del marco .....................................................................53
3.3. Marco de áreas y marco de listas .......................................................... 54
3.3.1. Descripción del DIRCE. ..................................................................55

3.4. Marco utilizado en las encuestas a hogares del INE ..................................56
3.4.1. Descripción ..................................................................................56

3.4.2. Marco de áreas geográficas ............................................................. 57
3.4.3. Marco de viviendas ........................................................................59
3.5. Fuentes estadísticas utilizadas en la formación del marco ......................... 60
3.5.1. Utilización del Censo de Población y Viviendas ...................................60

3.5.2. Utilización del Padrón Continuo........................................................ 62
3.6. Actualización de las unidades de muestreo .............................................64
3.6.1. Actualización en el marco de viviendas .............................................65

3.6.2. Actualización en el marco de unidades primarias ............................... 66
3.6.3. Actualización de las probabilidades de selección ................................ 68
3.7 Resumen ............................................................................................. 71

Unidad 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS ECONÓMICAS ...........72
4.1 Carga Estadística: Directorio de Colaboración con las Unidades Informantes 72
4.2 Marco Muestral: Directorio Central de Empresas.......................................74
4.3 Coordinación muestral ..........................................................................75
4.3.1 Técnica de Números Aleatorios Permanentes ......................................76

4.3.2 Coordinación de muestras para encuestas diferentes .......................... 77
4.3.3 Coordinación de muestras en el tiempo ............................................77
4.3.4 Actualización del marco cuando se aplica coordinación positiva en el
tiempo ...................................................................................................78
4.4 Coordinación muestral en el INE............................................................. 79
4.4.1 Coordinación en un año determinado ................................................79

4.4.2 Coordinación en el tiempo................................................................ 80
4.4.3 Efectividad de la coordinación .......................................................... 80
4.5 Resumen ............................................................................................. 81

INTRODUCCIÓN Y OBJETIVOS
El presente curso se estructura en tres módulos que se imparten a lo largo de tres

semanas.
El módulo I se divide en cuatro unidades e incluye aspectos generales del diseño

muestral, junto con una parte teórica necesaria para realizar de forma eficiente
este tipo de diseño. Los módulos II y III se estructuran en tres unidades cada uno,
presentan los diseños muestrales de las encuestas de hogares y económicas más
importantes y se analiza la problemática que surge en la realización de cada una de
las etapas del diseño.
Se inicia este módulo haciendo una descripción general de las distintas fases una
encuesta por muestreo, definiciones de conceptos utilizados a lo largo del mismo y
se enumeran las distintas etapas del esquema de un diseño muestral, haciendo en
el último apartado un análisis de la falta de respuesta y su tratamiento.
En la segunda unidad se analizan los conceptos básicos de la teoría del muestreo

en poblaciones finitas, en los que se apoya el diseño muestral.
En la tercera unidad, y como un paso previo del cual depende el diseño muestral,
se hace un análisis detallado sobre el marco de muestreo, las distintas fuentes
utilizadas, sus limitaciones y se estudia con detalle los procedimientos que se
aplican para mantener el marco actualizado.
Finalmente en la cuarta unidad se estudia con detalle la teoría utilizada en las

encuestas económicas de la coordinación muestral que afecta a la selección de las
muestras. Con objeto de disminuir la carga de trabajo de las unidades informantes,
intenta controlar el grado de solapamiento entre ellas. Dependiendo de los
objetivos interesará una coordinación muestral positiva, máximo solapamiento, o
una coordinación muestral negativa, mínimo solapamiento.
El objetivo de este primer módulo es proporcionar al alumno unos conocimientos

teóricos generales sobre los distintos aspectos que hay que considerar en la
realización de un diseño muestral, para facilitar la comprensión de la parte práctica
que se presenta en los módulos II y III, en los que se analiza con detalle los
diseños muestrales de las encuestas más importantes.

UNIDAD 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS

GENERALES DEL DISEÑO MUESTRAL
En este capítulo se hace una descripción de una encuesta por muestreo, su

justificación y una descripción de las distintas etapas del diseño muestral.
El objetivo es familiarizar al alumno con los conceptos que se analizan en detalle en

el resto de unidades contenidas en el módulo.
1.1. Tipos de operaciones estadísticas
En el mundo actual los gobiernos, las empresas y las personas, necesitan

información para la toma de decisiones. La información es el resultado de obtener,
clasificar y procesar los datos.
Se entiende por operación estadística el proceso por el cual se obtiene

información estadística. Cualquier estudio estadístico pasa por una fase de
diseño en la que a partir de las necesidades de los usuarios se establece la
necesidad de la información a obtener y su viabilidad, se definen los objetivos del
estudio, la metodología a seguir para alcanzarlos, posibles fuentes de datos, los
costes, y el resto de especificaciones necesarias para la obtención del producto
final.
Una vez decidida la realización de una operación estadística, la producción de la

misma consiste en un proceso de transformación de información numérica que va
desde la recogida de la información hasta la obtención de los resultados finales.
La ley de la función estadística pública regula la actividad estadística para

fines estatales y encomienda al INE la realización de las operaciones
estadísticas de interés nacional: (censos demográficos y económicos, cuentas
nacionales, estadísticas demográficas y sociales, indicadores económicos y sociales,
coordinación y mantenimiento de los directorios de empresas, formación del Censo
Electoral...).
En la ejecución de su actividad estadística el INE, y en general todas las Oficinas

Nacionales de Estadística, realiza dos grandes tipos de operaciones:

• CENSOS: Son investigaciones de tipo exhaustivo.

• ENCUESTAS POR MUESTREO: Proceso mediante el cual se obtienen
conclusiones de la población a partir de la información proporcionada por
una parte de ella (muestra). El desarrollo de las técnicas de muestreo ha
permitido el gran incremento de las encuestas. 1.2. Conceptos generales
En el estudio y análisis de una encuesta por muestreo es necesario fijar una serie
de conceptos que nos van a ayudar en el diseño de una buena muestra.
1.2.1. Población y Muestra
Se denomina población objetivo a un conjunto de unidades del que se

desea obtener una información. La unidad de investigación es sobre la que se
realiza la medición y se denomina también elemento.
Las unidades de observación pueden ser hogares, personas, colegios, empresas,

etc. La información deseada puede ser el tamaño del hogar, el gasto medio en
alimentación, etc. A estos valores que se desea conocer se les denominan valores
verdaderos.
En la práctica las limitaciones en los procedimientos diseñados para obtenerlos,

junto con los cometidos en la obtención de los mismos, nos obliga a considerar
valores que no coinciden con los verdaderos y que denominamos valores
observados. Estos serán más precisos cuanto más próximos estén de los
valores verdaderos.
A los errores de tipo sistemático que se comenten en las observaciones se les

denomina sesgos.
Se llama muestra a un subconjunto de la población obtenido con el fin de

investigar algunas características de la misma. Los datos obtenidos a partir de ella,
que nos permite inferir los de la población se denominan estimaciones.
Unidad de muestreo: es la unidad que se utiliza en la selección de la muestra,

que puede ser diferente de la unidad de investigación.

Podemos estar interesados en estudiar a los individuos pero solo se dispone

de una lista de viviendas. La vivienda es la unidad de muestreo y las personas de la
vivienda la unidad de investigación.
Marco de muestreo es el conjunto de unidades de muestreo. En una encuesta

ideal el marco de muestreo debe de coincidir con la población objetivo.
Muestras distintas nos dan valores distintos de las estimaciones. La medida de la

variabilidad de las estimaciones en torno a su media se denomina error de
muestreo. Cuanto menor sea esta variabilidad mayor es la precisión de las
estimaciones.
La consideración conjunta de precisión y sesgo nos conduce al concepto de

“acuracidad”.
Una buena muestra debe reproducir las características de interés de la población.

Se suele decir que la muestra ha de ser representativa en el sentido de que cada
unidad muestreada representa las características de una cantidad conocida de
unidades de la población.
1.2.2. Tipos de muestreo
El procedimiento mediante el cual se selecciona una muestra se denomina

Muestreo.
Se distinguen dos grandes tipos de muestreo:
• Muestreo Probabilístico. Está basado en la estadística matemática, y se

define como el tipo de muestreo en el que se conoce a priori la probabilidad
que tiene cada una de las posibles muestras de ser seleccionada.
Ejemplos de este tipo de muestreo son el muestreo aleatorio simple, muestreo

estratificado, muestreo de conglomerados, etc.
El uso de muestreo probabilístico permite el cálculo de los errores de muestreo.

Es el utilizado en los Institutos Nacionales de Estadística para las encuestas

oficiales.
• Muestreo No probabilístico. En este tipo de muestreo la selección de la

muestra no está sometida a criterios probabilísticos. Los más utilizados son el
muestreo opinático en el que la persona que selecciona la muestra procura
que esta sea representativa, (selección de unidades tipo) y el muestreo por
cuotas en el que la muestra se selecciona en un número proporcional al de los
que cumplen una característica de la población.
SABER + Las cuotas más utilizadas son las de edad y sexo, por ser
generalmente la información disponible de la población. Se utilizan en las
encuestas de opinión.
1.2.3. Ventajas y limitaciones del uso de las encuestas por muestreo
La demanda de información creciente ha hecho casi imprescindible el uso de las

encuestas por muestreo. Las ventajas del muestreo frente a la enumeración
completa (Censo) son las siguientes:
1. Menor coste: Si los datos se obtiene de una pequeña parte de la

población, los gastos son menores que los de realizar una investigación
exhaustiva, aun cuando el coste por unidad pueda ser superior.
2. Errores ajenos al muestreo: Son más fáciles de controlar, y como éstos
suelen ser superiores a los de muestreo, los resultados obtenidos son más
acurados.
Aun cuando una muestra viene afectada de un error de muestreo, el diseñador

dispone de métodos para medirlo y controlarlo.
3. Resultados rápidos: Los datos pueden ser recogidos más rápidamente en

una encuesta por muestreo que en una enumeración completa.
4. Menos limitaciones en las características a investigar: El uso de
equipos más especializados hace que el muestreo tenga más posibilidades y
flexibilidad respecto a la información a obtener.

RESUMEN A pesar de las ventajas antes mencionadas, el Censo es necesario

porque es la única oportunidad de tener una gran cantidad de información a un
nivel muy elevado de desagregación. En este sentido se puede decir que el censo
complementa a las encuestas por muestreo en el sentido de que proporciona
información necesaria para:
• Preparación de las Bases de Muestreo (MARCOS)

• Procesos de ESTRATIFICACIÓN
• Procesos de ESTIMACIÓN
Y por tanto permite una notable mejora en la calidad de las encuestas.
1.3. Etapas de una encuesta por muestreo
La realización de una encuesta por muestreo se extiende sobre un largo periodo de

tiempo que abarca desde la planificación del proyecto hasta la publicación de los
resultados.
Previamente a la descripción de los aspectos más importantes del diseño muestral y
el papel que juega la teoría estadística en una encuesta por muestreo, es
importante describir cuales son los pasos involucrados en la ejecución de un
proyecto estadístico.
Estos pasos pueden agruparse en los siguientes:
1. Determinación de los objetivos: Es necesario establecer de una manera

clara y precisa cuales son los objetivos de la encuesta y una justificación de
la necesidad de la misma. Esto implica una definición de la población que se
va a investigar, y de la población a muestrear, la especificación de las
características a estimar, diseñar un modelo de tablas de resultados y fijar
los niveles de precisión requeridos para las estimaciones.
2. Diseño de la muestra. Esta fase que se describe con más detalle en el
último apartado de esta unidad, analiza entre otros el establecimiento del
plan de muestreo y los métodos de estimación.
3. Trabajos de campo. Comprende esta fase todas las actividades necesarias
para la elaboración del cuestionario, establecimiento del método de
recogida, selección y formación de entrevistadores, y la organización de la
recogida de los datos.

4. Tratamiento de la información. Incluye esta fase las operaciones de

depuración e Imputación a que son sometidos los datos con objeto de
obtener un fichero de datos completo y consistente. La fase de depuración
consiste en el establecimiento de controles y reglas que permitan detectar
inconsistencias o datos potencialmente erróneos. La fase de imputación se
utiliza para corregir los errores detectados en la fase de depuración.
5. Difusión de los datos. Consiste en determinar el procedimiento para

hacer llegar los resultados de una operación estadística a los usuarios. En
esta fase se habrá de tener en cuenta las necesidades de los usuarios y se
procurará que la información facilitada sea acurada, completa, accesible y
oportuna.
En las publicaciones en que se vayan a difundir los resultados, deberá
figurar además una descripción de la metodología, conceptos, variables y
clasificaciones utilizadas.
1.4. Esquema general del diseño muestral
El diseño muestral en una encuesta comprende una serie de fases que van desde la
elección del método de muestreo hasta la formulación del procedimiento de
estimación y cálculo del nivel de precisión de las estimaciones.
En la toma de decisiones en las distintas fases, influyen diversos factores como son
la disponibilidad de marcos apropiados, grado de conocimiento de la población
investigada que permita disponer de variables adecuadas para la estratificación y
estimación; y finalmente, del presupuesto disponible.
1.4.1. Ámbito de estudio
El ámbito en una encuesta se contempla desde una triple óptica: poblacional,

geográfico y temporal. Viene determinado por los objetivos de la encuesta, y es
el punto de partida para el resto de las etapas del diseño muestral.
El ámbito poblacional se refiere a la población objeto de estudio.

El ámbito poblacional en la encuesta industrial es el conjunto de empresas

con una o más personas remuneradas y cuya actividad principal está incluida en las
secciones B a E de la CNAE-09.
El ámbito geográfico es el territorio abarcado por el objetivo de la encuesta,

puede ser una provincia, una región o el total nacional.
El ámbito temporal tiene un doble aspecto: el de referencia de la encuesta y el de

referencia de la toma de datos.
En la Encuesta de Población Activa (EPA), la referencia de la encuesta es el

trimestre y los datos van referidos a la semana anterior a la de la entrevista.
1.4.2. Marco
Es el conjunto de información útil en cualquier etapa del diseño muestral.
En el marco se debe de distinguir entre la lista de unidades y la

información complementaria.
El marco, en sentido estricto, es la lista de las unidades de muestreo, y debe ser

un fiel reflejo de la población objetivo. En las encuestas por muestreo se pueden
utilizar marcos de áreas o marco de listas, lo que nos conduce a muestreos en una
o en varias etapas.
Si el marco es de áreas geográficas, éstas deben tener los límites perfectamente
definidos e identificables sobre el terreno para evitar omisiones, inclusiones
erróneas, etc. Si el marco es de lista, es decir, formado por las unidades
elementales, la falta de actualización puede producir una muestra sesgada.
La formación del marco puede tener un impacto importante en el coste de la
encuesta. Generalmente se recurre a formar los marcos a partir de otras fuentes ya
existentes.
La información complementaria se refiere a toda aquella información que puede

utilizarse para la mejora del diseño muestral, tanto en los procesos de
estratificación, de estimación, ajuste de la falta de respuesta, etc.

1.4.3. Variables de estratificación
Con la estratificación o división de la población en subpoblaciones o estratos se

persiguen diversos fines:
1. Dar estimaciones separadas para ciertas subpoblaciones
2. Agrupar unidades homogéneas entre sí para mejorar la precisión de las

estimaciones globales.
3. Posibilidad de utilizar diferentes métodos de muestreo en los distintos
estratos.
SABER + En esta línea, el INE ha realizado el diseño muestral de la Encuesta

Financiera de las Familias que lleva a cabo el Banco de España. En los estratos
donde se agrupan los municipios de mayor tamaño se ha realizado un muestreo
aleatorio simple, en el resto de los estratos el tipo de muestreo utilizado ha sido
bietápico estratificado.
Generalmente, las variables disponibles en las unidades del marco de población y

que son utilizadas en el proceso de estratificación, proceden de los censos de
población.
SABER + Anteriormente los censos eran la única oportunidad para formar los
marcos y disponer de información desagregada a nivel de unidad primaria de
muestreo. Actualmente la existencia de Registros Administrativos, actualizados y
depurados ha facilitado esta tarea como se verá a lo largo del curso.
1.4.4. Tamaño de la muestra
El tamaño de la muestra en una encuesta se establece en función de:
El nivel de precisión requerido para las estimaciones de las características

más importantes a estimar en la encuesta.
El nivel de desagregación de las variables objetivo.
Otros límites como el presupuesto disponible.
Resulta muy útil la experiencia de otras encuestas anteriores o similares.

1.4.5. Tipo de muestreo
Es el proceso mediante el cual se selecciona la muestra. En la elección del método

de muestreo influyen diversos factores como son: el nivel de precisión deseado
para los resultados finales, la disponibilidad de marcos, el grado de conocimiento de
la población objetivo que permita el uso de la estratificación, así como del
presupuesto disponible.
RESUMEN
En la práctica puede no ser conveniente seleccionar directamente las
unidades elementales de estudio, bien porque no se dispone de la lista de donde
realizar la selección o bien por razones de coste y tiempo. En estos casos debe de
utilizarse un muestreo en dos o más etapas, mediante la utilización de
conglomerados. En este tipo de muestreo la lista de unidades elementales solo es
necesario disponerla para los conglomerados seleccionados en la muestra.
1.4.6. Estimadores
El estimador es la expresión matemática que nos permite inferir las

características de la población a partir de los datos de una muestra. El valor que
toma el estimador en una determinada muestra, o valor inferido, se conoce como
estimación.
La utilización de métodos de estimación adecuados permite obtener estimaciones

consistentes en ausencia de casos de no respuesta.
El estimador de Horvitz -Thompson es el estimador básico que pondera cada unidad

de la muestra con la inversa de la probabilidad de selección. Generalmente debido a
la presencia de falta de respuesta o, con objeto de incorporar la información
auxiliar para mejorar la precisión del estimador, se aplican técnicas de calibrado.
Los factores resultantes se denominan factores de calibrado.
En general, estos ajustes dan lugar a estimaciones aproximadamente consistentes

y sesgos despreciables.

RESUMEN En las encuestas de hogares, el estimador se obtiene siguiendo los

siguientes pasos:
1. Obtención del peso de diseño: Estimador de Horvitz -Thompson.
2. Corrección de falta de respuesta: Corrección del sesgo en las estimaciones.
3. Aplicación de Técnicas de calibrado: Mejora la precisión de las estimaciones,
con la información proporcionada por fuentes externas.
SABER + En las encuestas económicas no está muy extendido el uso de

técnicas de calibrado debido a la no disponibilidad de fuentes externas fiables.
1.4.7. Evaluación de la calidad de los datos.
La evaluación de la calidad de los datos es el proceso de valoración del producto

final de un proceso estadístico. Esta fase pasa por la medición de los principales
tipos de error de las encuestas.
Los errores que afectan a las encuestas se clasifican en dos grandes grupos:
• Errores de muestreo: Son debidos al hecho de estimar las características

de la población a partir del estudio de una muestra.
Para su cálculo se utilizan procedimientos directos e indirectos. A partir del

error de muestreo se calcula el intervalo de confianza que con una
probabilidad prefijada contiene al verdadero valor del parámetro.
• Errores ajenos al muestreo: Son errores que se presentan en cualquiera

de las etapas del desarrollo de una encuesta. Introducen sesgos en las
estimaciones generalmente difíciles de cuantificar. Los métodos para la
evaluación de estos errores son generalmente costosos y difíciles de llevar a
la práctica.
SABER + Las oficinas de estadística deben de ser las responsables de llevar a

cabo la evaluación de la calidad de los datos, así como la difusión de los mismos.
Los usuarios deben de conocer en qué medida los errores pueden limitar la
utilización de la información estadística.
La evaluación de la calidad puede servir para mejorar la calidad de otros estudios.

1.4.8. La falta de respuesta.
Entre los errores ajenos al muestreo que afectan a las encuestas se presenta la
falta de respuesta en las unidades seleccionadas.
La planificación inicial del diseño muestral se ve modificada cuando se realiza la

encuesta debido a la presencia de una serie de incidencias que dan lugar a la falta
de respuesta y por tanto el tamaño muestral teórico es inferior al tamaño de
muestra efectivo. El trabajo de campo es clave para que el diseño inicial no se aleje
del resultado final.
DEFINICIÓN:
De acuerdo con el diseño de la muestra, en un determinado número de unidades

u1, u2, u3, ……un deben ser observadas k variables y1,,y2,…. yk.
Este plan no puede llevarse a cabo por:
1. Una o más unidades no pueden ser observadas: Falta de respuesta total.
2. En una o más unidades solamente son observadas h < k variables: Falta de

respuesta parcial.
Las incidencias que dan lugar a la falta de respuesta son:
• Unidades no encuestables: Son unidades seleccionadas para la muestra que

no pertenecen a la población objeto de estudio. Son debidas a errores en los
marcos.
• Unidades ausentes o no contactadas: Son aquellas que pertenecen a la

población objetivo pero con las que no se ha podido establecer contacto. Su
existencia depende en cierta medida de la organización del trabajo de campo.
• Unidades negativas a contestar: Son aquellas que rechazan colaborar en la

encuesta. Pueden ser negativas en el contacto inicial o posterior al contacto.
• Unidades incapaces de contestar: Son aquellas que por enfermedad,

desconocimiento del idioma, no colaboran en la encuesta.

La presencia en la encuesta de los distintos tipos de unidades produce:
• Presencia de sesgos en las estimaciones, por no ser aleatoria la muestra de

unidades que no responden.
• Incremento de la varianza, por producir disminución en el tamaño de la

muestra.
• Incremento del coste. Es necesario incrementar la muestra para mantener los

niveles de precisión exigidos.
Con una previsión inicial de la falta de respuesta, se podría incrementar el tamaño

muestral teórico para que el tamaño muestral efectivo cumpliera con nuestras
expectativas. Lo que no podemos eliminar es el sesgo por falta de respuesta. Si las
unidades que no contestan se comportan de manera marcadamente diferente a las
que contestan, por mucho que aumentáramos el tamaño muestral, no se eliminará
el sesgo.
Si se dispone de información auxiliar conveniente, se puede reducir el sesgo

aplicando las técnicas de calibrado, como se verá en las unidades de los siguientes
módulos.
Asimismo se analizará en cada encuesta los distintos tratamientos que se dan ante
la presencia de falta de respuesta y los procedimientos que se utilizan para reducir
la misma.
1.5 Resumen
Esta unidad sólo intenta ser una introducción para el resto de las unidades, tanto
de este módulo como de los siguientes. En ella se definen una serie de conceptos
necesarios en la utilización y entendimiento de las técnicas de muestreo, se
describen las diferentes etapas de una encuesta por muestreo, y finalmente se
describen los distintos apartados necesarios para llevar a cabo un diseño muestral.

UNIDAD 2. PRINCIPALES CONCEPTOS DE LA TEORÍA DE

MUESTRAS UTILIZADOS EN EL DISEÑO DE LAS ENCUESTAS
Algunos conceptos de la Teoría de Muestras que son imprescindibles para el diseño

de las encuestas basadas en el muestreo probabilístico (población, marco, muestra,
estimador, error,...) ya han sido introducidos en la unidad 1.
Ahora vamos a desarrollar brevemente algunos de ellos junto con los diferentes
tipos de muestreo y sus estimadores.
2.1. Principios básicos del muestreo probabilístico
El muestreo es un proceso utilizado desde hace muchos años para seleccionar una
parte representativa o muestra de un conjunto que llamamos población y, de esta
manera, obtener información sobre una característica definida en ésta. A partir de
la información proporcionada por la muestra, estimamos el valor del dato
poblacional que nos interesa.
Si la muestra procede de una población homogénea, cualquier parte seleccionada

es representativa del total siempre que no sea excesivamente pequeña y, en este
caso, el muestreo tiene poca importancia. El problema se plantea cuando tratamos
de muestrear poblaciones no homogéneas. En este caso es cuando nos
preocupa el muestreo, ya que tenemos que conseguir que la muestra tenga
representación de un gran número de unidades que difieren extraordinariamente.
En (1.2.2) visteis dos grandes tipos de muestreo: el muestreo

probabilístico y el muestreo no probabilístico (por cuotas, opinático,...). El
primero es el tipo de muestreo utilizado en las encuestas oficiales realizadas por los
Institutos Nacionales de Estadística.
Para seleccionar de forma aleatoria los elementos de la población que van a

formar la muestra es necesario elaborar un marco de muestreo (lista de unidades a
partir de la cual se selecciona la muestra).

2.1.1. Unidades de muestreo
En (1.2.1) apareció el concepto de unidad de muestreo como la

unidad que se utiliza en la selección de la muestra, que puede ser diferente de la
unidad de investigación. Además definíamos el marco de muestreo como el
conjunto de unidades de muestreo.
Hay dos grandes tipos de unidades de muestreo:
 Unidades elementales: son las unidades de las que tratamos de obtener

información, por lo tanto, son las unidades últimas en el proceso de selección y
coinciden con las unidades de investigación.
 Conglomerados: son grupos de unidades elementales.
Estamos interesados en estudiar el precio de alquiler de la vivienda y

disponemos de una lista de municipios. Entonces seleccionamos primero
municipios, elaboramos una lista de viviendas para aquellos municipios elegidos y
seleccionamos viviendas en cada uno de ellos. En esta situación estamos
trabajando con dos marcos: primero utilizamos un marco de municipios
(conglomerados) y después un marco de viviendas (unidades elementales)
construido sólo para aquellos municipios seleccionados.
A veces el marco de muestreo no es una simple lista que enumera las unidades de
muestreo, sino que contiene información sobre las mismas que podemos utilizar
para aplicar técnicas especiales de muestreo (estratificación, probabilidades
desiguales de selección,...) o de estimación (estimador de razón), que veremos a lo
largo del desarrollo de esta unidad.
Partiendo de un marco, el muestreo probabilístico verifica las siguientes

propiedades:
 El conjunto formado por todas las muestras posibles que el procedimiento

aleatorio es capaz de elegir del marco, es conocido
 Cada muestra posible s tiene asignada una probabilidad p(s) conocida de

selección
En la práctica no es imprescindible construir todas las muestras posibles, sólo es

necesario que supiésemos cómo hacerlo si contásemos con el tiempo y los medios
necesarios.

En una población formada por 3 unidades (u1, u2, u3) vamos a seleccionar
una muestra de dos unidades, de manera que todas las unidades de la población
tienen la misma probabilidad de ser elegidas y no hay unidades repetidas.
Entonces, bajo este esquema de muestreo, el conjunto formado por todas las
muestras posibles es {(u1, u 2 )(u1, u 3 )(u 2 , u 3 )} y la probabilidad de selección de cada una

de las tres muestras posibles es 1/3. Por lo tanto podemos afirmar que este tipo de
muestreo es probabilístico.
Si utilizamos dos marcos, como en el ejemplo de las viviendas, los municipios son
las unidades de muestreo correspondientes a la primera etapa y las viviendas son
las unidades de muestreo correspondientes a la segunda etapa. Es decir el
muestreo lo hemos realizado en dos etapas. Podemos generalizar la idea a varias
etapas (muestreo polietápico) en el que seleccionamos conglomerados en una
primera etapa y submuestreamos los conglomerados en etapas posteriores hasta
seleccionar las unidades elementales en una última etapa.
Para que el muestreo sea probabilístico, las propiedades anteriores deben de

verificarse en cada etapa.
2.1.2. Probabilidades de inclusión de primer y segundo orden
Partiendo de una población formada por N unidades (u1,..., uN), si el muestreo es

probabilístico, podemos calcular las probabilidades de inclusión siguientes:
 De primer orden asociada a cada unidad ui de la población: es la

probabilidad que tiene ui de pertenecer a la muestra. Se denomina πi y es la
suma de las probabilidades de selección en el subconjunto formado por las

muestras posibles que contienen a ui. Es decir:
πi = ∑ p(s)
u i ∈s

 De segundo orden asociada al par de unidades (ui, uj) de la población: es

la probabilidad que tiene el par (ui, uj) de pertenecer a la muestra. Se denomina
πij es la suma de las probabilidades de selección en el subconjunto formado por
las muestras posibles que contienen a (ui, uj). Es decir:
πij = ∑ p(s)
u i , u j ∈s
Obviamente las probabilidades de inclusión de segundo orden asociadas a los pares

(ui, uj) y (uj, ui) coinciden, es decir: π ij = π ji .
En el ejemplo último, cada unidad de la población pertenece a dos muestras

1 1 2
posibles por lo que π1 = π 2 = π3 = + = son las probabilidades de inclusión de
3 3 3
primer orden. Por otra parte, cada par de unidades es una muestra posible y
consecuentemente pertenece a una única muestra. Entonces las probabilidades de
1
inclusión de segundo orden son π12 = π13 = π 23 = .
3
2.1.3. Estimador
En (1.4.6) apareció la definición de estimador como la expresión

matemática que nos permite inferir las características de la población a partir de la
muestra. El valor que toma el estimador en una determinada muestra, se conoce
como estimación.
Es decir, en la práctica, seleccionamos una única muestra de tamaño n y aplicamos

un estimador, que no es más que una función matemática, a los valores muestrales
observados.

Supongamos que en el ejemplo anterior queremos investigar el valor medio

de una característica que toma los valores x1=x2=2 y x3=5 y la muestra
seleccionada resulta ser la formada por las unidades (u2, u3) siendo (2,5) los
valores observados. Entonces un estimador del valor medio poblacional viene dado
∑x
1
por la media muestral definida por la expresión matemática i que, en la
2 i∈s
2+5
muestra seleccionada, proporciona la estimación dada por el valor = 3,5 .
2
Repitiendo el proceso de muestreo todas las veces posibles, el estimador

proporciona diferentes estimaciones, cada una de ellas con una probabilidad igual a
la de la muestra sobre la que la estimación es calculada. El estimador es por
consiguiente una variable aleatoria, cuyos valores particulares son las
estimaciones, y tiene sentido hablar de la esperanza matemática del
()
estimador, E θ̂ , y de su varianza V θ̂ . ()
La esperanza del estimador es la media de todas las estimaciones posibles y la
varianza del estimador es una medida del grado de dispersión de éstas alrededor
de su media.
En el ejemplo anterior, el estimador media muestral es una variable

aleatoria discreta que proporciona dos estimaciones posibles: el valor 2 si la
muestra (u1, u2) es seleccionada y el valor 3,5 si seleccionamos cualquiera de las
otras dos muestras posibles. Por lo tanto, el estimador media muestral toma dos
valores, el 2 con probabilidad 1/3 y el 3,5 con probabilidad 2/3.
Fijaros que en este ejemplo ninguna de las dos estimaciones posibles coincide con
2+2+5
la media poblacional a estimar = 3.
3
Siempre que utilizamos una muestra para estimar datos de una población,
cometemos algo de error pues no podemos esperar que la muestra sea una
reproducción perfecta de la población de que procede. Este error es propio del
muestreo y no existen en los censos.

Veamos los siguientes gráficos que representan para tres situaciones diferentes, los
valores de las estimaciones posibles (azul), el valor de su media (verde) y el valor
del parámetro poblacional a estimar (rojo):
1)
2)
3)
En la primera situación hay un sesgo representado por la distancia entre el punto

verde (media de las estimaciones) y el punto rojo (parámetro poblacional), además
de un error representado por las oscilaciones de los puntos azules (estimaciones).
En la segunda el sesgo es el mismo que en la primera pero tiene menor error ya
que los puntos azules (estimaciones) están menos dispersos. La situación ideal es
la tercera, es decir, el sesgo prácticamente no existe y el error se ha reducido.
Si mediante el estimador θ̂ pretendemos estimar el parámetro poblacional θ ,
() ()
pueden ocurrir dos cosas: E θ̂ = θ ó E θ̂ ≠ θ . En el primer caso decimos que θ̂ es un
estimador insesgado para el parámetro θ , y en el segundo caso decimos que el
estimador es sesgado. Podemos calcular el sesgo del estimador B θ̂ () como la
diferencia entre la esperanza del estimador y el parámetro que trata de estimar. Es
() ()
decir, B θˆ = E θˆ − θ.
Continuando con el ejemplo anterior, la esperanza de la media muestral es
() 1 2
E θˆ = 2 + 3,5 = 3 que coincide con la media poblacional. Por lo tanto, en este caso,
3 3
la media muestral es un estimador insesgado de la media poblacional (aunque la
estimación sobre una determinada muestra no coincide con la media poblacional, la
media de las estimaciones sí coincide).

En general trabajaremos con estimadores insesgados.
El error del estimador viene dado por la dispersión de las estimaciones posibles
alrededor del parámetro poblacional a estimar. A este error de carácter aleatorio se
le conoce como el error cuadrático medio del estimador (ECM) y se define
como la media de las desviaciones entre las estimaciones y el parámetro al
cuadrado:
() (
ECM θˆ = E θˆ − θ )
2
El error cuadrático medio del estimador se puede desglosar en dos componentes,

ya que
() () ()
ECM θˆ = V θˆ + B θˆ
2
En donde el primer término es la varianza y el segundo es el cuadrado del sesgo.
En el caso de los estimadores insesgados, el error del estimador viene dado

sólo por la varianza. Para comparar dos estimadores insesgados, un criterio útil es
el de comparar sus varianzas pues a menor varianza, menor error y mayor
precisión.
Continuando con el ejemplo último, el error de la media muestral es
()
ECM θˆ = (2 − 3) 2 + (3,5 − 3)2 =
1
3
2 1
3 2
que coincide con la varianza del estimador, lo que
resulta lógico pues es insesgado.
En la práctica, como trabajaremos con estimadores insesgados, el error de

muestreo se mide con la raíz cuadrada de la varianza para expresar el error en las
mismas unidades que la característica estudiada. A este error se le conoce como el
error absoluto de muestreo del estimador.

Ahora bien, el error absoluto no nos proporciona una idea de la magnitud del
mismo en el sentido de si es grande o pequeño respecto al dato poblacional a
estimar (no es lo mismo un error absoluto de 1000 cuando el dato poblacional a
estimar vale 1000000 que cuando vale 10). Entonces, con el fin de limitar la
utilización de los datos estadísticos, es más útil el cociente entre el error absoluto y
el dato poblacional que estima, es decir, el error relativo de muestreo del
estimador o coeficiente de variación.
Continuando con el mismo ejemplo, el error absoluto de la media muestral
1
1 2
es = 0,707 y su error relativo es = 0,2357 , es decir, el coeficiente de variación
2 3
es del 23,57%.
Observar que, en este ejemplo, es posible calcular los errores porque conocemos
los datos poblacionales pero en el mundo real sólo vamos a conocer los datos de las
unidades investigadas en la muestra por lo que será imposible calcular su valor
exacto.
En la práctica el error de un estimador insesgado, tanto absoluto como

relativo, es estimado en base a los datos proporcionados por la muestra
seleccionada.
Otro indicador de la exactitud de las estimaciones vine dado por el intervalo de
() ()
confianza  θˆ − 2 V̂ θˆ , θˆ + 2 V̂ θˆ  que cubrirá al verdadero valor de θ con una
 
probabilidad de más del 95%, si θ̂ se distribuye aproximadamente como una
()
normal y V̂ θ̂ es un estimador consistente para la varianza del estimador. Entonces
cuanta menos amplitud tenga, más informativo será.

2.2. Métodos de selección de las unidades
En general existen dos métodos para seleccionar las unidades de la población:
 Sin reemplazamiento que es cuando la unidad seleccionada no se devuelve a

la población
 Con reemplazamiento que es cuando la unidad seleccionada se devuelve a la

población manteniendo constante la estructura de ésta
Con el primer método no hay unidades repetidas en la muestra mientras que con el
segundo puede haberlas.
Supongamos que P1, P2,..., PN (P1+P2+... +PN=1) son las probabilidades de

selección que tienen las unidades de la población al iniciar la selección de las n
unidades que formarán la muestra.
No confundir las probabilidades de selección P1,..., PN con las probabilidades

de inclusión π1 ,  , π N , son diferentes.
2
En el último ejemplo π1 = π 2 = π 3 = y P1=P2=P3=1/3 ya que las tres
3
unidades de la población tienen la misma probabilidad de ser elegidas.
2.2.1. Sin reemplazamiento (SR)
Al no devolver la unidad seleccionada, la estructura de la población no es constante

y las probabilidades de selección varían a medida que vamos construyendo la
muestra de tamaño n. De esta forma, las extracciones sucesivas hasta completar la
muestra no son independientes.
En el último ejemplo, inicialmente la población consta de tres unidades (u1,

u2, u3) y cada una tiene una probabilidad de selección igual a 1/3. Después de
seleccionar la primera unidad que formará parte de la muestra de tamaño n=2 y no
devolverla a la población, la población inicial ha variado y ahora está formada sólo
por dos unidades con una probabilidad de selección igual a 1/2 cada una de ellas.
Además el resultado de la primera extracción influye en el resultado de la segunda,
es decir, los dos pasos realizados para completar la muestra no son independientes.

En los métodos de selección de la muestra “sin reemplazamiento”, lo

importante es conocer las probabilidades de inclusión de primer y segundo
orden, πi para cada i=1,..., N y πij con i ≠ j , pues son imprescindibles para construir
los estimadores usuales (por ejemplo, el estimador de Horvitz-Thompson).
2.2.2. Con reemplazamiento
Al devolver la unidad seleccionada, a medida que vamos construyendo la muestra

de tamaño n, la estructura de la población es constante al igual que las
probabilidades de selección y las extracciones sucesivas hasta completar la muestra
son independientes.
Pensemos en el ejemplo anterior seleccionando una muestra de la misma

manera pero con reemplazamiento. Entonces inicialmente la población consta de
tres unidades y cada una tiene una probabilidad de selección igual a 1/3. Después
de seleccionar la primera unidad que formará parte de la muestra de tamaño n=2 y
devolverla a la población, quedan otra vez las tres unidades con una probabilidad
de selección igual a 1/3 cada una de ellas. Al ir a seleccionar la segunda unidad que
pertenecerá a la muestra, la población inicial no ha variado. Además el resultado de
la primera extracción no influye en el resultado de la segunda ya que siempre
partimos de la misma población compuesta por las tres unidades, es decir, los dos
pasos realizados para completar la muestra son independientes.
En los métodos de selección de la muestra “con reemplazamiento”, lo

importante es conocer las probabilidades de selección iniciales P1,..., PN con
P1+P2+... +PN=1, pues son imprescindibles para construir los estimadores usuales
(por ejemplo, el estimador de Hansen-Hurwitz).

2.3. Estimadores lineales insesgados
En cualquier proceso de muestreo el objetivo es estimar el valor de un parámetro o

dato poblacional asociado a una característica definida en la población, a partir de
los datos muestrales.
Podemos distinguir dos tipos de características a investigar en la población:
 Cuantitativa (si se puede medir y a cada unidad de la población le

asignamos un número)
 Cualitativa (en caso contrario y a cada unidad le asignamos una cualidad)
Cuantitativa son la edad de la persona, el número de hijos o el gasto

realizado en una familia y cualitativas son el sexo, el estado civil o la situación
laboral de la persona.
Entonces, según sea la característica estudiada, los parámetros poblacionales a

estimar más frecuentes son los siguientes:
 El total poblacional (X) de una característica cuantitativa, que es la suma de

los valores en la población, es decir,
X=x1+... +xN
Por ejemplo, el total del gasto en educación generado por las familias.
 La media poblacional ( X ) de una característica cuantitativa que es un

promedio de los valores en la población, es decir,
X=
(x1 +  + x N )
N
Por ejemplo, el gasto medio en educación de las familias.
 La razón o cociente entre los totales o medias poblacionales de dos

características cuantitativas, es decir,
R=X =X
Y Y
Por ejemplo, la proporción que representa el gasto en educación en relación al

gasto total de las familias.

 El total de clase (A) asociado a una característica cualitativa es el total de

unidades en la población que pertenecen a una determinada clase definida por
una o varias cualidades.
Por ejemplo, el total de individuos en paro.
 La proporción poblacional (P) asociada a una característica cualitativa es el

cociente entre un total de clase y el total de unidades en la población.
Por ejemplo, la proporción de individuos en paro.
 La tasa (T) es el cociente entre dos totales de clase o entre dos proporciones,
es deciR, T = A ′ = P ′ .
A P
Por ejemplo la tasa de paro definida como el cociente entre el total de parados y
el total de activos (parados y ocupados).
Por su sencillez y fácil manejo, en la práctica, para la estimación de totales,

medias o proporciones aplicamos estimadores lineales insesgados que se pueden
expresar en base a los valores muestrales como ∑w x

i∈s
i i con s la muestra
seleccionada, xi es el valor de la característica estudiada en la unidad ui y wi es el

coeficiente que lo multiplica.
Obsérvese que, en el caso de estudiar una característica cuantitativa, si
X̂ = ∑w x
i∈s
i i es el estimador lineal insesgado para el total poblacional
ˆ
(X), entonces X = X̂
N es el estimador lineal insesgado para la media poblacional
(X ) si el valor de N es conocido.
Finalmente, el estimador de la razón R se construye de forma natural como el
cociente entre las estimaciones insesgadas del numerador y del denominador,
ˆ
X̂ X
R̂ = =
Ŷ ˆ
Y
pero este estimador no es una combinación lineal de las observaciones muestrales

y tampoco es insesgado.

Cuando se trata de estudiar una característica cualitativa definimos en la

población una característica que toma el valor 1 si la unidad posee la condición que
define a la clase (A) o proporción (P) a estimar, y toma el valor 0 en caso contrario.
El total poblacional de esta nueva característica cuantitativa es X=x1+ ... +xN , una
suma de unos y ceros, que coincide con el total de clase (A=X). Además la media
poblacional de esta nueva característica es X =

(x1 +  + x N ) y coincide con la
N
proporción (P= X ). Igualmente podemos deducir que una tasa es una razón de
totales para variables cuantitativas que sólo toman los valores 1 ó 0 según la
unidad de la población posea o no la cualidad que define al total de clase del
numerador o del denominador.
El estudio de una característica cualitativa es un caso particular del

estudio de una característica cuantitativa. Por otra parte, la estimación
( )
insesgada de una media poblacional X se puede derivar dividiendo la estimación
insesgada del total poblacional (X) por el valor de N que se supone conocido.
Entonces los estimadores lineales insesgados de la media, el total de clase o
de una proporción y su error se pueden deducir a partir del estimador
lineal insesgado del total y su error.
A partir de ahora y para los diferentes tipos de muestreo que vamos a estudiar,
analizaremos el estimador lineal insesgado X̂ para el total poblacional (X) de una

característica cuantitativa. También estudiaremos el estimador de la razón y
aquellas situaciones en las que su sesgo es despreciable que es cuando debemos
utilizar este estimador.
En el libro de Cochran, o en el de Lohr o en el de Särndal, Swensson,

Wretman indicados en la bibliografía se pueden encontrar los desarrollos
matemáticos para cada uno de los estimadores y tipos de muestreo resumidos en
los siguientes apartados.

2.4. Tipos de muestreo y estimadores
Hasta ahora hemos visto que, dependiendo del método de selección de las
unidades, el tipo de muestreo puede ser sin reemplazamiento (SR) o con
reemplazamiento (CR).
Otra clasificación que podemos considerar dependiendo de las unidades de

muestreo es el muestreo de unidades elementales o de conglomerados y, en
este último caso, se suele distinguir entre un muestreo de conglomerados sin
submuestreo (monoetápico) y con submuestreo (multietápico).
Finalmente, según la información disponible en el marco del que vamos a

seleccionar la muestra, distinguimos los siguientes tipos de muestreo: sin
información auxiliar y con información auxiliar. En este último caso la
información auxiliar disponible en el marco puede ser utilizada para mejorar la
selección de la muestra o para mejorar el estimador.
Combinando los tres criterios obtenemos una gran variedad de tipos de muestreo.
Nosotros estudiaremos los casos SR, comenzando por el más sencillo que es la
selección de unidades elementales sin información auxiliar en el marco y
terminando con la selección de conglomerados en dos o más etapas. También
veremos cómo mejorar el estimador usual cuando disponemos de la necesaria
información auxiliar y, más concretamente, la estimación de una razón.
En algunos casos desarrollaremos las expresiones bajo muestreo CR ya que son

más sencillas y para poblaciones grandes, como suelen ser las manejadas por las
oficinas de estadística, podemos aplicarlas aunque la selección haya sido realizada
SR pues ambos esquemas de muestreo resultan equivalentes.
2.4.1. Muestreo de unidades elementales con probabilidades iguales
Partimos de un marco que es una lista de N unidades elementales, sin información

auxiliar disponible. A las unidades u1,..., uN les asociamos respectivamente los
valores desconocidos x1,..., xN de la característica cuantitativa que vamos a
investigar y el objetivo es estimar el total poblacional X=x1 + ... + xN.

Seleccionamos n unidades con probabilidades iguales y SR. A este tipo de muestreo

se le denomina muestreo aleatorio simple “sin reemplazamiento”, m.a.s.(n) SR, y el
estimador lineal insesgado para el total poblacional viene dado por la
expresión:
∑x
N
X̂ = i
n i∈s
Al cociente N/n se le llama factor de elevación e indica el total de unidades en la

población que están representadas por una unidad de la muestra.
()
La varianza de este estimador es V X̂ = N 2 (1 − f )
S2
n
donde f=n/N representa la
fracción de muestreo y S2 es una medida de la variabilidad de la propia

característica estudiada, que se denomina cuasivarianza poblacional, con
∑ (x )2
N
1
S2 = i −X .
N −1 i =1
Si estudiamos el gasto de las familias y todas las familias gastan lo mismo,

entonces la cuasivarianza poblacional vale cero (S2=0) ya que el valor de xi sería
igual para todas las unidades de la población. Es decir, en este caso la
característica estudiada (gasto de las familias) es muy homogénea.
A mayor homogeneidad de la característica estudiada en la población, menor

varianza del estimador y por tanto menor error en la estimación. El caso extremo
es el ejemplo anterior con S2=0 y error de muestreo nulo.
A mayor tamaño de la muestra, menor varianza y por tanto menor error en

la estimación. El caso extremo es cuando realizamos un censo (n=N) y por tanto
f=1 con error de muestreo nulo.
En la práctica, después de seleccionar la muestra, únicamente conocemos los

valores de la característica estudiada en las unidades muestrales y no en toda la
población. Consecuentemente es imposible conocer el valor exacto de S2 para
calcular la varianza del estimador y ésta es estimada en base a la información
proporcionada por la propia muestra.

El estimador de la varianza es: ()

V̂ X̂ = N 2 (1 − f )
Ŝ2
n
donde Ŝ 2 es la
cuasivarianza muestral, un estimador insesgado de S2 definido como
∑ (x − x )2 con x la media de los valores muestrales observados. Es decir,

1
Ŝ2 = i
n −1 i∈s
∑x
1
x= i es la media muestral.
n i∈s
En una población de 100 familias seleccionamos una m.a.s. (10) SR y

obtenemos los gastos siguientes: 400, 400, 260, 450, 580, 600, 500, 420, 700 y
200. Entonces la estimación del gasto total es X̂ =

100
(400 + 400 +  + 200) , es decir,
10
de 45.100 euros. El factor de elevación es 100/10, es decir, cada unidad de la
muestra representa a 10 unidades de la población y el gasto realizado por la unidad
muestral se multiplica por 10. La varianza estimada es V̂ X̂ = (4.570,45) () 2

y el error
4.570,45
relativo de muestreo es del 10% ya que = 0,101 .
45.100
Si la selección de las unidades se hubiera realizado con m.a.s.(n) CR, entonces las
expresiones para el estimador del total poblacional y de su varianza son:
X̂ =
N
n ∑ xi y ()
V̂ X̂ = N 2
Ŝ2
n
i∈s
La selección de unidades elementales con probabilidades iguales tiene las siguientes

ventajas:
 Marco sencillo, sin necesidad de información auxiliar
 Cálculo sencillo del tamaño de la muestra necesario para una precisión

dada
 Fácil programación de la selección de la muestra, los factores de

elevación y los errores de muestreo
 Dispersión de la muestra y garantía de representatividad de la misma

para tamaños muestrales adecuados.

Sin embargo, también tiene inconvenientes:
 Coste elevado de los trabajos de campo por la dispersión muestral, sobre

todo si se hacen mediante entrevista personal
 La no disponibilidad de información auxiliar impide mejorar la

representatividad de la muestra o la precisión del estimador
2.4.2. Muestreo estratificado de unidades elementales con probabilidades

iguales
Partimos de un marco de N unidades elementales que contiene información auxiliar

suficiente para dividirlo en L subpoblaciones o estratos de N1, N2,..., NL unidades
cada uno con N=N1+N2+... +NL.
A cada unidad del marco la llamamos uhi con h=1, ..., L (representa el estrato al
que pertenece) e i=1,..., Nh (representa el lugar que ocupa dentro del estrato) y el
valor desconocido de la característica estudiada es xhi. El objetivo es estimar el total
poblacional X=x1+...+xN que ahora podemos expresar teniendo en cuenta los
( )
estratos como X = ( x11 +  + x1N1 ) +  + x L1 +  x LN L = X1 +  + X L , es decir, como la
suma de los totales poblacionales en cada estrato X1,..., XL.
Entonces seleccionamos una m.a.s.(nh) SR en cada estrato de manera que las

muestras sean independientes. Es decir, obtenemos L muestras independientes de
tamaños n1, n2,..., nL de manera que el número total de observaciones, n, verifica
que n=n1+n2+... +nL. .
En cada estrato, haciendo uso de los resultados del apartado anterior, construimos
∑ ∑x
N1 NL
los estimadores X̂1 = x1i ,..., X̂ L = Li insesgados para los totales
n1 i∈s nL i∈s L
1
poblacionales X1, ..., XL respectivamente. Entonces, el estimador insesgado del

total poblacional viene dado por la expresión
∑ X̂ ∑x
Nh
X̂ st = h con X̂ h = hi
h =1
nh i∈s h
La varianza de este estimador, por ser las muestras independientes, es la suma de

las varianzas de los estimadores construidos en cada estrato.

( ) ∑ V(X̂ )
L
Es decir, V X̂ st = h pero cada sumando o varianza, en la práctica, no lo
H =1
podemos calcular con la información de la muestra aunque podemos estimarlo y
( )
construir V̂ X̂ h = N 2h (1 − f h )
Ŝ2h
nh
estimador insesgado de la varianza en el estrato h.
Entonces el estimador de la varianza del estimador X̂ st es:
( ) ∑ V̂(X̂ ) ( )
L
Ŝ2h
V̂ X̂ st = h con V̂ X̂ h = N 2h (1 − f h )
h =1
nh
La ganancia en precisión con la estratificación será tanto mayor si los

estratos agrupan unidades con un comportamiento similar en relación a la
característica estudiada. De esta manera la varianza aportada por cada estrato será
pequeña y también la varianza del estimador basado en toda la muestra.
Este tipo de muestreo permite obtener estimaciones insesgadas

separadas en los estratos. Cada estrato puede tener una fracción de muestreo
fh=nh/Nh diferente y, por tanto, un factor de elevación, Nh/nh, también diferente.
Un marco de personas que contenga la característica sexo permite formar

dos estratos, hombres y mujeres, y seleccionar una muestra de cada uno. Si se
desea estimar el total del gasto en bebidas alcohólicas, podemos estimar por
separado el gasto realizado por los hombres y por las mujeres, y obtener una
estimación del gasto total conjunto como suma de ambas estimaciones.
Un aspecto fundamental es la afijación de la muestra, es decir, cómo distribuir la

muestra entre los diferentes estratos. Esto es, determinar los valores de n1,..., nL
verificando que n=n1+...+nL. Existen varios criterios, entre ellos:
 Uniforme: supuesto n conocido consiste en asignar el mismo tamaño muestral

para todos los estratos, es decir, nh=n/L. Tiene la ventaja de que es fácil de
aplicar pero pudiera ocurrir que un estrato pequeño resultase muestreado al
100% mientras que un estrato grande tuviera una fracción de muestreo
demasiado pequeña.

 Proporcional: supuesto n conocido consiste en distribuir las n unidades

proporcionalmente a los tamaños de los estratos, es decir, nh=nWh donde
Wh=Nh/N es el peso del estrato h. Tiene la ventaja de que cada estrato aparece
representado en la muestra total, con el mismo peso que dicho estrato figura en
la población total. Sin embargo tiene la desventaja de que estratos con muy
poco peso en la población pero cuya estimación separada es necesaria, pueden
no tener muestra afijada.
Con la afijación proporcional se simplifican los cálculos porque todos los estratos
tienen la misma fracción de muestreo (fh=n/N) y el mismo factor de elevación
(N/n). De esta manera el estimador del total poblacional es dicho factor común
por la suma de los valores observados en la muestra completa
 N L 
 X̂ st = ∑∑ x hi  . Se dice entonces que la muestra es autoponderada.
 n h=1 i∈sh 

 De mínima varianza o de Neyman: supuesto n conocido consiste en

determinar los valores de nh de forma que la varianza del estimador sea
mínima. El resultado es que el tamaño muestral en cada estrato es proporcional
al peso del estrato y a la variabilidad de la característica en el estrato, es decir:
Wh Sh
nh = n L
∑W S
h =1
h h
Nh
donde S 2h =
1
Nh −1 ∑
(x hi − Xh )2 es la cuasivarianza poblacional de la
i =1
característica estudiada en el estrato h.
Entonces a mayor peso y variabilidad, mayor tamaño muestral para representar

a ese estrato.
 Óptima considerando costes, podemos minimizar el coste de los trabajos de

campo para una precisión dada del estimador global o viceversa, es decir o
minimizar la varianza para un coste dado. Los valores de nh resultantes son:
Wh S h ch
nh = n L
donde ch es el coste por cuestionario en el
∑W S
h =1
h h ch
estrato h.

En la práctica desconocemos los valores de las cuasivarianzas poblacionales
S12 ,  , S2L , ¿sabías que entonces se suelen utilizar los valores conocidos asociados a
una característica correlada con la que es investigada o las estimaciones insesgadas

obtenidas en un periodo anterior?
La selección de muestras independientes en estratos tiene varias ventajas como

son:
 Mejora la representatividad de la muestra, en lo que se refiere a las

variables utilizadas en la estratificación
 Si la estratificación construye agrupaciones homogéneas de las unidades

elementales, mejora la precisión del estimador global
 Permite un reparto óptimo de la muestra por estratos en cuanto a la

precisión del estimador global y a los costes de los trabajos de campo
El único inconveniente es la necesidad de información auxiliar disponible en el

marco para poder aplicarlo pero con la mejora actual de las bases de datos gracias
a los ordenadores y las nuevas tecnologías, en la práctica, se utiliza con mucha
frecuencia.
2.4.3. El estimador de razón bajo muestreo de unidades elementales con

probabilidades iguales
Partimos de un marco de N unidades elementales del que seleccionamos una

m.a.s.(n) en la que investigamos dos características cuantitativas obteniendo los
valores (x1,y1), ..., (xn,yn). Entonces el estimador de la razón (R=X/Y) bajo
m.a.s.(n) vienen dado por la expresión:
∑x ∑y
X̂ N N
R̂ = con X̂ = i , Ŷ = i
Ŷ n i∈s
n i∈s
El estimador de la razón es sesgado aunque hay 2 situaciones en las que su

sesgo es despreciable: cuando el tamaño de la muestra es grande y cuando la
relación entre ambas características cuantitativas es una recta que pasa por el
origen (yi=Cxi para cada i=1,..., N).

Para el cálculo de la varianza se utiliza el método general de linearización de Taylor,

válido cuando el sesgo es despreciable, que proporciona una expresión aproximada
en función de la propia razón R. Entonces, como en ocasiones anteriores, la
varianza del estimador es estimada en base a la propia muestra.
A veces sólo deseamos estimar el total poblacional (X) de una característica

cuantitativa pero disponemos del total poblacional (Y) de otra característica
cuantitativa correlada positivamente con la anterior. Entonces, podemos mejorar el
estimador X̂ y en su lugar aplicamos el llamado estimador del total por el
método de la razón que viene dado por la expresión X̂ R = R̂Y . Este estimador
será insesgado cuando lo sea el estimador R̂ .
La ganancia en precisión con el estimador del total por el método de la razón

frente al estimador usual del total es tanto mayor si la correlación entre ambas
variables cuantitativas es alta y positiva. Si la correlación es negativa, no debe
aplicarse este método.
Si en el marco tenemos las unidades agrupadas en L estratos y obtenemos una

muestra estratificada, hay dos formas de obtener el estimador del total por el
método de la razón bajo muestreo aleatorio estratificado:
 Separado: obtenemos la estimación separada del total en cada estrato por el
( )
L
método de la razón X̂ Rh = R̂ h Yh y sumamos. Es decir X̂ RS = ∑ X̂
h =1
Rh .
 Combinado: obtenemos la estimación de R como cociente de los estimadores

insesgados del numerador y del denominador bajo muestreo estratificado
 
 R̂ st = X̂ st  y la multiplicamos por el total Y. Es decir X̂ RC = R̂ st Y .
 Ŷst 
El estimador separado requiere una información auxiliar más desagregada y tiene el

riesgo de acumular el sesgo a lo largo de los estratos si éste existiese y fuera
siempre del mismo signo, positivo o negativo. Sin embargo, el estimador separado
permite dar estimaciones separadas para cada estrato y tiene menor variabilidad
generalmente al suponer que la verdadera razón no permanece constante de un
estrato a otro.

Si está disponible la información auxiliar necesaria y no hay riesgo de sesgos

acumulados, es preferible el estimador separado.
En muchas de las encuestas a hogares realizadas por el INE se utiliza el

estimador de razón separado, tomando como variable auxiliar la población de 16 y
más años.
2.4.4. Muestreo de conglomerados de igual tamaño sin submuestreo
Partimos de un marco formado por K conglomerados, C1,..., Ck, que contiene

información auxiliar relativa al tamaño del conglomerado medido por el total Mi de
unidades elementales que contiene. Supongamos que todos los conglomerados
tienen el mismo tamaño, es decir, Mi= M y N=K M .
A cada unidad elemental la llamamos uij con i=1, ..., K (representa el conglomerado
al que pertenece) y j=1, ..., M (representa el lugar que ocupa dentro del
conglomerado), y el valor desconocido de la característica estudiada es xij .
Deseamos estimar el total poblacional que, expresado teniendo en cuenta los
conglomerados, es X = (x11 +  + x1M ) +  + (x K1 +  + x KM ) = X1 +  + X K . Es decir, es la
suma de los totales poblacionales en cada conglomerado X1,..., XK.
Seleccionamos una m.a.s.(n) SR de conglomerados e investigamos en cada uno las
M unidades elementales que contiene, por lo tanto, conocemos el total poblacional

Xi en cada conglomerado seleccionado. Entonces, el estimador insesgado del
∑X
K
total poblacional viene dado por X̂ = i . Existe una fórmula directa para el
n i∈s
cálculo de su varianza que, como siempre, debemos estimar en base a la muestra

seleccionada.
Si comparamos este tipo de muestreo con un m.a.s.(n M ) SR de unidades

elementales con el que obtendríamos una muestra más dispersa, obtenemos que
() ( )[ (
VC X̂ = VMAS X̂ 1 + δ M − 1 )] donde el factor 1 + δ M − 1 ( ) representa el efecto del
diseño y muestra la magnitud del cambio de la varianza al usar el conglomerado

en lugar de la unidad elemental como unidad de muestreo.

La ganancia en precisión con la selección de conglomerados se produce si el

efecto del diseño es menor que uno. Esto ocurre cuando los conglomerados
agrupan unidades con un comportamiento muy diferente en relación a la
característica investigada. El caso ideal sería si cada conglomerado fuera una copia
reducida de la población de manera que las medias poblacionales en los
conglomerados fueran idénticas.
¿Sabrías decirme la diferencia entre estratos y conglomerados?
Hay dos razones principales para la aplicación del muestreo de conglomerados:
 menor coste de los trabajos de campos debido a la menor dispersión de la

muestra, sobre todo en el caso de la entrevista personal
 la imposibilidad de aplicar otro tipo de muestreo al no existir un marco de

unidades elementales.
2.4.5. Muestreo de conglomerados de diferentes tamaño sin submuestreo
Partimos de la situación anterior pero ahora los conglomerados no tienen todos el

mismo tamaño y N=M1+ ... +MK.
Seleccionamos n conglomerados con probabilidades desiguales SR e investigamos

en cada uno las Mi unidades elementales que contiene. El estimador insesgado
del total poblacional viene dado por la expresión del estimador de Horvitz-
∑π
Xi
Thompson X̂ = donde π i es la probabilidad de inclusión del conglomerado i
i∈s i
en la muestra de conglomerados.
Si el tamaño Mi del conglomerado está relacionado con el valor del total

pobalcional Xi, la selección de la muestra con probabilidades proporcionales a dicho
Mi
tamaño (ppt) permite mejorar los estimadores. En este caso es πi = n y los
N
conglomerados más grandes tienen mayor probabilidad de ser seleccionados y los
pequeños tienen menos.

Supongamos deseamos estimar el gasto total en alimentación y partimos de

un marco de municipios (conglomerado) de los que sabemos el total de viviendas
(unidades elementales) en cada uno de ellos. Supongamos que se cumple, en cada
municipio, que el gasto total es 100 veces el total de viviendas. Es decir, Xi=100Mi,
entonces con una selección ppt de municipios el estimador del total sería
Xi N 100 M i
Xˆ = ∑ = ∑ = 100 N = X y el error sería nulo.
i∈s
nM i n i∈s M i
N
Si la selección de los n conglomerados se realiza CR y probabilidades desiguales, el

estimador insesgado del total poblacional viene dado por la expresión del
∑ nP
Xi
estimador de Hansen-Hurwitz X̂ = donde Pi es la probabilidad de selección
i∈s i
del conglomerado i. Si la selección se realiza con ppt es Pi=Mi/N.
Una ventaja del muestreo de conglomerados sin submuestreo es la mejora de la

precisión del estimador global si aplicamos probabilidades proporcionales al tamaño
del conglomerado (ppt). Sin embargo, conlleva una desventaja importante ya que
puede disminuir la precisión del estimador si las unidades elementales dentro de
cada conglomerado son homogéneas respecto a la característica estudiada.
En las encuestas de hogares realizadas por el INE se realiza un muestreo de

secciones censales (conglomerados), que son áreas geográficas que incluye un
máximo de 2.000 electores y un mínimo de 500, lo que permite reducir los costes
de los trabajos de campo. Sin embargo, en general, las personas que viven en una
misma sección censal suelen ser de la misma clase social por lo que su
comportamiento es muy similar en relación a las variables sociodemográficas
estudiadas (educación, actividad laboral,...).

2.4.7. Muestreo de conglomerados de diferentes tamaño con submuestreo
En el caso anterior, si las unidades elementales de un conglomerado seleccionado

dan valores similares de la característica investigada, no parece rentable
observarlas todas. Entonces, una práctica común consiste en observar una muestra
de unidades elementales en cada conglomerado seleccionado.
Es decir, submuestreamos los conglomerados seleccionados o, dicho de otra

manera, realizamos un muestreo en dos etapas:
 En la primera etapa seleccionamos n conglomerados con cualquier tipo de

muestreo aunque generalmente trabajamos con probabilidades proporcionales
al tamaño (ppt). Entonces a las unidades de muestreo de esta etapa se las
denomina unidades primarias o de primera etapa.
 En la segunda etapa seleccionamos de forma independiente una m.a.s. (mi)

SR de unidades elementales en cada unidad primaria seleccionada. Entonces a
las unidades de muestreo de esta etapa se las denomina unidades secundarias
o de segunda etapa.
Es decir, si en la primera etapa la selección se hubiera realizado CR y una unidad

primaria saliese repetida dos veces, en la segunda etapa obtendríamos dos
muestras independientes de unidades elementales en esa unidad primaria.
Debido al submuestreo, el total poblacional Xi en cada conglomerado seleccionado

no es conocido y tenemos que estimarlo en base a la m.a.s. (mi) seleccionada. Con
las estimaciones X̂ i obtenidas podemos construir el estimador del total poblacional
de igual manera que en el caso anterior, dependiendo de que la selección de los

conglomerados haya sido realizada SR o CR. El resultado es un estimador
insesgado para el total poblacional dado por la expresión:
∑π ∑ nP
X̂ i X̂ i
X̂ = (SR ) siendo πi = n
Mi
y X̂ = (CR ) con Pi=Mi/N
i∈s i N i∈s i
mi
∑x
Mi
donde X̂ i = ij es un estimador insesgado del total poblacional Xi en el
mi J =1
conglomerado seleccionado en la primera etapa.

Como siempre es posible obtener la expresión de la varianza de este estimador

que, aparte de resultar compleja, depende de los totales poblacionales en los
conglomerados X1,..., XK, cuyos valores desconocemos, por lo que debemos estimar
la varianza en base a la muestra.
El muestreo en dos etapas o bietápico se puede extender al muestreo en varias

etapas o polietápico. También se puede combinar con un muestreo estratificado con
estratificación de las unidades primarias y con un estimador del total por el método
de la razón si se dispone de la información auxiliar necesaria. Todo ello contribuye a
la mejora de los resultados pero, por otra parte, complica los cálculos para la
aplicación de las fórmulas directas que estiman los errores.
2.4.5. Muestreo sistemático
El muestreo sistemático se refiere a un conjunto de procedimientos para

seleccionar muestras de forma rápida y sencilla. La unidad de muestreo puede ser
tanto la unidad elemental como el conglomerado.
 Muestreo sistemático de unidades elementales con probabilidades

iguales (SR):
Es la versión más sencilla del muestreo sistemático y sustituye frecuentemente al

muestreo aleatorio simple de unidades elementales.
Para obtener una muestra sistemática de tamaño n y probabilidades iguales de un

marco de N unidades elementales, determinamos un periodo k=N/n y
seleccionamos un número aleatorio R del conjunto 1,2,..., k. Este número R
determina que la muestra esté formada por las unidades del marco numeradas
como R, R+k, R+2k,..., R+(n-1)K.
Para elegir una muestra de 100 viviendas de una lista de 2.000, el periodo
es k=20 y R ∈ {1,2,  ,20} . Supongamos que R=7, entonces las viviendas numeradas
como 7, 27, 37,..., 1.987 estarían en la muestra.
Si las unidades del marco tiene un orden aleatorio, el muestreo sistemático

es similar a un m.a.s. (n) SR y se aplican los mismos estimadores aunque no sea
exactamente lo mismo (en el ejemplo anterior, es imposible que las viviendas 125 y

126 aparezcan en la misma muestra sistemática pero si es posible que formen

parte de la misma muestra aleatoria simple).
Por otra parte, si el marco tiene un orden creciente o decreciente según una
variable correlada con la estudiada, es probable que el muestreo sistemático sea
más preciso que el m.a.s. (n) SR y al utilizar la fórmula de la muestra aleatoria
simple para la estimación de la varianza, es posible que estemos dando una
sobreestimación del error.
Una lista de viviendas ordenadas según el número de personas que la

habitan y queremos estimar el gasto total en alimentación. La muestra sistemática
contiene viviendas de todos los tamaños y, por tanto, gastos pequeños y grandes
(efecto similar a la estratificación del marco según el tamaño de la vivienda). La
muestra aleatoria simple puede contener sólo viviendas pequeñas o sólo grandes,
de modo que haya más variabilidad entre sus estimaciones que entre las
estimaciones basadas en las muestras sistemáticas.
Si la lista de unidades del marco tiene algún orden periódico o cíclico, el muestreo
sistemático no proporciona necesariamente una muestra representativa. Por
ejemplo, si los hombres y las mujeres se alternan en la lista y k es par, la muestra
sistemática sólo tendrá hombres o mujeres, lo que no es una parte representativa
de la población estudiada.
 Muestreo sistemático de conglomerados con probabilidades

proporcionales al tamaño (ppt):
Es la generalización de la versión anterior. En un marco de K conglomerados, para

obtener una muestra sistemática de tamaño n y probabilidades proporcionales al
tamaño Mi del conglomerado, consideramos una lista numerada de 1 a N con N=M1
+.... + Mk , en la que los M1 primeros números representan al conglomerado 1º, los
M2 siguientes números representan al conglomerado 2º y así sucesivamente.
Entonces determinamos un periodo k=N/n y seleccionamos un número aleatorio R

del conjunto 1,2,..., k. Se seleccionan los conglomerados que contienen a los
números R, R+k, R+2k,..., R+(n-1)K.
Cuando los conglomerados tienen tamaños muy diferentes siendo unos muy
grandes y otros muy pequeños, al sumar el periodo k al número correspondiente,
seguramente el número resultante sigue representando al mismo conglomerado si
éste es grande, por lo que estará repetido en la muestra.

Si se verifica la condición Mi<N/n para cualquier conglomerado, entonces no

habrá conglomerados repetidos en la muestra (SR).
En el libro de Särndal, Swensson, Wretman indicado en la bibliografía

se puede encontrar una discusión detallada del muestreo sistemático.
2.5. Errores de muestreo y métodos de estimación
Hemos visto que el error de muestreo en el caso de estimadores insesgados o

aproximadamente insesgados es medido por la varianza del estimador que es
función tanto de la forma del estimador como de la selección de la muestra.
Para calcular la varianza necesitamos información de la población que no está

disponible, por lo que debemos estimarla en base a la información proporcionada
por la muestra seleccionada.
Un estimador de la varianza debería ser: insesgado o casi insesgado, estable (su

propia varianza debe ser pequeña), no negativo y consistente. Además de estos
criterios una característica deseable de los métodos de estimación de las varianzas
es su aplicabilidad, a veces incluso por encima de su exactitud o insesgadez.
Sin embargo, la aplicación de fórmulas directas para estimar la varianza puede

resultar bastante complicada en diseños complejos como por ejemplo los muestreos
multietápicos con estratificación de las unidades de primera etapa. Y más aún si se
hace uso de estimadores no lineales y de técnicas de calibración actualmente tan
utilizadas.
Una alternativa son los métodos indirectos que permiten la estimación de la

varianza mediante fórmulas más sencillas y suelen ser aproximadamente
insesgados para muestras grandes. Hay dos métodos indirectos principalmente: la
linearización y la replicación.
En muchas ocasiones los valores a estimar en las encuestas son estadísticos no

lineales (razones, índices de desigualdad como los índices de Gini,...) y lo que
tratamos es de simplificar la expresión del estimador antes de estimar su varianza.
Esta es la idea básica del método de la linearización por series de Taylor que
consiste en reemplazar el estimador por su aproximación lineal dada por el primer
término de la serie de Taylor. Posteriormente la varianza del estimador linearizado
se puede calcular con los métodos estándar.

Otra idea consiste en simplificar el procedimiento de cálculo del error de muestreo

mediante la replicación. En el siguiente esquema se presenta los métodos más
habituales bajo esta perspectiva:
- Basados en • método de replicaciones de Deming
Replicaciones • “ grupos aleatorios
del diseño • “ conglomerados últimos
- Basados en • métodos bootstrap
replicaciones de • “ jackknife
la muestra • “ semimuestras reiteradas
(submuestreos replicados)
A continuación vamos a describir brevemente algunos de los métodos basados en

replicaciones que se suelen utilizar cuando las unidades de primera etapa o
conglomerados son seleccionadas CR.
En el libro de Lohr o en el de Särndal, Swensson, Wretman indicados

en la bibliografía se pueden encontrar los principios matemáticos en los que están
basados así como la adaptación de sus expresiones a diseños complejos.
2.5.1. Método de los conglomerados últimos
En el muestreo polietápico el término conglomerado último representa el

conjunto de unidades de última etapa seleccionadas en una unidad primaria (por
ejemplo el conjunto de viviendas seleccionadas en un municipio seleccionado en
una primera etapa).

Con cada conglomerado último obtenemos una estimación θ̂ i insesgada para el
parámetro θ objeto de estudio, de manera que el estimador insesgado θ̂

n
∑ θˆ
1
construido con la muestra completa verifica que θˆ = i . Así el estimador de la
n i =1
varianza por este método es:
() ∑ (θˆ )
n
1 2
V̂ θˆ = − θˆ con n el número de conglomerados últimos.
n (n − 1)
i
i =1
Aplicado al muestreo bietápico con selección de n conglomerados CR en la primera

etapa, donde cada conglomerado seleccionado en la primera etapa representa un
conglomerado último, el estimador de la varianza viene dado por la expresión
()  
n
∑  X̂ i − X̂ 
1
V̂ X̂ =
n (n − 1) P
i =1  i


2.5.2. Método de las semimuestras reiteradas
Partimos de θ̂ estimador insesgado del parámetro poblacional θ basado en la

muestra completa de tamaño n. La idea es seleccionar de dicha muestra completa
una submuestra de tamaño n/2 (supuesto n es par) que llamamos semimuestra y
repetirlo K veces de forma independiente. De esta forma obtenemos K
semimuestras y construimos K estimadores que verifiquen las condiciones
siguientes:
 El estimador θ̂ r obtenido con la r-ésima semimuestra debe ser insesgado si la
semimuestra fuera considerada como una muestra, E θˆ r = θ , y por otro lado si ( )

consideramos la muestra como población y la semimuestra como muestra el
estimador también debe ser insesgado, E 2 θˆ r = θˆ donde la segunda esperanza ( )

es considerando la muestra como población.
 ( )
Por otra parte, se supone que V θˆ r = 2V θˆ lo cual es en general será cierto()
debido a la construcción de las semimuestra.
Entonces la expresión del estimador de la varianza viene dada por:
() ∑ (θˆ )
K
1 2
V̂ θˆ = r − θˆ
K r =1

Este es el método usado en la Encuesta de Población Activa (EPA) del INE-

España. Concretamente se usan 40 reiteraciones. Primero se agrupan todas las
secciones de cada estrato por pares, procurando que las dos secciones de cada par
pertenecieran al mismo turno de rotación de la encuesta. Seguidamente se asigna
aleatoriamente la primera sección de cada par a 20 reiteraciones y la otra sección a
las otras 20 reiteraciones. De esta forma cada reiteración queda constituida por un
número de secciones equivalente al 50 por ciento de la muestra (semimuestra) y
cada sección aparece en la mitad de las reiteraciones.
2.5.3. Método Jackknife
Se trata de una técnica desarrollada fuera del ámbito de las encuestas por
muestreo. La primera aplicación fué realizada por Quenouille (1949) para reducir el
sesgo de un estimador en el contexto de poblaciones infinitas. Tukey (1958) sugirió
que esta técnica podría ser útil para estimar varianzas. Durban (1959) utilizó esta
técnica por vez primera en poblaciones finitas.
La idea es la siguiente: tenemos la muestra con n elementos y para el parámetro θ
tenemos el estimador θ̂ cuya varianza queremos estimar. Llamamos θ̂ ( j) al
estimador basado en la muestra jackknife de tamaño n-1 que resulta de eliminar
la unidad j en la muestra completa y que se calcula de la misma manera que θ̂ .
θ j = nθˆ − (n − 1)θˆ ( j) . Entonces el

~
Definimos para cada j=1 ..., n el pseudovalor
estimador Jackknife de la varianza es
() ∑ (θ ) ∑ (θˆ ( ) − θˆ ( ) )
n n
1 ~ 2 n −1 2
V̂JK θˆ = j − θ JK
ˆ =
n (n − 1)
j .
j=1
n j=1
n n
∑ ∑ θˆ ( ) .
1 ~ 1
donde θˆ JK = θ n y θˆ (.) = j
n j=1
n j=1
Una expresión alternativa es restando el estimador θ̂ basado en la muestra original

cuyo valor es claramente superior al de la anterior.
En el caso de muestreo multietápico con estratificación de las unidades de primera

etapa, se eliminan en cada ocasión todas las unidades pertenecientes a una unidad
de muestreo en primera etapa (conglomerado).

Uno de los problemas de este método es la necesidad de repetir para cada una de
las muestras jackknife el proceso de estimación llevado a cabo sobre la muestra
completa. En muchos casos, ésto implica un proceso complejo de recalcular los
factores de elevación (correcciones de falta de respuestas, estimadores complejos,
calibrados...) y requiere una gran potencia de cálculo, por ello estos métodos eran
impensables hasta la llegada de ordenadores potentes y accesibles para los técnicos
de análisis de encuestas.
Para resolver la dificultad anterior una posibilidad es, en vez de recalcular los
nh
factores de elevación, multiplicar los factores originales por el factor en el
n h −1
estrato donde se ha quitado el conglomerado.
Una forma alternativa del método jackknife consiste en eliminar un grupo se

unidades en lugar de eliminar una única unidad.
Este método se ha usado recientemente en el INE-España en varias

encuestas dirigidas a los hogares, como la Encuesta de Empleo del Tiempo 2003, la
Encuesta Nacional de Salud 2006 y la Encuesta sobre la Participación de la
Población Adulta en las Actividades de Aprendizaje 2007.
2.5.4. Método Bootstrap
El método bootstrap para la estimación de la varianza de un estimador con

observaciones independientes fue presentado Efron (1979, 1982,...). De momento
no hay una respuesta definitiva acerca del comportamiento en el caso del muestreo
sin reemplazamiento en poblaciones finitas.
La idea es extraer una muestra bootstrap de la muestra original con

reemplazamiento, probabilidades iguales e igual tamaño que ésta, y obtener el
estimador θˆ ∗b de la misma forma que el estimador sobre la muestra original.
Repetimos el proceso B veces de forma independiente y obtenemos B estimadores
independientes cuya distribución imita a la distribución del estimador θ̂ . El

estimador bootstrap de la varianza es:
B B
∑ ∑ θˆ
1 1
V̂BOOT (θˆ ) = (θˆ ∗b − θˆ ∗• ) 2 donde θˆ ∗• = ∗
b
B − 1 b =1 B b =1

En el INE-España se ha utilizado para el cálculo de los errores de muestreo

de los indicadores de exclusión social (indicadores de “Laeken”) obtenidos
de la Encuesta de Condiciones de Vida. Estos indicadores, medidas de pobreza y
desigualdad en su mayor parte, son estimadores muy complejos y no lineales
(funciones de quantiles) por lo que el método Jackknife no es adecuado. Debido a
esto se ha utilizado el método bootstrap. Hay que destacar que a pesar del carácter
casi experimental del procedimiento, los resultados obtenidos por nosotros (con
2000 replicaciones bootstrap) son muy similares a los resultados obtenidos por
Eurostat, que utiliza primero una linearización de los estimadores y después aplica
el software POULPE francés para estimar errores de muestreo en encuestas con
diseño complejo.
2.5.5. Software para el cálculo de errores de muestreo
Como hemos visto en los puntos anteriores, los procedimientos de cálculo de los
errores de muestreo requieren, en general, repetir un mismo procedimiento un
gran número de ocasiones. Por ello, se necesitan programas informáticos para su
cálculo. Por suerte, aparte de la posibilidad de programaciones adhoc, hay gran
variedad de software diseñado específicamente para el cálculo de errores de
muestreo en encuestas complejas. Entre los más usados podemos citar:
 Bascula de Statistics Netherlands.
 CalJack desarrollado por P. Lavallée
 Generalized Estimation System (GES) de Statistics Canada.
 IVEware de la Universidad de Michigan.
 PCCARP de la Iowa State University.
 POULPE, del INSEE Francia.
 R survey package del R Project.
 SAS/STAT del Instituto SAS (Survey Procedures, especialmente el

SURVEYMEANS)
 SPSS Complex Samples de SPSS Inc.
 Stata de Stata Corporation.
 SUDAAN de Research Triangle Institute.
 WesVar de Westat, Inc.

2.6. Resumen
 El muestreo probabilístico es el utilizado en las oficinas de estadística.
 El muestreo probabilístico necesita de un marco para seleccionar la muestra.
 Buscamos estimadores insesgados o aproximadamente insesgados. El error

de este tipo de estimadores viene dado sólo por la varianza que
estimaremos en base a la muestra seleccionada.
 La selección de unidades elementales con probabilidades iguales tiene la

ventaja de la sencillez del método pero la no utilización de información
auxiliar impide la mejora de la selección de la muestra o de la precisión del
estimador.
 Una mejora inmediata, si existe la información necesaria, es la

estratificación de la muestra o el uso del estimador por el método de la
razón.
 La selección de conglomerados con probabilidades proporcionales al tamaño

reduce costes y puede mejorar la precisión del estimador pero es más
complicado el proceso tanto de la selección de la muestra como del cálculo
de los errores.
 Los métodos indirectos para la estimación de los errores proporcionan

fórmulas sencillas y, para muestras grandes, resultados similares
 Una manera fácil de seleccionar muestras es aplicando, cuando las

condiciones son las adecuadas, el muestreo sistemático.

UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS

ENCUESTAS
3.1. Definición de marco
En cualquier investigación estadística, tanto si es una investigación de tipo

exhaustivo, como si se trata de una encuesta por muestreo es necesario disponer
de una información previa en forma de listas, mapas, etc que nos permita llegar a
todos los elementos de la población.
Desde un punto de vista estricto se define el MARCO como la relación de

unidades de donde se selecciona la muestra. En un sentido amplio, el marco se
considera a la lista de unidades, junto con toda la información complementaria que
se puede utilizar en el diseño de la encuesta.
El marco nos va a proporcionar información auxiliar imprescindible para

utilizarla en:
•Formación de los estratos: La información disponible sobre las unidades de

muestreo, nos va a permitir la división de la población en estratos y la utilización
del muestreo estratificado en la selección de la muestra.
•Formación de los estimadores: El marco permite asignar a priori a cada unidad

de muestreo una probabilidad de formar parte de la muestra. La inversa de esta
probabilidad de selección representa el factor de elevación de diseño.
•Realización de trabajos de campo: La información sobre la dirección postal de

la unidad seleccionada, facilita el acceso a la población objetivo.
•Otros usos: Tratamiento de la falta de respuesta, selección controlada, calibrado,

simulaciones,…
La disponibilidad del marco es fundamental para la aplicación de los

muestreos probabilísticos.
RESUMEN
El marco en una encuesta por muestreo juega un papel fundamental,
hasta el punto de que de él puede depender el éxito o fracaso de la misma.

3.2. Características del marco
En una encuesta ideal, la población muestreada ha de ser idéntica a la población

investigada. El marco como relación de unidades de donde se va a seleccionar la
muestra debe de reunir las siguientes características:
•Buena cobertura: lo que es equivalente a decir que la Población

Objetivo=Población Investigada. Para ello se requiere que:
• Cada elemento debe estar presente una sola vez. El marco debe ser
depurado previamente para evitar que haya unidades duplicadas en él.
La existencia de unidades repetidas en el marco proporciona

estimadores sesgados. El problema no se resuelve eliminando las que
aparecen en la muestra y sustituyéndolas por otra. Es imprescindible
depurar el marco.
• No debe tener elementos que no pertenecen a la población

objetivo. Por ejemplo, en una encuesta dirigida a los hogares no deben de
aparecer hogares vacíos.
La existencia en el marco de unidades no encuestables, no introduce

sesgos pero aumenta la variabilidad de la estimación.
•Todos los elementos de la población objetivo deben de estar en el

marco. La ausencia en el marco de una parte de la población investigada
proporciona una subestimación de las características investigadas.
Por último y para facilitar los trabajos de recogida de la información:
Las unidades del marco deben estar identificadas y ser localizadas si son
seleccionadas para la muestra.

El siguiente ejemplo pone de relieve la importancia del marco en una

encuesta.
Supongamos que se va a realizar una encuesta por muestreo en una determinada

provincia dirigida a los hogares para lo cual se va a utilizar un marco de viviendas
confeccionado a partir del último censo de población 2011. Esta provincia ha tenido
recientemente un fuerte proceso de inmigración procedente del extranjero, la cual
no está recogida en el Censo, por lo tanto esta población no va a tener nunca
probabilidad de pertenecer a la muestra. Esto indica que se va a introducir un sesgo
que será tanto mayor cuanto mayor sea el tamaño de esta población y mayor sea
la diferencia en el comportamiento de ambas poblaciones.
En realidad un marco deficiente no solo afecta a la cobertura de la

muestra, y a la introducción de sesgos cuando la población omitida en el mismo
tiene un comportamiento muy diferente de la que figura en él, sino también a otros
aspectos del diseño muestral como son la estratificación, determinación del tamaño
de la muestra, afijación, cálculo de los factores de elevación, etc
Por tanto, antes de acometer el diseño de una muestra es necesario proceder a la

actualización del marco para garantizar una buena cobertura de la misma.
RESUMEN
Como conclusión podemos decir que, sin un buen marco no se puede
diseñar una buena muestra. Por tanto, para la realización de una buena encuesta
es necesario disponer de un marco adecuado a la población objetivo, que esté
actualizado, o al menos que sea posible su actualización.
3.3. Marco de áreas y marco de listas
En las encuestas por muestreo se pueden utilizar dos tipos de marcos:

 Marco de áreas: utilizados en los muestreos en varias etapas
 Marco de listas o de unidades elementales, utilizado en el muestreo en una
etapa.

El uso de uno u otro tipo de marco viene determinado por la disponibilidad de los
mismos y por razones de coste.
Las encuestas económicas utilizan muestreos en una etapa y por tanto un

marco de unidades elementales, mientras que en las encuestas dirigidas a
los hogares se utiliza un muestreo en varias etapas y por tanto una combinación de
marco de áreas y marco de listas.
A continuación hacemos una breve descripción del marco utilizado en las encuestas
económicas, y en el resto del tema se describe con detalle el marco utilizado en las
encuestas de hogares y su actualización.
3.3.1. Descripción del DIRCE.
El DIRCE, Directorio Central de Empresas, es el marco de referencia para el

desarrollo, ejecución y coordinación de las encuestas económicas del INE.
Tiene las siguientes características:
• Reúne en un sistema de información único a todas las empresas y a sus

unidades locales ubicadas en el territorio nacional.
• Se fundamenta en el Proyecto PIDE (Proyecto de Integración de Directorios

Económicos). Su modelo de gestión se basa en el aprovechamiento de
fuentes externas de diversa naturaleza
• El sistema DIRCE se mantiene y actualiza con periodicidad anual y con base

a 15 fuentes externas de origen administrativo y/o privado, más las propias
operaciones estadísticas.
• Cada fuente es sometida a procesos específicos de depuración y control de

calidad, antes de ser incorporada en el proceso de integración.
• Contiene más de seis millones de registros.(3,2 millones de empresas).
• Se publica una explotación estadística de los resultados para empresas y sus

unidades locales, desglosados por CCAA según la condición jurídica,
actividad económica principal y estrato de asalariados.
• Las variables que contiene y utilizadas en el diseño muestral son: Provincia,

Actividad, Nº de asalariados y facturación.
• Genera información asociada a altas, permanencias y bajas, clasificadas

éstas según sector económico, condición jurídica y estrato de asalariados.

• Las empresas están clasificadas de acuerdo a la Clasificación Nacional de

Actividades Económicas- CNAE-2009
SABER + Toda la información sobre el mismo y su explotación estadística están

disponibles en la página WEB del INE.
3.4. Marco utilizado en las encuestas a hogares del INE
3.4.1. Descripción
En principio, para realizar una encuesta dirigida a los hogares lo ideal sería disponer
de una lista de hogares actualizada, y utilizar para la selección de la muestra un
muestreo aleatorio simple. No obstante el coste de visitar estas unidades
elementales esparcidas por un área geográfica extensa, nos hace renunciar a este
tipo de muestreo y utilizar, en lugar de marcos de unidades elementales, listas de
conglomerados y éstos como unidades de muestreo.
El muestreo de conglomerados bietápico es generalmente utilizado en las

encuestas dirigidas a la población que realiza el INE.
Un ejemplo clásico es disponer de una lista de manzanas de una ciudad, y

utilizar éstas como unidades de muestreo. La manzana es un
conglomerado de viviendas.
Con la formación de los conglomerados se obtiene una muestra de hogares

mucho menos esparcidos con el consiguiente ahorro del coste.
Otro aspecto importante a considerar es el hecho de ser más fácil disponer de una
lista de manzanas que de una lista de viviendas. Si no se dispone de ésta última,
con el uso de las manzanas como unidades de muestreo podemos reducir la
formación de la lista de viviendas a las manzanas seleccionadas para la muestra.

3.4.2. Marco de áreas geográficas
Para definir el marco de las encuestas a hogares, es necesario partir de la división

administrativa de España, que aparece de la forma siguiente:
Toda la Nación se encuentra dividida en 17 comunidades autónomas y dos ciudades

autónomas, que constituyen los NUTS 2 (Nomenclature of Territorial Units for
Statistics) aprobados por el Parlamento europeo. Las comunidades autónomas se
dividen a su vez en 50 provincias (NUTS 3) de las cuales 47 son peninsulares y 3
insulares. Las provincias se encuentran divididas en municipios y éstos en distritos
municipales.
A partir de la división anterior, el INE juntamente con los Ayuntamientos hace una
nueva subdivisión de los distritos municipales en secciones censales.
Las secciones se utilizan para todos los trabajos encomendados al INE en los que es
necesaria una división inframunicipal, entre otros para fines electorales como
secciones electorales, lo cual exige de acuerdo con la Ley Electoral que cada
sección incluya un máximo de 2.000 electores y un mínimo de 500.
La sección censal puede considerarse como un área geográfica con límites

perfectamente definidos, cuyo tamaño de población viene limitado por las
condiciones antes expuestas.
La sección censal constituye la unidad primaria de muestreo en las encuestas de

hogares.
SABER + Cualquier parte del territorio nacional pertenece a una sección censal.
Actualmente el número total de secciones censales existentes en el país es de
aproximadamente unas 36.000.
En la página siguiente aparece el mapa de España con la división en comunidades

autónomas (CCAA) y provincias. Las CCAA están formadas por el conjunto de
provincias que están coloreadas con el mismo color. A continuación, el detalle de
una provincia con la división en municipios y finalmente la división en secciones
censales


SABER + Puede observarse que la superficie de las secciones es muy distinta

de unas a otras, ello es debido a que la única restricción en cuanto a su formación
es el tamaño medido en número de electores.
En España los electores, personas en edad legal para votar, son la población
con 18 y más años.
El seccionado y su número varían considerablemente a lo largo del tiempo, por lo

que con referencia 1 de enero de cada año, coincidiendo con la revisión del Censo
Electoral, y en cada Censo de Población, se realiza una actualización del mismo. En

el último apartado de esta unidad se analiza en detalle cómo se tratan las
variaciones del marco de secciones, en el caso que afecten a secciones
seleccionadas para la muestra de alguna encuesta continua.
RESUMEN El marco de unidades primarias de muestreo está formado por la

lista de las 36.000 secciones censales en que se encuentra dividido el país.
3.4.3. Marco de viviendas
Las viviendas constituyen las unidades de segunda etapa en las

encuestas dirigidas a los hogares.
El marco de muestreo de las unidades de segunda etapa está formado por la

relación de todas las viviendas familiares con sus direcciones postales, en cada
una de las secciones censales seleccionadas para la encuesta.
En el caso de la EPA el marco se obtiene en cada censo a partir de los

resultados de los recorridos que se realizan en campo durante los trabajos
censales. Se actualiza periódicamente.
En las encuestas esporádicas se obtiene de la explotación del Padrón Continuo.

3.5. Fuentes estadísticas utilizadas en la formación del marco
Tradicionalmente la única fuente para la formación de los marcos en las

encuestas de hogares ha sido el Censo de Población y Viviendas que se realiza cada
10 años, en los años terminados en 1.
Actualmente la disponibilidad de otras fuentes administrativas ha hecho que la

situación cambie, y se ha introducido el uso del Padrón Continuo (Registro de
Población) en la obtención del marco de viviendas. A continuación se presentan
como se utilizan estas fuentes en las distintas encuestas del INE.
3.5.1. Utilización del Censo de Población y Viviendas
El censo de población desempeña un papel fundamental en la formación del marco

para las encuestas de hogares por las siguientes razones:
• Es la única fuente de información desagregada a nivel de unidades
primarias de muestreo. El censo proporciona para cada una de las secciones
censales, unidades primarias de muestreo, su tamaño medido en número de
personas y en número de viviendas. Esto nos permite conocer la
probabilidad de selección de cada una de las secciones censales. Asimismo,
proporciona información de otras características de tipo sociodemográfico de
la población que vive en la misma, como son el nivel de instrucción, relación
con la actividad, nacionalidad, condición socioeconómica, etc, que son
utilizadas como variables de estratificación.
 Instrumento para la formación del marco de viviendas. Como
consecuencia de los trabajos censales, se obtiene la relación de todas las
unidades contenidas dentro de una sección censal y su situación en el
momento del censo. Dichas unidades se clasifican de acuerdo a su uso en:
viviendas que pueden ser habitadas o desocupadas, hogares colectivos y
locales comerciales.
Lo comentado anteriormente es fundamental en la formación del

marco, ya que, por una parte, se recoge la relación de todas las unidades
que son susceptibles de ser habitadas, y por otra, se distinguen éstas según
su uso. Hay que recordar que en las encuestas de hogares solo son
encuestables las viviendas que son habitadas.

 Actualización de la cartografía. Con objeto de facilitar y garantizar una

buena cobertura de los trabajos censales, se actualiza la cartografía de las
secciones censales. Esta labor es posteriormente aprovechada para el uso de
la misma en las encuestas.
CURIOSIDAD A continuación se presenta un modelo de marco de viviendas

correspondiente a una sección censal. Se observa que es una relación de todas las
unidades censales, clasificadas según su uso. Solo van a ser objeto de estudio y por
tanto tienen probabilidad de ser seleccionadas las viviendas que contiene una H en
la columna de viviendas.
Instituto Nacional de Estadística EGP-A2

Encuesta de Población Activa
Ent. Colectiva 0 Provincia 41 S
Ent. Singular 2 Municipio 91 S
Núcleo/Dis 1 SEVILLA Código de encuesta4102106 2 Sección 25
Num de Dirección Postal Núm . Cod de

m anz TVIA NVIA TP NUM BQ PR ES PLN PUER de orden Hueco Viviendas Colectivos Locales Ocupante Principal
ARRIAZA BARRIO,
1 CALLE ANICETO SAENZ N 9Z PBJ 006 0045 C
REGLA
GARCIA CUBILLO,
1 CALLE ANICETO SAENZ N 21 1 P01 F 0013 00100 H
FRANCISCA
1 CALLE ANICETO SAENZ N 21 1 P01 G 0013 00101 H ABSALOM , KEITH
1 CALLE ANICETO SAENZ N 21 1 P02 G 0013 00102 S ,
RIAO VILLALOBOS,
1 CALLE ANICETO SAENZ N 21 1 P02 IZ 0013 00103 H
RAFAEL
NIETO MARTINEZ,
1 CALLE ANICETO SAENZ N 21 1 P02 J1 0013 00104 H
FRANCISCO
1 CALLE ANICETO SAENZ N 21 1 PBJ 1 0013 0099 L ,
GALLARDO GODOY,
1 CALLE ANICETO SAENZ N 21 1 PBJ A1 0013 0097 H
EMILIO JOSE
1 CALLE ANICETO SAENZ N 21 1 PBJ B1 0013 0098 V ,
HIDALGO BOTELLO,
1 CALLE ANICETO SAENZ N 21 2 P01 DR 0013 109 H
FRANCISCO
LOPEZ ARNESTO,
1 CALLE ANICETO SAENZ N 21 2 P02 D 0013 00110 H
ISABEL
RODRIGUEZ
1 CALLE ANICETO SAENZ N 21 2 P02 H 0013 00111 H
VIVERO, DAVID
BARRERA
1 CALLE ANICETO SAENZ N 21 2 P02 IZ 0013 00112 H
MARQUEZ, MANUEL
GARCIA PAREDES
1 CALLE ANICETO SAENZ N 21 2 PBJ A 0013 00106 H
FRAILE, PATRICIA
ZAMORA ANGULO,
1 CALLE ANICETO SAENZ N 21 2 PBJ B2 0013 00105 H
JUAN ANTONIO
La forma de obtención del marco a partir del Censo ha sido el procedimiento

habitual utilizado en la formación del marco para las encuestas de hogares. Hasta
la disponibilidad del Padrón Continuo, se disponía de una muestra maestra formada
por 3500 unidades de primera etapa, que se mantenía continuamente actualizada y
que servían como marco de referencia para todas las encuestas dirigidas a los
hogares que realizaba el INE. Considerando que el tamaño medio de una sección
censal es de, aproximadamente, 400 viviendas este procedimiento nos permitía
disponer de una marco actualizado de 1.400.000 viviendas representativo de la
población y sobre el que se seleccionaba la muestra para cualquier encuesta.

Actualmente este marco solo se utiliza para la EPA, encuesta continua cuyo diseño
muestral se analiza en detalle la unidad 5 de este curso. En el último apartado de
esta unidad se explican los procedimientos utilizados para mantener el marco
actualizado.
3.5.2. Utilización del Padrón Continuo
El Padrón Municipal es un Registro Administrativo donde figuran todos los

habitantes del País y se revisa el 1 de enero de cada año. La formación,
mantenimiento, revisión y custodia corresponde a los Ayuntamientos.
En 1996 se aprueba la nueva normativa padronal y se establece un nuevo sistema

de gestión continua de los padrones coordinada por el INE. Este nuevo sistema
tiene como punto de arranque el Padrón Municipal con referencia a 1 de Mayo de
1996.
A partir de los datos contenidos en él, se obtienen cifras oficiales a primeros de

cada año.
SABER + En la página web del INE: WWW.INE.ES y en el apartado Demografía

y Población, viene los principales aspectos metodológicos de esta operación.La
disponibilidad de un registro de población permanentemente actualizado ha
permitido, por una parte, disponer de una lista actualizada de viviendas, y por otra,
su utilización como fuente para generar marcos para las encuestas dirigidas a la
población.
Desde el año 2002, el PC se está utilizando como marco de muestreo para

todas las encuestas del INE, salvo la EPA.
El uso de esta fuente en la obtención de un marco de viviendas, unidad de

muestreo de segunda etapa presenta ventajas e inconvenientes. Entre las
ventajas cabe destacar:
1. Es una fuente disponible de forma inmediata sin necesidad de tener que

actualizarla previamente.
2. Permite disponer de los nombres actualizados de las personas que habitan

las viviendas.

3. Al ser el Padrón Continuo un fichero de habitantes se puede utilizar como marco

de personas.
Entre los inconvenientes hay que señalar:
1. No es una fuente de información tan completa como es el censo de

población.
Al ser un documento público la información de tipo sociodemográfico

contenida en el mismo es muy escasa. Se limita al sexo, edad, nacionalidad
y nivel de instrucción, pero éste al no estar depurado no debe de ser
utilizado.
2. Es un fichero de personas.
En las encuestas dirigidas a la población, la unidad de muestreo es la

vivienda, por tanto es necesario formar un fichero de viviendas a partir de
un fichero de personas. Para ello el INE ha desarrollado un programa
informático, ad hoc, que consiste en formar una vivienda a partir del
grupo de personas que tienen una misma dirección postal. Dado que las
direcciones postales no están completamente normalizadas se producen
errores en la generación del fichero de viviendas. No obstante las ventajas
que presenta su uso compensan con creces al nivel de errores que pueda
tener. Este problema se va subsanando en la medida que se presta una
especial atención al asunto de la normalización.
3. Las personas mal empadronadas no tiene probabilidad de pertenecer

a la muestra.
Esta situación se presenta por el hecho de que hay personas que

están empadronadas en un municipio diferente al que tienen su residencia
principal.
Como consecuencia de este hecho, al realizar una encuesta nos

encontramos con que en el marco aparece un porcentaje, que está en torno
al 10 por ciento, de viviendas que realmente están vacías pero que hay
población empadronada en ellas.

Como aprovechamiento de distintas fuentes administrativas, el INE comenzó

a desarrollar un proyecto que se denominó Estudio Demográfico Longitudinal
(EDL), y cuyos objetivos principales eran:
• Proporcionar información demográfica de tipo longitudinal. Acumular

información longitudinal de personas , viviendas, procedente de encuestas o
de otros registros administrativos con objeto de poner a disposición de los
usuarios un mecanismo que permita hacer un seguimiento de la población,
bien en su conjunto, bien a partir de una muestra.
• Ofrecer un marco muestral óptimo para las encuestas dirigidas a los
hogares o personas, que esté permanentemente actualizado y que disponga
de una gran cantidad de información auxiliar.
• Crear la infraestructura necesaria para la elaboración del censo de
población. Concretamente ha sido utilizado en la realización del Censo de
Población 2011.
Actualmente, siguiendo esta línea, el INE está trabajando en un proyecto más
ambicioso denominado SIGPT, Sistema de Información georreferenciado de
Población y Territorio, que con la misma idea de EDL pretende crear unas bases
de datos integradas de población y territorio que pueda ser utilizado en el
proceso de producción estadística del INE.
3.6. Actualización de las unidades de muestreo
La actualización de las unidades de muestreo es un procedimiento que se utiliza en

las encuestas continuas que realiza el INE y tiene como objetivo el mantener la
muestra actualizada, y por tanto, representativa de la población.
Para analizar con detalle estos procesos es necesario conocer el modelo
probabilístico con que se realiza la selección de la muestra.
SABER + La selección de la muestra en las encuestas de hogares se realiza de

tal forma que dentro de cada estrato cualquier vivienda familiar tenga la misma
probabilidad de ser seleccionada, es decir, se tengan muestras autoponderadas
dentro de cada estrato.

Para ello, las unidades de primera etapa (secciones censales) se seleccionan con
probabilidad proporcional al número de viviendas familiares principales, según los
datos del último Censo o Padrón. Dentro de cada sección seleccionada en primera
etapa, se selecciona un número fijo, m, de viviendas familiares con igual
probabilidad mediante la aplicación de un muestreo sistemático con arranque
aleatorio.
De acuerdo a lo anterior, la probabilidad de selección de la vivienda i, perteneciente

a la sección s del estrato h, donde se han afijado Kh secciones es
V sh m m
P( V ish ) = P( Sh ) ⋅ P( V ish / Sh ) = K h ⋅ ⋅ = Kh ⋅
V h V sh Vh
Se consideran tres tipos de actualizaciones:
3.6.1. Actualización en el marco de viviendas
Esta actualización se realiza en las secciones censales y está restringida a las

secciones de la muestra.
El objetivo es dar probabilidad de selección a la población que ha ocupado viviendas

de la sección que se encontraban vacías cuando ésta fue seleccionada. Para
alcanzar este objetivo, se realiza un recorrido completo de la sección con objeto de:
• Dar de alta a edificios y viviendas de nueva creación.
• Visitar las viviendas vacías, locales o establecimientos colectivos por si hubiera

cambiado su situación para asignarle probabilidad de selección.
• Verificar los límites de la sección, nuevos caminos, etc.
Cuando corresponda renovar la muestra en alguna encuesta continua, la

forma de proceder es la siguiente:
Después de la actualización, como se han dado de alta algunas viviendas, el
tamaño de la sección es VS' .Para que la muestra siga siendo autoponderada, hay
'
que seleccionar m ⋅ V S viviendas.
VS

De esta forma, la probabilidad de una vivienda seleccionada después de actualizar

la sección es:
Vs'
m.
( ) . P(Vis / S) = K
P (Vis ) = P S .
Vs
.
Vs
=
K. m
V Vs' V
RESUMEN Como puede observarse las viviendas se incorporan a la muestra con

la misma probabilidad que habrían tenido en caso de existir en el momento en que
fue seleccionada la sección.
3.6.2. Actualización en el marco de unidades primarias
Esta actualización es la que se produce en los periodos intercensales como

consecuencia de modificaciones en las unidades primarias seleccionadas para la
muestra.
SABER +
Estas modificaciones se producen con motivo de las revisiones que a
1 de enero se realizan sobre el seccionado para cumplir con las exigencias legales
de la Ley Electoral General.
Como consecuencia de los continuos movimientos de la población, se producen

distintos tipos de incidencias sobre las secciones censales como son: cambios de
denominación, partición de una sección en dos o más secciones, fusión y variación
en los límites de la misma.
En cada uno de estos casos, y para mantener el modelo probabilístico que subyace,
es necesario realizar el cálculo de la probabilidad de selección de la nueva o nuevas
secciones, la selección de la nueva sección que va a formar parte de la muestra,
así como determinar el número de entrevistas a realizar en la misma.
1. Partición de una sección: Es el caso de una sección S en la que el

crecimiento del número de viviendas principales exige que se escinda en diversas
partes S1, S2... SK, bien para formar nuevas secciones o para incorporarse a otras
ya existentes.

Consideremos el caso particular en que la sección S de la muestra se divide en dos

partes para formar las nuevas secciones S1 y S 2 . La forma de proceder es la
siguiente:
1. Se selecciona una de las nuevas secciones con probabilidad proporcional a

su tamaño actualizado.
2. Se calcula el número de viviendas que hay que seleccionar en la sección.
3. Se incorpora a la muestra de la encuesta cuando corresponda renovar las
unidades de segunda etapa.
La probabilidad de pertenecer a la muestra de una vivienda en la sección

S 1 seleccionada será:
Vs'
' m.
( )
P Vis1 = P S ( ) .P (S1 / S) P(Vis )
/ S1 = K .
Vs Vs1
.
V Vs'
.
Vs
=
K. m
Vs' 1 V
1
Donde: VS' son las viviendas actualizadas de la sección S, y VS' 1 las viviendas
actualizadas de la sección S1
Como se observa, el número de viviendas que deben ser entrevistadas se

incrementa proporcionalmente al crecimiento de la sección S.
2. Fusión de dos o más secciones. Debido a que algunas secciones, por los
movimientos migratorios y naturales de la población, van quedando vacías se
procede a su fusión con otra u otras, de forma que en caso de ser seleccionada
tengan unidades que investigar.
Si la sección Sj seleccionada se fusiona con otra para formar la nueva sección S,

ésta queda incorporada automáticamente a la muestra y el número de viviendas a
V 'S
entrevistar es m ⋅ siendo:
VS
V'S = Número de viviendas principales en la actualidad en la nueva sección S
VS = Número de viviendas principales, según último Censo o Padrón, dentro de los

límites de la nueva sección S.

3.6.3. Actualización de las probabilidades de selección
Es una actualización con carácter general, relativa a todas las secciones y

viviendas, que se realiza periódicamente y en la que se actualizan las
probabilidades de selección de las secciones.
Cuando se dispone de información procedente de los ficheros electorales,

Censos de Población ó Padrón, se procede a actualizar las probabilidades de
selección de las secciones y a ajustar el número de entrevistas por sección.
Este procedimiento se realiza de tal forma que las probabilidades de selección de

las secciones sean proporcionales al número de viviendas que en ese momento
tenga cada una. En principio esto podría lograrse partiendo de cero y seleccionando
una muestra nueva, pero ello provocaría una ruptura total con la muestra antigua,
lo cual es arriesgado en el caso de encuestas continuas. Por ello se arbitra un
procedimiento que, sin distorsionar las probabilidades de selección que realmente
corresponden a cada sección, mantenga la muestra con las mínimas variaciones.
Este procedimiento, debido a Kish (1971), es el siguiente:
Sea S una sección perteneciente al estrato h, seleccionada en un Censo o Padrón C,

con probabilidad:
C
VS Viviendas en S segun Censo C
PS = C
=
Vh Viviendas en el estrato h segun Censo C
y supongamos que en el siguiente Censo o Padrón C', le corresponde una

probabilidad de selección dada por:
C′
VS Viviendas en S segun Censo C′
P' S = =
C'
Vh Viviendas en el estrato h segun Censo C′
Se compara PS con P'S pudiendo ocurrir uno de los dos siguientes casos:
1) Si P'S> PS la sección S permanece en la muestra con probabilidad P'S, ya que si

fue seleccionada con una probabilidad PS , inferior a la que actualmente le
corresponde, con mayor motivo hubiera salido seleccionada aplicándole su
probabilidad actual P'S.

PS'
2) Si P'S< PS la sección permanece en la muestra con probabilidad y sale de la
PS
P'
muestra con probabilidad 1- S .
PS
Este criterio motivará la salida de la muestra de un cierto número de secciones.

Estas serán sustituidas por otras secciones del mismo estrato pero
seleccionadas de entre las que no perteneciendo a la muestra hayan
aumentado de probabilidad.
Con este criterio se mantiene el esquema de que la probabilidad que tiene

una sección de pertenecer a la muestra es la que realmente le corresponde, es
decir, proporcional al número de viviendas actuales.
Vamos a verificar que efectivamente las secciones se mantienen en la muestra

con su probabilidad actualizada.
Forma de actuar. Se consideran las secciones actuales divididas en dos

subconjuntos: Secciones que aumentan de probabilidad y secciones que
disminuyen.
1. Si la sección de la muestra pertenece al grupo de las que aumentan dicha

sección permanece con probabilidad 1, y por tanto con su probabilidad
actualizada PS' .
2. Si la sección pertenece al subconjunto de las que disminuyen:
PS'
a. Permanece en la muestra con probabilidad
PS
P'
b. Sale de la muestra con probabilidad 1- S
PS
3. Sustitución de secciones que salen de la muestra:Las secciones que

salen de la muestra sólo pueden ser sustituidas por secciones seleccionadas
de entre las que aumentan de probabilidad.
Dentro de este grupo las secciones se seleccionan con probabilidad
PS' − PS
proporcional a
∑ PS' − PS
S∈∆

Comprobación: Calculamos la probabilidad que tiene una unidad de pertenecer a

la muestra:
• Si la sección pertenece al subconjunto de las que disminuyen de

probabilidad, la probabilidad de pertenecer a la nueva muestra será la
probabilidad de pertenecer a la antigua muestra por la probabilidad de
P'
permanecer, es decir, PS ⋅ S = PS'
PS
• Si la sección S* pertenece al subconjunto de las que aumentan de

probabilidad, la probabilidad de pertenecer a la muestra tiene en este caso
dos componentes:
• Haber sido seleccionada para la muestra antigua, con probabilidad PS*
• Ser seleccionada ahora sin haber sido seleccionada antes. Para que esto
ocurra, tienen que darse tres circunstancias:
1. Existencia en la muestra antigua de alguna sección S, seleccionada
con probabilidad PS y que disminuye de probabilidad.
2. Que en el sorteo de permanencia salga de la muestra con
P'
probabilidad 1- S .Que la sección S* sea seleccionada con la
PS
probabilidad asignada a las secciones de este subconjunto
PS' − PS
.
∑ PS' − PS
S∈∆
La probabilidad de esta segunda componente es la siguiente:
 P'  P' ^ − P *
∑ PS 1 − S  S S
= PS' * − PS*
S∈∂


PS 
 P ∑'
S * −P *
S
S∈∆
donde el ∑ es el sumatorio extendido sobre todas las secciones que

S∈δ
disminuyen de probabilidad y el ∑ es el sumatorio extendido a todas las

S∈∆
secciones que aumentan de probabilidad.
La probabilidad final será la suma de la de las dos componentes:
( )
PS* + PS' * − PS* = PS' *

Puede observarse que procediendo de esta manera las secciones quedan

incorporadas a la muestra con su probabilidad actualizada.
3.7 Resumen
En esta unidad se ha presentado lo que es el marco y el papel que desempeña en el

diseño de una encuestas, describiendo el procedimiento seguido en la formación del
marco de las encuestas de hogares y haciendo especial hincapié en las fuentes
administrativas que se utilizan lo que ha permitido introducir una alternativa al
procedimiento tradicional de selección de las muestras de viviendas.
Se han analizado en detalle las distintas formas de actualización, aspecto

fundamental del marco para que cumpla el requisito de ser un reflejo de la
población objetivo, y finalmente se ha hecho una breve referencia al proyecto
futuro en el que se está trabajando, con objeto de conseguir una mejora del marco.

UNIDAD 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS

ECONÓMICAS
La coordinación muestral consiste en la manera de seleccionar muestras aleatorias,

intentando controlar el grado de solapamiento entre ellas. Dependiendo de los
objetivos interesará una coordinación muestral positiva, máximo solapamiento, o
una coordinación muestral negativa, mínimo solapamiento.
La coordinación muestral, aun tratándose de un tema general, en el caso del INE

se centra en las encuestas económicas pues es donde aparece el problema de que
una unidad informante, empresa o establecimiento, tiene que realizar varias
encuestas a la vez. Las empresas grandes se estudian de manera censal y las
medianas tienen una gran probabilidad de ser seleccionadas en varias muestras.
Además, las encuestas económicas son de obligado cumplimiento y la negativa a
cumplimentarlas conlleva una sanción económica.
Todo ello hace que la carga estadística que soportan las empresas sea relevante y
que una de las preocupaciones de las oficinas de estadística sea reducirla.
Este capítulo comienza con la medición de la carga estadística, cuyo incremento

en los últimos años ha llevado al uso de técnicas de coordinación muestral. En
segundo lugar, se comenta el marco muestral disponible, que permite la aplicación
de técnicas de coordinación. En el apartado 3, se presenta la técnica de los
números aleatorios permanentes usada para la coordinación muestral y por último,
se detalla la coordinación muestral de las encuestas económicas realizada en el
INE.
4.1 Carga Estadística: Directorio de Colaboración con las Unidades

Informantes
Se entiende como carga estadística el esfuerzo que realizan las unidades

informantes al cumplimentar las encuestas. Se mide por el número de
encuestas que realizan y el tiempo estimado para cumplimentarlas.

Anualmente se elabora el Directorio de Colaboración de las Unidades

Informantes (DICOIN) que recoge, para cada empresa identificada por su
Número de Identificación Fiscal (NIF), el número de encuestas económicas que
realiza durante el año, sus incidencias o estados de recogida (responde, negativa,
ilocalizable, cierre...) y el tiempo estimado para cumplimentarlas. La unidad de
registro es el NIF. Cuando una encuesta va dirigida al establecimiento o centro de
cotización, la información se agrega por NIF.
A partir del DICOIN, se calculan diversas tablas que reflejan la carga estadística de
las empresas.
Por ejemplo, en la siguiente tabla se presenta la distribución de las

empresas, por tamaño y número de encuestas en las que participa, durante el año
2012.
Distribución de las empresas por tamaño y número de encuestas en las que participa.
Porcentaje respecto al tamaño. Año 2012.
TOTAL TAMAÑO (NÚMERO DE ASALARIADOS)

De 0 De 1 a 9 De 10 a 19 De 20 a 49 De 50 a 99 Más de 99
Número de Empresas % Empresas % Empresas % Empresas % Empresas % Empresas % Empresas %
encuestas
1 240357 74 60500 98 125073 87 33234 63 17444 44 2658 21 1448 12
2 37973 12 694 1 10104 7 12833 24 10069 25 3031 24 1242 10
3 19519 6 205 0 7092 5 3484 7 4693 12 2369 19 1676 14
4 8808 3 37 0 1836 1 1609 3 2814 7 1230 10 1282 11
5 5729 2 10 0 357 0 1087 2 2199 6 874 7 1202 10
6 3329 1 5 0 39 0 355 1 1250 3 792 6 888 7
7 2171 1 1 0 9 0 86 0 618 2 671 5 786 7
8 1607 0 1 0 9 0 38 0 300 1 470 4 789 7
9 1156 0 2 0. . 15 0 137 0 227 2 775 6
10 824 0. . . . 4 0 68 0 171 1 581 5
11 484 0. . . . . . 27 0 115 1 342 3
12 351 0. . . . . . 4 0 54 0 293 2
13 306 0. . . . . . . . 11 0 295 2
14 297 0. . . . . . 1 0. . 296 2
15 76 0. . . . . . . . . . 76 1
TOTAL 322987 100 61455 100 144519 100 52745 100 39624 100 12673 100 11971 100
En los últimos años ha habido una gran demanda de información económica más
detallada que ha hecho aumentar los tamaños muestrales, o de nueva información
que ha dado lugar a nuevas encuestas. En el siguiente gráfico se muestra la

evolución del número de cuestionarios enviados a las unidades informantes, desde el

año 2001 al 2012, de las encuestas recogidas en el DICOIN.
2000000
cuestionarios
1500000
1000000
500000
0
1 2 3 4 5 6 7 8 9 10 11 12
años
Este incremento ha llevado a considerar diversas alternativas para disminuir la

carga estadística. Entre ellas destacamos:
 Acortamiento de los cuestionarios

 Uso de datos administrativos
 Selección coordinada de muestras teniendo en cuenta la carga estadística
Desde el 2000, el INE ha empezado a aplicar técnicas de coordinación muestral

para conseguir una distribución más equitativa de la carga de respuesta, aunque
para las grandes empresas esta coordinación no es efectiva, pues siempre
pertenecen al estrato exhaustivo de cualquier encuesta económica, por lo que se
estudian de manera censal.
En estos casos se ha intentando compensar la carga estadística ofreciendo a las

empresas información gratuita, hecha a medida, que le pueda interesar. Entre
dicha información se destaca: ratios del sector, cuota de mercado y análisis de la
estructura del sector.
4.2 Marco Muestral: Directorio Central de Empresas
El Directorio Central de Empresas (DIRCE) reúne, en un sistema de

información único, a todas las empresas españolas y a sus unidades locales
ubicadas en el territorio nacional. Se construye y se actualiza cada año a partir de
información procedente de diversas fuentes administrativas: tributarias, de la
seguridad social, jurídicas, privadas (WordlBase de Dun&Bradsreet) y estadísticas

(encuestas de mejora del directorio y encuestas económicas). Toda esta

información es depurada, armonizada, contrastada e integrada con el objeto de
conseguir una cobertura nacional total.
El objetivo básico del DIRCE es proporcionar el marco muestral de las encuestas

económicas. Entre la información que contiene destacamos las variables usadas
para la estratificación: la actividad económica y el número de asalariados.
La unicidad del marco muestral y la identificación de cada empresa por su

NIF, han posibilitado el uso de técnicas de coordinación muestral.
No obstante, la asimetría de la distribución de las empresas por tamaño, medido en

número de asalariados, en el sentido de que hay muchas empresas pequeñas y
muy pocas medianas y grandes, hace que la efectividad de la coordinación muestral
sea alta en la población de empresas pequeñas pero baja en la de empresas
medianas. En el caso de las grandes empresas, la efectividad es nula pues éstas,
por su importancia económica, siempre se estudian de manera censal.
La distribución, por tamaño, de las empresas en el DIRCE es la siguiente:
Número total Distribución de las empresas por tamaño, número de asalariados

de empresas % % % % %
Año 2012 0 De 1 a 9 De 10 a 49 De 50 a 199 Más de 199
3.569.663 54 41,3 3,9 0,6 0,2
Para conocer más detalles del DIRCE pueden leer la información

SABER +
disponible en la página web del INE:
http://www.ine.es/metodologia/t37/t3730201.htm
4.3 Coordinación muestral
Las técnicas de coordinación muestral intentan controlar el grado de solapamiento

entre las muestras, en un momento dado o a lo largo del tiempo. Diferenciamos
entre coordinación positiva, máximo solapamiento y coordinación negativa,
mínimo solapamiento. Dependiendo de los objetivos, será conveniente aplicar una u
otra.

¿Cuándo será conveniente aplicar coordinación positiva?
Cuando se quiera estimar la tasa de cambio es mejor aplicar coordinación

positiva. De hecho, en las encuestas coyunturales centradas en estimar el cambio,
las muestras son prácticamente fijas, rotando una parte mínima para su
actualización.
¿ ¿Cuándo será conveniente aplicar coordinación negativa?

En las encuestas estructurales donde el objetivo no sea estimaciones del cambio y
la principal preocupación sea reducir la carga estadística, la coordinación a
aplicar es la negativa. Con ella se consigue una distribución más equitativa de dicha
carga.
4.3.1 Técnica de Números Aleatorios Permanentes
La técnica que empezamos a usar para la coordinación de muestras es la conocida

Técnica de Números Aleatorios Permanentes (o PRN, Permanent Randon
Numbers). Es una técnica sencilla que se puede utilizar tanto para coordinación
positiva como negativa y consiste en lo siguiente.
A cada unidad del marco se le asocia un número aleatorio xi obtenido de manera

independiente de una distribución uniforme U[0,1]. Estos números aleatorios xi’s
llamados PRNs se generan una vez y se guardan junto al resto de información del
marco muestral, para usarlos en todas las extracciones muestrales que se realicen.
Supongamos que queremos obtener una muestra aleatoria simple de tamaño n de

una población con N unidades. Primero, ordenamos las unidades del marco, en
orden creciente o decreciente, según estos PRNs. Segundo, se elige un punto de
partida u origen de selección ‘a’ en el intervalo [0,1] y una dirección (derecha o
izquierda). Entonces, las n unidades primeras de esta lista ordenada forman la
muestra aleatoria simple.
El marco es tratado como una lista circular. Si no hay suficientes unidades a la

derecha (izquierda) del origen ‘a’, la selección continua a la derecha (izquierda) del
punto 0.

4.3.2 Coordinación de muestras para encuestas diferentes
Para controlar el solapamiento de dos muestras obtenidas de manera aleatoria,

de tamaños n1 y n2, se ordenan las unidades del marco según los PRNs y se eligen
dos orígenes a1 y a2 en [0,1] entonces, para la primera muestra, se eligen las n1
con los PRNs más cercanos a la derecha (o izquierda) de a1 y para la segunda
muestra se eligen los n2 con los PRNs más cercanos a la derecha (o izquierda) de
a2.
Si los orígenes a1 y a2 y las direcciones de selección son escogidos apropiadamente,

las muestras estarán coordinadas negativamente. Cuando la población es
suficientemente grande (N>>n1+n2), las muestras pueden llegar a ser distintas.
Cuando N< n1+n2 las muestras no pueden ser distintas pero su solapamiento se
reduce.
La coordinación positiva de dos muestras es máxima usando los mismos orígenes y
direcciones de selección.
4.3.3 Coordinación de muestras en el tiempo
Las unidades que permanecen en el marco (unidades permanentes) mantienen el

número aleatorio asociado la primera vez. Cuando una unidad es añadida al marco
(alta), un número aleatorio nuevo es obtenido dependiendo del último aleatorio
generado y cuando una unidad desaparece (baja), se elimina del marco junto a su
número aleatorio.
En cada ocasión, la muestra es obtenida haciendo uso de estos números aleatorios.
El grado de solapamiento de la muestra entre períodos diferentes

dependerá de las unidades que permanecen, del número de altas y de bajas que
haya en la muestra antigua.

4.3.4 Actualización del marco cuando se aplica coordinación positiva en el

tiempo
Una cuestión fundamental a tener en cuenta cuando se obtienen las muestras

aplicando coordinación positiva a lo largo del tiempo es que el marco no debe ser
actualizado con la información obtenida de las encuestas.
Sólo se puede actualizar el marco con la información procedente de

fuentes externas, como por ejemplo, de ficheros administrativos.
Cuando las muestras son obtenidas de manera independiente, las actualizaciones

del marco a partir de la información muestral en cuanto bajas, cambios de actividad
y tamaño, no introducen sesgo y son útiles para reducir el exceso de cobertura y
los cambios de estrato en futuras muestras. Pero si las muestras se coordinan
positivamente y se actualiza el marco con la información procedente de las
encuestas, es posible que podamos introducir algún tipo de sesgo.
Si actualizamos el marco con información muestral y obtenemos una

muestra coordinada positivamente con las de años anteriores, ¿Qué tipo
de sesgo podríamos estar introduciendo a la hora de estimar las
unidades activas?
En el caso de las bajas, suele existir un desfase entre el suceso de baja y la
comunicación administrativa de la misma, desfase que es menor en la encuesta.
Entonces, si damos de baja en el marco a las unidades de la muestra que han sido
bajas, y obtenemos una muestra coordinada positivamente con la anterior, se
tenderá a una sobreestimación del número de unidades activas.
SABER + Pueden consultar a: Ohlsson, E. (1995). Coordination of Samples

using Permanent Random Numbers. Chapter 9 of Business Survey Methods,
edited by Cox, Binder, Chinnappa, Colledge, Kott. John Wiley & Sons, Inc.

4.4 Coordinación muestral en el INE
Cada año generamos un número aleatorio para cada una de las unidades del marco
(DIRCE). Este número será permanente durante el año. Además, construímos una
función de carga estadística que viene determinada por el tiempo estimado para
cumplimentar el cuestionario y por el número de encuestas que realiza la empresa
ese año.
4.4.1 Coordinación en un año determinado
Inicialmente todas las unidades del marco tienen carga (0,0). La primera muestra
se obtiene de manera independiente, utilizando un muestreo aleatorio simple
dentro de cada estrato. Las unidades que han sido seleccionadas en la muestra
pasan a tener una función de carga igual al tiempo necesario para cumplimentar el
cuestionario y al número de encuestas que realiza la empresa, que en este caso es
igual a 1.
Primera encuesta: tiempo para cumplimentar el cuestionario =60’
f: Marco muestral →R2
ui → f(ui)=(x, y)=(tiempo, número)=(60’,1) si ui ∈ s1
f(ui)=(0, 0) si ui ∉ s1
A partir de la segunda muestra, se coordinan con las anteriores utilizando los

mismos números aleatorios y la función de carga. Antes de obtener la siguiente
muestra, se ordenan las unidades por orden creciente respecto a la primera
componente de la función de carga (tiempo), la segunda componente (número de
encuestas) y el número aleatorio. Para las unidades seleccionadas en esta muestra,
la función de carga se actualiza acumulando el tiempo y el número de encuestas.
Segunda encuesta: tiempo para cumplimentar el cuestionario =120’
f: Marco muestral →R2
ui →f(ui)=(x, y)=(tiempo acumulado, número acumulado)=(180’, 2) si ui ∈ s2 ∩s1
f(ui)=(x, y)=(60’,1) si u i ∈ s1
f(ui)=(x, y)=(120’,1) si ui ∈ s2
f(ui)=(0, 0) si u i ∉ s1, s2

4.4.2 Coordinación en el tiempo
La coordinación muestral en el tiempo, con objeto de reducir la carga

estadística, se aplica para evitar, si es posible, que una empresa sea seleccionada
más de 2 años consecutivos para la misma encuesta.
En este caso, la función de carga estadística tiene una tercera componente a la que
se asigna 1 si la empresa lleva 2 o más años consecutivos en la misma encuesta y
0 en los demás casos. Antes de obtener la muestra, se ordenan las unidades en
orden creciente respecto a la tercera componente de la función de carga, a la
primera, a la segunda y al número aleatorio.
4.4.3 Efectividad de la coordinación
Para que sea efectiva la coordinación entre encuestas diferentes, es conveniente

que los estratos se definan de manera similar en cada una de ellas. Especial
atención se debe prestar cuando los estratos sean diferentes.
Por ejemplo, en la Encuesta Anual de Servicios se definía como estratos de

tamaño los siguientes tramos de asalariados: 0, [1,2], [3,5], [6,9], [10,19]. A
partir de 20 asalariados el estrato era exhaustivo. Mientras que para la Encuesta de
Innovación Tecnológica los estratos eran: [10,49], [50,199]. A partir de 200
asalariados el estrato era exhaustivo. Supongamos que obtenemos la muestra de la
Encuesta de Innovación Tecnológica coordinada negativamente con la muestra de
la Encuesta Anual de Servicios siguiendo los pasos dados anteriormente.
¿Qué le ocurriría a la muestra de la Encuesta de Innovación

Tecnológica?
Tendríamos una sobre-representación de empresas entre 10 a 19 asalariados. En el
momento de obtener la muestra en el estrato [10,49] de manera coordinada con la
de servicios, como todas las empresas de más de 19 trabajadores tienen carga
distinta de cero pues son exhaustivas para esta encuesta, al ordenarlas por la
función de carga estadística y número aleatorio, todas ellas quedarán al final de la
lista ordenada y se escogerían las primeras unidades, produciendo una muestra
sesgada donde las empresas entre 10-19 asalariados estarían sobre-representadas.

Aplicando la coordinación temporal ¿están las unidades nuevas

(altas) correctamente representadas en las muestras?
Cuando se aplica coordinación temporal existe la posibilidad de que las unidades
nuevas queden sobre-representadas. Todas las altas tienen carga temporal nula y
por tanto, irán al principio de las listas ordenadas por la tercera componente de la
función de carga. Una solución sería imputarles una carga ficticia. Nosotros no lo
hacemos, pues con la coordinación temporal que realizamos, no tenemos el
problema de la sobre-representación de las altas.
SABER + Pueden leer el documento de trabajo 06/2010 ‘Sampling coordination

of business surveys in the Spanish National Statistics Institute’, disponible en
nuestra página WEB:
http://www.ine.es/ss/Satellite?L=es_ES&c=INEDocTrabajo_C&cid=1259931238095
&p=1254735839320&pagename=MetodologiaYEstandares%2FINELayout
4.5 Resumen
Las ideas más relevantes en este capítulo son:

 El incremento de la demanda de información económica ha llevado a que
una de las preocupaciones de las oficinas de estadística sea intentar
disminuir la carga estadística.
 La disponibilidad de un marco muestral único es una de las claves que
nos permite el uso de técnicas de coordinación muestral.
 La identificación de la unidad muestral, como el caso de la empresa
identificada por su NIF, es la otra clave que permite la coordinación
muestral.
 Según los objetivos de la encuesta, se utilizará coordinación muestral
positiva o negativa. Para estimar la tasa de cambio es preferible usar
coordinación positiva y para conseguir una distribución más equitativa de la
carga estadística se usará coordinación negativa.
 Cuando se aplica coordinación muestral positiva en el tiempo no es
conveniente actualizar el marco con la información obtenida a partir de las
encuestas.
 Especial atención cuando se coordinan muestras con distinta estratificación.

Investigador5 Mod1 Diseno Muestral

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Investigador5 Mod1 Diseno Muestral

Загружено:

Авторское право:

Доступные форматы

DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y

MÓDULO I: ASPECTOS GENERALES DEL DISEÑO MUESTRAL

INTRODUCCIÓN Y OBJETIVOS ......................................................................... 5

Unidad 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS GENERALES DEL

1.1. Tipos de operaciones estadísticas ........................................................... 6

1.2. Conceptos generales ............................................................................. 7

1.2.1. Población y Muestra ........................................................................ 7

1.4. Esquema general del diseño muestral ....................................................11

1.4.1. Ámbito de estudio ..........................................................................11

Unidad 2. PRINCIPALES CONCEPTOS DE LA TEORÍA DE MUESTRAS UTILIZADOS

2.1. Principios básicos del muestreo probabilístico .........................................18

2.1.1. Unidades de muestreo ....................................................................19

2.2.1. Sin reemplazamiento (SR) .............................................................. 26

Módulo I: Aspectos generales del Diseño Muestral 2

2.4. Tipos de muestreo y estimadores .......................................................... 31

2.4.1. Muestreo de unidades elementales con probabilidades iguales .............31

2.5.1. Método de los conglomerados últimos ..............................................46

UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS ENCUESTAS ....................52

3.1. Definición de marco .............................................................................52

3.2. Características del marco .....................................................................53

3.3. Marco de áreas y marco de listas .......................................................... 54

3.3.1. Descripción del DIRCE. ..................................................................55

3.4.1. Descripción ..................................................................................56

3.5.1. Utilización del Censo de Población y Viviendas ...................................60

3.6.1. Actualización en el marco de viviendas .............................................65

Módulo I: Aspectos generales del Diseño Muestral 3

Unidad 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS ECONÓMICAS ...........72

4.1 Carga Estadística: Directorio de Colaboración con las Unidades Informantes 72

4.2 Marco Muestral: Directorio Central de Empresas.......................................74

4.3 Coordinación muestral ..........................................................................75

4.3.1 Técnica de Números Aleatorios Permanentes ......................................76

4.4.1 Coordinación en un año determinado ................................................79

Módulo I: Aspectos generales del Diseño Muestral 4

El presente curso se estructura en tres módulos que se imparten a lo largo de tres

El módulo I se divide en cuatro unidades e incluye aspectos generales del diseño

En la segunda unidad se analizan los conceptos básicos de la teoría del muestreo

Finalmente en la cuarta unidad se estudia con detalle la teoría utilizada en las

El objetivo de este primer módulo es proporcionar al alumno unos conocimientos

Módulo I: Aspectos generales del Diseño Muestral 5

UNIDAD 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS

En este capítulo se hace una descripción de una encuesta por muestreo, su

El objetivo es familiarizar al alumno con los conceptos que se analizan en detalle en

1.1. Tipos de operaciones estadísticas

En el mundo actual los gobiernos, las empresas y las personas, necesitan

Se entiende por operación estadística el proceso por el cual se obtiene

Una vez decidida la realización de una operación estadística, la producción de la

La ley de la función estadística pública regula la actividad estadística para

En la ejecución de su actividad estadística el INE, y en general todas las Oficinas

Módulo I: Aspectos generales del Diseño Muestral 6

• CENSOS: Son investigaciones de tipo exhaustivo.

1.2.1. Población y Muestra

Se denomina población objetivo a un conjunto de unidades del que se

Las unidades de observación pueden ser hogares, personas, colegios, empresas,

En la práctica las limitaciones en los procedimientos diseñados para obtenerlos,

A los errores de tipo sistemático que se comenten en las observaciones se les

Se llama muestra a un subconjunto de la población obtenido con el fin de

Unidad de muestreo: es la unidad que se utiliza en la selección de la muestra,

Módulo I: Aspectos generales del Diseño Muestral 7

Podemos estar interesados en estudiar a los individuos pero solo se dispone

Marco de muestreo es el conjunto de unidades de muestreo. En una encuesta

Muestras distintas nos dan valores distintos de las estimaciones. La medida de la

La consideración conjunta de precisión y sesgo nos conduce al concepto de