Академический Документы
Профессиональный Документы
Культура Документы
ISBN : 956-282-840-9
R.P.I. : 156.786
LOM Ediciones
Primera edicin, 2006.
I.S.B.N.: 956-282-840-9
Motivo de cubierta: Archimedes, del pintor Domenico Fetti, 1620. Imagen obtenida de archivo Wikipedia,
segn las clusulas de la licencia Wikimedia Commons (http://commons.wikimedia.org/wiki/Portada).
Metodologas de
investigacin social
Introduccin a los oficios
Metodologas de investigacin social
Introduccin a los oficios
MARCELO ARNOLD
MANUEL VIVANCO
ALVARO GANZA
PABLO COTTET
MANUEL CANALES
TOMS RODRGUEZ VILLASANTE
ALFREDO GHISO
RODRIGO ASN
JUAN JIMNEZ
RODRIGO MRQUEZ
SONIA MONTECINOS
SERGIO MARTINIC
Diseo de muestras en
investigacin social
El muestreo es la ciencia y arte de medir y controlar la confiabilidad de la informa-
cin estadstica a travs de la teora de la probabilidad.
W. E. Deming. Some Theory of Sampling. Nueva York: Wiley, 1950.
1. Presentacin
La matemtica es una ciencia que estudia el nmero y la forma. Valiente
(1996) la divide en aritmtica, lgebra, anlisis, geometra, mecnica, probabili-
dad, lgica y estadstica.
La estadstica es un saber compuesto de un conjunto de teoras, mtodos y
tcnicas cuyo propsito es conocer datos numricos y formas funcionales relati-
vos a un agregado de elementos. Se pueden realizar mltiples clasificaciones en
el mbito de la estadstica. Tradicionalmente esta diversidad se establece en
trminos dicotmicos.
Paramtrica / No Paramtrica
Terica / Aplicada
Bayesiana / No Bayesiana
Descriptiva / Inferencial
La estadstica inferencial es un conocimiento formalizado que estudia fen-
menos de azar y las condiciones y lmites de su control. Rene dos disciplinas
independientes que mantienen entre s nexos y complementos.
Teora de la Decisin
Teora de la Estimacin
La teora de la estimacin trata de reglas y procedimientos que empleando
informacin parcial permiten inferir el valor de un parmetro poblacional des-
conocido. La teora de la estimacin es el cuerpo terico en que se sustenta el
diseo de muestras probabilstico.
*
Dr. en Sociologa.
141
El diseo de muestras es un campo de conocimiento legitimado recientemen-
te. La teora de la estimacin accede a su madurez con la publicacin de un
artculo de Jerzy Neyman (1934) en la revista de la Royal Statistical Society. El
argumento central es que la seleccin aleatoria de elementos resulta condicin
necesaria para formular una teora cientfica que facilite la inferencia de datos
muestrales a valores poblacionales.
A juicio de Azorn et al. (1986) durante los aos 1949-1954 se consolida el
proceso iniciado con Neyman al publicarse textos clsicos an vigentes en
diseo de muestras. Cabe destacar Yates F. (1949), Deming W.E. (1950), Hansen
M. H; Hurwitz W. N., Madows W. G. (1953) y Sukhatme P.V. (1954).
Un indicador del desarrollo institucional del diseo de muestras
probabilstico es la fundacin en 1971 de la International Asociation of Sampling
Statisticians. A principios del siglo XXI cuenta con cerca de 2000 miembros de
ms de 100 pases.
2. La seleccin aleatoria
La madurez de la teora de la estimacin est asociada a la incorporacin del
azar como procedimiento apropiado para seleccionar los elementos que com-
pondrn la muestra. Se demuestra que slo en estas condiciones se puede conocer
el grado de precisin que asumirn las estimaciones del parmetro poblacional.
La seleccin aleatoria de elementos no garantiza la precisin de las estimacio-
nes. Slo permite controlar la incertidumbre inherente a la inferencia estadstica.
La seleccin aleatoria es condicin para obtener muestras representativas.
Sin embargo, una muestra aleatoria no necesariamente es una muestra repre-
sentativa.
Kish (1972) en una imagen clsica seala que una muestra debe ser una
maqueta de la poblacin origen de la muestra. En trminos formales significa
que una muestra es representativa si la distribucin de frecuencias de las varia-
bles es anloga en la poblacin y en la muestra.
Para estudiar el cumplimiento de esta condicin se compara en ciertas varia-
bles la distribucin en la poblacin y en la muestra. Las variables utilizadas
para evaluar la representatividad se denominan marcadoras y generalmente
son de carcter sociodemogrfico. No existe un criterio convencional respecto al
grado de similaridad necesario entre variables marcadoras y muestrales para
asegurar que una muestra es efectivamente representativa. Tampoco existe una
definicin precisa de la nocin de representatividad.
La seleccin aleatoria no supone que el grado de imprecisin asociado a las
estimaciones sea necesariamente pequeo o, en otros trminos, que la muestra
142
sea representativa. S permite conocer la magnitud de la imprecisin que se
comete al inferir a la poblacin origen de la muestra.
3. Muestreo probabilstico
En funcin del criterio de seleccin de los elementos que componen la mues-
tra se distingue entre muestreo probabilstico y no probabilstico.
El muestreo probabilstico infiere a la poblacin utilizando como gua los
preceptos de la teora de la estimacin. Se caracteriza porque todos los elemen-
tos tienen una probabilidad conocida y distinta de cero de ser parte de la muestra.
Se pueden diferenciar los muestreos probabilsticos en funcin de diversos crite-
rios. En particular consideraremos dos alternativas.
La unidad de muestreo la compone un slo elemento versus las unidades
de muestreo son conjuntos de elementos. El primer diseo refiere a muestreos
simples y el segundo a diseos complejos o por conglomerados.
La probabilidad de seleccin es igual para los elementos versus probabilidad
de seleccin desigual para los distintos elementos. En el primer caso se trata de
diseos autoponderados y en el segundo de diseos que requieren ponderacin.
En consideracin a lo anterior, se presentarn brevemente los diseos
probabilsticos de uso corriente.
143
Cabe distinguir tres tipos de afijacin en muestreo estratificado. La afijacin
dice relacin con el procedimiento de distribucin de elementos entre los estratos.
3.2.1. Afijacin igual, asigna el mismo nmero de elementos a cada estrato.
3.2.2. Afijacin proporcional, el tamao de cada estrato de la muestra es proporcional
al tamao del estrato en la poblacin.
3.3.3. Afijacin ptima, el tamao de los estratos vara en funcin de la varianza de
cada uno de ellos o del costo de stos.
El muestreo estratificado con afijacin proporcional es autoponderado. Los
dems requieren el clculo de coeficientes de ponderacin. En muestreo
estratificado la unidad de muestreo es un slo elemento que es la unidad de
anlisis.
144
no se ejecuta submuestreo. La seleccin de elementos en los conglomerados que
componen la muestra se realiza mediante muestreo aleatorio simple.
3.3.2. Conglomerados polietpicos
El muestreo por etapas bsicamente consiste en realizar submuestreo en dis-
tintos conglomerados y en etapas sucesivas. En cada etapa el conglomerado a
submuestrear es distinto al conglomerado de la etapa anterior. Se trata de un
muestro jerrquico donde amerita distinguir entre unidad primaria de muestreo,
unidad secundaria de muestreo y as sucesivamente. En cada etapa se puede
aplicar distinto procedimiento de seleccin segn convenga al tipo de conglo-
merado que se trate.
A fin de ilustrar el esquema del diseo por etapas se presenta un ejemplo.
Primera etapa seleccin de municipios que corresponden a las unidades prima-
rias de muestreo. En la segunda etapa las unidades secundarias seleccionadas
son zonas censales dentro de los municipios elegidos. En la tercera etapa las
unidades de muestreo son viviendas incluidas en las zonas censales seleccio-
nadas. Finalmente las unidades ltimas de muestreo son personas que habitan
en las viviendas elegidas.
En este ejemplo la seleccin de elementos en cada una de las cuatro etapas se
puede realizar mediante muestreo aleatorio simple. La ltima etapa requerira
la utilizacin de la tabla de Kish.
4. Muestreo no probabilstico
Las muestras probabilsticas poseen una fundada base terica pero para su
realizacin se deben cumplir exigencias propias de la seleccin aleatoria que no
son fciles de satisfacer. En particular, repeticin de visitas para entrevistar
elementos que siendo parte de la muestra son de difcil acceso. La investigacin
aplicada suele a menudo utilizar muestras no probabilsticas pese a que no es
posible conocer la precisin con que se realiza la estimacin del parmetro
poblacional. Se caracterizan por la presencia del juicio personal del muestrista
en la estrategia de seleccin de elementos.
El muestreo no probabilstico ms elaborado es el muestreo por cuotas. El
muestrista decide qu variables de cuota se utilizarn, el tamao de cada cuota
y el nmero de cuotas que comprende la muestra. Se distingue porque la respon-
sabilidad de elegir qu elementos compondrn la muestra la asume el
entrevistador. El muestrista genera la estructura de cuotas que componen la
muestra y el entrevistador decide qu elementos componen cada una de las
cuotas que le corresponde completar.
145
La estrategia para obtener una muestra representativa es anloga en muestreo
por cuotas y en estratificado con afijacin proporcional. Si el entrevistador fuera
un dispositivo rigurosamente aleatorio los resultados seran semejantes.
Para ilustrar el procedimiento se presentar un ejemplo. En primer trmino
se definen las variables de cuota. Normalmente variables con distribucin cono-
cida segn fuentes secundarias. Por ejemplo, sexo y edad disponibles como dato
censal a nivel comunal. Conocida la informacin a nivel de la poblacin se
establece una distribucin en la muestra proporcional a los valores de las celdas
en la poblacin. Las tablas siguientes informan de la distribucin en la pobla-
cin y en la muestra.
La vida ensea que a cada entrevistador no se le debe asignar una cuota gran-
de de elementos. Si ste no opera aleatoriamente, generar un sesgo en la muestra.
Las cuotas se forman proporcionales a la distribucin de las variables en la mues-
tra. La tabla 3 presenta los elementos que corresponden a un entrevistador.
146
Tabla 3. Cuotas asignadas a un entrevistador
N = 50
5. Tamao de la muestra
El tamao de la muestra corresponde al nmero mnimo necesario para esti-
mar el parmetro poblacional asumiendo restricciones de carcter subjetivo y
objetivo.
Las restricciones subjetivas las impone el muestrista. En particular, estable-
cer el error mximo admisible y el nivel de confianza asociado a la estimacin.
Factores objetivos a considerar son recursos econmicos, heterogeneidad de la
poblacin y procedimientos de anlisis a utilizar. Residualmente el tamao de
la poblacin.
147
para su implementacin. Sin embargo, los procedimientos bivariables y
multivariables slo son aplicables a partir de un nmero mnimo de observacio-
nes. As, por ejemplo, en el mbito bivariable el uso de coeficientes de correlacin
paramtricos requieren al menos de treinta casos y en anlisis multivariable las
exigencias pueden ser tan amplias como en anlisis factorial que segn Comrey
(1985) requiere de trescientos casos para resultados confiables o en regresin
mltiple procedimiento stepwise que segn Tabachnik et al. (1989) necesita un
nmero de casos cuarenta veces superior al nmero de variables independien-
tes incluidas en el modelo.
n z 2 s2 Correccin
Coeficiente Confianza *x Varianza
n = (1 ) x / 22 = poblaciones *x
N e finitas
Error mximo admisible
148
Tamao de muestra. Proporciones
n z 2 ( p x q)
n = (1 ) x / 2 2
N e
Respecto a medias
n = Tamao de la muestra.
N = Tamao de la poblacin.
= Valor del coeficiente de confianza elevado al cuadrado. Corres-
ponde a un valor de la curva normal asociado al nivel de confian-
za con que se har la estimacin.
e2 = Valor del error mximo admisible - elevado al cuadrado. Corres-
ponde a la mitad de amplitud del intervalo de confianza.
s2 = Varianza de la poblacin. Valor desconocido y que se reemplaza
por una aproximacin.
n
(1
N
) = Correccin para poblaciones finitas.
149
Tabla 4. Tamao de muestra y error mximo admisible
Error (%) n
0,1 1.000.000
0,5 40.000
1,0 10.000
1,5 4.444
2,0 2.500
2,5 1.600
3,0 1.111
3,5 816
4,0 625
5,0 400
150
Figura 1. Tamao de muestra y error mximo admisible
5,0
4,0
3,5
Error (%)
3,0
2,5
2,0
1,5
1,0
0,5
2.500 10.000
Tamao de Muestra
151
Azorn et al. (1986) demuestran que la relacin de n con N da lugar a una
curva que pasa por el origen y es asntota paralela al eje de abscisas a distancia
n de ste. La figura 2 presenta grficamente la relacin de n con N.
152
aumenta de 1.111 a 2.500. El aumento del nivel de confianza en 4,2% da lugar a un
aumento en el tamao de la muestra de 2,25 veces. El beneficio en la precisin no
es sustantivo, sin embargo, los costos en trabajo de campo ms que se duplican.
153
Ntese que la varianza poblacional es parte de la frmula y nunca ser cono-
cida. En variables medidas a nivel intervalo o razn se obtiene una aproximacin
basndose en datos secundarios o en la aplicacin de un pretest. Si la variable es
dicotmica la varianza es pxq y normalmente se asigna p = q = 0,5. Solucin
conservadora porque manteniendo los dems trminos de la ecuacin constan-
tes estos valores generan el mayor tamao de muestra posible.
En la prctica sucede que si se ha supuesto una varianza mayor a la existente
en la poblacin, el tamao calculado permitir inferencias con mayor precisin
que las esperadas. Por el contrario, si el valor de la varianza en la frmula es
inferior al que corresponde a la poblacin la estimacin se realizar con menor
precisin que la prevista por el investigador.
A modo de ejemplo supngase que se asignan por informacin secundaria
los valores p = 0,7 y q = 0,3. Se opera en la frmula y resulta n = 600. Si los valores
en la poblacin para p y q son 0,1 y 0,9 el nmero de la muestra ceteris paribus es
ms grande que el necesario para cumplir con el nivel de confianza y error
admisible planteados. La muestra apropiada ser menor a 600 casos. Se estn
gastando recursos ms all de lo necesario.
Naturalmente se puede plantear el caso inverso: asignar a p y q valores que
den lugar a una muestra menor que la necesaria para satisfacer las exigencias
de precisin en la estimacin. En este caso se inferir con menor nivel de con-
fianza y mayor error mximo admisible que el exigido.
Dado que el valor de la varianza en la poblacin es desconocido el clculo de
n es slo una referencia. El valor de n exacto para inferir con la precisin defini-
da por el investigador nunca se conocer.
154
sealados pueden resultar una imposicin excesiva y en otros ser claramente
insuficientes.
La dificultad de una decisin apropiada para cada caso dice relacin con la
falta de claridad respecto a las consecuencias prcticas que implica la eleccin
de un nivel de confianza y error mximo admisible determinado. Se trata de una
materia abierta a la subjetividad de quien calcula el tamao de la muestra.
A fin de ilustrar la influencia en el tamao de la muestra de decisiones distin-
tas respecto al nivel de confianza y el error de mximo admisible, se presentan
dos ejemplos. Las tablas 6 y 7 ilustran el tamao de muestra que se obtiene
considerando alternativas distintas y razonables.
155
6. Intervalo de confianza
El intervalo de confianza ha recibido varios nombres, evidenciando la
nomenclatura equvoca an presente en teora de muestras. Las distintas
denominaciones utilizadas a este respecto como en relacin a otros aspectos
revela la relativa inmadurez del saber acumulado en diseo de muestras,
cuestin que dice relacin con un desarrollo intenso en un periodo corto de
tiempo.
El intervalo de confianza ha sido llamado error muestral o error de muestreo.
Confusin semntica grave porque el intervalo de confianza es un valor conoci-
do y el error muestral es una magnitud que no se conoce. Se denomina con
propiedad error muestral a la diferencia entre el estimador y el parmetro. Tam-
bin ha sido denominado error de estimacin y error de precisin. Ntese que
esta ltima denominacin resulta lgica en el sentido que el rango de amplitud
del intervalo est relacionada con diversos grados de precisin.
156
de desviaciones tpicas que comprende. La figura 3 ilustra el nexo entre reas de
la curva y desviaciones tpicas o .
157
los valores relativos a una distribucin normal. Ntese que un coeficiente de
confianza es un valor de la desviacin tpica en la curva normal estandarizada.
158
1
P E ( ) K > 1 2
K
1
P K X +K 1 K 2
n n
x z / 2 , x + z / 2
n n
s s
x 1,96 , x + 1, 96
n n
s
x + z / 2
n
159
Cota inferior:
s
x z / 2
n
El intervalo de confianza puede o no incluir al parmetro de la poblacin.
Ntese que en cada una de las muestras de tamao n obtenidas de una pobla-
cin con N elementos se puede calcular un estadstico y construir un intervalo.
El intervalo de confianza es un suceso aleatorio resultado de una experiencia
aleatoria. En consecuencia, el intervalo se interpreta en trminos que en un por-
centaje de las muestras posibles habitualmente 95,5% o 99,7% el intervalo
incluir el parmetro poblacional.
La construccin del intervalo permite confiar que dado un proceso aleatorio
es poco probable que precisamente el intervalo emprico obtenido no contenga el
valor del parmetro poblacional. En este entendido se concluye que el parmetro
poblacional est entre la cota superior e inferior del intervalo con cierto nivel de
confianza.
pq pq
p 1,96 , p + 1, 96
n n
160
Es un intervalo de confianza para la estimacin del parmetro poblacional
con un nivel de confianza de 95%.
7. Ponderacin
Una muestra es autoponderada cuando todos los elementos han tenido la
misma probabilidad de pertenecer a la muestra. Muestras en que la probabili-
dad de seleccin no es equiprobable dan lugar a resultados sesgados. Se pondera
la muestra cuando sta no es autoponderada. La ponderacin se realiza previa
al procesamiento computacional de la informacin.
Para ponderar se considera el peso muestral de las unidades de muestreo.
Cada unidad tiene un peso muestral que corresponde al inverso de la probabili-
dad de seleccin de la unidad en la muestra. El peso muestral es un valor que
indica el nmero de unidades de la poblacin que son representadas por cada
unidad de la muestra.
Normalmente el peso muestral es un valor muy alto, dado que un elemento
de la muestra representa a miles de elementos de la poblacin. Supngase una
poblacin N = 2.000.000 y una muestra n = 1.000 elementos. El peso muestral
corresponde a N/n = 2.000. A saber, cada elemento de la muestra representa a
2000 elementos de la poblacin.
En los diseos autoponderados todos los elementos tienen el mismo peso. El
peso coincide con la frecuencia. El valor de la frecuencia es 1. En los diseos no
autoponderados se pueden plantear las siguientes situaciones. Siendo wi el peso
del elemento i-simo.
wi < 1. Se trata de elementos subrepresentados. La probabilidad de seleccin
ha sido para cada uno de ellos menor que 1. En consecuencia, la representacin
en la muestra es inferior a la que les corresponde segn el peso que tienen en la
poblacin. Se genera subrepresentacin en estratos de varianza pequea ho-
mogneos y costo de seleccin elevado caros o en dominios particularmente
grandes. El valor del coeficiente de ponderacin ser mayor que 1.
wi > 1. Se trata de elementos sobrerepresentados. La probabilidad de selec-
cin para cada elemento ha sido mayor que 1. Su peso en la muestra es superior
al que les corresponde considerado el peso en la poblacin. La sobrerrepre-
sentacin se utiliza con estratos de varianza grande heterogneos y precio de
seleccin econmico o en dominios relativamente pequeos. El valor del coefi-
ciente de ponderacin ser menor que 1.
El procedimiento de ponderacin puede aplicarse respecto a elementos indi-
viduales o agregados en unidades muestrales colectivas como ciudades,
161
comunas, zonas censales, etc. En general los resultados no difieren segn se
ponderen elementos individuales o agregados en colectivos. Para ilustrar el uso
de ponderadores se simula un ejemplo con datos ficticios.
La tabla 10 ensea informacin poblacional y muestral referida a dos reas
de distinto tamao. En ella se evidencia que el tamao en la muestra de cada
rea no es proporcional al tamao de cada una de stas en la poblacin.
Cabe destacar que si se trata de inferir los resultados a cada rea en forma
independiente, la desproporcin entre poblacin y muestra no incide en la cali-
dad de la inferencia. Naturalmente la inferencia a rea Chica ser ms precisa
que a rea Grande en virtud del mayor tamao relativo de la muestra.
El tratamiento de las dos reas en forma conjunta para inferir a la pobla-
cin origen de la muestra requiere de la combinacin de los resultados
obtenidos en ambas reas. En este contexto se impone el clculo de
ponderadores a fin de devolver a la muestra el peso diferencial que tienen
ambas reas en la poblacin. Ntese que las fracciones de muestreo son dis-
tintas en cada una de las reas.
La fraccin de muestreo indica la probabilidad de seleccin de cada elemento
que compone la muestra. Se calcula mediante el cociente n/N. Realizados los
clculos las fracciones de muestreo son rea Chica = 0,01 y rea Grande = 0,001.
Se han desarrollado diversos procedimientos para ponderar. El coeficiente
de ponderacin tiene el propsito de devolver en muestras desproporcionadas a
cada estrato o dominio su proporcionalidad real.
Se presenta a continuacin un coeficiente sencillo de calcular e intuitivo de
comprender. El coeficiente de ponderacin se obtiene como cociente del porcen-
taje de elementos de la poblacin respecto al porcentaje de elementos de la
muestra. En particular, para el rea Chica y rea Grande los coeficientes de
ponderacin son los siguientes:
162
Tabla 11.- Coeficiente de ponderacin
8. Tratamiento de la no respuesta
El tamao de la muestra dice relacin con la precisin de la estimacin. La
aplicacin del instrumento de medida puede producir disminucin en las res-
puestas, haciendo imposible cumplir con el tamao previamente definido. En
tal caso no se podr inferir a la poblacin con el nivel de confianza establecido
en la frmula de n.
Bsicamente dos razones inciden en no satisfacer el tamao de muestra:
presencia de no elegibles en el marco muestral
presencia de no respuestas entre los elegibles
Los no elegibles corresponden a elementos que no son parte del universo en
estudio y figuran en el marco de la muestra. Por ejemplo, una encuesta a propie-
tarios de viviendas referida al pago de contribuciones cuyo marco muestral
incluya viviendas habitadas por arrendatarios.
Las no respuesta de los elegibles puede generarse por diversos motivos.
A saber, negarse a la aplicacin del instrumento de medida, no contacto
163
con el elemento que ha sido seleccionado, inhabilidad del seleccionado para
responder un cuestionario.
La incidencia en el tamao de la muestra de no elegibles incluidos y elegibles
que no responden puede ser compensada ajustando el tamao muestral. Para
estos efectos se consideran las estimaciones respecto a proporcin de elegibles
en el marco y proporcin de respuesta esperada.
As, por ejemplo, una muestra inicialmente estimada el 1.111 casos puede
ajustarse a una muestra definitiva de 1.461 casos supuestos, 95% de elegibles va
marco muestral 5% de no elegibles y tasa de respuesta de 80%. La frmula se
presenta a continuacin:
n
n =
(e)(r )
n = tamao de muestra ajustado
n = tamao de muestra original
e = proporcin de elegibles en el marco muestral
r = proporcin de respuesta esperada
El aumento del tamao de la muestra es una solucin de uso comn en el
tratamiento de la no respuesta. Resulta de fcil aplicacin; sin embargo, es de
dudosa eficacia. La no respuesta es un problema mayor que puede dar origen a
importante sesgo en la muestra. En particular, cuando las no respuestas respon-
den a un patrn identificable.
Se han establecido diversos procedimientos para el tratamiento de la no res-
puesta. Desde procedimientos relacionados con el trabajo de campo hasta
sofisticados modelos de simulacin.
No hay modo satisfactorio de tratamiento de la no respuesta. La ms eficaz
de las estrategias es disminuir la proporcin de no respuesta.
Los procedimientos mas comunes se basan en la ponderacin de las respues-
tas y la imputacin de valores.
La ponderacin se ejecuta asignando distinto valor a las respuestas obteni-
das. As, por ejemplo, se establecen los rasgos de los no respondentes y se asigna
ms peso a las respuestas de los sujetos de caractersticas parecidas a las que se
atribuyen a los no respondentes.
Se imputa un valor cuando se realiza una prediccin razonada del valor
ausente. Para predecir el valor omitido se utiliza informacin secundaria. En
particular, se detectan variables correlacionadas con la variable del valor omiti-
do y se establece el valor ms probable para el valor ausente.
164
9. Efecto de diseo
Se calcula el efecto de diseo para muestreo por conglomerados monoetpicos
y polietpicos. Para estos efectos se utiliza como patrn de referencia el muestreo
aleatorio simple. En particular porque es un muestreo equiprobable en que el
azar opera libremente, y el clculo de la varianza de la estimacin es matemti-
camente sencilla y lgicamente de fcil comprensin.
En general en muestreo por conglomerado la varianza de la estimacin es
mayor que la obtenida para el mismo nmero de casos en muestreo aleatorio
simple. En efecto, en muestreo por conglomerado monoetpico normalmente se
genera cierta homogeneidad en el conglomerado y en los muestreos polietpicos
en cada etapa se genera un sesgo agregado dado que se seleccionan slo algu-
nos elementos de la etapa anterior.
La frmula del efecto de diseo corresponde al cociente entre la varianza del
estimador del diseo por conglomerados y la varianza del muestreo aleatorio
simple. El valor del efecto de diseo es un valor positivo mayor que 1. El nume-
rador ser mayor que el denominador.
Para ejemplificar la utilizacin del efecto de diseo se acudir a un ejemplo
numrico.
Diseo por conglomerados s2 del estimador = 36
Diseo aleatorio simple s2 del estimador =24
s 2 conglomerado
Efd=
s 2 aleatorio simple
36
Efd= =1,5
24
Se interpreta que hay un 50% de aumento de la varianza del estimador en el
diseo por conglomerados respecto al aleatorio simple.
Calcular el efecto de diseo no es siempre posible. Los valores requeridos
para su clculo a menudo no estn disponibles. En la prctica se utiliza un
rango de fluctuacin que dicta la experiencia. Valores entre 1,5 y 3 resultan
apropiados para la mayora de los casos. En particular, el valor ser cercano a
1,5 cuando se supone que los conglomerados estn constituidos por elementos
heterogneos en las variables principales de investigacin y, por el contrario, se
asume un valor prximo a 3 cuando se conjetura que los conglomerados son
homogneos respecto a las variables en estudio. Es decir, se opta por valores
165
bajos cuando la varianza del estimador no es demasiado diferente a la
varianza obtenida mediante muestreo aleatorio simple y se eligen valores
altos cuando la varianza sera superior a la que correpondera con seleccin
aleatoria simple.
El coeficiente de correlacin rho () se utiliza para medir la correlacin entre
los elementos de los distintos conglomerados. Si el valor del coeficiente es igual
a cero implica que no hay correlacin entre los elementos de los conglomerados.
En consecuencia un valor = 0 significa que estos elementos presentan una
distribucin anloga a la generada mediante seleccin aleatoria simple. Por
tanto la varianza del estimador ser la misma y la precisin de la estimacin
igual en ambos diseos.
166
Tabla 12. Diseos de muestra ordenados segn
cuatro factores determinantes
Factores
Diseo Costo Precisin Marco Muestral Implementacin
Estratificado 4 1 4 3
Aleatorio 3 2 3 1
Monoetpico 1 4 1 2
Polietpico 2 3 2 4
Bibliografa
AZORN ET AL. Mtodos y Aplicaciones del Muestreo, Alianza, Madrid, 1986.
COCHRAN, W. Tcnicas de Muestreo, Cecsa, Mxico D.F., 1995.
COMREY, A. Manual de Anlisis Factorial. Ctedra, Madrid, 1985.
DEMING, W. E. Some Theory of Sampling, Wiley, NuevaYork, 1950.
HANSEN, M. H; HURWITZ, W. N y MADOWS, W. G. Sample Survey Methods and
Theory, Wiley, Nueva York, 1953.
KISH, L. Muestreo de Encuestas, Trillas, Mxico D.F., 1972.
NEYMAN, J. On the two diferent aspects of the representativ method: the
method of stratified sampling and the method of purposive selection. Journal of
the Royal Statistical Society, No 97, 1934.
SUKHATME, P.V. Sample Theory of Surveys with aplications, FAO, Roma, 1954.
TABACHNIK ET AL. Using Multivariate Statistics, Harper Collins, Nueva York,
1989.
ROJAS ET AL. Investigar Mediante Encuestas, Sntesis, Madrid, 1998.
VIVANCO, M. Muestreo Estadstico: Diseo y Aplicaciones, Editorial Universita-
ria, Santiago, 2005.
YATES, F. Sampling Methods for Censuses and Surveys, Griffin, Londres, 1949.
167