Вы находитесь на странице: 1из 131

Universidad de la Repblica

Facultad de Ciencias y Facultad de Ciencias Econmicas y


Administracin
Licenciatura en Estadstica
MUESTREO Y PLANIFICACIN DE ENCUESTAS
NOTAS DE CLASE
2005
PROLOGO
Objetivos
Estas notas son algo ms, y bastante menos, que una traduccin - interpretacin de los captulos 1 a
5 del libro de Srndal, Swensson y Wretman. Los objetivos de esta presentacin son relativamente
humildes: i) contar con algn material en idioma espaol que, por lo menos, se aproxime al texto
mencionado; ii) sistematizar el trabajo del co-dictado del curso durante los aos 2001 a 2004; y iii)
constituir un primer paso para llegar a una presentacin definitiva de estas notas donde se
introduzcan ms ejemplos y ejercicios; y sobre todo, permita disminuir la cantidad de errores que
an subsisten. Estos errores, como es de rigor, son de mi responsabilidad. Por lo anterior, desde ya
se agradece que se notifiquen todos los errores que sean detectados, as como tambin, cualquier
tipo de comentarios y sugerencias.
Referencias y Notacin
El texto bsico (e insustituible) de Muestreo y Planificacin de Encuestas (y tambin de Muestreo
II) es Model Assisted Survey Sampling. Srndal, Swensson y Wretman. Springer-Verlag, 1992.
Estas notas toman prcticamente la misma notacin y estructura de dicho texto.
Como referencia clsica, Tcnicas de Muestreo. Cochran. Cecsa, 1993, del cual se ha tomado algn
material para muestreo estratificado.
Por ltimo, Sampling: Design and Analysis. Lohr. Duxbury Press, 1999, tiene la ventaja de tomar
bastante del texto de Srndal, Swensson y Wretman, y adems, existe una versin traducida:
Muestreo: Diseo y Anlisis. International Thomson Editores, 2000.
Agradecimientos
A Juan Jos Goyeneche; a Ins Urrestarazu y Ral Ramrez, los otros docentes del curso durante
estos aos; y a Ana Laura Badagin, que tuvo la (penosa) tarea de pasar la primer versin de las
notas. Por ltimo, a Miguel Galms, que fue mi docente, cuando se dict el curso por primera vez,
en 1998.
Guillermo Zoppolo (gzoppolo@iesta.edu.uy)
CONTENIDO
1. CONCEPTOS BSICOS Y DEFINICIONES........................................................................................................1
2. IDEAS BSICAS DE ESTIMACIN BAJO MUESTREO PROBABILSTICO..............................................6
3. ESTADSTICOS Y ESTIMADORES....................................................................................................................12
4. EL ESTIMADOR HORVITZ THOMPSON......................................................................................................17
5. MUESTREO CON REMPLAZO (MAS C/R).......................................................................................................28
6. DETERMINACIN DEL TAMAO DE LA MUESTRA...................................................................................34
7. DISEO BE...............................................................................................................................................................37
8. MUESTREO ALEATORIO SIMPLE....................................................................................................................40
9. DISEO SISTEMTICO (SY)...............................................................................................................................47
10. DISEO POISSON (PO).........................................................................................................................................60
11. DISEO CON PROBABILIDAD PROPORCIONAL AL TAMAO (PS)....................................................65
12. MUESTREO ESTRATIFICADO (ST)..................................................................................................................70
13. OTROS TOPICOS DE MUESTREO ESTRATIFICADO..................................................................................80
14. MUESTREO POR CONGLOMERADOS............................................................................................................91
15. MUESTREO EN DOS ETAPAS...........................................................................................................................102
16. OTROS PROBLEMAS DE ESTIMACION........................................................................................................114
1
1. CONCEPTOS BSICOS Y DEFINICIONES
1.1. Poblacin
Una poblacin finita (o simplemente poblacin) es un conjunto finito de elementos, { }
N
u u u ,..., ,
2 1
con < N . Esto implica que se puede determinar sin ambigedad si un elemento dado pertenece
o no al conjunto.
Al nmero de elementos de la poblacin lo llamamos tamao de la poblacin, lo anotaremos N, y
por el momento suponemos que es conocido.
Adicionalmente supondremos que los elementos de la poblacin son identificables y que pueden
etiquetarse con los naturales de 1 a N.
As la poblacin finita es el conjunto, { }
N
u u u ,..., ,
2 1
que por simplicidad lo representaremos por
las etiquetas, { } N ,..., k ,..., , U 2 1 = .
A efectos del tratamiento posterior U ser nuestra poblacin objetivo, o sea, la poblacin finita
sobre la cual deseamos obtener algn tipo de informacin.
1.2. Marco
La esencia de una encuesta por muestreo consiste en la seleccin de una parte de los elementos de
una poblacin finita (muestra) con el objetivo de establecer conclusiones sobre toda la poblacin
basndose en la informacin de la parte observada. As, en teora, la muestra debe ser un
subconjunto de U. En la prctica esto es raramente posible.
Fsicamente, la seleccin de la muestra se realizar a partir de un listado (de personas, de hogares,
empresas, etc.) que por diversas razones (desactualizaciones, duplicaciones, errores, etc.) puede
no coincidir con la poblacin objetivo. Este aspecto juega un rol fundamental en el tratamiento de
los errores no muestrales.
De lo anterior se hace necesario distinguir entre la poblacin objetivo y el marco (o marco
muestral). Al marco muestral lo definimos como el conjunto de unidades, procedimientos y
mecanismos que identifican, distinguen y permiten acceder a los elementos de la poblacin
objetivo U.
OBS] A los elementos del marco los llamamos unidades para distinguirlos de los elementos
de la poblacin. Los elementos de la poblacin que estn incluidos en el marco constituyen lo que
se denomina poblacin marco.
OBS] Cuando se realiza una encuesta por muestreo la seleccin se realiza desde el marco. Luego
a las unidades del marco se les denomina unidades de muestreo y al marco marco muestral.
OBS] Cuando analicemos las distintas formas de seleccionar una muestra supondremos, salvo que
se diga explcitamente otra cosa, que existe una relacin uno a uno entre los elementos de la
poblacin y las unidades del marco. En estas condiciones el muestreo se denomina muestreo
directo de elementos. Requiere, adems de que se cumpla la condicin anterior, que i) las
unidades en el marco estn totalmente identificadas y ii) todas las unidades pueden ser localizadas
2
una vez que son seleccionadas.
Respecto al marco, que supondremos sin errores, resulta til distinguir dos posibles situaciones: 1)
marcos de lista cuando el marco es un listado de todos los elementos de la poblacin y 2) marcos
agrupados cuando el marco es un listado de subconjuntos de elementos de la poblacin.
En la situacin 1) es posible realizar un muestreo directo de elementos. En el caso 2) el acceso a
los elementos es indirecto, primero se selecciona alguno de estos subconjuntos y luego se procede
a observar algunos o todos los elementos de los subconjuntos seleccionados. En algunos casos
esta situacin ser inevitable dada la imposibilidad de construir un marco de lista.
Un caso particular de 2) son los marcos de rea. Estos consisten en un listado de unidades que
corresponden a segmentos fsicos identificables. Todos los elementos de la poblacin pertenecen a
una de estas unidades fsicas y pueden ser identificados luego de una inspeccin de dicha unidad.
Segn el tipo de marco sobre el que se selecciona la muestra se habla de muestreo basado en
marcos de lista, en marcos de rea, marcos agrupados, o, cuando se combinan algunas de las
situaciones anteriores, basados en marcos mltiples.
1.3. Matriz de valores poblacionales
Sea ( )
qk k k
y ,..., y , y
2 1
=
k
y un vector de q variables de inters asociadas a cada elemento k U.
Llamamos matriz de valores poblacionales a la matriz F
y
de N q de elemento genrico
ik
y que
representa el valor de la i-sima variable asociada al k-simo elemento de la poblacin. F
y
es
desconocida a priori.
OBS] La matriz F
y
se denomina parmetro poblacional
1.4. Matriz de valores poblacionales auxiliares
Sea ( )
Jk k k
x ,..., x , x
2 1
=
k
x un vector de J variables asociadas a cada elemento k U.
Llamamos matriz de valores poblacionales auxiliares a la matriz F
x
de N J de elemento
genrico x
ik
que representa el valor de la i-sima variable asociada al k-simo elemento de la
poblacin.
OBS] En general F
x
es conocida y contiene informacin que puede ser usada para mejorar los
esquemas de muestreo. La matriz F
x
puede considerarse como parte del marco muestral.
1.5. Superpoblacin
La matriz F
y
puede ser tratada como un conjunto de cantidades fijas o puede ser considerada
como la realizacin concreta de N vectores aleatorios. Las condiciones que determinan la
distribucin conjunta de estos N, que usualmente dependen de parmetros (superpoblacionales)
vectores se denomina modelo superpoblacional (o proceso generador de datos). En esta
circunstancia, la poblacin finita puede verse como una muestra de la superpoblacin.
OBS] Salvo que se diga lo contrario trabajaremos con F
y
fija, y no supondremos la existencia de
3
un modelo superpoblacional. As, la aleatoriedad con que trabajaremos vendr dada solamente por
el mecanismo de seleccin de la muestra. Cuando se trabaja especificando un modelo
superpoblacional se agrega un segunda fuente de aleatoriedad y se habla de muestreo asistido por
modelos.
OBS] Otras fuentes de aleatoriedad que pueden considerarse son las debidas a errores de medida
en las cractersticas de inters y/o a la no respuesta.
1.6. Muestreo probabilstico
Definimos una muestra s, como un subconjunto de la poblacin U; s U. Notemos que de esta
manera, s es el subconjunto de subndices (etiquetas) de los elementos de la poblacin.
Al conjunto de muestras posibles lo anotaremos con { }
M
s ,..., s , s
2 1
= S .
Lamamos muestreo probabilstico a una seleccin de s que cumpla con:
1. El conjunto { }
M
s ,..., s , s
2 1
= S de todas las muestras posibles es conocido.
2. Cada s Stiene asociada una probabilidad de seleccin, p(s). El procedimiento de
seleccin asigna para todo k U una probabilidad no nula de inclusin. A la probabilidad
de inclusin del elemento k en la muestra S la anotamos como: P(k S) =
k
, que tambin
denominaremos probabilidad de inclusin de primer orden.
3. Una muestra s, es seleccionada por un mecanismo aleatorio que asegura que cada una de
las posibles muestras de S, tiene una probabilidad de ser seleccionada exactamente igual a
p(s).
A una muestra obtenida con el procedimiento anterior la denominamos muestra aleatoria o
muestra probabilstica.
OBS] De manera algo informal, podemos pensar que p(.) es una funcin de probabilidad sobre S,
o sea, p(.): S [0,1| y constituye lo que denominamos diseo muestral. As p(s) = P(S = s)
donde S es un elemento aleatorio y s es una realizacin de S.
1.7. Muestra y tamao de muestra
Llamamos tamao de muestra al nmero de elementos de s y lo anotamos como n
s
.
El conjunto de los elementos de la muestra puede ser representado por s = {1, 2, ... k, ..., n
s
} o,
tambin, como s = {k
1
, k
2
, ... k
i
, ..., k
ns
}.
OBS] Esto puede ser pensado como un re-etiquetamiento apropiado de la poblacin segn la
muestra extrada.
1.8. Encuesta por muestreo
El trmino encuesta por muestreo ser usado para referirnos a una investigacin estadstica que
implique los siguientes aspectos metodolgicos:
4
Concierne a un conjunto finito de elementos denominado poblacin finita. Existe alguna regla que
permite determinar si un elemento pertenece o no a dicha poblacin.
Para cada elemento de la poblacin k, hay asociadas una o ms variables de estudio representadas
por el vector ( )
qk k k
y ,..., y , y
2 1
=
k
y . El objetivo es conseguir informacin sobre algunas de las
caractersticas desconocidas de la poblacin.
OBS] La definicin precisa de la poblacin objeto de estudio y las variables de inters son claves
desde el punto de vista prctico.
En la mayora de los casos el acceso y observacin de un elemento de la poblacin se establece a
travs de un marco muestral que asocia, de alguna manera, los elementos de la poblacin con las
unidades del marco.
De la poblacin se observa un subconjunto s, llamado muestra. La seleccin se realiza desde el
marco y cumple con el requisito de ser una muestra aleatoria.
Los elementos de la muestra son observados, esto es, para cada elemento en la muestra las
variables objeto de estudio son medidas y se registran sus valores.
Los valores registrados son usados para realizar estimaciones de algunas caractersticas
desconocidas de la poblacin de inters. Adicionalmente se calculan estimaciones de la precisin
de las estimaciones. Por ltimo se difunden los resultados.
OBS] Para referirse a las definiciones, mtodos y procedimientos concernientes a todas las fases
necesarias para conducir una encuesta por muestreo se habla del diseo de la encuesta y abarca el
diseo de muestreo, la seleccin y entrenamiento del personal, la determinacin de los
procedimientos de recoleccin, la forma de procesamiento de los datos, etc.
OBS] Un censo es un tipo particular de encuesta donde se observan todos los elementos de la
poblacin.
1.9. Errores en las encuestas por muestreo
Los errores en las encuestas son tradicionalmente divididos en dos grandes grupos, errores
muestrales y no muestrales. A su vez, dentro de los errores no muestrales, pueden ensayarse varias
clasificacines.
A) Errores muestrales: son los debidos a que se observa una muestra y no la totalidad de
la poblacin. Es el error que causa la variabilidad muestra a muestra de las
observaciones.
B) Errores no muestrales:
B.1) De subcobertura: fracaso del marco de cubrir todos los elementos de la
poblacin objetivo.
B.2) De no respuesta: ocurre cuando algunas o todas las variables de inters
asociadas a los elementos seleccionados en la muestra no son observadas.
- Negacin.
- Incapacidad.
5
B.3) En las observaciones:
B.3.1) De medida
- Entrevistador
- Entrevistado
- Cuestionario
- Mecanismo de recoleccin
B.3.2) De procesamiento
- Codificacin
- Transcripcin
- Pre-estimaciones
- Imputacin
- Tratamiento de outliers
La clasificacin obviamente no es nica.
6
2. IDEAS BSICAS DE ESTIMACIN BAJO MUESTREO PROBABILSTICO
2.1. El concepto de diseo
Sea U la poblacin objetivo de N elementos etiquetados por k = 1,..., N.
Supongamos que se dispone de un marco en el que hay una relacin uno a uno entre los elementos
de la poblacin y las unidades del marco, o sea, estamos en condiciones de realizar un muestreo
directo de elementos.
Sea s una muestra de la poblacin U, o sea, U s y s S, donde S es el conjunto de muestras
posibles.
OBS] En principio

=
= 2 =
N
m
N
m

C
0
# S aunque tal vez sea ms correcto no considerar al conjunto
vaco como una muestra, luego, 1 1 #
0
= 2 =

=
N
m
N
m

C S .
De S se selecciona una muestra s, de forma aleatoria, o sea, la seleccin de s se realiza segn la
definicin de muestreo probabilstico.
OBS] Este ltimo es el sentido que le damos a frases, generalmente vagas, tales como muestra
representativa o seleccin al azar.
Luego, existe un esquema de extraccin que permite especificar una funcin p(.): S [0,1| tal
que { } da" selecciona sea s muestra La " P ) s ( p = .
OBS] Se puede pensar a s como la realizacin de una variable aleatoria S con lo que
) s ( p ) s S ( P = = aunque formalmente esto sea algo inexacto, S no es una variable aleatoria, ya
que no es cierto que S : , sino que S es una set-value random variable.
Dado que p(.) asigna probabilidades sobre S se cumple que
S s ) s ( p 0

=
S s
s p 1 ) (
Como ya fue mencionado ) s ( p se denomina diseo de muestreo y juega un papel clave, ya que
determina las propiedades estadsticas de cualquier cantidad calculada en base a los datos
observados de la muestra.
OBS] Aunque la inferencia estadstica tradicional y la inferencia en muestreo de poblaciones
finitas no son teoras contrapuestas, Cassel, Srndal y Wretman (1977) destacan que el concepto
de diseo muestral no tiene contra parte en la teora estadstica tradicional. En este sentido, una
diferencia importante es el carcter de la aleatoriedad, mientras que en la teora estadstica
tradicional sta surge de un modelo hipottico, en el muestreo de poblaciones finitas, la
aleatoriedad surge del mecanismo de extraccin de la muestra que es un mecanismo real.
OBS] Los diseos que trataremos en este curso no dependen de los valores de las variables de
inters en la muestra, o sea, no dependen de los
k
y observados, aunque s pueden depender de los
7
valores de variables auxiliares
k
x . A los diseos que cumplen con esta condicin se denominan
diseos no informativos.
EJEMPLO] Diseo SI (MAS s/r.)
Se extrae un nmero fijo de n elementos sin reponer de forma que en cada extraccin todos los
elementos tienen la misma probabilidad de ser seleccionados. As
{ } { } { }
{ } { } { }
( ) { }
( )
N
n
n n
n n
C ! N
! n ! n N
! n
) n ( N N N
! n k n , , k / k P
, k / P / k P P
! n k , , , P " k ,..., k , P ) s ( p
1
1
1
1
1 1
simo - 1 2 , k 1 simo - n
k 1 2 k 3 k 1 2 k 1
simo - n k 2 k 1 k s Extraer "
1 2
do.
1
ero.
1
ero.
2
do.
3
ero.
1
ero.
2
do.
1
ero.
2
do.
1
ero.
2 1
=

=

=
=
=
= = = =

Luego, n s
C
) s ( p
N
n
tamao de
1
= .
OBS] ( ) ( )



= = =
S S s s
N
n
N
n
N
n
C C ) s ( p 1 C
1 1
EJEMPLO] Diseo Bernoulli (BE)
Sean
1
,
2
, ...,
N
iid, con Unif(0, 1).
Luego el elemento si s k
k
< con fijo y (0, 1).
OBS] El tamao de muestra,
s
n , es aleatorio,
s
n Bin(N, ). Si bien, como veremos ms adelante,
esto no es del todo deseable, este diseo tiene la ventaja de que se puede implementar sin
necesidad de conocer N.
Supongamos que
s
n es el tamao de s, luego,
S S
n N n
) ( ) s ( p

= 1 .
OBS] Hay 1 muestra de tamao 0 =
N
C
0
; N muestras de tamao 1 =
N
C
1
;
N
C
2
muestras de tamao
2; ...; 1 muestra de tamao N =
N
N
C .
Luego, ( )

=

= =
N
n
n N n N
n
s
S
S S
S
C ) s ( p
0 S
1 1 y U k
k
=
2.2. Probabilidades de inclusin y variables indicadoras
Supongamos un diseo aleatorio (.) p bien especificado. Anotemos al evento: La muestra
aleatoria S contiene al elemento k U como { } S k . Luego, la indicatriz este evento viene dada
por
( )

=
S k si
S k si
S I
k
0
1
8
OBS] ( ) ) S ( g S I
k
= con lo que
k
I es aleatoria, ya que S es aleatoria.
Probabilidades de inclusin de primer orden.
( ) ( ) ( )

= = = =
k s
k k
s p I P S k P 1
OBS] ( )
k k
Ber I , ( ) ( ) ( )
k k k k k
I V I E = = 1 y
Probabilidades de inclusin de segundo orden.

= = = = = = =
l y k s
l k l k l k
) s ( p ) I I ( P ) I , I ( P ) S l y k ( P 1 1 1
OBS] Como ) ( Ber I I
l k l k
se tiene que
l k l k
) I I ( E = , ) ( ) I I ( V
l k l k l k
= 1 y
l k l k l k l k l k l k
) I ( E ) I ( E ) I I ( E ) I I ( Cov = = = .
OBS]
k l l k
= , ) ( ) I ( V
k k k k k k k k
= = = 1 y
OBS] Un diseo ) s ( p asocia a cada elemento k de la poblacin U una probabilidad de ser
seleccionado,
k
> 0. Hay N valores
k
que pueden ser distintos. Adems, ) s ( p asocia a cada
par de elementos k y l de U, una probabilidad
l k
. Hay
2
1
2
) N ( N
C
N

= valores
l k
que pueden
ser distintos, ya que
k kk
= y
k l l k
= .
OBS] El requerimiento de que U k
k
> 0 es necesario para que el diseo cumpla con la
definicin de muestreo probabilstico. En estas circunstancias, se denomina diseo aleatorio.
OBS] Otro requisito usual en los diseos que veremos es la condicin de que
U l k
l k
> 0 . Los diseos que cumplen esta condicin se denominan diseos medibles.
OBS] Ms adelante veremos que slo bajo esta condicin es posible obtener estimadores de
varianzas insesgados.
EJEMPLO] Parte a) del EJERCICIO 2.5] Srndal, C. E., Swensson, B., and Wretman, J. H. Model
Assisted Survey Sampling (1992). New York: Springer-Verlag.
EJEMPLO] Diseo SI
U k
N
n
C
C ) s ( p
N
n
N
n
k s
k
= = =

1
1
1
. U l k
) N ( N
) n ( n
C
C ) s ( p
N
n
N
n
l k s
l k

= = =

1
1 1
2
2
y
OBS] En este caso se tiene que I
1
,

I
2
,..., I
N
son idnticamente distribuidas con |
.
|

\
|

N
n
Ber I
k
.
9
Las I
k
no son indepedientes ya que
) N ( N
) n N ( n
) I , I ( Cov
l k l k l k
1
2

= = .
OBS] El clculo de
k
y
l k
se puede pensar como los valores de ) X ( P 1 = y ) X ( P 2 = , donde
X es una variable aleatoria Hipergeomtrica(N,
N
n
, N
I
) donde 1 =
I
N y 2 =
I
N respectivamente.
OBS] Tambin,

=
= = =
n
i
k
lugar simo - i el en sale k P S k P
1
) ( ) (
N
n
N N
N
N
N
N N
N
N N
n
i
= +


+

+ = =

=1
2
1
1
2 1
1
1 1 1 1

EJEMPLO] Diseo BE
Los
k
I son independientes e idnticamente distribuidos ) ( Ber .
U l k
U k
l k
k
=
=
2
0 = ) I , I ( Cov
l k
2.3. Las variables indicadoras y el diseo
Llamemos ( )
N
I , , I , I
2 1
= I . As, el evento {S = s} es equivalente a {
S
i I = }, donde
( )
N s s
i , , i , i
2 1
=
S
i , con
( )

=
S k
S k
S i
k
si 0
si 1
Luego, podemos escribir, ( ) ( ) ( ) S = = = = s s p P s S P
S
i I .
CONCLUSION] Las variables indicadoras son tiles para calcular tanto
k
y
l k
como
( ) s p .Hay que destacar que ( ) s p determina
k
y
l k
. Adems
( ) s p
U k k k
U k k
U k
N k , , k k
k k
k
N
determinan
2 1
2 1
2 1
2 1

OBS] Como veremos ms adelante, llamamos estadstico a cualquier funcin que slo depende de
la muestra aleatoria. As, ) S ( Q es un estadstico y su distribucin depende de la distribucin de
S, o sea de ( ) s p . Tanto I
k
como I son estadsticos.
OBS] Para { } U A N , , , U = y 2 1 , se define { }
N k
a a a a , , , , ,
2 1
, un conjunto de cantidades
asociadas a cada elemento de U y { }
NN N
a a a a a a , , , , , , ,
22 21 1 12 11
un conjunto de cantidades
asociadas a cada par de elementos de U. Entonces, anotamos
10

=
A
A k
k k
a a


+ = =
A
A k A l A k A k
l k
A l
l k kk kl l k
a a a a


OBS] Al anotar
kl
a estamos suponiendo que cada par de elementos de U tienen asociados esta
nica cantidad,
kl
a .
2.4. Variables indicadoras y el tamao de muestra
Como ya dijimos, el tamao de muestra se anota n
s
. Esta notacin se explica porque puede
depender de la muestra seleccionada. En otras palabras, hay diseos en que el tamao de muestra
es fijo, independientemente de la muestra que sea seleccionada. (por ejemplo, el SI) pero tambin
existen diseos (por ejemplo, el BE) donde el tamao de muestra es aleatorio ya que depende de la
muestra que sea seleccionada.
Como veremos, las variables indicadoras,
k
I , tambin son tiles para analizar qu ocurre con
s
n .
En base a lo anterior podemos plantear,

=
U
k s
I n .
Luego,


+ = =
= = =
l k
U
l k
U
k
U
k s
U U
k k
U
k s
) I , I ( Cov ) I ( V ) I ( V ) n ( V
) I ( E ) I ( E ) n ( E
que puede escribirse como
1

+ = =
l k
U
l k kl
U
k k
U
l k s
) ( ) ( ) I , I ( Cov ) n ( V
( )
-
2
2


+ =
+ =
l k
U
kl
U
k
U
k
l k
U
l k
l k
U
kl
U k U
k
) (
) ( ) (
Por ltimo, utilizando que ,
k kk
= se tiene
( )
2

=
U
k
U
kl s
) n ( V .
2.5. Diseos de tamao fijo
En diseos de tamao fijo
0 =
=
) n ( V
n ) n ( E
s
s
de lo que se deduce
( )
2 2


+ = + =
= =
l k
U
kl
U
l k
U
kl
U
k k s
U
k s
n n ) ( ) n ( V
n ) n ( E
11
Por lo tanto
( ) 1 =

n n
l k
U
kl
.
Adems
| | = =
|
|
.
|

\
|
=
|
|
.
|

\
|
= =


) I n ( I E I I E I I E ) I I ( E
k k
k l
U
l k
k l
U
l k
k l
U
l k
k l
U
kl
( ) ( ) ( ) ) n ( n I E nI E I nI E
k k k
k
k
k
k
1
2 2
= = = .
Diseo SI (tamao fijo n)
) N ( N
) n ( n
) n ( V
n
N
n
) n ( E
l k
U
l k
U
kl s
U U
k s
1
1
0

= =
= = =



Son
N
C
2
2 trminos, con lo que ) n ( n ) n ( V
s
1 =
OBS] ( )
( )
( )
( ) ( ) 1 1
1
1
1 = =

n n
N
n
N N
n n
N
k
l k
U
kl
EJEMPLO] Diseo BE
= =

N ) n ( E
U
k s
.
( ) ( ) ( ) = + = + =


1 1
2 2
2
N ) N ( N N N ) n ( V
l k
U
kl
U
k
U
k s
.
EJERCICIO] Parte b) del EJERCICIO 2.5] Srndal, C. E., Swensson, B., and Wretman, J. H.
Model Assisted Survey Sampling (1992). New York: Springer-Verlag.
12
3. ESTADSTICOS Y ESTIMADORES
3.1. Introduccin
Para introducir el tema, comencemos viendo un ejemplo que sirve para repasar conceptos ya
vistos en cursos previos.
EJEMPLO] Consideremos { } 8 3 2 1 , , , , U = , N = 8.
Supongamos que estamos interesados en un nica variable: As, la matriz de valores
poblacionales, F
y
= y =( )
t
y , y , y
8 2 1

Supongamos que nos interesa estimar el parmetro poblacional total de la variable y,
( ) ( )

= = = = =
=
U
k
k
k y
y y y , y , y t
8
1
8 2 1

y
F .
Se propone como estimador
( )

= = = =
S
S
S
k
y
y N
n
y
N S

t

.
Supongamos que el diseo de muestreo corresponde a un SI de tamao n = 4. As,
( )

=
=

caso. otro en 0
4 tamao de
70
1
1
8
4
s C
) s ( p
Luego,
14
3
y
2
1
= =
kl k
.
Como es usual nos interesa ) t

( E
y
y ) t

( V
y
. Adicionalmente nos podramos interesar por la
distribucin de
y
t

, ( )
y
t

F .
Supongamos que el vector y es conocido e igual a ( ) 8 7 7 7 4 4 2 1 , , , , , , , = y . As, las etiquetas y los
valores de la variable asociados son
k 1 2 3 4 5 6 7 8
y
k
1 2 4 4 7 7 7 8
Podemos encontrar la distribucin exacta en el muestreo de
y
t

utilizando el conjunto de todas las


muestras posibles, aunque puede resultar muy engorroso (por ejemplo con N = 1000 y n = 80
tenemos 5.4327E+119 muestras posibles).
Queremos obtener ( ) ( )

= =
c
S s
y
) s ( p c S t

P donde S S
c
y ( ) { } c s t

s : s = = y
c
S S .
Entonces,
{ } { } { } = = 4 4 2 1 4 3 2 1
4 3 2 1 1
, , , y , y , y , y , , , s ( )
( )
22
4
4 4 2 1
8 =
+ + +
= s t

y
y
t
y
t
13
{ } { } { } = = 7 4 2 1 5 3 2 1
5 3 2 1 2
, , , y , y , y , y , , , s ( )
( )
28
4
7 4 2 1
8 =
+ + +
= s t

y
{ } { } { } ( )
( )
{ } { } { } ( )
( )
58
4
8 7 7 7
8 8 7 7 7 8 7 6 5
28
4
7 4 2 1
8 7 4 2 1 6 3 2 1
8 7 6 5 70
6 3 2 1 3
=
+ + +
= = =
=
+ + +
= = =
s t , , , y , y , y , y , , , s
s t , , , y , y , y , y , , , s
y
y

Resumiendo, la distribucin del estimador


c 22 28 30 32 34 36 38 40 42 44 46 48 50 52 58
( ) ( ) c s t

P
y
= 0.014 0.086 0.029 0.043 0.100 0.057 0.086 0.171 0.086 0.057 0.100 0.043 0.029 0.086 0.014
Luego la media y la varianza de
y
t

se obtienen fcilmente a partir del diseo muestral


( ) ( ) ( ) ( )
( ) ( ) ( ) | | ( ) 86 54 40
40
2
. s p s t

S t

V
s p s t

S t

E
s
y y
s
y y
= =
= =

S
S
o bien mediante la distribucin en el diseo de
y
t

,
( ) ( ) ( ) 40 = = =

) t

c Re c
y y
) c S t

( P c S t

E
(
( ) ( ) | | ( ) 86 54 40
2
. ) c S t

( P c S t

V
y
) t

c Re c
y
= = =

(
, donde ) t

( c Re es el recorrido de
y
t

.
Distribucin en el diseo del estimador del total
0
0.05
0.1
0.15
0.2
22 28 30 32 34 36 38 40 42 44 46 48 50 52 58
P
r
o
b
a
b
i
l
i
d
a
d
14
3.2. Nocin de estadstico
DEF] Se llama estadstico a cualquier funcin del espacio de muestras posibles en los reales que
no contiene parmetros desconocidos, o sea, puede calcularse cualquiera sea la muestra realizada.
En general, trabajaremos con ( ) S : Q S Q donde , que es una variable aleatoria ya que S es
una aleatoria.
EJEMPLOS]
( )

=
S k
S k
S I
k
si 0
si 1
( ) ( )

=
U
k S
S I S n
OBS] Si la letra ese es mayscula se trata de la variable aleatoria estadstico, mientras que si es
minscula se trata de la funcin evaluada en la muestra particular. En la mayora de lo que sigue
solo distinguiremos entre ( ) ( ) s Q S Q y cuando no se desprenda del contexto.
Una vez que se cuenta con una realizacin, s de S se supone que es posible medir ciertas variables
de inters, digamos y y z S k . As, en este caso el estadstico
( )

=
S
k
S
k
z
y
S Q
puede ser calculado como
( )

=
s
k
s
k
z
y
s Q
Insistamos en que la naturaleza aleatoria de ( ) S Q se debe solamente a que S es aleatoria. Una
notacin ms apropiada para ( ) S Q sera:
( ) ( ) | | S k : z , y , k Q S Q
k k
=
Es decir, ( ) S Q es una funcin de S, ( )
N
y , , y
1
= y y ( )
N
z , , z
1
= z que depende de y y de z
slo a travs de los valores y
k
y z
k
, para cada S k .
OBS] Notemos que el mecanismo aleatorio de seleccin de la muestra es real, en el sentido de que
no es un modelo aleatorio supuesto.
Luego
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) | | { }
( ) ( ) ( ) ( ) ( ) ( ) | | ( ) ( ) ( ) | | { } S Q E S Q S Q E S Q E S Q , S Q Cov
S Q E S Q E S Q V
s p s Q S Q E
s
2 2 1 1 2 1
2
=
=
=

S
Notemos que estas definiciones refieren a la variacin sobre todas las muestras posibles que
pueden obtenerse bajo el diseo ( ) s p . Para enfatizar este aspecto, se habla de esperanza en el
15
diseo, varianza en el diseo, etc.
3.3. Propiedades bsicas de los estimadores
DEF] Un parmetro poblacional es cualquier funcin real de los valores poblacionales de las
variable de inters. As ( ) ( )
N
, , y y y F
y

2 1
= = . Usualmente consideraremos una nica
variavle y anotaremos ) y , , y , y (
N

2 1
= .
EJEMPLOS]

=
U
k y
y t
N
t
y
N
y
y
U
k U
= =

1
( ) | |
2 2 2 2
1
1
1
1
U
U k U
U k
y
y N y
N
y y
N
S
U

=
Que son el total, la media y la varianza poblacionales, respectivamente.
DEF] Un estimador del parmetro es un estadstico que produce valores cercanos a y es
usado para estimar . Anotamos ( ) S

= para referirnos a un estimador cualquiera de .
Por ejemplo,

=
S
k y
y
n
N
t

.
Como dijimos, es clave poder describir las variaciones muestra a muestra de un estimador

.
DEF] Llamamos distribucin bajo el diseo ( ) s p del estimador

a la especificacin de todos los


valores posibles de

junto con la probabilidad de que

tome ese valor bajo el diseo ( ) s p . Ms


formalmente, bajo el diseo ( ) s p llamamos distribucin en el muestreo de

a
( ) ( ) = =

c s p c

P
C
s S
donde ( ) { } c s

s : s
C
= = y S S
Luego el clculo de los momentos del estadstico bajo el diseo ( ) s p se calculan directamente,
por ejemplo
( ) ( ) ( )

=
S s
s p s

E y ( ) ( ) ( ) ( ) ( )

=
S s
s p

E s

V
2
Dos medidas importantes de la calidad de un estimador son
1. El sesgo que se define como: ( ) ( ) =

E

B . Un estimador se dice insesgado si ( ) 0 =

B .
2. El error cuadrtico medio: ( ) { } ( ) ( ) ( )

= =
S s
s p s

E

MSE
2 2
.
OBS] Recordar que ( ) ( ) ( ) .

MSE
2
+ =
16
OBS] Nuevamente es importante tener clara la diferencia entre estimador y estimacin, o sea,
entre ( ) S

y ( ) s

. Desde ahora solo se usar s.


OBS] lLa frase a es una estimacin sesgada de refiere a que a es la estimacin que produce
un estimador sesgado de .
Otra medida de la calidad de un estimador que se suele utilizar es el coeficiente de variacin. Este
mide la dispersin relativa del mismo. Se define como
( ) ( ) 0 con

=

E
)

( E
)

( V

CV
En muchas aplicaciones en que

es insesgado se utiliza como medida de la calidad del diseo a


la estimacin del coeficiente de variacin de

( )
( )

=


V

CVe
donde anotamos ( )

para referirnos a una estimacin de la varianza del estimador

.
17
4. EL ESTIMADOR (HORVITZ THOMPSON (1952))
4.1. El principio de expansin
Dada la poblacin { } N , , , U 2 1 = , con N conocido, nos interesa estimar

=
U
k y
y t , el total en
la poblacin de la variable y. Sea ( ) s p un diseo aleatorio cualquiera. En estas condiciones, un
estimador para

=
U
k y
y t viene dado por
k
S S
k
k
y y
y
y
t

= = =

donde
k
k
k
y
y

.
Este estimador es insesgado en el diseo.
( )
( ) ( )

= =

=
|
|
.
|

\
|
=
|
|
.
|

\
|
=

U
y k
U
k
k
k
U k k
k
S
s p
t y
y
I E y I E y E t

E

.
En 1952 Horvitz y Thompson propusieron el uso de este estimador y actualmente se lo conoce
como el estimador Horvitz Thompson o estimador .
El principio en que se basa es bien sencillo y lo llamaremos principio de expansin puede
resumirse como sigue: para obtener un estimador insesgado de un total poblacional pasamos de U
a S y expandimos cada uno de los sumandos.
Una expresin para la varianza del estimador viene dada por
( )
( ) ( ) ( ) = + =
|
|
.
|

\
|
=
|
|
.
|

\
|
=

l k
l k
U
l k k U
k
U k k
k
S
s p
y y I , I Cov y I V y I V y V t

V

2
( )
l U k
kl l k U
l k
y y y y I , I Cov


= =
OBS]
( )
( )

V
s p
es un parmtro poblacional, o sea,
( )
( )

V
s p
es una funcin real de F
y
. Es ms,
puede verse como un caso particular de total poblacional. Dicho en otras palabras, es un total de la
poblacin UU donde hay
2
N elementos que son de la forma
l k kl
y y

. Luego, para obtener un
estimador insesgado de
( )
( )

V
s p
volvemos a aplicar el principio de la expansin
( )
( )
l k
kl
S
s p
y y t

donde
kl
kl
kl

y el insesgamiento de este estimador se deriva de manera anloga a la anterior,


( )
( ) ( ) ( )
( )
( )


= =

=
|
|
.
|

\
|
= t

V y y y y I I E y y I I E t

E
s p
U l k kl l k
kl
kl
U
l k
U l k
kl
l k s p

18
OBS]

es insesgado de
y
t si ) s ( p aleatorio, o sea, si k
k
> 0 . Por su parte, ( )

es
insesgado de ( )

V si ( ) s p medible, o sea, si l k
kl
> 0 .
4.2. Generalizacin del principio de - expansin
Sean
N
a , , a , a
2 1
cantidades fijas y
k
k
k
a
a

con U k
k
> 0 . Entonces,

S
k
a

es
insesgado para estimar

U
k
a .
Sean
NN kl
a , , a , , a , a
12 11
cantidades fijas y
kl
kl
kl
a
a

con U l , k
kl
> 0 . Entonces,

S
kl
a

es insesgado para estimar

U
kl
a .
OBS]

S
k a

estima insesgadamente a

U
k
a por ser un estimador . Su varianza es
( ) ( ) = + =
|
|
.
|

\
|
=
|
|
.
|

\
|

l k
l k
l k
U U
k
k
U
k
k
S
k
a a I , I Cov a I V a I V a V

2
( )

= =
U
l k
kl
U
l k
l k
a a a a I , I Cov

As, hay dos fuentes de variabilidad distinguible en los estimadores , una debida ( )
k
I V y otra a
las ( )
l k
I , I Cov . Recordemos que ( ) ( )
k k k
I V = 1 y ( )
l k kl kl l k
I , I Cov = = . Sabemos
que los estimadores son insesgados, luego nos interesa minimizar su varianza.
Supongamos que los
k
a son positivos para cualquier valor de k, luego, de los dos componentes de
variabilidad, el originado por ( )
k
I V es siempre positivo, mientras que las ( )
l k
I , I Cov pueden ser
tanto positivas como negativas. Luego es razonable tener ( )
l k
I , I Cov de signo negativo, ya que
esto debera reducir la variabilidad del estimador.
4.3. Expresin alternativa para ( )
y
t

V en diseos de tamao fijo n


(Yates y Grundi (1953) y Sen, (1953)).
En los diseos de tamao de muestra fijo, se tiene que ( )
l k kl U
y y t

puede escribirse
como
( )

|
|
.
|

\
|
=
U l k kl
y y t

V
2
2
1

Si adems, l k
kl
> 0 , ( )

|
|
.
|

\
|
=

S l k
kl
y y t

2
2
1

.
OBS] Se tiene que cuando k = l, los sumandos se anulan ya que 0 =
|
.
|

\
|

l k
y y

. Luego, es
equivalente sumar en

U
en
l k
U
.

19
Probemos lo anterior desarrollando la frmula propuesta para ( )

V .
( ) =
|
.
|

\
|
+ =
|
.
|

\
|
=

U
l k l k kl
U
l k kl
y y y y y y t

V

2
2
1
2
1
2 2
2
( )

+ = =

U
l k
U
kl k kl
y y y t

V

2
luego, para llegar a la expresin que queremos, basta con probar que el primer trmino de la
ltima expresin es nulo
l
U
kl
U
k
U
k k kl
y y

=
2 2

que se anula dependiendo de
l
U
kl
.
Por ltimo ( ) 0 = = = =

n n
k k
l
U
l k
l
U
kl
l
U
l k kl
l
U
kl
y queda demostrada
la equivalencia de ambas expresiones.
OBS] Lo anterior se sigue de un resultado ya visto, ( )
k k k
k l
U
kl
n n = =

1 y luego
k k
U
k k kk
k l
U
kl kl
n n = + = + =

.
De otra forma, ( ) ( )
k k
l
U
l k
l
U
l k
l
U
l k
l
U
kl
n n . I E I I E I I E I I E = =
|
|
.
|

\
|
=
|
|
.
|

\
|
= =

OBS] Se obtuvo que bajo un diseo de tamao de muestra fijo
( )

=
|
.
|

\
|
=

U
l k kl
U
l k kl
y y y y t

V

2
2
1
y las dos formas de expresar la varianza son equivalentes.
OBS] Las dos expresiones para ( )

V pueden verse como totales poblacionales, por lo tanto, se


puede aplicar el principio de expansin para obtener estimadores insesgados, o sea, para
obtener un estimador insesgado de un total poblacional pasamos de U a S y expandimos cada
uno de los sumandos.
Sin embargo, las estimaciones puntuales calculadas en base a una misma muestra no tienen por
qu coincidir, a pesar de ser ambas estimaciones puntuales generadas por un estimador insesgado
de ( )

V .
OBS] En los diseos ms usuales tendremos que ambos estimadores de la varianza del estimador
del total arrojaran valores no negativos. Sin embargo, es posible encontrar diseos y
configuraciones especiales de la variable de inters en la poblacin,
N
y , , y
1
, que arrojen
estimaciones negativas. Obviamente, no todas pueden ser negativas, ya que son observaciones de
una variable aleatoria con media en ( )

V que es positiva siempre.


Lo que sigue ser la lgica de trabajo que, en rasgos generales, aplicaremos frente a cualquier
20
diseo. Dado un mecanismo de seleccin planteamos ( ) s p y/o los
k
y
kl
y veremos la forma
particular que adoptan ( )

t

V , t

y ( )

.
4.4. El diseo SI de tamao n
De la poblacin U de N elementos se extraen n de manera independiente y sin reponer. Hay
N
n
C muestras posibles de tamao n. El diseo muestral viene dado por
( )
( )


=

caso otro en 0
tamao de
1
n s C
s p
N
n
Las probabilidades de inclusin de primer y segundo orden son
( )
( )
( )
( )
U l k
N N
n n
S l k P
U k
N
n
S k P
kl
k

= =
= =
1
1
y
Adems
( )
( )
U l k
N N
n N n
kl

=
1
2
El estimador del total poblacional de la variable y,
y
t , viene dado por

= = = = =
S S S S
k
k k
S k y
y N y
f n
y
N
N n
y
y t

y, como sabemos es insesgado para t


y
. Reiteremos el resultado
( )

= =
|
|
.
|

\
|

=
|
|
.
|

\
|
=
U
y k
U
k
k
k
S k y
t y
y
I E y E t

E

La varianza del estimador
( ) ( ) ( ) = + = =


l k l k
l k
U k U
k
U l k kl y
y y I , I Cov y I V y y t

V

2
( )
( )
l k
l k
U k U
y y
N N
n N n
y
N
n
N
n

1
1
2
2

+ |
.
|

\
|
=


OBS] Notemos que las covarianzas son negativas.
Un estimador insesgado para la varianza del estimador se obtiene por el procedimiento habitual, o
sea, se pasa de U a S y se expande
( )

=
S l k
kl
y
y y t


.
OBS] A pesar de que las expresiones ( )

=

U l k kl
y y t

V

y ( )

=

S l k
kl
y y t


son
siempre vlidas, a veces conviene operar con ellas para llegar a expresiones ms cmodas, sobre
todo desde el punto de vista computacional. En este sentido, por ser el SI un diseo de tamao
fijo, podemos operar partiendo de la expresin alternativa para la varianza. Esto es exactamente lo
21
que vamos a hacer para llegar a las expresiones de ( )

V y ( )

ms comnmente usadas en el
diseo SI.
Adelantamos el resultado: bajo un diseo SI de tamao n sobre una poblacin de tamao N, se
tiene que la varianza del estimador de un total poblacional y un estimador insesgado de esta,
vienen dados, respectivamente, por
( ) ( )
n
S
f N t

V
U
y
SI
2
2
1 =

( ) ( )
n
S
f N t

V
S
y
SI
2
2
1 =

donde
N
n
f = se denomina fraccin de muestreo; ( ) f 1 , factor de correccin por poblacin
finita; ( )
1
1
2 2

=
U
U k
y
y y
N
S
U
y

=
U
k U
y
N
y
1
son, respectivamente, la varianza y la
media poblacionales; por ltimo, ( )
2 2
1
1

=
S
S k
y
y y
n
S
S
y

=
S
k S
y
n
y
1
son,
respectivamente, la varianza y la media muestrales.
OBS] Esto debera resultarnos ms familiar que las expresiones anteriores. Observemos que
1. ( ) ( ) ( ) ( )
n
S
f y V y V N t

V y N t

U
y
S S S
2
2
1 que lo con = = =

. Esto ltimo no es
otra cosa que la varianza de la media muestral de una muestra de variables aleatorias iid de
tamao n corregida por el factor ( ) f 1 .
2. La varianza muestral es un estimador insesgado de la varianza poblacional.
3. La varianza del total poblacional (o de la media) depende de la varianza de la variable en la
poblacin.
Demostremos que lo anterior es cierto partiendo de la expresin alternativa para la varianza en
diseos de tamao fijo
( )
|
.
|

\
|
= =

U
l k kl
U
l k kl SI
y y y y t

V
2
2
1

OBS] Si k = l el sumando se anula, ya que 0 =
|
|
.
|

\
|


l k
y y . As, no hay peligro en sustituir
kl
por
su expresin cuando l k . Entonces
( )
( ) ( )
( )
( ) =

=
|
|
.
|

\
|

U
l k
U
l k SI
y y
f
N
f f
y y
f
N
f f
t

V
2
2
2
2
1
1
1
2
1 1
1
1
2
1

( )
( )

=
U
l k
y y
N f
f
2
1
1
2
1
(4.4.1)
Luego
( ) ( ) ( ) | | = =

U
U l U k
U
l k
y y y y y y
2 2
22
( ) ( ) ( )( ) | |= + =

U
U l U k U l U k
y y y y y y y y 2
2 2
( ) ( ) ( ) ( ) = = =

U
U k
U
U l U k
U
k
U
U k
y y y y y y y y
2 2
2 2 2
( ) ( )
2 2
1 2 1 2
U U
y
U
y
S N N S N = =

.
Por ltimo, sustituyendo en (4.4.1) se obtiene
( )
( )
( ) ( )
n
S
f N S N N
N f
f
t

V
U
U
y
y SI
2
2 2
1 1 2
1
1
2
1
=

como queramos demostrar.


De manera anloga puede verse
( ) ( )
n
S
f N t

S
y
2
2
1 =

.
OBS] Como ya habamos visto, para pasar de ( )

V a ( )

insesgado se sustituye
2
U
y
S por
2
S
y
S .
Luego, ( )
2 2
U S
y y SI
S S E = .(Ver EJERCICIO 2.8] Srndal, C. E., Swensson, B., and Wretman, J. H.
Model Assisted Survey Sampling (1992). New York: Springer-Verlag).
4.5. El diseo BE
El mecanismo de seleccin de la muestra secuencial de lista que resulta en un diseo BE se
instrumenta como sigue. Sean
N
, , ,
2 1
iid con
1
Unif(0,1), 0 < < 1 fijo, luego s k si
<
k
.
As { } N ..., , , k , : k s
k
2 1 = < =
Luego
l k U l , k
U k
kl
k
=
=
,
2


( )

= =
=
=
l k
l k
kl
si 1
si 0
2
2 2
OBS]
S
n es aleatorio, ( ) , N Bin n
S
.
Anotamos ( )
N
n
N n E n
s
= = = .
( ) ( )
2 2
1
1
1
1
k
U
k
U U
l k kl BE
S S
k k
y y y y t

V
y y t



|
.
|

\
|

= = =

= =

OBS] Al igual que en el SI podemos tratar de obtener una expresin alternativa que es ms
23
cmoda para algunos propsitos. Cuando analizamos el diseo SI usamos el hecho de que se
trataba de un diseo de tamao fijo pero, en este caso, ese camino no es viable. Aqu nos
conformaremos con hacer explcita la dependencia con la varianza poblacional de la variable de
inters,
2
U
y
S .
( ) ( ) = +
|
|
.
|

\
|

=
|
|
.
|

\
|

=
|
|
.
|

\
|

=

U
U U k
U
k k
U
BE
y N y N y y y t

V
2 2 2 2 2
1
1
1
1
1
1
( ) | |
2 2
1 1
1
U y
y N S N
U
+
|
|
.
|

\
|

=
OBS] La varianza depende de
2
U
y
S , lo que es razonable, pero tambin de la media poblacional.
A su vez
( )

|
|
.
|

\
|


=
|
|
.
|

\
|


=

S
k
S
k BE
y y t

2 2
1
1 1
1
1 1
ya que en la primera expresin paso de U a S y expando.
Anlogamente
( ) ( ) | |
2 2
1 1
1 1
S
y
BE
y n S n t

S

|
.
|

\
|
=

.
4.6. El efecto diseo, Deff
El diseo SI es frecuentemente tomado como punto de referencia frente a otras alternativas de
diseo muestral. Es el diseo ms sencillo de todos y como veremos, casi siempre menos
eficiente.
Cmo comparar la eficiencia entre distintos diseos?
Esto depende de distintos factores:
1. La distribucin de los valores de la variable de inters en la poblacin.
2. El parmetro que queremos estimar.
3. El estimador utilizado.
4. La disponibilidad de informacin auxiliar.
5. Si se especifica o no un modelo superpoblacional.
La medida de eficiencia entre diseos es el efecto diseo y lo anotamos como Deff.
DEF] Supongamos que p(s) es un diseo medible y que el tamao de muestra, fijo o esperado, es
n, o sea, ( ) n n E
s
= . En estas condiciones definimos el efecto del diseo de p(s) para estimar t con
el estimador

como
( ) ( )
( )
( )
( )

V
t

V
t

, s p Deff
SI
s p
= .
OBS] Como

es insesgado bajo cualquier diseo medible estamos evaluando la eficiencia


relativa del estimador

bajo los distintos diseos, o sea el cociente de los ( )

MSE .
24
EJEMPLO] Por ahora, el nico Deff que podemos calcular es el del diseo BE.
OBS] Si el diseo SI es realmente simple, el BE es an ms simple y menos eficiente, ya que
agrega una fuente de variabilidad adicional porque el tamao de muestra,
S
n , es aleatorio.
OBS] Para hacer justa la comparacin supongamos que el diseo BE se realiza con
N
n
= , donde
( ) ( )
S SI S BE
n E n E n = = .
Como vimos, ( ) ( ) | | ( ) | |= +
|
.
|

\
|
= +
|
.
|

\
|
=
2 2 2 2
1 1 1 1
1
U
y
U
y
BE
y N S N
n
N
y N S N t

V
U U

( )
n
S
N
CV
N
n N NS
S
y
N n
n N
U
U
U
U
U
y
y
y
y
2
2
2
2
2
1 1
1
1
1
|
|
|
.
|

\
|
+ =
|
|
|
.
|

\
|
+
|
.
|

\
|
=
y operando se tiene
( )
( )
( )
1
1
1
1 1
1
1
1 1
1
2 2 2 2
2
2
> + = + =

|
|
|
.
|

\
|
+
=
U U U
U
U
y y y
y
y
CV CV
N
S f N
NS
CV
N
n N
t

, BE Deff

As, el diseo SI es siempre ms eficiente que el BE cuando se quiere estimar un total y se usa el
estimador .
4.7. Sntesis
Resumiremos los resultados obtenidos hasta el momento ya que son bsicos y volveremos a ellos
continuamente.
Para estimar

=
U
k y
y t el principio de la expansin indica que debemos pasar de U a S y
expandir. Con esto se logra un estimador insesgado para cualquier diseo aleatorio, o sea si
U k ,
k
> 0 .

=

S k S
k
k
y
y
t


Luego
( )

=
l k U
kl
y y t

V

Para obtener un estimador insesgado de ( )

V , volvemos a aplicar el principio de la -expansin.


( )

=
l k S
kl
y y t


donde
kl
kl
kl

.
Este estimador de ( )

V es insesgado para cualquier diseo medible, o sea si U l , k ,


kl
> 0 .
25
Si el diseo es de tamao fijo n, podemos usar como expresin alternativa de ( )

V
( )

|
|
.
|

\
|
=

U l k kl
y y t

V
2
2
1

Luego, un estimador insesgado para la expresin anterior se obtiene aplicando el principio de
expansin, de forma que
( )

|
|
.
|

\
|
=

S l k
kl
y y t

2
2
1

OBS] Demostramos que si ( ) s p es de tamao fijo

|
|
.
|

\
|
=
U l k kl l k U
kl
y y y y
2
2
1

4.8. Intervalos de confianza
Sea { } N , , , U 2 1 = la poblacin de inters y ( )
N
y , , y , y
2 1
= un parmetro desconocido
sobre el que se desea hacer inferencia. Supongamos dado un diseo ( ) s p medible bien definido.
Llamamos intervalo aleatorio a un intervalo cuyos lmites inferior y superior vienen dados por
( ) S Q
INF
y ( ) S Q
SUP
, estadsticos (es decir variables aleatorias computables una vez observada la
muestra) que cumplen
( ) ( ) S s S Q S Q
SUP INF
Anotaremos ( ) ( ) ( ) | | S Q , S Q S CI
SUP INF
=
Llamamos nivel de confianza (o cobertura) del intervalo aleatorio para el parmetro al valor
1 1 0 < < tal que ( ) ( ) = 1 S CI P .
OBS] Si conociramos todos los
k
y y calculramos todas las muestras posibles, podramos
plantear S
o
el conjunto de todas las muestras tales que ( ) 0 > s p .
Definimos
oc o
*
oc
S S S =
donde
oc
S es el conjunto de todas las muestras para las cuales se cumple ( ) ( ) s Q s Q
SUP INF
< < , o
sea las muestras que generan intervalos que contienen el verdadero valor del parmetro.
As ( ) ( ) ( ) ( ) 1 1 = + = + =



*
oc oc o
s s s
s p s p s p
S S S
.
Para una muestra particular, la realizacin del intervalo aleatorio, ( ) ( ) | | s Q , s Q
SUP INF
se denomina
intervalo de confianza al (1-).
26
Interpretacin: Si se extraen muchas muestras se espera que una proporcin (1-) de ellas
contenga el verdadero valor del parmetro. Como observamos una sola muestra y se computa un
solo intervalo, no podemos hablar de probabilidad, sino ms bien de la confianza que nos inspira
dicho intervalo.
En la prctica se trabaja con intervalos aproximados. Sea ( ) s

=

un estimador puntual del


parmetro desconocido . Un intervalo aproximado para al nivel de confianza (1-) viene dado
por
( ) | |
2
1
2 1



V


con ( ) 2 1
2 1
=

z
donde ( ) es la fimcin de distribucin de una variable ( ) 1 0, N .
Este intervalo contendr el verdadero valor del parmetro en una proporcin (1-) de un
conjunto suficientemente grande de muestras extradas bajo el diseo ( ) s p si se cumplen las
siguientes condiciones:
1. La distribucin en el muestreo del estimador

es aproximadamente normal con media y


varianza ( )

V .
2. ( )

es un estimador consistente de ( )

V .
OBS] Lo expresado en el punto 1. es el equivalente a decir que es aplicable el Teorema Central
del Lmite. Lo escrito en 2. requiere una versin adaptada de la definicin de consistencia o
convergencia en probabilidad. Ambos puntos requieren adoptar una definicin para la expresin
" n " comnmente usada cuando se analizan las convergencias en ley y probabilidad. En el
caso de poblaciones finitas se trabaja con situaciones del tipo " n " cuando " N " o
N n .
Si se cumple 1. tenemos que ( ) ( )

V , N

d
, luego
( )
( ) 1 0, N

V
d


.
Si adems se cumple 2.
( )
( )
1
p

y luego se tiene
( )
( )
( ) ( )
( ) 1 0, N

V
d


.
OBS] La exactitud de la aproximacin Normal depende de la forma de la distribucin de los
valores
k
y en la poblacin. Cuanto ms parecida a una normal sea la distribucin de los
k
y ,
menores sern los tamaos de muestra requeridos para poder afirmar que

se distribuye
aproximadamente normal.
OBS] Cmo podemos asegurar que el procedimiento de clculo de intervalos de confianza
aproximado es vlido?
Tericamente: si aseguramos que 1 y 2 se cumplen. Hay resultados que aseguran la
normalidad asinttica bajo ciertos supuestos.
Validacin emprica: va simulacin de Monte Carlo. Se toma una serie grande de R
muestras (digamos 10.000) de una poblacin finita y conocida bajo el diseo de inters.
27
Para cada muestra se calculan

, ( )

y los intervalos de confianza que generan. Luego,


como U es conocida se calcula la proporcin de intervalos que contienen a . Si esta
proporcin es cercana a (1-) y la poblacin U es razonablemente parecida a la
desconocida se puede decir que la aplicacin del intervalo de confianza es vlida
empricamente.
EJEMPLO] Bajo el diseo SI

es consistente para
y
t , si se usa la siguiente definicin de
consistencia:

es consistente para bajo el diseo ( ) s p si U S = implica =

S
k
k
y
t

si 1 = = =
k
N n U S .
As,

= =

U
y k
t y t

.
EJERCICIO] Qu ocurre en el diseo BE?
28
5. MUESTREO CON REMPLAZO (MAS
C
/
R
)
Introduccin
Este tipo de muestreo (notemos que no estamos diciendo diseo) tiene valor tanto desde el punto
de vista prctico como terico. Bajo el MAS
c
/
r
se hace muy sencillo el clculo de algunos
estimadores y sus propiedades estadsticas suelen ser muy simples.
Mecanismo de seleccin
Dada una poblacin { } N , , , U 2 1 = se realizan m extracciones independientes y con reposicin
de los N elementos de U. En cada extraccin todos los elementos participan con la misma
probabilidad de ser seleccionados, N 1 .
OBS] Un elemento puede ser seleccionado ms de una vez.
Sea R
k
= Cantidad de veces que sale el elemento k en las m extracciones. R
k

Bin (m,
N
1
).
En este contexto, se tiene que
( ) ( ) ( ) ( )
m
k k k
N
R P R P R P k P
|
.
|

\
|
= = = < = =
1
1 1 0 1 1 1 1 extrado" sea elemento El " .
OBS] Notemos que el mecanismo de seleccin genera una sucesin de elementos de U ordenados
y con posibles repeticiones.
Sea k
i
= El elemento seleccionado en la i-sima extraccin, con i = 1, 2,..., m, y siendo m el
nmero de extracciones. Consideremos el vector de elementos extrados ( )
m
k , , k , k os
2 1
= , que
conserva el orden y admite elementos repetidos. Luego, el vector os no es un subconjunto de U,
con lo que no es una muestra. Al vector os lo denominaremos muestra ordenada.
OBS] El vector de elementos extrados ( )
m
k , , k , k os
2 1
= , induce una muestra. El tamao de la
muestra, s, inducida por os es aleatorio debido a las posibles repeticiones. Sin
embargo, ( ) 1 = m n P
S
.
5.1. El diseo ordenado (SIR)
La distribucin de probabilidades de las posibles muestras ordenadas, os, la anotamos como
( ) os p y lo llamaremos diseo ordenado, o simplemente SIR.
Ms formalmente, en el caso de MAS
c
/
r
con m extracciones tenemos que hay
m
N posibles
muestras ordenadas, as
( )

=
caso otro en 0
largo" " de es si
1
m os
N
os p
m
Notemos que cada muestra ordenada, os, determina una nica muestra, s, tal que
{ } m , , , i k k k s
i
2 1 algn para : = = =
29
con lo que se eliminan las repeticiones y se pierde el orden.
Si bien ( ) os p induce un diseo ( ) s p , ste es poco til y difcil de obtener. Sin embargo no es
difcil obtener
k
y
kl

( )
m
N
S k P
|
.
|

\
|
=
1
1 1
( ) U l k
N N
S l k P
m m

(
(

|
.
|

\
|
+ |
.
|

\
|
=
2
1
1
1 2 1 y
OBS] Estas dos ltimas expresiones se obtienen fcilmente recordando que ( ) ( ) A P A P =1 y
( ) ( ) ( ) ( ) ( ) ( ) | | B A P B P A P B A P B A P B A P + = = = 1 1 1
Es seductor pensar en un diseo ordenado que permita distintos probabilidades de seleccin por
elemento en cada una de las m extracciones independientes.
5.2. Diseo ordenado general
Mecanismo de seleccin
Sea { } N , , , U 2 1 = la poblacin objetivo y sean
N
p , p , p
2 1
valores positivos tales que

=
U
k
. p 1
Supongamos que se realizan m extracciones independientes y con reposicin de los N elementos
de U. Supongamos que en la extraccin i-sima la probabilidad de que el elmento k sea
seleccionado es p
k
m ..., , , i U k 2 1 y = .
Sea k
i
= El elemento seleccionado en la i-sima extraccin, i = 1, 2,..., m. La muestra ordenada
puede escribirse como ( )
m
k , , k , k os
2 1
= y luego
( ) ( ) | |
m
k k k m
p p p k , , k , k p os p
2 1
2 1
= =
dados los supuestos de independencia y de igualdad de las probabilidades de seleccin en cada
extraccin.
OBS] Nuevamente, en este caso general, ( ) os p induce un diseo ( ) s p complicado pero los
k
y
kl
tambin son fciles de obtener. Por ejemplo, la probabilidad de que el elemento k sea extrado
por lo menos una vez viene dada por
m
k k
) p ( = 1 1
OBS] Si m = 1, entonces
k k
p = . Si m > 1 y si
k
p es muy pequeo, entonces
k k
mp = .
30
5.3. El estimador del total bajo el diseo ordenado general
Sea
i
i
k
k
p
y
el valor de
i
k
y p expandido, donde el subndice en i indica la i-sima extraccin. Se
propone como estimador del total al promedio de los valores p expandidos en la muestra
ordenada, os, as

=
=
m
i ki
ki
pwr
p
y
m
t

1
1
Para analizar sus propiedades consideremos las variables
i
Z tales que
k
k
i
p
y
Z = si
m , , , i k k
i
2 1 = =
Notemos que para cada m , , , i 2 1 = se tiene que
( )
)
`

=
N
N
i
p
y
, ,
p
y
,
p
y
Z c Re
2
2
1
1
y
k
k
k
i
p
p
y
Z P =
|
|
.
|

\
|
=
As, las
i
Z son iid, ya que asignan las mismas probabilidades a los mismos valores de un mismo
recorrido y corresponden a extracciones independientes. Luego notemos que
( ) m ..., , , i t y p
p
y
Z E
U
y k k
U
k
k
i
2 1 = = = =

( ) m ..., , , i V p t
p
y
Z V
k
U
y
k
k
i
2 1
1
2
= =
|
|
.
|

\
|
=

O sea, estamos en las condiciones ms simples para hacer inferencia sobre la media poblacional
ya que
iid Z , , Z , Z
m

2 1
con ( )
y
t Z E =
1
y ( )
1 1
V Z V = .
Luego sabemos

=
=
m
i
i
Z
m
Z
1
1
es insesgado de ( )
y
t Z E =
1
y que ( )
( )
m
V
m
Z V
Z V
1 1
= = puede ser
estimado insesgadamente por ( )

=
m
i
i
Z Z
m
V

1
2
1
1
1
.
Lo que sigue es directo
pwr
m
i
ki
ki
m
i
i
t

p
y
m
Z
m
Z = = =

= = 1 1
1 1
( ) ( )
m
V
Z V t

V
pwr
1
= = ,
con
k
U
y
k
k
p t
p
y
V
2
1

|
|
.
|

\
|
= .
31
El estimador insesgado para la varianza viene dado por
( )
m
V

pwr
1
=
donde

=
|
|
.
|

\
|

=
m
i
pwr
ki
ki
t

p
y
m
V

1
2
1
1
1
es insesgado para estimar V
1
.
EJERCICIO] Probar que
pwr
t

es insesgado para estimar


y
t y que ( )
pwr
t

es insesgado de
( )
pwr
t

V
Sugerencia: recordar que si
m
Z , , Z , Z
2 1
son iid con ( ) ( )
2
1 1
= = Z V , Z E se tiene que

=
=
m
i
i
Z
m
Z
1
1
estima insesgadamente a y ( )
2
1
2
1
1

=
m
i
i z
Z Z
m
S estima insesgadamente a
2
.
5.4. El estimador
pwr
t

bajo el diseo SIR


En este caso tenemos U k
N
p
k
=
1
y estamos en un caso particular de los resultados
anteriores, as

= = =
= = = =
m
i
k
i
os
m
i
k
k
k
k
pwr
y N y
m
N
N
y
m p
y
m
t

i
i
i
i
1 1 1
1
1
1 1
( ) ( ) ( )
2 2 2
2
1
1
1
U
y
U
U k
U U
U k k
k
k
S N N y y N
N
y N y N p t
p
y
V = = =
|
|
.
|

\
|
=

( ) ( )
m
S
N N
m
V
t

V
U
y
pwr
2
1
1 = =
( )
2 2
2
1
2
1
1
1
1
1
1
os
i
i
i
y
m
i
os k
m
i
pwr
k
k
S N y N y N
m
t

p
y
m
V

=
|
|
.
|

\
|

=

= =
( )
m
S
N t

os
y
pwr
2
2
=
OBS] Si queremos estimar
N
t
y
U
= usamos como estimador
N
t

y
pwr
U
=

( ) ( )
( )
m
S
N
S
Nm
N
S N N
m
N
V
m
N
t

V
N
N
t

V y V
os
U U
y
y y
pwr
pwr
U
2
2 2
2
1
2 2
1
1
1
1
1 1 1 1 1
|
.
|

\
|
=

= = = =
|
|
.
|

\
|
=
|
|
.
|

\
|

( )
m
S
m
S
N
N
t

N
N
t

y V

os os
y y
pwr
pwr
U
2 2
2
2 2
1 1
= = =
|
|
.
|

\
|
=
|
|
.
|

\
|

32
OBS] Este es el caso familiar de
m
X , , X , X
2 1
iid, ( ) = X E , ( )
2
= X V . Luegolos resultados
que siguen son conocidos, ( ) ( )
m
S
V
m
V X
2 ' 2

y , = = =

.
OBS] Podemos utilizar otros estimadores del total basados en s y no en os.
En primer lugar

|
.
|

\
|

=

= =

S S m
k
k
k
S
k
N
y y
y t

1
1 1

O sea, el estimador para el que contamos con expresiones para la varianza y el estimador de la
varianza dados por la frmula general.
OBS] Para 2 m no tiene por qu coincidir con
pwr
t

. El estimador

, por ser tal, es insesgado


para el total y no se puede concluir sobre si tiene menor varianza o no que el
pwr
t

, depende de los
valores
k
y en U, que son desconocidos.
Otra alternativa es

= =
S
k
S
S alt
y
n
N
y N t

que tambin es aproximadamente insesgado para t, pero tiene tamao de muestra


S
n que es
aleatorio como divisor. En general,
alt
t

, tiene menor varianza que


pwr
t

. Esto recin
estaremos en condiciones de analizarlo cuando veamos una forma para calcular,
aproximadamente, varianzas de cocientes de variables aleatorias ya que en
alt
t

hay un cociente de
cantidades aleatorias.
OBS] A pesar de no ser un Deff tiene inters calcular el cociente
( )
( )

V
t

V
SI
pwr SIR
Recordando que
( ) ( )
m
S
N N t

V
U
y
pwr SIR
2
1 = y ( ) ( )
n
S
f N t

V
U
y
SI
2
2
1 =

. Luego, suponiendo m = n se tiene


( )
( )
( )
( )
f f N
N
n
S
f N
m
S
N N
t

V
t

V
U
U
y
y
SI
pwr SIR

1
1
1
1 1
1
1
2
2
2
.
As, si f es pequeo, el cociente anterior es casi nulo, mientras que si f es por ejemplo 0,5, el
diseo SI y el estimador son 2 veces ms eficientes que el diseo ordenado y el estimador
pwr
t

.
OBS] Es fcil ver que ( ) 0 =
pwr
t

V , si los
k
y cumplen que . N , , k cp y
k k
1 = =
En otras palabras, el estimador
pwr
t

tiene varianza nula si los


k
p son elegidos proporcionales al
33
tamao de la variable y. En esas circunstancias

= = = =
U U
k k
U
k
c p c cp y t

= =
= = =
m
i
m
i k
k
pwr
c c
m p
y
m
t

i
i
1 1
1 1
( ) ( ) 0
1 1
2
2
1
= =
|
|
.
|

\
|
= =

U
k k
U
k
k
pwr
p c c
m
p t
p
y
m m
V
t

V
En la prctica no es posible elegir los
k
p proporcionales a los valores de
k
y , ya que stos son
desconocidos.
No obstante, los
k
p pueden elegirse de manera aproximadamente proporcional a los valores
desconocidos,
k
y .
Si tenemos informacin sobre una variable auxiliar
k
x , positiva, conocida U k y que cumpla
U k
x
y
k
k
= , podemos hacer
k k
k
y
k
U
k
k
U
k
k
k
cp y
c
y
t
y
y
y
x
x
p = = =

= =


y el procedimiento asegura ( ) 0 =
pwr
t

V .
Esta aplicacin particular del muestreo con remplazo es llamada muestreo con probabilidad
proporcional al tamao o muestreo pps que desarrollaremos ms adelante.
34
6. DETERMINACIN DEL TAMAO DE LA MUESTRA
Dado un diseo medible, buscamos un tamao de muestra (o un tamao de muestra esperado, en
caso de que sea aleatorio) tal que para una precisin dada, 0 > , y un nivel de confianza dado,
1 0 < < , nos permita plantear
( ) = <

1
y
t t

P ( ) ( ) = |
.
|

\
|
+ < <

1
2 1 2 1
t

z t

t t

z t

P
y
.
Si se cumple la condicin 1 tenemos que
( )
( )
( ) 1 0, N
t

V
t t
a
s p
y

con lo que
( ) = <

1
y
t t

P
( ) ( )
=
|
|
.
|

\
|

<

1
t

V t

V
t t

P
y
.
Si
( )
2 1

z
t

V
( )

= t

V z
2 2
, donde y estn fijos y en general ( )

V depende de
n y de
2
U
y
S .
Luego, si se conoce o se dispone de una buena aproximacin para
2
U
y
S podemos despejar n.
OBS] Si disminuimos , reducimos la amplitud del intervalo con lo que reducimos la confianza, o
sea aumentamos .
EJEMPLO] Diseo SI
En general, como vimos ( )

= t

V z
2 2
.
OBS] Como vimos en el diseo SI se tiene ( ) ( )
n
S
f N t

V
U
y
2
2
1 =

con lo que para N grande


se tiene ( ) 1 1 = f y la reduccin de la varianza del estimador , por aumentar el tamao de
muestra, n, prcticamente slo depende del tamao de muestra absoluto.
( ) =
n
S
f N z
U
y
2
2 2 2
1
2 2 2
2 2 2
U
U
y
y
NS z
S N z
n
+
=
EJEMPLO] Diseo BE
Llamemos ( )
S
n E n = y hagamos
N
n
= .
As,
|
.
|

\
|

=
U k
y z
2 2 2
1
1

+
=
U k
U k
y z
y N z
n
2 2 2
2 2
.
Tambin, como ( )
2
2
2 2 2
1 1
1 1
U
U
U
y
y
y
U k
NS
CV
N
y N S N y
(
(
(

+ = + =

35
podemos poner
2 2 2
2 2 2
U
U
y
y
S . k . N z
S . k N z
n
+
=

con
2
1 1
1
U
y
CV
N
k + = .
En el SIR con m extracciones y usando
pwr
t

.
( )
m
S
N N z
U
y
2
2 2
1 =
( )
2
2 2 2
2
2 2
1

=
U U
y y
S N z S N N z
m .
En la prctica
2
U
y
S es desconocido, pero podemos tener alguna idea aproximada de su valor.
Dependiendo de qu tipo de distribucin se presuma para los valores de
k
y en la poblacin
podemos buscar una cota para
2
U
y
S . Por ejemplo, si
k
y es una indicadora tenemos
4 1 0
2

U
y
S .
1. Si la distribucin de los
k
y en U es aproximadamente Normal y tenemos alguna idea del rango
de variacin de los
k
y , podemos suponer { } 6 min max =
U
y
S para un 01 0. = .
2. Uso de datos de algn relevamiento reciente o datos de alguna variable auxiliar para la que se
puede suponer una variabilidad similar. En estos casos suele utilizarse el CV (que suele ser
ms estable que la varianza) de una variable auxiliar o de la propia variable de inters de algn
relevamiento anterior para aproximar el
U
y
y
y
S
CV
U
U
= . Luego se fija una precisin relativa y se
determina el valor de n.
( ) = <

1 t t t

P
( )
2 1

z
t

V
t
( )
t
t

V
z


=
2 1
.
En el caso particular del diseo SI, lo anterior implica que debemos elegir el tamao de
muestra de forma tal que
N n
CV z
U
y
1 1
2 1
=

.
3. Tomar una muestra de iluminacin: se toma una muestra chica, se estima
2
U
y
S y con esa
estimacin se determina el n deseado para y fijos, y luego se completa la muestra.
36
Estimacin insesgada bajo muestreo directo de elementos
Comenzamos el anlisis de algunos de los diseos ms comunes bajo el supuesto de que estamos
en condiciones de realizar muestreo directo de elementos. Esto ltimo requiere que se cumplan
dos condiciones: i) existe un marco que identifica a cada uno de los elementos de la poblacin y
ii) en el procedimiento de seleccin las unidades de muestreo son propiamente los elementos de la
poblacin. O sea, identifico y localizo perfectamente, tenemos un marco perfecto.
El parmetro sobre el que principalmente recae nuestro inters es total poblacional de una variable
y,

=
U
k y
y t .
Para cualquier diseo aleatorio, usamos el estimador para t,


= =

s
k
k
s
k
y
y t


. Tambin
analizaremos el estimador

=
=
m
i
i
k
i
k
pwr
p
y
m
t

1
1
bajo el SIR un diseo ordenado general cualquiera.
Adicionalmente, en algunas ocasiones, analizaremos algn
alt
t

.
Para cada diseo se presentar el estimador, la varianza del estimador y un estimador insesgado de
la varianza del estimador. Siempre son aplicables los principios de la expansin usando los
k
y
los
kl
apropiados de cada diseo (siempre y cuando sea un diseo medible).
37
7. DISEO BE
El diseo BE se caracteriza por el hecho de que las variables indicadoras
k
I son iid ( ) Ber .
Dada una poblacin { } N , , , U 2 1 = , el mecanismo de seleccin consiste en tomar
N
, , ,
2 1
iid Unif (0,1), luego, el elemento S k si <
k
. As
{ } N ..., , , k , : k S
k
2 1 = < =
( ) ( ) U k P S k P
k k
= < = =
( ) U l k S l k P
kl
= =
2
y
( )

= =
=
= =
l k
l k
l k kl kl
si 1
0
2
El tamao de muestra,
s
n es aleatorio,
s
n ( ) , N Bin
Si
s
n es el tamao de muestra tenemos ( ) ( )
s s
n N n
s p

= 1
s
n s tamao de donde
N , , , , n
s
2 1 0 =
RESULTADO]
1
Bajo el diseo BE, el estimador del total poblacional,

=
U
k y
y t , toma la
forma

S
k
y t

1
Su varianza viene dada por
( ) ( )
(

+ = |
.
|

\
|


2
2
2 2
1
1 1 1
1
U
U
y
y
U k
BE
CV
N n
S
f N y t

V
El estimador , insesgado para esta varianza
( )
|
.
|

\
|


=

S k
BE
y t

2
1
1 1
OBS] El estimador es casi siempre menos eficiente en el diseo BE que en el SI. Si hacemos
= N n , o sea, cosideramos n
S
en su valor esperado tenemos que
( )
( )
( )
1
1
1
1 1
1
1
1
1 1
2 2 2
2
2
2
2
> + = + =

+
=

U U U
U
U
y y y
y
y
CV CV
N
n
S
f N
CV
N n
S
f N
t

, BE Deff

1
Corrresponde al Resultado 3.2.1 en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag)
38
donde
U
y
y
y
S
CV
U
U
= .
OBS] Bajo el diseo BE podemos usar un estimador alternativo para

=
U
k
y t

= = = t

n
n
y
n
N
y N t

s
s
k
s
s alt
donde fijamos ( ) = = N n E n
s
.
OBS] Notemos que

= =

n
N
U
1 . Luego, N
N

n
n
t

n
n
t

s s
alt

=

= = .
En definitiva,
alt
t

es el estimador

corregido por el cociente N

N , donde N

es el estimador
de N. As, cuando N

subestime N tenemos que N N

< 1 > N

N y
alt
t

corrige al alza a

. Si
por el contrario, N

sobrestima a N, N N

> 1 < N

N y
alt
t

corrige

a la baja.
En otras palabras, el estimador
alt
t

evala el desempeo de N

para estimar N y segn esto corrige


a

.
Ms adelante analizaremos las propiedades de
alt
t

y le llamaremos estimador de razn de


y
t .
Actualmente, la dificultad que enfrentamos para analizar su sesgo y varianza es que
alt
t

es el
cociente de dos elementos aleatorios. Sin embargo, adelantamos el resultado que obtendremos
ms adelante
( )
y alt BE
t t

E =
o sea,
alt
t

es aproximadamente insesgado. Adems


( )
2
1
1
U
y
alt BE
S N t

V
|
.
|

\
|

=
luego, considerando N n = , se tiene
( ) ( ) ( )

V
n
S
f N t

V
SI
y
alt BE
U
= =
2
2
1
y el estimador
alt
t

, bajo un diseo BE es aproximadamente tan eficiente como el Estimador

bajo el SI, o sea


( )
( )
1 =


alt BE
BE
t

V
t

V
.
La discusin anterior ilustra un hecho importante. Aunque el estimador tiene un excelente
desempeo en diseos de tamao de muestra fijo, parece estar sujeto a una penalizacin en su
varianza cuando el diseo es de tamao de muestra aleatorio.
No obstante, lo anterior no es un motivo para evitar los diseos de tamao aleatorio, ya que como
vimos, una eleccin apropiada de un estimador alternativo al puede conducir a prcticamente
eliminar la penalizacin en la varianza debido a la aleatoriedad del tamao muestral.
39
De cualquier manera, hay otros aspectos debidos a la prdida de control sobre el tamao de
muestra que deben ser tenidos en cuenta, por ejemplo, la variabilidad en el costo de relevamiento.
OBS] Aunque es razonable evitar los diseos con gran variabilidad en el tamao de muestra, en la
prctica, el confort en los diseos de tamao fijo es relativo. Para ilustrar lo anterior mencionemos
dos situaciones de relevancia prctica en el que el nmero observaciones es aleatorio: i) la no
respuesta y ii) la estimacin en dominios, donde el nmero de individuos pertenecientes a una
subpoblacin en la muestra ser aleatorio.
40
8. MUESTREO ALEATORIO SIMPLE
El diseo BE pertenece a la categora de diseos con probabilidades de inclusin de primer orden
constantes. El SI y el diseo inducido por el SIR comparten esta caracterstica, generan valores de
k
constantes U k .
8.1. El diseo SI o MAS
s
/
r
.
Mecanismo de seleccin
Bajo el diseo SI se extraen sin reponer un nmero fijo, n, de los N elementos de U, de forma que
todos los elementos tienen la misma probabilidad de ser seleccionados.
Este mecanismo de seleccin se puede instrumentar con un esquema del tipo de seleccin
secuencial
El primer elemento se extrae con probabilidad
N
1
,
el segundo se extrae con probabilidad
1
1
N
,

el n-simo se extrae con probabilidad


1
1
+ n N
.
Este diseo tambin puede instrumentarse con un mecanismo del tipo de seleccin secuencial de
lista. Dada { } N , , , U 2 1 = se toman
N
, , ,
2 1
iid Uni(0,1), luego el elemento k es
seleccionado si
1 +

<
k N
n n
k
k
donde
k
n es el nmero de elementos seleccionados entre los primeros k-1 elementos ( 0
0
= n ). El
procedimiento termina cuando n n
k
= .
EJERCICIO] Demostrar que los dos mecanismos llevan a ( )

=
caso otro en 0
tamao de es si
1
n s
C
s p
N
n
Como ya vimos, para el diseo SI se obtiene
( ) U k f
N
n
S k P
k
= = =
( )
( )
( )
U l k
N N
n n
S l k P
kl

= =
1
1
y
41
( ) ( )
( )
U l k
N N
n N n
N
f f
l k kl kl

= =
1
1
1
2
Veamos la forma particular que adopta el estimador para la estimacin de algunos parmetros
usuales.
CASO 1] Estimacin de un total poblacional,

=
U
k y
y t .
RESULTADO]
2
Bajo el diseo SI el estimador de un total poblacional puede escribirse como
s
S
k
S
k
k
S
k
y N y
f
y y t

= =

= =

1 1

La varianza del estimador


( ) ( )
n
S
f N t

V
U
y
SI
2
2
1 =

El estimador de la varianza del estimador


( ) ( )
n
S
f N t

S
y
SI
2
2
1 =

.
CASO 2] Estimacin de la media poblacional

= =
U
k
U
N
y
N
t
y .
Los resultados para el estimador, su varianza y un estimador de la varianza son directos, alcanza
con dividir por N para el estimador y
2
N para la varianza y el estimador de la varianza. As, se
obtiene el
RESULTADO]
3
El estimador de la media poblacional su varianza y el estimador de sta vienen
dados por
( ) ( )
( ) ( )
n
S
f y V

n
S
f y V
y
n
y
N
t

S
U
y
s SI
y
s SI
s
S
k
2
2
1
1
=
=
= = =

CASO 3] Estimacin en dominios (subpoblaciones)


En la mayora de las encuestas por muestreo se requiere resultados no slo para la poblacin total,
sino que tambin para subconjuntos especficos de la poblacin, subpoblaciones, que

2
Corrresponde al Resultado 3.3.1.
3
Corrresponde al Resultado 3.3.2.
42
denominaremos dominios.
Analicemos algunos resultados importantes usando el estimador bajo el diseo SI.
NOT] Con
d
U se anotar cualquier subconjunto (dominio) de la poblacin de inters. El nmero
de elementos en
d
U lo anotaremos
d
N .
OBS] U U
d

Sea N N P
d d
= el tamao relativo de
d
U . Suponemos N conocido y
d
N desconocido.
CASO 3.1] Estimacin del tamao absoluto y relativo del dominio
d
U .
La estimacin de
d
N y N N P
d d
= pueden verse, respectivamente, como un caso particular de la
estimacin de un total y una media poblacional.
Sea
dk
z tal que

=
d
d
dk
U k
U k
z
si 0
si 1
Luego
Zd
U
d dk
t N z = =

y
d
U
dk d Zd
dU
P
N
z
N
N
N
t
z = = = =

.
As, los resultados anteriores son aplicables directamente.
EJERCICIO ] Anotando
d d
d
d
S
dk d d d
p q
n
n
p z n P Q = = = =

1 , , , 1 , mostrar que
d d Z
d d Z
q p
n
n
S
Q P
N
N
S
dS
dU
1
1
2
2

=

=
EJERCICIO] Demostrar el siguiente RESULTADO]
4
d d
p N N

=
( )
( ) ( )
1
1
1
2
2

=
|
.
|

\
|

=
n
q p
f N N

n
Q P
N
n N
N N

V
d d
d SI
d d
d SI
Adems
d d
p P

=

4
Corresponde al Resultado 3.3.3.
43
( )
( ) ( )
1
1
1

=
|
.
|

\
|

=
n
q p
f P

n
Q P
N
n N
P

V
d d
d SI
d d
d SI
44
CASO 3.2] Estimacin de un total y una media en un dominio
d
U , o sea,

=
d
U
k d
y t .
Sea

=
d
d k
dk
U k
U k y
y
si 0
si
Tenemos entonces que

= =
U
dk
U
k d
y y t
d
, con lo que podemos aplicar los resultados
generales para la estimacin de un total poblacional bajo el SI.
EJERCICIO] Demostrar que

= = =

d d
S
k
S
k
S
dk
S
k
dk
d
y y
n
N
y
n
N y
t


donde S U S
d d
= , o sea, el subconjunto de la muestra que contiene elementos de
d
U .
Adems
( ) ( )
2 2
1
dU
y
d SI
S f N t

V =

( ) ( )
2 2
1
dS
y
d SI
S f N t

donde ( )
2 2
1
1

=
U
dU dk
y
y y
N
S
dU
y ( )
2 2
1
1

=
S
dS dk
y
y y
n
S
dS
.
OBS] En general,
d
N es desconocido. Si se conoce, puede usarse un estimador alternativo
d
d
S d
S
d
k
d alt , d
y N
n
y
N t

=
|
|
.
|

\
|
=

con
d
n tamao de
d
S (que esaleatorio). Pese a esto, en general, ( ) ( )

<
d SI alt , d SI
t

V t

V .
Para estimar la media del dominio
d
d
U
N
t
y
d
= , podemos usar el estimador de
d
t dividido
d
N , esto
es

=
d
d
S
k
d
U
y
nN
N
y

.
Este estimador no puede ser usado si
d
N es desconocido. Ms an, un mejor estimador de
d
U
y , (aunque an no estamos en condiciones de evaluarlo) tanto si
d
N es conocido como si no lo
es, se obtiene dividiendo a
d
t

por
d
N

, donde
d
S
k
S
k
dk
d
n
n
N z
N

d
=

1
.
Esto es
d
d
d
S
S
k
d
U
y y
n N
n
n
N
y

= =

1
.
45
OBS] La intuicin detrs de lo anterior es clara, el estimador de la media de la variable y en
d
U es
la media muestral de y en
d
S .
OBS] Nuevamente, no podemos calcular ni el sesgo ni la varianza por la doble aleatoriedad.
46
8.2. El diseo ordenado SIR
Mecanismo de seleccin
De la poblacin { } N , , , U 2 1 = se extraen de manera independiente y con reposicin m
elementos. En cada extraccin, cada uno de los N elementos tiene la misma probabilidad de ser
seleccionado,
N
1
.
El diseo ordenado SIR puede instrumentarse fcilmente con un esquema de extraccin
secuencial.
Sea la muestra ordenada ( )
m
k , , k , k os
2 1
= , donde
i
k es el elemento que se selecciona en la i-
sima extraccin.
As, el diseo ordenado queda ( )


=
caso otro en 0
largo de
1
m os
N
os p
m
El siguiente resultado ya fue obtenido y queda como ejercicio repasar su demostracin.
RESULTADO]
5
Bajo el diseo ordenado SIR un estimador para el total
y
t es

=
= =
m
i
os
k
pwr
y N
N
y
m
t

i
1
1
1
.
Su varianza y un estimador insesgado de la misma
( ) ( )
m
S
N N t

V
U
y
pwr SIR
2
1 =
( )
m
S
N t

OS
y
pwr SIR
2
2
= , donde ( )
2
1
2
1
1

=
m
i
OS k y
y y
m
S
i OS
.
OBS]
( )
( ) f n N
N
N t V
t V
SI
pwr SIR

=
|
.
|

\
|

|
.
|

\
|
=
1
1 1
1

.

5
Corresponde al Resultado 3.3.4.
47
9. DISEO SISTEMTICO (SY)
9.1. Forma bsica
Dada { } N , , , U 2 1 = consideremos a , fijo, llamado intervalo de muestreo y sea
c na N
a
N
n + =
(

= , donde a c < 0 (donde | | significa parte entera).


Sea r una variable aleatoria uniforme discreta en 1, 2, ..., a, r Uni(1, 2,..., a), llamada arranque
aleatorio. Una vez que se observa un valor de r la muestra queda conformada por
( ) { }
S
n , , , j , N a j r k : k S 2 1 1 = + = =
donde
S
n es el tamao de muestra, aleatorio

<
< +
=
a r n
c r n
n
S
c si
0 si 1
c a c
1 a 2a . . . ... (n-1)a na N
( ) ( )
( ) ( )
a
c
c r P n n P
a
c
c r P n n P
S
S
= > = =
= = + =
1
1
EJEMPLO] Supongamos que N = 52 y a = 6, as, n = [52/6] = 8 y c = 4. Entonces
si 3
0
= r { } 51 45 39 33 27 21 15 9 3 , , , , , , , , s = y 9 =
S
n
si 5
0
= r { } 47 41 35 29 23 17 11 5 , , , , , , , s = y 8 =
S
n
OBS] El conjunto de las muestras posibles viene dado por { }
a r SY
S , , S , , S , S
2 1
= S
donde ( ) { }
S r
n , , , j , N a j r k k S 2 1 1 : = + = = con a , , , r 2 1 = .
OBS] j i S S
j i
= y U S
i
a
i
=
=1
.
El nmero de elementos (muestras posibles) en
SY
S es muy chico si se piensa en relacin al
nmero de muestras posibles que se tiene en los otros diseos que conocemos. Por ejemplo, en el
SI con N = 52 y n= 9 tenemos
9 52
9
10 68 3 400 075 679 3 = = , . . . C muestras posibles. Por su parte,
en el diseo BE tenemos que las muestras posibles son
15 52
10 5 4 2 2 = = ,
N
.
48
9.2. El diseo SY
Como vimos, hay a posibles muestras y cada una de ellas tiene la misma probabilidad de ser
seleccionada, a 1 . As
( )


=

caso otro en 0
si
1
SY
s a
s p
S
y esto lleva a
( ) U k a S k P
k
= =
1
( )


= =

caso otro en 0
y si
y
1
SY r
kl
S l k a
S l k P
S
OBS] No es un diseo medible ya que no se cumple con U l , k
kl
> 0 . Luego no tendremos
estimadores insesgados para la ( )

V .
OBS] Es til representar la poblacin ordenada segn las distintas muestras posibles.
Suponiendo, sin perder generalidad, a n N = podemos escribir
Muestra S
1
........... S
r
........... S
a
y
1
........... y
r
........... y
a
y
1+a
........... y
r+a
........... y
2a
........... ........... ........... ........... ...........
U
y
1+ (n-1)a
........... y
r+(n-1)a
........... y
na
Total
1
S
t
...........
Sr
t
...........
Sa
t
Media
1
S
y ...........
Sr
y ...........
Sa
y
OBS] Suponer a n N = implica que
SY S
s n n S = y el tamao de muestra es fijo. Este
supuesto esta implcito en buena parte del desarrollo que sigue.
Como ya dijimos, U S
r
a
r
=
=1
y j i S S
j i
= .
El total de la variable y puede escribirse como

=
= =
U
a
r
Sr k
t y t
1
con

=
Sr
k Sr
y t .
Se define

= =
= = =
a
r
a
r
Sr
k Sr
y
a
t
a a
t
t
1 1
1 1
o sea, t es el total promedio en las distintas muestras.
9.3. El estimador del total poblacional
Dado el intervalo de muestreo, a, quedan determinados los
k
, luego
S S
S
k
k
S
y N t a y a y t

= = = =


OBS] Podemos pensar que tenemos una poblacin { } a , , r , , , U
t
2 1 = con la variable de inters
49
Sa S S
t , , t , t
2 1
y queremos estimar

=
Ut
Sr
t t . Luego, tomamos una muestra bajo un diseo SI con
n = 1. As
S
S
S t a
a
t
t t

= = =

.
En otras palabras, si pensamos que tomamos una muestra de tamao n = 1 y un diseo SI para la
poblacin de totales muestrales,
Sr
t , el estimador del total para esta poblacin (que ser el
estimador del total de U) es el valor observado expandido por el inverso de su probabilidad de se
seleccionado,
S
t a .
OBS] Recordemos que

es insesgado para estimar t siempre que el diseo sea aleatorio.


( ) ( ) ( ) ( ) ( )
y
U
k
U
k k
U
k
U
k k
S
k S SY SY
t y y
a
a y I E a y I aE y aE t a E t

E

= = = = = = =

1
OBS] Tambin podemos pensar en los valores que asume

a lo largo de todas las muestras, en el


diseo SY esto es sencillo ya que a
SY
= #S , u nmero relativamente pequeo de muestras
posibles.
( ) { }
a S S S
t a , , t a , t a t

c Re
2 1
=

( ) a , , , r
a
at t

P
Sr
2 1
1
= = =

Luego
( )
y
a
r
Sr
a
r
Sr
t t
a
t a t

E

= =

= = =
1 1
1
( ) ( ) =

= =

U
l
l
k
k
l k kl
U
l k kl SY
y y
y y t

|
|
.
|

\
|

U U
l k l k
l k
kl
y y y y (9.3.1)
Como 0 =
kl
, si k y l no pertenecen a la misma muestra tenemos que la doble suma

U
puede sustituirse por ( )

=
a
r
Sr
1
, entonces, (9.3.1) puede escribirse como
( ) | | ( ) ( ) = = = =

= = =

2 2
1
2 2
1
2 2
1
t a t a t y a y y ay t

V
a
r
Sr
a
r
Sr
k
U
k
a
r
Sr
l k SY
( )

= =
=
|
|
.
|

\
|

a
r
Sr
a
r
Sr
t t a t a t a
1
2 2
1
2
50
OBS] De otra manera
( ) { }
a S S S
t a , , t a , t a t

c Re
2 1
=

( ) a , , , r
a
at t

P
Sr
2 1
1
= = =

Luego
( ) ( ) ( ) ( ) ( )

= = =

= = = =
a
r
t Sr
a
r
Sr
a
r
Sr SY
S a a t t a
a
t a t a
a
t t a t

V
1
2 2
1
2
1
2
1
1 1
con ( )

=
a
r
Sr t
t t
a
S
1
2 2
1
1
.
OBS] Como 0 >
kl
no se cumple para todo k y l, no existe un estimador insesgado de la varinaza
del estimador . Se puede calcular


S l k
kl
y y

, ya que para una muestra dada, 0
1
> =
a
kl
,
pero no se puede demostrar que sea insesgado. Otra forma de ver que el diseo SY no existe un
estimador para la varianza del estimador del total que sea insesgado, es pensndolo como un
diseo SI de
t
U de tamao n =1, luego, con una nica observacin, no es posible estimar una
varianza.
OBS] En el caso extremo de que todas las muestras posibles tengan el mismo total, es decir
a
t
t t t
a
s s s
= = = =
2 1
, se tiene que ( ) 0 =

V
SY
.
CONCLUSIN] La varianza del estimador en el diseo SY depende de cmo ordene la
poblacin.
Por lo anterior, hay que analizar la varianza del estimador en funcin de cmo se ordene la
poblacin, o sea, segn cules sean las posibles muestras.
En lo que sigue se busca obtener una expresin alternativa til para la varianza del estimador
bajo el diseo SY. Seguimos suponiendo, por comodidad, que na N = , o sea que todas las
posibles muestras son de tamao n.
( ) ( ) = |
.
|

\
|
= =

= =

a
r
a
r
Sr Sr SY
a
t
y n a t t a t

V
1 1
2
2
( ) ( ) SSB N y y Nn y y
a
N
y
a
N
y
a
N
a
a
r
U Sr
a
r
U Sr
a
r
U Sr
= = =
|
.
|

\
|


= = = 1
2
1
2
1
2
2
donde ( ) SSB y y n
a
r
U Sr
=

=1
2
que se denomina suma de cuadrados entre grupos. Las razones de
esta denominacin quedaran claras ms adelante.
51
Descomposicin de la variacin total
Supongamos que la poblacin { } N , , , U 2 1 = se encuentra particionada en a grupos de tamao
n, { }
a
S , , S , S
2 1
. Luego
( ) ( ) ( ) ( ) | | { }= + = =

= =
a
r
Sr
U Sr Sr k
a
r
Sr
U k
U
U k
y y y y y y y y
1
2
1
2 2
( ) ( )( ) ( ) { }

=
+ +
a
r
Sr Sr Sr
U Sr U Sr Sr k Sr k
y y y y y y y y
1
2
2
2 (9.3.2)
Como ( )( ) ( ) ( )

= =
Sr
Sr k U Sr
Sr
U Sr Sr k
y y y y y y y y 0, resulta que (9.3.2) puede escribirse
( ) ( ) { } ( ) ( )

= = =
+ = +
a
r
a
r
U Sr
Sr
Sr k
a
r
Sr Sr
U Sr Sr k
y y n y y y y y y
1 1
2 2
1
2 2
As tenemos que
( ) ( ) ( )

= =
+ =
U
a
r
a
r
U Sr
Sr
Sr k U k
y y n y y y y
1 1
2 2 2
SSB SSW SST + =
donde SST es la suma de cuadrados totales variacin total, SSW es la suma de cuadrados dentro
variacin dentro de los grupos y SSB es la suma de cuadrados entre variacin entre los grupos.
OBS] Como SST es fija tenemos que un aumento en SSW implica una disminucin en SSB.
OBS] Como vimos anteriormente, ( ) SSB N t

V
SY
=

Luego, si logramos aumentar SSW tendremos que ( ) SSB N t

V
SY
=

disminuir. En otras
palabras, conviene que cada una de las muestras posibles sean muy heterogneas de forma de que
SSW sea grande. O sea, que cada una de las posibles muestras tengan de cada pueblo un
paisano.
EJEMPLO] Supongamos los siguientes ordenamientos para la poblacin U de tamao N =100 y el
parmetro poblacional es
{ } 10 10, 10, 10, 10, 10, 10, 10, 10,10, ...., 3, 3, ..., 3, 3, 2, ..., 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, = Fy
Muestra S
1
S
2
........... S
10
1 1 1
2 2 2
... ... ...
U
10 10 10
Total 55 55 55
Media 5.5 5.5 5.5
52
Muestra Muestras
posibles
S
1
S
2
........... S
10
U 1 2 10
1 2 10
... ... ...
U
1 2 10
Total Totales
muestrales
10 20 100
Media Medias
muestrales
1 2 10
Como ya sabemos, el estimador del total es insesgado, pero mientras que en el primer
ordenamiento se tiene que 10 ..., 2, 1, 550 55 10 = = = = =

r s t at t

r S
y por lo tanto
( ) 0 =

V , en el segundo ordenamiento se tiene ( ) 500 82. t

V =

.
Medida de homogeneidad entre (crupos,clases clustres) muestras
SST
SSW
a N
N

=
1
1 .
Definamos la varianza intramuestra como
a N
SSW
S
W
y

=
2
y siendo
1
2

=
N
SST
S
U
y
tenemos que el
coeficiente anterior puede escribirse como
2
2
1
U
W
y
y
S
S
= .
OBS] es el
2
C
R de regresar los
k
y sobre a variables que indican la pertenecia a cada una de las
muestras posibles
r
S
6
. O sea, a ..., , , r
S k
S k
r
r
rk
2 1
si 0
si 1
=

= I
En funcin de lo anterior se puede analizar como varan SSW y SSB segn los valores que asuma
el coeficiente
1. Si 0 0 1
2
= = = SSW S
W
y
. Los grupos son lo ms homogneos posible y la ( )

V
SY
es
la mayor posible.
2. Si
2 2
0
U W
y y
S S = = .
3. Si 0
1
= =

= SSB SST SSW


a N
a
. Los grupos son lo ms heterogneos posible y la
( )

V
SY
es nula.
OBS] O sea, lo ideal en trminos de la eficiencia del estimador , es que el modelo de regresin
tenga un ajuste pobre, o sea, un
2
C
R bajo.

6
La prueba se detalla en la seccin 9.1.
53
OBS] Con un intervalo de muestreo dado, a < N, slo es posible lograr un ordenamiento de la
poblacin que genere 0 = SSB , si la variable en la poblacin solo toma a valores distintos como
en el ejemplo visto.
9.4. El efecto diseo
Como previo, veamos una forma alternativa de escribir la varianza del estimador . Bajo el diseo
SY con na N = se obtiene que
( ) ( ) ( ) | | + =

1 1
2
2
n f S
n
N
t

V
U
y SY
donde
a N
n
f
1
= = .
Demostracin
( ) ( ) ( ) ( ) =
(

= = =

a N
a N
N S
SST
SSW
S N N SSW SST N SSB N t

V
U U
y y
SY
1 1
2 2
( ) ( )( ) | |
2 2
1 1
U U
y y
S a N S N N + (9.4.1)
Como ( ) 1 = = n
n
N
n
N
N a N tenemos que (9.4.1) puede escribirse como
( ) ( ) ( ) =
(

+
2 2
1 1 1
U U
y y
S n
n
N
S N N
( ) =
(

+
|
.
|

\
|
+
2 2
1 1
U U
y y
S n
n
N
S
n
N
N N N
( ) ( ) =
(

+
2 2
1 1
U U
y y
S n
n
N
S
n
N
f N
( ) ( ) | | 1 1
2
2
+ n f S
n
N
U
y
As, tenemos que
( )
( ) ( ) | |
( )

+ =

+
=

f
n
n
S
f N
n f S
n
N
t

, SY Deff
U
U
y
y
1
1
1
1
1 1
2
2
2
2
OBS] Como 0
1
1
>

f
n
se tiene
1. Si 0 > es mejor el diseo SI.
2. Si 0 = los diseos SI y SY son igual de eficientes.
54
3. Si 0 < es mejor el diseo SY.
CONCLUSION] El diseo SY es ms eficiente que el SI, siempre y cuando el coeficiente es
negativo, o sea, si
2 2
U W
y y
S S > , lo que ocurre cuando los grupos son suficientemente heterogneos.
9.5. Distintos ordenamientos de la variable de inters en U y ( )
SY
t V

Hay que tener alguna idea de la forma de la poblacin para proponer algn estimador de ( ) t

V .
Analicemos tres casos
1. La poblacin se encuentra ordenada aleatoriamente. En ese caso los diseos SI y SY logran,
aproximadamente la misma eficiencia. Tiene sentido cuando la poblacin est ordenada segn
una caracterstica que no tiene correlacin con la variable de inters. Ejemplos comunes de
esta situacin se tienen cuando la poblacin esta ordenada alfabticamente por da y mes de
nacimiento.
Posicin en el marco
yk
2. El marco ordena de forma creciente (decreciente) la variable de inters.
Posicin en el marco
yk
+
El diseo SY puede ser mucho ms eficiente que el diseo SI en casos donde existe
autocorrelacin entre el valor de la variable de inters y la etiqueta k.
( )

V
SY
( )

V
SY
55
OBS] En sircunstancias de este tipo, los diseos estratificados (ST), que se vern ms adelante,
tienden a ser ms eficientes que el SY.
3. El marco ordena a la variable de inters segn un patrn peridico.
Posicin en el marco
yk
El diseo SY es menos eficiente que el diseo SI, sobre o subestima sistemticamente el total,
especialmente si a (el intervalo de muestreo) coincide con el largo del ciclo.
Ver el EJEMPLO 3.4.2] en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted
Survey Sampling (1992). New York: Springer-Verlag .
9.6. Mtodos para controlar el tamao de la muestra
Recordemos que se pueden dar dos situaciones segn los valores de N y a.
Si N = n
a
N
, el tamao de muestra es n.
Si
a
N
no es entero el tamao de muestra es aleatorio y puede ser n
a
N
=
(

1 + =
(
(
(

n
a
N
.
Recordar que c na N n
a
N
+ = =
(

con a c < 0 . El problema del tamao de muestra es


relevante sobre todo en los casos que N es chico en relacin a n.
EJEMPLO] Supongamos que el tamao de la poblacin es 173 = N . Queremos que 70 = n .
Si 1 y 5 86 2 = = = c ,
a
N
a .
Con 1
0
= r , 87 =
S
n , y con 2
0
= r , 86 =
S
n .
Si 2 y 67 57 3 = = = c ,
a
N
a .
Con 58 2, 1
0
= =
S
n r , y con 3
0
= r , 57 =
S
n .
Intervalo de muestreo fraccional
Sea
n
N
a = , donde N n es el tamao de muestra deseado.
56
Sea una variable aleatoria uniforme continua, ( ) a , Uni 0 , el arranque aleatorio, posiblemente
no entero. La muestra se forma con los elementos k que cumplan
( ) n , , , j k a j k 2 1 1 1 = + <
Multiplicando por n
( ) ( ) n , , , j kn N j r n k 2 1 1 1 = + <
donde r es una variable aleatoria uniforme continua, ( ) N , Uni r 0 .
U
1 2 3 4 .... N
( ]( ]( ] ( ]( ]
0 n 2n 3n .... (N-1)n N
0 N 2N N
Tomamos ( ) N , Uni r 0 y la muestra se forma con los U k tales que ( )
n
k m n k < 1 donde
( )N n r , , N r , N r , r m 1 2 + + + = .
Todos tienen probabilidad de salir exactamente igual a ( )
k
S k P
a N
n
N
n = = = =
1 1
.
OBS] Altura Base
1
=
N
n .
( ) N , Uni U 0 , ( ) n U P
N
n
< = . Elegimos un nmero aleatorio entre 0 y N. Luego, damos (n-1)
saltos de longitud N. Como mximo llegamos a nN.
EJEMPLO] Supongamos que el tamao de la poblacin es

= = = 3 3 2 3 7 ,
n
N
, n , N .
Sorteamos ( ) 7 0, Unif . Luego, alguna de las muestras posibles segn el valor sorteado
Si = 25 17 25 10 25 3 25 3 , ; , ; , , y la muestra es { } 6 4 2 , , s =
Si = 3 20 3 13 3 6 3 6 , ; , ; , , y la muestra es { } 7 5 3 , , s =
Si = 7 19 7 12 7 5 7 5 , ; , ; , , y la muestra es { } 7 5 2 , , s =
Por ejemplo, si = 5.7, podemos representar el mecanismo de seleccin en el siguiente esquema
57
U
1 2 3 4 5 6 7
( ]( ]( ]( ]( ]( ]( ]
0 3 6 9 12 15 18 21
0 7 14 21
Muestreo sistemtico circular
La poblacin se ordena de forma circular, as al elemento N le sigue el 1.
Se sortea un nmero entero entre 1 y N inclusive, digamos, ( ) N , Uni r 1 . Sea a el entero ms
cercano
n
N
. La muestra estar compuesta por los elementos U k tales que para n , , , j 2 1 = .
( )a j r k 1 + = si ( ) N a j r + 1
( ) N a j r k + = 1 si ( ) N a j r > + 1
OBS] Esto ltimo es algo as como que si me paso de N empiezo de nuevo.
Nuevamente ( ) U k
a N
n
S k P = =
1
.
EJEMPLO] Supongamos que el tamao de la poblacin es 7 = N , 2 y 3 = = a n .
Sea ( ) 7 3 2 1 , , , , Uni r . Asi, segn el resultado del sorteo algunas de las posibles muestras son
3 = r ( )a j r 1 +
( ) { } 7 5 3 2 1 3 , , s j = +
6 = r ( )a j r 1 +
( ) { } 3 1 6 2 1 6 , , s j = +
1 = r ( )a j r 1 +
( ) { } 5 3 1 2 1 1 , , s j = +
7 = r ( )a j r 1 +
( ) { } 4 2 7 2 1 7 , , s j = + .
OBS] En las dos formas vistas de instrumentar el diseo SY hay que tener cuidado para calcular
( )

V
SY
, ya que las muestras no son necesariamente disjuntas y los
kl
de distintas muestras
pueden ser no nulos.
OBS] En el caso de que na N = , 0 = c , las tres formas de SY vistas coinciden.
58
OBS] Si N es grande en relacin a n los tres procedimientos son equivalentes.
9.7. Estimadores de la varianza
Como vimos uno de los costos que hay que pagar por la simplicidad del diseo SY (adems de los
problemas analizados para controlar el tamao de muestra) es que no se tiene un estimador
insesgado para la varianza del estimador.
Bsicamente se pueden ensayar dos soluciones
1. Usar estimadores sesgados. Si estamos en condiciones de suponer que el SY es tan eficiente
como el SI tenemos que el ( ) ( )

= = t

V t

V Deff
SY SI
1 y usamos ( )
n
S
f N V

S
y
2
1 = . Los
casos ms comunes son cuando la poblacin est ordenada alfabticamente o por alguna
caracterstica que no se relacione con la variable de inters en la poblacin.
2. Modificar el SY de forma que el mecanismo de seleccin permita l k
kl
> 0 para luego
usar el estimador basado en el principio de la expansin. Consideremos 1 > m arranques
aleatorios e intervalos de muestreo ma . Asumamos que m n (el nmero de elementos de
cada una de las muestras que genera cada arranque) y a n N = son enteros.
Tomemos m elementos del conjunto { } ma , , 2 , 1 bajo un diseo SI. Sean
m
r , , r , r
2 1
los
seleccionados.
( ) { } m n , , , j , m , , , i , ma j r k k S
i
2 1 2 1 1 : = = + = =
OBS] Esto equivale a sacar una muestra bajo un diseo SI de tamao m de ma grupos de tamao
m n . As, se observarn n m
m
n
= elementos. Es como ordenar la poblacin en ma grupos de
tamao m n (la poblacin tiene na N = elementos que se pueden pensar como ma arranques para
grupos de tamao m n , as N na
m
n
ma = = .
EJEMPLO] Supongamos los siguientes datos
f
N
n
a
n
N
n
N
= = = =
=
=
05 , 0 20
15
300

60
5
3
=
=
=
ma
m
n
m
SI de tamao 3 de { } 60 , , 2 , 1 , salen 3, 47 y 57
( ) { } 5 2 1 3 2 1 60 1 : , , , j , , , i , j r k k S
i
= = + = =
S
, , , , r
, , , , r
, , , , r

=
=
=
297 237 177 117 57 57
287 227 167 107 47 47
243 183 123 63 3 3
3
2
1
59
Muestras
posibles
S
1
S
2
........... S
47
........... S
57
S
60
y
1
y
2
y
47
y
57
y
60
y
61
y
62
y
107
y
117
y
120
y
121
y
122
y
167
y
177
y
180
y
181
y
182
y
227
y
237
y
240
U
y
241
y
242
y
287
y
297
y
300
( ) U k
a ma
m
S k P
k
= = =
1
( )

|
.
|

\
|

= =
= =
caso otro en
1
1
2 1 y si
1
y
ma
m
ma
m
ma , , , r , S l k
N
n
a
S l k P
r
kl

OBS] Cuanto ms arranques aleatorios ms se incrementa la varianza del diseo.


9.8. Anexo: Una interpretacin para el coeficiente
Supongamos el siguiente modelo de regresin lineal
k ak a k k k
y + + + + = I I I
2 2 1 1
N k ..., 2, 1, =
donde

=
r
r
rk
S k
S k
si 0
si 1
I
( )
2
2 2 1 1

=
U
ak a k k k
y SCErr I I I
( ) a ..., , , r y

y
SCErr
Sr
Sr
r r k
r
2 1 0 2 = = = =

( )

=
= =
a
r
Sr
Sr k
SSW y y SCErr
1
2
( ) SST y y SCT
U
U k
= =

2
2
2
2
1
1
1
1
1
U
W
y
y
C
S
S
N SCT
a N SSW
N SCT
a N SCErr
R =

= .
60
10. DISEO POISSON (PO)
10.1. Introduccin
Hasta ahora todos los diseos que vimos, SI, BE y SY, son diseos que conducen a probabilidades
de inclusin iguales para todos los elementos de la poblacin. As, ( ) U k S k P
k
= = .
En general, se tiene que
( )
N
n E
S
= .
Tambin vimos un diseo ordenado general que permita probabilidades de inclusin distintas por
elemento, aunque no las utilizamos mucho ya que trabajamos con un estimador distinto del , el
pwr
t

, que se basaba en la muestra ordenada.


La mayora de los diseos usados en la prctica permiten probabilidades de inclusin distintas por
elemento. En general, con
k
distintos, se pueden lograr diseos ms eficientes. En este mismo
sentido operaba una aplicacin particular del muestreo con remplazo que llamamos muestreo con
probabilidad proporcional al tamao muestreo pps.
El diseo PO es un diseo que permite probabilidades de inclusin distintas y puede verse como
una generalizacin del muestreo BE.
10.2. El diseo PO
Dada { } N , , , U K 2 1 = , consideremos
N
,..., ,
2 1
valores predeterminados y no necesariamente
iguales,
k
tal que U k
k
< 1 0 .
Mecanismo de seleccin
Sean
N
, , , K
2 1
, iid Unif (0,1) y consideremos la siguiente regla de seleccin, el elemento
S k si
k k
< . luego la muestra queda formada por
{ }
k k
, U k k S < = :
De esta forma, el diseo Poisson viene dado por
( ) ( )
PO k
S U k
k
S k
s s p S =

1
OBS]
N
PO
2 # = S y
PO
S es el conjunto de todos los subconjuntos de U.
Como las indicadoras son independientes y ( ) U k Ber I
k k
, las probabilidades de
inclusin que induce ( ) s p son
( )
k
S k P = , arbitrarios U k
( ) U l k S l k P
l k kl
= = y
61
adems
( )

=

= =
l k
l k
k k
l k kl kl
si 1
0


OBS] El tamao de muestra,
S
n es aleatorio. Como

=
U
k S
I n su la esperanza y varianza en el
diseo se obtienen fcilmente
( )

=
U
k S PO
n E y ( ) ( )
k
U
k S PO
n V =

1 .
10.3. El estimador de un total poblacional
En base a lo anterior estamos en condiciones de plantear
RESULTADO]
1
Bajo el diseo PO se tiene que el estimador y su varianza vienen dados por

S k
y t


y
( ) ( )

|
|
.
|

\
|

= = =

U k
k
U k
k k l U k kl PO
y y y y t

V
2 2
1
1
1


.
El estimador de la varianza del estimador del total
( ) ( )

|
|
.
|

\
|
= =
S
k
k k
S
k
k
k PO
y
y
t

2
2
2
1
1 1
1

.
OBS] La ( )

V
PO
se ve afectada por el hecho de que el tamao de muestra es aleatorio. Al igual
que en el muestreo BE se puede buscar un estimador alternativo con menor varianza
N

N
y
N t

S
k
S
k
alt

=

donde


=
S
k
N

1
es el estimador de N.
El estimador
alt
t

es aproximadamente insesgado y en general tiene menor varianza que

.
Usualmente es preferido a

.

1
Corresponde al resultado 3.5.1 en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag
62
10.4. Eleccin de los
k
Como vimos, los
k
son arbitrarios. Entonces, cul es la mejor eleccin para los
k
?
Un criterio razonable de mejor es encontrar los
k
que, para un tamao de muestra esperado
fijo, minimicen ( )

V
PO
.
As, hay que resolver el siguiente problema de optimizacin
( )

U k
PO
n . a . s
t

V min
k
Como, ( )

=
|
|
.
|

\
|

U U k
k
k
U k
k
PO
y
y
y t

V
2
2
2
1
1
y, adems,

U k
y
2
y

=
U
k
n estn
dados, se tiene que el problema anterior es equivalente a resolver
( )


|
|
.
|

\
|

U
k
U
k
k
y
min
k
2
OBS] Esto es posible ya que podemos prescindir de

U k
y
2
en la expresin de la varianza (por
ser fijo) y multiplicar la expresin por n
U
k
=

(tambin fijo ya que ( ) n n E


U
k S PO
= =

).
Para lo que sigue conviene recordar la desigualdad de Cauchy-Schwartz
2
( ) ( ) ( )
2
2 2


U
k k
U
k
U
k
z x z x
y la igualdad se cumple si y solo si U k z x
k k
= .
Luego
( ) ( ) ( ) ( )
2
2
2
2
2

=
|
|
.
|

\
|

|
|
.
|

\
|

|
.
|

\
|

|
|
|
.
|

\
|
|
|
.
|

\
|

=
|
|
.
|

\
|

U
k
U
k
k
k
U
k
U
k
k
U
k
U
k
k
y
y y
y
.
La igualdad se da si y slo si tenemos

= =

k
k k
k
k
y y
U k .
Ahora bien, como n t
y
y
U U
k
k
=

=

1
, tenemos que
n
t
y
= y por ltimo se llega a que
la mejor eleccin de
k
, en la medida que 1 0 <
k
, viene dada por

2
Ver al final del apartado.
63

= =
U
k
k
y
k
k
y
y
n
t
y
n U k .
OBS] Este resultado nos es familiar, la mejor eleccin de los
k
(en el sentido de que es la que
minimiza la varianza del estimador del total para un tamao de muestra esperado fijo) es

=
k
k
y
, o sea
k k
y . As, las probabilidades de inclusin son proporcionales al tamao de la
variable de inters.
OBS] Lo anterior tiene slo inters terico, ya que los
k
y son desconocidos. Ahora bien,
supongamos que se dispone de una variable auxiliar
k
x que cumpla las siguientes condiciones
1.
k
x es conocida U k ;
2. U k x
k
> 0 ;
3. U k cy x y x
k k k k
= &
&
sea, o , .
Entonces en lugar de

=
U
k
k
k
y
y
n , podemos hacer

= = =
U
k
k
U
k
k
U
k
k
k
y
y
n
cx
cx
n
x
x
n & .
OBS] No tener informacin auxiliar puede pensarse como U k x
k
= 1 y luego
N
n
k
= . Esto
ltimo justifica el uso de diseos con probabilidades de inclusin iguales para todos los elementos
de la pobalcin en los casos que no se dispone de ningn tipo de informacin auxiliar.
OBS] Al igual que en el BE, el diseo PO tiene el inconveniente de que el tamao de muestra es
aleatorio lo que tiende a aumentar la varianza del estimador del total. Observemos que si
logrramos hacer

=
U
k
k
k
y
y
n , o sea la solucin de minimizar la varianza del estimador del
total para un tamao de muestra esperado fijo

=
U
k
n , tendramos que
y
S
S U
k
S U
k
S
U
k
k
k
S
k
k
t
n
n
n
y
n
y
y
y n
y y
t

|
.
|

\
|
= |
.
|

\
|
= |
.
|

\
|
= =

1 .
Con lo que la varianza

depende de la varianza nicamente de


S
n .
OBS] Lo anterior nos lleva a pensar que el estimador debe de tener un buen desempeo en un
diseo con
k k
y
&
y tamao de muestra fijo.
Desigualdad de Cauchy-Schwartz
( ) ( ) ( )


U
k
U
k
U
k k
z x z x
2 2
2
y la igualdad se cumple si y solo si U k z x
k k
= y fijo.
64
Partamos de ( ) 0
2

U
k k
z x . Tomando

=
U k
U
k k
z
z x
2
se tiene que
( ) = + =

U U U k
k k
k U
k k
z z x x z x
2 2 2 2
2
( ) ( )
= + =

U
U k
U
k k
U k
U
k k
k
z
z x
z
z x
x
2
2
2
2
2
2
( )
=

0
2
2
2
U
U k
U
k k
k
z
z x
x ( ) ( )( )


U k U k U
k k
z x z x
2 2 2
.
OBS] ( ) U k z x z x
k k
U
k k
= =

0
2
.
OBS] El tomado es el que minimiza la expresin de partida que no es otra cosa que la SCErr en
el modelo
k k k
z x + = .
65
11. DISEOS CON PROBABILIDADES PROPORCIONALES AL TAMAO (ps)
11.1. Introduccin
En el punto anterior vimos que si los valores
k
y son aproximadamente proporcionales a los
valores de una variable auxiliar,
k
x positiva y conocida para toda la poblacin, tomar

=
U
k
k
k
x
x
n es una buena eleccin, en el sentido de que esto tiende a disminuir la varianza del
estimador para el total poblacional

=
U
k y
y t .
De hecho esto no solo se cumple para el diseo PO, sino que tambin lo vimos cuando
comentamos el muestreo pps. Repasemos este resultado.
11.2. El diseo ordenado con probabilidades por extraccin proporcionales al
tamao y el estimador
pwr
t

. Muestreo pps
Sean U k p
k
> 0 tales que

=
U
k
p 1. De { } N , , , U K 2 1 = se extraen de manera
independiente y con reposicin m elementos de forma en que cada extraccin se cumple
{ P El elemento k es seleccionado }
k
p = .
Sea k
i
= El elemento seleccionado en la i-sima extraccin, i = 1, 2,..., m. La muestra ordenada
puede escribirse como ( )
m
k , , k , k OS K
2 1
= y se tiene que
( ) ( ) | |
m
k k k m
p p p k , , k , k p OS p K K
2 1
2 1
= =
dados los supuestos de independencia y de igualdad de las probabilidades de seleccin en cada
extraccin.
Luego, como ya vimos

=
=
m
i ki
ki
pwr
p
y
m
t

1
1
( )

|
|
.
|

\
|
=
U
k
k
k
pwr ) os ( p
p t
p
y
m
t

V
2
1
OBS] Si logramos hacer

= =
U
k
k k
k
y
y
t
y
p tenemos que ( ) 0 =
pwr
t

V . Esto tiene solamente


inters terico. En la prctica solo se puede implementar de manera aproximada y en la medida
que se cuente con una variable auxiliar,
k
x , que cumpla con
1.
k
x es conocida U k ;
2. U k x
k
> 0 ;
3. U k y x
k k

&
.
66
OBS] Lo anterior enfatiza el inters en estudiar diseos o diseos ordenados donde los
k
los
k
p son proporcionales a una variable auxiliar positiva y conocida para toda la poblacin.
Se habla de diseos ps cuando se cumple
k k
x U k o diseos pps donde la regla es
k k
x p U k .
11.3. Diseos de tamao fijo, con probabilidades de inclusin generales (ps)
Supongamos un diseo ( ) s p tal que n es fijo y los
k
se toman de forma que U k c
y
k
k
=

.
As, se tiene que n
c
t
c
y
y
U
k
U
k
= = =

nc t
y
= , o sea,

= =
U
k
k k
k
y
y
n
t
y
n .
Luego,

= = =

S
y
S
k
k
t nc c
y
t

, con lo que

es insesgado y de varianza nula.


Esta es la situacin ideal. Si el diseo es tal que las probabilidades de inclusin son estrictamente
proporcionales al tamao de la variable de inters y el diseo es de tamao fijo, tenemos que el
estimador del total es insesgado y de varianza nula.
Nuevamente, esto tiene solamente inters terico y en la prctica solo se puede implementar de
manera aproximada y en la medida que se cuente con una variable auxiliar
k
x apropiada. En tal
caso, tomamos

= =
U
k
k
U
k
k
k
y c
cy
n
x
x
n & y podemos lograr mejorar el desempeo del
estimador .
CONCLUSION] La situacin ideal es un diseo de tamao fijo con
k k
x , pero lograr
instrumentar en forma sencilla este diseo es difcil. Intuitivamente, esto se puede ver pensando
en que el mecanismo de seleccin tiene que ser sin reposicin (si esto no ocurre ya vimos que
S
n
es aleatorio). Luego, en la primera extraccin se puede fijar las probabilidades de seleccin
proporcionales al tamao sin problema, pero para la segunda extraccin las probabilidades de
seleccin no se pueden fijar de antemano ya que dependen de lo que ocurri en la primera
extraccin.
Algunas formas de implementar un diseo ps con propiedades deseables pueden consultarse en
la seccin 3.6.2 de Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag.
11.4. Un esquema de seleccin ps til
Este esquema puede verse como una generalizacin del esquema de intervalo de muestreo
fraccional visto para controlar el tamao de muestra en el diseo sistemtico. Puede describiese
como un mecanismo de seleccin ps sistemtico.
67
Sea x una variable auxiliar buena. Consideremos N ..., , , k x T T T
k k k
2 1 y 0
1 0
= + = =

y
notemos que

=
U
k N
x T .
x
1
x
1
+x
2
x
1
+x
2
+x
3
....

U
k
x
T
0
T
1
T
2
T
3
.... T
N-1
T
N
Fijemos un intervalo de muestreo a, tomemos
(

=
a
T
n
N
. As n
a
c T
c na T
N
N
=

+ = .
Donde c satisface a c < 0 . Recordemos que si c = 0 el tamao de muestra es fijo, n, mientras
que si c > 0 el tamao de muestra puede variar entre n y n+1.
c
T
0
T
1
T
2
T
3
.... na T
N
Por ltimo supongamos que se satisfacen las siguientes condiciones
i) U k x
k
entero es , para simplificar; y
ii) U k na c T nx
N k
= , que aseguran U k a x
k
.
El mecanismo de seleccin ps sistemtico se implementa entonces tomando un nmero entero
entre 1 y a inclusive, digamos, ( ) a , Uni r 1 . La muestra queda formada como
( ) { }
S k k
n , , , j , T a j r T , U k k S K 2 1 1 :
1
= + < =

.
Esto asegura un tamao de muestra prcticamente fijo (n n+1) y probabilidades de inclusin
k
N
k k k
k
x
c T
x
na
nx
a
x

= = = con c r , r c < 0
OBS] Los supuestos i) y ii) son razonables, el primero alcanza con que se cumpla
aproximadamente, y el segundo puede solucionarse tratando a parte algunos casos particulares.
OBS] El diseo que se obtiene, bajo i) y ii) es efectivamente ps pero no es medible.
68
11.5. Las distintas estrategias segn el muestreo y el estimador que se elija si existe
informacin auxiliar
1] Muestreo con reposicin.
Diseo ordenado y el uso del estimador
pwr
t

.
Usar el diseo inducido por el diseo ordenado y el uso de

o, mejor an, el
alt
t

.
2] Muestreo sin reposicin.
Diseo PO y usar el estimador

o, mejor an, el
alt
t

.
Diseos ps de tamao fijo y estimadores

.
OBS] En cualquier caso no es posible evaluar en trminos tericos cul estrategia es la ms
eficiente, ya que siempre depende de la informacin auxiliar con que se cuente.
11.6. Una solucin alternativa: seleccin de grupos formados aleatoriamente (Rao,
Hartle y Cochran).
Sea { } N , , , U K 2 1 = . Queremos un tamao de muestra fijo n. Supongamos N nm = con m entero.
Particionemos U en { }
n
U , , U , U K
2 1
de la siguiente manera
1
U es un SI de tamao m de U.
2
U es un SI de tamao m de
1
U U .
M
n
U es lo que queda.
La muestra se forma tomando un elemento de cada una de los n , , , i U
i
K 2 1 = . La extraccin
dentro de cada
i
U se realiza con probabilidad proporcional al tamao de una variable auxiliar
k
x
conocida y positiva U k .
As, el elemento
i
k de
i
U es seleccionado con probabilidad
i
i
i
U
i
U
ki
ki
k
x m
x
x
x
= =

donde

=
i
i U
ki
U
m
x
x .
Luego, un estimador insesgado del total ser

= =
=

=
n
i
n
i ki
ki
U
ki
ki
gr
x
y
x m
y
t

i
1 1
OBS] Si bien no es necesario que todos los grupos
i
U tengan el mismo tamao, parece, sin otra
informacin adicional, que esto es prudente.
OBS] El sistema se basa en aplicar un diseo ps de tamao fijo 1 = n por grupo, con lo que no
69
hay problemas de instrumentacin.
OBS] El mecanismo asegura un tamao de muestra fijo y si se considera todo el mecanismo de
seleccin tenemos que las probabilidades de inclusin de segundo orden sern difciles de
calcular, pero todas son positivas.
OBS] El procedimiento es usualmente menos eficiente que el diseo ps de tamao n con
probabilidades de inclusin estrictamente proporcionales al tamao de
k
x junto con el uso del
estimador del total pero, es ms fcil de instrumentar y es, usualmente, ms eficiente que la
estrategia pps junto con el uso de
pwr
t

.
EJERCICIO] Demostrar que el estimador
gr
t

es insesgado para t
y
y calcular su varianza.
70
12. MUESTREO ESTRATIFICADO (ST)
12.1. Introduccin
El muestreo estratificado consiste en particionar a la poblacin en H subpoblaciones (llamadas
estratos) y tomar una muestra aleatoria de manera independiente en cada una de ellas. Requiere de
algn tipo de informacin auxiliar, por pobre que sea, para construir los estratos. En la prctica
siempre existe alguna informacin de este tipo.
Es una herramienta poderosa y flexible. En la prctica casi siempre se trabaja con diseos
estratificados. Algunos de los principales motivos de esto son:
1. En poblaciones heterogneas una buena particin segn una variable auxiliar permite
captar parte de la eficiencia de los diseos ps .
2. Es til si se requieren distintas precisiones por estrato.
3. Aspectos prcticos como la no respuesta, la facilidad de localizacin y disponibilidad de
informacin auxiliar adicional a la que permite estratificar, pueden diferir entre estratos y
la estratificacin permite elegir el diseo que mejor se ajuste en cada estrato.
4. Razones administrativas en la organizacin de la encuesta.
Para capitalizar las ventajas del ST se requiere resolver algunas cuestiones prcticas:
1. Construccin de los estratos.
Qu variable o variables auxiliares disponemos para estratificar?
Cmo formar los estratos segn la o las variables elegidas?
Cuntos estratos se deben formar?
Qu ocurre si conocemos la propia variable y y su distribucin es marcadamente
asimtrica?
2. Eleccin de ( ) s p , ( )
S
n E y
y
t

para cada estrato.


12.2. Notacin, definiciones y el diseo ST
La poblacin, { } N , , , U K 2 1 = , se particiona en
H
U , , U , U K
2 1
subpoblaciones llamadas estratos,
h
U . As { } h k k U
h
estrato al : = y se cumple U U
H
n
h
=
=
U
1
y j i U U
j i
= I .
Llamemos
h
N al tamao del estrato H, o sea, #
h h
N U = . Luego =
=
H
h
h
N N
1
. El total poblacional
puede escribirse de varias maneras

= = =
= = = =
H
h
U h
H
h
yh
H
h
U
k
U
k y
h
h
y N t y y t
1 1 1
donde

=
h
U
k yh
y t y

=
h
h
U
k
h
U
y
N
y
1
.
Adems
71
h h
U
H
h
h
H
h
U h
U
k U
y w y N
N
y
N
y

= =
= = =
1 1
1 1
donde
N
N
w
h
h
= es el peso relativo de cada estrato.
Mecanismo de seleccin
Para cada
h
U , H , , , h K 2 1 = , se selecciona una muestra aleatoria
h
s de tamao
h
s
n bajo un diseo
( ) .
h
p . La seleccin en cada estrato se realiza de manera independiente de la realizada en
cualquier otro estrato.
La muestra queda formada por
H
s s s s U K U U
2 1
= . As, el tamao de la muestra es =
=
H
h
s s
h
n n
1
.
En virtud de la independencia, el diseo vine dado por ( ) ( )

=
=
H
h
h h
s p s p
1
.
El diseo induce las siguientes probabilidades de inclusin de primer y segundo orden
H , , h U k ) S k ( P ) S k ( P
h k
K 2 1 algn para = = =


=
= =
j con i U l U si k
H , , h U l k
) S l k ( P
j i l k
h kl
kl
y
2 1 algn para y si
y


=
=
j con i U l U si k
H , , h U l k
j i
h l k kl
kl
y 0
2 1 algn para y si K
OBS] As,
kl
son inducidas por ) ( p
h
o por ) ( p
i
y ) ( p
j

12.3. El estimador de un total poblacional
RESULTADO]
1
En las condiciones que venimos trabajando el estimador de un total
poblacional es la suma de los estimadores de los totales poblacionales por estrato, o sea

=

=
H
h
h
t

1
donde

h
S
k h
y t


es el estimador del total del estrato h,

=
h
U
k h
y t .
La varianza del estimador viene dada por
( ) ( )

=

=

=
|
|
.
|

\
|
=
H
h
h h
H
h
h ST ST
t

V t

V t

V
1 1

1
Corrresponde al Resultado 3.7.1 en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag)
72
donde ( )
h h
t

V es la varianza de
h
t

en el estrato h.
De la misma forma, un estimador insesgado para la varianza anterior viene dado por
( ) ( )

=

=
H
h
h h ST
t

1
donde se supone que existe ( )
h h
t

, un estimador insesgado de ( ) . H , , h t

V
h h
K 2 1 =

Prueba

=

=

= = =
H
h
h
H
h
S
k
S
k
t

y y t

h
1 1

Luego, basndonos en la independencia, podemos escribir
( ) ( )

=

=

= = =
H
h
h h
H
h
l k
U
kl
U
l k kl ST
t

V y y y y t

V
h
1 1

ya que 0 =
kl
si H , , h U l k
h
K 2 1 con y = .
Un estimador insesgado de esta varianza viene dado por
( ) ( )

=

=
H
h
h h ST
t

1
donde

l
S
k kl h
y y V

= .
OBS 12.3.1] Es muy comn usar el mismo diseo en todos los estratos. As tendremos diseos
STSI, STBE, STSY, etc.
12.4. El diseo STSI o MAE
2
Supongamos que
h
n es el tamao de muestra fijo por estrato. Luego el estimador para un total
poblacional es

= = = =

= = = =
H
h
S
H
h
S h
h
k
h
H
h
S
k
H
h
h
h
h
h
y N
n
y
N y t

1 1 1 1

con

=
h
h
S
h
k
S
n
y
y .
La varianza del estimador viene dada por

= = = =
= = =
H
h
y h
H
h h
y h
H
h h
y
h h
H
h
h h STSI
h
U
h
U
h
U
S N
n
S N
n
S
) f ( N ) t

( V ) t

( V
1
2
1
2 2
1
2
2
1
1


2
Corresponde al Resultado 3.7.2.
73
donde
h
h
h
N
n
f = y

=
h h
h
U
U U k
h
y
) y y (
N
S
2 2
1
1
.
Por ltimo, el estimador para esta varianza viene dado por
= =
= =
H
h
h
y
h h
H
h
h h STSI
n
S
) f ( N ) t

( V

) t

( V
h
S
1
2
2
1
1

donde

=
h h
h
S
S S k
h
y
) y y (
n
S
2 2
1
1
.
12.5. Asignacin ptima de la muestra bajo STSI
Consideremos una poblacin { } N U , , 2 , 1 K = que se encuentra particionada en los estratos
H h
U U U K K ,
1
dados. Supongamos que el diseo a usar en cada estrato es un diseo SI.
Supongamos, adems, que el costo de relevamiento es lineal en el tamao de muestra por estrato

=
+ =
H
h
h h
n c c C
1
0
, con H h c
h
K , 2 , 1 0 = > .
Antes de seleccionar la muestra hay que asignar los tamaos de muestra por estrato,
h
n para
H h K , 2 , 1 = .
El objetivo es encontrar la mejor forma de elegir los
h
n , y el criterio de mejor es, como siempre,
minimizar la varianza del estimador de un total poblacional. Adicionalmente, en esta
circunstancia, hay que considerar los costos.
OBS 12.5.1] Determinar todos los
h
n implica determinar

=
=
H
h
h
n n
1
. Supongamos n dado y
preocupmonos por cmo elegir los
h
n . El tamao de la muestra, n, se determina fijando C o
( )

V
STSI
.
As, el problema de optimizacin se puede plantear de dos maneras
1. Resolviendo

( )
fijo s.a.
min
C
t

V
STSI
n
h

.
2. O bien

( ) fijo s.a.
min

V
C
STSI
n
h
.
74
RESULTADO]
3
Bajo un diseo STSI y una funcin de costos lineal en los
h
n , la asignacin
ptima se logra cuando

= =
= =
H
h
h
y h
h
y h
H
h
h
y h
h
y h
h
c
S N
c
S N
n
c
S N
c
S N
n n
Uh
Uh
Uh
Uh
1 1
(12.5.1)
Prueba
Tenemos
( )

= = =
= =
H
h
y h
H
h h
y h
H
h h
y
h h STSI
Uh
Uh Uh
S N
n
S N
n
S
f N t V
1
2
1
2 2
1
2
2
) 1 (

=
+ =
H
h
h h
n c c C
1
0
.
Nuestro problema de optimizacin, en cualquiera de los dos casos (1 y 2), se resuelve haciendo
mnimo el producto ( ) C t

V
STSI

y esto es equivalente a
|
|
.
|

\
|
|
|
|
.
|

\
|

= =
H
h
h h
H
h h
y h
n
n c
n
S N
Uh
h 1 1
2 2
min
Por la desigualdad de Cauchy Schwartz tenemos
( ) ( ) ( )
2 2 2


U
k k
U
k
U
k
y x y x
y el igual se da cuando U k y x
k k
= .
En este caso
( )
2
1 1 1
2 2
|
|
|
.
|

\
|
|
|
|
.
|

\
|

|
|
.
|

\
|
|
|
|
.
|

\
|

= = =
H
h
h h
h
y h
H
h
h h
H
h h
y h
n c
n
S N
n c
n
S N
Uh Uh
,
y la igualdad se cumple si
h h
h
y h
n c
n
S N
Uh
= =
h
y h
h
c
S N
n
Uh
1
(12.5.2)

3
Corrresponde al Resultado 3.7.3, aunque aqu se presenta una versin simplificada.
75
Despejando
h
n de (12.5.2) y teniendo en cuenta que

=
=
H
h
h
n n
1
, se obtiene

=
=
|
|
|
.
|

\
|
H
h
h
y h
n
c
S N
Uh
1


= |
|
|
.
|

\
|
=
H
h h
y h
c
S N
n
Uh
1
1
(12.5.3).
Por ltimo, de (12.5.2) y (12.5.3)

=
|
|
.
|

\
|
=
H
h
h
y h
h
y h
h
c
S N
c
S N
n n
Uh
Uh
1
como queramos probar.
OBS 12.5.2] Si H h c c
h
, , 2 , 1 fijo K = = , tenemos que

=
=
H
h
y h
y h
h
Uh
Uh
S N
S N
n n
1
.
OBS 12.5.3] Este resultado indica todas cosas razonables, el tamao de muestra en cada estrato es
mayor en cualquiera de las siguientes circunstancias:
Mayor es
h
N .
Mayor es
Uh
y
S .
Menor es
h
c , o mayor
h
c 1 .
OBS 12.5.4] Notemos que

=
H
h
h
y h
c
S N
Uh
1
es fijo.
Ahora estamos en condiciones de aplicar el resultado de la asignacin ptima para cada uno de los
dos enfoques
1. ( )

V
STSI
n
h
min
s.a.

=
+ =
H
h
h h
n c c C
1
0
fijo.
Sustituyendo el
h
n de (12.5.1) en la ecuacin del costo, se obtiene

=
=
+ =
H
h
H
h
h
y h
h
y h
h
c
S N
c
S N
n c c C
Uh
Uh
1
1
0
Despejando n
76
( )

=
=
=
H
h
y h h
H
h
h
y h
Uh
Uh
S N c
c
S N
c C n
1
1
0
(12.5.4).
Esto determina el n total y los
h
n se obtienen de (12.5.1).
2.
h
n
min C
s.a. ( )

V
STSI
fija.
Como es usual, la varianza se fija segn la precisin que se desee. As
( )

= t

V z
STSI
2 2

(
(
(

=

= =
H
h
y
h
H
h h
y h
Uh
Uh
S N
n
S N
z
1
2
1
2 2
2 2
.
Sustituyendo los
h
n de (12.5.1) tenemos
(
(


= = =
H
h
H
h
y
h
h
y h
H
h
y h h
Uh
Uh
Uh
S N
c
S N
S N c
n
z 1 1
2
1
2
2
1
despejando n


=
= =
+
=
H
h
y h
H
h
h
y h
H
h
y h h
Uh
Uh
Uh
S N z
c
S N
S N c z
n
1
2 2 2
1 1
2

(12.5.5).
Luego, nuevamente con el n dado se obtienen los
h
n segn (12.5.1).
OBS 12.5.5] Si se supone H h c c
h
K , 2 , 1 fijo = = , las ecuaciones (12.5.4) y (12.5.5) se
transforman, respectivamente en
*
0
c
c c
n

= (12.5.4) y

=
=
+
|
.
|

\
|
=
H
h
y h
H
h
y h
Uh
Uh
S N z
S N z
n
1
2 2 2
2
1
2

(12.5.5).
12.6. Comparacin de ( )
STSI
t V

y ( )
SI
t V

bajo asignaciones proporcional y
ptima
Recordemos las asignaciones
77
1. Proporcional:
N
N
n n
h
h
= ;
2. Optima:

=
=
H
h
y h
y h
h
Uh
Uh
S N
S N
n n
1
.
Comparemos ( )

V
SI
, ( )

V
prop , STSI
y ( )

V
ptima , STSI
.
Empecemos recordando las expresiones para ( )

t V
SI
y ( )

t V
STSI

( ) ( )
n
S
f N t V
U
y
SI
2
2
1 =

(12.6.1)
( )

= = =
=
|
|
.
|

\
|
=
H
h
y h
H
h h
y h
H
h h
y
h
h
h STSI
Uh
Uh Uh
S N
n
S N
n
S
N
n
N t

V
1
2
1
2 2
1
2
2
1

(12.6.2)
Bajo una asignacin proporcional se tiene
N
N
n n
h
h
= . Por lo tanto, sustituyendo en la ecuacin
(12.6.2) se llega a
( ) ( )

=
=
H
h
y h prop , STSI
Uh
S N f
n
N
t

V
1
2
1

(12.6.3)
A su vez, en la asignacin ptima con costos iguales por estrato

=
=
H
h
y h
y h
h
Uh
Uh
S N
S N
n n
1
, y sustituyendo
en (12.6.2), se obtiene
( )

= =


|
|
.
|

\
|
=
H
h
y
h
H
h
y h ptima , STSI
Uh
Uh
S N S N
n
t

V
1
2
2
1
1
(12.6.4)
Para lo que sigue conviene usar la descomposicin de la varianza dentro y entre grupos (estratos).
( ) ( ) ( ) = = =

=
H
h
U
U k
U
U k
y
h
U
y y y y S N
1
2 2 2
1
( ) ( )

= =
+ =
H
h
H
h
U U h
U
U k
y y N y y
h
h
h
1 1
2 2
( ) ( )

= =
+ =
H
h
U U h
H
h
y h
y y N S N
h Uh
1
2
1
2
1 (12.6.5)
Una versin aproximada ms cmoda de (12.6.5) viene dada por
( )

= =
+ =
H
h
U U h
H
h
y h y
y y N S N S N
h Uh U
1
2
1
2 2
& (12.6.6)
78
Luego, de (12.6.1) y (12.6.3) y usando (12.6.6) se tiene
( ) ( ) ( ) ( ) = =

=

H
h
y
h
y
prop , STSI SI
Uh
U
S N f
n
N
n
S
f N t

V t

V
1
2
2
2
1 1
( ) ( ) ( )

= =
=
(


H
h
U U h
H
h
y
h
y
y y N f
n
N
S N NS f
n
N
h
Uh U
1
2
1
2 2
1 1 &
As
( ) ( ) ( ) ( )

=

+ =
H
h
U U h prop , STSI SI
y y N f
n
N
t

V t

V
h
1
2
1 & (12.6.7)
CONCLUSION 12.6.1] El diseo STSI con asignacin proporcional genera una varianza que es la
del diseo SI menos un trmino positivo que aumenta conforme ms heterogneos en media sean
los estratos.
OBS 12.6.1] Si
prop , STSI SI U U
V V H , , , h y y
h
= = = 2 1 K .
A su vez, de (12.6.3) y (12.6.4)
( ) ( ) =

|
|
.
|

\
|

)
`

=

= = = =

H
h
y
h
H
h
y
h
H
h
y
h
H
h
y
h ptima , STSI prop , STSI
Uh Uh Uh Uh
S N S N
n
S N S N
n
N
t

V t

V
1
2
2
1 1
2
1
2
1

2
1 1
2
1
|
.
|

\
|
=

= =
H
h
y h
H
h
y h
Uh Uh
S N
n
S N
n
N
Llamando

=
=
H
h
y
h
U
Uh
S
N
N
S
1
, lo anterior queda
(

|
.
|

\
|

=
2
1
U
y
H
h
h
S S N
n
N
Uh
.
As
( ) ( )
(

|
.
|

\
|
+ =

=

2
1
U
y
H
h
h ptima , STSI prop , STSI
S S N
n
N
t

V t

V
Uh
(12.6.8).
CONCLUSION 12.6.2] La asignacin ptima reduce la varianza de la asignacin proporcional
cuanto ms heterogneos sean los desvios entre estratos.
OBS 12.6.2] Si
N
N
n
S N
S N
n n H , , , h S
h
H
h
y h
y h
h y
Uh
Uh
Uh
= = =

=1
2 1 constante es K y la asignacin
ptima coincide con la proporcional.
Por ltimo de (12.6.7) y (12.6.8) tenemos que
( ) ( ) ( )
)
`

+ + =

= =
H
h
U y
H
h
h U U h ptima , STSI SI
S S N y y N f
n
N
V V
Uh h
1
2
1
2
1 & (12.6.9).
79
CONCLUSION 12.6.3] El diseo STSI con asignacin ptima reduce la varianza respecto del
diseo SI tanto mas cuando ms heterogneos en media sean los estratos y conforme ms
heterogneas sean los desvos entre estratos.
OBS 12.6.3] La conclusin anterior no implica que la mejor forma de construir los estratos sea de
forma de que sean heterogneos en varianza. Si lo son, la asignacin ptima, que toma en
consideracin las varianzas por estrato, supera en eficiencia a la proporcional.
OBS 12.6.4] Si no se usa la aproximacin (12.6.6) y se trabaja con el resultado exacto de
descomposicin de la varianza (12.6.5) se obtiene, en lugar de (12.6.9)
( )
(
(

+ =

= =

H
h
y
H
h
h U U h prop , STSI SI
Uh h
S ) N N (
N
y y N
) N ( n
) f ( N
) t

( V ) t

( V
1
2
1
2
2
1
1
1
(12.6.10).
Luego, )

(

t V
SI
puede ser menor que )

(

t V
STSI
. Si ( ) ( ) <
= =
H
h
H
h
y h U U h
Uh h
S N N
N
y y N
1 1
2 2
1
el diseo
STSI es menos eficiente que el SI. Esto puede ocurrir en la medida que las medias por estrato sean
aproximadamente iguales, lo que implica que ( )

=

H
h
U U h
y y N
h
1
2
sea prximo a cero. En el caso
de que las varianzas por estratos sean todas iguales la asignacin ptima coincide con la
proporcional con lo que, incluso con una asignacin ptima, el diseo SI sera ms eficiente que el
STSI. Este resultado es ms bien una curiosidad terica que algo posible de ocurrir en la prctica.
80
13. OTROS TOPICOS DE MUESTREO ESTRATIFICADO
13.1. Por qu no usar siempre la asignacin ptima?
Bajo el supuesto de que los costos de relevamiento son iguales por estrato y que el tamao de la
muestra es fijo, n, tenemos que la asignacin ptima es

=
=
H
h
y h
y h
h
Uh
Uh
S N
S N
n n
1
.
El problema es que
Uh
y
S es generalmente desconocida con lo que hay que buscar algn tipo de
solucin.
a) Asignacin x ptima
Supongamos que se dispone de la variable auxiliar x conocida para todos los elementos de la
poblacin y que se presume altamente correlacionada con la variable de inters y. Entonces

=
=
H
h
x h
x h
h
Uh
Uh
S N
S N
n n
1
.
Si la correlacin entre x e y es perfecta se tiene U k bx a y
k k
+ = , entonces
H , h , U bS S
h x y
Uh Uh
K 1 = = . Luego, la asignacin coincide con la ptima. En la prctica es
muy usada con buenos resultados.
b) Proporcional
N
N
n n
h
h
= .
Solo requiere conocer los
h
N y como dijimos si H , , h , U S S
h y
Uh
K 1
0
= = coincide con la
ptima.
OBS 13.1.1] El diseo resultante de una estrategia STSI con asignacin proporcional genera
U k
N
n
N
n
h
h
k
= = . Por este motivo es que a este tipo de diseo suele denominarselo
autoponderado.
c) Asignacin proporcional a
y
t
y
y
U
k
U
k
h
t
t
n
y
y
n n
h h
= =

81
asumiendo que U k y
k
0 . Luego, si CV
y
S
CV
h
Uh
U
y
h
= = H , , h K 1 = se tiene

= =
= = =
H
h
y h
y h
H
h
U h
U h
y
y
h
Uh
Uh
h
h h
S N
S N
n
y N
y N
n
t
t
n n
1 1
ya que
CV
S
CV
S
y
Uh Uh
h
y
h
y
U
= = .
OBS 13.1.2] El problema es que no se conocen los valores de
h
y
t ni
y
t , pero la solucin ser la de
siempre, apelar a alguna variable auxiliar. Si
k
x es conocida U k y tal que
U k bx a y
k k
+ =& , tenemos que H h CV CV
Uh Uh
x y
, , 1 K & = = .
13.2. Qu hacemos si
h h
N n > ?
Supongamos que estamos bajo un diseo STSI con asignacin ptima. Supongamos por
comodidad, que la situacin es tal que
H H
h h
N n
H , , h N n
>
= 1 2 1 K
Tomamos
H H
N n = , censamos el estrato H. Nos queda una poblacin con
H
N N elementos
estratificada en
1 2 1 H
U , U , U K estratos. Por otra parte, tenemos que para esta nueva poblacin
hay que asignar por estratos una muestra de tamao
H
N n . Adems

=
+ =
1
1
H
h
y y
H h
t t t , donde
H
y
t es conocido, ya que el estrato H fue censado. Replanteamos el problema desde el principio.
Queremos estimar

=
=
1
1
H
h
y
h
t * t para una poblacin de
H
N N * N = elementos que est
estratificada en
1 2 1 H
U , U , U K estratos. El diseo ser STSI con asignacin ptima de la
muestra de tamao fijo
H
N n * n = .
( )


=


|
|
.
|

\
|
=
1
1
2
2
1
1
1
H
h
y
h
H
h
y h
*
ptima , STSI
Uh
Uh
S N S N
* n
t

V .
13.3. Qu hacemos si 1 =
h
n ?
No contamos con ( )
h h
t

ya que no se pueden estimar la varianza con una sola observacin.


Si 1 >
h
N es razonable suponer que el costo de relevamiento no se ver afectado sustancialmente
si tomamos 2 =
h
n .
82
Si esto no es posible podemos ensayar lo siguiente. Suponemos que el estrato en cuestin, h, tiene
el mismo CV que el siguiente o el que se piense que es ms parecido. Luego si suponemos que
h
Uh
h
Uh
Uh Uh
U
y
U
y
y y
y
S
y
S
CV CV = = =
+
+
+
1
1
1
y
1
1
+
+
=
h
Sh
Uh
S
y
y
^
y
S
CV entonces aproximamos
Uh
y
S por
h
S
y
y
t

y
S
S

h
Sh
Uh
1
1
+
+
= donde
h
S h
y t

= ya que para el estrato h se cuenta con una sola observacin.


Si 0 1
2
= =
Uh
y
h
S N .
Si tenemos muy buena informacin para estratificar de forma que H es grande y 1 =
h
n para
muchos h se usa alguna tcnica para colapsar estratos.
13.4. La construccin de estratos
Este tpico da lugar a varias preguntas.
- Cul es la mejor caracterstica para la construccin de los estratos?
- Cmo deben determinarse los lmites entre los estratos?
- Cuntos estratos hay que formar?
Para una sola variable de inters, y, claramente lo mejor es considerar la distribucin de
frecuencias de la propia variable y. La segunda mejor es, como siempre, alguna x auxiliar
altamente correlacionada con la y.
Dado el nmero de estratos y suponiendo que el diseo es STSI con asignacin ptima los lmites
de los estratos ptimos pueden calcularse en funcin de la distribucin de frecuencias de la
variable y. Dalenius y Hodges (1959) proponen una regla sencilla para el clculo aproximado de
los estratos que se describe a continuacin.
Sean
0
y y
H
y los valores extremos de la variable y en la poblacin. El problema es encontrar
lmites intermedios entre estratos,
1 2 1 H
y , y , y K , tales que la varianza
( )
|
.
|

\
|
=
= =
H
h
y h
H
h
y h opt , STSI
Uh Uh
S N S N
n
t

V
1
2
2
1
1

sea mnima.
Si ignoramos el factor de correccin de poblaciones finitas,
h
h
N
n
1 y multiplicamos por
N
1
,
tenemos que el problema es equivalente a minimizar
=
H
h
y h
Uh
S w
1
.
Supongamos que los estratos son pequeos y numerosos, de forma que la densidad de la variable
y, ( ) y f , pueda ser considerada aproximadamente constante por estrato. Luego, se tiene que
83
( ) ( )
1
1

=

= =

h h h
y
y
h
h
y y f dt t f
N
N
w
h
h
&
donde
h
f es el valor aproximadamente constante dentro de cada estrato. Adems,
( )
1
12
1

=
h h y
y y S
Uh
&
Consideremos ( )

=
h
y
y
h
dt t f z
0
y ( ) ( )


= =
h
h
y
y
h h h h h
y y f dt t f z z
1
1 1
& .
Sustituyendo estas aproximaciones encontramos
( ) ( )

=

=

=
= =
H
h
h h
H
h
h h h
H
h
y h
z z y y f S w
Uh
1
2
1
1
2
1
1
12 & &
As, el problema se reduce a resolver
( )
( ) fijo. s.a.
min
1
0 1
1
2
1
=

=

=

H
h
H h h
H
h
h h
z
z z z z
z z
h
Como
0
z z
H
es fijo, es fcil ver que la solucin se encuentra haciendo
1

h h
z z constante.
As, dada ( ) y f , la regla es escoger los lmites
h
y para h = 1, 2, ..., H-1 de forma que estas
determinen valores de ( )
1

h h h
y y f aproximadamente constantes.
84
EJEMPLO] Supongamos que una poblacin de 10.000 explotaciones agrcolas se quiere
estratificar en 5 estratos de acuerdo a la variable auxiliar rea agrcola. En primer lugar se
clasifican las explotaciones en intervalos (ms bien pequeos) de rea agrcola. Luego se calcula
la raz cuadrada de la cantidad de explotaciones en cada clase
Intervalo de rea
agrcola (has)
Frecuencia
observada
(marco)
Amplitud del
intervalo
Raz cuadrada
de la densidad
Acumulado
Hasta 0.5 2500 0.5 70.71 35.36
De 0.5 hasta 1 1800 0.5 60.00 65.36
De 1 hasta 2 1200 1 34.64 100.00
De 2 hasta 3 950 1 30.82 130.82
De 3 hasta 4 900 1 30.00 160.82
De 4 hasta 5 850 1 29.15 189.97
De 5 hasta 7 790 2 19.87 229.72
De 7 hasta 10 530 3 13.29 269.60
De 10 hasta 15 245 5 7.00 304.60
De 15 hasta 20 120 5 4.90 329.09
De 20 hasta 25 70 5 3.74 347.80
De 25 hasta 30 30 5 2.45 360.05
De 30 hasta 45 15 15 1.00 375.05
TOTAL 10000
Con los datos anteriores los limites de los estratos son: 75.01, 150.02, 225.03 y 300.04. Esto se
debe a que 375.05 dividido 5 da 75.01 y 150.02 es 75.01 por 2, 225.03 es 75.01 por 3, etc. As, los
estratos que se forman son:
- Estrato I De 0 hasta 1 has.
- Estrato II De 1 has. hasta 4 has.
- Estrato III De 4 hasta 7 has.
- Estrato IV De 7 hasta 15 has.
- Estrato V De 15 hasta 45 has.
OBS 13.4.1] La regla anterior implica, bajo una asignacin ptima, que los tamaos de muestra
por estrato sean iguales.
13.5. Determinacin del nmero de estratos
Aqu, las preguntas relevantes son dos.
Cmo decrece la varianza de

cuando el nmero de estratos aumenta?


Cmo afecta al costo de relevamiento el aumento de H ?
Solamente analizaremos algo de la primera pregunta y comentaremos la segunda. Supongamos
que los estratos pueden ser construidos en funcin de los valores de y. Consideremos el caso ms
simple para la distribucin de los valores de y, supongamos que y ( ) d a , a U + , entonces, antes
de la estratificacin tenemos que
12
2
2
d
S
U
y
= .
85
Si se forman H estratos de igual tamao se tiene que
( )
2
2 2
2
12
12
H
d H d
S
h
U
y
= = .
Adems,
H N
H N
N
N
w
h
h
1
= = = .
Si consideramos
( ) ( )
( ) ( ) H
n
H d H N H
H d H N
n
S N
S N
n n
H
h
y h
y h
h
Uh
Uh
1
12
12
1
= = =

=
.
As, la asignacin ptima coincide con la uniforme, o sea, aquella que reparte equitativamente el
tamao de muestra entre los estratos,
H
n
1
. As, ignorando el FCPF, tenemos
( )
( )
2 2
2 2
2 2
1
2
1
12
1
12
1
12
1 1
H
t

V
H
d N
n H
d
H
N
H
n H
d
H
N
n
S N
n
t

V
SI
H
h
H
h
y h opt , STSI
Uh

= = |
.
|

\
|
= |
.
|

\
|
= |
.
|

\
|
=

= =
& &
Entonces, con una distribucin uniforme de la variable de inters la varianza del estimador del
total bajo el muestreo ST decrece con el cuadrado del nmero de estratos.
OBS 13.5.1] Es notable que esta relacin se sostiene, aproximadamente, an cuando se
estratifican distribuciones marcadamente asimtricas usando la eleccin de estratos aproximada,
vista en 13.4 para la asignacin ptima.
Cochran (1961) encontr los valores promedio de
) t

( V
) t

( V
SI
ptima , STSI

para 8 distribuciones distintas de


y. Considerando 3 2, H = y 4, los valores promedio hallados respectivos fueron 0,232; 0,098 y
0,055 en comparacin con
4
1
,
9
1
y
16
1
que se obtienen para una distribucin uniforme de y.
OBS 13.5.2] Este resultado que sugiere que la multiplicacin de estratos puede ser provechosa es
algo engaoso ya que cuando no se usa la propia variable y para determinar los estratos se
requieren correlaciones de ms de 0.9 entre la variable de inters y la auxiliar para que la
construccin de ms de 6 estratos resulte conveniente en trminos de reduccin de varianza.
13.6. Estratificacin a posteriori
4
En muchos casos prcticos algunas variables que son apropiadas para estratificar no se conocen
para toda la poblacin, con lo que no es posible formar de antemano los estratos. De esta forma,
no se conoce el estrato al cual una unidad pertenece hasta que los datos han sido seleccionados.
En lo que sigue veremos la aplicacin clsica de la post-estratificacin.
Supongamos que en la poblacin { } N , , , U K 2 1 = , se consideran H estratos,
H h
U , , U , , U , U K K
2 1
, de tamaos conocidos
h
N , pero que a priori de relevar la muestra no se
dispone de informacin que permita clasificar a las unidades del marco en cada uno de dichos
estratos.

4
Corresponde a las secciones 7.6 y 7.10.2
86
El procedimiento se basa en tomar una muestra s de tamao fijo, n, bajo un diseo SI de toda la
poblacin y clasificar a posteriori las unidades seleccionadas.
Luego, en lugar de usar el estimador usual del total bajo el diseo SI,
S
y N t

, usamos

= =
= =
h
h S
h
k
H
h
h
H
h
S h post
n
y
N y N t

1 1
.
OBS 13.6.1] Si 0 =
h
n para algn H h ,..., 1 = , entonces
post
t

no se puede calcular. Bajo el


supuesto de que el tamao de muestra es lo suficientemente grande como para asegurar veinte o
ms observaciones en cada post-estrato, de forma de evitar estimaciones muy inestables de
h
U
y ,
veremos que la estratificacin a posteriori es casi tan eficiente como el muestreo STSI, bajo
asignacin proporcional.
RESULTADO 13.6.1]
5
Bajo un diseo SI de tamao n el estimador

= =
= =
H
h
S
h
k
h
H
h
S h post
h
h
n
y
N y N t

1 1
es aproximadamente insesgado para estimar
y
t .
Su varianza puede ser aproximada por
( ) ( )
(

+
|
.
|

\
|
=

= =
H
h
y h
H
h
y h post SI
Uh Uh
S w
n
S w
n
f
N t V
1
2
1
2 2
1
1 1

&
donde
N
N
w
h
h
= .
Adems, un estimador para la expresin aproximada de la varianza puede obtenerse de
( ) ( )
(

+
|
.
|

\
|
=

= =
H
h
y
h
H
h
y
h post SI
Sh Sh
S w
n
S w
n
f
N t

1
2
1
2 2
1
1 1
&
OBS 13.6.2] Notemos que el vector ( )
H
n , n , n K
2 1
es aleatorio y cada una de sus componentes
sigue una distribucin hipergeomtrica. Antes de extraer la muestra, lo nico que sabemos es que
=
=
H
h
h
n n
1
, pero no cuntos elementos de s pertenecern a cada grupo, luego las componentes del
vector no son independientes. Lo anterior implica que el estimador
post
t

es la suma de H
sumandos que, a su vez son sumas dentro de cada
h
s y tienen denominador aleatorio,
h
n .
OBS 13.6.3] Para que se pueda calcular ( )
post SI
t

se requiere H ,..., h n
h
1 2 = .
PREVIO 13.6.1] La esperanza y varianza de los n
h
vienen dadas por

5
Este resultado est tomado con modificaciones de las secciones 7.6 y 7.10.2.
87
( )
h h
nw n E = y ( ) ( )
h h h
w nw
N
n N
n V
|
.
|

\
|

= 1
1
Consideremos la variable

=
h
h
hk
U k
U k
z
si 0
si 1
Luego,

=
U
hk h
z N y

=
S
hk h
z n y por tanto
( ) ( ) ( ) ( )
h
h
U
hk
U
hk k
U
hk k
S
hk h SI
nw
N
N
n z
N
n
z I E z I E z E n E = = = = = =

.
Anlogamente
( ) ( ) ( ) ( )

= = = =
U
hl hk l k
U
hk k
S
hk h SI
z z I I Cov z I V z V n V
( )
( )
=

+ =


hl hk
l k
U U hk
z z
N
f f
z f f
1
1
1
2
( )
( )
=

+ =

hl hk
l k
U
h
z z
N
f f
N f f
h
1
1
1
( )
( )
( )
( )
( ) =

= 1
1
1
1 2
1
1
1
2
h h h
N
h
N N
N
f f
N f f C
N
f f
N f f
h
( ) = |
.
|

\
|

|
.
|

\
|
= |
.
|

\
|

=
1 1
1
1 1
N
N N
N
N
n N
N
n
N
N
N f f
h
h
h
h
( ) ( ) ( )
h h h h
w nw f w nw
N
n N
=
|
.
|

\
|

= 1 1 1
1
& .
PREVIO 13.6.2] Dada X una variable aleatoria cualquiera tal que 0 ) 0 ( = = X P , tenemos que
( )
( )
( )
|
|
.
|

\
|
+ =
|
.
|

\
|
X E
X V
X E X
E
2
1
1 1
& .
Escribiendo ( ) + = X E X , con ( ) 0 = E y ( ) ( ) ( ) X V E V = =
2
, tenemos que
( ) ( ) ( )
|
|
.
|

\
|
+
=
+
=
X E X E X E X 1
1 1 1 1
Adems, ( )

=
= + + =
+
0
3 2
1 1
1
1
i
i i
z z z z
z
K , con lo que podemos aproximar a
88
( ) X E + 1
1
por su desarrollo en series de potencias de segundo orden, que requiere 1 < x , y
sustituir en la expresin anterior
( ) ( )
( )
|
|
.
|

\
|

+

=
X E
X E X E X
2
2
1
1 1
& .
Luego, tomando esperanzas
( )
( )
( )
|
|
.
|

\
|
+ =
|
.
|

\
|
X E
X V
X E X
E
2
1
1 1
& .
OBS 13.6.4] La aproximacin es buena con 0 z .
PREVIO 13.6.3] Recordar que
( ) ( ) | | A X E E X E
A
=
( ) ( ) | | ( ) | | A X V E A X E V X V
A A
+ = .
Con los previos anteriores estamos en condiciones de probar el RESULTADO 13.6.1]
Supongamos que ( ) 0 , 2 , 1 , 0 = = = H h n P
h
K . Es decir, dados los
h
w asumimos que el tamao de
muestra n fijo es lo suficientemente grande para no tomar en cuenta la probabilidad de no tener
observaciones en algn grupo.
OBS 13.6.5] Esto es relevante solo en trminos tericos; si la post-estratificacin prevista arroja
algn 0 =
h
n , tendramos que colapsar estratos.
Bajo este supuesto planteamos
( ) ( ) ( )
S post SI n post SI
n t

E E t

E
S
= =
|
|
.
|

\
|
|
|
.
|

\
|
> =

=
h
S S
h
h
k
H
h
h SI n
n
n
y
N E E 0
1
&
=
|
|
.
|

\
|
|
|
.
|

\
|
=

=
H
h
U
h
h
k
k SI h n
h
S
n
n
y
I E N E
1
( ) =
|
|
.
|

\
|

=
H
h
U
h
k
h k SI h n
h
S
n
y
n I E N E
1
|
.
|

\
|
=
|
|
.
|

\
|
=

= =
H
h
U
k n
H
h
U
h
k
h
h
h n
h
S
h
S
y E
n
y
N
n
N E
1 1
( )
y y n
t t E
S
= = .
OBS 13.6.6] En el RESULTADO 13.6.1] pusimos aproximadamente insesgado porque no
hicimos el supuesto de que 0 ) , 2 , 1 , 0 ( = = = H h n P
h
K .
Con procedimientos similares
( ) ( ) ( ) ( ) ( ) = + =
S post SI n S post SI n post SI
n t

V E n t

E V t

V
S S
89
( ) ( ) ( ) = + =
S post SI n y n
n t

V E t V
S S
( ) ( )
S post SI n
n t

V E
S
=
|
|
.
|

\
|
|
|
.
|

\
|
=

=
h
S S
h
h
k
H
h
h SI n
n
n
y
N V E
1
( ) =
|
|
|
.
|

\
|
=

=
H
h h
y
h
h
n
n
S
f N E
Uh
S
1
2
2
1 =
|
|
|
.
|

\
|


= =
H
h
H
h
y
h
h
y h
n
Uh
Uh
S
S N
n
S N
E
1 1
2
2 2
=
|
|
.
|

\
|
=

= =
&
H
h
H
h
y
h
y h
h
n
Uh Uh
S
S N S N
n
E
1 1
2 2 2
1
(PREVIO 13.6.2])
( )
( )
( )
=
(
(

|
|
.
|

\
|
+ =

= =
H
h
H
h
y
h
y h
h
h
h
Uh Uh
S N S N
n E
n V
n E
1 1
2 2 2
2
1
1
& (PREVIO 13.6.1])
( )
=
(
(
(
(

|
|
|
|
.
|

\
|
|
.
|

\
|

+ =

= =
&
H
h
H
h
y
h
y h
h
h h
h
Uh Uh
S N S N
w n
w nw
N
n N
nw
1 1
2 2 2
2 2
1
1
1
1
( ) ( )
=
(
(

|
|
.
|

\
|
+ =

= =
H
h
H
h
y
h
y h
h
h
h
Uh Uh
S N S N
nw
w f
nw
1 1
2 2 2
1 1
1
1
&
( )
( )
=

|
.
|

\
|
=

= =
H
h
H
h
y
h
y
h h
Uh Uh
S N
f N
n
S
n
w
f
w
n
f
N
1 1
2
2
2 2
1
1
1
1
( )
( )
=
)
`

|
.
|

\
|
=

= =
H
h
H
h
y
h
y
h h
Uh Uh
S w
f
f
S
n
w
f
w
n
f
N
1 1
2 2 2
1
1
1
1
( )
=


+
(

|
|
.
|

\
|

|
.
|

\
|
=

= =
H
h
H
h
y
h
y
h
Uh Uh
S
n
w
S w
f
f
f n
f
N
1 1
2 2 2
1
1 1
1 1
( )
)
`

+ |
.
|

\
|
=

= =
H
h
H
h
y
h
y
h
Uh Uh
S w
n
S w
n
f
N
1 1
2 2 2
1
1 1
.
OBS 13.6.7] En esta frmula, el primer trmino ( )

= =
= |
.
|

\
|
H
h
y
h
H
h
y
h
Uh Uh
S w f N
n
S w
n
f
N
1
2 2
1
2 2
1
1 1
es de orden
1
n y coincide con la ( )

V
prop , STSI
, mientras que el segundo trmino,
( ) ( )

=

H
h
y
h
Uh
S w f N
n 1
2 2
2
1 1
1
, es de orden
2
n y representa el aumento en la varianza causado
por la aleatoriedad de los
h
n .
90
CONCLUSION 13.6.1] El diseo SI usando el estimador
post
t

, es casi tan eficiente como el


diseo STSI bajo asignacin proporcional cuando el tamao de muestra es suficientemente
grande.
OBS 13.6.7] Un fuerte incentivo a la post-estratificacin se genera en las encuestas con varias
variables de inters. Si se usa un diseo STSI los estratos debern ser fijos para todas las variables
bajo estudio y puede ocurrir que la construccin de estratos sea capaz de reducir la varianza de los
estimadores para algunas variables, pero que sea muy ineficiente para otras. As, usando el diseo
SI o algn otro diseo sencillo junto con el estimador post-estratificado se abre la posibilidad de
distintas post-estratificaciones segn la variable de inters que se trate.
OBS 13.6.8] Ojo con la manipulacin de la muestra. La post-estratificacin debe determinarse a
priori.
91
14. MUESTREO POR CONGLOMERADOS
14.1. Introduccin
Todos los diseos vistos hasta ahora asumen que se puede realizar muestreo directo de elementos.
Sin embargo, en encuesta de mediana y gran escala el muestreo directo de elementos no es usado
por alguna de las siguientes razones:
1. No se dispone de un marco que identifique a todos los elementos y el costo de crear uno es
demasiado elevado.
2. Los elementos de la poblacin estn muy dispersos en un rea geogrfica muy extensa.
As, el muestreo directo de elementos lleva a costos de relevamiento excesivamente
elevados (costo de transporte de los encuestadores).
Los diseos de muestreo por conglomerados en dos etapas y multietapa no requieren realizar
muestreo directo de elementos ya que en una primera etapa se muestrean grupos o clusters de
elementos, o sea, se son aplicables cuando se cuenta con marcos agrupados.
Muestreo por conglomerados: En este tipo de diseos la poblacin se particiona en
subpoblaciones llamadas conglomerados (o clusters). Luego se toma una muestra aleatoria de
esos conglomerados y todos los elementos de la poblacin que pertenecen a los conglomerados
seleccionados son encuestados.
Muestreo en dos etapas: Aqu, la muestra es resultado de dos etapas de muestreo. En una primera
instancia se particiona la poblacin en subpoblaciones llamadas PSUs (primary sampling units) y
se toma una muestra probabilstica de la poblacin que dichas PSUs forman (muestreo de primera
etapa).
Luego, para cada PSUs seleccionada en la primera etapa se elige un diseo de muestreo (de
segunda etapa). Ahora, las unidades que se muestrean en esta segunda etapa, que denominamos
SSUs (second-stage sampling units) pueden ser elementos o grupos (clusters) de elementos.
Cuando las SSUs son elementos y se toma una muestra aleatoria dentro de cada una de las PSUs
seleccionadasen la primera etapa se dice que el diseo es en dos etapas (2E).
Cuando los SSUs son clusters, todos los elementos de las SSUs seleccionados en la segunda
etapa son encuestados y se habla de muestreo por conglomerados en dos etapas.
Muestreo en varias etapas: Consiste en tres o ms etapas de muestreo. Si las unidades de ltima
etapa son elementos se habla de muestreo multietapa, mientras que si son grupos de elementos
hablamos de muestreo por conglomerados en varias etapas.
14.2. Muestreo por conglomerados
La poblacin es particionada en subpoblaciones (llamadas conglomerados o clusters). Bajo algn
diseo se toma una muestra aleatoria de estas subpoblaciones y la muestra queda formada por
todos los elementos de la poblacin que pertenecen a los conglomerados muestreados. O sea, una
vez tomada la muestra de conglomerados estos son censados. As, { } N , , k , , , U 2 1 = es
particionada en
I
N subpoblaciones,
I
N i
U , U , , U , U
2 1 .
A la poblacin de clusters la
representamos simblicamente tambin por sus etiquetas { }
I I
N , , i , , , U 2 1 =
Esto representa la poblacin de donde se toma la muestra de conglomerados.
92
OBS] El ndice I se usa para identificar todo aquello que tenga que ver con los conglomerados. La
razn de que sea I y no C es que facilita la notacin cuando se trabaje con diseos de ms de una
etapa. Para referirnos a un conglomerado genrico usamos el subndice i. As, el nmero de
elementos del conglomerados
i
U , se anota
i
N , etc.
OBS]
i
U i
U U
I

= y

=
I
U
i
N N
Mecanismo de seleccin
As, ms formalmente, hablamos de muestreo por conglomerados (cluster sampling) cuando:
1. Se toma una muestra
I
S bajo el diseo ( ) .
I
p de la poblacin de conglomerados
I
U . El
tamao de
I
S se anota como
I
S
n .
2. Se observan todos los elementos de la poblacin U que pertenezcan a los conglomerados
seleccionados.
OBS] ( ) .
I
p puede ser cualquier diseo, SI, SY, ST, etc.
OBS] Al conjunto de elementos de la muestra los seguimos anotando como S, luego tenemos que
la muestra viene dada por
i
S i
U S
I

=
OBS] Al total de elementos en la muestra lo anotamos como
S
n , ya que presumiblemente es
aleatorio, por que los
i
N posiblemente seandistintos. Luego,

=
I
S
i S
N n .
Probabilidades de inclusin de primer y segundo orden para conglomerados
( ) ( )

= =
i S
I I i I I
I
s p S i P
( ) ( )

= =
j i S
I I ij I I
I
s p S j i P
y
y
OBS]
i I ii I
= ,
Ij Ii Iij Iij
= y
ij I
ij I
ij I

.
Probabilidades de inclusin de primer y segundo orden para elementos
Supongamos que el elemento U k se encuentra en el conglomerado
I
U i , luego
( ) ( )
i i I I k
U k S i P S k P = = =
( )
( )
( )
j i
i
ij I I
i I I
kl
U l U k
U l k
S j i P
S i P
S l k P

=
=
= =
y si
y si
y
y
OBS]
k kk
= ,
l k kl kl
= y
kl
kl
kl

93
Una representacin til de la poblacin
Esquemticamente la poblacin y los conglomerados formados pueden representarse en el
siguiente cuadro
I
U
U
1
...........
i
U
...........
I
N
U
1
y ...........
1
1 1
+ + +
i
N ... N
y ...........
1
1 1
+ + +
I
N ... N
y
2
y ........... ........... ........... ...........
........... ........... ........... ........... ...........
U
I
N
y ...........
Ni ... N
I
y
+ +
...........
N
y
Totales por
PSU
1
t ...........
i
t
...........
I
N
t
Medias por
PSU
1
y ...........
i
y ...........
I
N
y
As,

=
i
U
k i
y t ,

= =
i
i
U
i
i
i
k
U
N
t
N
y
y y

= = = =
I
i
I I i
U
U i
U
i
U U
k
U
k
y N t y y t .
Adems,

=
I
I
U
I
i
U
N
t
t es el total promedio por conglomerado.
14.3. El estimador de un total poblacional
En las condiciones que venimos trabajando podemos plantear
RESULTADO ]
1
Bajo un diseo de muestreo por conglomerados el estimador de

=
U
k y
y t viene dado por

= = = =
I I I I
S
i
S
Ik
i
S U
k
k
S
k
t
t y
y t

donde
i
I
i
i
t
t

es el total de la i-esima PSU expandida..


Luego, como

I
S
i t

es el estimador de

I
U
i
t tenemos que
( )

=
|
.
|

\
|
=
I
ij
I
U
j i
I
S
i t t t V t


1
Corrresponde al Resultado 4.2.1 en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag)
94
OBS] Por el principio de la expansin la varianza del estimador es de la forma usual, pero
aplicada a la poblacin de totales
i
t y por tanto usando las probabilidades de inclusin de segundo
orden para dichos totales que en este caso coinciden con las probabilidades de inclusin de los
conglomerados.
Luego, el estimador para la varianza del estimador del total queda
( )

=
I
ij
S
j i I t t t

.
OBS] Si ( ) . p
I
es de tamao fijo valen
( )

|
.
|

\
|
=
I
ij U
j i
I
t t t

V
2
2
1

( )

|
.
|

\
|
=
I
ij
S
j i I t t t

2
2
1

OBS] Si ( ) . p
I
es de tamao fijo, y el resultado anterior es aplicable, se tiene
1. Si ( ) 0 = = =

V U i c
t
t
I
Ii
i
i

. As, una buena eleccin de los


Ii
es tomarlos
aproximadamente (ya que los
i
t sern desconocidos) proporcionales a los
i
t para lograr que
( ) 0 =

V .
2. Si los
i
N son conocidos y se presume que los promedios por conglomerado son
aproximadamente constantes,
I U
U i c y
i
= , entonces, tomar
i Ii
N , digamos
i Ii
N = es una buena eleccin, ya que

c
N
c N
y N
t
t
i
i
Ii
U i
Ii
i
i
i
= = = =

, y se tiene
I
i U i c t =

como en 1.
3. Tomar
Ii
iguales
I
U i es una mala eleccin cuando los
i
N son muy distintos entre s,
excepto que todas las
i
U tengan ms o menos el mismo total, si
i
U
N
y
i
1

, digamos
i
U
N
y
i
1
= , entonces tendramos
I U i i
U i y N t
i
= = , con lo que la eleccin de los
Ii

iguales lleva a
I
Ii
i U i c t = = =

, y vale nuevamente 1.
OBS] Las tres consideraciones precedentes apuntan a sealar que los conglomerados con totales
grandes (por tener elementos con valores de
k
y grandes o por tener muchos elementos) deben
tener una alta probabilidad de ser seleccionados. Si no se hacen consideraciones de costos y no se
sospecha de conglomerados con grandes valores de los
k
y , lo anterior indica que hay que
95
seleccionar a los conglomerados ms numerosos, esto aumenta el tamao de muestra
S
n y parece
razonable que aumente la eficiencia del diseo.
14.4. Muestreo simple por conglomerados (SIC)
El diseo SIC queda caracterizado por la aplicacin de un diseo simple de tamao
I
n sobre
I
U ,
o sea, ( ) .
I
p es un SI.
Sirve para ejemplificar que la igualdad en las probabilidades de inclusin de los conglomerados
pueden ser una mala eleccin.
Luego, el estimador del total, su varianza y un estimador de sta vienen dados por

= = =
I i I
S U
k
I
I
S
i y
n
N
t t

I
I I i
S I
S
I
i
I
S U
I
k
I
t N
n
t
N
n
y
N = =

donde

=
I
I
S
I
i
S
n
t
t , es el promedio muestral de los totales por conglomerado.
La varianza
( ) ( )
I
t
I I SIC
n
S
f N t

V
UI
2
2
1 =

donde
I
I
I
N
n
f = y ( )

=
I
I
UI
U
U i
I
t
t t
N
S
2 2
1
1
y

=
I
I
U
I
i
U
N
t
t es el total promedio por
conglomerado.
El estimador de la varianza del estimador
( ) ( )
I
t
I I SIC
n
S
f N t

SI
2
2
1 =

donde ( )

=
I
i SI S
S i
I
t
t t
n
S
2
2
1
1
y

=
I
I
S
I
i
S
n
t
t .
OBS] El SY es equivalente al SIC con 1 =
I
n , y donde los
I
N conglomerados corresponden a las
posibles muestras del SY. Ms an, el SY con m arranques aleatorios puede verse como un SIC con
m n
I
= y ma N
I
= .
14.5. Efecto diseo del SIC
Para analizar el deff del diseo SIC debemos usar (nuevamente) la descomposicin de la varianza
y la definicin del coeficiente de homogeneidad que ahora se aplica a los conglomerados.
96
Empecemos recordando que SST = SSW + SSB
( ) ( ) ( )

= + =
I
i
I i
i U
U U i
U U
U k
U
U k
y y N y y y y
2 2 2
( ) ( )

+
I
i
I
Ui U
U U i
U
y i
y y N S N
2 2
1 .
O, lo que es lo mismo
( ) ( ) SSB S N N S N
W U
y I y
+ =
2 2
1 .
Por otra parte, el coeficiente de homogeneidad, , fue definido como
2
2
1
U
W
y
y
S
S
=
donde ( )

=
I i
i W U U
U k
I
y
y y
N N
S
2 2
1
.
Luego, se tiene que
( )
( ) ( )
I
U
i
U
y i
y
N N
SSW
N
S N
S
I
I
Ui
W

1
1
2
2
.
con lo que
2
W
y
S tiene una interpretacin simple, es el promedio ponderado de las
I
N varianzas de
los conglomerados.
En funcin de lo anterior, podemos escribir
( )
( ) 1
1

=
N SST
N N SSW
I
.
OBS] Como ya se coment el coeficiente de homogeneidad puede interpretarse como el
2
C
R de
una regresin, sin trmino independiente, de los valores de
k
y sobre
I
N variables indicadoras de
pertenencia al conglomerado. (Ver seccin 9.9) .
OBS] Usando lo anterior, el coeficiente de homogeneidad satisface 1
1

I
I
N N
N
.
As, un valor pequeo de implica que los elementos en un mismo conglomerado son dismiles
con respecto a la variable de inters,
k
y . Por su parte, un valor alto de implica una gran
homogeneidad de los valores de y
k
en cada conglomerado.
Si 1 = tenemos que todos los elementos de cada conglomerados son iguales entre s, mientras
que
I
I
N N
N


=
1
implica que el promedio ponderado de varianzas al interior de los
97
conglomerados es igual a la varianza de la poblacin y los conglomerados son muy dismiles entre
s.
Sean
I
N
N
N = el promedio de elementos por conglomerado,
( )
I
I I I
n
f N K
1
1
2
= y
( ) ( )

= =
I
i i U
U i i
I
U i i
y N N N
N
y N , N COV COV
2 2
1
1
(Para la demostracin de que COV es la covarianza entre
i
N y
2
i
U
i
y N ver NOTA 1] al final de
este apartado).
Luego, se puede mostrar que
COV S N
N
N N
S
U UI
y
I
I
t
+
|
|
.
|

\
|

+ =
2 2
1
1
donde ( )

=
I
I
UI
U
U i
I
t
t t
N
S
2 2
1
1
y
I
U
I
i
U
N
t
N
t
t
I
I
= =

.
2
i
U
i
y N .
(Ver NOTA 2] al final de este apartado).
Ahora bien, como ( ) ( )
I
t
I I SIC
n
S
f N t

V
UI
2
2
1 =

, tenemos que
I y I
I
I
t
K COV S K N
N
N N
S
U UI
+
|
|
.
|

\
|

+ =
2 2
1
1 .
Si consideramos ( ) n N n n E
I S SIC
= = se obtiene N f
N
N
n n
I
I
I
= = y
I
f f = .
Luego
( ) ( )
n
S
f N t

V
U
y
SI
2
2
1 =

( )
I
y
I
I
n
S
N
N
f N
U
2
2
1 = ( )
I
y
I I
I
n
S
f N
N
N
U
2
2
1 =
2
U
y
I
S K N = .
As
( )
2
1
1
U
y
I
I
S N
COV
N
N N
t

, SIC deff +

+ =

.
98
CONCLUSIONES] Sobre la eficencia del SIC.
1. Supongamos que
I i
U i N N = . Luego, 0 = COV y
( ) ( ) + =

+ =

1 1
1
1 N
N
N N
t

, SIC deff
I
I
.
As, ( ) ( ) 0 < <

t

V t

V
SI SIC
, o sea, si los conglomerados son muy poco homogneos.
Usualmente, ocurrir lo contrario, tenemos que los elementos que forman los conglomerados son
"cercanos", con lo que son relativamente homogneos, y por tanto, 0 > y es ms eficiente el SI.
EJEMPLO] Si 08 0, = y 300 = N , se tiene que ( ) 25 =

, SIC deff . Un horror! y es peor a


medida que aumenta
I
N N N = .
2. Ahora supongamos que los conglomerados variar en tamao de forma que la COV entre
i
N y
2
i
U
y N
i
es positiva, lo que parece ser bastante lgico, luego la situacin es an peor que la de
1. ya que
( ) ( )
2
1 1
U
y
S N
COV
N t

, SIC deff + + =

.
Respecto de COV supongamos 0 > COV , pero que el asume el valor ms favorable,
I
I
N N
N


=
1
. Este caso se verifica si
I U U
U i y y
i
= .
As
( )
2 2
I
U U
N
I I SIC
S y K COV K t

V = =

ya que
( )

=
I
U
U
i i
I
N N N
N
y COV
2 2
1
1

|
|
|
.
|

\
|
|
|
.
|

\
|

=
I
U
U
I
i i
I
N
N
N N
N
y
2
2 2
1
1
2 2
I
U U
N
S y =
donde ( )

=
I
I
U
U
i
I
N
N N
N
S
2
2
1
1
.
As,
( )
( )
( )
2
2
2 2
|
|
.
|

\
|
= = =

U
I
U
U
I
U U
y
N
y
I
N
I
SI
SIC
CV
CV
N
S K N
S y K
t

V
t

V
t

, SIC deff
que puede ser mucho mayor que la unidad sobre todo para valores grandes de N .
99
As, tenemos que la estrategia ( )

, SIC suele ser mucho ms ineficiente que la ( )

, SI en casos
en que los conglomerados son muy homogneos entre s y/o tiene mucha variabilidad en tamao.
Sin embargo, la estrategia ( )

, SIC suele ser mucho ms barata que la ( )

, SI y no tiene sentido
basar la comparacin con ( ) n N n n E
I S SIC
= = .
NOTA 1]
( ) ( ) =
|
|
|
.
|

\
|

=

I I
i
i i
U U
I
U
i
U
i i
I
U
i i
N
y N
y N N N
N
y N , N COV
2
2 2
1
1
( ) =


I I I I I
i
i
i
i U U U U U
I
U i
U i
I
U i
i U i
I
N
y N
y N N
N
y N
N y N
N
2
2
2
2
1
1
( ) =


I I I
i i
i U U U
I
U i
I
U i
U i
I
N
y N
N
N
y N
N y N
N
2 2
2
2
1
1
( ) =


I I
i
i U U
I
U i
U i
I
N
y N
N y N
N
2
2
1
1
( ) =


I I
i
i U U
I
U
i U i
I
N
y
NN y N
N
2
2
1
1
( ) { }

I
i U
U i i
I
y N N N
N
2
2
1
1
.
NOTA 2]
COV
N
N N
S N S
I
I
y t
U UI
+
|
|
.
|

\
|

+ =
1
1
2 2
=
|
|
|
.
|

\
|
|
|
|
.
|

\
|

+ =
|
|
.
|

\
|

+
2
2
2 2
1
1
1
1
1
U
W
U U
y
y
I
I
y
I
I
y
S
S
N
N N
S N
N
N N
S N
=
|
|
.
|

\
|

+
SST
SSW
N
N N
S N
I
I
y
U
1
1
2
=
|
|
.
|

\
|

SST
SSW
N
N
S N
I
y
U
1
1
2
{ } SSB
N
N
SSW SST
N
N
I I
1 1
=

.
As
= +

= +
|
|
.
|

\
|

+ COV SSB
N
N
COV
N
N N
S N
I I
I
y
U
1 1
1
2
100
( ) ( ) { }= +


I I
i i U U
U i i U U i
I
y N N N y y N N
N
2 2
1
1
( ) { }= + +


I I I I
i i i
I
i
i
U U U U U
U i U i U i
U
U U i i
I
y N N y N y N N y y N N y N N
N
2
2
2 2
2
1
1
( ) { }

+

I I
i i U U
U i U U i
I
y N y y N N
N
2
1
1
ya que
2
2 2 2 2
U U
U
U i U U
U
U i
y N N t y N y N y N y y N N
I
i
I
i
= = =

.
Por ltimo
( ) { }=


I
I
i
U
U
I U i
I
t N y N
N
2 2
1
1
( )
2
2
1
1
I
U
I
I
t
U
U
i
I
S t t
N
=


.
101
102
15. MUESTREO EN DOS ETAPAS
15.1. Introduccin
Como vimos, lo usual es que ( ) ( )

t V t V
SI SIC

> y el Deff(SIC,

) sea varias veces mayor que 1.


Esto se explica por la tendencia de los elementos de un mismo conglomerado a ser homogneos
entre s, lo que implica un coeficiente de homogeneidad positivo y elevado. Adicionalmente, la
variabilidad del nmero de elementos por conglomerado tambin explicaba la ineficiencia de la
estrategia (SIC ,

t

) frente a la (SI,

).
La forma ms obvia de reducir ( )

t V
SIC

es aumentando el nmero de conglomerados


seleccionados. Si bien esto aumenta los costos parece lgico pensar que estos sean menores, para
un mismo
S
n , que en el caso de seguir una estrategia (SI,

).
Una forma de aumentar el nmero de conglomerados seleccionados con un aumento menor en el
costo es no censar los conglomerados seleccionados y tomar muestras dentro de estos. Por otra
parte, si el problema de la ineficiencia del SIC se debe a que los conglomerados son muy
homogneos, tomar muestras para estimar los totales de los conglomerado selecciondos debera
ser fcil, en el sentido de que bastaran muestras con modestas fracciones de muestreo para
obtener estimadores del total con varianzas reducidas.
15.2. Notacin y conceptos bsicos
La poblacin { } N k U , , , 2 , 1 = es particionada en
I
N conglomerados llamados PSUs
I
N i
U U U U , , , ,
2 1
.
Al conjunto de PSUs, la poblacin de PSUs, la anotamos como { }
I
N i I
U , U , U U
1
= .
El tamao de
i
U , el nmero de elementos de
i
U , lo anotamos como
i
N . Luego

=
I
U
i
N N .
Un mecanismo de seleccin general en dos etapas
1. Primera etapa: Se toma una muestra
I
S de
I
U ( )
I I
U S segn el diseo ( ) . p
I
.
2. Segunda etapa: Para todos los
I
S i , se toma una muestra
i
S de
i
U ( )
i i
U S segn el
diseo ( )
I i
S . p .
Como resultado se obtiene una muestra S de elementos de U ( ) U S tal que
I
S i
i
S S

=
El nmero de PSUs seleccionadas en
I
S lo anotamos como
I
S
n o
I
n segn el diseo de primera
etapa ( ) . p
I
sea de tamao aleatorio o fijo.
El nmero de elementos en
i
S con
I
s i se anota como
i
S
n o simplemente
i
n si ( ) . p
I
es de
tamao fijo.
El nmero total de elementos muestreados ser como siempre

=
I
S i
i S
n n .
103
Los supuestos de invarianza e independencia
Lo anterior permite cualquier tipo de diseos para la primer y segunda etapa, incluso diseos de
segunda etapa que dependan del resultado de la primera etapa y diseos de segunda etapa no
independientes. Esto es demasiado amplio con lo que restringiremos las posibilidades haciendo
dos supuestos.
1. Invarianza:
I
U i y i S
I
se tiene que ( ) ( ) . p S . p
i I i
= .
O sea que, sea cual sea la muestra de PSUs, si sale el conglomerado i el diseo de
muestreo en la segunda etapa para dicho conglomerado ser ( ) . p
i
. As, hablamos de
invarianza del diseo de segunda etapa.
2. Independencia: ( ) ( )

= =
|
|
.
|

\
|

I
I s i
I i I I
s i
i
S . p S S p S S p .
En palabras, el diseo de muestreo en una PSU dada, es independiente del diseo llevado
adelante en cualquier otra PSU.
15.3. El diseo en dos etapas
En lo que sigue trabajamos suponiendo que se cumplen los dos supuestos anteriores y que las
SSUs estn compuestas por elementos y no por clusters o conglomerados de elementos. En estas
condiciones hablamos de diseos en dos etapas. En funcin de esto, podemos escribir
( ) ( ) ( ) ( )

= = =
|
|
.
|

\
|
=
I I
I s i
i
s i
I i I I
s i
i
. p S S p S S p S S p S p
Probabilidades de inclusin para la primera etapa, las correspondientes a ( ) . p
I
( ) ( )
I i I Ii
S U P S i P = =
( ) ( )
I j i I Iij
S U U P S j i P = = y y
Luego,
Ij Ii Iij Iij
= , con ( )
Ii Ii Iii
= 1 . Adems
Iij
Iij
Iij

.
Probabilidades de inclusin de segunda etapa, las correspondientes a ( ) . p
i
( )
I i / k
S i S k P =
( )
I i / kl
S i S l k P = y
Luego,
i / l i / k i / kl i / kl
= , con ( )
i k i k i kk / / /
1 = . Adems
i / kl
i / kl
i / kl

.
104
Probabilidades de inclusin de elementos
Se deducen directamente de los supuestos de invarianza e independencia.
i i / k Ii k
U k =

=
=
j i j / l i / k Iij
i i / kl Ii
i i / k Ii
kl
U l U k
U l k
U l k
y si
y si
si


Por ejemplo, para


i
U k y
j
U l se tiene que
( ) ( ) ( ) ( )
Ii i / k I I i i I
S i P S i / S k P S k S i P S k P = = = y .
( ) ( ) = =
j i I
S l S k S j i P S l k P y , y y
( ) ( ) ( )
Iij j / l i / k I I j I i
S j i P S j i / S l P S j i / S k P = y y y
15.4. El estimador de un total poblacional
Con los
k
y
kl
anteriores se est en condiciones de aplicar el resultado general para obtener

,
( )

V
ST 2
y ( )

ST 2
.
Sin embargo, seguiremos un camino distinto que nos va a permitir expresar ( )

V
ST 2
como suma
de dos componentes,
PSU
V y
SSU
V , que corresponden a la variabilidad de

que aporta cada


etapa de muestreo.
RESULTADO]
2
Bajo un diseo en dos etapas el estimador de un total poblacional puede
escribirse como

= = = = =
I i I i I i I
S
Ii
i
S
i / k
S
Ii
S
i / k
k
S S S
Ii i / k Ii
k
S
k
t

y
y y
y t


1 1
donde

= =
i i
S
i / k
k
S
i / k i
y
y t


es el estimador de
i
t .
La varianza del estimador viene dada por
( )
SSU PSU ST
V V t

V + =
2

2
Corresponde al resultado 4.3.1
105
donde

=
j i
U
Iij PSU
t t V
I

=
I
U
Ii
i
SSU
V
V

donde
=
i
U
i / l
l
i / k
k
i / kl i
y y
V

.
El primer componente de la varianza,
PSU
V , es estimado insesgadamente por
i S
Ii Ii Ij
j
S
Ii
i
Iij
PSU
V

I I

|
|
.
|

\
|
= 1
1 1

donde
i
S i / l i / k
i / kl
i
i
y y V

=

.
Por su parte, el segundo componente,
SSU
V , es estimado insesgadamente por

=
I
S
Ii
i
SSU
V

2
Finalmente,
( )
SSU PSU U
Ii
i
j i
U Iij ST
V V
V
t t t

V
I I
+ = + =


2
donde =
i / l i / k U i / kl i
y y V
i

.
La varianza anterior es estimada insesgadamente por
( )
SSU PSU
S
Ii
i
Ij
j
Ii
i
S
Iij
ST
V

I I
+ = + =



2
con =
i / l i / k S
i / kl
i
y y V

i

, es insesgado para ( )

V
ST 2
.
Antes de la demostracin del resultado veamos tres observaciones y un previo.
OBS]
PSU
V

puede ser negativa.


OBS] En muchos casos puede ser til contar con estimaciones de la contribucin que hacen a la
varianza de

cada una de las etapas de muestreo. En este sentido,


PSU
V

y
SSU
V

constituyen
estimadores insesgados de
PSU
V y
SSU
V .
106
Lo anterior puede tener utilidad para modificar los tamaos de muestra
I
S
n y
i
S
n en funcin de
las estimaciones de
PSU
V

y
SSU
V

que arroje una muestra de iluminacin.


OBS] Es ilustrativo analizar los casos extremos en que alguno de los componentes de
ST
V
2
, se
anulan.
1. Si
I I
U S = , se censan las PSUs . Se tiene que 0 =
PSU
V . Luego,

= =
I
U
i SSU ST
V V V
2
.
Esto coincide con ( )

t V
ST

donde los estratos son las PSUs .


2. Si
I i i
S i U S = , se censan las PSUs seleccionadas. As, tenemos que 0 =
SSU
V .
Luego,

= =
I
U
j i
Iij PSU ST
t t V V

2
. Esta situacin coincide con la varianza de un
diseo por conglomerados donde los conglomerados coinciden con las PSUs .
PREVIO] Propiedades de


= =

i i
S
i / k
k
S i / k i
y
y t


, estimador de

=
i
U
k i
y t dada la
muestra de primera etapa.
( ) ( )
i
S
i / k p i p I i p
t y E t

E s t

E
i
i i i
=
|
.
|

\
|
= =



.
( ) ( ) = =
|
.
|

\
|
= =

i i
i i i U
i / l i / k i / kl
S
i / k p i p I i p
y y y V t

V s t

V


i
U
i / l
l
i / k
k
i / kl
V
y y
i
=


.
Por ltimo, un estimador insesgado para la varianza se obtiene de la manera usual
( ) ( )
i
S
i / l i / k
i / kl
i p I i p
V

y y t

s t

i
i i
= = =



.
OBS] Si ( ) . p
i
es de tamao fijo valen las expresiones alternativas para la varianza y el estimador
de la varianza.

|
|
.
|

\
|
=
i
U i / l i / k i / kl i
y y V
2
2
1

|
|
.
|

\
|
=
i
S i / l i / k
i / kl
i
y y V

2
2
1

.
107
Demostracin
I.

es insesgado para estimar

=
U
k
y t
II.
( ) ( ) ( ) =
(

=
|
|
.
|

\
|
= =

I
i I
I
i I i I S
I i p
Ii
p I
S
Ii
i
p p I p p
s / t

E E s
t

E s / t

E t



1
( ) t t E
t
E t

E E
I
I
I
I
I
i I S
i
p
S
Ii
i
p
S
i p
Ii
p
=
(

=
(

=
(





1
.
III. Varianza de

, ( )

t V
ST

2
Vamos a partir de una identidad til
( )

S
S
i i
Ii
I
S
U
i
S
Ii
i
R
t t
Q
t
t
t t
I I I

+ =

.
OBS] El primer y ltimo sumando de la derecha despus de aplicar distributiva se anulan.
OBS]
I
S
Q depende nicamente de la primera etapa de muestreo y dado
I
s , es un nmero fijo.
S
R
depende de las dos etapas de muestreo, ya que

=
i
S
i k i
y t
/

. Luego
( ) ( ) ( ) ( ) ( )
I S S p p I S S p p S S ST
s / R Q V E s / R Q E V R Q V t t

V t

V
I i I I i I I
+ + + = + = =
2
.
Notemos ahora que
( )
I I i
S I S S p
Q s / R Q E = +
( ) ( )
I S p I S S p
s / R V s / R Q V
i I i
= +
ya que
I S
s / Q
I
es fijo y ( ) 0 =
I S p
s / R E
i
.
Luego se tiene
( ) ( ) ( ) ( )
SSU PSU I S p p S p ST
V V s R V E Q V t V
i I I I
+ = + = /

2
Analicemos por separado los dos trminos de esta ltima expresin
II. 1 ( )
PSU
j i
U
Iij
S
i
p
S
Ii
i
p S p
V t t t V
t
V Q V
I I
I
I
I I I
= =
|
.
|

\
|
=
|
|
.
|

\
|
=

108
II. 2 Como
( ) = =
|
|
.
|

\
|

I i I i
S I i p
Ii
S I
Ii
i
p
s / t

V s
t


2
1
( )

= =
i / l i / k
U
i / kl
S
Ii
S
Ii
i
S
i p
Ii
y y
V
t

V
I I I I
i

2 2 2
1 1


.
Luego, ( ) ( )

= =
|
|
.
|

\
|
=
I I
I I I U
SSU
Ii
i
S
Ii
i
p I S p p
V
V V
E s / R V E

2
.
III. Finalmente, veamos que
PSU
V

y
SSU
V

son insesgados de
SSU PSU
V V +
III.1
i S
Ii Ii Ij
j
S
Ii
i
Iij
PSU
V

I I

|
|
.
|

\
|
= 1
1 1

es insegado para
PSU
V .
( ) ( ) = =
I PSU p p PSU
s / V

E E V

E
i I
(

|
|
.
|

\
|

(
(

I i
S
Ii Ii
p p I
Ij
j
Ii
i
S
Iij
p p
s V

E E s
t

E E
I
i I
I
i I
1
1 1

Analicemos los dos trminos de la ltima expresin por separado


III.1.a)
( )


=
|
|
.
|

\
|

I
i
I
i
S
Ij Ii
j i p
Iij
I
Ij
j
Ii
i
S
Iij
p
t

E
s
t

E

Como ( )

= +
=

j i t t
j i V t
t

E
j i
i i
j i p
i
si
si
2
la expresin anterior queda
2
Ii
i
S
Iii
Ij
j
Ii
i
S
Iij
V
t
t
I I



Tomando esperanza en ( ) .
I
p

=

+ =
|
|
|
|
.
|

\
|

+
|
|
|
|
.
|

\
|

I I I
I
I
I
U U
Ii
i
Iii
j i
Iij
S
Ii
i
Iii
p
S
Ij
j
Ii
i
Iij
p
V
t t
V
E
t
t
E
2 2

( )
i
U
Ii
PSU
Ii
i
U
Ii Ii PSU
V V
V
V
I I

|
|
.
|

\
|
+ = + 1
1
1
2

.
109
III.1.b) ( )
i
S
Ii Ii
S
i p
Ii
I
S
i
Ii Ii
p
V V

E s V

E
I I
i
I
i

|
|
.
|

\
|

=
|
|
.
|

\
|
|
|
.
|

\
|

1
1
1 1 1
1
1
Tomando esperanza en ( ) .
I
p

|
|
.
|

\
|

=
|
|
.
|

\
|
|
|
.
|

\
|

I I
I
U
i
Ii
i
S
Ii Ii
p
V V E 1
1 1
1
1
Por ltimo de III.1.a) y III.1.b)
( )
PSU
U
i
Ii
U
i
Ii
PSU PSU
V V V V V

E
I I
=
|
|
.
|

\
|

|
|
.
|

\
|
+ =

1
1
1
1

III.2

=
I
S
Ii
i
SSU
V

2
es insesgado para
SSU
V .
( ) ( )
I SSU p p SSU
s V

E E V

E
i I
=
Tomando esperanza en ( ) .
i
p :
( ) =
|
|
.
|

\
|
=
I S
Ii
i
p I SSU p
s
V

E s V

E
I i i

( )
= =

I I
i
S
Ii
i
S
Ii
i p
V
V

E
2 2

Tomando esperanza en ( ) .
I
p

=

=
|
|
.
|

\
|

I I
I
U
SSU
Ii
i
S
Ii
i
p
V
V V
E
2
.
As queda demostrado que
( )


+
= +
|
|
.
|

\
|
= + =
I I
I I I
S
Ii
i
Ij
j
Ii
i
S
Iij
SSU
S
Ii
i
PSU
i
S
Ii Ii Ij
j
S
Ii
i
Iij
SSU PSU ST
V
t
t
V
V
V
V
t
t
V V t V
2
2
2

1
1 1



es insesgado para estimar
110
( )

+ =
I I
U
Ii
i
j
U
i
Iij ST
V
t t t


2
EJEMPLO] El diseo en dos etapas SISI
En la primera etapa se sigue un diseo SI de tamao fijo
I
n de las
I
N PSUs. En la segunda etapa
se toma para cada una de las PSUs seleccionadas, una muestra que tambin sigue un diseo SI de
tamao
i
n de los
i
N elementos de la i-sima PSU seleccionada. As, aplicando el resultado
anterior


= = =
I I
i
S
i
I
I
S
S i
I
I
S k
t

n
N
y N
n
N
y t


con

= =

i
i
S
k
i
i
S i i
y
n
N
y N t

.
( ) ( ) ( )

+ =

I
Ui UI
U
i
y
i i
I
I
I
t
I I ST
n
S
f N
n
N
n
S
f N t

V
2
2
2
2
2
1 1
donde
I
I
I
N
n
f = y
i
i
i
N
n
f = , ( )

=
I
I UI U
U i
I
t
t t
N
S
2
2
1
1
,

=
I
I U
I
i
U
N
t
t ,
( )

=
I
Ui U
Ui k
I
y
y y
N
S
2 2
1
1
y

=
i
i U
i
k
U
N
y
y .
( )

ST 2
es la copia muestral de ( )

V
ST 2
, o sea se cambian
2
UI
t
S y
2
Ui
y
S por
2
2

1
1
(

|
|
.
|

\
|

=
I i
SI S S
i
i
i
i
t
n
t
t
n
S

y ( )

=
i
i Si S
S k
I
y
y y
n
S
2 2
1
1
.
15.5. Diseos autoponderados
Muchas encuestas en dos o ms etapas usan diseos que se denominan autoponderados. Este tipo
de diseo se caracteriza por intentar obtener probabilidades de inclusin aproximadamente iguales
para todos los elementos de la poblacin,
N
n
k
= . De esta forma el estimador de una media
poblacional es
S
S
k
S
k U
y
n
y
y
N
y

= = =


1
as, las observaciones muestrales intervienen con el mismo ponderador,
n
1
.
Supongamos un diseo en dos etapas y que se cuenta con
i
u conocida, una medida aproximada
del tamao de la i-sima PSU
I
U i . Por comodidad, supongamos adems que la
111
proporcionalidad es exacta, o sea,
I i i
U i N u , o, simplemente
I i i
U i N c u = .
En la primera etapa se selecciona una muestra
I
s de tamao
I
n fijo y probabilidades de seleccin
proporcionales al tamao de las PSUs
N
N
n
u
u
n
i
I
U
i
i
I Ii
I
= =

ya que cN N c u
I I
U
i
U
i
= =

y
I i i
U i N c u = .
En la segunda etapa se aplica en cada PSU seleccionada un diseo SI de tamao fijo =
i
n
I
S i . Luego
i i
i
i k
N N
n
= =
/
Tenemos entonces que
U k
N
n
N
n
N
N
N
n
I
i k Ii k
i
i k
i
I Ii
= = = =

=
=

/
/
.
ya que el tamao de muestra es
I s
n n n = =
Con esta estrategia logramos

= =
I i
S S S
k
k
k
y y
t

y
S
S
k U
y y
N
t
N
y = = =

OBS] Las ventajas son bsicamente derivadas de la sencillez del diseo.


1. Clculo sencillo de estimadores de totales y varianzas.
2. Como el nmero de entrevistas por PSU es
I i
U i n = es fcil repartir el trabajo de
campo.
3. No se requiere un conocimiento exacto de
i
N . Si se dispone de
i i
N u dconocida
I
U i alcanza tomar
N
N
n
u
u
n
i
I
U
i
i
I Ii
I
= =

y segn el tamao de muestra que se


quiera
I
n n = . Esto asegura U k
k
=
15.6. Muestreo en dos etapas y muestreo con reemplazo de las PSUs
Son diseos muy usados en la prctica, ya que son fciles de implementar y permiten simplificar
los clculos de la varianza con relativamente poca prdida de eficiencia.
112
Consideremos el siguiente tipo de mecanismo de seleccin en 2 etapas.
i) En la primera etapa se selecciona, segn un esquema de extracciones con reemplazo, una
muestra ordenada, ( )
I
m v I
i , , i , , i , i OS
2 1
= . Es decir, en la poblacin de PSUs se
realizan, de manera independiente, m extracciones con reposicin de manera que, en cada
extraccin, la probabilidad de que la i-sima PSU sea seleccionada es exactamente
I i
N , , i p 2 1 = y 1 =

I
U
i
p .
ii) La segunda etapa es invarinate e independiente respecto de la primera. En cada una de las
PSUs seleccionadas en la primera etapa se toma una muestra (o una muestra ordenada) de
los elementos de cada PSU. Si una PSU es seleccionada ms de una vez en la primera
etapa sta debe ser muestreada de manera independiente tantas veces como haya sido
seleccionada en la primera etapa.
Sea
iv
t

un estimador de
i
t respecto a la primera etapa tal que
( )
i iv
t os t

E =
( )
iv iv
V os t

V =
RESULTADO]
3
En un diseo en dos etapas con las caractersticas anteriores un estimador
insesgado de total

=
U
k y
y t viene dado por

=
=
I
m
v i
iv
I
p
t
m
t
1

La varianza del estimador


( )

= =
+
|
|
.
|

\
|
=
I I
N
i i
i
I
N
i i
i
i
I
p
V
m
t
p
t
p
m
t V
1
2
1
1 1

Y un estimador insesgado de la anterior


( )
( )
2
1
1
1

=
|
|
.
|

\
|

=
I
m
v i
iv
I I
t

p
t

m m
t

Prueba.
Sean
iv
iv
v
p
t
z = y
iv
iv
v
p
t

= .
Como
mI i iv i
z z z , , , ,
1
son iid, y cumple que
( ) ( ) | | ( ) t z E os z

E E z

E
v OS v OS v
= = =
y

3
Corresponde al resultado 4.5.1
113
( ) ( ) | | ( ) | | ( )

= =
+
|
|
.
|

\
|
=
(
(

+ = + =
I I
N
i i
i
N
i i
i
i
iv
iv
v OS v OS v OS v
p
V
t
p
t
p
p
V
E z V os z

V E os z

E V z

V
1 1
2
2
ya que

= =
= = =
I I
m
v
v
I
m
v
v
i
iv
I
z

m
z

p
t

m
t

1 1
1 1
podemos aplicar el resultado conocido
( ) ( ) t z

E t

E
v
= =
( )
( )

= =
+
|
|
.
|

\
|

= =
I I
N
i i
i
I
N
i i
i
i
I I
v
p
V
m t p
t
p
m m
z

V
t

V
1 1
2
1 1
( )
( )
I
v
m
z

=
donde ( )

= = = =
=
|
|
.
|

\
|

=
|
|
.
|

\
|

=
I I I I
m
v
m
v
v
I
I v
I
m
v
m
v
v
I
v
I
v
z
m
m z
m
z
m
z
m
z V
1
2
1
2
1
2
1

1
1

1
1


= =
|
|
.
|

\
|

=
(

|
|
.
|

\
|

I I
m
v iv
iv
I
m
v
I
iv
iv
I
t

p
t
m
t

m
p
t

m
1
2
1
2
1
1
1
1
.
114
16. OTROS PROBLEMAS DE ESTIMACIN
16.1. Estimadores con varias variables de inters
Casi todas las encuestas por muestreo involucran ms de una variable de inters. As, vamos a
analizar el caso en que se desea etimar el total de varias variables de inters y cada total es
estimado por sus correspondiente estimador .
Supongamos que hay q variables de inters,
q
y , , y , y
2 1
. Sean
jN j j
y , , y , y
2 1
los N valores
poblacionales de la variable j, q , , , j 2 1 = . El objetivo es estimar los q componentes del vector
( ) ' t , , t , , t , t
q j

2 1
= t donde

=
U
jk j
y t .
Como es usual suponemos que se selecciona una muestra de la poblacin U segn el diseo ( ) s p
con probabilidades de inclusin de primer y segundo orden dados por
k
y
kl
positivas.
Para cada S k se observa el vector ( ) ' y , , y , , y , y
qk jk k k

2 1
=
k
y y cada total es estimado por
su correspondiente estimador , ( ) ' t

, , t

, , t

, t

q j

2 1
= t donde

=
S
jk j
y t

.
Claramente, ( ) t t =

E .
RESULTADO]
1
En las condiciones anteriores se tiene que la matriz de varianzas y covarianzas de

viene dada por ( ) ( )( ) { } ' t

V =

t t t una matriz simtrica de qxq tal que en los
elementos de la diagonal principal se encuentran las varianzas de los estimadores de cada uno de
los totales, ( )

=
U
jl jk kl j
y y t

, y fuera de la diagonal principal se tiene que el elemento


genrico ij viene dado por la covarianza entre
i
t

y
j
t

, ( )

=
U
jl ik kl j i
y y t

, t

COV


.
La matriz ( )

V es estimada insesgadamente por ( )

con elementos genricos dados por

S
jl ik
kl
S
jl jk
kl
j i y y
j i y y
si
si


que corresponden a ( )
j
t

y ( )
j i
t

, t

V O

C respectivamente.
El resultado concerniente a los elementos de la diagonal principal de ( )
j
t

V y ( )
j
t

ya fueron
analizados. El resultado concerniente a los elementos fuera de la diagonal principal de ambas
matrices es un ejercicio del primer repartido, y viene dado por

1
Corresponde al Resultado 5.4.1 en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag)
115
( ) =
|
|
.
|

\
|
=


U jl l
U ik k j i
y I , y I COV t

, t

COV

( )

= =
U jl ik kl jl ik U
l k
y y y y I , I COV

Luego, ( )
j i
t

, t

V O

C se obtiene pasando de U a S y -expandiendo


kl
.
16.2. El efecto del sesgo para establecer intervalos de confianza
El estimador del total es insesgado bajo cualquier diseo. La insesgadez es una propiedad
deseable, pero no debe ser exagerada. Hay dos razones para usar estimadores sesgados
1. Muchos parmetros tienen una estructura que hacen difcil encontrar un estimador
insesgado.
2. Un estimador sesgado puede tener una menor varianza que uno insesgado, con lo que ser
preferido en trminos de error cuadrtico medio ( ( ) ( ) | |
2
=

E

MSE ).
En la prctica muchos estimadores tiles sern aproximadamente insesgados. Obviamente, no es
recomendable usar estimadores con grandes sesgos pero, cunto sesgo hay que aceptar? Se desea
un estimador que concentre mucha probabilidad en un entorno reducido del valor del parmetro
de inters.
Sea

un estimador de con varianza ( )

V y sesgo ( ) ( ) =

E

B .
Una medida usual de la precisin de

como estimador de , viene dada por


( ) ( ) | | ( ) ( )
2 2


B

MSE + = =
que toma en cuenta tanto el sesgo como la varianza.
Pero el MSE no cuenta toda la historia, adicionalmente a un pequeo MSE se requiere que el sesgo
sea pequeo en relacin al error estndar para que los intervalos de confianza sean
razonablemente vlidos.
El siguiente argumento lo muestra. Definamos el sesgo relativo como ( )
( )
( )

BR = .
Esta cantidad es de inters, ya que en la medida que la misma sea pequea el intervalo de
confianza no incurrir en un gran error a pesar de que le estimador sea insesgado.
Supongamos como es usual que
( )
( ) 1 0, N

Z
a


.
116
Luego, la probabilidad de que el parmetro pertenezca al intervalo
[ ( ) ( )


V z

V z

2 1 2 1
+ ]
es llamada probabilidad de cobertura y viene dada por
( ) ( ) { }


V z

V z

P
2 1 2 1 0
Prob

+ < < =
Sumando ( )

E
( ) ( ) ( ) ( ) ( ) { }


V z

E

E

V z

E P
2 1 2 1 0
Prob

+ < < =
y dividiendo por ( )

V
( )
( )
( )
( )
( )
( )
)

<

<

=
2 1 2 1 0
Prob

V

E
z

E
P
Finalmente, multiplicando por 1
( ) ( ) { }


BR z Z

BR z P < < =
2 1 2 1 0
Prob
OBS] Notemos que ( )

BR es desconocido si ( )

V es desconocida y lo anterior no es un
verdadero intervalo de confianza. Normalmente el procedimiento de construccion del intervalo
pasa por sustituir ( ) V por ( )

.
OBS] Notemos que la probabilidad de cobertura
0
P coincide con la normalmente deseada, 1 ,
slo si ( ) 0 =

BR . Sin embargo, esta no se modifica mucho para valores razonables de ( )

BR .
TABLA 1] La probabilidad de cobertura
0
P
como una funcin de ( )

BR
( )

BR 0
P
0.00 0.9500
0.05 0.9497
0.10 0.9489
0.30 0.9396
0.50 0.9210
1.00 0.8300
117
OBS] En la prctica ( )

BR es desconocido, lo que hace imposible calcular el verdadero valor de


la probabilidad de cobertura.
OBS] El mensaje ms importante de la TABLA 1] es que estimadores con pequeos ( )

BR
permiten obtener intervalos razonablemente vlidos.
OBS] Cuando se usa un estimador sesgado se pueden considerar otras formas de estimar los
intervalos de la manera usual, o sea
[ ( ) ( )


V z

V z

2 1 2 1
+ ]
Por ejemplo, si

es sesgado para y ( )

E S

M es un buen estimador de
( ) ( ) ( )

B

MSE
2
+ = , un intervalo intuitivo para es ( )


E S

M z

2 1
.
Cul es la probabilidad de cobertura de un intervalo de estas caractersticas?
OBS] Recordar que
( )
( ) f n N
N
N t

V
t

V
SI
pwr SIR

= |
.
|

\
|

|
.
|

\
|
=

1
1 1
1 .
16.3. Tcnica de linealizacin de Taylor para estimar la varianza
Supongamos que queremos estimar el parmetro que es funcin de q totales poblacionales
( ) ( ) t f t , , t f
q
= =
1

donde

= =
U
jk j
q , , j y t 1 son los totales de las q variables poblacionales y el vector
( )' y , , y
qk k

1
= y es observado para todo S k .
Un estimador natural para es
( ) ( )

t

f t

, , t

q
= =
1
donde

S
k
jk
j
y
t

.
Qu propiedades tiene

?
Si ( ) f es lineal tenemos que
t a + = + =
=
0
1
0
a t a a
q
j
j j

con ( )
q
a ..., , a , a
2 1
= a
118
Luego

t a

a t

a a

q
j
j j
+ = + =
=
0
1
0
es un estimador insesgado de .
Su varianza viene dada por
( ) ( ) ( )a t a


V t

, t

COV a

V
q
j
q
' j
' j j ' jj
= =
= = 1 1
donde ( )

=
U
k ' j jk kl ' j j
y y t

, t

COV


.
OBS] Si ( ) f es lineal el estimador

puede escribirse como



+ = + = + = + = + =
= = =
S
k
S
q
j
jk j
q
j
S
jk j
q
j
j j
u a y a a y a a

a t

a a


0
1
0
1
0 0
1
0
t a
donde

=
=
q
J
jk j k
y a u
1
y
k
k
k
u
u

.
Luego ( )

=
U
l k
kl
u u

V

y ( )

=
S
l k kl u u


.
Y esto ltimo es ms fcil de calcular que lo anterior.
Si ( ) f es no lineal frecuentemente no se obtienen resultados exactos para sesgo y varianza. Lo
usual es aproximar a

por una expresin lineal, lo que permite obtener de forma aproximada su


varianza y un estimador de la misma. La tcnica aproxima al estimador

por un pseudo
estimador
0

que es lineal en
q
t

, , t


1
.
OBS] En general,
0

depender de cantidades desconocidas con lo que no es un verdadero


estimador. La tcnica para encontrar
0

consiste en la aproximacin de Taylor de primer orden de


la funcin f en el entorno de un punto ( )
q
t , , t
1
y despreciar el trmino de error
( )

=
+ = =
q
j
j j j
t t

a

1
0

donde
( ) ( )
t t =

= =
=

j
q q
j
j
t

f
t

f
a
t , , t t

, , t


1 1
.
119
As, en muestras grandes ( )
q
t

, , t


1
ser cercano a ( )
q
t , , t
1
y el pseudo estimador
0

aproxima bien a

. La aproximacin de
0

variar segn la muestra observada, adems de


depender de qu tan buena sea la aproximacin lineal. En lo que sigue se usa la varianza del
pseudo estimador como una aproximacin de la varianza del estimador no lineal.
As, ( )

AV indica la varianza aproximada del estimador

y ( ) ( )
0


V

AV = .
OBS] Usando

=
=
q
j
jk j k
y a u
1
y
k
k
k
u
u

tenemos que
( ) ( ) =
|
.
|

\
|
=
|
|
.
|

\
|
=
|
.
|

\
|
= =
= =
U
l k
kl S
k
q
j
S
k
jk
j
q
j
j j
u u u V
y
a V t

a V

AV



1 1
0
.
OBS] Como ( )

=
+ =
q
j
j j j
t t

1
0
con
t t

j
j
t

f
a
=

= se tiene que ( ) =
0

E .
Luego ( ) ( ) ( ) ( )

AV

MSE

MSE = = =
0 0
.
OBS] Las cantidades
k
u no son difciles de calcular, pero dependen de
t t

j
j
t

f
a
=

que es
desconocida, ya que no podemos evaluar la derivada en los totales poblacionales desconocidos
( )

=
q
t , , t
1
t .
Notemos que esto no es un problema para obtener una estimacin puntual, ya que esta ser
simplemente ( ) ( )

t

f t

, , t

q
= =
1 0
.
Para obtener una estimacin de la varianza, lo usual es remplazar los
j
a desconocidos por
j
a

,
remplazando los totales desconocidos por sus estimadores , o sea
( )
0

j
j
t

f
a

= , con ( )
0

el observado en la muestra.
As, contamos con

=
=
q
j
jk j k
y a

1
.
El paso final para obtener una estimacin de la varianza ser calcular
( )
l
l
S
k
k
kl
u


=

120
La justificacin de este procedimiento est en que
k
u

es consistente (en algn sentido) para


estimar
k
u , as ( )

es funcin de los estimadores consistentes


k
u

y en muestras grandes se
comportar como si estuviera calculado en base a los verdaderos y desconocidos
k
u .
OBS] Como el punto de partida para obtener este ltimo estimador de la varianza es la expresin
( )

AV en rigor lo que se obtiene es un estimador de esta cantidad (un ( )

AV

). Sin embargo,
como con una muestra suficientemente grande ( ) ( )

V

AV = y ( )

es un buen estimador de
( )

V .
RESULTADO]
2
Para el parmetro ( ) ( ) t f t , , t f
q
= =
1
donde

=
U
jk j
y t son totales
poblacionales, se tiene que un estimador aproximadamente insesgado viene dado por
( ) ( )

t

f t

, , t

q
= =
1
donde
j
t

es el estimador de
j
t .
Va linealizacin de Taylor de primer orden se obtiene una expresin aproximada de la varianza
de

.
( ) =
U
l
l
k
k
kl
u u

AV


donde

=
=
q
j
jk j k
y a u
1
y
t t

j
j
t

f
a
=

= .
Un estimador de la varianza, ( )

V , viene dado por


( )
l
l
S
k
k
kl
u


=

donde

=
=
q
j
jk j k
y a

1
y los
j
a

se obtienen evaluando

j
t

f
en ( )
0

, o sea
( )
0

=
t

j
j
t

f
a

con ( )
0

es el observado en la muestra.

2
Corresponde al resultado 5.5.1.
121
EJEMPLO] Recordemos el estimador bajo un diseo BE suponiendo
( ) f
N
n
n N n E
S
= = = =
( )

=

= = =
=
si 1
si 0
y
2
l k
l k
l k
k
kl kk kl
k

=

= =

S
k
S
k
S k
y
n
N
y y t

( ) ( )
(

+ |
.
|

\
|
= |
.
|

\
|


2 2 2 2
1
1
1 1
1
1
U
U
y
y
U k
BE
CV
N
S
N n
N y t

V
Consideremos el estimador alternativo del total

= = =
S
k
S
S
S
S
k
alt
y
n
N
y N
n
y
N t


=
|
|
.
|

\
|

= =

|
|
.
|

\
|
=

t

N
t

n
N
t

n
n
y
n
N
S S
S
k
S
1
.
OBS] El estimador alternativo expande por una cantidad similar a la del estimador .
OBS]
n
n
N
n
N
N

S
S S
= =

=

1
1
.
Cmo calculamos la varianza de
alt
t

? Usando el resultado anterior tenemos que


( )
l
l
U
k
k
kl alt
u u
t

AV

=

.
Como en el diseo BE se tiene
( )

=

=
si 1
si 0
l k
l k
kl
y
N
t
y u
k k
= , tenemos que
( ) ( ) ( ) ( ) =
|
.
|

\
|

|
.
|

\
|

|
.
|

\
|
=

2
2
2
2
2
1
1 1
1
1
1
N
t
y u
N
t
y t

AV
k
U
k
U
k
U
alt
( ) ( )
2 2
1 1
1
1
1
u
Y
U
U k
S N y y
|
.
|

\
|
=
|
.
|

\
|



.
Luego, considerando
N
n
= tenemos que
( ) ( ) ( ) ( ) =
|
.
|

\
|
=
|
.
|

\
|
=
|
.
|

\
|

=
2 2 2
1 1 1 1 1 1
1
u u u
y y y
alt
S N
N
n
n
N
S N
n
N
S N t

AV
122
( )
( ) ( ) = =
(
(

|
.
|

\
|
=

|
.
|

\
|


t

V
n
S
f N
N
S
N
N
N
n
n
N
N
SI
y
y
U
u

2
2 2
1
1
1
1
1
( )
n
S
f N
U
y
2
2
1
Por ltimo, vale la pena plantear
( )
( )
( )
2
2 2
2 2 2
2 2
2 2 2
1
1 1
1
1 1
1
1
1 1
1
1
1 1

+ =
|
.
|

\
|

+ |
.
|

\
|

=
|
.
|

\
|
|
.
|

\
|

|
.
|

\
|
+ |
.
|

\
|

=
u
u
u u
u
u u
y
y
Y y
y
y y
alt BE
BE
CV
S
N n
N
CV S
N n
N
S
N N n
N
CV
N
S
N n
N
t

V
t

OBS] En el caso particular tenemos que


( ) N

, t

f t


= =
( )
( )
( )
( ) =

+ = N N

N , t f
t t

N , t f
t

( ) ( ) = +
=
=
=
N N

N
t t

N
t
t t

N N

N N

2
( ) ( ) N N

N
t
t t

t + .
Lo que importa para el clculo de la varianza es N

N
t
t

y esta cantidad se construye como



S
k
S
k
k
N
t y 1
, con lo que los
k
u son
N
t
y
k
.
As, N

N
t
t

u
k S
=


es el pseudo-estimador.
123
16.4. Estimador de una razn
El problema que nos planteamos ahora es estimar un cociente entre totales poblacionales
desconocidos
U
U
z
y
z
y
t
t
R = = .
Por ejemplo, queremos estimar el ingreso per cpita de los hogares de una regin.
Un estimador razonable viene dado por el cociente de los estimadores de los totales
S
S
z
y
z
y
t

= =

. Analicemos el sesgo de R

bajo un diseo arbitrario ( ) . p .


RESULTADO]
1
El sesgo de R

como estimador de R satisface la siguiente desigualdad


( )
( ) ( )
( )
( )
2
2
2
z
z
t
t

V
R

V
R R

E
R

BR

= .
Prueba
( ) ( ) ( ) ( ) ( ) ( ) ( ) R R

E t t R

E t t

E R

E t

E t

, R

COV
z z y z z z
= = =

As
( ) ( )
( )
z
z
t
t

, R

COV
R R

E

=
Elevando al cuadrado
( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
2 2
2
2
2
2
z
z
z
z z
z
z
t
t

V R

V
t
t

V R

V t

, R

t
t

, R

COV
R R

= =
donde ( )
( )
( ) ( )

=
z
z
z
t

V R

V
t

, R

COV
t

, R

Por ltimo se tiene que


( ) ( )
( )
( )
( )
2
2
2
z
z
t
t

V
R

BR
R

V
R R

E

=

.
Luego, si
( )
z
z
t
t

V

se aproxima a cero cuando se incrementa el tamao de muestra se tiene que
el sesgo relativo de R

, ( ) R

BR tiende a cero.
RESULTADO]
2
Usando el RESULTADO 5.5.1] puede obtenerse la varianza aproximada de R

,
( ) R

AV y un estimador aproximadamente insesgado de esta, ( ) R

.

1
Corresponde al Resultado 5.6.1 en Srndal, C. E., Swensson, B., and Wretman, J. H. Model Assisted Survey
Sampling (1992). New York: Springer-Verlag)
2
Corresponde al Resultado 5.6.2
124
( )


= =
z
y
z y
t

, t

f R

puede aproximarse, usando la linealizacin de Taylor por


( ) ( )
z z y y
t t

a t t

a R R

+ + = =

2 1 0
donde
z
t t

t t

y
t t

f
a
z z
y y
1
1
=

=
=
=


y
z
z
y
t t

t t

z
t
R
t
t
t

f
a
z z
y y
= =

=
=
=


2
2
.
Luego ( ) ( ) = + = =

z z
z
y y
z
t t

t
R
t t

t
R R

1
0
( ) = +

z y
z
t

R t

t
R
1
=

+

S
k
k k
z
z R y
t
R
1

+ =
S
k
k
u
R

.
Donde ( )
k k
z
k
z R y
t
u =
1
.
O, alternativamente


+ = =
S
k
k
z
E
t
R R

1
0
.
Con
k k k
z R y E = .
En base a lo anterior se tiene que

=
z
y
t

como estimador de
z
y
t
t
R = es aproximadamente
insesgado y tiene una varianza aproximada dada por
( ) ( )
l
l
U
k
k
kl
z
l
l
U
k
k
kl
E E
t
u u
R

V R

AV

=

= =

2
0
1
.
Un estimador aproximadamente insesgado para ( ) R

V viene dado por


( )
l
l
S
k
k
kl
z
S
l
l
k
k
kl
e e
t


=

=


2
1
.
Donde ( )
k k
z
k
z R

y
t

1
y
k k k
z R

y e = .
Pueden ser tiles las siguientes formas de expresar ( ) R

AV y ( ) R

.
( )

+ = =
z y
z
t

R t

t
R R

1
0
.
Luego
125
( ) ( ) ( ) ( ) | |

=
z y z y
z
t

, t

COV R t

V R t

V
t
R

AV 2
1
2
2
( ) ( ) ( ) ( )
(

z y
^
z y
z
t

, t

COV R

2
1
2
2
.
EJEMPLO] Consideremos un diseo SI de tamao N f n = .
Luego
z
y
t
t
R = y
s
s
z
y
z
y
t

= =

.
Aplicando lo anterior
( ) ( )
s s
U
z y
z
S
k k
z
z R y
z
R t

R t

t
R
N n
Rz y
t
R R

+ = + =

+ = =

1 1 1
0
.
( ) ( )
( )
2 2
2
1
1
1
U
Rz y
z
SI
S
n
f N
t
R

AV

= .
Donde
( )
( )
U
U U
yz
z y
U
k k
U
Rz y
S R S R S z R y
N
S + =

2
1
1
2 2 2 2 2
.
OBS] = =
U z y k k
t R t ) z R y ( 0 .
( ) ( )
( )
( )
( )
2
2
2 2
2
1
1
1 1
1
1
S S
Rz y
s
Rz y
z
SI
S
n
f
z
S
n
f N
t

= = .
Donde
( )
( )
S
S S S
yz
z y
S
k k
Rz y
S R

S R

S z R

y
n
S + =

2
1
1
2 2
2
2
y
( )( )

=
s
s k s k yz
z z y y
n
S
S
1
1
OBS] 0 = =

z y
S
k k
t

z R

y .
16.5. Estimador de razn
Supongamos ahora que nuestro inters recae como siempre en la estimacin del total poblacional
de una variable y,
y
t . Supongamos adems que se cuenta con la informacin auxiliar de la
variable Z que es conocida U k .
En esta situacin se podra ensayar con el estimador
126

y
z
z
z z
z
y
yra
t

t
t R t
t

|
|
.
|

\
|
= = =

O sea el estimador del total corregido por ( )
z z
t

t . La lgica de la correccin es la que


comentamos para

=
y alt
t

N
t

con la informacin auxiliar mnima 1 =


k
z U k .
En base a lo anteriormente visto es inmediato verificar que
( ) ( ) ( )
|
|
.
|

\
|

|
|
.
|

\
|

= = =

l
l l
U
k
k k
kl z z yra
Rz y Rz y
R

AV t t R

AV t

AV
2
y
( )
|
|
.
|

\
|

|
|
.
|

\
|

=

l
l l
k
k k
S
kl
z R

y z R

y
R


.
OBS] Nuevamente se tiene que
( ) ( ) = + = =
z z
z
y
y y
z
t t

t
t
t t

t
R R

2
0
1
( ) = +
z y
z
t

R t

t
R
1
( )
=

+

s
k
k k
z
z R y
t
R
1


+
s
k
k
u
R .
EJEMPLO] El estimador de razn bajo el diseo SI
Supongamos un diseo SI de tamao N f n = .
El objetivo es estimar
y
t y ensayamos el estimador de razn
yra
t

, ya que se cuenta con la


variable auxiliar z.
z
s
s
z
z
y
yra
t
z
y
t
t

= =

( ) ( ) ( )
( )
2 2 2
1
1
U
Rz y
SI z yra SI
S
n
f N R

V t t

AV

= = y ( ) | |
S
U U
yz
z y
RS S R S
n
f N 2
1
1
2 2 2 2
+ .
Cundo es ms eficiente
yra
t

?
OBS] Lo correcto sera comparar los errores cuadrticos medios pero alcanza, para tener una idea
aproximada, con comparar las varianzas, ya que
y
t

es insesgado y
yra
t

es aproximadamente
insesgado.
( ) ( ) ( ) ( ) | |= + =

U
U U
U
yz
z y
y
yra SI y SI
RS S R S
n
f N
n
S
f N t

V t

V 2
1
1 1
2 2 2 2
2
2
127
( )| |
U
U
yz
z
RS S R f N 2 1
2 2 2
= .
Luego
( ) ( )
yra SI y SI
t

V t

si 0 2
2 2

U
U
yz
z
S R S R 0 2
2

U U U U
y z yz z
z
y
S S r S
t
t
Donde
U U
U
U
z y
yz
yz
S S
S
r = .
A su vez, esto se cumple si
U
U
U
y
z
z
y
yz
S
S
t
t
r 2
U
U
U
y
z
yz
CV
CV
r 2
U
U
U
y
z
yz
CV
CV
r
2
1
.
OBS] Si
U U
y z
CV CV = se tiene que el uso de
yra
t

ser ventajoso cuando


2
1

U
yz
r .
OBS]
yra
t

puede o no ser mejor que


y
t

, pero usualmente lo es. Para que esto ocurra


necesitamos que
4
1
2

U
yz
r que es lo mismo que decir que el modelo
k k k
x y + = tenga un
25 . 0
2
R .
EJEMPLO] Retomemos el ejemplo de la seccin 3.1, { } 8 3 2 1 , , , , U = , N = 8.
Supongamos que estamos interesados en un nica variable: As, la matriz de valores
poblacionales, F
y
= y =( )
tr
y , y , y
8 2 1
= ( ) 8 7 7 7 4 4 2 1 , , , , , , , = y y que adicionamente se cuenta
con la matriz de valores auxiliares F
x
= x =( )
tr
x , x , x
8 2 1
= ( ) 5 7 7 8 6 5 5 4 , , , , , , , = x
k 1 2 3 4 5 6 7 8
y
k
1 2 4 4 7 7 7 8
x
k
4 5 5 6 8 7 7 5
Supongamos que nos interesa estimar el parmetro poblacional total de la variable y,
Se proponen como estimadores

= =
S
S
S
k
y
y N
n
y
N t

y
z
z
z z
z
y
yra
t

t
t R t
t

|
|
.
|

\
|
= = =

Supongamos, al igual que antes que el diseo de muestreo corresponde a un SI de tamao n = 4.
As,
( )

=
=

caso. otro en 0
4 tamao de
70
1
1
8
4
s C
) s ( p
128
Los datos poblacionales son
40 =
y
t 86 . 6
2
=
U
y
S
47 =
x
t 84 . 1
2
=
U
x
S
524 . 0 =
y
CV 231 . 0 =
x
CV
43 . 2 =
yx
S 68 . 0 =
xy
r
Las distribuciones aproximadas por simulacin de los estimadoeres del total son

y
t


yra
t

( ) 40 =

E ( ) 85 39. t

E
yra
=
( ) 86 54. t

V =

( ) 44 32. t

V
yra
=
( ) 86 54. t

MSE =

( ) 46 32. t

MSE
yra
=
( ) 0 =

RB ( ) 026 0. t

RB
yra
=

Вам также может понравиться