Академический Документы
Профессиональный Документы
Культура Документы
RESUMEN
Se consideran varios procedimientos de estratificacin multivariante: generalizacin de la estratificacin univariante, estratificacin
de la primera componente principal y cuatro algoritmos de clasificacin {Ward, K-medias, Centroide y Medias).
Se consideran dos criterios de evaluacin: (i) la eficiencia en la estimacin de la media de las variables de estratificaci8n y(ii) la prdida
relativa de precisin respecto de la estratificacin univariante ptirna.
t*>
Este trabajo ha sido financiado por el Ministerio de Agricultura, Pesca y Alimentacin, en el marco de un convenio de colaboracin suscrito entre la Secretara General
Tcnica de dicho Ministerio y el Departamento de Economa y Ciencias Sociales Agrarias de
la Universidad Politcnica de Madrid
Con estas dos criterias, ios procedmentos estud^ados se evaiuaron a partir de1 estudio de un caso. Ei aigaritrno de Ward result ser el
mejor procedirniento de estratificacin, de los examinados en este trabajo.
INTRCJDUCCIN
Para una sola variable de estratificacin, una soiucin ptima ai problema de
cmo estratificar una poblacibn determinada en un cierto nmero L de estratas, con
el criterio de optimizacin usual de "minimizar la varianza del estimador para un
tamao de muestra dado", ha sido obtenida por Dalenius (1950} [Cochran (1981 }].
Para ms de una variable de estratificacin no hay un nico criterio de optimizacin bien establecido. Los dos de uso ms frecuente consisten en minimizar, para
un tamao de muestra dada, (i) la varianza generalizada del vector de estimadores
o(ii) una suma ponderada de las varanzas de los estimadores. Chosh (1963), con
ei primer criter^io, generaiiza los resultados de Dalenius (1950) al caso de dos
variables de estratificacin, y Lavalle (1988), con el segundo criterio, proporciona
tambin una solucin bptirna al problema de estratificacin bivariante, aunque
utilizanda una tcnica de optimizacin diferente (la programacin dinmica, en lugar
del sistema de ecuaciones minimal obtenido derivando parcialmente fa varianza
generaiizada del vector de medias muestrales de ias variables de estratificacin,
con respecta a las I mites entre estratos} .
La obtencin exacta de estas soiucianes ptimas presenta dificultades prcticas: la soiucin depende de parmetros taies como ia media y!a varianza dentro de
estratos, los cuales a su vez dependen de los limites entre estratos, que es precisamente la solucin buscada; por fa que se requieren mtodos iterativos para la
bsqueda de !a solucin exacta.
En ia prctica dei muestreo se trata siempre de establecer un campromiso entre
la precisin y e! caste de ias estimaciones: en este artculo nos interesamos en
d^stintos procedimientos para la construccin de los estratos cuando se dispone de
ms de una variable de estratificacin, que pueden servir de base para establecer
dicho compromiso, en funcin dei grado de aproximacn de cada pracedimiento a
ia solucin ptima y de la mayor o menor dificultad de su aplicacin prctica.
1^! li ^ l Il li ^c li ^ ^., tilt 1 l I^. tiftl ^,ti 4 6 i kl I! kli ^ ti 1^4 I`^t !^i li ^ti
2.
CRITERIOS DE EVALUACIN
Eficiencia relativa
W,,Sh;
/n
f ^r-^.ni^ric .^ F ^^^^ti^>i .^
Asimismo:
_ z
vn,.a.s. ^X, ) -- S^ / n
^.
ER^ = S? /
^Nhs
h-1
2.2.
- [^m.a.st. ^x stj ^
`,
,/
donde:
^ /
^ Ym.a.st. l^ $t; ^
^ ^h^h1
h ^. ^
D(S> _ -^ ^ a;
n ,_, ^. h = ^
3.
?-i
E^ ^-^r>^^; ^ ^c ^ t^ ^^^^tic>^ -^
^stas y otras propuestas han sido comparadas entre si con base tanto en distribuciones tericas como empricas [Cochran (1961), Sethi {1963), Hess et al.
(1966), Anderson et al. (1976}]. Ninguna de ellas es en todos los caso ms eficiente
que las dems. La propuesta de Dalenius, y Hodges {1959}, Ilamada regla Cu^ ,
y la de Ekman (1959) resultan satisfactorias en la generalidad de los casos; siendo
la primera de m^s fcil aplicacin.
l^na primera aproximacin al problema de la estratificacin multivariante consiste en aplicar a cada variable, sucesivamente, los resultados ya bien establecidos
en la literatura para el caso univariante. Dadas " P" variables de estratificacin, se
podran determinar para cada variable "j" (j = 1, 2, ... P), de forma independiente y
mediante una de las reglas citadas en el epgrafe anterior, los lmites entre los Lj
estratos considerados.
Para P = 2, el estrato genrico "h" quedara constituido por aquellos de los N
elementos en los que la variable de estratificacin "1 " toma valores comprendidos
entre los lrnites [x^n_, ^,, x^n}^] determinados por la regla utilizada y la variable "2"
entre los I mites [xth_^ ^2, x^h^2]: de esta forma, el estrato "h" queda representado por la
celdilla definida por los intervalos [x^^,_^^^ , %t{h)1] Y[X(h_^)2 , x^h^2]; y los N elementos de la
poblacin distribuidos en L= L, x L2 celdillas. Se trata pues de una estratificacin
en ltices.
Si las variables de estratificacin no son independientes entre si, cabe esperar
una mayor eficiencia si, en lugar de aplicar la regla a cada variable "j" (j = 1, 2, ... P},
consderada como variable marginal, se aplica a las variables condicionales, de
forma iterativa: ( i) En la primera iteracin, se aplica a una variable de estratificacin
cualquiera "j". Sea h,* el estrato genrico de esta estratificacin (h;* = 1, ^, ..., L;). (ii)
En la segunda iteracin se aplica la regla a la variable " k", dentro de cada una de
los estratos h;*. Sea hk*/h^ el subestrato genrico "hk*" de los Lk subestratos en los
que se divide el estrato h, (hk*/h,* = 1, 2, ... L,^). (iii) EI proceso de subestratificacin
descrito en (ii) contina hasta terminar con todas y cada una de las variables de
estratificacin.
Las tcnicas de anlisis multivariante han sido tambin consideradas para el
tratamiento del problema de la estratificacin. Hagood y Bernet (1945) han propuesto una estratificacin basada en las componentes principales de la matriz de
correlaciones entre las variables de estratificacin. Kish y Anderson (1978) han
comparado la estratificacin bivariante (en ltices) con la estratificacin basa en la
primera componente principal, tanto en poblaciones tericas con distribucin normal como en diversas poblaciones reales: en general, la estratificacin bivariante
result ser ms eficiente que la basada en la primera componente principal; si bien
esta ltima es ms eficiente que la univariante.
25
^
h 1^h ! ^^^Xh
X ^T
^ ^
-^- `> ^> ^X hi
X h Ic^hi
^h ^
h=1 i=1
donde:
`^
^ X,,;
N h i=1
_ ^cNh _ ^>s^
h-1
i=1
h=1
donde S2h es la matz de varianzas [S,-,;2, j=1, 2, ..., P] y covarianzas [^,;;^, j(^j')=1, 2, ..., P]
poblacionales en el estrato h del vector definido por las P variables de estratificacin, esto es, una matriz cuadrada de orden P cuyos elementos de la diagonal
principal son las varianzas dentro de estratos:
1
Nh
^ ^ `X hi; - Xhj ^ 2
^ ^ i=1
? ()
E^S"TADIST^IC'.A^ E:SPAOI.A
1^
h1
h- 1
h- 1
En esta ltima expresin el primer sumando del segundo miembro es la varianza dentro de estratos y el segundo sumando es la variacin entre estratos. EI
algoritmo de Ward y el de MacQueen tienden, pues, a minimizar la variacin dentro
de estratos o lo que es equivalente, a maximizar la variacin entre estratos, de cada
variable.
Con reparto proporcional y fijado el tamao de la muestra n, la funcin de prdida depende slo de la traza de la matriz de varianzas y covarianzas -U*- de las
variables de estratificacin previamente transformadas multiplicndolas por a; :
D(S) _ ^ ^ tr U*
nN -
5.
Bajo este epgrafe evaluamos las tcnicas de estratificacin multivariante, relacionadas en el epigrafe anterior, en su aplicacin a un caso de estudio.
EI caso en cuestin es la estratificacin del territorio de la provincia de Guadalajara atendiendo a los usos del suelo, con vistas a la estimacin de superficies
cultivadas. Se considera como elemento o individuo de la poblacin al territorio
correspondiente a la cuadricula UTM de 1 Km x 1 Km (100 hectreas): cada elemento queda unvocamente definido en el mapa mediante las coordenadas de uno
F^1K^^IlFlt^^^( !Oti 11l l Il^ ^^Rl.^^tifE ( RIIf:KIf)4 U#- F\ ^^I 1^1( IOti
5.1.
Los datos
Sobre cada uno de los 12.190 eiernentos de los que consta la poblacin estudiada, se dispone de informacin acerca de las siguientes variables, medidas en
hect^reas y reiativas a los usos del suelo:
X,: cultvos herbceos de regado.
X2: cultivos herbceos de secano.
X3: cultivos leosos de regada.
X4: cultivos leosos de secano.
Los datos resultan de la digitalizacin de los "mapas de cultivo y aprovechamientos" [MAPA {1976}].
Cuadro 1
GARACTERSTICAS DE LAS VARIABLES DE ESTUDI^
Varable
Media
Varianza
C.V. (%)
Coeficiente de
Asimetra
X,
1.92
82.03
472.06
6.96
X2
30.36
1009.88
104.68
0.74
X3
0.01
0.08
2617.63
40.29
X4
3.62
125.48
309.37
4.20
Los resultados
1x
1. Como caba esperar, dada la incorrelacin entre las variabies de estratificacin, la estratificacin univariante Cu m f{x ^) es eficiente para la estimacin de la
media de la variable en cuestin (y, como es sabido, de las variables muy correladas con ella), pero no lo es en absoluto para variables incorreladas con ella. De
modo que, en casos como los que nos ocupan, la estratificacin univariante no es
satisfactoria. Comparando las cifras de los cuadros 3 y 5 se observa cmo la
estratificacin univariante Cum f{x^ } reduce notablemente la varianza del estimador de la rnedia de Xj -V^ ^^t (xst^)- reduciendo la variacin dentro de estratos a una
mnima parte de la variacin total -5,2-: as, por ejemplo, se observa cmo la varianza del estimador de la media de la variable X1, con muestreo aleatorio simple [ver
cuadro 5] se reduce de 82.03 a 1.63, cuando el nmero de estratos es 3, a 0.19
cuando el nmero de estratos es 6 y a 0.08 cuando el nmero de estratos es 9[ver
cuadro 3]. Para las restantes variables la variacin dentro de estratos apenas se
reduce respecto de la total por lo que la eficiencia de la estratificacin es mnima:
prxima a 1[ver cuadro 2]. En todo caso, ia reduccin de la varianza del estimador
de la media aumenta con el nmero de estratos.
2. La estratificacin bivariante de tipo ltice conserva la eficiencia de las univariantes que la componen. As, la estratificacin en L= L^ x L2 estratos por las
variables X^ y X2 conserva la eficiencia de las estratificaciones univariantes de X,
en L^ estratos y de X2 en L2 estratos, pero no las de X3 y X^. Para conservar estas
ltimas, se requerira un nmero de estratos L= L^ x L2 x L3 x L^, de modo que por
esta va el nmero de estratos se multiplica y puede Ilegar a ser excesivo cuando el
nmero de variables de estratificacin es superior a 3. Comparando las cifras de los
cuadros 3 y 5 se observa cmo la estratificacin Cum f{x, } X Cum f{x^ } reduce la
variacin dentro de estratos de las variables X, y X2 a una mnima parte de la
variacin total respectiva -S^2 y S22-, mientras a penas reduce la variacin dentro de
estratos de las variables X3 y X^ respecto de la total S32 y 5^^, respectivamente. De
ah que ia eficiencia relativa sea para estas ltimas minima: prxima a 1 [Ver
cuadro 2].
3. La estratificacin de la primera componente principal [PRI N 1) (que explica el
28% de la variacin total), de modo que el nmero elemen#os en cada estrato sea
aproximadamente el mismo, presenta una eficiencia significativa y bastante uniforme para la estimacin de todas y cada una de las caracteristicas en estudio [ver
cuadro 2]. Con este procedimiento, la variacin dentro de estratos es slo una pequea parte de la total, para todas y cada una de las variables [ver cuadros 3 y 5].
4. EI algoritmo de MacC^ueen (1967) o de las K-medias y el algoritmo de Ward
(1963) establecen estratificaciones para las que la suma no ponderada de las
varianzas de los estimadores de cada variable j(j = 1, 2, ..., P):
P
^ Vrn.zi st
I
3{^
Cuadro 2
EFICIENCIAS RE^.ATIVAS EN LA ESTIMACI{ ^ N DE LA MED^A
N
X^
Estratificacin
X2
X3
x^
Cum f^x,)
Cum f^x,?
Cum^
Cum f(x4}
Cum _/f(x
Cum f(x2)
Estratos
3
6
9
3
6
9
50. 30
442.80
1063. 06
1.00
1.12
1.01
1.17
1.20
1.20
1.02
12.75
60. 54
136.85
1.03
1.02
1.03
1. 04
1.03
1.07
1.22
1.12
1.40
1.14
1.00
1364.20
1.00
1.03
1.00
5521.40
1.00
1. 04
33921.60
1.00
1.00
1.02
1. 00
32.22
1.01
1.02
3
6 {3x2)
6 {2x3)
9 (3x3)
1.16
1.18
1.03
1.03
1.28
1.40
20^ .41
1.49
489. a6
5.17
1. 58
1.07
12.92
1.11
1.08
61.33
2.15
12.99
3.4$
1.45
2.67
1.11
1.78
5.29
8.?7
6.55
4.47
5.31
6.55
1.13
4.48
4.62
56 . 59
22 .48
PRIN 1
K-Med ias
6
9
3
6.08
10.91
4.75
5.77
6.01
1.81
5.14
9
3
11 .02
1.11
9. 7$
4.79
2.07
1.19
6.09
8.96
11.30
1 .67
4.68
9
3
12.81
19.34
2.03
1 .38
3.55
2.05
6.57
8.48
10.87
3.93
232.53
8.94
8.11
336.26
14.43
21.40
1.01
1.00
1.00
1.02
1.00
7.76
19.16
1.00
2.01
1.00
37.31
1.00
1.01
1.00
7.76
1.00
1.04
1.00
43.49
1 .00
1.05
1.00
44.39
1.Oo
K-I'1/ledias ( Semillas
medias de la -
clasificacin de
Ward)
Ward
Med ia
Centroide
5.55
Cuadro 3
VARIANZA DEL ESTIMADOR DE LA MEDIA DE LAS VARIABLES DE ESTRATIFICACI^N, CON MUESTREO ALEATORIO ESTRATIFICADO
Wh Sh, )
n Vm.a.st ^X st^ ^
Estratificacin
N
Estratos
Total
L
( r W h S h j1 2 = n V m.a .s t( x s t j^
h -^
j =1, 2, 3, 4
X^
X^
C u m f(x , )
^ ^^
h=1
^1
^h
^ h^ ^ 2
X4
X3
3
6
1.63
0.19
1009.88
999.88
0. 069
0 . 066
0.08
990.08
0. 064
3
6
70.72
69.52
79.21
16.68
0.074
68.36
7.38
123.02
1134.60
1121.97
1111.05
3
6
9
3
6
79.64
79.64
78.88
82.03
81.22
1009.88
1009.88
1009.88
990.08
980.47
0.057 10
0.014 10"3
0.002 10"^
0.060
0.055
121.83
120.83
117.23
112.04
110.07
125.4$
125.48
125.48
3.89
0.62
80.42
980.47
0.052
0.26
1061.20
3
6(3x2)
6( 2x3 )
9(3x3)
3
6
9
1.45
3 . 65
1.34
38.15
15.51
15.45
195.33
78 . 16
77.74
289.20
115.15
92.56
0.049
117.27
0 . 069
0.053
0.029
116 . 19
113.04
70.49
314.10
198 . 07
192.17
3 7.87
0.012
0.012
28.07
28.09
158.74
13.49
212.61
0. ^68
27.16
25^.3^
14.22
168.03
0.043
24.41
7.44
103.26
0.037
20.60
206.70
131.34
K-Medas {Semillas
medias de la
clasificacin de
Ward)
3
6
9
73.90
9.16
6.40
210.83
89.37
52.22
0.065
22.61
0. 046
0. 038
26. 75
19.10
Wa rd
59.44
7.55
3.83
81.22
284.47
256.97
124.52
1009.88
0.038
0. 033 10^2
0.02310-2
0.992 10^
14.80
14. 04
8.70
15.48
278. 56
137.05
1216.59
80.43
40.81
81.22
78.88
78.12
1009.88
1009.88
1009.88
1009.88
1009.88
0.476 10^2
125.48
1215.79
0.206 10-2
125.48
1176.17
0.99210-
125.48
1216.59
0.177 10-2
125.48
0.173 10-2
125.48
1214.24
1213.48
Cum f(x2)
Cum f(x3)
C u m f(x, )
Cum f(x,^ )
Cum f(x2 )
PRIN 1
K-Medias
6
Media
Centroide
9
3
6
9
3
6
0.063
0.055
=3
267.23
198.30
185.87
1215.00
1215.00
1214.24
1076.06
1062.37
136.11
307.41
125.33
77.76
358.75
Cuadro 4
VAf`.ORES DE ^A FUNCIh1 DE PRDIDA, CORRESPONDIENTES A CADA
VARfABLE DE ESTRATIFICACIN
Q^
Estratificaciry
- ^rrya.st
`x st3 ^ / ^rn.r^. st
Tota!
C u m f(x ^
C u m flx ,
Cum flx ^ )
Cum f(x ^ )
Cum f(x 2 )
PRIN 1
0.00
0.00
0.00
42.39
364.89
853.50
47.86
418.16
985.00
49.32
426.47
1004.25
-6.63
18 . 21
15.75
22.40
80.63
192.13
11.79
58.94
133.16
0.00
1209.53
47^ 3.29
31999.00
1297.25
o.oo
4499. 00
0.00
27499. 00
0.00
11.79
59. 54
135.84
11.54
57.78
131.$6
10.71
3 . 68
9.53
2.66
5.90
1 1 . 54
7.28
6
9
73.84
92.00
1 .69
9.07
12.99
K-Medias (Semillas
medias de la
cfasificacin de
Ward)
3
6
44.34
47.21
1 .67
4. 36
79.00
6.08
Ward
3
6
9
3
6
9
3
6
9
35.47
38. 74
46. $8
48.83
422.32
509.13
48. $2
414.16
975.40
2.60
14.40
15.87
11.79
59.54
135.84
11.79
59.54
135.84
Media
Centroide
x4
K-Medias
as^=Ea,
j=1,2,3, 4
,
9
3
6
9
3
6
9
3
6
9
3
6(3x2)
6 (2x3)
9{3x3^
3
6
9
Estratos
Cu m f^x , }
^ X st, ^
O.oO
0.00
1051 .63
3927.57
25999.00
30.62
195.50
463.83
29.14
179.71
4222.35
31.26
201.39
481.s2
0.00
.oo
a. o0
1251.94
4967. 73
32575.99
1368.78
5043.60
28774.85
90.91
679. 09
1602.46
1112.49
441 1.82
27135.1 1
3499.00
4927 . 57
26499.00
507.77
856.14
5999.00
1 191 .98
3070.43
18499.00
188.15
186 . 40
433. 77
17.12
44.27
107.04
5.98
3$.37
78.23
3634.49
5135 . 86
26958.05
549. 95
1139.35
3284.71
18999.00
4.81
42.15
72.46
1190.17
19156.54
665_67
22.57
1 14.00
173.04
339.00
1029.00
2.80
706.54
21.65
32.46
31.26
201.39
481 .62
31 _26
201.39
481.62
97 . 36
209.21
264.92
1022.25
2155.59
173.04
125.43
864.00
986.94
6309.75
1206. 93
3191.71
18682.22
3378.43
264.91
800. 52
2456.96
f ti I K^^ I If-I( ^^l(^^I^l^, Rtl'I ^I^I^^ ^^Ftl ^^^^I f(^KI1 f F^lO^ti I^)E^^ f^ ^-\l l-^(^^I^O\
_^ ^
Cuadro 5
VARIANZAS DEL ESTIMADOR DE LA MEDIA DE LAS VARIASLES DE ESTRATIFICACI ^JN CON MUESTREU ALEATORIO SIMPLE
S2 = n Vm.a.s. 1X^ ); j= 1, 2, 3, 4
X^
X2
82.03
1009.88
Xq
0.077
125.48
Cuadro fi
VARIANZAS MNIMAS DEL ESTIMADOR DE LA MEDIA CORRESPONDIENTES
A LA ESTRATIFICACIUN UNIVARIANTE PTIMA
,
n Vm.a.st. ^xst,i ; j= 1, 2, 3, 4
N EstratOS
X^
X2
^'^3
i'^ ,q
1.63
78.98
0.05710^
3.89
pondientes a la estratificacin
univariante ptima
6
9
0.19
0.08
16.68
7.38
0.01410-3
0.00210-3
0.62
0.26
AGRADECIMiENTUS
Nuestro agradecimiento a Jos Mara Fernndez del Pozo, quien ha planteado
el caso de estudio tratado en este artculo y a Jos Ramn Sanz Almodvar, que ha
etaborado los datos de base. Agradecemos los comentarios y sugerencias de un
revisor annimo de la primera versin del trabajo, quien ha contribuido con ello a
mejorar el artculo.
REFERENCIAS
ANDERSON, D.W., K^sH, L., CORNELL, R.G. (1976} t^uantifying gains from stratification for optimum and approximately optimum strata using a bivariate normal
model. Journal of the American Statistical Association, 71, 356, 887-92.
CHOCHRAN, W.G. (1961) Comparison of inethods for determining stratum boundaries. Bull. Int. Stat. lnst., 38, 2, 345-58.
CHOCHRAN ,
^ ^ t ^^r^i^ i i^ ^^ t ^r^^^ti<^
T.R. (1966}.
Stratification: A practica# investi.
JARC^UE, C.M. (1981 }. A solution to the problem of optimum stratification in multivariate samp#ing. Appl. Statist. 30, 2, 163-69.
.JOHNSt^N, R.A. Y WICHERN, D.V'v. (1988) .
KISH, L. (1976}. <cQptima and proxima in linear sample designs. Journal of the
Roya! Statistical Society, Serie A, 139, 80-95.
KISH, L., ANDERSON, D.W. (1978} <cMultivariate and multipurpose stratification.
Journa! of th,e Amercan Statistical Association, 73, 361, 24-34.
KPEDEKP^, G.M.K. (1973). ccRecent advances on some aspects of stratified sample
design. A review of the #iterature. 1V1^etrika, 20, 1, 54-64.
LAVALLE, P. (1988). c<Two-way optimal stratification using dynamic programmng.
Proceedings of the Survey Research Methods. American Statistical Assaciation.
MAPA ( 1976) Mapas de cultivos y aprovechamientos. Ministerio de Agrricultura,
Pesca y Alimentacin, Madrid.
MACQUEEN, J. (1967). <cSome methods for classificatian and analysis of multivariate
bservations?>. Proc. 5th Berkeley Symp. Math. Statist. and Prob, 1, 281-97.
University of California Press.
E.^ r k^^ r ^E Ic^-^('If)ti ^1l L E 1^ 1Etl1^ IE ( RI 1 E^.RIU^ t)t^ E ^^ll l.^( It)^
SETHI, V.K. (1963): A note on optimum stratification of population for estimating the
population mean. The Australian Journal of Statistics, 5, 20-33.
WARD, J.H. (1963). Hierarchical grouping to optimize an objetive function. Journal
of the American Statistical Association, 58, 236-44.
SUMMARY
Several multivariate stratification procedures were considered: univariate generalization, first principal component stratification, and four
classification algorithms (Ward, K-Means, Centroid and Average).
The studied procedures were evaluated from a case study. We
considered two criteria: (i} mean estimation efficiency of the stratification variables and (ii) the relative lost of accuracy with respect to the
optimal univariate stratification.
We found that the algorithm of Ward was the best of the examined
in our work.
Key words: Stratified random sampling. Cluster algorithms. Land stratification.