Академический Документы
Профессиональный Документы
Культура Документы
AMOSTRAGEM II
Elsa Cristina de Mundstock
Amostragem II 2 ________________________________________________________________________________________
NDICE
1. AMOSTRAGEM SISTEMTICA.................................................................................................................. 4 1.1 DESCRIO, VANTAGENS E PROBLEMAS .......................................................................................... 4 DESCRIO................................................................................................................................................... 4 VANTAGENS DA AMOSTRAGEM SISTEMTICA........................................................................................ 4 PROBLEMAS DA AMOSTRAGEM SISTEMTICA ....................................................................................... 4 1.2 SELEO DA AMOSTRA .......................................................................................................................... 4 1.3 ESTIMADOR DE ..................................................................................................................................... 5 a) QUANDO N=nk.......................................................................................................................................... 5 Quando N=nk: ................................................................................................................................................ 6 b) QUANDO N=nk+r ..................................................................................................................................... 6 1.4 VARINCIA DA MDIA AMOSTRAL ..................................................................................................... 7 1.5 CORRELAO INTRACLASSE ................................................................................................................ 9 a) DEFINIO ............................................................................................................................................... 9 b) FRMULA ALTERNATIVA PARA O CLCULO DO COEFICIENTE DE CORRELAO INTRACLASSE.............................................................................................................................................. 12 c) RELAO ENTRE I e
2 Sis ................................................................................................................ 13 x
d) VALORES EXTREMOS QUE I PODE TOMAR ................................................................................... 13 1.6 ESTIMAO DA VARINCIA DA MDIA AMOSTRAL ..................................................................... 14 1.7 TIPOS DE POPULAO........................................................................................................................... 15 a) POPULAES EM ORDEM ALEATRIA ......................................................................................... 15 b) POPULAES COM TENDNCIA LINEAR .......................................................................................... 15 c) POPULAES COM VARIAES PERIDICAS.................................................................................. 16 1.8 EFICINCIA RELATIVA E EFEITO DO DELINEAMENTO.................................................................. 17 1.9 EFEITO DO DELINEAMENTO NA AMOSTRAGEM SISTEMTICA.................................................. 18 1.10 AMOSTRAGEM SISTEMTICA EM 2 DIMENSES .......................................................................... 19 1.11 CONSIDERAES GERAIS................................................................................................................... 21 1.12 RESUMO AMOSTRAGEM SISTEMTICA ..................................................................................... 22 2. AMOSTRAGEM POR CONGLOMERADOS ............................................................................................ 24 2.1 DESCRIO E EXEMPLOS ..................................................................................................................... 24 2.2 CONGLOMERADOS COM ETAPA NICA ............................................................................................ 25 a) PROBABILIDADE DE SELEO ........................................................................................................... 25 b) PARMETROS E ESTIMADORES........................................................................................................... 25 c) CONGLOMERADOS COM ETAPA NICA DO MESMO TAMANHO ( N i = N ) ................................ 29 2.3 SUB-AMOSTRAGEM (AMOSTRAGEM BIETPICA) .......................................................................... 30 a) ESTIMAO DO TOTAL POPULACIONAL........................................................................................... 30 b) ESTIMAO DA MDIA DA POPULAO........................................................................................... 31 c) CONGLOMERADOS DO MESMO TAMANHO E AMOSTRAS DO MESMO TAMANHO NOS CONGLOMERADOS ( N i = N e n i = n ) .............................................................................................. 33 2.4 EFICINCIA RELATIVA DA AMOSTRAGEM POR CONGLOMERADOS COMPARADA COM A AMOSTRAGEM ALEATRIA SIMPLES...................................................................................................... 34 2.5 COEFICENTE DE CORRELAO INTRACLASSE ............................................................................... 36 2.6 VARINCIA DA MDIA EM FUNO DE I ...................................................................................... 37 2.7 EFICINCIA EM FUNO DE I ........................................................................................................... 38 2.8 FUNO DE CUSTO ................................................................................................................................ 38 2.9 ASPECTOS IMPORTANTES DA AMOSTRAGEM POR CONGLOMERADOS................................... 40 2.10 RESUMO AMOSTRAGEM POR CONGLOMERADOS. .................................................................. 41
Amostragem II 3 ________________________________________________________________________________________ 3. AMOSTRAGEM COM PROBABILIDADES VARIVEIS ...................................................................... 43 3.1 PROCEDIMENTO PARA SELEO DE AMOSTRA ............................................................................ 43 3.2 AMOSTRAGEM ALEATRIA COM PROBABILIDADES VARIVEIS .............................................. 44 a) PROBABILIDADES DE SELEO ......................................................................................................... 44 b) ESTIMAO NA AMOSTRAGEM COM REPOSIO ........................................................................... 45 3.3 SELEO COM PROBABILIDADES VARIVEIS NA AMOSTRAGEM POR CONGLOMERADOS 48 a) AMOSTRAGEM POR CONGLOMERADOS COM ETAPA NICA ........................................................ 49 b) AMOSTRAGEM BI-ETPICA COM PROBABILIDADES VARIVEIS................................................... 50 c) AMOSTRAGEM BI-ETPICA COM PROBABILIDADE PROPORCIONAL AO TAMANHO (PPT)...... 51 3.4 COMPARAO DA SELEO COM PPT E SELEO COM PROBABILIDADES IGUAIS NA AMOSTRAGEM POR CONGLOMERADOS ................................................................................................. 53 3.5 RESUMO AMOSTRAGEM COM PROBABILIDADES VARIVEIS. .............................................. 56 4. BIBLIOGRAFIA............................................................................................................................................. 57
Amostragem II 4 ________________________________________________________________________________________
1. AMOSTRAGEM SISTEMTICA
1.1 DESCRIO, VANTAGENS E PROBLEMAS
DESCRIO Seja N o tamanho de uma populao, e n o tamanho da amostra. Seja k =
N o n
intervalo de amostragem. O mtodo de amostragem sistemtica consiste em selecionar, aleatoriamente, uma unidade amostral entre as k primeiras unidades da populao e, a partir da, selecionar as restantes a intervalos fixos cada k unidades. No caso em que N = nk, o intervalo k divide a populao em n grupos, cada grupo com k unidades. Pelo mtodo sistemtico, seleciona-se uma unidade de cada grupo e cada unidade selecionada tem a mesma localizao dentro do grupo. 24 Ex.: Seja N = 24 e n = 4. O intervalo de amostragem k = = 6 . A primeira ser 4 selecionada por amostragem aleatria simples entre as unidades 1 e 6 do cadastro. Supondo que tenha sido a 5a, ento as outras unidades so: 11, 17 e 23. A amostra sistemtica de utilidade em casos como a seleo de cada k-simo registro num arquivo, a seleo de uma em cada k cidades de uma lista, etc. A aplicao de amostragem sistemtica fcil e muito pouco sujeita a erros. Isto vantajoso quando o prprio entrevistador o encarregado de selecionar a unidade a campo. Ele pode ser instrudo a selecionar uma em cada k casas de uma rua, ou alunos de uma aula, ou pginas de um livro, ou fichas de um arquivo. VANTAGENS DA AMOSTRAGEM SISTEMTICA - Facilidade para selecionar a amostra. - Geralmente mais representativa por distribuir-se de uma maneira mais homognea sobre toda a populao. Este pode no ser o caso para populaes com certas caractersticas (tendncias, periodicidade, etc). - Sob certas condies, a amostragem sistemtica pode substituir a amostragem aleatria simples. - Pode proporcionar uma amostra estratificada proporcional, se a populao estiver arranjada em ordem em funo da varivel a ser estudada . PROBLEMAS DA AMOSTRAGEM SISTEMTICA Nos casos em que o tamanho da populao no mltiplo do intervalo de amostragem os estimadores so viesados, porm, o vcio em geral pequeno. No pode ser definido um estimador para a varincia dos estimadores baseado em uma nica amostra sistemtica.
Amostragem II 5 ________________________________________________________________________________________
Em geral, N no um mltiplo de k, portanto, diferentes amostras sistemticas selecionadas da mesma populao finita podem ter uma diferena de uma unidade no tamanho da amostra. Exemplo: Com N = 23, k = 5 as diferentes amostras sistemticas so:
Amostra
1 1 6 11 16 21
2 2 7 12 17 22
3 3 8 13 18 23
4 4 9 14 19
5 5 10 15 20
As primeiras 3 amostras so de tamanho n = 5 e as ltimas duas so de n = 4. Quando Nnk a seleo da amostra pode ser realizada de diferentes maneiras, por exemplo: a) Permitir que, dependendo do incio aleatrio, o tamanho da amostra seja n ou n+1. b) Considerar a lista circular de maneira que, aps o final do cadastro, volta-se primeira unidade da lista. c) Usar intervalos fracionrios com uma casa decimal. Por exemplo, suponha a seleo de uma amostra de n=100 unidades de uma populao de N=920. O intervalo de amostragem k=920/100=9,2. Selecione um nmero aleatrio entre 1 e 92 e some 92 sucessivamente at obter n=100, depois, arredonde esses nmeros truncando as casas decimais.
1.3 ESTIMADOR DE
a) QUANDO N=nk No caso em que N = nk as k amostras possveis so: Amostra j 1 2 3 . j . 1 1 1+k 1 + 2k . 1 + (j - 1)k . 2 ............... 2 2+k 2 + 2k . 2 + (j-1)k . I I i+k i + 2k . i + (j - 1)k . k k 2k 3k . jk .
Amostragem II 6 ________________________________________________________________________________________
1 + (n-1)k
2 + (n-1)k
i + (n-1)k
nk
Seja x ij a observao da unidade i+(j-1)k na populao (i = 1, 2,, k ; j = 1, 2, , n). Supondo que o numero aleatrio selecionado entre 1 e k i, ento a amostra selecionada consiste todas as unidades da coluna i . Quando N=nk: 1 n x i = x ij mdia da amostra i. n j =1
1 1 k n = xi j = k kn i j
ESPERANA DE X i
i=j
x i mdia populacional
1 . k
1 k E( x i ) = x i = k i =1
1 k n x ij = . nk i j
Ento, a mdia amostral X i um estimador no tendencioso de na amostragem sistemtica quando N = nk. b) QUANDO N=nk+r Se N = nk + r onde r < k, o tamanho de amostra varia, dependendo do numero selecionado inicialmente. As amostras possveis so:
Amostra j 1 2 3 . n n+1 1 1 1+k 1+2k . 1+(n-1)k 1+nk 2 ......... 2 2+k 2+2k . 2+(n-1)k 2+nk i........... i i+k i+2k . i+(n-1)k i+nk r r r+k r+2k . r+(n-1)k r+nk r +1............ r+1 r+1+k r+1+2k . r+1+(n-1)k k k 2k 3k . nk
Amostragem II 7 ________________________________________________________________________________________
A mdia da populao :
k n 1 r n +1 x ij + x ij nk + r i =1 j=1 i = r +1 j=1
r k 1 (n + 1) x i + n x i nk + r i =1 i = r +1
se i r
1 = n
x
j =1
ij
se i > r
ESPERANA DE X i E ( x sis ) =
i =1
x i P ( i r) +
r k
i = r +1
x i P (i > r)
P(ir) = P(i>r) =
kr k
r E ( x sis ) = k
xi +
i =1
kr k xi k i =r+ 1
(x
i =1
Amostragem II 8 ________________________________________________________________________________________
2
_
X sis
N 1 2 1 = S N N
_ x ij x i i j
1
Sendo S2 = N 1 Mas,
(X
i j
ij
N 1 2 S = 2 N
2
_
= 2
X sis
1 N
_ x ij x i i j
Vemos que
O primeiro elemento a varincia da populao (2). 1 ( X ij X i ) 2 representa a varincia ponderada das k O segundo elemento, N i j amostras sistematicas. Quanto maior for a varincia dentro das amostras sistemticas, menor 2 ser x . Uma grande variao dentro de uma amostra sistemtica obtida quando a amostra heterognea. Portanto, quando as amostras possveis so heterogneas, a preciso da amostra sistemtica aumenta.
Exemplo de clculo de 2 Sis : x Seja a populao 1, 2, 3 | 4, 5, 6 | 7, 8, 9 k = 3, n = 3. As amostras possveis so: amostra 1 xij x1j2 1 1 4 16 7 49 ____ ____ 12 66 amostra 2 x2j x2j2 2 4 5 25 8 64 ____ ____ 15 93
2
2
_
X sis
1 = N
2
_ x ij x i i j
Amostragem II 9 ________________________________________________________________________________________
2 =
1 N
1 60 2 x ij N 2 = [285 (9 25)] = 9 9 i j
O segundo termo :
1 (x ij x i )2 = 1 x ij2 N i j N i
( x )
ij
( 12 ) 2 ( 15 ) 2 ( 18 ) 2 1 = 66 + 93 + 126 9 3 3 3
= 1 (18 + 18 + 18) = 54 9 9
2 Substituindo em x sis .
x2 =
Sis
60 54 2 = 9 9 3
sistemtica tendo s uma amostra selecionada. Seria necessrio ter, pelo menos, duas amostras para poder estimar a varincia dentro de estratos. No entanto, conhecendo a frmula geral da varincia da mdia na amostragem sistemtica, podemos estabelecer quais os casos em que a amostragem sistemtica fornece maior preciso que a amostragem aleatria simples. Nesses casos pode ser utilizada uma seleo sistemtica ao invs de uma aleatria simples. Na amostragem estratificada pode-se utilizar amostragem sistemtica para selecionar as amostras dentro de estratos se as condies necessrias forem preenchidas.
Amostragem II 10 ________________________________________________________________________________________
Para obter uma medida da heterogeneidade de uma amostra sistemtica utiliza-se o coeficiente de correlao intraclasse.
I =
E ( x i j - )( x i j - ) E ( x i j - )2
];
j' j
I =
2 n 1
i j< j'
( xi j ) ( x i j' )
1 1 N - 1 S2
N 1 n = tamanho da amostra
Exemplo 1: Seja a populao 1, 7, 2, 8, 3 e 9, dividida em duas amostras possveis (grupos). Calcular I. N=6 n=3 k=2 Existem duas amostras sistemticas possveis, de tamanho 3 Amostra 1 2 1 7 2 8 3 9 =
30 = 5 6 (7 5)2 + (8 5)2 + (9 5)2 + (1 5)2 + (2 5)2 + (3 5)2 2 S = 6 1 4 + 9 + 16 + 16 + 9 + 4 58 = S2 = 5 5
S2 =
( xi j )2
j
Para calcular
(x
i j< j'
ij
Amostra 1 (i = 1)
Amostra 2 (i = 2)
( x 1 j - ) ( x 1j ' - ) :
( 1 - 5 ) ( 2 - 5 ) = 12 (1 -5)(3-5) = 8 (2 -5)(3-5) = 6 ( x 1j ) ( x 1j' ) = 26
j< j'
( x 2 j - ) ( x 2j ' - ) :
( 7 - 5) ( 8 - 5 ) (7-5)(95) (8-5)(95) ( x 2 j ) ( x 2 j' )
j< j'
= 6 = 8 = 12 = 26
Amostragem II 11 ________________________________________________________________________________________
I =
I =
A caracterstica do I que os desvios das unidades amostrais so calculados em funo da mdia da populao () e no das respectivas mdias amostrais. Observe que, no grupo 1, todas as unidades apresentam desvios com sinal negativo a respeito de , e os produtos de desvios so positivos ( x ij - ) ( x ij' - ) > 0 . Por outro lado todas as unidades do grupo 2 apresentam desvios positivos e os produtos sero sempre positivos. Podemos dizer que, para ambas as amostras, as unidades amostrais so homogneas em relao a . O valor de I = 0,896 uma medida desta homogeneidade. Exemplo 2: Uma populao de N = 9 dividida em 3 amostras possveis. Calcular I Amostra 1 2 3 1 2 3 4 5 6 7 8 9 Para esta populao, = 5 i=1
i < j'
(x
1j
- ) ( x 1 j ' ) = (1 - 5 ) (4 - 5) + (1 5)(7 - 5) + (4 - 5) (7 - 5) = -6
- ) ( x 2 j' ) = - 9
i=2
i < j'
(x
2j
i=3
i < j'
(x
3j
- ) ( x3 j' ) = - 6
S2 =
(1 - 5) 2 + (2 - 5) 2 + (3 - 5) 2 + (4 - 5) 2 + (5 - 5) 2 + (6 - 5) + (7 - 5) 2 + (8 - 5) 2 + (9 - 5) 2 9 -1
60 8
S2 = I =
I negativo.
Amostragem II 12 ________________________________________________________________________________________
b) FRMULA ALTERNATIVA PARA O CLCULO DO COEFICIENTE DE CORRELAO INTRACLASSE Para o caso geral de k grupos com Ni unidades no grupo i, a frmula a seguir fornece um mtodo mais eficiente para calcular I sem precisar listar todos os pares de observaes.
N
I =
i =1 k
2 i
( i - V)
2
(x
ij
Ni
ij
- V) 2
i = 1 j =1
i =1
( N i 1 )
(x
j =1
Ni
V )2
1 V= G
G=
i =1
i
( N i - 1)
j=i
Ni
xi j
N
i =1
( Ni -1 )
X
j=1
Nj
ij
12
i = 4
Amostragem II 13 ________________________________________________________________________________________
( x
( N
i j
i
ij
V ) 2 = 21 + 18 + 21 = 60
j
- 1 ) ( x ij V) 2 = 2 x 21 + 2 x 18 + 2 x 21 = 120
N ( i - V) 2 = 9 x 1 + 9 x 0 + 9 x 1 = 18
2 i
I =
2 sis X
S2 N - 1 = [1 + (n - 1) i ] onde S 2 = i n N
( xi j )2
j
N 1
Nesta equao pode-se observar que: 2 a) quando I grande e positivo, x grande, 2 b) quando I pequeno e positivo ou negativo, x pequena, c) se I = 0, 2 Sis igual a varincia de x na a.a.s. x d) VALORES EXTREMOS QUE I PODE TOMAR Se amostra sistemtica homognea I ter o mximo valor. No caso extremo, todas as unidades da amostra terem igual valor. Ento, para I =
E ( x i j - ) ( x i j ' ) E (x i j ) 2
Teremos xij = xij e portanto i = 1 O mnimo valor de I ser obtido para 2 = 0 x Fazemos 0 =
S2 N - 1 1 + ( n - 1) I n N
E chegamos a: 1 I = n 1 1 Ento, I 1 n 1
Amostragem II 14 ________________________________________________________________________________________
Um coeficiente de correlao intraclasse grande positivo obtido quando as unidades na amostra sistemtica so homogneas; I ser pequeno e positivo, ou negativo, quando as unidades so heterogneas.
( )
) 1 1 2 Sis = x n nk
( x
j =1
n -1
i, j
- x i, j+1 ) 2
que tambm tendencioso.
2 ( n -1 )
c) Com duas ou mais amostras aleatrias sistemticas possvel estimar a varincia da mdia sem tendenciosidade. Seja x 1 , x 2 ,... x m , as mdias de m amostras sistemticas independentes, cada uma
x 2 =
1 m ( m -1)
( x
i =1
x) 2
Amostragem II 15 ________________________________________________________________________________________
Exemplo: As fichas de clientes de credirio para casa prpria esto arranjadas de acordo com a data em que foi concedido o financiamento, durante os ltimos 15 anos. Existe certa tendncia para estes financiamentos aumentarem de valor porque o custo da construo aumenta. Para um estudo de valores de financiamentos, uma amostra sistemtica 1 em 100 produzir uma mdia cujo valor depende muito do valor aleatrio selecionado para iniciar a seleo. Se o valor selecionado baixo (1, 101,201,) a mdia amostral ser muito menor que se o valor for alto (100, 200, 300,). A tendncia monotnica induz variao entre as 100 mdias amostrais possveis. Considere a amostra sistemtica equivalente a uma amostra estratificada com uma unidade selecionada em cada estrato, tomando como estrato o intervalo de seleo. Se a populao mostra uma tendncia linear, como no grfico, as unidades selecionadas esto localizadas na mesma posio em cada estrato, ou seja, se no primeiro estrato a unidade da
Amostragem II 16 ________________________________________________________________________________________
amostra muito baixa tambm ser baixa em todos os estratos. J na estratificada a posio da unidade em cada estrato aleatria, dando uma chance para os erros dentro de estrato cancelarem. Nesse caso, 2 Sis pode ser maior que 2 . x x
Est
Para este tipo de populao, em geral a amostra aleatria simples e a amostra estratificada sero mais precisas que a sistemtica. Porm, a amostra sistemtica pode ser melhorada em populaes com tendncia linear usando uma amostra dos pontos centrais dos estratos (amostra centrada). Neste caso a amostra sistemtica superior. Outra maneira de melhorar a estimao baseada numa amostra sistemtica quando existe uma tendncia linear utilizar uma mdia ponderada para estimar utilizando como peso 1/n para todos os valores amostrais exceto o primeiro e o ultimo, que recebero pesos 1 2i - k - 1 1 2i - k -1 , + e n 2( n -1)k n 2 (n -1)k respectivamente, sendo i o n selecionado aleatoriamente de 1 a k. Neste caso a mdia ponderada da amostra sistemtica igual a , se N = nk. c) POPULAES COM VARIAES PERIDICAS. Quando existem variaes peridicas de perodo k na populao, um intervalo amostral de tamanho k ou mltiplo de k no deve ser utilizado. Se houverem condies de estudar a estrutura peridica da populao, pode ser planejada uma amostra sistemtica para tomar vantagem desta caracterstica. Caso contrrio prefervel uma amostra aleatria simples ou estratificada quando se desconfia de uma periodicidade, mas no se conhece a sua natureza. Em casos de periodicidade pode-se trocar a posio da unidade amostral cada vez. Seja a populao hipottica: 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5 Selecionando uma amostra sistemtica, de k = 5, se a 1 unidade sorteada , por exemplo, 2, a amostra ser ( 2, 2, 2 ). Neste caso, os grupos formados so homogneos e I grande. Claro que este caso extremo, mas existem muitas situaes reais de periodicidade na populao. Exemplo 1: Edifcio com 6 apartamentos por andar, sendo 2 apartamentos de 2 quartos e 4 de um quarto. Selecionando uma amostra sistemtica com intervalo 6 uma amostra possvel seria 201, 301, etc., todos do mesmo no de quartos. Exemplo 2: As vendas dos supermercados so altas em sextas e sbados, e baixas nas segundas e teras-feiras, ou seja, tm periodicidade semanal. Para estimar uma mdia durante um certo perodo (1 ms, por exemplo), uma amostra sistemtica todas as quartas-feiras ou todos dias s 16h no conveniente. A estratgia distribuir a amostra ao longo da curva peridica, cuidando para que cada dia esteja representado.
Amostragem II 17 ________________________________________________________________________________________
Exemplo 3: Fluxo de carros num determinado ponto durante as 24 horas do dia. No caso da curva peridica, a eficincia da amostra sistemtica depende do valor de k. O caso mais desfavorvel acontece quando k igual ao perodo da curva, ou mltiplo inteiro dele.
Isto representado pela amostra A no grfico na qual, todas as observaes so iguais, portanto, uma amostra no mais precisa do que uma observao tomada aleatoriamente . O caso mais favorvel (amostra B) acontece quando k uma frao do perodo. Cada amostra sistemtica tem uma mdia igual a , pois desvios para mais e para menos se compensam x ( Sis ) = 0
2
nesse caso.
Significa que o procedimento B reduziu a varincia a aproximadamente 1/3 do procedimento A, ou seja, o procedimento B mais eficiente. ER > 1 B mais eficiente que A ER < 1 B menos eficiente que A
Amostragem II 18 ________________________________________________________________________________________
Exemplo 2: Se B comparado com A tiver ER = 0,35, (A melhor que B) e C comparado com A tiver ER = 0,62, (A melhor que C)
2 A = 0,35 2 B
2 A = 0,62 2 C
2 B
2 C
Significa que C mais eficiente que B. EFEITO DO DELINEAMENTO O efeito do delineamento (deff) a razo entre a varincia do estimador em um plano amostral e a varincia de uma amostra aleatria simples do mesmo tamanho. Suponha, por exemplo, que uma amostra estratificada de tamanho n utilizada para estimar . Nesse caso,
x2
deff =
( est )
2 x( a . s )
2 x Sis
kn 1 S 2 [1 + ( n - 1) I ] = kn n
deff =
2 Sis x 2 A .S . x
(nk - 1) [1 + (n - 1 ) I ]
n (k - 1)
sendo nk=N, ( N 1)[1 + (n 1) I ] deff = 1 + (n-1) I N n O efeito do delineamento depende do valor de I. Se I = preciso.
1 1 = , ento 2 Sis = 2 A .S. e ambos os mtodos do a mesma x x kn 1 N 1
Amostragem II 19 ________________________________________________________________________________________
1 , ento 2 Sis > 2 A .S. A amostragem sistemtica menos precisa que a x x kn 1 aleatria simples.
Se I > -
Prova: Seja I =
-1 + 1 + = , > 0 kn 1 kn 1 kn - 1
2 x Sis
2 x A .S.
(nk - 1) 1 + (n - 1)( 1)
kn 1 n (k - 1)
kn 1 + 1 - n + (n - 1) n (k 1) n (kn 1 ) + (n - 1) >1 n (k 1)
1 , 2 Sis < 2 A .S. a amostragem sistemtica melhor que a x x kn 1 amostragem aleatria simples. Em geral, difcil saber quais os valores que pode tomar I em populaes distribudas no espao ou no tempo, o que no permite tirar concluses sobre a eficincia da amostragem sistemtica em relao amostragem aleatria simples. Por outro lado, em populaes organizadas numa determinada ordem, por exemplo, alfabtica ou outra qualquer que no esteja relacionada com a varivel a observar, pode-se considerar que a amostragem sistemtica produz, em mdia, preciso equivalente amostragem aleatria simples.
No outro caso, se I <
Amostragem II 20 ________________________________________________________________________________________
Exemplo: Seja uma populao com 9 linhas e 12 colunas e deseja-se selecionar uma amostra de tamanho 9 com m=3 linhas e n=3 colunas. Sendo ml=9 e nk=12, resulta l=3 e k=4. Seja i=2, j=2, os nmeros sorteados. A amostra est representada no grfico.
b) Amostra no alinhada. Um mtodo alternativo o seguinte: Selecionar independentemente n inteiros aleatrios i1 i2,... in l e m inteiros aleatrios j1, j2,...jm k. As unidades selecionadas na amostra tm as coordenadas: [is+ rl ; jr+1+(s-1)k] s=1,2,,n; r=0,1,,(m-1) Exemplo: Na populao anterior, seja i1 = 2, i 2 = 3 i 3 = 1, j1 = 2, j2 = 1 , j 3 = 3 os nmeros sorteados, m=3, n=3, l = 3 e k=4 .As coordenadas das unidades selecionadas ficam: s=1 r r r s=2 r = 0 i 1 + 0l, j1 = ( 2, 2 ) = 1 i1 + 1l, j2 = ( 5, 1 ) = 2 i 1 + 2l, j3 = ( 8, 3 )
Amostragem II 21 ________________________________________________________________________________________
Estudos feitos tm mostrado que uma amostra no alinhada geralmente superior a uma amostra alinhada e tambm a uma amostra estratificada aleatria.
de acontecer na prtica. Dificilmente se tem N=nk num caso real. Os casos nos quais recomendada a amostragem sistemtica so: 1) Quando a ordenao da populao aleatria ou contm uma estratificao que no interfere com os objetivos do estudo. 2) Quando se utiliza uma estratificao com numerosos estratos e seleciona-se uma amostra independente para cada estrato. Os efeitos de qualquer periodicidade no conhecida tendem a cancelar. O estimador da mdia nesse caso
2 2 x = wh x2
Sis
x Sis. = w h x h e o
h
que tendencioso. Um
estimador no tendencioso do erro pode-se obter com duas amostras sistemticas independentes em cada estrato, com incios aleatrios independentes e intervalos de seleo 2k. 3) No caso de sub-amostragem (amostragem por conglomerados).
Amostragem II 22 ________________________________________________________________________________________
N = nk N = nk +r
1 X ij kn i j 1 [(n + 1) X i + n X i ] = nk + r
Xi =
Xi =
1 X ij n j
1 n X ij n + 1 j=1 , se i r , se i > r
1 n +1 X i = X ij n j=1
CORRELAO INTRACLASSE.
I =
2 n 1
onde S 2 =
(x (x
i j< j'
ij i
ij
) ( x i j' )
1 1 ; n -1 S2
)2
I =
i =1
N i2 ( i - V) 2
i = 1 j =1 Ni
(x
ij
Ni
ij
- V) 2
;
2
i =1
( N i 1 )
(x
j =1
V)
1 V= G
G=
i =1
i
( N i - 1)
j=i
Ni
xi j
N
i =1
( Ni -1 )
Amostragem II 23 ________________________________________________________________________________________
N = nk
(X
n 1
ij
X i , j+1 )
RELAO ENTRE I e
2 Sis x
2 sis = X
S n
N -1 [1 + (n - 1) i ] onde S 2 = i N
( xi j )2
j
N 1
( N 1)[1 + (n 1) I ] 1 + (n-1) I N n
Amostragem II 24 ________________________________________________________________________________________
Populao de um pas Cidades Veculos que trafegam Intervalo de 40 min numa ponte Pacientes de um seguro Grupos de 10 fichas mdico
Amostragem II 25 ________________________________________________________________________________________
Com amostragem aleatria simples, cada uma destas amostras ter a mesma probabilidade, (1/10), de ser selecionada. Cada quarteiro aparece em M 1 = 3 das 6 amostras possveis de tamanho 2, portanto, a probabilidade de um quarteiro entrar na amostra 0,5. A probabilidade de uma loja no quarteiro i ser includa na amostra , tambm, 0,5, mesmo sendo diferente o numero de lojas por quarteiro. Portanto, quando todos os elementos de um conglomerado so includos na amostra, a probabilidade de uma unidade secundria ser includa na amostra a mesma probabilidade do M 1 conglomerado ser includo. Essa probabilidade . M m
b) PARMETROS E ESTIMADORES O processo de seleo na amostragem por conglomerados com etapa nica equivale seleo de uma amostra aleatria simples. Na amostragem aleatria simples selecionada uma amostra de n unidades de uma populao de tamanho N; na amostragem por conglomerados com etapa nica selecionada uma amostra aleatria simples de m conglomerados de uma populao de tamanho M. A diferena est em que, na amostragem por conglomerados, a varivel observada o total do conglomerado (Ti). O processo de estimao dos parmetros (mdia, total, proporo) dever se basear, ento, na teoria da amostragem aleatria simples.
X
j
Ni
ij
Total do conglomerado i
Amostragem II 26 ________________________________________________________________________________________
1M N i
M i
Xij =
j
M i
Ni
1 N
N
i i
ij
Mdia geral
T =
Ti =
X
j
Ni
Total geral.
Exemplo: A Aeronutica de um determinado pas possui M=10 aeroportos com Ni avies cada um, sendo, em total, N=130 avies. So registradas as milhas de cada avio em um determinado perodo. Ti = Total de 1.000 milhas Aeroporto (i) Avies (Ni) 1 2 3 4 5 6 7 8 9 10 Total
10 15 15 15 10 15 15 10 10 15 N = 130
Ni j
(Ti = X ij )
40 75 75 60 60 90 75 70 40 90 T = 312,50
i
4 5 5 4 6 6 5 7 4 6 = 2,4
ESTIMADOR DE T Para estimar T, o Total de milhas nos 10 aeroportos, seleciona-se uma amostra aleatria simples de m = 4 aeroportos. A varivel observada nesta amostra aleatria simples Ti. A estimao feita calculando a mdia dos totais dos m conglomerados da amostra e multiplicando essa mdia pelo nmero M de conglomerados da populao.
m 1 T = Ti m T = MT
M T= m
Amostragem II 27 ________________________________________________________________________________________
Ti = 275
275 = 68,75 T= 4 = (10)68,75 = 687,50 (1.000 milhas nos 10 aeroportos) T ESTIMADOR DA MDIA O estimador da mdia da populao baseia-se no estimador de T
1 T N
1 M N m
Ti =
1 M N m
Ni
ij
VARINCIA POPULACIONAL Existem duas fontes de variao na amostragem por conglomerados: uma variao devida a amostragem das UP, chamada de variao entre UP ( 2 , S 2 ) e a outra a variao E E devida a seleo das amostras aleatrias nas UP, chamada variao dentro das UP. ( 2 , S 2 ) D D Definies: 2 = i2 = 1 M Ni (X ij - ) 2 varincia da populao N i j 1 Ni
(X
j
Ni
ij
2 = D
Amostragem II 28 ________________________________________________________________________________________
1 M N i ( i - ) 2 varincia entre os M conglomerados N i Pode-se provar que 2 = 2 + 2 . Ou seja, as duas fontes de variao so aditivas e D E compem a variao total. 2 = E
1 Ni (X ij i ) 2 Ni 1 j
1 N M
( N i 1) Si2 =
i
M 1 N M i
Ni
(X ij i ) 2
S2 = E
1 M N i ( i ) 2 M 1 i 1 M (Ti T ) 2 M 1 i =1
2 ST =
VARINCIA DA MDIA A varincia da mdia obtida, tambm, aplicando a teoria da amostragem aleatria simples a uma amostra de m conglomerados, obtida de uma populao de M conglomerados.
2 = 2 1 M m ST M2 M m N2 M 1 2 ST = (Ti T ) 2 M 1
2 =
2 M m ST 1 M2 M m N2 m 1 2 ST = (Ti T ) 2 m 1
m 1 T = Ti m
No exemplo:
Amostragem II 29 ________________________________________________________________________________________
Xi =
1 N
ij
1 m (Ti T ) 2 m 1
Amostragem II 30 ________________________________________________________________________________________
Pela amostragem aleatria simples sabe-se que Ti no viciado para estimar o total do conglomerado i. A mdia dos totais estimados :
T= Ti
i m
N X
i
m i
ou seja,
T =MT A frmula completa de T fica:
m M m M m N ni M T = Ti = N i X i = m n i X ij m m i i j i Este procedimento est, na realidade, utilizando o esquema de amostragem aleatria simples para estimar o total duas vezes, uma vez utilizando as famlias (US) para estimar o total do conjunto residencial (UP) e, depois, os conjuntos residenciais para estimar o total da populao.
Amostragem II 31 ________________________________________________________________________________________
onde
2 ST =
1 M (Ti T ) 2 M 1
1 Ni 2 S = (X i j i ) Ni 1
2 i
ESTIMADOR DA VARINCIA DE T
Para estimar
2 ST =
2 $ T
1 m (Ti T ) 2 Tendencioso m 1
m 1 T = Ti m ni 2 = 1 Si (Xij Xi )2 ni 1 j
No tendencioso
ou seja,
=M
2 T
(M - m)
M
2 ST M m 2 N i n i Si2 + Ni N n m m i i
( )
X
j
ni
ij
Notar que no a mdia amostral simples, o estimador da mdia da populao obtido dividindo o estimador do total pelo nmero de elementos na populao.
Amostragem II 32 ________________________________________________________________________________________
VARINCIA DA MDIA
2 =
2 M N n i Si2 1 2 1 2 M - m ST M + N i2 i T = 2 M M m m i Ni ni N2 N
1 2 N2 T 2 N n i Si2 1 2 M - m ST M m 2 + N i2 i = 2 M M m m i Ni n i N Este estimador, no entanto, no fcil de ser calculado, porque N geralmente desconhecido. Existem algumas maneiras de solucionar esta dificuldade. Uma supor todas as UP de igual tamanho e selecionar o mesmo nmero de US das UP amostradas. Outro mtodo usar uma aproximao, e o terceiro selecionar UP com probabilidade proporcional ao tamanho. 2 =
Exemplo: Suponha que, no exemplo da Aeronutica, em cada aeroporto selecionado na amostra so selecionados ni avies. Pretende-se estimar o Total de milhas na populao e a mdia de milhas por avio. Os dados da amostra esto a seguir.
ni j
i 3 6 8 9
Ni 15 15 10 10
ni 5 5 4 4
X
25 30 28 16
ij
Xi
Ti = N i X i
75 90 70 40
5 6 7 4
m
T = 275
i
Estimativa do total:
Amostragem II 33 ________________________________________________________________________________________
m m M T = M T = 10 275 = 687,50 (1.000 milhas) T= i i 4 m m Estimativa da mdia: T 687,50 = = 5,288 (1.000 milhas por avio) X == N 130
2 =
1 N2
m i
2 ST =
2 M-m M M 2 2 N i ni Si Ni Ni ni
2 N ni Si2 ST M m + N i2 i m m i Ni n i
= 121,875
1 m (Ti T ) 2 = 439,58 m 1
2 = 305,0777
Erro padro da mdia: = 17,466 (1.000 milhas, por avio)
Ni = N =
N M n ni = n = m
Amostragem II 34 ________________________________________________________________________________________
ESTIMADOR DA MDIA 1 M m N n X == X ij NM m i n j
=
Neste caso, no h necessidade de conhecer N para estimar a mdia da populao (). VARINCIA DE X A varincia de X para o caso geral era: 2 1 M m ST 1 M M 2 N i n i S i2 2 = 2 M 2 + 2 Ni N n M m N m N i i Substituindo N = M N fica:
2 2 M m 1 ST N n 1 M Si + = M m N2 N M i mn
2
quando N i = N e n i = n
quando N i = N e n i = n
2.4 EFICINCIA RELATIVA DA AMOSTRAGEM POR CONGLOMERADOS COMPARADA COM A AMOSTRAGEM ALEATRIA SIMPLES
Para simplicidade das frmulas comparar-se- o caso de conglomerados de igual tamanho com amostragem aleatria simples. Seja N = N i o tamanho dos conglomerados. Sabemos que: 1 m = X i = X um estimador no viciado da mdia da populao. m i 1 M S2 = N i ( i ) 2 E M 1 i
Amostragem II 35 ________________________________________________________________________________________
2 S T pode-se expressar assim
2 ST =
1 M Ti T M 1
M 1 = N i i M 1
2
Nii M
M
M N = ( i )2 = NS 2E M 1
A varincia da mdia quando ni = Ni = N : 2 1 M m ST 2 ( cong ) = 2 M m N 2 1 M - m SE = N M m Neste caso, tomou-se uma amostra de m conglomerados com N unidades em cada conglomerado. Quer dizer, o tamanho da amostra final foi n= m N . Se considerarmos uma amostra aleatria simples de m N elementos da populao M N , a varincia da mdia :
2 2 MN mN S M m S = = MN mN M mN A eficincia relativa do conglomerado como unidade de amostragem comparada com o elemento dada por: 2 Mm S 2 2 (a .s ) M mN = S = E.R. = 2 (cong ) 1 M m 1 2 S 2 E SE N M m Essa eficincia inversamente proporcional varincia entre conglomerados. Ou seja , a eficincia relativa da amostragem por conglomerados aumenta quando S 2 diminui. E Por outro lado, a relao 2 ( a.s )
(X
i j
ij
) = (X
2 i j
ij
i ) + N i ( i )
2 i
equivalente a (MN 1)S 2 = M(N 1)S 2D + (M 1)S 2E e 1 2 2 (M N 1) S 2 M (N 1) S D SE = M -1 Podemos ver que S 2 diminui com o aumento de S 2 ou seja, quanto maior a varincia D E dentro de conglomerados, menor a varincia entre conglomerados e maior a eficincia relativa da amostragem por conglomerados em relao amostragem aleatria simples.
Amostragem II 36 ________________________________________________________________________________________
Esses resultados indicam que, para a amostragem por conglomerados ser eficiente, os conglomerados devem ser formados de tal maneira que a variao ente mdias de conglomerados seja to pequena quanto possvel ( S 2 pequeno) enquanto que a variao E dentro de conglomerados seja to grande quanto possvel ( S 2 grande). D Se os conglomerados so formados agrupando amostras aleatrias de N elementos de uma populao de N M elementos, de esperar que os elementos de um mesmo conglomerados no sejam nem mais nem menos parecidos que os elementos em outro conglomerado. Conseqentemente, varincias entre e dentro de conglomerados sero da mesma magnitude, sendo ambas variveis aleatrias que estimam S 2 . Isto quer dizer que, se os conglomerados so formados de amostras aleatrias dos elementos da populao, eles sero, em mdia, to eficientes quanto s unidades individuais. Na prtica, um conglomerado no pode ser considerado como formado por uma amostra aleatria dos elementos da populao. Geralmente, elementos do mesmo conglomerado so mais similares entre si que elementos em conglomerados diferentes. Conseqentemente, a varincia de uma amostra por conglomerados geralmente ser superior da amostra aleatria simples. Se os conglomerados so de igual tamanho N , formados por amostras aleatrias da populao de NM elementos, temos: E (S 2 ) = S 2 e E E (S 2 ) = S 2 D Quando os conglomerados so formados por amostras aleatrias da populao, tanto a varincia entre conglomerados como a varincia dentro de conglomerados esto estimando a varincia total.
I =
E( X ij )(X i j ) E(X ij ) 2
Amostragem II 37 ________________________________________________________________________________________
E (S2 ) = S2 D
M 1 S 1 M 1 S2 -1 M 1 M = M = E ( I ) = M N N NM 1 NM 1 NM 1 2 S M NM 1 = NM 1
2 X cong
M - m MN - 1 S 2 1 + ( N 1) I = M N(M - 1) mN
2 X cong
Sendo 2 =
2 X cong =
M m 2 1 + N 1 I M 1 mN
[ (
) ]
selecionados aleatoriamente e com reposio; O terceiro fator, 1+ ( N -1) i , mede a contribuio da amostragem por conglomerados varincia da mdia.
Amostragem II 38 ________________________________________________________________________________________
S2 S2 E
1 M N 1 S2 1 + N 1 I (M 1) N S2
) [ (
) ]
N(M 1) 1 MN 1 1 + (N - 1) I
quando M suficientemente grande. 1 + N 1 I O efeito de delineamento na amostragem por conglomerados fica: deff = 1 + ( N 1) I Esta equao indica que, quando I positivo, como acontece geralmente na prtica, a amostragem por conglomerados menos eficiente que a amostragem aleatria simples. Para um valor fixo de I , o efeito do delineamento aumenta quando o tamanho do conglomerado aumenta.
E.R
Amostragem II 39 ________________________________________________________________________________________
O custo total da pesquisa ser dado pela funo: CT = CO + C1m + C2m n Sendo Co fixo, trabalharemos com CT - CO = C para achar a distribuio tima do tamanho da amostra, ou seja, achar m e n de maneira a minimizar a varincia dado um oramento fixo. A varincia para mdia :
2 M m 1 S T N n 1 M S i2 + M m N2 N M i mn S2 2 Chamando T2 = S1T N 1 M 2 e, sendo Si = S 2D M i a varincia fica: 2 M m S1T N n S 2 2 D = + M m N mn 2 =
a funo de custo : C = C1m + C2m n O problema consiste em minimizar 2 com a restrio C = C1m + C2m n . $ Isto resolvido pela tcnica dos multiplicadores de Lagrange que consiste em 2 estabelecer uma funo F = + (C1 m + C 2 mn C) A funo F derivada a respeito de m e n , as derivadas anuladas e com o sistema de equaes resultantes acham-se os valores timos para m e n . O valor obtido para n :
n= C1 C2 S2 D
2 S1E
S2 D N
2 onde S1E =
M 1 Ti T N(M 2 1) i
n=
C1 1 - i C2 i
Amostragem II 40 ________________________________________________________________________________________
Pode-se observar, ento, que o tamanho timo da US para a amostra por conglomerados aumenta a medida que C1 aumenta em relao a C2 . Isto indica que, quanto maior o custo adicional de acrescentar uma U.P, comparado com o de acrescentar um U.S, menor o nmero de U.Ps devemos tomar e maior nmero de U.S por U.P, e vice-versa. Tambm, n timo varia em funo de (1 I ) / I ou seja, n diminui a medida que I aumenta e vice-versa. Se i pequeno , h pouca perda em incluir mais U.S por U.P. Um aspecto interessante a notar que o tamanho timo do conglomerado ( n ) no afetado pela quantidade de conglomerados (m). Se compararmos uma amostra por conglomerados com uma amostra aleatria simples encontramos que, em amostragem por conglomerados : a) O custo por unidade ltima mais baixo; b) A varincia da mdia geralmente maior, como resultado da homogeneidade dos conglomerados; c) Os custos e problemas da anlise estatstica so maiores. Estas vantagens e desvantagens tm de ser analisadas em conjunto para decidir a convenincia ou no de utilizar um ou outro mtodo de amostragem.
DA
AMOSTRAGEM
POR
a) Os conglomerados devem estar muito bem definidos. Cada elemento da populao deve pertencer a um e somente um conglomerado. b) O numero de elementos da populao de cada conglomerado deve ser conhecido, ou pelo menos haver uma estimativa confivel. c) O tamanho do conglomerado influencia a eficincia da amostra: Menor tamanho de conglomerados, maior preciso de estimao. d) O agrupamento das unidades da populao tende a aumentar o erro amostral. Os conglomerados devem ser selecionados de maneira a minimizar esse aumento do erro. e) Os conglomerados devem ser suficientemente pequenos de maneira a possibilitar a diminuio dos custos. Caso contrrio perde-se a finalidade do agrupamento. f) Os conglomerados podem ser definidos de maneira diferente dentro de uma mesma pesquisa. Por exemplo, na seleo de indivduos ou de moradias em reas urbanas, os conglomerados podem ser blocos ou grupos de blocos. J em reas rurais, na mesma pesquisa, os conglomerados podem ser segmentos geogrficos delimitados por estradas e/ou limites naturais, como rios, etc. g) Tambm no necessrio que todos os conglomerados sejam do mesmo tamanho. Em geral, conglomerados naturais podem variar muito em tamanho. Muita variao no tamanho do conglomerado ocasiona aumento no erro amostral, mas existem mtodos para controlar esta variao.
Amostragem II 41 ________________________________________________________________________________________
M T= m
2
Ti
1 M N m
2 1 2 M m ST = 2M M m N m 1 2 ST = (Ti T ) 2 m 1
m 1 T = Ti m
II)
AMOSTRAGEM BIETPICA a) Conglomerados de tamanho Ni, amostras de tamanho ni no conglomerado Parmetro Estimador
T = N
2 T = M2
m Ni M T= m i ni
ni
X ij
M - m S2 M M 2 N i n i Si2 T + N M m m i Ni ni
2 T = M 2
(M - m)
M
2 ST M m N i n i Si2 + N2 i m m Ni ni
2 ST =
1 M (Ti T ) 2 M 1
2 ST =
1 m (Ti T ) 2 m 1
1 Ni 2 S = (X i j i ) Ni 1
2 i
m 1 T = Ti m
1 ni Si2 = (Xij Xi )2 ni 1 j
Amostragem II 42 ________________________________________________________________________________________
=
2 =
1 N
N
i
i i
X
j
ni
ij
1 N2
2 2 N ni S i2 1 M - m ST M m 2 M - m ST M M N n i Si2 2 + N i2 i = 2 M 2 + N i2 i M M m m i Ni ni N Ni n i M m m i
b) Conglomerados de tamanho N i = N , amostras de tamanho n i = n Parmetro Estimador m T = N M T = Xi m i M 1 1 m = i X = Xi M i m 2 2 2 M m 1 ST N n 1 M Si 1 M m ST 1 N n 1 m 2 2 + = 2 = 2 + Si M m N2 N M i mn M m Mm N n i N COEFICIENTE DE CORRELAO INTRACLASSE (quando N i = N = n i )
1 M N i ( i ) 2 M 1 i M 1 S2 = ( N i 1) Si2 D N M i S2 = E
III)
M 1 S2 1 E S2 D I = M N N NM 1 2 S NM
S2 = Si2 =
2 cong = X
1 N 1
i j Ni
Ni
(X ij ) 2
1 (X ij i ) 2 Ni 1 j
M - m MN - 1 S 2 1 + ( N 1) I M N(M - 1) mN
Amostragem II 43 ________________________________________________________________________________________
Amostragem II 44 ________________________________________________________________________________________
Para selecionar um pomar extramos um numero entre 1 e 740 da tabela de nmeros aleatrios. Seja este n = 600, o 6 pomar selecionado. Selecionando outros 3 nmeros, por exemplo, 650, 130 e 300. Os pomares selecionados ento so os 6, 1 e 4, respectivamente. Vemos que o 6 pomar foi selecionado 2 vezes. Na seleo sem reposio, existe uma diferena bsica entre o mtodo aleatrio simples e o de amostragem com probabilidades variveis de seleo. No primeiro, a probabilidade de selecionar uma unidade em qualquer extrao dada a mesma. No segundo, essa probabilidade varia de uma extrao para outra. A teoria de amostragem com probabilidades variveis e sem reposio consequentemente mais complexa que a do mtodo aleatrio simples.
P = 1
i
P( j ( i) na 1a ) x P (i na 2a / j na 1a )
A
=
Ento,
j ( i )=1
Aj
Ai = A A Aj
j ( i )=1
Aj
Ai A A AJ A A
Pi 2 =
j ( i) = 1
Pi 1 Pj
Amostragem II 45 ________________________________________________________________________________________
fcil ver que Pi2 no igual a Pi1 para i=1,...,N a menos que Pi=1/N. Portanto, o valor esperado da varivel muda de acordo com a extrao. Isto faz com que a teoria de amostragem com probabilidades variveis e sem reposio seja bastante complexa e de difcil aplicao. AMOSTRAGEM COM REPOSIO No caso de amostragem com reposio a probabilidade de seleo permanece igual de uma extrao para outra. Pi1 = Pi 2 = ........Pin Na amostragem com reposio as frmulas para a mdia e a varincia so mais simples. Tambm, quando n << N, como geralmente o caso, a probabilidade de selecionar repetidamente a mesma unidade da populao pequena, e a amostragem com reposio aproximadamente igual amostragem sem reposio. No restante deste material se supe amostragem com reposio.
b) ESTIMAO NA AMOSTRAGEM COM REPOSIO ESTIMADOR DA MDIA Seja uma populao de N unidades. Seja Pi (i=1,, N) a probabilidade de selecionar a i-sima unidade da populao em qualquer extrao (seleo com reposio). Ento,
P
i =1
=1
Seja a varivel x Zi = i ( i = 1, 2, ..., N) N Pi A mdia aritmtica de Z na amostra, 1 n 1 n xi Z = Zi = = n 1=1 nN i = 1 Pi um estimador no viciado de . Prova: Na amostragem com reposio, em cada extrao a probabilidade de selecionar a unidade Pi :
Amostragem II 46 ________________________________________________________________________________________
E( Z i ) = Pi Z i = Pi
i =1 i =1
xi 1 N = xi = NPi N i =1
x 1 T = NZ = i n i = 1 Pi
VARINCIA DA MDIA
2 2 = = E (Z 2 ) [E (Z)]2 Z
2
1 n = E Z i 2 N
Por transformaes algbricas e aplicao do conceito de Esperana chega-se expresso:
1 N = Pi Z i2 Z 2 N i =1
2 Z
=
2
2 1 N Pi ( Z i Z) 2 = Z N i =1 n
2 Z
1 N = = Pi N i =1
xi NP - i
2 = Z
2 1 1 N ( x i ) 2 = , n N i =1 n
Amostragem II 47 ________________________________________________________________________________________
Pode-se mostrar que: 1 n s2 = ( Z i Z) 2 Z n -1 um estimador no viciado de 2 Z Ento, um estimador no viciado de Z dado por:
2
Z 2
1 = n (n - 1)
xi T NP - N , i i =1
n
onde
x 1 T=NZ= i n i =1 Pi um estimador no viciado do total populacional T. Outra maneira de expressar essa varincia
n x 1 i = = n (n - 1)N 2 i =1 Pi
2 2 Z 2 nT 2
mais prtica do ponto de vista computacional. Exemplo: Uma amostra de 5 propriedades agrcolas foi selecionada de um total de 120 propriedades de um municpio, para estimar a rea cultivada com arroz. A amostra foi selecionada com reposio e com probabilidade proporcional rea total cultivada. A rea total cultivada no municpio foi de 58.000 ha. Estimar a rea cultivada com arroz no municpio, e seu erro padro. Propriedade 1 2 3 4 5 Ai=rea total cultivada (ha) 1232 327 1346 1285 428 Xi=rea com arroz (ha) 688 231 768 898 417
Mas Pi =
Ai 58.000
Amostragem II 48 ________________________________________________________________________________________
5 58.000 x i Ento, T = 5 i -1 A i
2 T =
2 T = 18.970.605 ha2
e o erro padro:
T = 4355 ha
Amostragem II 49 ________________________________________________________________________________________
maneira as amostras so independentes. A probabilidade de seleo da unidade primria (Pi = Ni / N). a) AMOSTRAGEM POR CONGLOMERADOS COM ETAPA NICA ESTIMADOR DO TOTAL Para estimar o total, suponhamos um exemplo simples: suponha que Pi = pesa Ti = 200 g. O peso do bolo completo ento estimado em:
1 de bolo 4
T T = i , que no viciado. Pi
Prova:
M M T E(T) = Pi i = Ti = T Pi i i
Consideremos agora uma amostra de m = 2 unidades primrias, t1 e t2 os valores obtidos em cada unidade primria. T1/P1 e T2/P2 so respectivamente, estimadores de T podemos construir um estimador do total com a mdia destes estimadores: m T 1 T T 1 T = 1 + 2 = i P P m 2 1 i =1 Pi 2 Que tambm no viciado: 1 m T 1 m M T E(T) = E i = Pi i = T Pi m i Pi m i i VARINCIA DA MDIA Por definio, a varincia da mdia :
2 2 2 = E[ E( )] = E( ) Pode-se mostrar que a varincia da mdia fica: 1 M 2 2 = N i ( i ) mN
Amostragem II 50 ________________________________________________________________________________________
b) AMOSTRAGEM BI-ETPICA COM PROBABILIDADES VARIVEIS Consideremos agora a seleo de amostras dentro das unidades primrias. Na unidade primria i seleciona-se uma amostra ni, estas sub amostras so selecionadas por amostragem aleatria simples e sem reposio. Ento, pela teoria de amostragem aleatria simples, sabemos que: N Ti = i ni e que
x
j
ni
ij
( )
= Ei
1 m 1 Ti m i Pi T 1 m M = Pi i = T m i i Pi
$ Obs.: A partir da frmula obtida para T podemos obter o estimador do total para amostragem aleatria simples e para amostragem com probabilidade proporcional ao tamanho como casos especiais. No caso de selecionar as unidades primrias com amostragem aleatria simples, Pi ni ni m M 1 = 1 1 Ni x = N i x = , ento, T ij ij M m i 1 ni j i ni j M que a frmula anteriormente obtida na amostragem por conglomerados com probabilidades iguais.
Amostragem II 51 ________________________________________________________________________________________
c) AMOSTRAGEM BI-ETPICA COM PROBABILIDADE PROPORCIONAL AO TAMANHO (PPT) N No caso de amostragem com probabilidade proporcional ao tamanho, temos Pi = i . N ESTIMADOR DO TOTAL m 1 N i ni 1 T= x ij m i Ni ni j N
x
Note-se que
i
ESTIMADOR DA MDIA Como estimador da mdia da populao obtemos: T = N 1 m 1 m 1 ni = x i = xij m i m i ni j Quer dizer que, no caso das unidades primrias serem de tamanho varivel, pode-se mostrar que quando a seleo feita com probabilidade proporcional ao tamanho (PPT), a mdia amostral simples (no ponderada) um estimador no viciado de , e tambm mais preciso. Este, claramente , um resultado muito til e conveniente, porque, mesmo variando os tamanhos dos conglomerados, precisamos s da mdia amostral simples como um estimador da mdia da populao. O tamanho do conglomerado entra unicamente como critrio na seleo da unidade primria. VARINCIA DA MDIA Considerando o caso em que a seleo das unidades primrias feita com PPT e em todas as unidades primrias so tomadas amostras do mesmo tamanho (n i = n ) , pode-se mostrar que
2 =
S2 1 M 1 M 2 (N i n ) i N i ( i ) + mN mN n
onde
Amostragem II 52 ________________________________________________________________________________________
S i2 =
1 Ni 2 (X ij i ) Ni 1
ESTIMADOR DA VARINCIA DA MDIA Uma das caractersticas importantes da amostragem com PPT que o estimador no 2 viciado de muito simples. Para uma amostra de m unidades primrias e n = N unidades secundrias em cada u.p., temos:
2 =
m 1 2 (X i X ) m(m 1)
X i = Mdia do conglomerado i.
1 m Xi m i =1 Observe que o estimador da varincia da mdia depende unicamente da variao entre conglomerados e no da variao dentro dos conglomerados. Ento, se tivermos conglomerados heterogneos melhor selecionar menos m e mais n . Exemplo 1: Os dados a seguir representam os valores obtidos em uma amostra por conglomerados selecionada com ppt, sendo m=2 e n =2. X=
ij
1 (3 + 21) = 6 2 2
s x ppt = 4,5
1 81 81 = 2 2 4
Amostragem II 53 ________________________________________________________________________________________
B x1j 3 5 4 5 3 20
41 = 4,1 10 Logo, x 1 = 20 5 = 4 e x 2 = 21 5 = 4,2
C x2j 4 6 4 4 3 21
s 2 ppt = x
3.4 COMPARAO DA SELEO COM PPT E SELEO COM PROBABILIDADES IGUAIS NA AMOSTRAGEM POR CONGLOMERADOS
A razo principal em selecionar a unidade primria com probabilidade proporcional ao tamanho obter uma amostra mais representativa da populao e assim aumentar a preciso dos estimadores se comparados com amostragem aleatria simples. A diferena principal entre amostra por conglomerados simples e amostra por conglomerados com probabilidade proporcional ao tamanho consiste em que no primeiro mtodo tanto as unidades primrias quanto as unidades secundrias so selecionadas por amostra aleatria simples, enquanto que no segundo mtodo as unidades primrias so selecionadas com probabilidade proporcional ao tamanho, e as unidades secundrias so selecionadas por amostragem aleatria simples. Portanto, se existem diferena na preciso, essa diferena ser ocasionada pelos diferentes procedimentos de seleo da unidade primria. Ento, a comparao entre as varincias ser feita considerando somente a unidade primria.
2 (c) =
S2 M M ( N i n i ) S i2 1 M(M m ) T + N i2 m m i Ni Ni N2
2 ( ppt ) =
S2 1 M 1 M N i ( i ) 2 + (N i n ) i mN i mN i n
2 (c)
2 M 2 M m ST 1 Mm 1 1 M = 2 = 2 (Ti T ) 2 M m N M m M -1 i N
Amostragem II 54 ________________________________________________________________________________________
e
2 ( ppt ) =
N 1 Ni + ( i - ) 2 m i
M 1 = M,
2 2
Se aproximar
Mm =1 e M
2 (c)
1 1 M Ti T 1 1 M T = N - N = m M Ni mM i i
Ti = N i i
ento
2 (c ) =
1 M ( N i i N ) N2 mM i
2 2 (cong ) ( ppt ) =
1 mM
(N
M i i
N
2
1 M Ni 2 N ( i ) m i
=
Na expresso anterior: N a) Quando N i = N = M
1 M ( N i N) 2 2 1 1 NN i + m N (N i - N) ( i2 2 ) m i
2 2 (cong ) (ppt ) = 0
e ambos os procedimentos tm a mesma preciso. Neste caso, N Ni N M 1 = = = N N N M e a probabilidade de selecionar qualquer unidade primria com probalidade proporcional ao tamanho 1/M, igual a uma amostra aleatria simples. Portanto, razovel que as duas varincias sejam iguais. b) Quando Ni varia:
Amostragem II 55 ________________________________________________________________________________________
1 1 MN
e
(N
N) 2
NN
i > 0
Na maioria das vezes, a preciso da amostragem com PPT ser melhor que a amostragem por conglomerado simples.
Amostragem II 56 ________________________________________________________________________________________
Total
1 T= n
P
i =1
xi
i
1 N = Pi N i =1
2
xi NP - i
2 =
n x 2 1 i nT 2 2 P n (n - 1)N i =1 i
b) Seleo com probabilidades variveis na amostragem por conglomerados b.1) Com etapa nica Parmetro Estimador m Total T 1 T= i m i =1 Pi Mdia T = N b.2) Amostragem bi-etpica m Total NX 1 T= i i m i =1 Pi c) Seleo com PPT na amostragem bi-etpica Parmetro Estimador m N T = Xi Total m i T Mdia = N Quando n i = n : m 1 Si2 2 1 M 1 M 2 2 2 = N i ( i ) + mN (N i n ) n = m(m 1) (X i X ) mN
S i2 = 1 Ni 2 (X ij i ) Ni 1
X i = Mdia do conglomerado i. 1 m X = Xi m i =1
Amostragem II 57 ________________________________________________________________________________________
4. BIBLIOGRAFIA
1. 2. 3.
Bolfarine, H. e Bussab, W.O. Elementos de Amostragem. Ed. Edgard Blcher. 2005. Cochran, W. Sampling Techniques. Ed. John Wiley. 1977. Deming, W. E. Sampling Design in Business Research. Ed. John Wiley. 1960. 4. Hansen, M. H., Hurwitz, W.N.C. e Madow, W. G. Sample survey methods and theory. Volumes I & II. Ed. John Willey. 1953. 5. Kalton, G. Introduction to Survey Sampling. Ed. Sage. 1983. 6. Kish, L. Survey Sampling. Ed. John Wiley. 1965. 7. Lehtonen, R. e Pahkinen, E. Practical Methods for Design and Aalysis of Complex Surveys. Ed. John Wiley. 2004. 8. Levy P. S. e Lemeshow S. Sampling of Populations, Methods and Aplications. Ed. John Wiley. 1999. 9. Marconi, M. A. e Lakatos, E. M. Tcnicas de pesquisa. Editora Atlas, 1992 10. Pessoa, D. G. C. Anlise de Dados Amostrais Complexos. Associao Brasileira de Estatstica. 1998. 11. Silva, N. N. Amostragem Probabilstica. Edusp. 1998. 12. Stuart, A. Basic Ideas of Scientific Sampling. Ed. Hafner. 1962. 13. Sudman, S. Applied Sampling. Ed. Academic Press. 1976. 14. Sukhatme, P. V. Teoria de Encuestas por Muestreo com Aplicaciones. Ed. Fundo de Cultura Econmica. 1962. 15. Thompson, S. K. Sampling. Ed. John Wiley & Sons Inc., N.Y., 1992. 16. Yamane, T. Elementary Sampling Theory. Ed. Prentice Hall. 1967.