Вы находитесь на странице: 1из 22

1

UNIVERSIDADE FEDERAL DE VIOSA


CENTRO DE CINCIAS AGRRIAS
DEPARTAMENTO DE ECONOMIA RURAL


ERU 726 - ECONOMETRIA II
1.
o
Semestre/2010
Gilnei Costa Santos
*


AULA PRTICA

TRATAMENTO E EXTRAO DOS MICRODADOS DA PNAD

1- Especificidades da Pesquisa Nacional por Amostra de Domiclios (PNAD)

1.1. Conceitos bsicos

A Pesquisa Nacional por Amostra de Domiclios (PNAD) fornecida anualmente pelo
Instituto Brasileiro de Geografia e Estatstica (IBGE). Os microdados das PNADs consistem em
dados individuais das principais caractersticas socioeconmicas dos indivduos e famlias, umas
de carter permanente, como as caractersticas gerais da populao, de educao, trabalho,
rendimento e habitao, e outras com periodicidade varivel, como as caractersticas sobre
migrao, fecundidade, nupcialidade, sade, nutrio e outros temas que so includos no sistema
de acordo com as necessidades de informao para o Pas (IBGE, 2007). O perodo de referncia
das PNADs nos anos noventa e 2000 foi o ms de setembro de cada ano. Alm da abrangncia
temtica da PNAD, o tamanho da amostra tambm consiste em importante fator para garantir a
robustez dos resultados, principalmente em termos de inferncia estatstica. A tabela 1 abaixo
exemplifica a amplitude da pesquisa para alguns anos.







*
Doutorando em Economia Aplicada, Departamento de Economia Rural, Universidade Federal de Viosa,
Viosa-Minas Gerais.
e-mail: ektans@gmail.com
2

Tabela 1. Caractersticas da amostra, PNAD.
PNAD Ms de referncia
Total de
pessoas
Total de
domiclios
1995 Setembro 334.263 102.787
1996 Setembro 331.263 105.059
1997 Setembro 346.269 109.541
1998 Setembro 344.975 112.434
1999 Setembro 352.393 115.654
2001 Setembro 378.837 126.858
2002 Setembro 385.431 129.705
2003 Setembro 384.834 133.255
2004 Setembro 399.354 139.157
2005 Setembro 408.148 142.471
2006 Setembro 410.241 145.547
2007 Setembro 399.964 147.851
Fonte: PNADs 1995-2007.
1.2. O plano amostral

Diversos so os mtodos de amostragem probabilsticas que podem ser empregados em
uma determinada pesquisa, de se esperar que a escolha do mtodo esteja condicionada a alguns
fatores como abrangncia, bem como pelas restries impostas ao instituto de pesquisa ou
prprio pesquisador, sendo um exemplo o oramento disponvel para realizao da pesquisa,
entre outros fatores. Segundo Cochran (1977), dentre os mtodos mais utilizados pode-se
destacar a amostra aleatria simples, a amostragem estratificada e a amostragem por
conglomerado.
A Pesquisa Nacional por Amostra de Domiclios (PNAD) adota um plano amostral
estratificado e conglomerado com um, dois ou trs estgios de seleo, dependendo do estrato
(Silva et. al., 2002). Em outras palavras isto significa que o desenho amostral da pesquisa no o
de uma amostra aleatria simples com reposio (AASR) e o tratamento incorreto do plano
amostral geraria resultados viesados, como por exemplo para varincia, quantis, percentis, testes
de hipteses e consequentemente para anlise de regresso, entre outros. Apesar destas
particularidades vrios trabalhos que utilizam a PNAD desconsideram sua forma de amostragem,
Silva et al. (2002) apresentam justificativa para este erro ao afirmarem que muitas vezes as
anlises so feitas por pesquisadores que trabalham fora da agncia produtora dos dados e
frequentemente utilizam para a modelagem pacotes estatsticos que se baseiam em hipteses
3

vlidas somente quando os dados so obtidos atravs de amostras aleatrias simples com
reposio (AASR).
A PNAD na verdade caracteriza-se por ser realizada a partir de um plano amostral
complexo, uma vez que apresenta caractersticas que a definem como tal, por exemplo:
estratificao, conglomerao, probabilidades desiguais de seleo em um ou mais estgios e
calibrao da amostra atravs de pesos amostrais. De acordo com Kneipp e Yarandi (2002), a
maior parte das pesquisas conduzidas por institutos governamentais no utilizam o mtodo de
amostra aleatria simples, mas um desenho de amostragem complexa. Uma possvel explicao
consiste nos limites de custos e as restries de tempo associadas ao montante de dados dos
indivduos em todo territrio nacional. Esta justificativa bastante plausvel, para o caso
brasileiro, uma vez que o territrio nacional abrange uma rea de 8.514.876 Km
2
, com um total
de 191.790.900 habitantes (IBGE, 2007).
1.3. Construo do desenho amostral da PNAD
1


A PNAD estratificada em duas etapas. Inicialmente realiza-se uma estratificao que
divide o pas em 36 estratos naturais, sendo que vinte e sete correspondem s unidades da
federao e os nove estratos remanescentes concernem aos municpios das regies
metropolitanas com sede na capital, so eles (PA, CE, PE, BA, MG, RJ, SP, PR e RS)
2
.
Nos estratos das regies metropolitanas realizada uma nova estratificao por municpios
sendo agrupados (conglomerados) em dois estgios, ou seja, as unidades primrias de
amostragem (UPA) so os setores censitrios e as unidades secundrias de amostragem (USA)
so os domiclios. Os setores so selecionados utilizando-se uma amostragem sistemtica com
probabilidade proporcional ao tamanho (PPT), onde o tamanho do setor determinado pelo total
de domiclios obtido atravs do ltimo censo
3
.

1
Esta seo consiste em uma concisa exemplificao da construo do desenho amostral da PNAD e baseada
principalmente no trabalho de Silva et al. (2002).
2
Ou seja, regio metropolitana de Belm (PA), regio metropolitana de Fortaleza (CE), regio metropolitana de
Recife (PE), Regio metropolitana de Salvador (BA), Regio metropolitana de Belo Horizonte (MG), Regio
metropolitana do Rio de Janeiro (RJ), regio metropolitana de So Paulo (SP), regio metropolitana de Curitiba (PR)
e regio metropolitana de Porto Alegre (RS).
3
Para as PNADs da dcada de 1990 o censo de referncia o de 1991 e para os dados do ano 2000 a referncia o
censo do ano 2000.
4

Para os demais 27 estratos
4
o agrupamento realizado em trs estgios. As UPAs so agora
os municpios, as USAs so os setores censitrios e as unidades tercirias de amostragem (UTA)
so os domiclios. Para estes estratos naturais alguns municpios, conhecidos como auto-
representativos devido ao tamanho da populao
5
, so includos com certeza na amostra. Por
outro lado devem ser considerados tambm os municpios no auto-representativos, com
probabilidade de incluso proporcional sua populao na poca do ltimo censo demogrfico.
Os municpios desse grupo so conglomerados em estratos por tamanho e proximidade
geogrfica, buscando formar estratos com populao total aproximadamente igual.
Finalizando o processo de seleo da amostra da PNAD, se encontra as unidades
domiciliares selecionadas a partir do Cadastro de Projetos de Novas Construes, que inclui
projetos habitacionais com mais de 30 domiclios e que por ventura surgiram aps o ltimo
censo realizado. Essas novas construes so estratificadas por municpios, sendo que nesses
estratos o plano amostral conglomerado em um estgio, sendo a unidade primria de
amostragem os prprios domiclios, e a seleo realizada por meio de amostragem sistemtica
simples
6
. A Figura 1 abaixo apresenta esquematicamente o plano amostral da PNAD.

4
Estes estratos so determinados a partir dos municpios que fazem parte das regies metropolitanas bem como por
municpios situados em unidades da federao sem regio metropolitana.
5
Um municpio dito auto-repesentativo se apresentar populao que seja maior que 80% do tamanho do estrato
estabelecido para Unidade da Federao em questo com base no ltimo censo, IBGE (2007).
6
deve-se ressaltar que ao longo de toda a dcada, so mantidos constantes na PNAD os setores selecionados nos
municpios das regies metropolitanas, auto-representativos e no auto-representativos no incio da dcada.

5


Figura 1. Construo do plano amostral da PNAD.
Fonte: Silva et al. (2002).


1.4. Anlise estatstica em amostras complexas

Basicamente os estudos realizados com pesquisas como a PNAD, normalmente,
apresentam dois grupos de anlise descritiva. A primeira diz respeito s anlises de estimativas
pontuais como mdia, taxas, propores e totais. Estas so influenciadas apenas pelos pesos
amostrais. Outro grupo de anlise tem como objetivo a estimao de medidas de disperso, como
varincia e desvio-padro, com intuito de calcular intervalos de confiana e realizar testes de
hipteses. Contudo em pesquisas com desenho amostral complexo a estimao da varincia
recebe influncia no apenas dos pesos amostrais, mas tambm e conjuntamente da estratificao
e conglomerao, sendo assim imprescindvel a considerao do desenho amostral para obter
estimativas no viciadas das varincias da amostra.
6

Alguns autores desenvolveram mtodos que possibilitam verificar o impacto da
incorporao do desenho amostral. Kish (1965) desenvolveu um mtodo para avaliar o impacto
da incorporao do efeito do plano amostral (EPA) conhecido como DEFF (design-effect). O
mtodo definido como a razo da varincia obtida considerando o plano amostral e a varincia
obtida ignorando o plano amostral (isto , a varincia estimada como se a amostra fosse AASC).
Valores do DEFF afastados de 1 indicam que ignorar o plano amostral na estimao da varincia
leva a estimativas viesadas e incorretas. Valores grandes (> 1) do DEFF indicam que o estimador
ingnuo da varincia obtido ignorando o plano amostral complexo leva a subestimar a
varincia verdadeira do estimador, valores abaixo de um para o DEFF significam que a varincia
obtida desconsiderando o EPA superestima a verdadeira varincia do estimador, e caso a
estatstica DEFF seja igual a um no existe diferena entre as estimativas da varincia.
Outra alternativa a estatstica MEFF (misspecification effect), desenvolvida por Skinner,
Holt e Smith (1989), que compara a estimativa da varincia do parmetro obtida considerando o
plano amostral com outra, do mesmo modelo, desconsiderando peso, conglomerado e
estratificao
7
.
Por fim dado que um dos objetivos das anlises a partir dos microdados das PNADs
consiste em estimar intervalos de confiana para realizao de testes de hipteses e sabendo que
a PNAD baseada em um processo de amostragem de domiclios com caractersticas que a
definem como uma amostra complexa sujeita a erros probabilsticos, deve-se definir o mtodo de
estimao das varincias. Para dados com as caractersticas das PNADs a estimao das
varincias realizada a partir de duas metodologias: linearizao ou replicao.
Dentre os mtodos de linearizao, o mtodo de linearizao de Taylor um dos mais
utilizados. O mtodo consiste em aproximar os estimadores de interesse que so no-lineares por
estimadores lineares e utiliz-los para obter a varincia. Quanto aos mtodos de replicao um
dos mais conhecidos o procedimento de bootstraping desenvolvido por Efron (1979), este
consiste em um processo de computao intensiva, ou seja, demanda vrias horas para a
computao das estimativas. Sinteticamente o mtodo envolve reamostrar os dados com
reposio em nmero suficiente de vezes, com o objetivo de gerar uma estimativa emprica da
distribuio amostral da estatstica. Em outras palavras o procedimento pode ser descrito como
uma amostragem repetida com reposio feita a partir da prpria amostra em questo, obtendo-se

7
A anlise do MEFF similar ao DEFF.
7

a partir da estimativas do erro-padro do estimador, Guimares (2007). Segundo Chernick
(1999) o mtodo de bootstrap freqentemente usado quando existe grande dificuldade de se
calcular a estimativa do erro padro de um estimador. Outro mtodo de replicao que pode ser
empregado diz respeito replicao de Jackknife (Jackknife replication). Segundo Kneipp e
Yarandi (2002), a estimao da varincia pela replicao de Jackknife preferencialmente
utilizada quando os dados so divididos primeiramente em vrios grupos. Um grupo pode
consistir nos dados de um nico PSU ou de um conjunto de PSUs, ademais a replicao de
Jackknife no requer estratificao explcita.
No entanto como destaca Guimares (2007), uma questo de grande relevncia que os
dados no podem ter estratos com UPA nica (tambm conhecido como single PSU Primary
Sample Unit, PSU nico). Com PSU nico no possvel obter as estimativas da varincia, uma
vez que necessrio se ter variabilidade para calcular a varincia. Em algumas situaes, alm
de PSU nico deve-se observar a existncia tambm de PSU com observao nica. Para
solucionar o problema de PSU nico, pode-se agregar as observaes de estratos com PSU nico
em estrato na mesma UF com maior nmero de observaes
8
.
1.5. Restries da Pesquisa Nacional por Amostra de Domiclios

As PNADs apresentam algumas limitaes que devem ser consideradas. O questionrio
procura captar tanto os rendimentos em dinheiro como em espcie, mas no considera o valor da
produo para auto-consumo, que representa componente importante da renda real de pequenos
agricultores, de acordo com Graziano da Silva e Del Grossi (2001) e Del Grossi e Graziano
(2002). Ademais, a pesquisa at o ano de 2003 no abrangia a rea rural da regio Norte, no
permitindo a incluso de uma rea agrcola que, apesar de ser relativamente pequena em termos
de atividade, no desprezvel.
A coleta dos dados, por sua vez, tem como base o ms de setembro, no permitindo que
se capte a variedade das atividades agrcolas no pas ao longo do ano (Corra, 1998). Estes
fatores tendem a subestimar os resultados para os indivduos ocupados no setor agrcola,
afetando os resultados das regresses.
Outra restrio a subdeclarao das rendas, principalmente as mais elevadas. Hoffmann
e Simo (2005) estimam que no Estado de Minas Gerais para o ano 2000 (Censo) os rendimentos

8
Este mtodo foi utilizado por Guimares (2007).
8

declarados apresentam subestimao de cerca de 31% do seu valor real. Apesar de estes fatores
promoverem efeitos sobre os resultados, eles no invalidam a anlise de dados sobre rendimentos
a partir dos questionrios da PNAD
9
.

2. Extrao dos dados da PNAD

Diversos so os softwares que podem ser utilizados para extrao dos dados da PNAD,
como o SPSS, STATA ou SAS, para este ltimo o IBGE fornece o algoritmo para extrao dos
dados. No presente estudo todos os procedimentos estaro baseados na linguagem utilizada pelo
software STATA 10.1.
A PNAD pode ser considerada como uma grande matriz de k variveis por n
observaes, que disponibilizada em dois arquivos de dados, um para as caractersticas ligadas
s pessoas e outro para o domiclio.
Para extrao propriamente dita dos dados alguns passos devem ser seguidos:

1- Abrir a pasta com o nome Layout que contm os dicionrios da pesquisa, esses
dicionrios mostram a estrutura de seleo de cada varivel. A seleo determinada pela
posio inicial e o nmero de colunas:

9
Mais detalhes sobre as restries das PNADs podem ser encontrados em Hoffmann (1998), Del
Grossi e Graziano (2002) e Rocha (2002).

9


Figura 2. Exemplo do dicionrio da PNAD.

2- Abrir o software STATA e expandir a memria disponvel para o programa
set mem 300m, perm

3- A forma mais simples de importar os dados atravs de um do-file utilizando o
comando infix.
Exemplo 1 - Importando algumas variveis do arquivo de pessoas relacionadas renda,
capacitao do indivduo e outras:
#delimit;
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15
sexo 18-18 idade 27-29 cond_fam 31-31 num_fam 32-32
10

cor 33-33 edu 668-669 rend_tod 702-713 peso 756-760 if uf==31
using "D:\GILNEI\PNADS\2007\Dados\PES2007.txt";
#delimit cr

Exemplo 2 Importando algumas variveis do arquivo de domiclio:
clear
#delimit;
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15
probmun 94-105 probsetor 109-120
strat 159-165 psu 166-172 if uf==31
using "D:\GILNEI\PNADS\2007\Dados\DOM2007.txt", clear;
#delimit cr

4- Existe tambm a possibilidade de extrair os dados atravs das janelas do STATA.


11



Figura 3. Exemplo da importao de dados via janelas do STATA.


12

3. Tratamento e anlise dos dados da PNAD

Conforme visto anteriormente o tratamento correto dos dados da PNAD exige a
considerao tanto do fator de expanso (peso) quanto do plano amostral. Neste sentido o
objetivo desta seo oferecer um guia para utilizao correta dos dados da PNAD.

1- Primeiramente para que seja possvel setar os dados como sendo de amostra
complexa necessrio unir os arquivos de domiclio e pessoas, o procedimento pode ser
realizado como se segue:

*************************************************************
***************** PREPARACAO DOS DADOS***********
*************************************************************
clear

cd "D:\GILNEI\trabalhos\tese\ALGORITMOS"

* LEITURA DAS INFORMACOES DO DESENHO DA AMOSTRA NO ARQUIVO DE
DOMICILIOS

clear
#delimit;
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15
probmun 94-105 probsetor 109-120
strat 159-165 psu 166-172 if uf==31
using "D:\GILNEI\PNADS\2007\Dados\DOM2007.txt", clear;
#delimit cr

*** preciso ordenar os dados antes de proceder com a juno***
#delimit;
sort controle serie;
format controle %15.0g;
format serie %15.0g;
13

replace controle = float(controle);
replace serie = float(serie);
#delimit cr
sum
save "D:\GILNEI\AULAS\2007\domicilio07.dta" , replace
******************************************************************************
******************************************************************************
******************************************************************************

** LEITURA DOS DADOS DAS PESSOAS 2007**
clear
set more off

#delimit;
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15
sexo 18-18 idade 27-29 cond_fam 31-31
cor 33-33 edu 668-669 rend_tod 702-713 peso 756-760 num_fam 32-32 if uf==31
using "D:\GILNEI\PNADS\2007\Dados\PES2007.txt";
#delimit cr

* JUNCAO DAS INFORMACOES DE DESENHO DA AMOSTRA
* AO ARQUIVO DE PESSOAS DA PNAD 2007

#delimit ;
sort controle serie;
format controle %15.0g;
format serie %15.0g;
replace controle = float(controle);
replace serie = float(serie);
merge controle serie using "D:\GILNEI\AULAS\2007\domicilio07.dta";
#delimit cr

*** So considerados apenas os resultados que coincidem nos dois registros (domiclios e
pessoas)***
14

#delimit ;
keep if _merge == 3;
drop _merge;
#delimit cr

sum

save "D:\GILNEI\AULAS\2007\pess07.dta", replace

*************************************************************************************

2- A declarao da pesquisa como sendo de amostra complexa realizada a partir do comando
svy.

2.1. Comandos SVY do Stata

No Stata, basicamente se encontra dois tipos de comandos: a) Survey design tools (svyset
e svydes); b) Survey data analysis tools (svyestimation, svypostestimation, svy:tab e estat).
Inicialmente, necessrio identificar para o Stata as caractersticas do plano amostral com o
comando svyset, para depois usar o prefixo svy para as estimaes (svy: regress; svy: mlogit;
svy: tobit...).

2.1.1. svyset

No caso de desenho com um estgio:
svyset psu [weight], options

Mltiplos Estgios
svyset psu [weight], options || ssu, options...

Para reportar a configurao corrente svyset
Opes
strata(varname) - varivel identificando os estratos
fpc(varname) - fator de correo para populao finita.
15

vce(linearized) estimao de varincia por Linearizao de Taylor (default)
vce(brr) estimao de varincia por BRR
vce(jacknife) estimao de varincia por Jacknife
singleunit (method) estratos com uma unidade amostral: mtodos: missing (default), certainty,
scaled ou centered.
Pode-se usar ssu _n para indicar que os indivduos foram selecionados aleatoriamente
dentro do ltimo estgio amostral.

2.1.2. svydes

svydes [varlist], options

Opes
single: demonstra apenas os estratos com PSU nico
finalstage: quando especificado, uma linha produzida para cada unidade amostral. Cada linha
contm o nmero de observaes para a respectiva unidade amostral.

2.1.3. estat effects: cria uma tabela com os valores de DEFF, DEFT, MEFF ou MEFT.
necessrio uma estimativa anterior (mdia, por ex., diferena de mdias, etc.)

2.1.4. svy estimation

Para estatstica descritiva, o prefixo svy suporta: mean, proportion, ratio e total. Alguns
modelos de regresso aceitos: regress, tobit, biprobit, logit, probit, clogit, mlogit/probit,
ologit/probit, poisson, ivregress, heckman. Exemplos:

svy: regress [varlist]
svy: mean [varname]
svy: heckman [varlist]

2.1.5. svy postestimation
16


Pode ser utilizado depois de estimaes com svy, dentre outros, mfx (efeitos
marginais/elasticidades), predict, estimates, test.

*************************************************************************************

******************************************************************************
*** DECLARANDO O CONJUNTO DE DADOS COMO SENDO DE AMOSTRA***
***COMPLEXA ANO 2007***
******************************************************************************

use "D:\GILNEI\AULAS\2007\pess07.dta", clear

svyset psu [pweight=peso], strata(strat) vce(linearized) singleunit(missing) || _n

svydes, single

save "D:\GILNEI\AULAS\2007\pess07.dta", replace

* ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS
COM MAIOR NUMERO
* DE OBSERVACOES UTILIZANDO O DO.FILE idonepsu - ANO DE 2007

use "D:\GILNEI\AULAS\2007\pess07.dta", clear

set more off

#delimit;
idonepsu, strata(strat) psu(psu) generate(new);
drop strat psu;
rename newstr strat;
rename newpsu psu;
#delimit cr
svyset psu [pweight=peso], strata(strat) vce(linearized) singleunit(centered) || _n
17

svydes, single

save "D:\GILNEI\AULAS\2007\pess07.dta", replace



Adendo Definio de novos pesos nas PNADs

Periodicamente o IBGE realiza a recontagem da populao e disponibiliza novos pesos para as
PNADs de forma a manter a consistncia dos dados. Estes novos pesos devem ser incorporados no
banco de dados das PNADs.

*************************************************************************************
** INSERINDO OS NOVOS PESOS NO ARQUIVO DE PESSOAS ANO DE 2003***

*************************************************************************************

* LEITURA DO ARQUIVO DE NOVOS PESOS

clear
#delimit ;
infix ano 1-4 controle 5-12
serie 13-15 novopeso 18-22
using "D:\GILNEI\PNADS\2004\Reponderao 2001-2003\pesopes2003.txt";
sort controle serie;
#delimit cr

save "D:\GILNEI\AULAS\2003\novospesos_2003.dta", replace


* JUNCAO DO ARQUIVO PNAD 2003 COM O ARQUIVO DE NOVOS PESOS

use "D:\GILNEI\PNADS\2003\pess03.dta" , clear

#delimit;
format controle %15.0g;
format serie %15.0g;
replace controle = float(controle);
replace serie = float(serie);
sort controle serie ;
merge controle serie
using "D:\GILNEI\PNADS\2003\novospesos_2003.dta";
#delimit cr

18

#delimit;
keep if _merge == 3;
drop _merge;
#delimit cr

replace peso=novopeso

save "D:\GILNEI\AULAS\2003\pess03.dta" , replace

*************************************************************************
*************************************************************************

3 Aps toda a preparao dos dados da PNAD, na juno dos dados, substituio dos pesos,
quando necessrio, e na declarao da pesquisa como sendo uma amostra complexa o prximo passo
consiste no tratamento das variveis de interesse. O ajustamento de algumas variveis advm da
necessidade de retirar alguns dados discrepantes, dados no declarados ou apenas pela necessidade de
transformao das variveis em questo, ou mesmo a criao de novas variveis.


****************************************************************************
*** tratamento das variveis***
****************************************************************************

***RETIRANDO OUTLIERS DAS VARIVEIS DE RENDA***
use "D:\GILNEI\AULAS\2007\pess07.dta", clear

recode rend_tod (1.00e+12/2.29e+12=.) (-1=.)

***gerando o logaritmo da renda de todos os trabalho ***

gen ln_rend_tod = ln(rend_tod)

***gerando Dummy p/ sexo****
**masculino = 1 ; feminino = 0 ***

recode sexo (2=1) (4=0)

*************OUTRA FORMA DE CRIAR DUMMY'S E ATRAVES DO COMANDO
19

*************tab varname, gen(varname)
**exemplo
tab cor, gen(cordu)

*** retirando valores no declarados na idade***

recode idade (999=.)

*** gerando idade ao quadrado*****

gen idadeq = (idade^2)

*** excluindo as observaes de anos de estudo sem declarao****

recode edu (17=.)

save "D:\GILNEI\AULAS\2007\pess07.dta", replace

******************************************************************************
***CRIANCA NA FAMILIA***
******************************************************************************

#delimit
gen crianc=.;
replace crianc = 1 if cond_fam ==3 & idade<=14;
replace crianc = 0 if crianc==.;
#delimit cr

egen float fam = group(uf controle serie num_fam)
bysort fam: egen float famcrianc = mean(crianc)
bysort fam: egen float famcriancnum = sum(famcrianc)
#delimit
gen crianca=.;
replace crianca = 1 if famcrianc~=0;
replace crianca = 0 if famcrianc==0;
20

sort fam;
#delimit cr

**************************************************************************

*** criando as regies do pas*****
*regiao 1 = CENTRO-OESTE
*regiao 2 = SUDESTE
*regiao 3 = NORTE
*regiao 4 = SUL
*regiao 5 = NORDESTE

#delimit
recode uf (99=.);
gen regiao =.;
replace regiao = 1 if uf >=50 & uf < 88;
replace regiao = 2 if uf >=31 & uf <= 35;
replace regiao = 4 if uf >=41 & uf <=43;
replace regiao = 3 if uf <=17;
replace regiao = 5 if uf >=21 & uf <=29;
#delimit cr;

******************************************************************************

4- As estatsticas descritivas devem ser realizadas considerando o efeito do plano amostral, ou
seja, devem ser realizadas a partir do comando svy.

******************************************************************************
***ESTATSTICAS DESCRITIVAS***
******************************************************************************


#delimit;
svy: mean rend_tod;
svy: proportion sexo;
21

svy: proportion cor;
#delimit cr


******************************************************************************
***ANLISE DE REGRESSO***
******************************************************************************


*Regressao considerando o plano amostral

svy: regress rend_tod sexo idade idadeq crianca

* Regressao no considerando o plano amostral

regress rend_tod sexo idade idadeq crianca

*efeito do plano amostral

estat effects, deff meff

estat effects, deft meft

* Efeitos marginais com MFX

mfx compute, dydx at(mean)


4. REFERNCIAS

COCHRAN, W.G. 1977. Sampling Techniques, 3rd Edition. New York: John Wiley & Sons.

CORRA, A. M. C. J. 1998. Distribuio de renda e pobreza na agricultura brasileira (1981-
1990), Editora UNIMEP, Piracicaba. 260 p.

DEL GROSSI, M. E. and GRAZIANO, J. S. 2002. O uso das PNADs para reas rurais. Rio de
Janeiro: IPEA, Texto para Discusso 874, Abril de.

EFRON, B. 1979. Bootstrap methods: another look at the Jackknife. Annals of Statistics, v.7,
n.1, p. 1-26, Jan.
Chrystian S. Mendes 23/3/10 22:49
Comment [1]: Acredito que no testar.
22


GRAZIANO DA SILVA, J., DEL GROSSI, E. 2001 O novo rural brasileiro: uma atualizao
para 1992-98. IE/Unicamp.

GUIMARES, P. W. 2007. Variao de renda familiar, desigualdade e pobreza no Brasil.
Tese (doutorado) Universidade Federal de Viosa.

HOFFMANN. R. and SIMO, R. C. S. 2005. Determinantes do rendimento das pessoas
ocupadas em Minas Gerais em 2000: o limiar no efeito da escolaridade e as diferenas entre
mesorregies. Nova Economia, v. 15, n. 2, p. 35-62, maio/ago.

IBGE, Instituto Brasileiro de Geografia e Estatstica. 2007. Available in
<http://www.sidra.ibge.gov.br/bda/tabela/protabl.asp?z=p&o=16&i=P>.

KISH, L. 1965. Survey Sampling. New York: Wiley.

KNEIPP, S.M.; Yarandi H.N. 2002. Complex sampling designs and statistical issues, in
secondary analysis. West J Nurs Res; 24(5): 552-66.


PESQUISA NACIONAL POR AMOSTRA DE DOMICLIOS. 2007. Brasil. Rio de Janeiro:
IBGE, v. 27.

SILVA, P. L. do N., PESSOA, D. G. C. and LILA, M. F. 2002. Anlise estatstica de dados da
PNAD: incorporando a estrutura do plano amostral, Cincia Sade Coletiva, vol.7, no.4, p.659-
670. ISSN 1413-8123.

SKINNER, C., Holt, D. and Smith, T. 1989. Analysis of Complex Surveys, John Wiley &
Sons.

Вам также может понравиться