Академический Документы
Профессиональный Документы
Культура Документы
NEPEC/FACE/UFG
Goinia Agosto/Setembro 2014
Verso 1.0
Endereo
Campus Samambaia, Prdio da FACE Rodovia
Goinia/Nova Veneza, km. 0 Caixa Postal 131,
CEP 74001-970, Goinia GO.
Tel. (62) 3521 1390
URL
http://www.face.ufg.br/economia
INTRODUO
Esta apostila serve de material de apoio para a realizao do curso. Longe de ser
abrangente, tem como objetivo servir de guia ou de lembrete para a execuo de tarefas. Outros
materiais, melhores e mais completos, podem ser facilmente encontrados de forma gratuita na
internet e a mesma empresa que desenvolveu o Stata pblica uma srie de livros para temas
especficos tanto para iniciantes como para usurios avanados1. Contudo, como qualquer
programa estatstico, dificilmente encontraremos algum que conhece todos os detalhes e
segredos do Stata, sendo mais comum que cada pesquisador se especialize em um conjunto
especfico de funes, como Anlise de Regresso, Anlise de Painel, Modelos de Sobrevivncia,
Sries Temporais e Microdados.
O material toma como base a verso Stata 11. Para este curso, a nfase ser na extrao
e anlise de microdados do IBGE, com especial ateno aos dados da PNAD. Isso deve facilitar
inclusive o trabalho com outras fontes de dados, ainda que no sejam diretamente tratadas
aqui, tais como o Censo Escolar ou o SAEB.
1
Veja uma lista de livros da StataCorp em http://www.stata.com/publications/
2
Link do Wikipedia com comparaes de pacotes estatsticos pagos e gratuitos:
http://en.wikipedia.org/wiki/Comparison_of_statistical_packages.
set dp comma: este comando converte o smbolo separador de casas decimais de
ponto para vrgula, como usado comumente no Brasil.
Break:
Atalhos para os principais Para a execuo de um comando
comandos do Stata: ou sequncia de comandos.
Manipulao de dados
Assistente de grficos
Estatsticas descritivas
Modelos Estatsticos
3
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Para abrir arquivos com outros formatos (Excel, SPSS, dbf) recomendado usar o
programa Stat/Transfer3 se voc estiver com uma verso Stata 11 ou inferior. A partir da verso
12, a importao ficou mais amigvel, principalmente quando a base de dados original est em
formato Excel.
A importao de dados no estilo dos microdados do censo e PNAD requer um pouco
mais de cuidado e ser abordado posteriormente.
Os comandos devem ser escritos sempre em letras minsculas. Alm disso, deve-se
tomar certo cuidado com os nomes das variveis:
Evite usar letras maisculas e acentuao ao nomear as variveis
As variveis no podem ter nomes compostos separados.
o Errado: idade do trabalhador
o Correto: idade_do_trabalhador
o No Recomendado: Educao
o Recomendado: educacao
Isso ajuda a evitar erros na execuo dos comandos
3
https://www.stattransfer.com/
4
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Execute agora os seguintes comandos
sum renda
sum renda idade educacao
5
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
1.5. Comandos de manipulao da base de dados
2. USO DE DO-FILES
Alm da tela de COMMAND, o Stata permite a execuo de conjuntos sequenciais de
comando com o uso dos arquivos de exteno *.DO, tambm conhecidos como Do-Files. Para
abrir um novo do-file, clique no boto New Do-file Editor, na parte superior da tela (Figura 2).
Ser aberto um novo arquivo, similar a um bloco de notas, onde possvel digitar os comandos
para execuo posterior. A Figura 6 mostra um exemplo.
Para executar os comandos, clique no boto Execute(do). O Do-file permite a execuo
de todos os comandos do arquivo ou de linhas selecionadas. Alm disso, possvel inserir
comentrios entre as linhas de comados, como pode ser visto na figura anterior. Esses
comentrios aparecem na tela de Resultados, mas no interferem na execuo dos comandos.
Um asterisco (*) no incio da linha faz com que toda a linha seja um comentrio.
Duas barras (//) no final da linha informam que a partir deste ponto, o resto da linha
um comentrio
Podem ser colocados comentrios tambm entre os caracteres /* */
6
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Execute(do):
Executa a
sequncia de
comandos
Neste caso, aps o comando #d; o Stata passa a reconhecer que a linha de comando
termina apenas quando aparecer um ponto e vrgula (;). Para voltar delimitao tradicional,
basta usar o comando #d cr.
7
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
3. EXTRAO DE MICRODADOS
Depois desta reviso dos principais comandos e uso de comandos com o Do-file,
podemos concentrar nosso estudo na extrao e anlise de microdados da PNAD e do Censo
Demogrfico. De acordo com o site do IBGE:
Microdados consistem no menor nvel de
desagregao dos dados de uma pesquisa, retratando,
sob a forma de cdigos numricos, o contedo dos
questionrios, preservado o sigilo das informaes. Os
microdados possibilitam aos usurios, com
conhecimento de linguagens de programao ou
softwares de clculo, criar suas prprias tabelas.
8
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Aps realizar o download, descompacte os arquivos em uma pasta de seu computador,
de preferncia dentro do drive C para deixar um caminho mais curto na leitura dos dados. O
arquivo compactado possui trs pastas (dados, dicionrio e input), sendo que a primeira contm
dois arquivos com os microdados das informaes de domiclios (DOM2008.TXT) e um arquivo
com os dados das pessoas (PES2008.TXT).
Os microdados so organizados em forma de linhas e colunas dentro destes arquivos
TXT. Para cada linha temos uma observao e para cada coluna uma varivel. Cada coluna tem
um tamanho predefinido. Para sabermos onde comea e onde termina cada coluna (varivel)
necessrio acessar o Dicionrio dos dados, disponvel em um arquivo no formato Excel dentro
da pasta dicionrio.
A Figura 9 mostra uma parte do dicionrio da Pnad de 2008. Tenha sempre a mo este
dicionrio, tanto para a etapa de extrao dos dados como para anlises posteriores, pois o
mesmo tem o significado dos valores de cada varivel, como pode ser visto na ltima coluna da
figura.
9
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Por exemplo, para obtermos os dados sobre a idade de cada pessoa entrevistada
(varivel V8005), devemos observar que sua posio inicial dentro do arquivo 27 e seu
tamanho igual a trs. Logo, as informaes sobre a idade de cada indivduo esto contidas numa
coluna que vai do campo 27 at o campo 29. J as informaes sobre o gnero do entrevistado
(varivel V0302) tem posio inicial igual a 18 e tamanho igual a 1.
Para realizar a extrao destes dados pelo Stata, o comando utilizado o infix que pode
ser utilizado da seguinte maneira:
onde [lista de variveis com suas posies] se refere posio inicial e final de cada
varivel e [caminho do arquivo] o local onde o arquivo de dados TXT est guardado. Como
exemplo, suponha que desejamos extrair os dados sobre idade de cada entrevistado do arquivo
de pessoas. O comando ficaria desta forma:
Obviamente, mas de uma varivel pode ser extrada com a mesma linha de comando,
simplesmente separando por espao a lista das mesmas e suas respectivas posies dentro do
dicionrio de dados. Para extrair as variveis idade e sexo, podemos entrar com o comando:
Apesar do comando infix poder ser utilizado normalmente por meio do campo
COMMAND do Stata, extremamente recomendado o uso de um arquivo Do-file para realizar
a extrao deste tipo de dados. Alm da comodidade de se poder guardar o arquivo de programa
para posterior utilizao, podem ser inseridos comentrios e outros comandos comumente
utilizados na extrao de microdados. A Figura 10 mostra um exemplo para o filtro das variveis
UF, gnero e idade. Reparem que foram dados trs comandos antes da linha de infix. O primeiro
comando (clear) limpa a sesso do Stata, apagando qualquer base de dados que esteja
previamente carregada. O segundo comando (set more off) impede que a tela do Stata fique
travada quando um resultado com muitas linhas exibido. Por fim, o comando (set memo 300m)
fornece mais memria para o Stata conseguir abrir grandes bases de dados, como o caso da
Pnad e do Censo Demogrfico4.
4
Este ltimo passo j no mais necessrio a partir da verso 13 do Stata.
10
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Figura 10 Exemplo de uso do comando infix
Por fim, tambm comum a extrao de um nmero relativamente elevado de variveis
em cada operao de extrao. Neste caso, recomenda-se a organizao dos comandos em
bloco ao invs de um comando por linha, usando a opo #d; conforme explicado
anteriormente. A Figura 11 mostra um caso mais completo, onde esta alternativa usada:
11
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
O empilhamento de dados usado quando temos interesse em combinar no mesmo
arquivo dados de Pnads de anos distintos. Isso permite, por exemplo, acompanhar a evoluo
da escolaridade mdia ao longo dos anos usando apenas um arquivo. Para realizar essa tarefa,
podemos usar o comando append depois de filtrar e salvar os dados de dois ou mais anos. Por
exemplo, suponha que desejamos combinar as bases de dados dos anos de 2008 e 2009. Com a
base de 2009 aberta, basta usar a seguinte linha de comando, adaptando o caminho do arquivo:
Ainda como exemplo, a Figura 12 mostra a tela de um Do-file que mostra essa operao
de modo mais completo. As primeiras linhas so os comandos iniciais (clear, set more off e set
memo). So realizados dois filtros, sendo o primeiro para a base de dados de 2008 e o segundo
para 2009. Por fim, o comando append faz a unificao das bases de dados. Para conferir o
resultado, aps a execuo deste do-file, execute o comando tab ano.
12
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
filtrados em arquivos separados com suas respectivas variveis. Alm disso, necessrio que os
dois arquivos possuam ao menos uma varivel que seja comum.
No caso da Pnad, as duas variveis que servem de ligao entre os arquivos so o
nmero de controle (v0102) e nmero de srie (v0103). A primeira coisa a fazer, ordenar os
dados da base de dados de domiclio. Para isso, podemos usar a seguintes linhas de comando:
O comando sort faz a ordenao da base de dados de acordo com a lista de variveis
proposta. Em seguida, faa o mesmo com a base de dados de pessoas:
Agora, com esse ltimo banco de dados aberto, fazemos a juno das informaes com
o comando merge:
Aps isso, criada uma nova varivel chamada _merge. Essa varivel assume trs
valores:
_merge=1: observaes somente do banco de dados mestre (master data pessoas.dta)
_merge=2: observaes somente do banco de dados secundrio (using data domicilio.dta)
_merge=3: observaes dos dois bancos (master e using)
O melhor dos mundos seria encontrar sempre _merge = 3, ou seja, com informaes
que existem nos dois bancos de dados. Contudo, para a Pnad e o Censo normal encontrar
informaes que pertencem apenas ao banco de dados secundrio (domiclio). Essas so
observaes de domiclios cujas entrevistas no foram realizadas. Portanto, podemos terminar
de organizar nossa base de dados entrando com a linha de comando:
keep if _merge==3
13
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia