Вы находитесь на странице: 1из 22

III Foro de Desarrollo Econmico Regional Cusco 2015

STATA 12 para Economistas:


Gua bsica
Victor Fuentes Campos
Piero Ortiz Chvez1
vfuentes@ipe.org.pe

Cusco, 14 de octubre de 2015

Economistas del Instituto Peruano de Economa. Los errores u omisiones son entera responsabilidad de los autores.

Stata 12 para Economistas: Gua bsica


El Instituto Peruano de Economa (IPE) es una asociacin civil de derecho privado y sin fines de
lucro, cuyo objetivo es realizar estudios destinados a promover el desarrollo equilibrado y sostenido
de la economa de mercado.
Los estudios del IPE tienen por finalidad divulgar los trabajos realizados por profesionales de esta
institucin o encargados por ella a terceros, con el objetivo de aportar al debate de tpicos
econmicos relevantes y presentar nuevos enfoques en el anlisis de los mismos. La difusin de los
estudios slo intenta facilitar el intercambio de ideas y dar a conocer investigaciones, con carcter
preliminar, para su discusin y comentarios.
La publicacin de los estudios no est sujeta a la aprobacin previa de los miembros del Directorio
del IPE. Tanto el contenido de los estudios como tambin los anlisis y conclusiones que se
desprenden de ellos, son de exclusiva responsabilidad de su(s) autor(es) y no reflejan
necesariamente la opinin del Instituto ni de los miembros de su Directorio.

STATA 12 para Economistas: Gua bsica


Octubre del 2015
Instituto Peruano de Economa

Responsables:
Victor Fuentes
Piero Ortiz

Instituto Peruano de Economa 2015


Amador Merino Reyna 460, Oficina 201
San Isidro, Lima 27, Per
Telfonos: (511) 442-0168, 442-0286
Fax: (511) 421-7393
Email: ipe@ipe.org.pe
Los estudios y documentos de trabajo del IPE pueden obtenerse en versin PDF en forma gratuita en la direccin
electrnica: http://www.ipe .org.pe /publicaciones. Existe la posibilidad de solicitar una copia impresa a travs del fax: (51
1) 421-2793 o del correo electrnico: ipe@ipe.org.pe
IPE Working Papers can be downloaded in PDF format free of charge from: http://www.ipe.org.pe.
Printed versions can be ordered individually either by fax: (51 1) 421-2793 or by e-mail: ipe@ipe.org.pe

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

Introduccin
La presente gua es un esfuerzo del IPE, con el auspicio de la Fundacin M. J. Bustamante
de la Fuente, para contribuir a la educacin de los estudiantes universitarios del Per.
Mediante la realizacin de los Foros de Desarrollo Econmico Regionales se intenta
involucrar a los alumnos en la problemtica local y nacional. Para lograr dicho cometido,
resulta relevante que los alumnos de economa tengan la capacidad de aprovechar las
principales fuentes de informacin provistas por el Instituto Nacional de Estadstica (INEI),
como la Encuestas Nacionales de Hogares (ENAHO).
De manera sencilla, se presenta el entorno del software estadstico y economtrico STATA
12. Asimismo, se muestra el funcionamiento de los principales botones de la interfaz que
permitirn una mayor interaccin al usar las bases de datos. Adems, se incluyen dos
aplicaciones prcticas para reforzar el aprendizaje a nivel de investigador. Las bases de
datos empleadas son Automviles en EE.UU. y la ENAHO 2014. En el primer caso, la
informacin es provista por el propio paquete estadstico y servir para practicar los
comandos vistos en la primera seccin.
Por otro lado, el manejo de la ENAHO 2014 permitir replicar los principales indicadores
como pobreza, gastos e ingresos de los hogares, cobertura de la telefona mvil,
cobertura elctrica, material predominante en pisos, paredes y techos, etc. Usando los
comandos descritos lneas abajo y explorando en el manual de ayuda de STATA 12, los
alumnos pueden incrementar sus conocimientos de manera autodidacta.
Finalmente, para lograr un correcto entendimiento de la presente gua se recomienda
revisar en paralelo el do-file anexo STATA_12_para_economistas_.do. Todas las consultas
o dudas pueden ser realizadas a los correos vfuente@ipe.org.pe o portiz@ipe.org.pe.

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

ndice
Introduccin .................................................................................................................................... 2
A. Conceptos bsicos ................................................................................................................. 4
I.

Entorno de STATA ................................................................................................................. 5

II.

Abrir/Guardar una base de datos .................................................................................... 6

III.

Cambiar el directorio de trabajo ...................................................................................... 6

IV. Repaso rpido de comandos ms usados...................................................................... 6


B.

Aplicacin: Automviles en EE.UU. ....................................................................................... 8


I.

Base de datos ...................................................................................................................... 9

II.

Ejercicios................................................................................................................................ 9

C. Aplicacin: ENAHO 2014 ...................................................................................................... 12


I.

Base de datos .................................................................................................................... 13

II.

Ejercicios bsicos ............................................................................................................... 13

III.

Ejercicios intermedios ........................................................................................................ 15

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

A. Conceptos
bsicos

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

I.

Entorno de STATA
El despliegue inicial de STATA presenta cuatro ventanas:
Review
Command
Variables
Results

Comandos utilizados recientemente durante la sesin.


Se emplea para crear lneas de comandos que deseamos que STATA
lleve a cabo
Detalla a las variables disponibles en la base de datos.
Permite visualizar los resultados (outputs) de los clculos que hemos
pedido que realice STATA.

Los siguientes botones abren nuevas ventanas:


Do-file editor. Ventana que permite editar textos y ejecutar una lista
de comandos.
STATA browser. Permite visualizar los datos sin editarlos.
STATA editor. Permite navegar y modificar los datos como si fuese una
hoja Excel.
Variables manager. Venta que permite administrar integralmente
cada una de las variables
Nota: Si alguna de las ventanas bsicas est cerrada, se puede acceder a ellas a travs
de la opcin Windows del men principal.

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica


Al trabajar en STATA ocuparemos los siguientes tipos de archivos2:
base_de_datos.dta
programa.do

II.

Base de datos en STATA.


Archivo con lneas de comandos, que en conjunto
conforman un programa. Al correr un programa el trabajo se
hace ms interactivo y sencillo.

Abrir/Guardar una base de datos


Para abrir/guardar una base de datos existen dos caminos posibles caminos:
Directo. Usar el mouse:
FileOpen/SaveSeleccionar archivo/Nombrar archivo
Programando. Escribir las siguientes lneas:
use/save [Disco]\[ruta de acceso]\[nombre del archive.dta], clear/replace

Por ejemplo:
use C:\Users\Gianfranco\Desktop\STATA12paraEconomistas\sumaria-2014.dta, clear
save C:\Users\Gianfranco\Desktop\STATA12paraEconomistas\sumaria-2014.dta, replace

III.

Cambiar el directorio de trabajo


Para verificar en qu directorio se est trabajando actualmente se utiliza los comandos:
cd

O bien:
pwd

Para cambiar el directorio de trabajo:


cd [Disco]\[ruta de acceso]\

Por ejemplo:
cd C:\Users\Gianfranco\Desktop\STATA12paraEconomistas\

IV.

Repaso rpido de comandos ms usados


1. Principales comandos
help

Permite obtener ayuda de STATA. Por ejemplo,


help operators

describe (des)
summarize (sum)
tabulate (tab)
generate (gen)

Despliega un resumen de los contenidos de la base de datos


en uso
Computa estadsticas descriptivas
Computa frecuencias
Permite crear variables

Existen dos tipos de archivos ms: nombre.log y nombre.ado. Para mayor informacin revisar el Help de STATA

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

2. Expresiones lgicas y matemticas ms usadas


+
*
/
==

Suma
Resta
Multiplicacin
Divisin
Igual

>=
>
<=
<
!=

Mayor o igual
Mayor
Menor o igual
Menor
Distinto de

~=
&
|
exp()
ln()

Distinto de
y
o
Exponencial
Logaritmo base E

3. Expresiones condicionales
Permite hacer instrucciones condicionales, ya sea con
comandos descriptivos o de creacin.
Permite realizar instrucciones basndose en la clasificacin
de una variable en especfico

if
by

4. Algunos comandos adicionales


drop
keep
preserve

restore

replace

egen

sort
lookfor

Permite borrar variables u observaciones


Elimina variable u observaciones, excepto las que cumplan
las condiciones especificadas segn el comando
Guarda temporalmente la base de datos en el estado en el
que se encuentre
Recupera la base de datos guardada previamente, sin
importar los cambios realizados por comandos aplicados
desde entonces
Permite reemplazar variables o valores de observaciones por
otras
Permite crear variables, pero a partir de la aplicacin de una
funcin conocida por STATA sobre alguna(s) variable(s) en
particular
Permite ordenar la base de datos en orden ascendente
segn una o un grupo de variables especificadas
Permite encontrar variables o explorar la bsqueda en la
base de datos

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

B. Aplicacin:
Automviles en
EE.UU.

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

I.

Base de datos
En la ventana de comandos escribir:
clear all
sysuse auto.dta, clear

Abrimos las diferentes ventanas:


browse
edit

Evaluamos la base de datos. Cuntas variables y observaciones contiene?


des

II.

Ejercicios
1.

Listado

Lista de parte de nuestra data:


list make mpg
list make mpg in 1/10
list make mpg in -5/l

2. Qu autos tienen el menor millaje por galn?


sort mpg
list make mpg in 1/5

3. Cules son los cinco autos con el mayor millaje por galn?
list make mpg in -5/l

4. Cul es el precio promedio de los autos en esta base de datos?


summarize price

Si usamos la funcin summarize sin argumentos (variables), el resultado es una tabla de


los principales estadsticos de cada variable
summarize

5. Cul es el precio promedio de los autos que se encuentran por


encima y por debajo de la media de mpg?
summarize price if mpg<21.3
summarize price if mpg>=21.3

III Foro de Desarrollo Econmico Regional Cusco 2015

Stata 12 para Economistas: Gua bsica

6. Cul es la mediana de mpg?


summarize mpg, detail

7. Existen diferencias de precio o millaje explicadas por el origen de


fabricacin?
Antes de seguir, es importante notar que la variable foreign est codificada como 0 si ha
sido fabricada en EE.UU. o Canad, y 1 ha sido fabricado en otra parte.
tabulate foreign
tabulate foreign, nol

Existen por lo menos tres posibles soluciones:


a. En dos lneas
summarize price mpg if foreign==0
summarize price mpg if foreign==1

b. En dos lneas con resultados detallados


sort foreign
by foreign: summarize price mpg

c. En una lnea con un resultado prctico


table foreign, c(mean price mean mpg)

8. Son los precios de los autos domsticos iguales a los extranjeros?


Prueba de igualdad de medias
ttest mpg, by(foreign)

9. Base de datos incluye 74 observaciones, pero para la variable rep78


solo hay 69 registros. Para qu marca de autos no existe dicha
variable?
list make if rep78>=.
list make if missing(rep78)

10. Diferencias entre las frecuencia de mantenimiento explicadas por el


origen de fabricacin?
tabulate rep78 foreign

III Foro de Desarrollo Econmico Regional Cusco 2015

10

Stata 12 para Economistas: Gua bsica


Para saber si hay diferencias significativas del mantenimiento segn origen de
fabricacin:
tabulate rep78 foreign, chi2

11. Cul es la correlacin entre MPG y el peso de un carro?


correlate mpg weight

12. Cul es la correlacin entre MPG y el peso de un carro segn el


origen de fabricacin?
correlate mpg weight if foreign==0
correlate mpg weight if foreign==1

El mismo resultado se hubiera logrado usando:


by foreign: correlate mpg weight

Se pueden hacer matrices de correlacin del nmero de variables deseadas


correlate mpg weight price length displacement

13. Ploteado de variables (2 ejes)


scatter mpg weight

14. Creamos nueva variable: weight2 (cuadrado del peso del auto)
gen weight2=weight^2

Probemos los comandos preserve, restore, keep y drop


preserve
drop rep78
br
keep if weight>3000
br
restore

15. Estimacin lineal por Mnimos Cuadrados Ordinarios


regress mpg weight weight2 foreign

III Foro de Desarrollo Econmico Regional Cusco 2015

11

Stata 12 para Economistas: Gua bsica

C. Aplicacin:
ENAHO 2014

III Foro de Desarrollo Econmico Regional Cusco 2015

12

Stata 12 para Economistas: Gua bsica

I.

Base de datos
En la ventana de comandos escribir:
clear all

Adems, agregar la siguiente lnea considerando su propia ruta:


cd "C:[ruta]\ENAHO"

En mi caso es el siguiente:
cd "C:\Users\Gianfranco\Desktop\STATA12paraEconomistas"

Luego, ejecutar el comando aprendido lneas arriba:


use sumaria-2014.dta, clear

Nota: al usar el comando cd permitimos el uso de ms archivos alojados en la misma


ubicacin sin tener que describe la ruta complete otra vez. Esto ser de suma utilidad ms
adelante cuando juntemos dos bases de datos.

II.

Ejercicios bsicos
1.

Cuntas variables y observaciones se incluyen en la base datos?

browse

2.

Qu caractersticas tienen cada de una de las variables?

Codebook

3.

Qu nos dice la variable ubigeo?

codebook ubigeo
sum ubigeo
describe ubigeo

4.

Transformemos la variable ubigeo para hacerla trabajable:


comando destring

destring ubigeo, replace

5.

Dado que la ENAHO solo es representativa a nivel regional, no tiene


sentido hacer inferencia sobre la base de informacin desagrega a
niveles ms especficos. Por lo tanto, debemos usar el ubigeo al nivel
de regiones.

III Foro de Desarrollo Econmico Regional Cusco 2015

13

Stata 12 para Economistas: Gua bsica


gen region = int(ubigeo/10000)
label variable region "Regin"
label define region 1 "Amazonas" 2 "Ancash" 3 "Apurimac" []
label values region region
tab region

6.

Qu nos dice la variable dominio?

codebook dominio
sum dominio
describe dominio

7. Construyamos la variable regiones naturales


gen region_natural=.
label variable region_natural "Regin Natural"
replace region_natural=1 if dominio<=3|dominio==8
replace region_natural=2 if dominio>=4& dominio<=6
replace region_natural=3 if dominio==7
label define region_natural 1 "Costa" 2 "Sierra" 3 "Selva"
label values region_natural region_natural
tab region_natural
tab region region_natural

8.

Qu nos dice la variable estrato? Construyamos la variable mbito

gen ambito=.
label variable ambito "ambito"
replace ambito = 0 if estrato>=6 & estrato <=8
replace ambito = 1 if estrato>0 & estrato <=5
label define ambito 1 "Urbano" 0 "Rural"
label value ambito ambito
tab ambito
tab region ambito
tab region_natural ambito
tab region ambito region_natural
table region ambito region_natural

Con todo lo anterior, ya estamos en la capacidad de calcular variables


desagregadas por regin, nivel de urbanidad y tipo de regin natural.

III Foro de Desarrollo Econmico Regional Cusco 2015

14

Stata 12 para Economistas: Gua bsica

III.

Ejercicios intermedios
9.

Calcular la pobreza por regiones

Primero encontramos la variable de inters: pobreza


lookfor pobreza
codebook pobreza
sum pobreza
tab pobreza

Recodificamos la variable pobreza:


generate pobreza2=0 if pobreza==3
replace pobreza2=1 if pobreza==2 | pobreza==1
label define pobreza2 1 "Pobre" 0 "No pobre"
label value pobreza2 pobreza2
tab pobreza2

Ahora ejecutamos el comando para cumplir con la tambito:


table region, c(mean pobreza)
tab region pobreza2, row

Al comparar con los datos ofrecidos por el INEI notaremos que los resultados no son
correctos, qu ocurre? Hasta ahora solo habamos estado trabajando con la base
de datos y sus variables; no obstante, al iniciar los clculos sobre ellas debemos
recordar que se trata de una encuesta y no de la poblacin. Por lo tanto, debemos
considerar los factores de expansin o ponderadores que hacen que los indicadores
muestrales se conviertan en representaciones poblacionales.
lookfor factor
codebook factor07

Es importante notar que la variable factor07 es el factor de ponderacin o expansin


para los hogares. Sin embargo, la pobreza se mide al nivel de personas. Para ello,
debemos juntar sumaria, la cual identifica la condicin de pobreza de cada hogar,
con el Modulo 2, que est nivel de personas.
Para combinar bases de datos es necesario tener una variable o un conjunto de
variables que sirvan como identificadores en ambas bases de datos. A travs de
dichos identificadores, se combinarn las variables de ambas bases de datos en una
sola; en otras palabras, debemos identificar que variable asigna a cada persona con
su respectivo hogar. El identificador natural de nuestra base de datos son los hogares,
debido a que estas son las unidades muestrales. Sin embargo, los hogares estn
distribuidos segn conglomerados3 y viviendas.
Ordenamos la base de datos sumaria y la salvamos:

Los conglomerados son unidades primarias de muestreo

III Foro de Desarrollo Econmico Regional Cusco 2015

15

Stata 12 para Economistas: Gua bsica

sort conglome vivienda hogar


save sumaria-2014-1.dta

Abrimos el Mdulo 200, lo ordenamos y usamos el comando merge:


use enaho01-2014-200.dta, clear
sort conglome vivienda hogar
merge conglome vivienda hogar using sumaria-2014-1.dta

Tabulamos la pobreza para cada una de las regiones:


table region [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row
tab region pobreza2 if p204==1 & (p203!= 8 | p203!=9) [iw=facpob07], row

Podemos calcular la pobreza para otras categoras:


table region [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2)
table region [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row
table region ambito [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2)
row col
table region region_natural [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean
pobreza2) row col
table region ambito region_natural [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9),
c(mean pobreza2) row

En la medida que la ENAHO es una encuesta, la pobreza calculada tiene un error


muestral. Para observar el error muestral debemos utilizar el mdulo de encuestas del
STATA. Primero se le debe decir al STATA que tipo de muestreo se utiliz en la ENAHO:
svyset conglome [pweight=factor], strata (estrato)

Para ver los errores muestrales de pobreza se utiliza el siguiente comando:


svy:
svy:
svy:
svy:
svy:

proportion pobreza2
tabulate region pobreza2
tabulate region pobreza2, row ci se
tabulate ambito pobreza2, row ci se
tabulate region_natural pobreza2, row ci se

10. Calcular los ingresos netos anuales segn quintiles


Regresemos a Sumaria:

use sumaria-2014-1.dta, clear

En primer lugar, debemos encontrar la variable de inters:


lookfor ingreso
codebook inghog2d
sum inghog2d

Usamos el comando xtile para calcular los quintiles. Primero revisamos qu nos dice
STATA:
III Foro de Desarrollo Econmico Regional Cusco 2015

16

Stata 12 para Economistas: Gua bsica


help xtile

Calculamos los ingresos por quintiles:


xtile quintiles_ing = inghog2d [w=factor07], nq(5)

Comprobamos que la variable ha sido correctamente calculada:


tab quintiles_ing
tab quintiles_ing [iw=factor07]

Calculamos los ingresos por quintiles:


table quintiles_ing [iw=factor], c(mean inghog2d)
table quintiles_ing [iw=factor], c(mean inghog2d) row
svy: mean inghog2d, over(quintile)

Podemos usar esta variable para calcular los quintiles por regiones?
table region quintiles_ing [iw=factor], c(mean inghog2d)

No, porque esta variable ha sido calculada usando como poblacin objetivo al Per.
Demostrmoslo:
table region quintiles_ing [iw=factor], row

La tabla nos muestra las observaciones segn quintiles. Solo en la ltima fila, referida
al Total o Per, los montos son estadsticamente semejantes. Por lo tanto, para
calcular los quintiles de ingresos segn regiones, estos se deben calcular
independientemente. Para el caso de Arequipa:
xtile quintiles_ing_arequipa = inghog2d [w=factor07] if region==4,nq(5)
table quintiles_ing_arequipa [iw=factor], c(mean inghog2d)

Es posible generalizar el clculo para el resto de regiones cambiando la identificacin


de la regin. Por ejemplo, 15 para Lima 23 para Tacna
Antes de seguir guardemos nuestra base datos. Recordar ponerle otro nombre, para
no modificar la base de datos inicial:
save sumaria-2014-2.dta,replace

11. Calcular la tenencia de celulares en los hogares


En primer lugar, debemos encontrar la variable de inters:
lookfor celular

STATA no encuentra la variable porque dicha variable no existe. Para asegurarnos


revisamos el Diccionario de Datos de la ENAHO 2014. Al investigar en ella, advertimos

III Foro de Desarrollo Econmico Regional Cusco 2015

17

Stata 12 para Economistas: Gua bsica


que dicha variable se encuentra en el mdulo 1004. Por lo tanto, abrimos dicha base
de datos:
use enaho01-2014-100.dta, clear
lookfor celular
codebook p1142
sum p1142
tab p1142

Debemos considerar todas las observaciones?


tab p101
tab p101, mis
tab result
keep if result==1|result==2

Generamos una variable ms amigable


gen celular=p1142
label variable celular "Tenencia de celular en el hogar"
label define celular 1 "Tiene celular" 0 "No tiene
label values celular celular

Calculamos la tenencia de celulares por hogares


sum celular
sum celular [iw=factor07]

Calculamos la tenencia de celulares por hogares por regiones


table region [iw=factor07], c(mean celular)

El error se debe a que las variables que habamos generado en los ejercicios
anteriores no se encuentran en esta base de datos. Al respecto, se pueden emplear
dos soluciones similares. Generar todas las variables calculadas previamente usando
los comandos descritos lneas arriba o combinar las bases de datos. En este caso
usaremos la primera alternativa; usaremos la segunda ms adelante.
Luego de volver a calcular las variables de regiones, regiones naturales y nivel de
urbanidad, calculamos lo solicitado:
table region [iw=factor07], c(mean celular)

Como puede haber notado, al revisar las variables del mdulo 100, el procedimiento
aplicado tambin puede servir para obtener la cobertura de telfono, internet y tv
cable. Pista:
lookfor p114

Hasta ahora hemos estado trabajando con el modulo Sumaria.

III Foro de Desarrollo Econmico Regional Cusco 2015

18

Stata 12 para Economistas: Gua bsica

12. Calcular la cobertura de electricidad de los hogares


En primer lugar, debemos encontrar la variable de inters:
lookfor electricidad
codebook p1121
tab p1121

Generamos una variable ms amigable:


gen elect=p1121
label variable elect "Electricidad"
label define elect 1 "Alumbrado elctrico" 2 "No tiene
label values elect

Calculamos la cobertura de electricidad:


sum elect [iw=factor07]

Calculamos la cobertura de electricidad por regiones:


table region [iw=factor07], c(mean elect)
table region ambito [iw=factor07], c(mean elect)

13. Calcular el acceso a red pblica de agua


En primer lugar, debemos encontrar la variable de inters:
lookfor agua
codebook p110
tab p110

Generamos una variable ms amigable usando la definicin del INEI sobre acceso
a red pblica de agua
gen agua=.
replace agua=0 if p110<=3
replace agua=1 if p110>3
label variable elect "Acceso a red pblica de agua"
label define agua 1 "Tiene acceso a red pblica" 2 "No tiene
label values agua

Calculamos el acceso a red pblica de agua nacional:


sum agua [iw=factor07]

Calculamos el acceso a red pblica de agua por regiones:


table region [iw=factor07], c(mean agua)
table region ambito [iw=factor07], c(mean agua)
save enaho01-2014-100-mod.dta,replace

Se pueden emplear similares comandos para las variables de material predominante


en pisos (p103), paredes (p102) y techo (p103a). Tambin para el combustible usado
en la cocina (p113a). Lo ms importante son las condiciones bajo las que definimos
las nuevas variables.

III Foro de Desarrollo Econmico Regional Cusco 2015

19

Stata 12 para Economistas: Gua bsica

14.

Calcular la cobertura elctrica segn quintiles de ingresos


En primer lugar, debemos advertir que la variable de ingresos pertenece al mdulo
Sumaria; mientras, la variable de abastecimiento elctrico, al mdulo 100. Por lo
tanto, resulta necesario combinar dichas bases de datos.
Para combinar bases de datos es necesario tener una variable o un conjunto de
variables que sirvan como identificadores en ambas bases de datos. A travs de
dichos identificadores, se combinarn las variables de ambas bases de datos en una
sola. El identificador natural de nuestra base de datos son los hogares, debido a que
estas son las unidades muestrales. Sin embargo, los hogares estn distribuidos segn
conglomerados5 y viviendas. Por lo tanto, el procedimiento a seguir es:
Abrimos la base de datos a anexar, la ordenamos segn los identificadores y la
guardamos:
use enaho01-2014-100.dta, clear
sort conglome vivienda hogar
save enaho01-2014-100-para-combinar.dta,replace

Abrimos la base de datos maestra y la ordenamos segn los identificadores:


use sumaria-2014.dta, clear
sort conglome vivienda hogar

Combinamos ambas bases de datos teniendo en cuanto los identificadores usado


el comando merge:
merge conglome vivienda hogar using enaho01-2014-100-para-combinar.dta
br

Veamos cmo est compuesta la nueva base de datos:


tab _merge
br if _merge==2

Notamos que las observaciones que solo estn incluidas en la base de datos del
mdulo 100 representan missing values. Para evitar posible problemas, solo
guardamos las variables presentes en ambas bases de datos o, que es lo mismo,
aquellas incluidas en Sumaria.
keep if _merge==3

Tambin podramos haber usado las bases de datos que modificado al trabajar los
clculos previos:
use enaho01-2014-100-mod.dta, clear
sort conglome vivienda hogar
5

Los conglomerados son unidades primarias de muestreo

III Foro de Desarrollo Econmico Regional Cusco 2015

20

Stata 12 para Economistas: Gua bsica


save enaho01-2014-100-mod.dta,replace
use sumaria-2014-2.dta, clear
sort conglome vivienda hogar
merge conglome vivienda hogar using enaho01-2014-100-mod.dta

Calcular la cobertura elctrica segn quintiles de ingresos:


table quintiles_ing [iw=factor], c(mean elect)

Calcular la cobertura elctrica segn quintiles de ingresos Arequipa:


table quintiles_ing_cusco [iw=factor], c(mean elect)
table quintiles_ing_cusco ambito [iw=factor], c(mean elect)

_______________________________________________________________________________
La presente gua constituye una primera herramienta para aprovechar la informacin
provista por el INEI. Se deja como asignacin personal la investigacin de nuevos
comandos y la aplicacin sobre nuevos mdulos de la ENAHO. Finalmente, la principal
herramienta para avanzar en el dominio de STATA radica en el uso del Manual de Ayuda
(comando help).

III Foro de Desarrollo Econmico Regional Cusco 2015

21

Вам также может понравиться