Вы находитесь на странице: 1из 4

Introducción a la manipulación de bases de datos en Stata

Curso extra programático, tercer trimestre 2016

TAREA 1

Objetivo General

Procesar lasencuestas de hogares de Bolivia y México1.

Objetivos específicos

- Reconocer las variables y sus códigos en el manual de la encuesta


- Generar, renombrar, eliminar variables, etc.
- Crear categorías y grupos dentro de las variables según lo establecido en el manual
- Etiquetar variables, cambiarles el formato de string a numeric (o viceversa) y otros
- Realizar estadísticas básicas y presentar los resultados en cuadros estadísticos por medio
del colapso de base de datos
- Adjuntar bases de datos
- Crear gráficos en Stata para presentar los resultados

Instrucciones generales

1. Todos los resultados deberán ser entregados en un único do-file. El nombre de este
deberá serT1_nombre_apellido.do .
2. El archivo .do debe estar ordenado y debe tener comentarios aclaratorios en caso de ser
necesario.
3. Los comandos browse y edit no deben estar en el código del do-file.
4. Se deja a su criterio el uso de iteraciones para la resolución de la tarea, pero considérelo
como un ahorro de tiempo y como medida de su aprendizaje.
5. No serán revisados los do-files que al ser ejecutados (Ctrl+d) se detengan con error.
6. Para acompañar sus resultados, debe adjuntar una nota técnica escrita en Word que
describa los criterios de homologación entre variables que generadas en el do-file. El
nombre de estadeberá ser T1_nombre_apellido.doc

Plazo de entrega:10diciembre de 2016

1 Las bases de datos han sido construidas para simular variables de los manuales de usuario de Encuestas de Hogares de
la división de Estadísticas y Proyecciones de CEPAL. Los nombres de las variables y los códigos de clasificación son
verídicos, no así los datos. Por lo tanto, Ud. no puede obtener conclusiones sobre la situación de los países estudiados
en esta tarea.

La información real no es empleada debido a imposiciones restrictivas de algunos gobiernos al uso de la información
disponible en el BADEHOG de CEPALSTAT, por lo que todas las encuestas que conforman el banco de datos son de uso
exclusivo del personal de la CEPAL y no pueden ser compartidas con personas ajenas a la Comisión.
Análisis comparativo de los ingresos laborales de Bolivia y México.

Ud. debe procesar las siguientes encuestas de hogares:

BOL_ENE_1997.dta : Encuesta Nacional de Empleos. Noviembre de 1997. Bolivia.


BOL_EH_2002.dta : Encuesta de Hogares. Noviembre y diciembre de 2002. Bolivia
MEX_INEGI_1996.dta : Encuesta Nacional de Ingresos y Gastos de los Hogares. Tercer
ttrimestre de 1996. México.
MEX_INEGI_2002.dta : Encuesta Nacional de Ingresos y Gastos de los Hogares. Tercer t
trimestre de 2002. México.

Para todo el procesamiento, considere que la finalidad es comparar variables de iguales


características entre los países y a través de los años. Por lo tanto, tenga en mente que cualquier
categoría que Ud. esté creando en una base, debe estar contenida con los mismos criterios en
otra. Antes de comenzar, compare las preguntas de los manuales referidas a las variables que
aparezcan en las bases y establezca criterios de similitud, homologue categorías y decida cuáles le
entregan información al estudio de los ingresos. Se debe apoyar creando una “nota técnica”que
sirva para entender los criterios que utiliza como investigador y las variables que construye.

1. Descargue los manuales de usuario de las Encuestas de Hogares de la división de


Estadísticas y Proyecciones de CEPAL. Para ello diríjase a siguiente página:
http://interwp.cepal.org/badehog/consulta_encuesta.asp?pais=ar . Luego, busque el país,
seleccione el año y descargue el manual de usuario con letras rojas.

Ejemplo 1 – Descargar el manual de usuario de la Encuesta de hogares de Bolivia, 2002.


2. Examine las bases de datos usando los comandos describe, summarize, etc. Luego,
utilizando los manuales, para cada una de las variablesde cada base de datos, cree los
label. En el manual de usuario del país y el año, encontrará la variable y las etiquetas que
debiese tenerlas variables. No todas las variables podrán ser etiquetadas. (20 puntos)
3. Elimine las variables que no tienen observaciones. Piense en cómo tratar una variable que
tiene información en algún país y en otro no, o que tiene información en ambos países pero
no para todos los años. Cree un criterio y defínalo en la nota técnica. Nota: Bajo ningún
concepto puede eliminar las variables que describan la edad, horas de trabajo, años de
educación, sexo, rama de actividad y el factor de expansión. (10 puntos)
4. Genere nuevas variables con categorías arbitrarias. Por ejemplo, a partir de la
variableedad, cree otra variable, supongamostedad, que categorice edad en 5 tramos. a)
Hint: utilice generate y replace. También cree las etiquetas para sus nuevas variables.Cree
todas las categorías que sean necesarias de manera de homologar criterios entre las
bases de datos y entre los años 2. (40 puntos)
5. Cree una base de datos maestra y nómbrela como “masterdata.dta” La base debe tener
información de Bolivia en 1997 y 2002 y México en 1996 y 2002. Hint: use el comando
append, pero previo a ello verifique que los nombres de las variables de cada base por
país y año sean equivalentes entre sí. Por ejemplo; la variable que expresa los ingresos
laborales debe llamarse, por ejemplo:ing_lab, en todas las bases. Renombre en caso de
ser necesario. (30 puntos)

El código para las siguientes actividades debe escribirse usando la base de datos maestra.
(creada en ítem 5).

6. Genere totales y variaciones mensuales, por país y por año; (30 puntos)
a)Genere el total de ingresoscomo la suma de los ingresos para cada una de las
categorías que definió en punto 4.
b) Cree el total ingresos medios por cada variable categorizada; esto es el promedio de
los ingresos, de cada categoría creada en el punto 4.
c)Cree los mínimos y máximo de los ingresos por cada variable categorizada.
d) Genere la variación anual del total de los ingresos según país, diferenciado por sexo,
todo en una sola variable.
e) genere otras tres estadísticas para totales, apóyese en el help de Stata y detállelo en la
nota técnica.
7. Cambie el formato de la variable país, de string a numeric y etiquete esta nueva variable.
. (10 puntos)
8. Presente en la pantalla Results, cuadros estadísticos expresando lo siguiente:(30 puntos)
o Media de los ingresos laborales por año y país.
o Máximo de los ingresos laborales por país, año y la variable edad en tramos.
o Media de los ingresos laborales expresados en horas para cada una de las
categorías de rama de actividad.
o Frecuencia de la variable sexo cruzada con la variable que creó para categorizar
los años de educación.
o Cree otros 2 cuadros estadísticos cruzando variables según le parezca necesario
para comprender el comportamiento del ingreso, entre países y/o a través del
tiempo. Defínalo en la nota técnica.

2
Esto significa que, por ejemplo, si Ud. crea la variable tedad con 5 tramos de edad, donde 1 “ niños”,
2”adolescentes” 3 “jóvenes” 4 “adultos” 5 “viejos”, esta clasificación deberá estar en todas las bases de
datos ; la variable tedad tiene que estar en BOL_ 1997.dta ,BOL_2002.dta, MEX_1996.dta y MEX_2002.dta
9. Collapse la base de datos haciendo uso del factor de expansión para crear los mismos
cuadros estadísticos anteriores. Utilice los comandos Preserve y Restore. Guarde la base
de datos en formato .dta.(20 puntos)
10. Cree un histograma para representar los ingresos laborales, gráfico(s) de barras con los
ingresos por país y por año, gráficos de círculo para representar el total de ingreso por
sexo, otro para el total de ingresos por cada una de las variables categorizadas. No es
necesario que exporte los gráficos creados. (10 puntos)

Вам также может понравиться