EDUC 4026 Mtodos Cuantitativos de Investigacin 2014-II
Molano, 2014 MAD # 2 1
EDUC 4026: Memorando Analtico de Datos (MAD) # 2 Regresin Lineal Mltiple [100 puntos] FECHA LIMITE DE ENTREGA: DOMINGO 19 de OCTUBRE ANTES DE LAS 11:59 PM VIA SICUAPLUS PISA 2012: Desempeo en Lenguaje en tres pases Latinoamericanos: Estrato Socio-econmico y participacin en educacin prescolar.
Contexto General: Para este memorando analtico de datos (MAD # 2) utilizaremos datos recolectados como parte del programa PISA 2012 en Colombia, Costa Rica y Per. Nos enfocaremos en el desempeo en LENGUAGE para una muestra aleatoria de estudiantes en estos tres pases. Nuestros predictores principales sern: (1) un indicador continuo de Estrato Socio Econmico del estudiante (SES), (2) variable categrica que describen si el estudiante asisti o no a prescolar y si lo hizo por uno o ms aos (PRESCOLAR), (3) una variable indicador que describe el gnero del estudiante (FEMALE) y, (4) una variable categrica que describen el pas de origen del estudiante (PAIS). Como usted ya lo sabe, dado que muchas de las variables de nuestra base de datos son categricas, para su uso en el contexto de un modelo de regresin, hemos creado una serie de indicadores que representan la misma informacin contenida en estas variables. De esta manera: 1) La variable PAIS deber ser remplazada en el anlisis de regresin por las variables COL y PERU, las cuales indican si el estudiante es COLOMBIANO o PERUANO, respectivamente. 2) La variable PRESCOLAR deber ser remplazada en el anlisis de regresin por las variables PRE_1 y PRE_2. La primera indica si el estudiante asisti a prescolar por uno o menos aos, mientras que la segunda seala si el estudiante asisti a prescolar por ms de un ao. Para su comodidad, estas variables ya han sido creadas en la base de datos de MAD # 2 y estn disponibles para que usted las integre en su modelo de regresin. Recuerde, sin embargo, que las variables PAIS y PRESCOLAR, cada una tiene 3 categoras que son completamente representadas por solo 2 variables indicador 1 . Tenga en cuenta esta informacin para realizar su interpretacin de los resultados de sus modelos estimados de regresin.
1 Pista [Cuando el estudiante no es COLOMBIANO o PERUANO, por definicin en esta base de datos, deber ser COSTRARICENSE]. EDUC 4026 Mtodos Cuantitativos de Investigacin 2014-II Molano, 2014 MAD # 2 2
Informacin General sobre PISA 2012: (disponible en http://www.oecd.org/pisa/aboutpisa/pisaenespaol.htm) El Programa para la Evaluacin Internacional de Alumnos de la OCDE (PISA, por sus siglas en ingls), tiene por objeto evaluar hasta qu punto los alumnos cercanos al final de la educacin obligatoria han adquirido algunos de los conocimientos y habilidades necesarios para la participacin plena en la sociedad del saber. PISA saca a relucir aquellos pases que han alcanzado un buen rendimiento y, al mismo tiempo, una distribucin equitativa de oportunidades de aprendizaje, ayudando as a establecer metas ambiciosas para otros pases. Las pruebas de PISA son aplicadas cada tres aos. Examinan el rendimiento de alumnos de 15aos en reas temticas clave y estudian una gama amplia de resultados educativos, entre los que se encuentran: la motivacin de los alumnos por aprender, la concepcin que stos tienen sobre s mismos y sus estrategias de aprendizaje. Cada una de las tres evaluaciones pasadas de PISA se centr en un rea temtica concreta: la lectura (en 2000), las matemticas (en 2003) y las ciencias (en 2006); siendo la resolucin de problemas un rea temtica especial en PISA 2003. El programa est llevando a cabo una segunda fase de evaluaciones en el 2009 (lectura), 2012 (matemticas) y 2015 (ciencias). La participacin en PISA ha sido extensa. Hasta la fecha, participan todos los pases miembros, as como varios pases asociados. Los estudiantes son seleccionados a partir de una muestra aleatoria de escuelas pblicas y privadas. Son elegidos en funcin de su edad (entre 15 aos y tres meses y 16 aos y dos meses al principio de la evaluacin) y no del grado escolar en el que se encuentran. Ms de un milln de alumnos han sido evaluados hasta ahora. Adems de las pruebas en papel y lpiz que miden la competencia en lectura, matemticas y ciencias, los estudiantes han llenado cuestionarios sobre ellos mismos, mientras que sus directores lo han hecho sobre sus escuelas. Una vez completada la primera fase de nueve aos, PISA continuar el seguimiento del rendimiento de los alumnos en tres reas temticas principales, pero tambin buscar profundizar su introspeccin sobre las evaluaciones venideras. Har esto mediante el desarrollo de mejores formas de seguimiento del progreso de los alumnos, haciendo posibles comparaciones ms precisas entre el rendimiento y la instruccin, y haciendo uso de evaluaciones informatizadas. Estas innovaciones sern exploradas inicialmente como componentes suplementarios y opcionales de PISA, pero que sern integradas al ncleo del programa en aquellos casos en que se considere apropiado. Para ver las publicaciones disponibles de PISA en espaol, siga este link http://www.oecd.org/pisa/publicacionesdepisaenespaol.htm
Instrucciones Generales para este Memorando Para el desarrollo de este memorando analtico de datos (MAD # 2) utilizaremos tcnicas de regresin lineal simple y mltiple para comprender las asociaciones y diferencias en promedio, en esta poblacin, entre la variable resultado LENGUAJE, y predictores del contexto personal de los estudiantes. Para este ejercicio analtico, hemos seleccionado una muestra aleatoria de estudiantes en Colombia, Costa Rica y Per. Como en toda investigacin, en este ejercicio iniciaremos por obtener algunos estadsticos descriptivos bsicos sobre nuestras variables de inters. Su objetivo principal ser recolectar informacin relevante sobre estas variables y reportarlas de manera simple y organizada de tal manera que cualquier lector pueda comprender fcilmente sus resultados. Una vez reportados, estimaremos modelos simples de regresin para comprender las asociaciones individuales y controladas de estas variables con nuestra variable respuesta de inters. Una vez ms, el nfasis de nuestro trabajo se encontrar en generar un reporte coherente, simple y organizado para comunicar nuestros resultados a cualquier audiencia. Para simplificar nuestro trabajo, los datos disponibles para este ejercicio han sido seleccionados de tal manera que no tengamos que preocuparnos por datos perdidos. En este sentido, si bien la informacin con la que trabajaremos corresponde a una muestra aleatoria de la aplicacin PISA 2012 en Colombia, Costa Rica y Peru, nuestros resultados podrn no corresponder directamente con los publicados oficialmente por la OECD y otros investigadores. Para los objetos de este memorando analtico de datos NO nos preocuparemos por este detalle, sin embargo, en la realidad usted deber tomar decisiones importantes para lidiar con este tipo de situaciones y solucionar problemas de sesgo en sus resultados e inferencias. La consecuencia de nuestra decisin de simplificar nuestro trabajo es que usted no podr publicar directamente los resultados de sus anlisis. Si usted est interesado en publicar resultados sobre estos anlisis, ms adelante, fuera del contexto de esta clase, podremos trabajar para ajustar nuestros anlisis para dar cuenta de todos los detalles metodolgicos presentes en la aplicacin PISA 2012. Formato: Por favor cree un documento en su procesador de palabras preferido (p.ej. Microsoft Word) de no ms de 6 pginas doble espacio usando fuente Times New Roman de 12 puntos y mrgenes de 1 pulgada y respondiendo las preguntas a continuacin. No es necesario que usted escriba un marco terico para este trabajo, simplemente enfquese en responder las preguntas de manera concreta, clara y en prosa completa. Recuerde que su objetivo general es comunicar los resultados obtenidos a una audiencia educada, pero NO especialista en mtodos de anlisis cuantitativos. Asegrese de numerar las pginas de su documento y de incluir su nombre y cdigo uniandino. EDUC 4026 Mtodos Cuantitativos de Investigacin 2014-II Molano, 2014 MAD # 2 4
Como anexos de su memorando incluya el archivo de sintaxis (do file) anotado que usted ha utilizado para estimar los resultados obtenidos. A diferencia del memorando anterior, por favor incluya figuras o tablas que apoyan su respuesta dentro del cuerpo del texto y NO como anexos. Aunque en este memorando no evaluaremos directamente el uso del estilo APA para las publicaciones, le recomendamos empiece a organizar todos sus trabajos y publicaciones de esta manera. Es una excelente prctica! 1. Construya y ejecute un do-file anotado para ejecutar los anlisis solicitados [10 puntos]
Utilice el cdigo disponible como anexo para estas instrucciones para empezar sus anlisis. Complemente este cdigo (do-file) con los comandos necesarios para obtener los resultados solicitados y responder a las preguntas a continuacin. Ejemplos de estos comandos estn disponibles en SICUAPLUS y en las presentaciones de clase. Sintase libre de adaptar su cdigo (do-file) a partir de estos recursos disponibles; no es necesario citar ninguna de estas fuentes de cdigo en este memorando.
De manera adicional a los comandos que usted utilizara para realizar los anlisis solicitados, por favor adjunte en el archivo de sintaxis (do-file) breves comentarios que identifiquen la funcin de estos comandos (p.ej **este comando realiza una prueba t de muestras independientes para la variable Y entre grupos conformados por X1 y X2).
Para su conveniencia en el espacio SICUAPLUS del curso, usted encontrara el archivo de datos MAD_2 y la sintaxis de STATA (do-file) necesarias para leer los datos y empezar sus anlisis.
2. Describa la distribucin de puntajes en LENGUAJE (READ) y estrato socio-econmico (SES) para Colombia, Costa Rica y Per. Adicionalmente reporte el nmero de estudiantes por gnero (FEMALE) y por trayectoria de educacin Prescolar (PRESCOLAR) incluido en la muestra de cada pas. [10 puntos]
De manera breve describa la distribucin de puntajes en Lenguaje y estrato socio econmico observados en estas muestras por la prueba PISA 2012. Reporte los resultados para cada pas, integrando la informacin cuantitativa en su respuesta. Adicionalmente reporte el nmero de estudiantes incluido en la muestra de cada pas: Cuntos de ellos son hombres y cuantas mujeres? Cuntos reportan no haber cursado educacin prescolar?, cuntos reportan haberlo hecho por un ao o menos? y cuntos por ms de un ao?. Al responder la pregunta (1) interprete estadsticos importantes de tendencia central y EDUC 4026 Mtodos Cuantitativos de Investigacin 2014-II Molano, 2014 MAD # 2 5
dispersin, (2) disee una tabla que presente informacin importante sobre estas variables, (3) cree histogramas o grficos de cajas para comunicar esta informacin.
3. Utilice un modelo de regresin simple para estimar el promedio de Lenguaje para estudiantes en cada uno de los tres posibles niveles de la variable PRESCOLAR. [20 puntos]
Utilice un modelo de regresin describa los promedios observados en lenguaje para estudiantes que (a) reportan no haber asistido a prescolar, (b) aquellos que reportan haber asistido por un ao o menos, y (c) aquellos que reportan haber asistido por un ao o ms. Utilice los resultados del modelo tambin para reportar las diferencias estimadas en el puntaje de Lenguaje entre cada una de estas tres categoras y para evaluar la hiptesis nula que estas diferencias observadas, no son diferentes a cero, en promedio en la poblacin. Acompae su presentacin de los resultados con una formulacin explicita de las hiptesis nula y alternativa, as como el nivel alpha establecido. Interprete brevemente los resultados en trminos de significancia estadstica, direccin y magnitud observada. En este punto no se preocupe por las diferencias entre pases, utilice la muestra completa.
4. Utilice un modelo de regresin simple para estimar el la asociacin entre el puntaje de Lenguaje y el nivel socio-econmico reportado por los estudiantes. [20 puntos]
Utilice un modelo de regresin para estimar la asociacin entre los puntajes de LENGUAJE y el estrato socio-econmico de los estudiantes, en promedio en esta poblacin. Utilice los resultados del modelo para evaluar la hiptesis nula que estas asociacin observadas, no es diferentes a cero, en promedio en la poblacin. Acompae su presentacin de los resultados con una formulacin explicita de las hiptesis nula y alternativa, as como el nivel alpha establecido. Interprete brevemente los resultados en trminos de significancia estadstica, direccin y magnitud observada. Adicionalmente incluya un breve reporte del estadstico R 2 y la prueba de hiptesis asociada al mismo. En este punto no se preocupe por las diferencias entre pases, utilice la muestra completa.
5. Utilice un modelo de regresin mltiple para estimar la asociacin controlada entre el puntaje promedio de Lenguaje y nivel socio- econmico reportado por los estudiantes, as como las diferencias controladas entre los promedios de estudiantes en cada uno de los tres posibles niveles de la variable PRESCOLAR. [20 puntos]
Para responder esta pregunta, controle tambin por posibles diferencias entre pases.
Utilice un modelo de regresin para simultneamente estimar la asociacin entre los puntajes de LENGUAJE y el estrato socio-econmico de los estudiantes, as como las diferencias entre el promedio de estudiantes que (a) reportan no haber asistido a prescolar, (b) aquellos que reportan haber asistido por un ao o menos, y (c) aquellos que reportan haber asistido por un ao o ms.
Reporte e interprete cada uno de los betas (s) estimados por el modelo y utilice los resultados del modelo para evaluar la hiptesis nula que estas asociaciones observadas, no son diferentes a cero, en promedio en la poblacin. Interprete brevemente los resultados en trminos de significancia estadstica, direccin y magnitud observada.
Adicionalmente incluya un breve reporte del estadstico R 2 y la prueba de hiptesis asociada al mismo.
6. Organice y comunique los resultados de sus anlisis. [20 puntos] Los editores invitados al blog de educacin de la silla vaca (http://lasillavacia.com/blogs/blog- de-notas) lo han invitado a usted a escribir una entrada breve no ms de una pgina en donde usted resume y comunica claramente los resultados de todos sus anlisis. En particular le han pedido se enfoque en: 1) Una descripcin bsica de los datos empleados en su anlisis. 2) Un reporte de los resultados de su regresin mltiple enfocndose en: a. Las diferencias observadas en LENGUAJE entre las categoras de la variable PRESCOLAR, controlando por estrato socio-econmico y pas de origen. b. La asociacin observada entre LENGUJE y estrato socio-econmico, controlando por estatus en PRESCOLAR y pas de origen. c. Las diferencias observadas en LENGUAJE entre cada uno de los Pases, controlando por estrato socio-econmico y estatus en Prescolar. . Recuerde que los lectores de la silla vaca no estn familiarizados con trminos tcnicos, as que asegrese en presentar su evidencia estadstica (descriptiva e inferencial) en una manera que sea accesible a mltiples audiencias. EDUC 4026 Mtodos Cuantitativos de Investigacin 2014-II Molano, 2014 MAD # 2 7
Anexo 1: Do file STATA ********************************************************************** *--------------------------------------------------------------------* * Mtodos de Investigacin Cuantitativa * EDUC 4026 * Andrs Molano - CIFE *--------------------------------------------------------------------* *--------------------------------------------------------------------* * Sintaxis gua para el Memorando Analtico de Datos MAD #2 *--------------------------------------------------------------------* * Anlisis de Regresin. *--------------------------------------------------------------------* * Nota: Recuerde que para abrir un archivo .dta, es necesario * copiar la ruta en la que se encuentra su archivo. Revise la * direccin de las barras (contra-slash) y asegrese de abrir y * cerrar las comillas
use "F:\Mtodos Cuantitativos Avanzados\MCA_1.dta"
log using "C:copie su ruta de trabajo\MAD1.log"
* Algunos comandos que puede necesitar: codebook tabulate summarize histogram graph box scatter regress
* Si necesita ayuda adicional, puede recurrir a la ayuda de STATA
********************************************************************** *--------------------------------------------------------------------* * Mtodos de Investigacin Cuantitativa * EDUC 4026 * Andrs Molano - CIFE *------------------------------------------------------------------- * *--------------------------------------------------------------------* * Sintaxis gua para el Memorando Analtico de Datos MAD #2 *--------------------------------------------------------------------* * Anlisis de Regresin. *--------------------------------------------------------------------* * Nota: Recuerde que para abrir un archivo .sav, es necesario * copiar la ruta en la que se encuentra su archivo. Revise la * direccin de Las barras (contra-slash)y asegrese de abrir y * cerrar las comillas*. * Recuerde tambin que en SPSS un punto (.) separa los comentarios * de los comandos, y se requiere un punto al finalizar cada orden. * Tambin recuerde verificar que DATASET NAME seale el conjunto * de datos con el que est trabajando.
GET FILE='F:\Su carpeta de trabajo\Metodos Cuantitativos\MAD1.sav'.
DATASET NAME Conjunto_de_datos1.
*Los siguientes comandos pueden resultar tiles:. DESCRIPTIVES /STATISTICS. EXAMINE /PLOT=BOXPLOT. GRAPH /HISTOGRAM. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT /METHOD=ENTER. *En la ventana AYUDA puede encontrar documentacin adicional.