Академический Документы
Профессиональный Документы
Культура Документы
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE
Francisco Meneses
11 de enero de 2008
1
Índice
1. Introducción 3
2. Revisión Literaria 3
3. Datos 7
4. Modelo 10
4.1. Regresiones con IV/TSLS . . . . . . . . . . . . . . . . . . . . . 11
4.2. Regresiones tipo Heckman . . . . . . . . . . . . . . . . . . . . . 13
4.3. Tratamiento promedio (ATE) y de los Tratados (TT) . . . . . . 16
4.4. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6. Conclusiones 30
7. Anexo 32
7.1. Tablas Descriptivas . . . . . . . . . . . . . . . . . . . . . . . . . . 32
7.2. Regresiones Mlogit . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2
1. Introducción
La educación es un factor decisivo en la determinación de los ingresos futuros
de las personas. En Chile, en particular, la enseñanza universitaria es la que
genera los mayores retornos.1 Con esto en mente, se ha desarrollado un debate
sobre opciones para mejorar la eficacia y la eficiencia en la entrega de educación.
El objetivo de este trabajo es analizar, actualizar y mejorar el trabajo desar-
rollado por Contreras(2001), el cual hace un análisis al sistema educacional en
Chile. Este sistema está compuesto por establecimientos que reciben sus ingre-
sos de distintas fuentes; siendo éstos municipales, particulares subvencionados,
y particulares pagados. Este sistema fue introducido en 1982 y está caracteri-
zado por una subvención por alumno o voucher para los colegios municipales y
particulares subvencionados.
El trabajo de Contreras(2001) es un outlier en literatura nacional, ya que
es el primero en utilizar una prueba de selección universitaria para evaluar el
desempeño de los colegios. Este autor obtiene resultados relativos a la eficacia
de los colegios subvencionados cuyas magnitudes son bastante superiores a las
existentes en la literatura nacional. Esta tesis es un aporte a la discusión ya que
evalúa las causas de la diferencia del trabajo de Contreras con el resto de las
investigaciones nacionales.
Para examinar el trabajo de Contreras(2001) repetiremos sus estimaciones
utilizando la Prueba de Selección Universitaria (PSU). En primer lugar, se
evalúan los datos a utilizar y, luego, dos metodologı́as de estimación: la utiliza-
da por Contreras(2001) y la usada por Tokman(2002). Finalmente se comparan
distintas variables de exclusión.
Este trabajo se divide de la siguiente manera. En la sección 2 se realiza una
breve revisión de la literatura nacional. En la sección 3 se describen los datos.
En la sección 4 se desarrollan los modelos a utilizar. En la sección 5 se presentan
y discuten los resultados. Finalmente, en la sección 6 se concluye.
2. Revisión Literaria
En Chile se ha desarrollado un debate respecto a las variables que explican el
buen rendimiento de los colegios, y sus alumnos, en las pruebas estandarizadas.
1 Esto se encuentra ampliamente documentado en la literatura nacional. Algunos ejemplos
son Sapelli (2003), Bravo y Marinovic (1997), Benavente, Meller y Rappoport (2004), y Beber
(2001)
3
A continuación, realizamos una breve revisión de la literatura reciente.
Mizala & Romaguera (2000a), evalúan el sistema de vouchers de Chile. Uti-
lizando la prueba SIMCE rendida por los alumnos de 4to año básico en 1996.
Controlan la producción de la educación por medio de variables socioeconómi-
cas, caracterı́sticas de los alumnos del colegio, y de desempeño pasado del colegio
en las pruebas SIMCE. Concluyendo que la diferencia de eficiencia entre colegios
municipales y subvencionados es pequeña o inexistente, al ser mucho menor a
lo que sugieren los análisis basados en los promedios ponderados.
Las mismas autoras, Mizala & Romaguera (2000b), utilizan datos de alum-
nos de 2do año de enseñanza media del SIMCE 1998. Estiman una función de
producción para establecimientos de enseñanza media y realizan estimaciones
a nivel de alumnos, incluyendo variables de contexto, socioeconómica y carac-
terı́sticas del alumno y del establecimiento.
Concluyen que los alumnos que se educaron en colegios municipales, tienen
menores resultados en el SIMCE que sus pares de iguales caracterı́sticas que
accedieron a colegios subvencionados.
En los trabajos recién expuestos los coeficientes estimados podrı́an estar
sesgados, ya que Mizala & Romaguera (2000a y 2000b) no corrigen el problema
de la endogeneidad en la selección de colegios por parte de los individuos.
Tokman (2002), realiza un análisis con los datos del SIMCE 1996 de 4to
básico. La autora, controla por sesgo de selección realizando regresiones y cor-
rigiendo sesgo de selección por medio de la metodologı́a desarrollada por Heck-
man(1979), para cada muestra, agregando no sólo el efecto aditivo y multiplica-
tivo al efecto de tratamiento de los tratados (TT), sino que también agregando
efectos diferenciales para distintas caracterı́sticas de los colegios. Siendo ası́ las
variables de exclusión utilizadas para corregir la endogeneidad, las caracterı́sti-
cas socioeconómicas de las familias de los alumnos. El trabajo concluye que los
colegios municipales suelen ser relativamente más eficientes en la educación de
alumnos de menores ingresos.
Sapelli & Vial (2002), usan la misma base de datos de Mizala & Romaguera
(2000b) para evaluar el sistema de vouchers considerando las diferencias en los
ingresos de los colegios, separados por áreas geográficas, y tomando en consid-
eración las diferencias de ingresos. Utilizan el modelo de Roy generalizado para
caracterizar el proceso de autoselección según el tipo de colegio. Controlando
de manera parcial la oferta de la educación e incluyendo en sus estimaciones las
transferencias del gobierno a los colegios municipales.
Estiman el efecto de tratamiento promedio (Average treatment effect, ATE)
4
y el efecto de tratamiento de los tratados (TT)2 , descubriendo ganancias aso-
ciadas al asistir a colegios subvencionados. Como variable de exclusión para
corregir el sesgo de selección, los autores utilizan el número de colegios sub-
vencionados y municipales por kilómetro cuadrado, y el ratio entre alumnos
de colegios subvencionados y alumnos en colegios subvencionados más munici-
pales. De esta manera, los autores asumen que además del nivel de ingresos y
educación de los padres, la elección de colegio depende de la disponibilidad de
colegios en área geográfica.
Ambos autores, Sapelli & Vial (2004), realizan un análisis similar al hecho el
año 2002 utilizando una base de datos individual de estudiantes de 4to básico que
rindieron el SIMCE 2002. Concentran su estudio en colegios que reciben bajos
aportes económicos por parte de los padres. Ası́, encuentran un efecto de los
tratamiento de los tratados positivo, grande en magnitud y significativo. Como
variable de exclusión para corregir el sesgo de selección, los autores utilizan
dos indicadores del ratio resultados de prueba SIMCE y costo del colegio de
esa área geográfica, desarrollando una serie para establecimientos municipales
y otra para colegios subvencionados, siendo su idea el tener un proxy del costo
de una unidad de prueba SIMCE.
Este segundo enfoque asume que la selección del establecimiento por parte
de los padres de los educandos y tiene relación con la productividad media del
dinero invertido en educación. Viendo los resultados, los signos de la ecuación
de selección son los esperados, donde al disminuir (aumentar) el costo medio de
la educación subvencionada (municipal), aumenta (disminuye) la posibilidad de
ingresar a un colegio subvencionado (municipal). El estudio también evidencia
que las mujeres obtienen mejores resultados en el SIMCE, comparados con sus
pares de distinto género.
Un enfoque distinto es desarrollado por Contreras, Bustos & Sepúlveda
(2007) al emplear el SIMCE 2005 para 4to año básico, con datos individuales.
Utilizan variables de contexto, socioeconómicas, caracterı́sticas del colegio y de
los profesores para explicar los resultados en la prueba SIMCE. Para controlar
la endogeneidad del colegio de origen utilizan variables instrumentales. Como
variables de exclusión consideran si los colegios seleccionan a sus educandos y
el origen socioeconómico de los alumnos para estimar la endogeneidad en la
elección de tipo de establecimiento (IV/LATE). Los autores concluyen una vez
considerado el factor de selección del colegio y origen socioeconómico, la difer-
2 Utilizan la metodologı́a propuesta por Heckman, Tobias & Vytlacil (2000) para la esti-
5
encia de productividad entre los colegios se acaba, sugiriendo que la diferencia
de puntajes en el SIMCE, es atribuible al sistema de selección de los colegios.
Contreras et al. no explı́cita el origen de los sistemas de selección utilizados,
punto clave en el análisis, ya que éstos podrı́an ser endógenos a la calidad de los
colegios.
La diferencia de los enfoques de Sapelli & Vial y Contreras et al.(2007)
lleva a conclusiones distintas. Sapelli & Vial asumen que la elección de colegio
se da por los padres y la metodologı́a utilizada para corregir la endogeneidad
consiste en la probabilidad de estar en un grupo u otro. Mientras que Contreras
et al(2007) asumen que los colegios son los que seleccionan alumnos y utilizan
variables instrumentales para corregir la endogeneidad.
Un trabajo outlier en la literatura nacional, tanto por la variable a explicar,
como por sus resultados, es el de Contreras (2001). El autor evalúa el desempeño
de los alumnos en la Prueba de Aptitud Académica (PAA). La PAA, es una
prueba rendida de manera voluntaria por los alumnos al finalizar la educación
escolar media y es el instrumento principal del sistema de selección universitario
chileno. Contreras en una primera etapa desarrolla un modelo OLS y encuen-
tra que el asistir a un colegio particular subvencionado, no implica un aumento
en los puntajes obtenidos en la PAA. Luego, con un set de caracterı́sticas in-
dividuales del alumno y variables del establecimiento (variables de contexto y
origen socioeconómico) controla la endogeneidad en la elección del establec-
imiento de los estudiantes. Esto lo realiza a través de Mı́nimos Cuadrados en
dos Etapas (TSLS) o (IV/LATE), encontrando diferencias significativas entre
colegios municipales y subvencionados. Además manifiesta que las caracterı́sti-
cas de contexto y origen disminuyen su impacto en la PAA, una vez controlada
la endogeneidad causada por el colegio de origen, siendo estos factores decisivos
en la elección de colegio. Contreras, también encuentra evidencia que indica que
los resultados de las mujeres en la PAA son inferiores al de los hombres.
6
Cuadro 1: Resumen Resultados Literatura
3. Datos
Contamos con los datos SIMCE del año 2003 por establecimiento, el cual fue
rendido por 239.195 alumnos de 2do año de enseñanza media en 2.117 colegios
de Chile.
7
El SIMCE fue rendido de manera obligatoria por todos los estudiantes que se
encontraban en segundo medio en Chile. Contamos con los puntajes de la prueba
de lenguaje y la prueba de matemáticas SIMCE por colegio; promediamos ambos
puntajes y de esta manera obtendremos el promedio del SIMCE por colegio.
8
Cuadro 3: Cuadro de Correlaciones
Variables NEM PSU SIMCE MeanNEM nemst
NEM 1.000
PSU 0.547 1.000
SIMCE 0.216 0.639 1.000
MeanNEM 0.445 0.352 0.485 1.000
nemst 0.885 0.451 -0.000 0.000 1.000
gios de elite tener notas más altas es justo y más informativo ya que se reflejan las habilidades
superiores de sus alumnos comparados con el resto” en Chan, Hao & Suen. “A signaling
Theory of Grade inflation”
9
una variable de desempeño escolar basada en las notas de enseñanza media es-
tandarizadas (NEMST). En la tabla de correlaciones vemos que NEMST no esta
correlacionada con SIMCE o MeanNEM, pero si con las NEM y con la PSU.
4. Modelo
Deseamos replicar y evaluar el trabajo de Contreras(2001), en el cual se
evalúan las variables que explican el desempeño de los alumnos en la prueba
de selección PAA, considerando que es necesario controlar la endogeneidad ex-
istente en el colegio de origen de los estudiantes.
Contreras en su trabajo pretende explicar el rendimiento de los alumnos en
las pruebas de selección universitaria, en este caso usaremos la PSU, utilizando
como variables explicativas las caracterı́sticas académicas y variables de contexto
de los alumnos, educación de los padres y variables de origen del establecimiento.
Al evaluar los puntajes PSU obtenidos por los distintos tipos de colegios,
consideramos que existe un proceso de selección o elección en el tipo de colegio
en el cual se encuentran los alumnos. Este proceso tendrı́a relación con carac-
terı́sticas del alumno que no son directamente observables, ya que los estudiantes
son admitidos o matriculados en los colegios de una manera no aleatoria.
Realizar regresiones OLS sobre una muestra seleccionada de manera no
aleatoria generarı́a coeficientes que estarı́an sesgados. Para solucionar este prob-
lema utilizaremos dos metodologı́as; la primera es la utilización de Variables
Instrumentales (IV) en un proceso de dos etapas TSLS, al igual que Contr-
eras(2001). La segunda metodologı́a es la desarrollada por Heckman (1979), la
cual también es utilizada por Tokman (2002).
Es importante hacer hincapié, que no controlaremos por factores de eficiencia
en la oferta como lo hace Sapelli & Vial (2004) o por factores como el los sistemas
de selección de los colegios como lo poseen Contreras et al. (2007).
Utilizaremos dos variables exclusión para corregir la endogeneidad en la elec-
ción del tipo de colegio. Éstas deben tener la caracterı́stica de no influir en la
variable explicada, pero si ser relevantes en la modelación de la elección de cole-
gio. La primera variable a utilizar es el “Número de integrantes de la familia”,
lo cual serı́a similar a utilizar como variable de exclusión al “Numero de her-
manos”, la que fue usada por Heckman et al (2002), esto bajo la premisa que a
mayor “Numero de hermanos”, mayor es la probabilidad de que los padres ma-
triculen al hijo en un colegio municipal. Una segunda variable de exclusión es
10
“Porcentaje de alumnos en colegios Subvencionados” y “Porcentaje de alumnos
en colegios Municipales”, esto siguiendo el ejemplo de Sapelli & Vial (2002). Es-
ta variable hace referencia al porcentaje de alumnos de cierto tipo de colegio por
comuna, con lo cual existirı́an mayores posibilidades de incorporar a un alum-
no a un colegio subvencionado, si existe una mayor oferta de establecimientos
subvencionados en la comuna de residencia del alumno. 8
De esta manera tendrı́amos dos variables de exclusión, una de demanda (in-
tegrantes en la familia) y una de oferta ( proporción de colegios subvencionados),
las cuales serán evaluadas en la próxima sección del trabajo.
En una primera etapa realizamos los Mlogit para las Dummy de tipo de
colegio utilizando las variables de elección. Luego obtenemos las probabilidades
de ser de un tipo de colegio u otro e integramos estas probabilidades a las
regresiones completando el TSLS. Las tablas con los resultados del Mlogit se
encuentran en el anexo.
8 Se define la variable como Por Suv = (Nro Alumnos Colegio Subv / Nro Total alumnos
11
Cuadro 4: IV/ TSLS
1 2 3
Muestra Completa Muestra Sin P. Pagados
OLS TSLS TSLS
Coef./se Coef./se Coef./se
nemst 48.044 48.192 46.373
(.240) (.243) (.262)
Pr(d suv==1) 10.826 –22.383 –16.629
(.534) (1.289) (1.279)
Pr(d pp==1) 68.248 83.595
(1.011) (2.648)
edu padre sin –25.799 –29.302 –29.071
(3.197) (3.239) (3.282)
edu padre basica in –17.909 –20.844 –19.701
(1.034) (1.053) (1.062)
edu padre basica –14.640 –16.501 –15.439
(1.034) (1.050) (1.062)
edu padre media in –8.042 –8.683 –7.972
(.833) (.846) (.857)
edu padre tecnica in 17.556 19.107 22.231
(2.507) (2.538) (2.704)
edu padre tecnica 14.202 16.521 19.718
(1.149) (1.166) (1.259)
edu padre univ 16.280 14.575 22.632
(.866) (.885) (1.027)
edu padre univ in 20.558 19.977 26.806
(1.177) (1.193) (1.334)
edu padre otro 1.900 2.023 5.336
(1.696) (1.719) (1.947)
edu madre sin –33.329 –37.774 –37.108
(4.408) (4.465) (4.547)
edu madre basica in –28.378 –32.460 –31.164
(1.021) (1.048) (1.056)
edu madre basica –21.540 –23.972 –23.089
(1.002) (1.022) (1.032)
edu madre media in –13.129 –13.837 –13.628
(.778) (.793) (.802)
edu madre tecnica in 17.779 18.934 20.106
(2.486) (2.517) (2.711)
edu madre tecnica 16.023 17.109 21.805
(1.026) (1.043) (1.154)
edu madre univ 20.080 18.014 24.086
(.886) (.908) (1.067)
edu madre univ in 18.606 17.044 23.908
(1.360) (1.383) (1.632)
edu madre otro 5.300 4.318 8.297
(1.904) (1.932) (2.250)
Ingreso 1 18.081 20.794 19.834
(6.025) (6.102) (6.484)
Ingreso 2 42.425 48.212 47.562
(6.031) (6.107) (6.496)
Ingreso 3 58.134 53.519 66.480
(6.098) (6.216) (6.614)
Ingreso 4 66.668 52.114 75.621
(6.221) (6.425) (7.074)
Ingreso 5 71.315 52.330 73.884
(6.310) (6.560) (7.780)
Ingreso 6 89.425 67.146 76.611
(6.224) (6.516) (7.883)
genero –21.733 –21.141 –20.138
(.478) (.484) (.524)
Constant 458.512 471.281 467.575
(6.019) ( (6.128) (6.503)
Adj. R2 .470 .457 .359
No. of cases 105126 105126 90676
12
En el Cuadro 4 se entregan los resultados de los TSLS. En la primera columna
se entregan los resultados de un OLS. En la segunda columna se entregan los
resultados del TSLS. En las columna 3 se entregan resultados para los TSLS
para una muestra sin colegios particulares pagados.
En el OLS podemos ver que la Dummy de colegios subvencionado es positiva
y estadı́sticamente significativa. Obtenemos un valor parecido al de Contreras
(2001) Cuadro 9, pero significativo. Luego realizamos el TSLS corrigiendo la
endogeneidad de tipo de colegio y vemos que el valor de las Dummy de colegio
subvencionado disminuye llegando a ser -22 para la muestra completa y -16 al
eliminar a los colegios particulares pagados. Estos resultados son muy distin-
tos a los presentados por Contreras(2001), lo cual será evaluado en secciones
posteriores. Para evaluar una diferente metodologı́a, en la siguiente sección de-
sarrollamos regresiones a la Heckman.
Di = 1 si Di = αi ∗ Z > 0; D = 0 (1)
13
Con i =1,2,3 = Tipo de Colegio(PP, Subv, Mun).
Utilizando en los tres casos al número de integrantes en la familia y la pro-
porción de alumnos de colegios subvencionados y municipales por comuna como
variables de exclusión .
1 2 3 4 5
Muestra Completa Muestra sin P.Pagados
14
Cuadro 5
Continuación
Muestra Completa Muestra sin P.Pagados
15
Cuadro 5
Continuación
Muestra Completa Muestra sin P.Pagados
16
Al comparar los colegios vemos que las familias que inscriben a sus hijos
en establecimientos particulares pagados tienen diferencias fundamentales con
las familias que inscriben a sus hijos en los otros dos tipos de colegios, munici-
pales y subvencionados. Entonces, para evaluar de forma más limpia el sistema
de “vouchers” en el sistema educacional chileno, se excluyen los colegios par-
ticulares pagados del análisis. De esta manera obtendrı́amos valores que son
comparables a los obtenidos bajo estimaciones tipo IV/LATE.
Para evaluar el efecto de tratamiento promedio (ATE) estimaremos la difer-
encia entre los coeficientes, por el promedio de las variables explicativas:
AT Ei = E(4)=X(βi - βj )
P
ATE = 1/n i X(βi - βj )
Conj 6= i
Realizamos regresiones a las ecuaciones (1) y (2) para colegios subvenciona-
dos y municipales. Ası́, obtenemos las desviaciones estándares del ATE y TT
por medio de bootstrapping no paramétrico utilizando 1000 muestras.
Vemos en el Cuadro 6 que el ATE y TT son -14.78 y -16.09 respectivamente,
siendo los resultados estadı́sticamente significativos al 1 %.
Se advierte que los puntajes PSU parte de los colegios municipales es superior
a la de los colegios subvencionados, lo cual implicarı́a que los colegios municipales
serı́an más eficaces en la producción de puntajes PSU.
17
Evaluamos el cambio definiendo la matriz Z como:
• Z=X+ Variables de exclusión verdaderas + variables de exclusión evalu-
adas.
Al evaluar las variables de exclusión una a una, podemos ver en la fila (2)
que Pmun es una variable de exclusión válida. En la fila (3) vemos que podemos
prescindir de Psuv como variable de exclusión, una vez incluida Pmun. 10 En la
fila (4) vemos que N.familia no es una variable de exclusión valida.
Debemos recordar que el test de Hausman no es concluyente, ya que debe
asumir que las otras variables de exclusión son verdaderas y se basa en criterios
asintóticos que pueden no ser adecuados en este caso particular, pero nos entrega
una idea de la utilidad de las variables de exclusión. Continuaremos el trabajo
considerando todas las variables de exclusión como válidas.
9 Esto para que puedan hacer las regresiones corrigiendo sesgo de selección. Esta información
lógica, ya que Pmun es el complemento de Psuv. Incluir Psuv implicarı́a incluir la misma
información dos veces, ya que P mun = 1 − P suv.
18
5. Discusión de los resultados
Una vez obtenidos los resultados del LATE, ATE y TT, cabe preguntarse él
por qué de las diferencias con los resultados de la literatura nacional. Obtuvimos
LATE, ATE y TT en torno a -16, lo que es muy distinto a lo obtenido por otros
autores en la literatura nacional, donde los LATE, ATE y TT tienden a ser
positivos. En una primera etapa se explicaran las diferencias de este trabajo
con la literatura nacional y en una segunda las diferencias con el trabajo de
Contreras (2001).
19
SIMCE y proporción de alumnos que rinden la PSU PSU y proporción de alumnos que rinden la PSU
700
350
600
300
500
SIMCE
PSU
250
400
200
300
150
0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
Proporción alumnos que rinden la PSU por colegio Proporción alumnos que rinden la PSU por colegio
Figura 1: Figura 2:
En la Figura (1) evidenciamos que existe una correlación, entre los puntajes
promedios del SIMCE por colegio y la proporción de los alumnos de los colegios
que rinden la PSU. Se observa una relación entre la calidad de los colegios, me-
dida en SIMCE, y la proporción de alumnos que da la PSU. Siendo que a mayor
calidad de un colegio, mayor es la cantidad de alumnos que rinden la prueba de
selección universitaria. Esto evidencia que existe un proceso de autoselección de
los estudiantes que rinden la PSU donde los alumnos provenientes de colegios
de menor calidad, tienden en menor proporción a rendir la prueba.
La relación entre la PSU promedio por colegio y la proporción de alumnos
chilenos de establecimientos que rindió la PSU, la podemos presenciar en la
Figura (2), siendo esta correlación similar a la evidenciada en el SIMCE. De
este modo, los alumnos de colegios que tienen menores puntaje de PSU, tendrán
menos estudiantes rindiendo la prueba.
Este problema se acentúa, al evaluar las proporciones de alumnos que no dan
la PSU según tipo de colegios. En las Figuras (3) y (4) realizamos histogramas
de la proporción de estudiantes que rinden la PSU, según tipo de colegio. Se
evidencia que es importante la proporción de estudiantes de colegios municipales
que no es examinado por la PSU.
20
Histograma proporción alumnos que rinde la PSU Histograma proporción alumnos que rinde la PSU
Proporción de alumnos que rinden la PSU de colegios Subvencionados Proporción de alumnos que rinden la PSU de colegios Municipales
2
2
1.5
1.5
Densidad
Densidad
1
1
.5
.5
0
0
0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
Proporción alumnos que rinde la PSU por colegio Proporción alumnos que rinde la PSU por colegio
Figura 3: Figura 4:
OLS generalizado dando más peso a los alumnos cuyos colegios están sub-representados. Una
segunda forma de resolver el problema, es generar alumnos representativos por colegio, y
repetirlos la cantidad de veces que sea necesario para poder obtener la representatividad real
de los alumnos que estudiaron en estos establecimientos. (Esta solución tienen la ventaja de
que dejarı́a los datos aptos para ser evaluados con metodologı́as que corrijan la endogeneidad
en la elección de colegio, tipo Heckits, IV, Matching etc.)
21
sobre todos los estudiantes, incluidos los que no rindieron la PSU, información
con la que no contamos en este trabajo.
Al no poder corregir la autoselección de los alumnos en la PSU, en este
trabajo no se pueden generar conclusiones insesgadas para toda la población
estudiantil o sistema educacional chileno, por lo cual su injerencia se atañe sólo
a los alumnos examinados, es decir, sólo los alumnos que son examinados por
la PSU. Dado lo anterior, los resultados de este trabajo estarı́an sesgados por el
sesgo de selección presente en la PSU. Esta limitación también la tiene el trabajo
de Contreras(2001), el cual ocupa la Prueba de Aptitud Académica (PAA).
Cualquier estudio que no controle el sesgo de selección en la PSU presentara
resultados sesgados. En consecuencia el trabajo desarrollado en esta tesis, al
igual que el de Contreras(2001) no cumple el objetivo de evaluar el sistema de
vouchers en Chile, y los resultados de las estimaciones no pueden ser utilizados
para fundamentar polı́ticas públicas.
22
subvencionados o particulares pagados.14 La diferencia de resultados podrı́a ser
argumentada en base a un cambio estructural en la educación chilena. Este ar-
gumento pierde fuerza debido a que no se apreciarı́an cambios importantes en
la estructura de la educación recibida por parte de los alumnos.15
Como se menciono anteriormente, obtuvimos LATE, ATE y TT en torno a
-16 . Este resultado está en lı́nea con lo expuesto por Heckman et al (2000),
un LATE levemente distinto a un ATE cuando las variables de exclusión son
las mismas. Ahora bien, las diferencias expuestas por Heckman et al(2000) en
ningún caso son comparables a las diferencias vistas en los resultados de este
trabajo con el de Contreras(2001), y menos explicarı́an un cambio de signo y
las diferencias de magnitud entre los resultados.
Heckman et al. (2000) comentan que las diferencias en los resultados de las
distintas metodologı́as de estimación aumentarán en la medida que la selección
de los modelos, sea más importante. Será la selectividad y la forma de corregirla
por medio de las variables de exclusión una fuente de diferencias, entre este
estudio y el de Contreras(2001).
Las variables de exclusión utilizadas por Contreras(2001) son variables Dum-
my (si hay o no un colegio subvencionado o particular pagado en la comuna).
Cabe señalar que estas variables de exclusión son en extremo simples y entregan
información limitada al sistema de elección de colegios.
Como las diferencias de estimación no parecen ser desde el punto de vista
teórico, éstas podrı́an provenir de (1) la diferencia en las pruebas, (2) un cambio
estructural en la educación, (3) la muestra de los alumnos analizados o (4) las
variables de exclusión usadas.
Con el objetivo de comparar las variables de exclusión tanto de Contreras
(2001) como de este trabajo a continuación desarrollamos un TSLS, utilizando
las variables de exclusion utilizadas por Contreras (2001).
superior, estos son alumnos que (1) se auto seleccionaron y esperan obtener un buen resultado
en la prueba (2) pudieron haberse preparado en un instituto o preuniversitario. Ambos puntos
harı́an que la inclusión de estos individuos en el análisis generarán resultados sesgados, tanto
por un efecto de sesgo de selección, como porque no se estarı́an evaluando la calidad de los
colegios, ya que existirı́a un input incontrolable en la educación de los estudiantes.
15 De existir un cambio, este deberı́a haber sido nota por estudios anteriores, basados en la
prueba SIMCE.
23
Proporción de colegios particulares pagados en la comuna
En una primera etapa estimamos modelos Mlogit para las Dummy de tipo de
colegio, utilizando las variables de elección de Contreras (2001). Luego, obten-
emos las probabilidades de ser de un tipo de colegio u otro y las integramos a
las regresiones, de modo de completar el TSLS. Finalmente, comparamos estos
resultados con los obtenidos en la sección 4.1.
De los resultados de los Mlogit, se desprende que, en ambos, las variables
de exclusión son significativas y con los signos esperados. Al evaluar los Log
likelihood se encuentra que el MLogit utilizando las variables de exclusión prop-
uestas por Contreras (MLogit Contreras) tiene una Log likelihood -56496.696 y
el Mlogit usando variables de exclusión propuestas por Sapelli & Vial (Mlogit
S&V) tiene una Log likelihood -50265.592, al ser el segundo más cercano a cero,
deberı́amos preferir esta especificación.16
En la Figura 6 se grafican las probabilidades, obtenidas de los Mlogit, de
estar en colegio subvencionado. En color rojo se encuentra la probabilidad de
estar en colegio subvencionado proveniente del MLogit Contreras y en azul del
Mlogit S&V. Estas probabilidades fueron calculadas en una muestra sin alum-
nos de colegio particular pagado (Cuadro 8, regresiones columnas 4 y 5). Vemos
que la distribución de las probabilidades con las variables de exclusión propues-
tas por Contreras están agrupadas en torno a 0.6, no ası́ la distribución de las
variables de exclusión propuestas por Sapelli & Vial, la cual es más uniforme.
Al evaluar las diferencias entre ambas distribuciones se puede presenciar que
Contreras encuentra que hay alumnos que con probabilidad 0 irán a un colegio
subvencionado, lo que es correcto; pero no tiene alumnos con probabilidad entre
0 y 0.22, o con probabilidad mayor a 0.9. Esta no continuidad en la distribución
de probabilidades es difı́cil de justificar, lo que nos hace pensar que es un prob-
lema de especificación. La correlación de ambas probabilidades es de 0.682. Las
diferencias entre ambas probabilidades es importante.
Para evaluar el efecto de estas probabilidades realizamos a continuación las
regresiones. Los resultados de las regresiones son entregados en el Cuadro (8),
donde se incluyen los resultados de la sección 4.1.
16 Se intentó además realizar regresiones tipo Heckman con las variables de exclusión prop-
uestas por Contreras, pero las ecuaciones de selección no convergı́an debido a la no concavidad
de la función de Máxima-Verosimilitud
24
Histograma puntajes PSU segun año de egreso Probabilidad de los alumnos de ir a colegio subvencionado
(En azul egresados 2005, en rojo alumnos rezagados) (Rojo: Exclusión a lo Contreras, Azul: Exclusión a lo Sapelli)
.005
4
.004
3
.003
Density
Density
2
.002
1
.001
0
0
0 .2 .4 .6 .8 1
0 200 400 600 800 Pr(d_suv==1)
Figura 5: Figura 6:
En la primera columna del Cuadro (8) se entregan los resultados del OLS. En
la segunda columna se entrega un TSLS con variables de exclusión del Mlogit
Contreras, mientras que en la columna tres se muestran los resultados de un
TSLS con variables de exclusión del Mlogit S & V. En las columnas 4 y 5 se
entregan resultados para los TSLS para una muestra sin colegios particulares
pagados.
Al realizar el TSLS con las variables de exclusión del Mlogit Contreras, vemos
que la variable Dummy de colegios subvencionados es positiva y significativa,
condiciones que comparten con la variable dicotómica asociada a los colegios
particulares pagados. Para los TSLS Mlogit S & V obtenemos una dummy de
colegios subvencionados negativa y significativa. El uso de distintas variables de
exclusión generó en un caso un LATE positivo y en el otro caso un LATE negati-
vo. La diferencia en resultados obtenidos por la utilización de distintas
variables de exclusión es dramática, y lleva a conclusiones diametralmente
distintas.
Al revisar los resultados de las columnas (4) y (5), donde se eliminan los
colegios particulares pagados, vemos que los resultados se mantienen.
En el Cuadro (9) se resumen los resultados de este trabajo y el de Contreras
(2001), En la primera parte se entregan los resultados de Contreras(2001) para
la muestra de hombres en la prueba de matemáticas. Además se entregan los
resultados de este trabajo, primero para la muestra completa de los alumnos,
luego se entregan los resultados excluyendo del análisis a los alumnos de colegios
particulares pagados.
25
Cuadro 8: TSLS y variables de exclusión
1 2 3 4 5
Muestra Completa Muestra Sin P. Pagados
OLS TSLS-Contreras TSLS-Sapelli TSLS-Contreras TSLS-Sapelli
Coef./se Coef./se Coef./se Coef./se Coef./se
nemst 48.044 48.120 48.192 46.478 46.373
(.240) (.245) (.243) (.262) (.262)
Pr(d suv==1) 10.826 40.323 –22.383 49.310 –16.629
(.534) (2.322) (1.289) (2.285) (1.279)
Pr(d pp==1) 68.248 97.007 83.595
(1.011) (3.789) (2.648)
edu padre sin –25.799 –22.390 –29.302 –21.424 –29.071
(3.197) (3.262) (3.239) (3.284) (3.282)
edu padre basica in –17.909 –14.917 –20.844 –13.278 –19.701
(1.034) (1.073) (1.053) (1.077) (1.062)
edu padre basica –14.640 –12.442 –16.501 –10.825 –15.439
(1.034) (1.062) (1.050) (1.069) (1.062)
edu padre media in –8.042 –6.631 –8.683 –5.257 –7.972
(.833) (.853) (.846) (.859) (.857)
edu padre tecnica in 17.556 16.039 19.107 18.741 22.231
(2.507) (2.553) (2.538) (2.701) (2.704)
edu padre tecnica 14.202 12.287 16.521 14.874 19.718
(1.149) (1.179) (1.166) (1.264) (1.259)
edu padre univ 16.280 15.495 14.575 21.708 22.632
(.866) (.904) (.885) (1.026) (1.027)
edu padre univ in 20.558 19.882 19.977 25.722 26.806
(1.177) (1.202) (1.193) (1.332) (1.334)
edu padre otro 1.900 .581 2.023 2.333 5.336
(1.696) (1.729) (1.719) (1.946) (1.947)
edu madre sin –33.329 –29.289 –37.774 –27.958 –37.108
(4.408) (4.495) (4.465) (4.547) (4.547)
edu madre basica in –28.378 –24.018 –32.460 –21.849 –31.164
(1.021) (1.082) (1.048) (1.088) (1.056)
edu madre basica –21.540 –18.494 –23.972 –16.743 –23.089
(1.002) (1.039) (1.022) (1.046) (1.032)
edu madre media in –13.129 –11.269 –13.837 –10.070 –13.628
(.778) (.802) (.793) (.807) (.802)
edu madre tecnica in 17.779 16.789 18.934 17.578 20.106
(2.486) (2.530) (2.517) (2.707) (2.711)
edu madre tecnica 16.023 14.039 17.109 16.853 21.805
(1.026) (1.052) (1.043) (1.161) (1.154)
edu madre univ 20.080 19.289 18.014 23.233 24.086
(.886) (.932) (.908) (1.066) (1.067)
edu madre univ in 18.606 17.540 17.044 22.175 23.908
(1.360) (1.400) (1.383) (1.630) (1.632)
edu madre otro 5.300 3.986 4.318 5.719 8.297
(1.904) (1.946) (1.932) (2.247) (2.250)
Ingreso 1 18.081 19.369 20.794 19.954 19.834
(6.025) (6.137) (6.102) (6.474) (6.484)
Ingreso 2 42.425 38.087 48.212 36.372 47.562
(6.031) (6.146) (6.107) (6.494) (6.496)
Ingreso 3 58.134 49.496 53.519 48.443 66.480
(6.098) (6.299) (6.216) (6.624) (6.614)
Ingreso 4 66.668 56.322 52.114 53.840 75.621
(6.221) (6.647) (6.425) (7.090) (7.074)
Ingreso 5 71.315 60.707 52.330 53.295 73.884
(6.310) (6.862) (6.560) (7.790) (7.780)
Ingreso 6 89.425 78.561 67.146 58.708 76.611
(6.224) (6.894) (6.516) (7.887) (7.883)
genero –21.733 –22.247 –21.141 –21.521 –20.138
(.478) (.488) (.484) (.524) (.524)
Constant 458.512 442.613 471.281 435.598 467.575
(6.019) (6.215) (6.128) (6.557) (6.503)
Adj. R2 .470 .451 .457 .361 .359
No. of cases 105126 105126 105126 90676 90676
26
Cuadro 9: Comparación Resultados
Contreras (2001) * [
OLS PAA 1998 13.7 48.7
TSLS PAA 1998 89 130.3
Regresiones Actuales
Muestra Completa
OLS PSU 2006 10.8 68.2
TSLS Mlogit Contreras PSU 2006 40.3 97
TSLS Mlogit S & V PSU 2006 -22.4 83.5
Muestra Sin P.Pagados
Heckman PSU 2006 -14.8 -16.1
TSLS Mlogit Contreras PSU 2006 49.3
TSLS Mlogit S & V PSU 2006 -16.6
*Prueba Matemáticas
[ Hombres
27
El Mlogit Contreras usa una variable binaria si hay o no colegios subven-
cionados en la comuna y el TSLS Mlogit S & V usa una variable correspondiente
a la proporción de alumnos que van a colegios subvencionados en la comuna. En
un caso tenemos variables de exclusión que contienen menor información que en
el otro, generando fuertes alteraciones en los resultados.
Por todo lo expuesto, podemos concluir que la definición de las variables de
exclusión, y no el método de estimación, es la mayor la causante de las discrep-
ancias de este trabajo y el de Contreras (2001). Dejamos de lado, entonces, la
diferencia en las pruebas, un cambio estructural en la educación o problemas en
la muestra de los alumnos analizados, como fuentes primordiales de diferencias
de este trabajo con el de Contreras (2001).
Con respecto a estas diferencias, los Mlogit asignan probabilidades distintas
a los individuos en diferentes localidades. Esto generará LATEs distintos en
ambas estimaciones, entonces, cada LATE se referirá a alumnos con distintas
caracterı́sticas: evaluando localidades que pueden no ser las más adecuadas para
estudiar la eficacia del sistema de vouchers en Chile. En un caso podemos estar
evaluando alumnos que presentarı́an mejoras importantes por cambiarse de un
colegio municipal a uno subvencionado, y en el otro estamos evaluando alumnos
que tienen mejor desempeño en colegios municipalizados.
Encontrar distintas eficacias en la entrega de educación en localidades distin-
tas es algo presente en la literatura nacional. Al analizar el efecto del sistema de
vouchers, Tokman (2002) encuentra que los colegios municipales son eficientes
entregando educación a alumnos de estratos socioeconómicos más bajos.
Una desventaja de las regresiones realizadas por Contreras(2001), es que no
obtiene ecuaciones de producción distintas para cada tipo de establecimiento, lo
que le impide tener diferencias en pendiente y/o evaluar si un tipo de establec-
imiento es más eficaz al educar a un tipo de estudiante u a otro. 19 De este
modo, el autor sólo obtiene una diferencia promedio de productividades entre
ambos establecimientos (LATE) con la cual no puede estimar las diferencias en
la educación para subgrupos.
La distribución de las probabilidades obtenidas por el Mlogit-Contreras, el
cual usa variables de exclusión binarias, parece no ser la correcta. Esto, porque
la distribución no es contı́nua, lo que es muy difı́cil de argumentar. Se estarı́a
analizando ası́ una localidad que no es relevante o de interés para un estudio
que desea evaluar el universo completo de colegios subvencionados y munici-
pales. La elección de las variables de exclusión en el trabajo de Contreras (2001)
redundarı́a en la evaluación una localidad que no cumplirı́a los objetivos de su
estudio.
Además, nuestros resultados sugieren que la elección de las variables de ex-
clusión por parte de Contreras(2001) lleva a su estudio a concluir que los colegios
subvencionados son muy exitosos en la obtención de resultados en la PAA, más
que compensando el sesgo presente las pruebas de selección universitaria.
19 Mediante TSLS es posible evaluar cambios en las pendientes de producción mediante la
interacción de las variables (variables multiplicativas). Es entonces un problema de especifi-
cación y no de metodologı́a.
28
Del análisis descrito, podemos decir entonces que el sesgo de selección en la
PAA (PSU) y una deficiente elección de variables de exclusión lleva a Contreras
(2001) a entregar propuestas de polı́ticas públicas en el sentido correcto, pero
en base a evidencia equivocada.
29
6. Conclusiones
En este trabajo se analizó la investigación de Contreras (2001), la cual evalúa
la eficacia en la entrega de educación por parte de los colegios, utilizando la
PAA. Se compararon sus resultados con los obtenidos en la literatura nacional,
encontrándose que eran atı́picos. Éstos postulaban una mayor eficacia para los
colegios municipales, al contrario de lo que indica la evidencia disponible.
Este estudio replica y actualiza la metodologı́a de estimación utilizada por
dicho autor (usando la PSU), además de evaluar distintas variables de exclusión.
Adicionalmente, se compara lo anterior con las metodologı́a desarrollada en el
trabajo de Tokman (2002).
En una primera etapa se contraponen distintos métodos de estimación para
comparar el desempeño de colegios municipales y particulares subvencionados
de acuerdo a la PSU. En particular, se realizan dos tipos de regresiones; de
Mı́nimos Cuadrados en dos Etapas , y regresiones usando la metodologı́a de
Heckman (1979). Con ambos métodos se corrige la endogeneidad en la elección
de colegios.
Los resultados indican que las variables de exclusión, y no la metodologı́a de
estimación, son la fuente principal de diferencias en los resultados de este traba-
jo con el de Contreras (2001). Las distintas elecciones de variables de exclusión
pueden llevar a que estudios similares obtengan resultados diametralmente difer-
entes, lo podrı́a redundar en propuestas de polı́ticas públicas erróneas.
Por último, una debilidad que comparte este trabajo con el de Contreras
(2001) consiste en que no se pueden utilizar las pruebas de selección universitaria
para evaluar el desempeño de los establecimientos de todo el sistema, debido al
proceso de autoselección por parte de los alumnos que rinden la PSU (PAA).
Este sesgo generarı́a entonces resultados a favor de los colegios municipales. Ası́,
esta Tesis, al igual que el trabajo de Contreras (2001) analiza una muestra que
no representa al sistema de vouchers chileno completo.
30
Referencias
[1] Benavente J.M., Meller, P. y D. Rappoport, “Ranking de las Universidades
Chilenas según los Ingresos de sus Titulados ”, Documento de Trabajo No
306, Banco Central de Chile, Diciembre. Artı́culo en revision Economics
of Education Review (2004).
[2] Beyer, Harald, “Educación y desigualdad de ingresos: una nueva mirada ”,
Estudios Publicos n. 77 (2000).
[3] Bravo D. y A.Marinovic, “La educación en Chile: una mirada desde la
economia, Persona y sociedad, ”, Ilades, 155-165 (1997)
[4] Contreras, Dante “Evaluating a Voucher System in Chile. Individual, Fam-
ily and School Characteristics”, Working Paper No. 175, Facultad de Cien-
cias Económicas y Administrativas, Universidad de Chile, March (2001).
[5] Contreras, D., Bustos, S. y P. Sepulveda, “When schools are the ones that
choose: the effect of screening in Chile”, Series Documentos de Trabajo
del Departamento de Economia de la Universidad de Chile No 242, junio
(2007).
[6] Heckman, Jame, “Sample Selection Bias as a Specification Error”, Econo-
metrica, Econometric Society, vol. 47(1), pages 153-61, (1979)
[7] Heckman, J., J. Tobias & E. Vytlacil, “Simple Estimators Treatment Pa-
rameters in a latent variable framework with an application estimating the
returns to schooling”, NBER Working Paper 7950, (2000).
[8] Mizala, A., & Romaguera, P. , “School performance and choice”, Journal
of Human Resources, 35(2), 392-417. (2000a)
[9] Mizala, A., & Romaguera, P. , “Determinación de factores explicativos de
los resultados escolares en educación media en Chile”, Serie Economı́a No
85, Centro de Economı́a Aplicada, Departamento de Ingenierı́a Industrial,
Facultad de Ciencias Fı́sicas y Matemáticas, Universidad de Chile. (2000b)
[10] Sapelli, C. & Vial, B., “The performance of private and public schools in
the chilean voucher system”, Cuadernos de Economı́a, 39(118), 423-454.
(2002)
[11] Sapelli, C. & Vial,B., “Private vs public voucher schools in Chile: New
evidence on efficiency and peer effects”, Documento de trabajo N◦ 289,
Instituto de Economı́a, P. Universidad Católica de Chile (2004)
[12] Sapelli, Claudio (2003), “Ecuaciones de Mincer y las tasas de retorno a la
educación en en Chile: 1990-1998. ” Documento de Trabajo IE-PUC, N◦
254, (2003)
31
[13] Tokman, Andrea “Is Private Education Better? Evidence from Chile”,
Working Papers Central Bank of Chile, No. 147, Central Bank of Chile,
(2002).
7. Anexo
7.1. Tablas Descriptivas
32
Cuadro 11: MLOGIT y variables de exclusión
Mlogit Contreras Mlogit S & V
Selección Subv Selección PP Selección Subv Selección PP
Coef./se Coef./se Coef./se Coef./se
nemst .010 –.083 .002 –.077
(.007) (.013) (.007) (.013)
edu padre sin –.380 –.348 –.414 –.244
(.096) (.389) (.102) (.381)
edu padre basica in –.351 –.795 –.330 –.752
(.030) (.161) (.031) (.157)
edu padre basica –.229 –.605 –.221 –.584
(.029) (.122) (.031) (.123)
edu padre media in –.119 –.793 –.145 –.723
(.023) (.090) (.025) (.091)
edu padre tecnica in .190 .210 .244 .197
(.068) (.122) (.074) (.129)
edu padre tecnica .296 .113 .298 .229
(.032) (.053) (.034) (.055)
edu padre univ –.103 .569 –.045 .545
(.024) (.036) (.026) (.038)
edu padre univ in –.018 .427 .050 .417
(.032) (.051) (.035) (.054)
edu padre otro .092 .405 .118 .363
(.047) (.070) (.050) (.075)
edu madre sin –.627 .329 –.611 .320
(.131) (.419) (.141) (.412)
edu madre basica in –.514 –1.096 –.513 –1.096
(.029) (.166) (.031) (.164)
edu madre basica –.314 –.919 –.305 –.914
(.028) (.122) (.030) (.123)
edu madre media in –.132 –1.034 –.133 –.934
(.021) (.081) (.023) (.082)
edu madre tecnica in .148 .139 .220 .138
(.068) (.118) (.073) (.122)
edu madre tecnica .185 .335 .253 .330
(.028) (.045) (.030) (.047)
edu madre univ –.155 .591 –.016 .518
(.025) (.035) (.027) (.037)
edu madre univ in –.085 .631 .052 .527
(.038) (.055) (.041) (.058)
edu madre otro –.017 .549 .062 .441
(.053) (.075) (.058) (.081)
Ingreso 1 .249 –1.360 .467 –1.395
(.160) (.257) (.180) (.272)
Ingreso 2 .745 .389 1.001 .380
(.160) (.254) (.181) (.270)
Ingreso 3 .057 1.998 .413 1.900
(.162) (.255) (.182) (.271)
Ingreso 4 –.784 3.029 –.389 2.824
(.166) (.258) (.187) (.274)
Ingreso 5 –1.383 3.670 –.824 3.276
(.173) (.262) (.194) (.278)
Ingreso 6 –2.089 4.421 –1.245 3.606
(.174) (.263) (.195) (.278)
n c grupo familiar –.012 –.152 –.005 –.141
(.003) (.007) (.004) (.007)
ddsuv 20.339 –1.350
(.160) (.171)
ddpp –.428 4.403
(.018) (.194)
genero .084 –.011 .130 –.065
(.013) (.025) (.014) (.027)
psuv 7.185 –7.028
(1.257) (2.271)
pmun 2.752 –6.280
(1.254) (2.268)
ppp 1.917 –2.064
(1.251) (2.254)
Constant –20.202 –5.016 –5.110 3.920
(.000) 33
(.336) (1.265) (2.278)
No. of cases 105126 105126 105126 105126