Академический Документы
Профессиональный Документы
Культура Документы
r
de la Reforma Educativa en Amrica Latina y el Caribe
Partnership for Educational Revitalization in the Americas
Grupo de Trabajo
sobre Estndares y Evaluacin
Richard Wolfe
Abril 2007
Cuestiones tcnicas que condicionan las interpretaciones de los datos generados por las
evaluaciones de logros de aprendizaje escolar en Amrica Latina
Richard Wolfe
Ontario Institute for Studies in Education of the University of Toronto, Canada
Resumen Ejecutivo
El Grupo de Trabajo sobre Estndares y Evaluacin del PREAL est convencido tanto de la importancia
de la evaluacin de los aprendizajes como de que la sostenibilidad de los sistemas de evaluacin depende
de que se aprovechen y maximicen los beneficios que ellos prometen a la poltica educativa. Desde el
inicio de sus actividades ha recomendado -entre otros cursos de accin- mejorar la calidad tcnica de
diversos aspectos de esos sistemas, en especial el diseo de los instrumentos de recoleccin de
informacin y los modos de procesar y reportar los resultados.
En esta oportunidad, se desea especificar de manera ms concreta algunos campos en los cuales es
particularmente urgente introducir esas mejoras tcnicas, a la luz de la creciente necesidad y
compromiso de los sistemas de contribuir al mejoramiento de la gestin educativa. Se trata de identificar
y describir los principales problemas que afectan la validez de las interpretaciones ms comunes de los
resultados obtenidos en las evaluaciones latinoamericanas.
Las cuestiones aqu seleccionadas para la discusin se derivan de la experiencia de quince o ms aos
que tiene el autor respecto a diversos programas de evaluacin nacional y regional en Amrica Latina.
Si bien es cierto que a lo largo de esos aos, los objetivos de las evaluaciones han ido reformulndose y
sus mtodos sofisticndose, contina siendo necesario clarificar sus fines y mejorar sus mtodos.
Entre los temas aqu tratados se encuentran: (a) el uso de procedimientos para mejorar la validez en el
diseo de los tems, las pruebas y los sistemas de pruebas; (b) la necesidad de asegurar la
comparabilidad de resultados a lo largo del tiempo; (c) mtodos para orientar el anlisis de los efectos
del contexto escolar; y (d) sugerencias sobre el anlisis y reporte de las escalas de rendimiento que
permitan mejorar la interpretacin y utilidad de los resultados. En cada caso, se detalla la importancia
de esos problemas para la interpretacin y uso correctos de los resultados. La parte final del documento
incluye algunas recomendaciones sobre cursos de accin a tomar para superar esos problemas.
interpretacin
uso
de
es
para
proyectos
regionales
internacionales.
Cierto es que
aos.
al Ministerio de Educacin.
Ministerios
de
Educacin
informacin
detallada
sobre
brindando
estudiantes,
progreso
certificacin
desaprobados o repitentes).
(aprobados,
Las tablas y -a
de
distintas
unidades,
tasas
de
y,
mejoramiento
supuestamente,
de
ste,
orientar
examinando
el
-por
1
Otro objetivo de algunas evaluaciones es
validez
sostenibilidad
de
polticas
validez
interpretabilidad
son
sistemas
de
administracin
responsabilizacin educativa.
Los puntajes
determinan
la
asignacin
de
de la escuela.
basndose
Para muchos
en
diferencias
no
2
como la oportunidad de aprender,
Si
la
calidad
mediciones
tcnica
de
anlisis
las
es
como
el nivel socioeconmico
absorban
especfica de malinterpretar un
generndose
pueden
de
este
modo
estadsticamente
llevar
sus
grandes
equivocaciones en la comprensin
y social.
dificultades
las
mencionados
las
e internacionales.
sectional),
ejemplo,
internacionales
escolares y prcticas.
Resultados
internacionales
manera sesgadas.
preocupante
ignorar
sobre
logros ms altos.
inferencias
que
afectan
derivadas
varios
por
de
hallazgos
en
este
texto
se
El hecho de que
los
resulten
currculos
de
alguna
Es particularmente
porque
los
pases
variables
La
omisin
de
3
niveles de expectativas de aprendizaje
tomada
aceptados
los
cambios
son
generalmente
relativamente pequeos.
Ello podra
articulada en
Estndares
los
para
ampliamente
Pruebas
(NCME) de 1999.
vlida real.
2. Marco terico
validez,
confiabilidad
comparabilidad.
estudiantes
Podemos
precisin
esta
calibracin y equiparacin.
Son
han
alcanzado
aplicar
con
los
estndares
currculo?
asignar
puntajes
para
resumirlos
es
estudiantes
la
posibilidad
de
confiar
en
las
aplicar
Incentivan a los
procesos
cognitivos
4
similares a aqullos que sugiere el currculo?
aplicacin,
Si
bien
la
minimizados y estimados..
la
es
necesario
calibracin
aplicar
no
puede
tcnicas
evitar
[Validity
of
Psychological
Responses
Scientific
Inquiry
and
into
Performances
Score
as
Meaning],
pueden
Los informes de
llegar
estudiantes
Es una
suficientes
Desde la
como
para
justificar
las
contenidos,
establecer
si
las
decisiones
sobre
individuos
(v.gr.,
5
Otra responsabilidad aun mayor consiste en
resultados
de
pruebas,
obtener
saben
se
encuentra
altamente
resulta
Por
Estudio
una
Matemticas
ejemplo,
frecuentemente
cuando
los
equivocada,
resultados
de
Internacional
y
de
la
Ciencias,
IEA
sobre
UNESCO
que
los
estudiantes
tienen
distintas
6
aplican diferencialmente de acuerdo a niveles
interpretacin
previos
estn
Por
ejemplo,
se
est
ambientes
de
de
logros,
podra
proporcionando
los
suceder
mejores
cuales
que
uso
de
evaluaciones
Comparabilidad
Anlisis
contexto
interpretacin
del
considerarse.
con
precisin
los
contenidos
curriculares.
con
sobre-interpretaciones
de
Ante lo
los
conocimientos
habilidades
de
los
3. Problemas y soluciones
del
diseo,
implementacin
Tampoco puede
7
comunicar procesos y conceptos matemticas
de seleccin mltiple.
de
en
aciertos)
cuanto
es
esencialmente
una
interpretacin
Adems de esto, el
procesos
para
irrelevantes
quizs
usados
grado
abiertas.
de
consistencia
que
se
tems individuales, y
Una posible alternativa al uso de un
de
8
tems y otros pueden responder a otros tems).
Capacidad
baja
precisin
en
la
determinacin
de
de
realizar
tareas
Poder
realizar
experimentos
actuales mediciones.
puntaje
determinacin
de
la
distribucin
la
de
las
diferentes
Aumentar
las
institucionales
evaluaciones
para
capacidades
preparar
mltiple.
La
experiencia
con
en
las
respuestas
las
Por lo tanto, el
por
estudiante,
esa visita.
9
equilibrarse
con
los beneficios
evaluacinmateriales,
un diseo de solo
reportes,
etc.
que
responda
cada
administraciones
factores asociados.
diferentes
El
200/5 tems,
Puede
niveles
En
de
teora,
cada
constituir
una
independiente.
precisin
forma
puede
muestra
Puede obtenerse
ms
alta
utilizando
formas.
Reducir
las
limitaciones
de
(utilizar
tems
fciles,
10
parte
del
profundidad
contenido)
(utilizar
en
tems
de
contenidos
respuestas,
pero
luego
los
experimentos, etc.)
5. Comparabilidad
Problema:
cambios,
pero
cambiamos
instrumentos de medicin!
los
Por un lado, el
Luego, la metodologa
que
aplique
tem).
de
hacer
muy
frecuentemente
Dado
equiparaciones
se
que
los
utilizan
se
resultados
para
ensear el currculo.
cuenta.
de
algunos
de
stos
para
aos
posteriores.
11
la escala de puntajes. En segundo lugar, tiene
aleatorias y
desconocidas
los
cambios
nuevo.
diseo
algunas
muestreo
variaciones.
decir,
tems
bsico
que
puede
han
tener
sido
usados
con
explcitamente
para
realizar
son
tareas
tcnicamente
muy
la
equiparacin.
necesidades de equiparacin y la
A fin de proveer un vnculo fuerte para las
disponibilidad
necesarios
Realizar
de
los
datos
para la equiparacin
las
equiparaciones
nivel.
Obtener
verificacin
juicios
12
contexto
Es
Esto es sumamente
La
13
en otras partes del mundo.
elementos,
posiblemente
mismo,
que
sea
el
cambio
en
conocimientos.
7. Anlisis e interpretacin de
logros
mayores interpretaciones.
Problema. Despus de una inversin enorme en
Soluciones. Adoptar una teora integral sobre el
completamente nuevo.
matemticas,
etc.)
inversin de tiempo.
ponderaciones
que
con
referencia
corresponden
a
los
desarrollo
matemticas,
tiempo
dedicado
nuevo
de
revisin,
puede
Por
haber
ejemplo,
una
tabla
en
de
conocimientos,
habilidades
intelectual.
de
la
escala
son
inicialmente
donde
de 0 y desviacin estndar de 1.
se
mida
el
aprendizaje
No son
14
La escala puede adquirir alguna significacin
Pero una
un currculo.
asociados,
caractersticas
de
los
inicial.
ofrecerse
una
interpretacin
mas
Soluciones.
Especficamente,
vocabulario,
palabras;
comunicacin, etc.
costos correspondientes.
decodificacin
de
Hay
no
que
tener
puede
expectativas
haber
muchos
15
probabilidad
dificultadporcentajes de aciertos
aadir
una
resultados.
discusin
Puede
de
los
de
producirse
400,
de
500,
650
responderlo
puntos
intermedios.
Es decir, el mapa
ordenamiento
dificultad
currculo.
del
por
grado
de
contenido
del
pblico,
puntajes
interpretaciones
curriculistas,
en
al
rendimiento
componentes de la materia.
probabilidad mayor.
se
componentes se concentren en
respuesta correcta.
son
El tem
en
cuanto
etc.)
especialmente
diferentes
fciles
Se
difciles.
16
tems y resultados que puedan ser
evaluacin
gran
escala
no
procedimiento
general
para
histogramas,
etc.,
variable
dependiente.
de una materia.
tems.
8. Conclusiones
Por lo general, no es factible
relacionar
rigurosa
con
aulas,
Debera
directas
importantes:
resultados
evitarse
de
manera
por
estratos,
tem
etc.
comparaciones
Se ha prestado
17
Validez. Puede incrementarse la validez de las
puntajes de la escala.
Esto
rotadas.
es
importantsimo,
pero
es
ya
caractersticas
de
la
enseanza
de
la
Es
de inferencias equivocadas.
milagroso.
evaluaciones
gran
escala
para
obtener
Puede