Вы находитесь на странице: 1из 20

Programa de P omocin

r
de la Reforma Educativa en Amrica Latina y el Caribe
Partnership for Educational Revitalization in the Americas

Grupo de Trabajo
sobre Estndares y Evaluacin

Cuestiones tcnicas que


condicionan las interpretaciones
de los datos generados por las
evaluaciones de logros de aprendizaje
escolar en Amrica Latina

Richard Wolfe
Abril 2007

Cuestiones tcnicas que condicionan las interpretaciones de los datos generados por las
evaluaciones de logros de aprendizaje escolar en Amrica Latina
Richard Wolfe
Ontario Institute for Studies in Education of the University of Toronto, Canada
Resumen Ejecutivo
El Grupo de Trabajo sobre Estndares y Evaluacin del PREAL est convencido tanto de la importancia
de la evaluacin de los aprendizajes como de que la sostenibilidad de los sistemas de evaluacin depende
de que se aprovechen y maximicen los beneficios que ellos prometen a la poltica educativa. Desde el
inicio de sus actividades ha recomendado -entre otros cursos de accin- mejorar la calidad tcnica de
diversos aspectos de esos sistemas, en especial el diseo de los instrumentos de recoleccin de
informacin y los modos de procesar y reportar los resultados.
En esta oportunidad, se desea especificar de manera ms concreta algunos campos en los cuales es
particularmente urgente introducir esas mejoras tcnicas, a la luz de la creciente necesidad y
compromiso de los sistemas de contribuir al mejoramiento de la gestin educativa. Se trata de identificar
y describir los principales problemas que afectan la validez de las interpretaciones ms comunes de los
resultados obtenidos en las evaluaciones latinoamericanas.
Las cuestiones aqu seleccionadas para la discusin se derivan de la experiencia de quince o ms aos
que tiene el autor respecto a diversos programas de evaluacin nacional y regional en Amrica Latina.
Si bien es cierto que a lo largo de esos aos, los objetivos de las evaluaciones han ido reformulndose y
sus mtodos sofisticndose, contina siendo necesario clarificar sus fines y mejorar sus mtodos.
Entre los temas aqu tratados se encuentran: (a) el uso de procedimientos para mejorar la validez en el
diseo de los tems, las pruebas y los sistemas de pruebas; (b) la necesidad de asegurar la
comparabilidad de resultados a lo largo del tiempo; (c) mtodos para orientar el anlisis de los efectos
del contexto escolar; y (d) sugerencias sobre el anlisis y reporte de las escalas de rendimiento que
permitan mejorar la interpretacin y utilidad de los resultados. En cada caso, se detalla la importancia
de esos problemas para la interpretacin y uso correctos de los resultados. La parte final del documento
incluye algunas recomendaciones sobre cursos de accin a tomar para superar esos problemas.

crecimiento, especialmente en lo referido a la


1. Introduccin

promocin, retencin y desercin.

El presente texto hace referencia al diseo,


implementacin,

interpretacin

uso

de

evaluaciones a gran escala del logro educativo


en Amrica Latina y si bien se encuentra
focalizado en las pruebas nacionales,

es

pertinente tanto para las evaluaciones nacionales


como

para

proyectos

regionales

internacionales.

Las evaluaciones de logros educativos aaden


informacin nueva e importante sobre la calidad
de los resultados educativos, mientras que las
estadsticas se refieren principalmente a las
cantidades de educacin.

Cierto es que

contabilizar la aprobacin y desaprobacin es un


aspecto de la calidad; sin embargo, las
estadsticas educativas tradicionales no brindan

En la mayora de los pases de la regin existe

evidencia sobre el contenido de los logros.

actualmente algn tipo de recoleccin peridica

Evidentemente, las evaluaciones de logros

de datos que utiliza pruebas educacionales

resultan siendo ms complicadas y costosas que

estandarizadas para proveer anlisis y reportes

la recoleccin y reporte de estadsticas, razn

sobre los niveles de aprendizaje escolar.

por la cual frecuentemente se realizan slo en

Histricamente, este trabajo se puede considerar

grados y materias seleccionados y no todos los

como una extensin del ejercicio ms tradicional

aos.

de reportar estadsticas educativas bajo la forma

educativas son realizadas por agencias externas

de extensas memorias anuales que producen los

al Ministerio de Educacin.

Ministerios

de

Educacin

informacin

detallada

sobre

brindando
estudiantes,

profesores y escuelas, agregados a nivel de


distritos, provincias, etc. En dichos documentos,
las variables que se analizan son muy simples:
grado, sexo, edad. Las medidas de resultados
generalmente se restringen a aspectos formales
de

progreso

certificacin

desaprobados o repitentes).

(aprobados,

Las tablas y -a

veces- algunos grficos ilustran los tamaos


relativos

de

distintas

unidades,

tasas

de

resultados y cambios a lo largo del tiempo. El


nico anlisis complejo incluido se relaciona
con la determinacin y proyeccin de cambios y

En algunos pases, las evaluaciones

Asimismo, la mayora de las evaluaciones de


logros educativos contienen un componente
importante de anlisis curricular. Las pruebas
de logros se desarrollan a partir de un anlisis
detallado de los contenidos y expectativas del
currculo, siendo su objetivo determinar el grado
al cual los alumnos alcanzan las exigencias del
currculo

y,

mejoramiento

supuestamente,
de

ste,

orientar

examinando

el
-por

ejemplo- si la amplitud y graduacin de los


contenidos son adecuados.

1
Otro objetivo de algunas evaluaciones es

lo largo del tiempo. Llevar a cabo aplicaciones

identificar las relaciones entre el logro educativo

censales resulta claramente ms costoso y tiene

y factores correlacionados con la distribucin de

que justificarse sobre la base de la utilidad,

ese logro entre estudiantes, maestros y escuelas.

validez

Algunos de esos factores, tales como la

administrativas que requieran datos especficos

asistencia y atencin de los estudiantes, el

de cada unidad de un sistema escolar.

sostenibilidad

de

polticas

tiempo y los contenidos de la enseanza y la


calidad de la misma pueden ser considerados
como determinantes principales de un logro ms
alto o ms bajo.

Otros, tales como la

organizacin de la escuela, la experiencia y


calificaciones de los docentes o el origen social
y actitudes de los estudiantes, pueden ser

Cualesquiera sean los propsitos generales de la


evaluacin educativa, los asuntos referidos a su
precisin,
cruciales.

validez

interpretabilidad

son

Debido a ello, en el presente

documento se da una mirada a los elementos


tcnicos que ponen en riesgo dichas cualidades
determinantes as como a mtodos que permitan

factores antecedentes o mediadores.

lidiar con ellos. Entre las razones por las cuales


En aos recientes, las evaluaciones educativas
en algunos pases se han convertido en parte de
los

sistemas

de

administracin

responsabilizacin educativa.

Los puntajes

obtenidos por individuos determinan cuestiones


tales como su promocin y los puntajes
agregados

determinan

la

asignacin

de

incentivos y premios u orientan la libre eleccin

aqu se les da importancia estn::

Los reportes de las evaluaciones


pueden contener detalles falsos que
sobredimensionan o presentan sin
evidencia estadstica significativa
diferencias de puntajes en distintos
contenidos de las pruebas tales
como reas curriculares y entre

de la escuela.

distintas poblaciones escolares


Este ltimo tipo de aplicacin remite a una

tales como tipos o localizaciones de

distincin crtica entre evaluaciones educativas

escuelas. As pues, se podra llegar

que estn basadas en muestras de estudiantes y

a introducir cambios en polticas

escuelas y aqullas que se basan en una

basndose

recoleccin de datos censal.

Para muchos

significativas o debidas puramente

propsitos, excepto para la administracin y

al azar, lo cual significa que esas

responsabilizacin, las muestras resultan ms

decisiones habran sido planteadas

baratas y rpidas, proporcionando esencialmente

sin una justificacin vlida.

la misma informacin agregada, tal como


estimados nacionales y estimados de cambios a

en

diferencias

no

2
como la oportunidad de aprender,

Si

la

calidad

mediciones

tcnica

de

anlisis

las

ocasiona que otras variables tales

es

como

el nivel socioeconmico

inadecuada, existe la probabilidad

absorban

especfica de malinterpretar un

efectos. A esto se le llama error

progreso como declive o viceversa,

de especificacin. Los resultados

generndose

pueden

de

este

modo

estadsticamente

llevar

sus

grandes

confusin y desorientacin poltica

equivocaciones en la comprensin

y social.

de los efectos de factores sociales y


de las reformas educacionales.

El modo en que se ordena y


presenta la informacin genera

Los problemas y posibles soluciones

dificultades

las

mencionados

las

consideran relevantes para el caso de la

evaluaciones de logros. Los datos

reciente participacin de los pases

recogidos de manera transversal o

latinoamericanos en estudios regionales

en un momento del tiempo (cross-

e internacionales.

sectional),

ejemplo,

existen diferencias entre los marcos de

proporcionan una base dbil para

contenidos de las pruebas regionales e

analizar los efectos de programas

internacionales

escolares y prcticas.

Resultados

nacionales representa una complicacin

obtenidos de datos sincrnicos

adicional que puede hacer que la

pueden estar tan sesgados como

medicin y comparacin de las pruebas

para reflejar de manera inversa el

internacionales

fenmeno realmente subyacente.

manera sesgadas.

Dada esta situacin, podra incluso

preocupante

considerarse afortunado el hecho de

latinoamericanos se encuentran por lo

que los maestros hayan preferido

general en la parte ms baja de la escala

ignorar

sobre

de logros. El tratamiento psicomtrico y

cmo aulas ms grandes muestran

estadstico en esa parte de la escala es

logros ms altos.

particularmente inexacta, debido al

inferencias

que

afectan

derivadas

varios

por

de

hallazgos

en

este

texto

se

El hecho de que

los

resulten

currculos

de

alguna

Es particularmente

porque

los

pases

nmero pequeo de tems relativamente

variables

sencillos que suelen incluirse en estas

importantes en el anlisis, tales

pruebas, diseadas con ms altos

La

omisin

de

3
niveles de expectativas de aprendizaje

interpretaciones y usos que se harn de los

que las que contienen los currculos

puntajes de las pruebas. sta es la perspectiva

nacionales de pases en desarrollo. Ello

tomada

puede dar lugar a que aparezcan

aceptados

cambios aparentemente grandes entre

Educacionales y Psicolgicas de la Asociacin

una medicin y la siguiente, mientras

Americana de Investigacin Educativa (AERA),

que en los pases de logros ms altos

la Asociacin Americana de Psicologa(APA) y

los

el Consejo Nacional de Medicin Educacional

cambios

son

generalmente

relativamente pequeos.

Ello podra

articulada en
Estndares

los
para

ampliamente
Pruebas

(NCME) de 1999.

deberse a un error de equiparacin


(equating), y tratarse ms bien de una
variacin imprecisa, sin interpretacin

Por ejemplo, luego de una evaluacin nacional


de logros, digamos en Matemticas en el sexto
grado, se producen puntajes que pretenden medir

vlida real.

los logros de los estudiantes con respecto al


currculo nacional de matemticas. Es necesario

2. Marco terico

validar las interpretaciones y usos del puntaje


La visin clsica sobre medicin y evaluacin

obtenido por un estudiante y los puntajes

ordena las cuestiones relacionadas con la calidad

agregados obtenidos por aulas, escuelas y

de las pruebas refirindolas a los conceptos de

distritos de la nacin. Es vlido interpretar los

validez,

puntajes y usarlos como indicadores de si los

confiabilidad

comparabilidad.

Tambin refiere a otros criterios, tales como la

estudiantes

validez de constructo y la validez aparente, la

educacionales establecidos por el currculo?

confiabilidad interna y de los post-tests, y la

Podemos

precisin

esta

calibracin y equiparacin.

interpretacin a alumnos individuales?

Son

Una conceptualizacin ms moderna e integrada


contempla a todas stas como aspectos distintos
de un concepto unificador de validez de la

han

alcanzado

aplicar

con

los

estndares

confiables las comparaciones que hacemos para


evaluar el cambio del sistema a lo largo de los
aos?

interpretacin y uso de los puntajes de las

La interpretacin depende en primer lugar de la

pruebas. Esta concepcin implica que, ms all

calidad de las pruebas: Son suficientemente

de la tecnologa utilizada para elaborar los tems

precisas y representativas del contenido del

y las pruebas, para recoger las respuestas, para

currculo?

asignar

contenidos irrelevantes y cantidades mximas

puntajes

para

resumirlos

Miden cantidades mnimas de

estadsticamente, lo que importa a fin de cuentas

del contenido intencional?

es

estudiantes

la

posibilidad

de

confiar

en

las

aplicar

Incentivan a los

procesos

cognitivos

4
similares a aqullos que sugiere el currculo?

pruebas cambian o se traslapan entre una y otra

Es coherente la manera en que se califican los

aplicacin,

tems con la naturaleza del constructo que se

complejas de calibracin y equiparacin.

Si

busca evaluar (v.gr., se incluye o no la calidad

bien

la

de la caligrafa como componente de la

introduccin de errores, stos tienen que ser

capacidad de comunicar ideas por escrito?)?.

minimizados y estimados..

la

es

necesario

calibracin

aplicar

no

puede

tcnicas

evitar

stos son los primeros principios que defini


Samuel Messick en Validez de la evaluacin
psicolgica: Validacin de inferencias sobre
personas?. Respuestas y desempeos como una
exploracin cientfica del significado de los
puntajes

[Validity

of

Psychological

Assessment: Validation of Inferences from


Persons?

Responses

Scientific

Inquiry

and
into

Performances
Score

as

Meaning],

American Psychologist 50 (9) (Setiembre 1995).

Tambin es importante tener en cuenta que la


evaluacin educativa a gran escala se da dentro
de la realidad de un sistema escolar complejo,
jerrquico y diferenciado.
resultados

pueden

Los informes de

llegar

estudiantes

individuales, a docentes y a escuelas y a otras


unidades administrativas hasta el nivel central
nacional o incluso internacional.

Es una

responsabilidad perentoria el asegurar que a cada


nivel de reporte haya validez y precisin

La validez de las interpretaciones de los puntajes

suficientes

est limitada por su precisin.

interpretaciones y usos que se dar a los datos.

Desde la

como

para

justificar

las

perspectiva tradicional, esto se refiere a la


confiabilidad de la prueba (v.gr., la correlacin
entre una prueba y su reaplicacin). En cambio,
autores como Messick estn ms preocupados
por la generalizabilidad de los puntajes y sus
interpretaciones, lo que requiere constatar, por
ejemplo, que en una prueba de matemticas
haya una muestra suficiente de tems, tipos de
tems

contenidos,

establecer

si

las

interpretaciones son igualmente vlidas para


distintos tipos y grupos de estudiantes. En el
caso de evaluaciones continuas a gran escala, es
necesario otorgar especial consideracin a la
comparabilidad de las mediciones entre distintas
pruebas y distintos perodos de tiempo. Si las

En un sentido aun ms amplio, Messick y otros


argumentan que es necesario considerar la
validez de las consecuencias de los usos de los
puntajes de logros.

Pudiera suceder que los

resultados de las pruebas fueran utilizados para


tomar

decisiones

sobre

individuos

(v.gr.,

promoverlos), sobre maestros y escuelas, o sobre


el progreso de las reformas curriculares y
educativas en general. En este caso, es necesario
preguntarse si es posible garantizar que tales
mediciones tienen las cualidades adecuadas
como para constituirse en evidencia suficiente
para ese tipo de acciones.

5
Otra responsabilidad aun mayor consiste en

capacidades (los ms ricos saben ms o

proporcionar informacin contextual adecuada

aprenden mejor). Es necesario tener presente

que permita arribar a interpretaciones razonables

que la trayectoria de causalidad es ms bien

de los resultados, especialmente aqullas que

compleja y que las correlaciones mal controladas

comparan individuos o grupos. En primer lugar

pueden llevar a conclusiones errneas.

se debe identificar si se est evaluando y


reportando contenidos que distintos estudiantes
o grupos de stos han tenido oportunidades
adecuadas de aprender, pues en la medida en que
esas oportunidades no hayan estado disponibles,
las diferencias se podran atribuir a condiciones
pre-existentes y no a los esfuerzos de los
estudiantes o la efectividad de la enseanza. Del
mismo modo, se debe analizar si las condiciones
de aprendizaje, tanto en casa como en la escuela,
son las mismas para todos los estudiantes.
Resulta evidente que esto no es as, por lo tanto,
resulta importante, al momento de analizar e
interpretar

resultados

de

pruebas,

obtener

medidas razonables de dichas condiciones (v.gr.,


origen socioeconmico de los estudiantes,

Un aspecto particular de las pruebas a gran


escala es la diferenciacin entre aprender y
saber. Lo que los estudiantes saben se mide
usualmente a travs de aplicaciones en algn
momento (generalmente hacia el final) de un ao
escolar. Resulta obvio que aquello que los
estudiantes

saben

se

encuentra

altamente

determinado por --y correlacionar con-- toda su


trayectoria previa de escolaridad y vida familiar.
Tambin correlacionar con los esfuerzos y
recursos educativos desplegados durante ese
mismo ao, pero resulta imposible, en principio,
separar esos efectos de los factores anteriores.
Esto significa que atribuir el conocimiento de los
estudiantes a la escuela y los docentes a los que
han estado asignados en ese ao en particular

recursos del aula o de la escuela).

resulta falaz, como lo discuten Wiley y Wolfe en


Aunque difcil de evitar, la atribucin de causa

Problemas que plantea la concepcin del Tercer

resulta

Por

Estudio

una

Matemticas

ejemplo,

frecuentemente
cuando

los

equivocada,
resultados

de

Internacional
y

de

la

Ciencias,

IEA

sobre

UNESCO

evaluacin muestran diferencias entre tipos de

Perspectivas, XXII, 3. 1992 (83). Con estudios

escuelas (tales como las pblicas y privadas) que

transversales, en un momento del tiempo, se

convocan a distintos tipos de estudiantes (ms

puede establecer correlaciones entre logros

pobres o ms ricos), es probable que los

estudiantiles y prcticas pedaggicas, mas no se

evaluadores o sus audiencias infieran que esos

puede determinar si fueron tales prcticas las

tipos de escuelas tienen efectividad distinta (que

que determinaron dichos logros. Una hiptesis

los colegios privados ofrecen mejor enseanza)

alternativa, que no puede ser puesta a prueba con

datos transversales, es que las prcticas se

que

los

estudiantes

tienen

distintas

6
aplican diferencialmente de acuerdo a niveles

interpretacin

previos

estn

educacionales a gran escala, tal como stos se

correlacionados con los actuales logros.

Por

encuentran o estn evolucionando en Amrica

ejemplo,

se

est

Latina. Dichos aspectos son:

ambientes

de

de

logros,

podra

proporcionando

los

suceder
mejores

cuales

que

uso

de

evaluaciones

Validez de tems y pruebas

altos. Si fuere as, no se podra inferir

Comparabilidad

vlidamente que son dichos ambientes de

Anlisis
contexto

Anlisis e interpretacin de logros

aprendizaje a alumnos que ya tienen logros ms

aprendizaje los que estn causando los mayores


logros finales.

interpretacin

del

El uso de datos longitudinales permite realizar

Para cada aspecto, se identificar en primer lugar

anlisis ms significativos del aprendizaje

los problemas evidentes en el rea y luego se

durante un ao escolar y de la relacin entre ste

enumerar algunas soluciones que podran

y los recursos y prcticas de enseanza. El

considerarse.

diseo mnimo incluye un pre-test al inicio del


ao escolar y un post-test al final del mismo. El
anlisis puede ser mucho ms fino si se
introducen ms perodos de tiempo y una serie
de tiempo ms larga. Desafortunadamente, este
tipo de aproximacin difcilmente se realiza en
Amrica Latina o en cualquier otra parte del

4. Validez de tems y pruebas


Problema: Entre los diferentes proyectos y
sistemas de evaluacin en Amrica Latina, se
encuentran pocos casos en los cuales las pruebas
reflejan

con

precisin

los

contenidos

curriculares.

mundo y, por lo tanto, es ms comn


encontrarse

con

sobre-interpretaciones

de

En primer lugar, se observa un uso excesivo de

Ante lo

tems de opcin mltiple. stos sirven para

difcil que puede ser contar con un diseo ideal,

ordenar individuos en una escala normativa,

en el texto de Wiley y Wolfe antes mencionado

pero no contienen informacin suficiente para

se discute un diseo de transaccin, que consiste

medir el cumplimiento de criterios de logro en

en combinar mediciones a grados sucesivos y

tanto slo pueden medir una parte limitada de

analizarlos como si fueran cohortes sintticas.

los

correlaciones posiblemente espreas.

conocimientos

habilidades

de

los

estudiantes. Por ejemplo, no podemos realmente

3. Problemas y soluciones

medir la calidad de la escritura de los estudiantes

En este texto se da tratamiento a cuatro aspectos


principales

del

diseo,

implementacin

sin que stos escriban algo.

Tampoco puede

evaluarse la habilidad del estudiante para

7
comunicar procesos y conceptos matemticas

problema. De las diferentes respuestas cerradas

con la mera seleccin de una opcin en un tem

puede inferirse algo acerca de la calidad de

de seleccin mltiple.

conocimiento. En la prctica, hay que utilizar


entre 5 y 10 tems de seleccin mltiple para

Adems de esto, la informacin que se obtiene a


travs de un tem al nivel del estudiante
(correcto / incorrecto) o al nivel del grupo
(porcentaje
ambigua

de

en

aciertos)

cuanto

es

esencialmente

una

interpretacin

relacionada con criterios y estndares. No hay


evidencia especfica del proceso realizado por el

obtener informacin equivalente a 1 tem


abierto. Esto implica que el costo de reemplazar
tems abiertos con tems cerrados es tener
pruebas muy extensas.

Adems de esto, el

anlisis necesario para construir este tipo de


serie de tems y para interpretar la combinacin
de respuestas es bastante complejo.

estudiante para responder. La tasa de respuesta


correcta est relacionada no slo con el

En segundo lugar, las pruebas suelen ser

conocimiento de la materia sino tambin con

demasiado cortas. En trminos estadsticos, una

procesos

para

prueba consiste en una muestra del universo de

responder (adivinanza, estrategia de eliminar

tems posibles correspondiente al contenido. La

opciones, etc.). El hecho de seleccionar una

precisin de una medicin varia de acuerdo con:

irrelevantes

quizs

usados

opcin no brinda evidencia muy fuerte de que se


podra haber llegado a una respuesta por rutas

los tems en el universo de tems,

distintas a las del dominio de la capacidad


medida.

La seleccin de una opcin no

la varianza de las dificultades de

la varianza en la interaccin entre

demuestra por s misma ni el razonamiento ni el

tems y estudiantes , es decir, el

proceso seguido para resolver el problema. Es

grado

por estas razones que se necesita respuestas

encuentra entre el rendimiento en la

abiertas.

prueba global y los aciertos en

de

consistencia

que

se

tems individuales, y
Una posible alternativa al uso de un

de

respuesta abierta es definir y utilizar conjuntos

el tamao de la muestra, o sea el


nmero de tems;

de tems de seleccin mltiple que correspondan


a los diferentes pasos y componentes del

Esto resulta problemtico, porque sabemos que

contenido. Por ejemplo, puede reemplazarse un

aun dentro de un contenido muy especifico,

tem de repuesta abierta a un problema en

habr bastante variacin de dificultad de tems

matemticas con una serie de tems de seleccin

(algunos son fciles, otros son difciles) e

mltiple que corresponden a cada conocimiento

interacciones entre tems y estudiantes (es decir,

previo y etapa necesaria para resolver el

algunos estudiantes pueden responder a ciertos

8
tems y otros pueden responder a otros tems).

Habilidades para hablar y escuchar

Una seleccin pequea de tems implica una

Capacidad

baja

precisin

en

la

determinacin

de

de

realizar

tareas

grandes y de largo plazo

rendimiento promedio en la poblacin de

Saber trabajar en grupos

estudiantes, tanto como una baja confiabilidad

Poder

realizar

experimentos

en el puntaje individual. Cuando el nmero de

aprender de la experiencia prctica,

tems es pequeo, el error es grande. As, las

que parecen estar quedando excluidas de las

limitaciones son graves no slo en cuanto al

actuales mediciones.

puntaje

individual, sino en cuanto

determinacin

de

la

distribucin

la
de

conocimientos del grupo o entre diversos


grupos.
Aunque

Soluciones. Mejorar la validez de las


evaluaciones es posible, pero tiene costos:

las

diferentes

Aumentar

las

institucionales

evaluaciones

para

capacidades
preparar

educacionales en Amrica Latina hacen algn

mejorar tems. Dedicar ms tiempo

uso de tems de respuesta abierta, el nmero de

al pilotaje y mejoramiento de tems.

este tipo de tems suele ser muy reducido,

Preparar y aplicar ms tems.

posiblemente uno por estudiante colocado al


final de una prueba compuesta de tems de
seleccin

mltiple.

La

experiencia

con

respuestas construidas por el estudiante nos


indica que las varianzas entre tems y entre
estudiantes,

en

las

respuestas

calificaciones, son altsimas.

las

Por lo tanto, el

nmero de tems tiene que ser grande para que


haya una mayor precisin de la prueba. Esto
quiere decir que uno o dos tems de respuesta
abierta no contribuiran mucho a la validez de la
prueba, aunque ayudaran a la interpretacin de
los criterios de logro, especialmente por
proporcionar ejemplos de lo que puede los
estudiantes en sus propias palabras.

Obtener una mayor cantidad de


respuestas

por

estudiante,

utilizando pruebas ms largas o


aplicaciones mltiples, aunque ello
requiera usar ms tiempo del
alumno y de clases. Por supuesto
hay problemas de cansancio y
puede haber objeciones en trminos
de que se estara robando tiempo
de aprendizaje. Desde otro punto
de vista, sin embargo, gran parte
del costo de la evaluacin lo genera
el simple llegar a las escuelas y no
sera una inversin eficiente el
obtener slo poca informacin en

En tercer lugar, existen aspectos importantes de

esa visita.

El costo del tiempo

los dominios de contenido, tales como

invertido en las evaluaciones puede

9
equilibrarse

con

los beneficios

una quinta parte de la muestra total

educacionales que puede generar la

de estudiantes evaluados, que con

evaluacinmateriales,

un diseo de solo

reportes,

etc.

cada uno con respuestas de todos


los estudiantes evaluados.

Establecer como meta el uso de una

por lo tanto el error de muestreo de

abiertas. En TIMSS, la mitad del

los estudiantes sera igual. Pero el

total de tems con que se construy

error de muestreo de los tems se

las pruebas fue de respuesta abierta

dividira entre 5. Las mediciones

(aunque la proporcin de tems


abiertos

que

responda

individuales seran un poco ms

cada

variables, pero esto es menos

estudiante fue menor).


Utilizar

importante cuando lo que se quiere


es investigar los la distribucin de

administraciones

los rendimientos y su relacin con

matriciales (formas rotadas) de

factores asociados.

tems para aumentar el nmero de


tems analizado e incorporarlo en

los puntajes agregados a nivel de


aula, escuela o nacin.
usarse
rotacin.

diferentes

El

nmero de estudiantes es igual y

proporcin mayor de respuestas

200/5 tems,

ejercicio estadstico y psicomtrico.

Puede

niveles

El diseo de formas rotadas es un

En

de

teora,

cada

constituir

Por ejemplo, puede

una

independiente.

dividirse 200 tems cortos en 5

precisin

formatos de 40 tems cada uno,

forma

puede
muestra

Puede obtenerse

ms

alta

utilizando

estratificaciones por subcontenido e

aplicar uno con rotacin dentro del

tems comunes entre las diversas

aula a cada estudiante y a la vez

formas.

tener dos formatos especiales, cada


uno con dos tareas largas, para

Reducir

las

limitaciones

de

aplicar stos a una submuestra muy

contenido. Invertir lo necesario

pequea, quizs de 100 estudiantes

para ampliar la cobertura curricular

en la poblacin total. La validez y

de las mediciones tanto en detalle

precisin de una medicin al nivel

(utilizar

del grupo son mucho mayores

medianamente difciles y difciles

utilizando un diseo de 200 tems,

en cada punto del currculo) como

cada uno con respuestas de N/5 o

en alcance (incluir aspectos de cada

tems

fciles,

10
parte

del

profundidad

contenido)
(utilizar

en

una prueba para mostrar al pblico sus

tems

de

contenidos

respuestas,

pero

luego

los

respuesta abierta, tareas grandes,

estudiantes podran practicar esos tems a fin

experimentos, etc.)

de prepararse para la siguiente evaluacin, lo


cual sesgara considerablemente los resultados

5. Comparabilidad
Problema:

de sta. Tambin existe el peligro de que los

Las equiparaciones entre aos

muchas veces resultan siendo invlidas o muy


imprecisas, razn por la cual las inferencias
sobre cambios no son confiables. Se pretende
medir

cambios,

pero

cambiamos

instrumentos de medicin!

los

Por un lado, el

nmero de tems comunes entre pruebas de


diversos aos es limitado y cubre solo una parte
de sus contenidos.

docentes modifiquen sus clases para preparar a


los estudiantes especficamente para la prueba
previamente conocida, en lugar de ensear con
referencia a los objetivos generales del currculo.
Es sabido que los programas de evaluacin que
intentan usar la misma prueba a lo largo de
varios aos siempre se encuentran con que los
puntajes se elevan cada ao.

Luego, la metodologa

Un argumento a favor de diseos matriciales

estadstica y la programacin para el proceso de

como los anteriormente descritos es que

equiparacin son bastante complejas. Esto hace

contienen un nmero grande de tems y la

que

aplique

confidencialidad o seguridad de los mismos no

incorrectamente los programas de anlisis de

es un problema tan crtico, especialmente si la

datos basados en la TRI (teora de respuesta al

cobertura curricular de la prueba es amplia. En

tem).

de

este caso, el ensear para la prueba podra

hacer

estar representando efectivamente lo mismo que

muy

frecuentemente

Dado

equiparaciones

se

que

los

utilizan

se

resultados
para

comparaciones, es decir, para estimar mejoras o

ensear el currculo.

deterioros en puntajes, y dado que estas


estimaciones incluyen (1) diferenciales reales,

Los sistemas de evaluacin deberan tener un

(2) errores de muestreo en ambos momentos y

plan claro sobre cmo proceder de ao en ao en

(3) error de equiparacin, es necesario que esta

lo que se refiere al muestreo y uso de tems ya

ltima fuente de error sea calculada y tomada en

aplicados en anteriores oportunidades, a la

cuenta.

construccin y seleccin de nuevos tems y a la


reserva

de

algunos

de

stos

para

aos

Por razones prcticas y educacionales, no es

posteriores.

factible repetir exactamente las mismas pruebas

tems que se usarn para la equiparacin tiene

usadas para una evaluacin en una siguiente.

que mantenerse en secreto y ser incluido de un

Siempre es necesario publicar alguna parte de

ao de aplicacin al siguiente, a fin de mantener

En primer lugar, el conjunto de

11
la escala de puntajes. En segundo lugar, tiene

representar inadecuadamente los cambios en la

que seleccionarse un conjunto de tems que

escritura. Si la muestra no es suficientemente

sern liberados para ser publicados como

grande, la equiparacin tendr imprecisiones

ilustraciones de contenidos y respuestas , que

aleatorias y

luego tendrn que ser removidos para siempre de

estimados de un ao a otro no tendrn

las pruebas. Finalmente, en cualquier ao de

explicacin vlida alguna.

desconocidas

los

cambios

aplicacin, todo el resto de los tems debe ser


Soluciones. El diseo de las pruebas y sus

nuevo.

diversas formas, la determinacin de los


Este

diseo

algunas

tamaos de las muestras, la aplicacin matricial

El conjunto de tems para la

de formas rotadas a muestras de estudiantes, el

equiparacin puede ser usado para establecer

anlisis de calibracin y equiparacin de pruebas

vnculos entre ms de dos aos de aplicacin

y la evaluacin de los errores de medicin y

(AB, AC, AD,) o puede serlo entre pares de

muestreo

aos (AB, BC, CD,...). El tercer conjunto puede

complejas que requieren atencin estadstica y

incluir tanto tems viejos como nuevos es

psicometra de alto nivel.

variaciones.

decir,

tems

bsico

que

puede

han

tener

sido

usados

con

anterioridad y no fueron liberados, aunque no


utilizados

explcitamente

para

realizar

son

tareas

tcnicamente

muy

Dedicar ms tiempo al diseo del


sistema de pruebas y del muestreo,

la

con consideracin detallada de las

equiparacin.

necesidades de equiparacin y la
A fin de proveer un vnculo fuerte para las

precisin que necesita tenerse.

escalas de un ao a otro, la muestra usada para la


equiparacin debe ser una buena muestra de la

El diseo debe asegurar suficiente

prueba completa, en dos sentidos: (1) necesita

disponibilidad

ser representativa de todos los aspectos del

necesarios

dominio de contenidos y medicin y (2) necesita

(tems, contenidos, muestras).

ser suficientemente grande. Si la muestra no es

representativa de la totalidad de la prueba, la

Realizar

de

los

datos

para la equiparacin

las

equiparaciones

contando con programas modernos,

equiparacin puede resultar siendo sesgada hacia

analistas bien entrenados, anlisis

los contenidos incluidos. Por ejemplo, si tanto

rigurosos y asesoramiento de alto

la lectura como la escritura estn incluidas en

nivel.

una prueba, pero la equiparacin se basa


solamente en lectura, la equiparacin de un ao
a otro seguir los cambios en lectura y

Obtener

verificacin

juicios

independientes sobre los anlisis.

12

Determinar el error estndar de

y de los docentes que estaran supuestamente

calibracin e incluirlo en el anlisis

correlacionadas con el rendimiento, tales como

del error total.

el tipo de administracin, la edad y aos de


experiencia de los profesores, su formacin y
credenciales, el nmero de alumnos por aula,

6. Anlisis e interpretacin del

indicadores de diferencias en el proceso de

contexto

enseanza, pero resultan bastante indirectos. La

Problemas. En Amrica Latina, el diseo,


anlisis y reportaje de evaluaciones de logros
suele realizarse prescindiendo de un marco
conceptual integral referido a cmo ocurre el
aprendizaje dentro del sistema escolar.

Es

necesario desarrollar ese marco, de manera que


sea posible organizar adecuadamente qu datos
se recoger, qu variables se medir y qu
anlisis se realizar.

realidad nos indica que las correlaciones entre


rendimiento y este tipo de variables son dbiles
y a veces son incluso inversas a lo anticipado.
En cambio, no se recoge informacin suficiente
sobre partes importantes del ambiente escolar y
de la enseanza. Tampoco se mide de manera
precisa procesos fundamentales de la enseanza
tales como tiempo, tipo y contenido de
instruccin, o sea oportunidad de aprender. Es

Muchos de los determinantes o factores


asociados de los logros de aprendizaje sobre los
cuales estamos recogiendo informacin en
Amrica Latina tienen que ver con factores de
clase social del alumno.

etc. Puede ser que estas variables constituyan

Esto es sumamente

importante, ya que uno de los efectos deseables


del proceso de educacin debera ser disminuir
las diferencias de rendimiento entre pobres y
ricos, pobladores urbanos y rurales, etc. Si bien
no es factible modificar en el corto plazo la
distribucin de estos factores, es importante
monitorear las diferenciaciones sociales que el
sistema de educacin contribuye a reproducir.
Otro conjunto de variables que se suele medir
corresponde a las caractersticas de las escuelas

necesario tambin realizar observaciones de


prcticas y conductas en el aula que tienen
influencia directa en el proceso de aprendizaje y
que podran modificarse va programas de
entrenamiento, seleccin de maestros, textos
escolares, incentivos, etc.
Sin informacin directa sobre los hechos y
acciones que ocurren en el aula, es difcil
imaginar cmo llegar a una teora o modelo
comprobable de aprendizaje escolar. Como se
mencion anteriormente, necesitamos tambin
datos longitudinales para medir lo que aprenden
los estudiantes y no slo lo que saben.

La

combinacin de observaciones en el aula con


datos longitudinales (pre-test y post-test) es
rarsima en Amrica Latina, como lo es tambin

13
en otras partes del mundo.
elementos,

posiblemente

Sin estos dos


tendremos

mismo,

que

sea

el

cambio

en

conocimientos.

abandonar la pretensin de realizar anlisis de


factores asociados que vayan mucho ms all

7. Anlisis e interpretacin de

que la simple presentacin de correlaciones, sin

logros

mayores interpretaciones.
Problema. Despus de una inversin enorme en
Soluciones. Adoptar una teora integral sobre el

implementar un sistema de evaluacin de logros,

aprendizaje y hacer un diseo de evaluacin

los resultados presentados pueden ser percibidos

completamente nuevo.

como demasiado simples, por un lado, y difciles

de interpretar, por el otro.


Determinar cules son las variables
crticas que afectan la enseanza y

Las definiciones de los constructos para las

el aprendizaje, especialmente para

pruebas se realizan a nivel global (lenguaje,

medir oportunidades de aprender e

matemticas,

etc.)

inversin de tiempo.

ponderaciones

que

con

referencia

corresponden

a
los

programas de estudio o a alguna definicin de

Hacer lo que sea necesario para

desarrollo

medir dichas variables.

matemticas,

Definir variables crticas sobre el


contenido de la instruccin (por
ejemplo,

tiempo

dedicado

diferentes materias, proporcin de


material

nuevo

de

revisin,

puede

Por
haber

ejemplo,
una

tabla

en
de

especificaciones que contempla X contenidos


por Y niveles cognoscitivos, con N tems por
celda.

Este plan asegura una representacin

adecuada del constructo global en el puntaje


total.

presentacin al grupo y al individuo,

Con el mtodo de la TRI, se genera una escala

correccin de tareas) y sobre los

para reportar el rendimiento de estudiantes

conocimientos,

individuales, de distribuciones de grupos, y

habilidades

conductas de los maestros.

intelectual.

Hacer lo que sea necesario para

promedios y cambios en el tiempo. Pero los


nmeros

de

la

escala

son

inicialmente

arbitrarios, sin significacin o interpretacin

medir estas variables.

evidente. Puede tener una media de 500 y una

Utilizar mediciones longitudinales

desviacin estndar de 100. Puede tener media

donde

de 0 y desviacin estndar de 1.

se

mida

el

aprendizaje

No son

porcentajes de ningn conjunto de contenidos.

14
La escala puede adquirir alguna significacin

podemos decir que unos 20 a 30 tems son

mediante el uso de comparaciones normativas.

necesarios para medir un subpuntaje con

Podemos decir, por ejemplo, que un puntaje de

precisin suficiente para interpretarlo, y habr

628 corresponde al nivel mnimo de rendimiento

que agregar otros 10 a 15 para mantener una

del 10% mejor de la poblacin y que el puntaje

equiparacin precisa entre distintos aos. Por lo

433 corresponde al nivel mximo de los 25%

tanto, de una prueba de 100 tems, es posible que

peores de la poblacin -- estos seran los

pueda extraerse dos o tres subpuntajes, pero no

resultados con una escala normal con media de

ms, lo cual es muy poco, comparado con el

500 y desviacin estndar de 100.

nmero de categoras o reas que suele contener

Pero una

interpretacin por normas no equivale a una

un currculo.

evaluacin por criterios. No podemos establecer


o determinar estndares. La distribucin de
puntajes por percentiles no dice nada; toda
distribucin tiene todos sus percentiles, as que
stos resultan tan arbitrarios como la escala

Esta situacin implica que siempre faltar


informacin diagnstica que permita relacionar
el rendimiento diferencial en distintas reas con
factores

asociados,

caractersticas

de

los

estudiantes, aulas, estratos, etc. Asimismo, es

inicial.

difcil relacionar rendimientos especficos con


Puede

ofrecerse

una

interpretacin

mas

esfuerzos correspondientes de enseanza.

sustantiva si se relaciona los puntajes de la


escala con tems ejemplificadores, algo que se
explicar ms adelante, pero el inters de

Soluciones.

muchos usuarios de la informacin suele

realistamente limitadas sobre lo que puede

dirigirse muy rpidamente a subconstructos tales

ofrecer esta clase de evaluaciones de logros.

como expresin escrita, comprensin lectora,

Especficamente,

vocabulario,

palabras;

subpuntajes (por subreas del currculo) sin

aritmtica, geometra, resolucin de problemas,

aumentar enormemente el nmero de tems y los

comunicacin, etc.

costos correspondientes.

decodificacin

de

Aunque es penoso admitirlo, es necesario


reconocer que nuestra tecnologa de evaluacin
de logros a gran escala no permite medir muchos
subconstructos con facilidad. Simplemente, no
habr nmeros adecuados de tems para obtener
muchos subpuntajes precisos y comparables en
el tiempo.

No existe una regla exacta, pero

Hay

no

que

tener

puede

expectativas

haber

muchos

Hay que concentrar

esfuerzos en realizar interpretaciones vlidas y


sustantivas de la escala general y relacionarlas
con el contenido de los tems.

15

Reportar los resultados a travs de

probabilidad

un mapa de tems. Esto consiste en

correctamente, y un tercero, C, que

presentar un nmero razonable de

slo alumnos con puntajes mayores

tems reales con sus grados de

a 650 tendran una probabilidad de

dificultadporcentajes de aciertos

80% de responder correctamente.

y posiciones en la escala de TRI.

stos serian tems de mediana, baja

Se puede ordenar la presentacin de

o alta dificultad y, en conjunto con

estos tems segn su grado de

otros ejemplos, nos ayudaran a

dificultad y segn su contenido y

entender qu pueden hacer los

aadir

estudiantes que obtienen puntajes

una

resultados.

discusin
Puede

de

los

de

producirse

400,

de

500,

650

responderlo

puntos

mapas con ms o menos detalle

intermedios.

Es decir, el mapa

para diferentes audiencias.

concretiza la correspondencia entre


la escala de la prueba y el

Por ejemplo, se puede mostrar un

ordenamiento

tem especfico, A, que corresponde

dificultad

al puntaje 500 en el sentido de que

currculo.

del

por

grado

de

contenido

del

para un estudiante a este nivel de


puntaje general, la probabilidad de

El mapa facilita que los usuarios

responder correctamente el tem de

(educadores, padres de familia,

acuerdo con el anlisis TRI, sera

pblico,

de 80%. As, estudiantes con

comprendan la escala global y las

puntajes

interpretaciones

menores tendran una

curriculistas,

en

al

probabilidad menor a 80% de

rendimiento

responder correctamente ese tem y

componentes de la materia.

mejores estudiantes tendran una

anticipa que tems de diferentes

probabilidad mayor.

se

componentes se concentren en

identifica con el punto de la escala

puntos altos o bajos de la escala, lo

donde comienza a ser muy probable

que demostrar cules contenidos o

(80%) que los estudiantes den una

cules elementos de cada contenido

respuesta correcta.

son

El tem

en

cuanto

etc.)

especialmente

diferentes

fciles

Se

difciles.

Luego, se puede mostrar otro tem,


B, diciendo que un estudiante con
un puntaje de 400 tendra 80% de

Para hacer un mapa adecuado, hay


que tener un nmero suficiente de

16
tems y resultados que puedan ser

Sin embargo, hay que reconocer

divulgados. Hay que asegurarse de

que la definicin de subescalas y la

que existan tems ejemplificadores

relacin de stas con caractersticas

disponibles para su divulgacin en

de los procesos pedaggicos en el

todas las reas y subreas de

aula son objetivos importantes. El

contenidos y con diferentes niveles

punto es que las pruebas que

de dificultad. Esto requiere mucha

actualmente aplican los sistemas de

atencin en los momentos previos

evaluacin

de planificacin del diseo del

permiten realizar este tipo de

conjunto de tems y formas.

anlisis. Siempre se observa una

gran

escala

no

relacin entre el nmero de tems y


El

procedimiento

general

para

la precisin de la medicin. Puede

hacer comparaciones entre grupos

aumentarse el nmero de tems,

de estudiantes es, en primer lugar,

pero esto es costoso. Una posible

presentar promedios, anlisis de


varianza,

histogramas,

salida a este problema es adoptar en

etc.,

aos subsecuentes diferentes focos

utilizando el puntaje en la escala


como

variable

para la evaluacin, aumentando en

dependiente.

cada caso el nmero de tems

Segundo, utilizar el mapa de tems

especficos a una subrea. As, en

para interpretar las diferencias en

un periodo de varios aos, se dar

trminos de los puntos de la escala

cobertura a las diferentes subreas

y sus correspondencias con los

de una materia.

tems.

8. Conclusiones
Por lo general, no es factible
relacionar

rigurosa

El propsito de este texto ha sido revisar algunas

con

cuestiones bsicas tericas y tcnicas que

caractersticas de los estudiantes,

subyacen las evaluaciones educativas a gran

aulas,

Debera

escala en Amrica Latina.

directas

especial atencin a problemas y soluciones

entre grupos en trminos de tems

vinculadas a los puntos siguientes, en los cuales

especficos o subpuntajes. stas

resalto lo que considero son mis sugerencias ms

seran muy difciles de justificar

importantes:

resultados

evitarse

de

manera

por

estratos,

tem

etc.

comparaciones

desde el punto de vista de las


estadsticas de validez.

Se ha prestado

17
Validez. Puede incrementarse la validez de las

logros principal presentando mapas de tems y

evaluaciones si los diseos de las pruebas se

relacionando los tems liberados a diversos

mejoran incrementando el nmero, calidad y

puntajes de la escala.

variedad de los tems que contienen.

Esto

requiere la administracin matricial de formas

Uso de las evaluaciones. El efecto de la clase


social

rotadas.

es

importantsimo,

pero

es

ya

suficientemente bien conocido. Sera muy til


Comparabilidad. Se necesita prestar atencin

que los evaluadores procedieran a utilizar

ms rigurosa a la calibracin y equiparacin de

teoras, modelos, datos y anlisis referidos a

las pruebas, de manera que se pueda tener mayor

caractersticas

seguridad respecto a los indicios que dan

organizacin del aula que puedan modificarse

respecto al cambio educativo. Calibrar se refiere

para obtener mejores resultados.

de

la

enseanza

de

la

a la construccin de escalas numricas para


servir como base constante y rigorosa para
resumir y comunicar los resultados de las
respuestas a los tems y las pruebas, mientras
que la equiparacin se refiere al alineamiento de
dichas escalas entre pruebas diferentes.

Es

necesario saber cun grandes podran ser los


errores de equiparacin.

Estos son procesos

Cmo determinar el impacto del reforma


educacional si no se puede confiar en la validez
de los resultados de las pruebas ni en su
comparabililidad en el tiempo? Lo que se quiere
enfatizar aqu es que, en realidad, con pruebas
que hasta el momento son bastante cuestionables
en su validez y comparabilidad intertemporal,
muchos pases latinoamericanos se encuentran

tcnicamente difciles pero indispensables.

en una posicin inadecuada para evaluar de


Anlisis del contexto. La interpretabilidad y

manera eficaz los impactos de las reformas y

utilidad de la evaluacin depende del anlisis de

que, por lo tanto, deberan ejercer mayor cautela

variables de contexto y asociadas, pero las

al respecto, ya que los cambios aparentemente

posibilidades de realizar inferencias vlidas son

observados podran muchas veces representar

mucho ms altas si el diseo es longitudinal.

meras fluctuaciones de error y sesgo.

Los diseos transversales implican serios riesgos


El progreso real en educacin ser gradual y no

de inferencias equivocadas.

milagroso.

En los trminos de la teora

Anlisis de logros. No es fcil utilizar

informtica: el ruido en nuestras evaluaciones

evaluaciones

debera ser menor que la seal del progreso.

gran

escala

para

obtener

informacin vlida y confiable sobre niveles de


logro en sub-dominios de contenidos.

Puede

mejorarse la interpretacin y uso de la escala de

Вам также может понравиться