Grupo de Trabajo Sobre Estándares y EvaluaciónCuestiones - Tecnicas

Programa de P omocin
r
de la Reforma Educativa en Amrica Latina y el Caribe
Partnership for Educational Revitalization in the Americas
Grupo de Trabajo
sobre Estndares y Evaluacin
Cuestiones tcnicas que

condicionan las interpretaciones
de los datos generados por las
evaluaciones de logros de aprendizaje
escolar en Amrica Latina
Richard Wolfe
Abril 2007
Cuestiones tcnicas que condicionan las interpretaciones de los datos generados por las
evaluaciones de logros de aprendizaje escolar en Amrica Latina
Richard Wolfe
Ontario Institute for Studies in Education of the University of Toronto, Canada
Resumen Ejecutivo
El Grupo de Trabajo sobre Estndares y Evaluacin del PREAL est convencido tanto de la importancia
de la evaluacin de los aprendizajes como de que la sostenibilidad de los sistemas de evaluacin depende
de que se aprovechen y maximicen los beneficios que ellos prometen a la poltica educativa. Desde el
inicio de sus actividades ha recomendado -entre otros cursos de accin- mejorar la calidad tcnica de
diversos aspectos de esos sistemas, en especial el diseo de los instrumentos de recoleccin de
informacin y los modos de procesar y reportar los resultados.
En esta oportunidad, se desea especificar de manera ms concreta algunos campos en los cuales es
particularmente urgente introducir esas mejoras tcnicas, a la luz de la creciente necesidad y
compromiso de los sistemas de contribuir al mejoramiento de la gestin educativa. Se trata de identificar
y describir los principales problemas que afectan la validez de las interpretaciones ms comunes de los
resultados obtenidos en las evaluaciones latinoamericanas.
Las cuestiones aqu seleccionadas para la discusin se derivan de la experiencia de quince o ms aos
que tiene el autor respecto a diversos programas de evaluacin nacional y regional en Amrica Latina.
Si bien es cierto que a lo largo de esos aos, los objetivos de las evaluaciones han ido reformulndose y
sus mtodos sofisticndose, contina siendo necesario clarificar sus fines y mejorar sus mtodos.
Entre los temas aqu tratados se encuentran: (a) el uso de procedimientos para mejorar la validez en el
diseo de los tems, las pruebas y los sistemas de pruebas; (b) la necesidad de asegurar la
comparabilidad de resultados a lo largo del tiempo; (c) mtodos para orientar el anlisis de los efectos
del contexto escolar; y (d) sugerencias sobre el anlisis y reporte de las escalas de rendimiento que
permitan mejorar la interpretacin y utilidad de los resultados. En cada caso, se detalla la importancia
de esos problemas para la interpretacin y uso correctos de los resultados. La parte final del documento
incluye algunas recomendaciones sobre cursos de accin a tomar para superar esos problemas.
crecimiento, especialmente en lo referido a la

1. Introduccin
promocin, retencin y desercin.
El presente texto hace referencia al diseo,

implementacin,
interpretacin
uso
de
evaluaciones a gran escala del logro educativo

en Amrica Latina y si bien se encuentra
focalizado en las pruebas nacionales,
es
pertinente tanto para las evaluaciones nacionales

como
para
proyectos
regionales
internacionales.
Las evaluaciones de logros educativos aaden

informacin nueva e importante sobre la calidad
de los resultados educativos, mientras que las
estadsticas se refieren principalmente a las
cantidades de educacin.
Cierto es que
contabilizar la aprobacin y desaprobacin es un

aspecto de la calidad; sin embargo, las
estadsticas educativas tradicionales no brindan
En la mayora de los pases de la regin existe
evidencia sobre el contenido de los logros.
actualmente algn tipo de recoleccin peridica
Evidentemente, las evaluaciones de logros
de datos que utiliza pruebas educacionales
resultan siendo ms complicadas y costosas que
estandarizadas para proveer anlisis y reportes
la recoleccin y reporte de estadsticas, razn
sobre los niveles de aprendizaje escolar.
por la cual frecuentemente se realizan slo en
Histricamente, este trabajo se puede considerar
grados y materias seleccionados y no todos los
como una extensin del ejercicio ms tradicional
aos.
de reportar estadsticas educativas bajo la forma
educativas son realizadas por agencias externas
de extensas memorias anuales que producen los
al Ministerio de Educacin.
Ministerios
de
Educacin
informacin
detallada
sobre
brindando
estudiantes,
profesores y escuelas, agregados a nivel de

distritos, provincias, etc. En dichos documentos,
las variables que se analizan son muy simples:
grado, sexo, edad. Las medidas de resultados
generalmente se restringen a aspectos formales
de
progreso
certificacin
desaprobados o repitentes).
(aprobados,
Las tablas y -a
veces- algunos grficos ilustran los tamaos

relativos
de
distintas
unidades,
tasas
de
resultados y cambios a lo largo del tiempo. El

nico anlisis complejo incluido se relaciona
con la determinacin y proyeccin de cambios y
En algunos pases, las evaluaciones
Asimismo, la mayora de las evaluaciones de

logros educativos contienen un componente
importante de anlisis curricular. Las pruebas
de logros se desarrollan a partir de un anlisis
detallado de los contenidos y expectativas del
currculo, siendo su objetivo determinar el grado
al cual los alumnos alcanzan las exigencias del
currculo
y,
mejoramiento
supuestamente,
de
ste,
orientar
examinando
el
-por
ejemplo- si la amplitud y graduacin de los

contenidos son adecuados.
1
Otro objetivo de algunas evaluaciones es
lo largo del tiempo. Llevar a cabo aplicaciones
identificar las relaciones entre el logro educativo
censales resulta claramente ms costoso y tiene
y factores correlacionados con la distribucin de
que justificarse sobre la base de la utilidad,
ese logro entre estudiantes, maestros y escuelas.
validez
Algunos de esos factores, tales como la
administrativas que requieran datos especficos
asistencia y atencin de los estudiantes, el
de cada unidad de un sistema escolar.
sostenibilidad
de
polticas
tiempo y los contenidos de la enseanza y la

calidad de la misma pueden ser considerados
como determinantes principales de un logro ms
alto o ms bajo.
Otros, tales como la
organizacin de la escuela, la experiencia y

calificaciones de los docentes o el origen social
y actitudes de los estudiantes, pueden ser
Cualesquiera sean los propsitos generales de la

evaluacin educativa, los asuntos referidos a su
precisin,
cruciales.
validez
interpretabilidad
son
Debido a ello, en el presente
documento se da una mirada a los elementos

tcnicos que ponen en riesgo dichas cualidades
determinantes as como a mtodos que permitan
factores antecedentes o mediadores.
lidiar con ellos. Entre las razones por las cuales

En aos recientes, las evaluaciones educativas
en algunos pases se han convertido en parte de
los
sistemas
de
administracin
responsabilizacin educativa.
Los puntajes
obtenidos por individuos determinan cuestiones

tales como su promocin y los puntajes
agregados
determinan
la
asignacin
de
incentivos y premios u orientan la libre eleccin
aqu se les da importancia estn::
Los reportes de las evaluaciones

pueden contener detalles falsos que
sobredimensionan o presentan sin
evidencia estadstica significativa
diferencias de puntajes en distintos
contenidos de las pruebas tales
como reas curriculares y entre
de la escuela.
distintas poblaciones escolares

Este ltimo tipo de aplicacin remite a una
tales como tipos o localizaciones de
distincin crtica entre evaluaciones educativas
escuelas. As pues, se podra llegar
que estn basadas en muestras de estudiantes y
a introducir cambios en polticas
escuelas y aqullas que se basan en una
basndose
recoleccin de datos censal.
Para muchos
significativas o debidas puramente
propsitos, excepto para la administracin y
al azar, lo cual significa que esas
responsabilizacin, las muestras resultan ms
decisiones habran sido planteadas
baratas y rpidas, proporcionando esencialmente
sin una justificacin vlida.
la misma informacin agregada, tal como

estimados nacionales y estimados de cambios a
en
diferencias
no
2
como la oportunidad de aprender,
Si
la
calidad
mediciones
tcnica
de
anlisis
las
ocasiona que otras variables tales
es
como
el nivel socioeconmico
inadecuada, existe la probabilidad
absorban
especfica de malinterpretar un
efectos. A esto se le llama error
progreso como declive o viceversa,
de especificacin. Los resultados
generndose
pueden
de
este
modo
estadsticamente
llevar
sus
grandes
confusin y desorientacin poltica
equivocaciones en la comprensin
y social.
de los efectos de factores sociales y

de las reformas educacionales.
El modo en que se ordena y

presenta la informacin genera
Los problemas y posibles soluciones
dificultades
las
mencionados
las
consideran relevantes para el caso de la
evaluaciones de logros. Los datos
reciente participacin de los pases
recogidos de manera transversal o
latinoamericanos en estudios regionales
en un momento del tiempo (cross-
e internacionales.
sectional),
ejemplo,
existen diferencias entre los marcos de
proporcionan una base dbil para
contenidos de las pruebas regionales e
analizar los efectos de programas
internacionales
escolares y prcticas.
Resultados
nacionales representa una complicacin
obtenidos de datos sincrnicos
adicional que puede hacer que la
pueden estar tan sesgados como
medicin y comparacin de las pruebas
para reflejar de manera inversa el
internacionales
fenmeno realmente subyacente.
manera sesgadas.
Dada esta situacin, podra incluso
preocupante
considerarse afortunado el hecho de
latinoamericanos se encuentran por lo
que los maestros hayan preferido
general en la parte ms baja de la escala
ignorar
sobre
de logros. El tratamiento psicomtrico y
cmo aulas ms grandes muestran
estadstico en esa parte de la escala es
logros ms altos.
particularmente inexacta, debido al
inferencias
que
afectan
derivadas
varios
por
de
hallazgos
en
este
texto
se
El hecho de que
los
resulten
currculos
de
alguna
Es particularmente
porque
los
pases
nmero pequeo de tems relativamente
variables
sencillos que suelen incluirse en estas
importantes en el anlisis, tales
pruebas, diseadas con ms altos
La
omisin
de
3
niveles de expectativas de aprendizaje
interpretaciones y usos que se harn de los
que las que contienen los currculos
puntajes de las pruebas. sta es la perspectiva
nacionales de pases en desarrollo. Ello
tomada
puede dar lugar a que aparezcan
aceptados
cambios aparentemente grandes entre
Educacionales y Psicolgicas de la Asociacin
una medicin y la siguiente, mientras
Americana de Investigacin Educativa (AERA),
que en los pases de logros ms altos
la Asociacin Americana de Psicologa(APA) y
los
el Consejo Nacional de Medicin Educacional
cambios
son
generalmente
relativamente pequeos.
Ello podra
articulada en
Estndares
los
para
ampliamente
Pruebas
(NCME) de 1999.
deberse a un error de equiparacin

(equating), y tratarse ms bien de una
variacin imprecisa, sin interpretacin
Por ejemplo, luego de una evaluacin nacional

de logros, digamos en Matemticas en el sexto
grado, se producen puntajes que pretenden medir
vlida real.
los logros de los estudiantes con respecto al

currculo nacional de matemticas. Es necesario
2. Marco terico
validar las interpretaciones y usos del puntaje

La visin clsica sobre medicin y evaluacin
obtenido por un estudiante y los puntajes
ordena las cuestiones relacionadas con la calidad
agregados obtenidos por aulas, escuelas y
de las pruebas refirindolas a los conceptos de
distritos de la nacin. Es vlido interpretar los
validez,
puntajes y usarlos como indicadores de si los
confiabilidad
comparabilidad.
Tambin refiere a otros criterios, tales como la
estudiantes
validez de constructo y la validez aparente, la
educacionales establecidos por el currculo?
confiabilidad interna y de los post-tests, y la
Podemos
precisin
esta
calibracin y equiparacin.
interpretacin a alumnos individuales?
Son
Una conceptualizacin ms moderna e integrada

contempla a todas stas como aspectos distintos
de un concepto unificador de validez de la
han
alcanzado
aplicar
con
los
estndares
confiables las comparaciones que hacemos para

evaluar el cambio del sistema a lo largo de los
aos?
interpretacin y uso de los puntajes de las
La interpretacin depende en primer lugar de la
pruebas. Esta concepcin implica que, ms all
calidad de las pruebas: Son suficientemente
de la tecnologa utilizada para elaborar los tems
precisas y representativas del contenido del
y las pruebas, para recoger las respuestas, para
currculo?
asignar
contenidos irrelevantes y cantidades mximas
puntajes
para
resumirlos
Miden cantidades mnimas de
estadsticamente, lo que importa a fin de cuentas
del contenido intencional?
es
estudiantes
la
posibilidad
de
confiar
en
las
aplicar
Incentivan a los
procesos
cognitivos
4
similares a aqullos que sugiere el currculo?
pruebas cambian o se traslapan entre una y otra
Es coherente la manera en que se califican los
aplicacin,
tems con la naturaleza del constructo que se
complejas de calibracin y equiparacin.
Si
busca evaluar (v.gr., se incluye o no la calidad
bien
la
de la caligrafa como componente de la
introduccin de errores, stos tienen que ser
capacidad de comunicar ideas por escrito?)?.
minimizados y estimados..
la
es
necesario
calibracin
aplicar
no
puede
tcnicas
evitar
stos son los primeros principios que defini

Samuel Messick en Validez de la evaluacin
psicolgica: Validacin de inferencias sobre
personas?. Respuestas y desempeos como una
exploracin cientfica del significado de los
puntajes
[Validity
of
Psychological
Assessment: Validation of Inferences from

Persons?
Responses
Scientific
Inquiry
and
into
Performances
Score
as
Meaning],
American Psychologist 50 (9) (Setiembre 1995).
Tambin es importante tener en cuenta que la

evaluacin educativa a gran escala se da dentro
de la realidad de un sistema escolar complejo,
jerrquico y diferenciado.
resultados
pueden
Los informes de
llegar
estudiantes
individuales, a docentes y a escuelas y a otras

unidades administrativas hasta el nivel central
nacional o incluso internacional.
Es una
responsabilidad perentoria el asegurar que a cada

nivel de reporte haya validez y precisin
La validez de las interpretaciones de los puntajes
suficientes
est limitada por su precisin.
interpretaciones y usos que se dar a los datos.
Desde la
como
para
justificar
las
perspectiva tradicional, esto se refiere a la

confiabilidad de la prueba (v.gr., la correlacin
entre una prueba y su reaplicacin). En cambio,
autores como Messick estn ms preocupados
por la generalizabilidad de los puntajes y sus
interpretaciones, lo que requiere constatar, por
ejemplo, que en una prueba de matemticas
haya una muestra suficiente de tems, tipos de
tems
contenidos,
establecer
si
las
interpretaciones son igualmente vlidas para

distintos tipos y grupos de estudiantes. En el
caso de evaluaciones continuas a gran escala, es
necesario otorgar especial consideracin a la
comparabilidad de las mediciones entre distintas
pruebas y distintos perodos de tiempo. Si las
En un sentido aun ms amplio, Messick y otros

argumentan que es necesario considerar la
validez de las consecuencias de los usos de los
puntajes de logros.
Pudiera suceder que los
resultados de las pruebas fueran utilizados para

tomar
decisiones
sobre
individuos
(v.gr.,
promoverlos), sobre maestros y escuelas, o sobre

el progreso de las reformas curriculares y
educativas en general. En este caso, es necesario
preguntarse si es posible garantizar que tales
mediciones tienen las cualidades adecuadas
como para constituirse en evidencia suficiente
para ese tipo de acciones.
5
Otra responsabilidad aun mayor consiste en
capacidades (los ms ricos saben ms o
proporcionar informacin contextual adecuada
aprenden mejor). Es necesario tener presente
que permita arribar a interpretaciones razonables
que la trayectoria de causalidad es ms bien
de los resultados, especialmente aqullas que
compleja y que las correlaciones mal controladas
comparan individuos o grupos. En primer lugar
pueden llevar a conclusiones errneas.
se debe identificar si se est evaluando y

reportando contenidos que distintos estudiantes
o grupos de stos han tenido oportunidades
adecuadas de aprender, pues en la medida en que
esas oportunidades no hayan estado disponibles,
las diferencias se podran atribuir a condiciones
pre-existentes y no a los esfuerzos de los
estudiantes o la efectividad de la enseanza. Del
mismo modo, se debe analizar si las condiciones
de aprendizaje, tanto en casa como en la escuela,
son las mismas para todos los estudiantes.
Resulta evidente que esto no es as, por lo tanto,
resulta importante, al momento de analizar e
interpretar
resultados
de
pruebas,
obtener
medidas razonables de dichas condiciones (v.gr.,

origen socioeconmico de los estudiantes,
Un aspecto particular de las pruebas a gran

escala es la diferenciacin entre aprender y
saber. Lo que los estudiantes saben se mide
usualmente a travs de aplicaciones en algn
momento (generalmente hacia el final) de un ao
escolar. Resulta obvio que aquello que los
estudiantes
saben
se
encuentra
altamente
determinado por --y correlacionar con-- toda su

trayectoria previa de escolaridad y vida familiar.
Tambin correlacionar con los esfuerzos y
recursos educativos desplegados durante ese
mismo ao, pero resulta imposible, en principio,
separar esos efectos de los factores anteriores.
Esto significa que atribuir el conocimiento de los
estudiantes a la escuela y los docentes a los que
han estado asignados en ese ao en particular
recursos del aula o de la escuela).
resulta falaz, como lo discuten Wiley y Wolfe en

Aunque difcil de evitar, la atribucin de causa
Problemas que plantea la concepcin del Tercer
resulta
Por
Estudio
una
Matemticas
ejemplo,
frecuentemente
cuando
los
equivocada,
resultados
de
Internacional
y
de
la
Ciencias,
IEA
sobre
UNESCO
evaluacin muestran diferencias entre tipos de
Perspectivas, XXII, 3. 1992 (83). Con estudios
escuelas (tales como las pblicas y privadas) que
transversales, en un momento del tiempo, se
convocan a distintos tipos de estudiantes (ms
puede establecer correlaciones entre logros
pobres o ms ricos), es probable que los
estudiantiles y prcticas pedaggicas, mas no se
evaluadores o sus audiencias infieran que esos
puede determinar si fueron tales prcticas las
tipos de escuelas tienen efectividad distinta (que
que determinaron dichos logros. Una hiptesis
los colegios privados ofrecen mejor enseanza)
alternativa, que no puede ser puesta a prueba con
datos transversales, es que las prcticas se
que
los
estudiantes
tienen
distintas
6
aplican diferencialmente de acuerdo a niveles
interpretacin
previos
estn
educacionales a gran escala, tal como stos se
correlacionados con los actuales logros.
Por
encuentran o estn evolucionando en Amrica
ejemplo,
se
est
Latina. Dichos aspectos son:
ambientes
de
de
logros,
podra
proporcionando
los
suceder
mejores
cuales
que
uso
de
evaluaciones
Validez de tems y pruebas
altos. Si fuere as, no se podra inferir
Comparabilidad
vlidamente que son dichos ambientes de
Anlisis
contexto
Anlisis e interpretacin de logros
aprendizaje a alumnos que ya tienen logros ms
aprendizaje los que estn causando los mayores

logros finales.
interpretacin
del
El uso de datos longitudinales permite realizar
Para cada aspecto, se identificar en primer lugar
anlisis ms significativos del aprendizaje
los problemas evidentes en el rea y luego se
durante un ao escolar y de la relacin entre ste
enumerar algunas soluciones que podran
y los recursos y prcticas de enseanza. El
considerarse.
diseo mnimo incluye un pre-test al inicio del

ao escolar y un post-test al final del mismo. El
anlisis puede ser mucho ms fino si se
introducen ms perodos de tiempo y una serie
de tiempo ms larga. Desafortunadamente, este
tipo de aproximacin difcilmente se realiza en
Amrica Latina o en cualquier otra parte del
4. Validez de tems y pruebas

Problema: Entre los diferentes proyectos y
sistemas de evaluacin en Amrica Latina, se
encuentran pocos casos en los cuales las pruebas
reflejan
con
precisin
los
contenidos
curriculares.
mundo y, por lo tanto, es ms comn

encontrarse
con
sobre-interpretaciones
de
En primer lugar, se observa un uso excesivo de
Ante lo
tems de opcin mltiple. stos sirven para
difcil que puede ser contar con un diseo ideal,
ordenar individuos en una escala normativa,
en el texto de Wiley y Wolfe antes mencionado
pero no contienen informacin suficiente para
se discute un diseo de transaccin, que consiste
medir el cumplimiento de criterios de logro en
en combinar mediciones a grados sucesivos y
tanto slo pueden medir una parte limitada de
analizarlos como si fueran cohortes sintticas.
los
correlaciones posiblemente espreas.
conocimientos
habilidades
de
los
estudiantes. Por ejemplo, no podemos realmente
3. Problemas y soluciones
medir la calidad de la escritura de los estudiantes
En este texto se da tratamiento a cuatro aspectos

principales
del
diseo,
implementacin
sin que stos escriban algo.
Tampoco puede
evaluarse la habilidad del estudiante para
7
comunicar procesos y conceptos matemticas
problema. De las diferentes respuestas cerradas
con la mera seleccin de una opcin en un tem
puede inferirse algo acerca de la calidad de
de seleccin mltiple.
conocimiento. En la prctica, hay que utilizar

entre 5 y 10 tems de seleccin mltiple para
Adems de esto, la informacin que se obtiene a

travs de un tem al nivel del estudiante
(correcto / incorrecto) o al nivel del grupo
(porcentaje
ambigua
de
en
aciertos)
cuanto
es
esencialmente
una
interpretacin
relacionada con criterios y estndares. No hay

evidencia especfica del proceso realizado por el
obtener informacin equivalente a 1 tem

abierto. Esto implica que el costo de reemplazar
tems abiertos con tems cerrados es tener
pruebas muy extensas.
Adems de esto, el
anlisis necesario para construir este tipo de

serie de tems y para interpretar la combinacin
de respuestas es bastante complejo.
estudiante para responder. La tasa de respuesta

correcta est relacionada no slo con el
En segundo lugar, las pruebas suelen ser
conocimiento de la materia sino tambin con
demasiado cortas. En trminos estadsticos, una
procesos
para
prueba consiste en una muestra del universo de
responder (adivinanza, estrategia de eliminar
tems posibles correspondiente al contenido. La
opciones, etc.). El hecho de seleccionar una
precisin de una medicin varia de acuerdo con:
irrelevantes
quizs
usados
opcin no brinda evidencia muy fuerte de que se

podra haber llegado a una respuesta por rutas
los tems en el universo de tems,
distintas a las del dominio de la capacidad

medida.
La seleccin de una opcin no
la varianza de las dificultades de
la varianza en la interaccin entre
demuestra por s misma ni el razonamiento ni el
tems y estudiantes , es decir, el
proceso seguido para resolver el problema. Es
grado
por estas razones que se necesita respuestas
encuentra entre el rendimiento en la
abiertas.
prueba global y los aciertos en
de
consistencia
que
se
tems individuales, y
Una posible alternativa al uso de un
de
respuesta abierta es definir y utilizar conjuntos
el tamao de la muestra, o sea el

nmero de tems;
de tems de seleccin mltiple que correspondan

a los diferentes pasos y componentes del
Esto resulta problemtico, porque sabemos que
contenido. Por ejemplo, puede reemplazarse un
aun dentro de un contenido muy especifico,
tem de repuesta abierta a un problema en
habr bastante variacin de dificultad de tems
matemticas con una serie de tems de seleccin
(algunos son fciles, otros son difciles) e
mltiple que corresponden a cada conocimiento
interacciones entre tems y estudiantes (es decir,
previo y etapa necesaria para resolver el
algunos estudiantes pueden responder a ciertos
8
tems y otros pueden responder a otros tems).
Habilidades para hablar y escuchar
Una seleccin pequea de tems implica una
Capacidad
baja
precisin
en
la
determinacin
de
de
realizar
tareas
grandes y de largo plazo
rendimiento promedio en la poblacin de
Saber trabajar en grupos
estudiantes, tanto como una baja confiabilidad
Poder
realizar
experimentos
en el puntaje individual. Cuando el nmero de
aprender de la experiencia prctica,
tems es pequeo, el error es grande. As, las
que parecen estar quedando excluidas de las
limitaciones son graves no slo en cuanto al
actuales mediciones.
puntaje
individual, sino en cuanto
determinacin
de
la
distribucin
la
de
conocimientos del grupo o entre diversos

grupos.
Aunque
Soluciones. Mejorar la validez de las

evaluaciones es posible, pero tiene costos:
las
diferentes
Aumentar
las
institucionales
evaluaciones
para
capacidades
preparar
educacionales en Amrica Latina hacen algn
mejorar tems. Dedicar ms tiempo
uso de tems de respuesta abierta, el nmero de
al pilotaje y mejoramiento de tems.
este tipo de tems suele ser muy reducido,
Preparar y aplicar ms tems.
posiblemente uno por estudiante colocado al

final de una prueba compuesta de tems de
seleccin
mltiple.
La
experiencia
con
respuestas construidas por el estudiante nos

indica que las varianzas entre tems y entre
estudiantes,
en
las
respuestas
calificaciones, son altsimas.
las
Por lo tanto, el
nmero de tems tiene que ser grande para que

haya una mayor precisin de la prueba. Esto
quiere decir que uno o dos tems de respuesta
abierta no contribuiran mucho a la validez de la
prueba, aunque ayudaran a la interpretacin de
los criterios de logro, especialmente por
proporcionar ejemplos de lo que puede los
estudiantes en sus propias palabras.
Obtener una mayor cantidad de

respuestas
por
estudiante,
utilizando pruebas ms largas o

aplicaciones mltiples, aunque ello
requiera usar ms tiempo del
alumno y de clases. Por supuesto
hay problemas de cansancio y
puede haber objeciones en trminos
de que se estara robando tiempo
de aprendizaje. Desde otro punto
de vista, sin embargo, gran parte
del costo de la evaluacin lo genera
el simple llegar a las escuelas y no
sera una inversin eficiente el
obtener slo poca informacin en
En tercer lugar, existen aspectos importantes de
esa visita.
El costo del tiempo
los dominios de contenido, tales como
invertido en las evaluaciones puede
9
equilibrarse
con
los beneficios
una quinta parte de la muestra total
educacionales que puede generar la
de estudiantes evaluados, que con
evaluacinmateriales,
un diseo de solo
reportes,
etc.
cada uno con respuestas de todos

los estudiantes evaluados.
Establecer como meta el uso de una
por lo tanto el error de muestreo de
abiertas. En TIMSS, la mitad del
los estudiantes sera igual. Pero el
total de tems con que se construy
error de muestreo de los tems se
las pruebas fue de respuesta abierta
dividira entre 5. Las mediciones
(aunque la proporcin de tems

abiertos
que
responda
individuales seran un poco ms
cada
variables, pero esto es menos
estudiante fue menor).

Utilizar
importante cuando lo que se quiere

es investigar los la distribucin de
administraciones
los rendimientos y su relacin con
matriciales (formas rotadas) de
factores asociados.
tems para aumentar el nmero de

tems analizado e incorporarlo en
los puntajes agregados a nivel de

aula, escuela o nacin.
usarse
rotacin.
diferentes
El
nmero de estudiantes es igual y
proporcin mayor de respuestas
200/5 tems,
ejercicio estadstico y psicomtrico.
Puede
niveles
El diseo de formas rotadas es un
En
de
teora,
cada
constituir
Por ejemplo, puede
una
independiente.
dividirse 200 tems cortos en 5
precisin
formatos de 40 tems cada uno,
forma
puede
muestra
Puede obtenerse
ms
alta
utilizando
estratificaciones por subcontenido e
aplicar uno con rotacin dentro del
tems comunes entre las diversas
aula a cada estudiante y a la vez
formas.
tener dos formatos especiales, cada

uno con dos tareas largas, para
Reducir
las
limitaciones
de
aplicar stos a una submuestra muy
contenido. Invertir lo necesario
pequea, quizs de 100 estudiantes
para ampliar la cobertura curricular
en la poblacin total. La validez y
de las mediciones tanto en detalle
precisin de una medicin al nivel
(utilizar
del grupo son mucho mayores
medianamente difciles y difciles
utilizando un diseo de 200 tems,
en cada punto del currculo) como
cada uno con respuestas de N/5 o
en alcance (incluir aspectos de cada
tems
fciles,
10
parte
del
profundidad
contenido)
(utilizar
en
una prueba para mostrar al pblico sus
tems
de
contenidos
respuestas,
pero
luego
los
respuesta abierta, tareas grandes,
estudiantes podran practicar esos tems a fin
experimentos, etc.)
de prepararse para la siguiente evaluacin, lo

cual sesgara considerablemente los resultados
5. Comparabilidad
Problema:
de sta. Tambin existe el peligro de que los
Las equiparaciones entre aos
muchas veces resultan siendo invlidas o muy

imprecisas, razn por la cual las inferencias
sobre cambios no son confiables. Se pretende
medir
cambios,
pero
cambiamos
instrumentos de medicin!
los
Por un lado, el
nmero de tems comunes entre pruebas de

diversos aos es limitado y cubre solo una parte
de sus contenidos.
docentes modifiquen sus clases para preparar a

los estudiantes especficamente para la prueba
previamente conocida, en lugar de ensear con
referencia a los objetivos generales del currculo.
Es sabido que los programas de evaluacin que
intentan usar la misma prueba a lo largo de
varios aos siempre se encuentran con que los
puntajes se elevan cada ao.
Luego, la metodologa
Un argumento a favor de diseos matriciales
estadstica y la programacin para el proceso de
como los anteriormente descritos es que
equiparacin son bastante complejas. Esto hace
contienen un nmero grande de tems y la
que
aplique
confidencialidad o seguridad de los mismos no
incorrectamente los programas de anlisis de
es un problema tan crtico, especialmente si la
datos basados en la TRI (teora de respuesta al
cobertura curricular de la prueba es amplia. En
tem).
de
este caso, el ensear para la prueba podra
hacer
estar representando efectivamente lo mismo que
muy
frecuentemente
Dado
equiparaciones
se
que
los
utilizan
se
resultados
para
comparaciones, es decir, para estimar mejoras o
ensear el currculo.
deterioros en puntajes, y dado que estas

estimaciones incluyen (1) diferenciales reales,
Los sistemas de evaluacin deberan tener un
(2) errores de muestreo en ambos momentos y
plan claro sobre cmo proceder de ao en ao en
(3) error de equiparacin, es necesario que esta
lo que se refiere al muestreo y uso de tems ya
ltima fuente de error sea calculada y tomada en
aplicados en anteriores oportunidades, a la
cuenta.
construccin y seleccin de nuevos tems y a la

reserva
de
algunos
de
stos
para
aos
Por razones prcticas y educacionales, no es
posteriores.
factible repetir exactamente las mismas pruebas
tems que se usarn para la equiparacin tiene
usadas para una evaluacin en una siguiente.
que mantenerse en secreto y ser incluido de un
Siempre es necesario publicar alguna parte de
ao de aplicacin al siguiente, a fin de mantener
En primer lugar, el conjunto de
11
la escala de puntajes. En segundo lugar, tiene
representar inadecuadamente los cambios en la
que seleccionarse un conjunto de tems que
escritura. Si la muestra no es suficientemente
sern liberados para ser publicados como
grande, la equiparacin tendr imprecisiones
ilustraciones de contenidos y respuestas , que
aleatorias y
luego tendrn que ser removidos para siempre de
estimados de un ao a otro no tendrn
las pruebas. Finalmente, en cualquier ao de
explicacin vlida alguna.
desconocidas
los
cambios
aplicacin, todo el resto de los tems debe ser

Soluciones. El diseo de las pruebas y sus
nuevo.
diversas formas, la determinacin de los

Este
diseo
algunas
tamaos de las muestras, la aplicacin matricial
El conjunto de tems para la
de formas rotadas a muestras de estudiantes, el
equiparacin puede ser usado para establecer
anlisis de calibracin y equiparacin de pruebas
vnculos entre ms de dos aos de aplicacin
y la evaluacin de los errores de medicin y
(AB, AC, AD,) o puede serlo entre pares de
muestreo
aos (AB, BC, CD,...). El tercer conjunto puede
complejas que requieren atencin estadstica y
incluir tanto tems viejos como nuevos es
psicometra de alto nivel.
variaciones.
decir,
tems
bsico
que
puede
han
tener
sido
usados
con
anterioridad y no fueron liberados, aunque no

utilizados
explcitamente
para
realizar
son
tareas
tcnicamente
muy
Dedicar ms tiempo al diseo del

sistema de pruebas y del muestreo,
la
con consideracin detallada de las
equiparacin.
necesidades de equiparacin y la
A fin de proveer un vnculo fuerte para las
precisin que necesita tenerse.
escalas de un ao a otro, la muestra usada para la

equiparacin debe ser una buena muestra de la
El diseo debe asegurar suficiente
prueba completa, en dos sentidos: (1) necesita
disponibilidad
ser representativa de todos los aspectos del
necesarios
dominio de contenidos y medicin y (2) necesita
(tems, contenidos, muestras).
ser suficientemente grande. Si la muestra no es
representativa de la totalidad de la prueba, la
Realizar
de
los
datos
para la equiparacin
las
equiparaciones
contando con programas modernos,
equiparacin puede resultar siendo sesgada hacia
analistas bien entrenados, anlisis
los contenidos incluidos. Por ejemplo, si tanto
rigurosos y asesoramiento de alto
la lectura como la escritura estn incluidas en
nivel.
una prueba, pero la equiparacin se basa

solamente en lectura, la equiparacin de un ao
a otro seguir los cambios en lectura y
Obtener
verificacin
juicios
independientes sobre los anlisis.
12
Determinar el error estndar de
y de los docentes que estaran supuestamente
calibracin e incluirlo en el anlisis
correlacionadas con el rendimiento, tales como
del error total.
el tipo de administracin, la edad y aos de

experiencia de los profesores, su formacin y
credenciales, el nmero de alumnos por aula,
6. Anlisis e interpretacin del
indicadores de diferencias en el proceso de
contexto
enseanza, pero resultan bastante indirectos. La
Problemas. En Amrica Latina, el diseo,

anlisis y reportaje de evaluaciones de logros
suele realizarse prescindiendo de un marco
conceptual integral referido a cmo ocurre el
aprendizaje dentro del sistema escolar.
Es
necesario desarrollar ese marco, de manera que

sea posible organizar adecuadamente qu datos
se recoger, qu variables se medir y qu
anlisis se realizar.
realidad nos indica que las correlaciones entre

rendimiento y este tipo de variables son dbiles
y a veces son incluso inversas a lo anticipado.
En cambio, no se recoge informacin suficiente
sobre partes importantes del ambiente escolar y
de la enseanza. Tampoco se mide de manera
precisa procesos fundamentales de la enseanza
tales como tiempo, tipo y contenido de
instruccin, o sea oportunidad de aprender. Es
Muchos de los determinantes o factores

asociados de los logros de aprendizaje sobre los
cuales estamos recogiendo informacin en
Amrica Latina tienen que ver con factores de
clase social del alumno.
etc. Puede ser que estas variables constituyan
Esto es sumamente
importante, ya que uno de los efectos deseables

del proceso de educacin debera ser disminuir
las diferencias de rendimiento entre pobres y
ricos, pobladores urbanos y rurales, etc. Si bien
no es factible modificar en el corto plazo la
distribucin de estos factores, es importante
monitorear las diferenciaciones sociales que el
sistema de educacin contribuye a reproducir.
Otro conjunto de variables que se suele medir
corresponde a las caractersticas de las escuelas
necesario tambin realizar observaciones de

prcticas y conductas en el aula que tienen
influencia directa en el proceso de aprendizaje y
que podran modificarse va programas de
entrenamiento, seleccin de maestros, textos
escolares, incentivos, etc.
Sin informacin directa sobre los hechos y
acciones que ocurren en el aula, es difcil
imaginar cmo llegar a una teora o modelo
comprobable de aprendizaje escolar. Como se
mencion anteriormente, necesitamos tambin
datos longitudinales para medir lo que aprenden
los estudiantes y no slo lo que saben.
La
combinacin de observaciones en el aula con

datos longitudinales (pre-test y post-test) es
rarsima en Amrica Latina, como lo es tambin
13
en otras partes del mundo.
elementos,
posiblemente
Sin estos dos

tendremos
mismo,
que
sea
el
cambio
en
conocimientos.
abandonar la pretensin de realizar anlisis de

factores asociados que vayan mucho ms all
7. Anlisis e interpretacin de
que la simple presentacin de correlaciones, sin
logros
mayores interpretaciones.
Problema. Despus de una inversin enorme en
Soluciones. Adoptar una teora integral sobre el
implementar un sistema de evaluacin de logros,
aprendizaje y hacer un diseo de evaluacin
los resultados presentados pueden ser percibidos
completamente nuevo.
como demasiado simples, por un lado, y difciles
de interpretar, por el otro.

Determinar cules son las variables
crticas que afectan la enseanza y
Las definiciones de los constructos para las
el aprendizaje, especialmente para
pruebas se realizan a nivel global (lenguaje,
medir oportunidades de aprender e
matemticas,
etc.)
inversin de tiempo.
ponderaciones
que
con
referencia
corresponden
a
los
programas de estudio o a alguna definicin de
Hacer lo que sea necesario para
desarrollo
medir dichas variables.
matemticas,
Definir variables crticas sobre el

contenido de la instruccin (por
ejemplo,
tiempo
dedicado
diferentes materias, proporcin de

material
nuevo
de
revisin,
puede
Por
haber
ejemplo,
una
tabla
en
de
especificaciones que contempla X contenidos

por Y niveles cognoscitivos, con N tems por
celda.
Este plan asegura una representacin
adecuada del constructo global en el puntaje

total.
presentacin al grupo y al individuo,
Con el mtodo de la TRI, se genera una escala
correccin de tareas) y sobre los
para reportar el rendimiento de estudiantes
conocimientos,
individuales, de distribuciones de grupos, y
habilidades
conductas de los maestros.
intelectual.
Hacer lo que sea necesario para
promedios y cambios en el tiempo. Pero los

nmeros
de
la
escala
son
inicialmente
arbitrarios, sin significacin o interpretacin
medir estas variables.
evidente. Puede tener una media de 500 y una
Utilizar mediciones longitudinales
desviacin estndar de 100. Puede tener media
donde
de 0 y desviacin estndar de 1.
se
mida
el
aprendizaje
No son
porcentajes de ningn conjunto de contenidos.
14
La escala puede adquirir alguna significacin
podemos decir que unos 20 a 30 tems son
mediante el uso de comparaciones normativas.
necesarios para medir un subpuntaje con
Podemos decir, por ejemplo, que un puntaje de
precisin suficiente para interpretarlo, y habr
628 corresponde al nivel mnimo de rendimiento
que agregar otros 10 a 15 para mantener una
del 10% mejor de la poblacin y que el puntaje
equiparacin precisa entre distintos aos. Por lo
433 corresponde al nivel mximo de los 25%
tanto, de una prueba de 100 tems, es posible que
peores de la poblacin -- estos seran los
pueda extraerse dos o tres subpuntajes, pero no
resultados con una escala normal con media de
ms, lo cual es muy poco, comparado con el
500 y desviacin estndar de 100.
nmero de categoras o reas que suele contener
Pero una
interpretacin por normas no equivale a una
un currculo.
evaluacin por criterios. No podemos establecer

o determinar estndares. La distribucin de
puntajes por percentiles no dice nada; toda
distribucin tiene todos sus percentiles, as que
stos resultan tan arbitrarios como la escala
Esta situacin implica que siempre faltar

informacin diagnstica que permita relacionar
el rendimiento diferencial en distintas reas con
factores
asociados,
caractersticas
de
los
estudiantes, aulas, estratos, etc. Asimismo, es
inicial.
difcil relacionar rendimientos especficos con

Puede
ofrecerse
una
interpretacin
mas
esfuerzos correspondientes de enseanza.
sustantiva si se relaciona los puntajes de la

escala con tems ejemplificadores, algo que se
explicar ms adelante, pero el inters de
Soluciones.
muchos usuarios de la informacin suele
realistamente limitadas sobre lo que puede
dirigirse muy rpidamente a subconstructos tales
ofrecer esta clase de evaluaciones de logros.
como expresin escrita, comprensin lectora,
Especficamente,
vocabulario,
palabras;
subpuntajes (por subreas del currculo) sin
aritmtica, geometra, resolucin de problemas,
aumentar enormemente el nmero de tems y los
comunicacin, etc.
costos correspondientes.
decodificacin
de
Aunque es penoso admitirlo, es necesario

reconocer que nuestra tecnologa de evaluacin
de logros a gran escala no permite medir muchos
subconstructos con facilidad. Simplemente, no
habr nmeros adecuados de tems para obtener
muchos subpuntajes precisos y comparables en
el tiempo.
No existe una regla exacta, pero
Hay
no
que
tener
puede
expectativas
haber
muchos
Hay que concentrar
esfuerzos en realizar interpretaciones vlidas y

sustantivas de la escala general y relacionarlas
con el contenido de los tems.
15
Reportar los resultados a travs de
probabilidad
un mapa de tems. Esto consiste en
correctamente, y un tercero, C, que
presentar un nmero razonable de
slo alumnos con puntajes mayores
tems reales con sus grados de
a 650 tendran una probabilidad de
dificultadporcentajes de aciertos
80% de responder correctamente.
y posiciones en la escala de TRI.
stos serian tems de mediana, baja
Se puede ordenar la presentacin de
o alta dificultad y, en conjunto con
estos tems segn su grado de
otros ejemplos, nos ayudaran a
dificultad y segn su contenido y
entender qu pueden hacer los
aadir
estudiantes que obtienen puntajes
una
resultados.
discusin
Puede
de
los
de
producirse
400,
de
500,
650
responderlo
puntos
mapas con ms o menos detalle
intermedios.
Es decir, el mapa
para diferentes audiencias.
concretiza la correspondencia entre

la escala de la prueba y el
Por ejemplo, se puede mostrar un
ordenamiento
tem especfico, A, que corresponde
dificultad
al puntaje 500 en el sentido de que
currculo.
del
por
grado
de
contenido
del
para un estudiante a este nivel de

puntaje general, la probabilidad de
El mapa facilita que los usuarios
responder correctamente el tem de
(educadores, padres de familia,
acuerdo con el anlisis TRI, sera
pblico,
de 80%. As, estudiantes con
comprendan la escala global y las
puntajes
interpretaciones
menores tendran una
curriculistas,
en
al
probabilidad menor a 80% de
rendimiento
responder correctamente ese tem y
componentes de la materia.
mejores estudiantes tendran una
anticipa que tems de diferentes
probabilidad mayor.
se
componentes se concentren en
identifica con el punto de la escala
puntos altos o bajos de la escala, lo
donde comienza a ser muy probable
que demostrar cules contenidos o
(80%) que los estudiantes den una
cules elementos de cada contenido
respuesta correcta.
son
El tem
en
cuanto
etc.)
especialmente
diferentes
fciles
Se
difciles.
Luego, se puede mostrar otro tem,

B, diciendo que un estudiante con
un puntaje de 400 tendra 80% de
Para hacer un mapa adecuado, hay

que tener un nmero suficiente de
16
tems y resultados que puedan ser
Sin embargo, hay que reconocer
divulgados. Hay que asegurarse de
que la definicin de subescalas y la
que existan tems ejemplificadores
relacin de stas con caractersticas
disponibles para su divulgacin en
de los procesos pedaggicos en el
todas las reas y subreas de
aula son objetivos importantes. El
contenidos y con diferentes niveles
punto es que las pruebas que
de dificultad. Esto requiere mucha
actualmente aplican los sistemas de
atencin en los momentos previos
evaluacin
de planificacin del diseo del
permiten realizar este tipo de
conjunto de tems y formas.
anlisis. Siempre se observa una
gran
escala
no
relacin entre el nmero de tems y

El
procedimiento
general
para
la precisin de la medicin. Puede
hacer comparaciones entre grupos
aumentarse el nmero de tems,
de estudiantes es, en primer lugar,
pero esto es costoso. Una posible
presentar promedios, anlisis de

varianza,
histogramas,
salida a este problema es adoptar en
etc.,
aos subsecuentes diferentes focos
utilizando el puntaje en la escala

como
variable
para la evaluacin, aumentando en
dependiente.
cada caso el nmero de tems
Segundo, utilizar el mapa de tems
especficos a una subrea. As, en
para interpretar las diferencias en
un periodo de varios aos, se dar
trminos de los puntos de la escala
cobertura a las diferentes subreas
y sus correspondencias con los
de una materia.
tems.
8. Conclusiones
Por lo general, no es factible
relacionar
rigurosa
El propsito de este texto ha sido revisar algunas
con
cuestiones bsicas tericas y tcnicas que
caractersticas de los estudiantes,
subyacen las evaluaciones educativas a gran
aulas,
Debera
escala en Amrica Latina.
directas
especial atencin a problemas y soluciones
entre grupos en trminos de tems
vinculadas a los puntos siguientes, en los cuales
especficos o subpuntajes. stas
resalto lo que considero son mis sugerencias ms
seran muy difciles de justificar
importantes:
resultados
evitarse
de
manera
por
estratos,
tem
etc.
comparaciones
desde el punto de vista de las

estadsticas de validez.
Se ha prestado
17
Validez. Puede incrementarse la validez de las
logros principal presentando mapas de tems y
evaluaciones si los diseos de las pruebas se
relacionando los tems liberados a diversos
mejoran incrementando el nmero, calidad y
puntajes de la escala.
variedad de los tems que contienen.
Esto
requiere la administracin matricial de formas
Uso de las evaluaciones. El efecto de la clase

social
rotadas.
es
importantsimo,
pero
es
ya
suficientemente bien conocido. Sera muy til

Comparabilidad. Se necesita prestar atencin
que los evaluadores procedieran a utilizar
ms rigurosa a la calibracin y equiparacin de
teoras, modelos, datos y anlisis referidos a
las pruebas, de manera que se pueda tener mayor
caractersticas
seguridad respecto a los indicios que dan
organizacin del aula que puedan modificarse
respecto al cambio educativo. Calibrar se refiere
para obtener mejores resultados.
de
la
enseanza
de
la
a la construccin de escalas numricas para

servir como base constante y rigorosa para
resumir y comunicar los resultados de las
respuestas a los tems y las pruebas, mientras
que la equiparacin se refiere al alineamiento de
dichas escalas entre pruebas diferentes.
Es
necesario saber cun grandes podran ser los

errores de equiparacin.
Estos son procesos
Cmo determinar el impacto del reforma

educacional si no se puede confiar en la validez
de los resultados de las pruebas ni en su
comparabililidad en el tiempo? Lo que se quiere
enfatizar aqu es que, en realidad, con pruebas
que hasta el momento son bastante cuestionables
en su validez y comparabilidad intertemporal,
muchos pases latinoamericanos se encuentran
tcnicamente difciles pero indispensables.
en una posicin inadecuada para evaluar de

Anlisis del contexto. La interpretabilidad y
manera eficaz los impactos de las reformas y
utilidad de la evaluacin depende del anlisis de
que, por lo tanto, deberan ejercer mayor cautela
variables de contexto y asociadas, pero las
al respecto, ya que los cambios aparentemente
posibilidades de realizar inferencias vlidas son
observados podran muchas veces representar
mucho ms altas si el diseo es longitudinal.
meras fluctuaciones de error y sesgo.
Los diseos transversales implican serios riesgos

El progreso real en educacin ser gradual y no
de inferencias equivocadas.
milagroso.
En los trminos de la teora
Anlisis de logros. No es fcil utilizar
informtica: el ruido en nuestras evaluaciones
evaluaciones
debera ser menor que la seal del progreso.
gran
escala
para
obtener
informacin vlida y confiable sobre niveles de

logro en sub-dominios de contenidos.
Puede
mejorarse la interpretacin y uso de la escala de

Grupo de Trabajo Sobre Estándares y EvaluaciónCuestiones - Tecnicas

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Grupo de Trabajo Sobre Estándares y EvaluaciónCuestiones - Tecnicas

Загружено:

Авторское право:

Доступные форматы

Programa de P omocin

Cuestiones tcnicas que

crecimiento, especialmente en lo referido a la

promocin, retencin y desercin.

El presente texto hace referencia al diseo,

evaluaciones a gran escala del logro educativo

pertinente tanto para las evaluaciones nacionales

Las evaluaciones de logros educativos aaden

contabilizar la aprobacin y desaprobacin es un

En la mayora de los pases de la regin existe

evidencia sobre el contenido de los logros.

actualmente algn tipo de recoleccin peridica

Evidentemente, las evaluaciones de logros

de datos que utiliza pruebas educacionales

resultan siendo ms complicadas y costosas que

estandarizadas para proveer anlisis y reportes

la recoleccin y reporte de estadsticas, razn

sobre los niveles de aprendizaje escolar.

por la cual frecuentemente se realizan slo en

Histricamente, este trabajo se puede considerar

grados y materias seleccionados y no todos los

como una extensin del ejercicio ms tradicional

de reportar estadsticas educativas bajo la forma

educativas son realizadas por agencias externas

de extensas memorias anuales que producen los

profesores y escuelas, agregados a nivel de

veces- algunos grficos ilustran los tamaos

resultados y cambios a lo largo del tiempo. El

En algunos pases, las evaluaciones

Asimismo, la mayora de las evaluaciones de

ejemplo- si la amplitud y graduacin de los

lo largo del tiempo. Llevar a cabo aplicaciones

identificar las relaciones entre el logro educativo

censales resulta claramente ms costoso y tiene

y factores correlacionados con la distribucin de

que justificarse sobre la base de la utilidad,

ese logro entre estudiantes, maestros y escuelas.

Algunos de esos factores, tales como la

administrativas que requieran datos especficos

asistencia y atencin de los estudiantes, el

de cada unidad de un sistema escolar.

tiempo y los contenidos de la enseanza y la

Otros, tales como la

organizacin de la escuela, la experiencia y

Cualesquiera sean los propsitos generales de la

Debido a ello, en el presente

documento se da una mirada a los elementos

factores antecedentes o mediadores.

lidiar con ellos. Entre las razones por las cuales

obtenidos por individuos determinan cuestiones

incentivos y premios u orientan la libre eleccin

aqu se les da importancia estn::

Los reportes de las evaluaciones

distintas poblaciones escolares

tales como tipos o localizaciones de

distincin crtica entre evaluaciones educativas

escuelas. As pues, se podra llegar

que estn basadas en muestras de estudiantes y

a introducir cambios en polticas

escuelas y aqullas que se basan en una

recoleccin de datos censal.

significativas o debidas puramente

propsitos, excepto para la administracin y