Вы находитесь на странице: 1из 9

1

TEMA 2
LAS FUNCIONES DE LOS INSTRUMENTOS DE
EVALUACIÓN LINGÜÍSTICA

Tabla de contenido

1 OBJETIVOS ................................................................................................................ 2

2 LOS CONCEPTOS BÁSICOS DE LA EVALUACIÓN EDUCATIVA:


INSTRUMENTO DE EVALUACIÓN, PRUEBA Y MEDIDA ................................. 2

3 CLASIFICACIÓN DE LOS INSTRUMENTOS DE EVALUACIÓN ................... 3

3.1 Pruebas de actuación máxima y pruebas de actuación típica ............................... 3


3.2 Instrumentos con elecciones establecidas e instrumentos de evaluación de
actuaciones complejas .......................................................................................... 4
3.3 Instrumentos de evaluación para la clasificación, la evaluación formativa, la
evaluación diagnóstica y la evaluación sumativa ................................................. 5
3.4 Las pruebas criteriales y las pruebas con referencia a una norma ........................ 5
3.5 Otros tipos de instrumentos de evaluación ........................................................... 7

4 REFERENCIAS BIBLIOGRÁFICAS ...................................................................... 8


2

1 OBJETIVOS

Los resultados específicos del aprendizaje que el estudiante debe alcanzar al final de
este tema son:

1. El estudiante define, distingue, utiliza y relaciona una serie de conceptos


generales de la evaluación educativa.
2. El estudiante define y distingue los diferentes tipos de instrumentos de
evaluación lingüística, identifica la función de un instrumento de evaluación
lingüística y relaciona los tipos de instrumentos de evaluación con diferentes
situaciones en un entorno educativo.

2 LOS CONCEPTOS BÁSICOS DE LA EVALUACIÓN


EDUCATIVA: INSTRUMENTO DE EVALUACIÓN,
PRUEBA Y MEDIDA

Las Normas de Evaluación Educativa y Psicológica definen un instrumento de


evaluación (assessment) como “cualquier método de obtener información a partir de
pruebas y otras fuentes, utilizado con el fin de realizar inferencias acerca de
características de personas, objetos o programas” (American Educational Research
Association, American Psychological Association and National Council on
Measurement in Education, 1999, p. 172)1.
Linn y Gronlund (2000, p. 31) definen como sigue los siguientes conceptos básicos
en la evaluación educativa:

1. Instrumento de evaluación (assessment): un procedimiento para obtener


información acerca del aprendizaje de los estudiantes (como una observación o
una prueba de lápiz y papel) y para realizar juicios de valor acerca del progreso
en el aprendizaje.
2. Prueba (test): tipo de instrumento de evaluación que normalmente consta de una
serie de preguntas que se deben realizar durante un periodo de tiempo
establecido en condiciones razonablemente comparables para todos los
estudiantes.
3. Medida: asignación de números a los resultados de una prueba u de otro tipo de
instrumento de evaluación según una regla específica (como contar las
respuestas correctas o asignar puntos a determinados aspectos de una redacción).
El término medida sólo puede ser aplicado a descripciones cuantitativas de
propiedades de los estudiantes, es decir, el resultado de una medida siempre se

1
En adelante, en las citas de la edición de 1999 de las Normas de Evaluación Educativa y Psicológica (en
inglés, Standards of Educational and Psychological Testing), sustituyo los autores de esta obra
(American Educational Research Association, American Psychological Association y National Council
on Measurement in Education, 1999) por Standards.
3

expresa mediante un número y, por tanto, no se puede aplicar a descripciones


cualitativas (como “la redacción de María tiene una buena presentación”).

En el Marco Europeo de Referencia el término evaluación es utilizado para referirse


a la evaluación a la competencia lingüística de los usuarios, según se deduce de su
definición del término evaluación: “valoración del grado de dominio lingüístico que
tiene el usuario” (Council of Europe, 2001[2002], p. 171). En adelante yo también
utilizaré el término evaluación para referirme exclusivamente a la evaluación del
dominio lingüístico de los estudiantes.

3 CLASIFICACIÓN DE LOS INSTRUMENTOS DE


EVALUACIÓN

Durante el proceso de evaluación se pueden utilizar muchos tipos de instrumentos de


evaluación, que pueden ser clasificados de diferentes modos según el criterio
clasificatorio utilizado. Linn y Gronlund (2000, p. 46) utilizan la Tabla 1 para describir
los instrumentos de evaluación utilizados en el aula:

Criterio clasificatorio Instrumento de evaluación


Prueba de actuación máxima
El tipo de actuación medida
Prueba de actuación típica
Prueba con elecciones establecidas
Forma de la evaluación Prueba para evaluar una actuación
compleja
Prueba clasificatoria
Prueba formativa
Uso dentro del aula
Prueba diagnóstica
Prueba sumativa
Prueba criterial
Método de interpretar los resultados
Prueba con referencia a una norma
Tabla 1 Procedimientos para la evaluación en el aula.

3.1 Pruebas de actuación máxima y pruebas de actuación


típica

Cronbach (1960) realizó una distinción entre pruebas de actuación máxima y pruebas de
actuación típica:

1. Las pruebas de actuación máxima son utilizadas con el fin de conocer cómo de
bien actúa una persona cuando se le pide que se esfuerce al máximo. La
propiedad distintiva de una prueba de actuación máxima es que se anima a que
el examinando obtenga la máxima puntuación que pueda. El examinando debe
desear hacer la prueba bien y debe comprender qué se considera que es una
buena actuación (Cronbach, 1984, pp. 28-29). Linn y Gronlund (2000, p. 38)
distinguen dos tipos de instrumentos para evaluar la actuación máxima:
4

1. La prueba de aptitud, cuyo objetivo principal es predecir el éxito en una


actividad de aprendizaje futura.
2. La prueba de aprovechamiento, cuyo objetivo es indicar el grado de éxito
en una actividad de aprendizaje pasada.

2. Las pruebas de actuación típica intentan estimar la respuesta típica, es decir,


“lo que la persona hace o siente más a menudo en una situación específica
recurrente o una clase amplia de situaciones” (Cronbach, 1984, p. 28). Cronbach
(ibid.) usó el siguiente ejemplo para ilustrar el concepto de prueba de actuación
típica:

Los que contratan a un ejecutivo cuyo éxito en el pasado garantiza su capacidad también
desean conocer cómo trabaja normalmente. ¿Supervisa en gran medida, hasta el más
mínimo detalle? ¿O esboza una tarea general y da libertad a sus subordinados? ¿Se
preocupa en la misma medida de la producción, los problemas humanos y las finanzas?
¿Prefiere la planificación a largo plazo o una adaptación rápida?

Para determinar esta conducta típica, se evalúan aspectos como los intereses, las
actitudes, la adaptación y otras propiedades mediante entrevistas, cuestionarios,
registros de anécdotas, escalas de valoración y otros procedimientos
observacionales y autodescriptivos. Ninguno de estos procedimientos permite
una evaluación adecuada de la conducta típica, pero la combinación de varios
instrumentos permite que el evaluador realice juicios bastante precisos acerca de
esa conducta típica.

3.2 Instrumentos con elecciones establecidas e instrumentos


de evaluación de actuaciones complejas

Las pruebas con elecciones establecidas (fixed-choice tests) incluyen, por ejemplo, las
pruebas con ítems de elecciones múltiples, las pruebas con ítems de verdadero/falso y
las pruebas con actividades de relacionar.
A partir de los años 90 se ha empezado a utilizar un tipo de instrumento de
evaluación bastante diferente de las pruebas con elecciones establecidas, que se basa en
actividades prolongadas y en el análisis de las actuaciones complejas de los estudiantes:
las pruebas de actuación. Fitzpatrick y Morrison (1971, p. 268) definieron una prueba
de actuación (performance test) como

una prueba en la que una situación que funciona como criterio, como un empleo, es
simulada en un grado relativamente elevado… El valor potencial de la prueba de actuación
radica en su gran parecido con la realidad–su mayor relevancia en la determinación del
grado en que el examinando puede realmente realizar las actividades del empleo o de otras
situaciones que funcionan como criterio.

Las pruebas de actuación lingüística obligan a que “los candidatos produzcan una
muestra de lengua, escrita o hablada (por ejemplo, redacciones y entrevistas orales).
Estos procedimientos están diseñados para reproducir la actuación tal como se produce
en contextos reales de comunicación” (Association of Language Testers In Europe
[ALTE] Members, 1998, pp. 198-199).
5

3.3 Instrumentos de evaluación para la clasificación, la


evaluación formativa, la evaluación diagnóstica y la
evaluación sumativa

Airasian y Manaus (1972, p. 222) distinguieron cuatro tipos de evaluación en el aula en


función de, entre otros criterios, el momento en el que se recogen las evidencias (time of
evidence gathering):

1. Instrumento de evaluación para la clasificación, cuyo objetivo es clasificar a


los estudiantes mediante “la determinación del grado en que las conductas o
destrezas necesarias para el comienzo están presentes o ausentes”. Este
instrumento de evaluación se utiliza “antes del comienzo de la unidad de
enseñanza”.
2. Instrumento de evaluación formativo, cuyo objetivo es “proporcionar
retroalimentación continua al profesor con el fin de:

1. elegir o modificar las experiencias de aprendizaje siguientes


2. establecer medidas de apoyo para las deficiencias individuales o grupales”.

El instrumento para la evaluación formativa se utiliza “varias veces antes de la


finalización de la enseñanza en un segmento predefinido (unidad, capítulo,
etc.) de una asignatura”.
3. Instrumento de evaluación diagnóstico, cuyo objetivo es “reconocer los
síntomas psicológicos, físicos o ambientales que manifiestan los estudiantes con
problemas de aprendizaje y/o en el aula extraordinarios o recurrentes”. El
profesor debería utilizar este tipo de instrumentos especialmente “cuando las
dificultades de aprendizaje o en el aula no pueden ser explicadas en relación a
variables cognitivas o de la enseñanza”.
4. Instrumento de evaluación sumativo, cuyo objetivo es “proporcionar una
calificación, certificar o dar fe del aprendizaje de los estudiantes o de la
efectividad de los profesores”. Este instrumento se utiliza después de la
finalización de una unidad, asignatura o curso académico”.

3.4 Las pruebas criteriales y las pruebas con referencia a una


norma

A continuación presento una clasificación de las pruebas extremadamente importante


para la evaluación: las pruebas normativas (norm-referenced tests) y las pruebas
criteriales (criterion-referenced tests). En 1962 Glaser y Klaus (1962, p. 421) realizaron
una distinción entre las medidas que toman como referencia un criterio (criterion-
referenced measures) y las medidas que toman como referencia un modelo de desarrollo
normal (norm-referenced measures), que ha tenido mucha trascendencia en la
evaluación educativa, especialmente en el diseño de las pruebas de aprovechamiento:

La conducta del componente humano en un sistema puede ser evaluada para varias
finalidades… Las puntuaciones en una prueba de competencia pueden ser utilizadas para
indicar (1) el grado en que un individuo ha realizado una actuación que es considerada un
criterio–por ejemplo, si el hombre A puede realizar satisfactoriamente una comprobación
para el mantenimiento de un determinado tipo de radar, y (2) la ordenación relativa de
6

individuos con respecto a una determinada tarea–por ejemplo, si el hombre monta fusibles
más rápidamente que el hombre C. La diferencia principal entre estos dos usos radica en el
criterio (standard) utilizado como referencia. Las medidas que toman como referencia un
criterio (criterion-referenced measures) dependen de un criterio absoluto de la calidad
mientras que las medidas que toman como referencia un modelo de desarrollo normal
(norm-referenced) dependen de un criterio relativo.

Quizá con los siguientes ejemplos quedará más clara esta distinción. Como profesora de
educación secundaria, enseño inglés a grupos de estudiantes de educación secundaria en
Andalucía utilizando como guía una serie de manuales de inglés, cuyos autores se han
basado en el currículo para el área de lenguas extranjeras (inglés) vigente en este
momentos. Después de cada unidad diseño una prueba y obtengo una puntuación para
cada estudiante independiente de las puntuaciones obtenidas por los otros estudiantes,
a partir de la cual infiero el grado de adquisición que el estudiante posee de los
contenidos que yo he enseñado en esa unidad. Davies et al. (1999, p. 38) definen una
prueba criterial (criterion-referenced test) como

una prueba que examina el nivel de conocimiento de, o la actuación en, un dominio
específico de conductas meta (es decir, el criterio) que se exige que el examinando haya
dominado. El dominio de la prueba es normalmente, pero no necesariamente, un programa
específico de enseñanza…
Las puntuaciones en la prueba indican la capacidad de un candidato en relación al
criterio, es decir, lo que el candidato sabe y no sabe hacer, en lugar de comparar su
actuación con la de otros examinandos de la población correspondiente, como ocurre en las
pruebas con referencia a una norma. A menudo los resultados son comunicados utilizando
escalas descriptivas en lugar de una puntuación numérica 2.

Frente a las pruebas que utilizan un criterio como referencia, existe otro gran tipo de
pruebas, las pruebas que utilizan como referencia un grupo normal. Voy a explicarlo
con un ejemplo tomado del diagnóstico de los trastornos lingüísticos específicos en los
niños: para evaluar el grado de desarrollo lingüístico de un niño que se sospecha que
puede tener un trastorno lingüístico específico, el niño suele realizar, entre otras cosas,
una prueba lingüística. El equipo de evaluación suele concluir que el niño tiene un
trastorno lingüístico si, entre otras cosas, el niño obtiene en esta prueba una puntuación
relativamente baja (por ejemplo, entre 1.5 y 2 desviaciones típicas por debajo de la
media de los alumnos de su misma edad en los estados de Arizona y Nueva York)
(Spaulding, Plante y Farinella, 2006, pág. 61). Lo que quiero resaltar es que el equipo
de evaluación compara la actuación del niño en la prueba con las actuaciones de otros
niños de su misma edad en la misma prueba. Davies et al. (1999, p. 130) definen una
prueba con referencia a una norma (norm-referenced test) como

2
Davies et al. (1999, pp. 37-38) asocian tres conceptos diferentes al término criterio:

1. Una variable externa como un programa, el juicio de un profesor, una actuación en el mundo
real, u otra prueba. El objetivo de una prueba es proporcionar un medio de representar el criterio
ya que normalmente no es posible observar/medir todos los elementos del criterio. La actuación
en la prueba es utilizada para predecir la actuación de una examinando en el criterio.
2. Un nivel aceptable de conocimiento de, o actuación en, un dominio específico de conductas
lingüísticas (por ejemplo, el inglés para los controladores aéreos).
3. Una propiedad a partir de la cual se valora la actuación en la prueba. Una buena actuación en una
tarea de una prueba puede ser descrita en relación a criterios lingüísticos y no lingüísticos. Por
ejemplo, si la tarea es escribir una carta, los criterios lingüísticos pueden incluir la fluidez, la
coherencia y la cohesión, y la precisión gramatical.
7

un tipo de prueba mediante la cual las puntuaciones de un candidato son interpretadas con
referencia a la actuación de los otros candidatos. Por tanto, la calidad de cada actuación no
es juzgada por sí misma, o con referencia a algún criterio externo, sino según la norma
(standard) del grupo en su totalidad. En otras palabras, las pruebas con referencia a una
norma están más interesadas en distribuir a los individuos en un continuo de capacidad, la
curva de capacidad, que en la naturaleza de la actividad que se debe alcanzar, que
constituye el centro de la atención en las pruebas criteriales…

3.5 Otros tipos de instrumentos de evaluación

Linn y Gronlund (2000, pp. 44-47) mencionan otros tipos de instrumentos de


evaluación:

1. Pruebas informales y pruebas estandarizadas: Las pruebas informales son


pruebas construidas por los profesores, mientras que las pruebas
estandarizadas son diseñadas por especialistas en evaluación y administradas,
puntuadas e interpretadas en condiciones estandarizadas. Davies et al. (1999, p.
187) definen una prueba estandarizada como sigue:

Una prueba que idealmente tiene las siguientes características, aunque las pruebas
lingüísticas llamadas estandarizadas no siempre poseen todas estas características:

 Un desarrollo riguroso, un ensayo y un proceso de revisión, que determinan las


propiedades métricas de la prueba…
 Procedimientos normalizados para la convocatoria y la puntuación de la prueba.
Las puntuaciones en bruto a menudo son transformadas en percentiles o en
puntuaciones z en los informes;
 El contenido de la prueba está normalizado en todas las versiones. Este contenido
está basado en un conjunto de especificaciones de la prueba que pueden reflejar
una teoría de la competencia lingüística o una concepción de las necesidades
previstas de los candidatos. Las formas alternativas de la prueba son examinadas
para comprobar si existe equivalencia en los contenidos.

2. Pruebas individuales y pruebas grupales: En las pruebas individuales el


estudiante responde las preguntas sin la participación de sus compañeros,
mientras que las pruebas grupales son administradas a un grupo de estudiantes.
3. Pruebas de dominio específico (mastery test) y pruebas de dominio (survey
tests): una prueba de dominio específico es una “prueba diseñada para
establecer si un alumno ha llegado a dominar un campo bien definido de
destrezas o conocimiento” (Association of Language Testers in Europe Members,
1998, p. 199). Una prueba de dominio “mide la capacidad o destreza general,
sin referirse a ningún curso o conjunto de materias en particular” (ibid.).
4. Pruebas de proporcionar y pruebas de selección: En las pruebas
consistentes en proporcionar (supply tests) los examinandos proporcionan la
respuesta (como ocurre, por ejemplo, en una redacción), mientras que las
pruebas consistentes en seleccionar los estudiantes seleccionan la respuesta
correcta a partir de una serie de alternativas (por ejemplo, en las pruebas de
elecciones múltiples).
5. Pruebas de velocidad y pruebas de potencial: Una prueba de velocidad tiene
un

tiempo limitado para su realización. Los candidatos más lentos reciben una
puntuación más baja porque no llegan a resolver las últimas preguntas.
Generalmente en este tipo de pruebas la dificultad de las preguntas es tal que
8

normalmente un candidatos respondería de forma correcta, si no fuera por al


limitación de tiempo” (Association of Language Testers in Europe Members, 1998, p.
200).

Una prueba de potencial es una “prueba cuya duración permite que casi todos
los candidatos puedan terminarla, pero que contiene algunas actividades o ítems
con un grado de dificultad que hace poco probable que la mayoría de los
candidatos responda correctamente a cada ítem” (Association of Language
Testers in Europe Members, 1998, p. 199). Schmeiser y Welch (2006, p. 339)
definen una prueba de potencial como aquélla donde por lo menos el 90% de los
candidatos tienen tiempo para meditar sus respuestas en todos los ítems de la
prueba.
6. Pruebas objetivas y pruebas subjetivas: En una prueba objetiva los
examinandos que tienen la misma competencia obtienen la misma puntuación
(por ejemplo, en una prueba de elecciones múltiples), mientras que en una
prueba subjetiva las puntuaciones están influidas por la opinión o por el juicio
de la persona que puntúa (por ejemplo, en una redacción).

4 REFERENCIAS BIBLIOGRÁFICAS

AIRASIAN, Peter W.; MADAUS, George J. “Functional types of student evaluation”.


Measurement and Evaluation in Guidance. 1972, vol. 4, pp. 221-233.
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION; AMERICAN
PSYCHOLOGICAL ASSOCIATION; NATIONAL COUNCIL ON
MEASUREMENT IN EDUCATION. Standards for educational and psychological
testing. Washington, D.C.: American Educational Research Association, 2014.
ASSOCIATION OF LANGUAGE TESTERS IN EUROPE MEMBERS. Multilingual
glossary of language testing terms. Cambridge: Cambridge University Press, 1998.
COUNCIL OF EUROPE. Common European Framework of Reference for Languages:
Learning, Teaching, Assessment: Language examining and test development.
Council of Europe, Language Policy Division: Council of Europe, 2001. Tr. esp.:
CONSEJO DE EUROPA. Marco europeo de referencia para el aprendizaje, la
enseñanza y la evaluación de Lenguas. Madrid: Instituto Cervantes, 2002.
Disponible en Internet: <http://cvc.cervantes.es/obref/marco/cvc_mer.pdf>.
Council of Europe. 2018. Common European Framework of Reference for Languages:
Learning, Teaching, Assessment. Companion Volume with New Descriptors.
[Documento de Internet disponible en https://rm.coe.int/cefr-companion-volume-with-
new-descriptors-2018/1680787989]
CRONBACH, Lee J. Essentials of psychological testing. New York: Harper and Row,
1960.
CRONBACH, Lee J. Essentials of psychological testing. New York: Harper and Row,
1984.
DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom;
McNamara, Tim F. Dictionary of language testing. Cambridge: Cambridge
University Press, 1999.
FITZPATRICK, Robert; MORRISON, Edward J. “Performance and product
evaluation”. En: THORNDIKE, Robert L. (ed.). Educational Measurement.
Washington, D.C.: American Council on Education, pp. 237-270.
9

GLASER, Robert; KLAUS, David J. “Proficiency measurement: assessing human


performance”. En: GAGNÉ, Robert M. (ed.). Psychological principles in system
development. New York: Holt, Rinehart and Winston, 1962, pp. 419-475.
LINN, Robert L.; GRONLUND, Norman E. Measurement and assessment in teaching.
Upper Saddle River: Merrill, 2000.
PAPAGEORGIU, Spiros. Setting performance standards in Europe. Frankfurt am
Main: Peter Lang, 2009.
SCHMEISER, Cynthia B.; WELCH, Catherine. “Test development”. En: BRENNAN,
Robert L. (ed.). Educational Measurement. Westport, Connecticut: American
Council on Education; Praeger, pp. 307-353.
SPAULDING, Tammie J.; PLANTE, Elena; FARINELLA, Kimberly A. “Eligibility
criteria for language impairment: is the low end of normal always appropriate?”.
Language, Speech and Hearing Services in Schools. 2006, vol. 37, nº. 1, págs. 61-72.
TSAGARI, Dina and Jayanti BANERJEE. Handbook of second language assessment.
Boston, Berlin: Walter de Gruyter, 2016.

Вам также может понравиться