Академический Документы
Профессиональный Документы
Культура Документы
www.elsevier.es
Artculo original
PALABRAS CLAVE
Evaluacin del aprendizaje; exmenes escritos;
preguntas de opcin mltiple; educacin mdica de
pregrado; Mxico.
Resumen
Introduccin: Los exmenes de opcin mltiple son la herramienta ms utilizada en la evaluacin del conocimiento en estudiantes de medicina. Se ha demostrado que tres opciones para
cada tem son suficientes, sin embargo, muchos exmenes en nuestro medio an estn compuestos por preguntas con cinco opciones. El estudio de los distractores no funcionales (DNF)
es necesario para mejorar la calidad de los exmenes.
Objetivo: Identificar los DNF y su comportamiento en una evaluacin sumativa de altas consecuencias en estudiantes de medicina.
Mtodo: Se realiz anlisis psicomtrico del Examen Profesional Terico de la Facultad
de Medicina de la Universidad Nacional Autnoma de Mxico (UNAM), en la versin de 2008.
Se calcularon dificultad, discriminacin y correlacin punto-biserial de cada tem y de sus
cuatro distractores. Se obtuvo la frecuencia de preguntas con cero a cuatro DNF y se valoraron las diferencias de DNF por tem y sus caractersticas psicomtricas. Se contrast el
Correspondencia: Melchor Snchez Mendiola. Secretara de Educacin Mdica. Av. Universidad N 3000, Edif. B, 3er piso, C.U.,
C.P. 04510, Mxico D.F., Mxico. Telfono: (5255) 5623 2448. Fax: (5255) 5616 2346. Correos electrnicos: melchorsm@gmail.com
melchors@liceaga.facmed.unam.mx
ISSN 2007-5057 - see front matter 2013 Facultad de Medicina Universidad Nacional Autnoma de Mxico. Publicado por Elsevier Mxico. Todos los derechos reservados.
203
comportamiento psicomtrico del examen completo, con una versin en la que se eliminaron
los tems con cuatro DNF.
Resultados: El examen tuvo 420 reactivos de opcin mltiple con cinco opciones de respuesta,
fue contestado por 882 sustentantes. El instrumento tuvo un alfa de Cronbach de 0.93. De los
1 680 distractores evaluados, slo 788 (46.9%) fueron funcionales. Ms de dos tercios del total
de tems contaron con dos o ms DNF. Se encontr un promedio de 2.12 0.99 DNF por tem, la
mayora de los cuales fueron elegidos por menos de 5% de los sustentantes. A mayor cantidad
de DNF, mayor ndice de dificultad y menor poder de discriminacin de los tems.
Conclusiones: Los tems con dos distractores funcionales comprenden la mayora de los reactivos del examen. Dos distractores plausibles representan una alternativa asequible para
elaborar los tems, manteniendo o mejorando la confiabilidad y el perfil psicomtrico de este
tipo de evaluaciones.
KEYWORDS
Learning assessment; written tests; multiple choice
questions; undergraduate
medical education; Mexico.
Introduccin
Las ciencias de la salud, incluyendo la medicina, consisten en un conjunto complejo de disciplinas que avanzan
continuamente en la generacin de conocimiento y tecnologa. Las instituciones de salud y de educacin superior
enfrentan los mltiples retos que implican la enseanza,
el aprendizaje y la evaluacin de dichos conocimientos y
habilidades, en las diferentes poblaciones de estudiantes
que son formados en las mismas.
La evaluacin del aprendizaje en educacin es un proceso continuo, sistemtico y reflexivo a travs del cual se obtiene informacin cuantitativa y cualitativa pertinente, vlida y fiable acerca de un objeto, lo cual permite identificar
fortalezas y reas de oportunidad para emitir un juicio de
su vala o mrito y tomar decisiones fundamentadas orientadas a su perfeccionamiento.1,2 Existe una gran variedad de
204
Jurado-Nez A et al
Mtodo
Los datos empleados en el presente estudio corresponden
a la informacin obtenida de los resultados de la Fase
Terica del Examen Profesional de la Facultad de Medicina
de la UNAM, aplicado en enero de 2008. En esa ocasin
el instrumento se aplic a la poblacin de estudiantes
que acreditaron el quinto ao de la carrera de medicina. El instrumento estuvo compuesto por 420 reactivos en
formato de opcin mltiple, con cinco opciones de respuesta (una correcta y cuatro incorrectas o distractores).
La prueba explor seis reas de conocimiento: Medicina
Interna, Pediatra, Gineco-obstetricia, Urgencias, Ciruga
y Medicina familiar. El examen se aplic en condiciones
estandarizadas en instalaciones de la Facultad, las respuestas se registraron en hojas de lector ptico.
La base de datos se analiz mediante la Teora Clsica de los Test (TCT) a travs del programa ITEMAN 3.5
(Assessment Systems Corporation, Minnesota, EUA www.
assess.com), con el que se obtuvieron los datos psicomtricos de manera global, de cada tem y de cada distractor, calculando los ndices de dificultad, de discriminacin
y la correlacin punto-biserial, como se report previamente.18
Los resultados obtenidos se sometieron a un anlisis
de frecuencia para las opciones de respuesta, identificando qu porcentaje de sustentantes respondi cada una de
las opciones. Se defini operacionalmente a los distractores como no funcionales (DNF), tomando en cuenta su
desempeo psicomtrico, a partir de su asignacin a cualquiera de las siguientes categoras: frecuencia menor o
igual a 1%, frecuencia menor a 5%, discriminacin positiva y no discriminacin. Un distractor que es elegido por
muy pocos sustentantes es un distractor que no cumple su
funcin evaluativa (puede ser que no sea plausible o que
tiene alguna falla en el diseo que hace que los estudiantes lo descarten como opcin), y un distractor que no discrimina a los estudiantes o que tiene una discriminacin
positiva (es decir, es elegido por los mejores estudiantes
con mayor frecuencia que por los estudiantes con desempeo ms bajo) tambin es una bandera roja de que ese
distractor debe ser revisado por los elaboradores del examen y expertos en contenido.
Se obtuvo el porcentaje de preguntas que contenan
de cero a cuatro DNF para cada rea de conocimiento y
para el examen en general. Se calcul el ndice de dificultad y discriminacin media para cada grupo de preguntas
con nmero determinado de DNF, para el examen en conjunto y para cada una de las reas de conocimiento que
205
Resultados
El Examen Profesional Terico de la Facultad de Medicina
de la UNAM analizado, tuvo lugar en las instalaciones de
la institucin el mes de enero de 2008, y el nmero
de sustentantes que contest el examen fue de 882. Respecto al conjunto global de la prueba, se encontr que el
promedio de dificultad clsica fue de 54.95% de aciertos,
su confiabilidad medida con el coeficiente de Cronbach
tuvo un a=0.93 y el error estndar de medicin (EEM) de
8.67.
El nmero total de opciones del examen fue de 2 100,
compuesto de 420 respuestas correctas y 1 680 distractores u opciones incorrectas. El 53.1% (892) de los distractores evaluados se clasific como no funcional (DNF).
Solamente 18 tems (4.3%) tuvieron los cuatro distractores funcionales. Treinta y cuatro tems (8.1%) no tuvieron
ningn distractor funcional. El nmero de DNF por tem
fue de 2.12 0.99 (media desviacin estndar). Los resultados de frecuencia se presentan en la Tabla 1.
Al clasificar a los DNF, se encontr que 74% de ellos
fueron elegidos por menos del 5% de los sustentantes,
36.4% fue respondido por 1% o menos de la poblacin,
20% tuvo un ndice de discriminacin positiva y 6.1% no
discrimin. Cinco reas del examen contenan, por lo menos, tres tems con ningn DNF y uno con cuatro DNF. El
rea de Ciruga, en contraste, tuvo el mayor nmero de
tems con cuatro DNF y ninguno con todos los distractores
funcionales. El comportamiento de DNF en cada rea de
conocimiento se muestra en la Tabla 2.
Tabla 1. Frecuencia de distractores no funcionales (DNF) en el Examen Profesional Terico de la Facultad de Medicina de la UNAM,
aplicacin 2008.
DNF por tem
Total de tems
Frecuencia (%)
18
4.3
96
22.9
156
37.1
116
27.6
34
8.1
Discusin
El presente trabajo describe una evaluacin del comportamiento de todos los distractores utilizados en una aplicacin del Examen Profesional Terico de la Facultad de
Medicina de la UNAM, la prueba sumativa de altas consecuencias que se aplica al final de la carrera de mdico cirujano en nuestra Institucin. Hasta donde pudieron identificar los autores, se trata de uno de los pocos reportes
en la literatura disponible, publicada en Latinoamrica,
sobre los distractores de POM en exmenes sumativos en
escuelas de medicina.
La evaluacin en medicina representa un gran reto,
especialmente aquella de altas consecuencias; los instrumentos deben ser construidos para evaluar no slo el conocimiento puntual o memorstico sino niveles cognitivos
superiores como la aplicacin del conocimiento y la solucin de problemas. La redaccin de tems para evaluaciones sumativas con POM es una labor compleja, intensiva,
que requiere entrenamiento y prctica y que, en cierto
sentido, constituye un arte para los elaboradores de reactivos; las reglas y recomendaciones metodolgicas que
nutren la elaboracin de tems permanece en continuo
desarrollo.5,6,9,11 El proceso de analizar el desempeo del
examen a partir de sus distractores y las caractersticas
psicomtricas de los mismos, es una necesidad imperativa
en la mejora continua de la calidad de la evaluacin del
aprendizaje.
Los distractores deben considerarse una parte importante de los reactivos en los exmenes de opcin mltiple,
que tienen implicaciones para los evaluadores, los sustentantes y en general todos los usuarios de la informacin
obtenida al aplicar una prueba. Ms de medio siglo de investigacin en el tema ha identificado una relacin slida
entre la eleccin de los distractores y la puntuacin global
206
Jurado-Nez A et al
Tabla 2. Comportamiento de distractores no funcionales (DNF) por rea de conocimiento en el Examen Profesional Terico de la Facultad
de Medicina de la UNAM, aplicacin 2008.
Nmero de tems con DNF
rea de conocimiento
0
DNF
1
DNF
2
DNF
3
DNF
4
DNF
Medicina Interna
14
27
19
Pediatra
19
18
22
Ginecoobstetricia
16
36
13
Urgencias
14
25
21
Ciruga
18
22
19
11
Medicina Familiar
15
28
22
18 (4.3%)
96
(22.9%)
156
(37.1%)
116
(27.6%)
34
(8.1%)
Total
Indice de discriminacin
1.00
Indice de dificultad
Correlacin Punto-Biseral
Media
0.80
0.60
0.40
0.20
0.00
2
Nmero de DNF
en los exmenes, por lo que uno de los expertos mundiales en el rea, el Dr. Thomas Haladyna, ha propuesto las
siguientes cinco razones para estudiar el desempeo de
los distractores en los exmenes de opcin mltiple:19
Adelgazar los tems obesos.
Mejorar la calidad de los tems de los exmenes.
Detectar las razones que expliquen los problemas
de desempeo en los tems.
Incrementar los estudios de los procesos cognitivos
en el aprendizaje.
Analizar el funcionamiento diferencial de los distractores.
Estas razones no son slo convincentes, sino que
sugieren que todo el esfuerzo que se aplique en el estudio, anlisis y mejora de los distractores, constituir un
componente importante de los argumentos de evidencia
207
Tabla 3. ANOVA de una va, ndices psicomtricos por grupos de tems (cero a cuatro DNF). Examen Profesional Terico de la Facultad de
Medicina de la UNAM, enero 2008.
ndice de dificultad
ndice de discriminacin
Correlacin punto-biserial
Suma de cuadrados
Grados de libertad
Media cuadrtica
Entre grupos
3.540
0.885
16.017
0.000
22.931
415
0.055
Total
26.472
419
21.619
0.000
5.080
0.001
Entre grupos
1.365
0.341
6.549
415
0.016
Total
7.913
419
Entre grupos
0.335
0.084
6.846
415
0.016
Total
7.181
419
expertos internaciones para la construccin de tems recomiendan la creacin de tantos distractores como sea
posible y factible, pero adems recomiendan establecer
tres opciones como objetivo y permitir reactivos con ms
opciones si se logra su desarrollo con calidad y se confirma
su calidad psicomtrica.9,11 En cuanto a la preferencia de
los sustentantes, Owen y Froman en 1987 encuestaron a
114 examinados sobre su preferencia entre tems de tres
o cinco opciones; 111 de ellos votaron por tres opciones,
tres no externaron preferencia y ninguno vot por cinco
opciones.23
Los DNF se detectan al ser seleccionados por menos de
5% de los sustentantes, por ser grficamente similares a
la respuesta correcta (es decir, discriminar positivamente) o haber sido contestados igualmente por la poblacin
correspondiente a cada percentil de resultados.20 Algunos
estudios que han empleado ms de dos distractores, han
identificado falta de funcionalidad por lo menos en uno de
los excedentes.12,13,15,20,24 Prcticamente en todos los estudios publicados, incluido el presente trabajo, se ha documentado de manera contundente un porcentaje elevado de DNF en el total de la prueba, lo que es consistente
con la hiptesis de que una gran cantidad de distractores
en los tems de exmenes de opcin mltiple son desechados con facilidad por los sustentantes, probablemente por
ser demasiado obvios, no ser plausibles, o tener pistas
que orientan al estudiante a descartarlo, sin necesidad
de tener el conocimiento relevante especfico supuestamente explorado por el distractor. Es de llamar la atencin que todos los estudios publicados que analizan el
tema de los distractores, utilizan exmenes sumativos de
consecuencias altas o moderadas, en los que se supone se
han tomado medidas para cuidar la calidad de los tems y
sus diferentes fuentes de validez durante todo el proceso
de elaboracin y aplicacin de los mismos, y a pesar de
ello, el porcentaje de DNF es elevado. Es probable que
este fenmeno sea an ms frecuente en exmenes formativos, diagnsticos o de bajas consecuencias, en los que no
se tenga tanta atencin al detalle durante su integracin.
Un argumento utilizado con frecuencia para mantener el exceso de distractores en los tems es porque as
se puede disminuir la probabilidad de respuesta al azar,
sin tener que recurrir a frmulas de correccin.25-27 Varios
208
Jurado-Nez A et al
Tabla 4. Comparaciones mltiples con el mtodo post-hoc de Tukey HSD, de los ndices psicomtricos por grupos de tems de cero a cuatro
distractores no funcionales (DNF). Examen Profesional Terico de la Facultad de Medicina de la UNAM, enero 2008.
Variable dependiente
ndice de dificultad
(J)
DNF
Diferencia
media (I-J)
Error estndar
Significancia
Sin DNF
Cuatro DNF
-0.35833
0.06852
Un DNF
Cuatro DNF
-0.35927
Dos DNF
Cuatro DNF
Tres DNF
Cuatro DNF
Sin DNF
Un DNF
Dos DNF
ndice de discriminacin
Tres DNF
Cuatro DNF
Sin DNF
Correlacin punto-biserial
(I)
DNF
Un DNF
Tres DNF
Cuatro DNF
Lmite inferior
Lmite superior
0.000
-0.5461
-0.1706
0.04691
0.000
-0.4878
-0.2307
-0.32058
0.04449
0.000
-0.4425
-0.1987
Cuatro DNF
-0.28543
0.04584
0.000
-0.4110
-0.1598
Sin DNF
0.35833
0.06852
0.000
0.1706
0.5461
Un DNF
0.35927
0.04691
0.000
0.2307
0.4878
Dos DNF
0.32058
0.04449
0.000
0.1987
0.4425
Tres DNF
0.28543
0.04584
0.000
0.1598
0.4110
Dos DNF
0.10464
0.03127
0.008
0.0190
0.1903
Tres DNF
0.16470
0.03182
0.000
0.0775
0.2519
Cuatro DNF
0.24944
0.03662
0.000
0.1491
0.3498
Tres DNF
0.09745
0.01733
0.000
0.0500
0.1449
Cuatro DNF
0.18219
0.02507
0.000
0.1135
0.2509
Sin DNF
-0.10464
0.03127
0.008
-0.1903
-0.0190
Tres DNF
0.06007
0.01540
0.001
0.0179
0.1023
Cuatro DNF
0.14481
0.02378
0.000
0.0797
0.2099
Sin DNF
-0.16470
0.03182
0.000
-0.2519
-0.0775
Un DNF
-0.09745
0.01733
0.000
-0.1449
-0.0500
Dos DNF
-0.06007
0.01540
0.001
-0.1023
-0.0179
Cuatro DNF
0.08474
0.02450
0.005
0.0176
0.1519
Sin DNF
-0.24944
0.03662
0.000
-0.3498
-0.1491
Un DNF
-0.18219
0.02507
0.000
-0.2509
-0.1135
Dos DNF
-0.14481
0.02378
0.000
-0.2099
-0.0797
Tres DNF
-0.08474
0.02450
0.005
-0.1519
-0.0176
Tres DNF
0.10440
0.03254
0.012
0.0153
0.1935
Cuatro DNF
0.11412
0.03744
0.021
0.0115
0.2167
Tres DNF
0.05877
0.01772
0.009
0.0102
0.1073
Sin DNF
-0.10440
0.03254
0.012
-0.1935
-0.0153
Un DNF
-0.05877
0.01772
0.009
-0.1073
-0.0102
Sin DNF
-0.11412
0.03744
0.021
-0.2167
-0.0115
209
Tabla 5. Comparacin de anlisis de reactivos de la versin completa de la prueba con una versin depurada (sin los 34 tems con
cuatro DNF). Examen Profesional Terico de la Facultad de Medicina de la UNAM, enero 2008.
Caractersticas
Completo
Depurado*
Nmero de tems
420
386
Alfa de Cronbach
0.928
0.928
8.67
8.46
p media (dificultad)
0.55
0.52
0.18
0.19
0.25
0.25
Financiamiento
Ninguno.
210
Conflicto de intereses
Los autores declaran no tener ningn conflicto de intereses.
Presentaciones previas
Trabajo oral en las Jornadas de Educacin Mdica 2013,
Facultad de Medicina de la UNAM.
Referencias
1. Downing SM, Yudkowsky R. Introduction to Assessment in the
Health Professions. En: Downing SM, Yudkowsky (Eds). Assessment in Health Professions Education. New York, NY: Routledge;
2009. p. 1-21.
2. Martnez GA, Lifshitz GA, Ponce RR, et al. Evaluacin del desempeo docente en cursos de especializacin mdica. Validacin
de un cuestionario. Rev Med Inst Mex Seguro Soc 2008;46(4):375382.
3. Linn RL, Gronlund NE. Measurement and assessment in teaching.
8th ed. USA: Prentice-Hall. 2000. Cap. 2:29-49.
4. Miller GE. The assessment of clinical skills/competence/performance. Acad Med 1990;65(Suppl):S63-S67.
5. Downing SM. Assessment of knowledge with written test forms.
In: Norman GR, Van der Vleuten C, Newble DI (eds). International Handbook of Research in Medical Education. Volume II.
Dorcrecht: Kluwer Academic Publishers; 2002. p. 647-672.
6. Haladyna TM. Developing and Validating Multiple-Choice Test
Items. 3rd Ed. Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Publishers. 2004; Chapter 1:3-18.
7. McCoubrie P. Improving the fairness of multiple-choice questions: a literature review. Med Teach 2004; 26(8):709-712.
8. Downing SM. Validity: on the meaningful interpretation of assessment data. Med Educ 2003; 37:830-837.
9. Haladyna TM, Downing SM, Rodriguez MC. A review of multiple
choice item-writing guidelines for classroom assessment. Appl
Meas Educ 2002;15(3):309-334.
10. Messick S. Validity. In: Linn RL (ed). Educational Measurement.
3rd ed. New York: American Council on Education and Macmillan;
1989. p. 13-104.
11. Moreno R, Martnez RJ, Muiz J. Directrices para la construccin
de tems de eleccin mltiple. Psicothema 2006;16(3):490-497.
12. Tarrant M, Ware J, Mohammed AM. An assessment of functioning
and non-functioning distractors in multiple-choice questions: a
descriptive analysis. BMC Medical Education 2009; 9:40.
13. Rogausch A, Hofer R, Krebs R. Rarely selected distractors in high
stakes medical multiple-choice examinations and their recognition by item authors: a simulation and survey. BMC Medical Education 2010;10:85.
Jurado-Nez A et al