Вы находитесь на странице: 1из 6

Metodología de las Ciencias del Comportamiento, Suplemento 2004, 505-510 ©aemcco, 2004

Los tests adaptativos informatizados: investigación actual

Vicente Ponsoda Gil*1, Pedro Hontangas**, Julio Olea, Javier Revuelta*,


Francisco José Abad* y Carmen Ximénez*
*Universidad Autónoma de Madrid
**Universidad de Valencia

Resumen
El presente trabajo revisa la investigación en tests adaptativos informatizados desde el año 2000, fecha de
nuestra última revisión (Hontangas, Ponsoda, Olea y Abad (2000). Los tests adaptativos informatizados en la
frontera del siglo XXI: una revisión. Metodología de las Ciencias del Comportamiento, 2, 183-216). La revisión de
centra en los siguientes apartados: estimación de la habilidad, selección de ítems, elaboración y mantenimiento
del banco de ítems, y la detección de los patrones de respuesta inadecuados.

Abstract
This work revises the research on computerized adaptive testing since 2000, when our last revision was pub-
lished (Hontangas, Ponsoda, Olea y Abad (2000). Los tests adaptativos informatizados en la frontera del siglo
XXI: una revisión. Metodología de las Ciencias del Comportamiento, 2, 183-216). The topics covered are: ability
estimation, item selection, item bank elaboration and maintenance, and detection of person misfit.

Introducción

En nuestra última revisión (Hontangas, Ponsoda, Olea y Abad, 2000) sobre la situación de los tests
adaptativos informatizados (TAIs) a finales del año 2000, señalamos los principales problemas
que han ido surgiendo en su historia más reciente y las soluciones ofrecidas. Los principales
puntos tratados fueron la estimación de la habilidad, la selección de ítems y las condiciones en
las que tiene lugar su aplicación. El objetivo de este trabajo es ofrecer una breve síntesis de las
nuevas aportaciones realizadas sobre esos temas y de las tendencias que se aprecian. Los conte-
nidos en los que centraremos la exposición son los cuatro siguientes: (1) los métodos de estima-
ción de la habilidad, (2) las estrategias de selección los ítems, (3) los trabajos que pretenden
reducir los costes de elaboración, mantenimiento y renovación del banco de ítems y 4) los
estudios de los patrones de respuesta inapropiados.

Estimación de la habilidad

En los últimos años, se han ofrecido las siguientes aportaciones:


a) Propiedades de los métodos de estimación. Se han seguido comparando los distintos mé-
todos de estimación (MLE, WLE, EAP y MAP, Wang & Wang, 2001; MLE y WLE, Chen & Liou, 2000) y
aplicándolos a modelos politómicos (modelo de crédito parcial generalizado, Wang & Wang,
2001). En el caso del método EAP, se han propuesto mecanismos adaptativos consistentes en
modificar la distribución 'a priori' y el intervalo de integración (Raîche & Blaise, 2002) y se ha
estudiado las propiedades de la distribución muestral de la distribución posterior (Blaise & Raî-
che, 2002).
b) Aspectos técnicos. Se han hecho varios avances técnicos relativos a nuevos procedimien-
tos para determinar el error de estimación (Shyu, Fan, Thompson & Hsu, 2002), el uso de aproxi-
maciones de Taylor para evitar el problema de la estimación inicial y patrones uniformes en el
método de máxima-verosimilitud (Veerkamp, 2000) y la presentación de la justificación teórica
sobre la precisión de la estimación y la longitud esperada en TAIs de longitud variable (Chang &
Ying, en prensa).
c) Aspectos prácticos. Las condiciones en las que se utilizan los TAIs plantean ciertos pro-
blemas prácticos cuando hay que estimar la habilidad sin haber terminado el test y cuando hay
que ofrecer el resultado de manera compresible para los no expertos o equivalente a otras versio-
nes del test. En primer lugar, dado que muchos TAIs suelen tener un tiempo máximo para finali-
zar la aplicación y, en estas circunstancias, algunas personas no llegan a terminar el test, se

1
Correspondencia: Vicente Ponsoda. Facultad de Psicología. Universidad Autónoma de Madrid. Cantoblanco
28049-Madrid. E-mail: Vicente.ponsoda@uam.es

505
506 Vicente Ponsoda, Pedro Hontangas, Julio Olea, Javier Revuelta, Francisco J. Abad y Carmen Ximénez

han desarrollado métodos de puntuación para TAIs incompletos. La cuestión que se debate aquí
es cuando y cómo hacer una estimación sin que se produzcan resultados diferentes en caso de
que el test se hubiese o no completado (Way, Gawlick & Eignor, 2002; Mills & Steffen, 2000). En
segundo lugar, las limitaciones de las estimaciones en la escala theta han dado lugar a una serie
de trabajos sobre equiparación y escalamiento, en los que se proponen otras escalas y se analizan
sus efectos. Como hay tests que se administran tanto en formato adaptativo como de lápiz y
papel, los resultados de ambas versiones deben ser comparables, y puesto que los no expertos
tienen dificultad para entender el significado de la escala theta, es preciso expresar las estimacio-
nes de manera más comprensibles, como el número o la proporción de aciertos. En este sentido,
recientemente se ha propuesto un procedimiento para hacer la equiparación de puntuaciones
basada en el número de aciertos (Van der Linden, 2001).

Selección de ítems

En el periodo objeto de revisión apenas ha habido trabajos sobre reglas alternativas de selección
de ítems, si excluimos el de Barrada, Olea & Ponsoda (2003) y el de van Rijn, Eggen, Hemker &
Sanders (2002). Este trabajo compara el criterio de máxima información puntual y el de máxima
información en un intervalo fijo, en un TAI que utiliza el modelo de crédito parcial generalizado.
No ha habido apenas publicaciones sobre nuevos métodos para el establecimiento de las restric-
ciones de contenido. El procedimiento del test en la sombra (van der Linden & Reese, 1998), que
es apropiado para el establecimiento de restricciones de contenido, ha sido extendido a tests
multidimensionales (Li & Yang, 2002) y combinado con el método de control de la exposición a-
estratificado, de Chang & Ying (1999) (van der Linden & Chang, 2003) .
En relación con el problema del control de la exposición, han surgido dos nuevos métodos.
Davey & Fan (2000) proponen el procedimiento de la “información especifica”. El procedimiento
requiere definir la función de información que debe tener el TAI tras cada ítem administrado. El
método consiste en elegir, del conjunto de ítems cuyas dificultades difieren en menos de una
cantidad preestablecida de la última zeta estimada, el ítem que suministre la información necesa-
ria para que la función de información del TAI administrado hasta ese momento se adecue lo mas
posible a la función de información objetivo preestablecida. Un segundo procedimiento nuevo
de control de la exposición ha sido propuesto por Chen & Liou (2003) y se podría traducir por el
método del vecino más próximo (Nearest – Neighbours method). Su aplicación requiere los si-
guientes pasos: 1) obtener para cada ítem el valor del rasgo para el que da máxima información
(b’) y el valor de la información máxima (M). 2) Establecer una secuencia no creciente de n(k) ente-
ros, tantos como ítems tenga el test. 3) Obtener la primera estimación del rasgo. 4) Encontrar los
n(1) ítems para los que sus b’ se acerquen más al valor de rasgo estimado. 5) Seleccionar de entre
ellos el que tenga el mayor valor M. 6) Actualizar el nivel de rasgo y volver al paso 4 hasta que se
cumpla el criterio de parada. En un estudio de simulación comprueban que da estimaciones más
precisas que las del método a-estratificado. En cuanto a las tasas de exposición, es mejor o peor
según coincida o no la media de de las dificultades de los ítems con las media de los niveles de
rasgo.
Stocking & Swanson (1998) propusieron controlar las tasas de exposición por la vía del control
del conjunto de ítems entre los que se ha de hacer la selección. Si el banco es dividido en mini-
bancos con propiedades bien estudiadas, la elección de los ítems en estos minibancos puede dar a
los ítems las propiedades deseadas. Way, Steffen & Anderson (2002) vuelven con la misma idea.
Un ítem que tiene alta tasa de exposición en relación a los demás ítems del banco, puede tenerla
baja en otro banco si los ítems tienen valores de “a” muy superiores. La propuesta consiste, en
esencia, en controlar la exposición de los ítems a partir de la composición de los minibancos de
los que los ítems han de ser elegidos.
La mayor parte de los estudios sobre la tasa de exposición pueden encuadrarse en uno de los
siguientes tres apartados:
a) Combinación de métodos. Cada método de control tiene sus puntos fuertes y sus puntos
débiles. En los últimos tiempos ha habido una tendencia clara a combinar procedimientos, de
forma que el método resultante tenga los puntos fuertes de los métodos integrantes. Eggen
(2001) ha propuesto combinar el método progresivo (Revuelta y Ponsoda, 1998) con Sympson-
Hetter (Sympson y Hetter, 1985). García Morín y Revuelta (2003) proponen combinar el progresivo
y Sympson-Hetter condicionado. Por su parte, el método a-estratificado y sus variantes se han
combinado con el método Sympson-Hetter (Yi, 2001; 2002).
b) Extensiones de los métodos anteriores. El método a-estratificado se ha ampliado en varias
direcciones. Yi (2001) ha incorporado el bloqueo en el parámetro “b” para conseguir que los dis-
tintos estratos tengan una distribución de valores “b” similares. Una segunda variante incorpora
además bloqueo por contenidos (Leung, Chang & Hau, 2003). Chang & van der Linden (2003), por
último, aplican la programación lineal 0-1 para determinar la estratificación óptima. Varios mé-
Los tests adaptativos informatizados: investigación actual 507

todos se han empezado a aplicar a modelos politómicos, lo que ha requerido algún reajuste. Pas-
tor, Dodd & Chang (2002), Davis (2003) y Davis & Dodd (2003) aplican varios métodos de control
de la exposición al modelo de crédito parcial generalizado.
c) Nuevas variables dependientes. Los estudios de control de la exposición han dedicado es-
pecial interés, además de a las tasas de exposición, a las tasas de solapamiento, que son el núme-
ro medio de ítems idénticos que se presentan a cualesquiera dos sujetos. La tasa de solapamiento
está relacionada con la tasa de exposición (Chen, Ankenmann & Spray, 1999), pero dan informa-
ción complementaria, no redundante. Chang & Zhang (2002) han obtenido la distribución teórica
de la tasa de solapamiento.

Elaboración, mantenimiento y renovación del banco de ítems

Uno de los retos para que los TAIs puedan ser de uso general en el futuro es reducir los elevados
costes que suponen la elaboración, mantenimiento y renovación del banco de ítems. Varias son
las vías por la que se está intentando avanzar en este terreno.
En primer lugar, hay una mayor preocupación por la estimación de los parámetros de los ítems
(frente al mayor interés anterior por la estimación de la habilidad). Hay una gran cantidad de
estudios dirigidos a mejorar o simplificar la estimación:
a) Un grupo de estos trabajos tiene por objeto obtener estimaciones precisas con muestras
reducidas y procedimientos más económicos. Algunas de las propuestas son estimar los paráme-
tros de los ítems a partir de índices psicométricos de la Teoría Clásica de Test (Huang, Kalohn, Lin
& Spray, 2000), utilizar información colateral en el procedimiento de estimación, como juicios de
expertos sobre la dificultad, junto con las respuestas de los sujetos (Swaminathan, Hambleton,
Sireci, Xing & Rizavi, 2003), o utilizar diseños muestrales óptimos para seleccionar a sujetos de
habilidad apropiada para estimar mejor los parámetros o reducir el tamaño muestral (Brumfield,
Burroughs & Luecht, 2001).
b) Un segundo grupo de estudios se centran en la reestimación de los ítems del banco
(ítems operativos) y en la estimación de los nuevos ítems (ítems pretest) y lo que podemos de-
nominar conjuntamente como calibración on-line (estimación de parámetros con datos obtenidos
en un contexto de evaluación informatizada, incluyendo ítems operativos e ítems pretest). Las
cuestiones de mayor interés aquí son, por un lado, analizar los posibles cambios en los paráme-
tros del banco (drift parameter) o en la escala utilizada para expresar las puntuaciones de los
sujetos. Algunas de las aportaciones son los estudios de comparación entre matrices completas e
incompletas (Hsu, Thompson & Chen, 1998), la comparación entre los métodos de estimación.
(Pommerich & Segall, 2003; entre otros), la utilización de técnicas de imputación de datos perdi-
dos para rellenar matrices de datos incompletas (Harmes, Parshall & Kromrey, 2003), el estudio
del análisis de estabilidad de la escala (Guo & Wang, 2003), y los índices para analizar el cambio
en los parámetros (drift parameter) (Glass, 2000).
c) Muchas otras cuestiones que pueden afectar a la estimación son de interés y están pen-
dientes de investigación. Entre ellas (Parshall, 2002): Las consecuencias de utilizar sujetos volun-
tarios frente a sujetos que son evaluados realmente, la forma de hacer el sembrado de ítems
operacionales, y los efectos del modo de administración (TAI vs. lápil y papel).
En segundo lugar, otra línea de investigación que está empezando a dar frutos es la generación
automática de ítems. A pesar de las dificultades iniciales encontradas en este campo (Revuelta y
Ponsoda, 1999), varios estudios recientes muestran la viabilidad de TAIs con ítems isomorfos
(ítems con contenido y propiedades psicométricas similares). Las ventajas pueden ser considera-
bles, pues no solo se reducen los costes al no necesitar muestras para la calibración, sino que
también evita o simplifica considerablemente la redacción de los nuevos ítems. Bejar, Lawless,
Morley, Wagner, Bennett & Revuelta (2002) analizan un TAI de razonamiento cuantitativo basado
en modelos que generan ítems isomorfos. Los resultados indican que bajo diferentes grados de
isomorfismo se obtienen estimaciones insesgadas, aunque hay cierta pérdida de precisión en
niveles medios de habilidad. Por lo que concluyen que se trata de un primer paso en la mejora
significativa de los costes de elaboración del test. Glass & van der Linden (2003) proponen un TAI
basado en un modelo de respuesta multinivel para ítems generados mediante clonación (ítems
elaborados a partir de plantillas o ítems padre). Los ítems padre tienen parámetros que son esti-
mados de las respuestas empíricas dadas a un solo clon. Se contempla que haya cierta variabili-
dad en los parámetros de los clones representada por la distribución de hiper-parámetros del
ítem padre.
Finalmente, las organizaciones con programas de administración masiva de TAIs, como el Edu-
cational Testing Service (ETS), tienen la necesidad de disponer de métodos para el diseño y ges-
tión estratégica de bancos de ítems que garanticen la calidad de los ítems y la seguridad de tests
a largo plazo. Por un lado, Way et al. 2002) ha propuesto el concepto de VAT de ítems (gran
banco con toda la información de los ítems del que se pueden crear bancos más pequeños y test
508 Vicente Ponsoda, Pedro Hontangas, Julio Olea, Javier Revuelta, Francisco J. Abad y Carmen Ximénez

de diferente tipo) y el uso técnicas de gestión de modelos dinámicos. Se trata de un modelo de


gestión de bancos con el que predecir las necesidades de desarrollo de ítems según los criterios
establecidos para la administración y mantenimiento de un programa de tests adaptativos (v.gr.,
selección, exposición, retirada, renovación y reutilización de ítems, fragmentación, solapamiento
y rotación de bancos). Por otra parte, varios trabajos ofrecen estrategias y procedimientos auto-
matizados para realizar un diseño óptimo de bancos de ítems cumpliendo un conjunto de espe-
cificaciones (van der Linden, Veldkamp & Reese, 2000).

Patrones de respuesta inapropiados

El problema de fondo consiste en que algunos sujetos a los que se administra un TAI suelen ac-
tuar de forma inapropiada (se comportan de forma diferente a lo esperado según los modelos
psicométricos en los que se basan están pruebas). En ese caso, la puntuación que obtienen es
incorrecta y no refleja su habilidad real. Esas conductas pueden obedecer a muchas causas, como
copia, descuido, etc. Además, algunas de ellas pueden ser indicadores de problemas más graves,
como filtraciones o conocimiento previo de los ítems, que comprometen la seguridad del banco,
en general. De ahí la importancia de poder detectarlas y ponerles algún tipo de remedio. Las in-
vestigaciones iniciales intentaron aplicar a los TAIs los índices disponibles desarrollados para
tests de lápiz y papel. Sin embargo, los resultados no han sido aceptables, puesto que los TAIs se
caracterizan por presentar situaciones donde estos índices no funcionan bien. Recientemente se
han desarrollo nuevos índices para detectar patrones de respuesta inapropiados específicos para
TAIs que no están afectados por los limitaciones de los índices
anteriormente disponibles. Las aportaciones mas destacadas son: Las aplicaciones de la teoría de
control de procesos estadísticos: índice de sumas acumuladas (Meijer, 2002), las medidas de
outliers y métodos de normalización (Bradlow & Weiss, 2001), la aproximación bayesiana basada
en la comparación de modelos (razón de verosimilitud entre modelos de conducta apropiada y
conducta inapropiada) (McLeod, Lewis & Thissen, 2003) y el análisis del tiempo de respuesta
(tiempos inesperados pueden reflejar diferentes tipos de conductas inapropiadas) mediante mo-
delos con parámetros específicos (van der Linden & van Krimpen-Stoop, 2000).

Conclusiones

Como hemos visto, se sigue investigando básicamente sobre los mismos temas que planteamos
en nuestra anterior revisión (Hontangas et al., 2000). En estos pocos años se ha seguido traba-
jando a buen ritmo. Han aparecido incluso varios libros: Mills, Potenza, Fremer & Ward (2002),
Parshall, Spray, Kalom & Davey (2002) y Olea y Ponsoda (2003). Hemos constatado un mayor
interés por la estimación de los parámetros de los ítems y, especialmente, en las condiciones
concretas que plantean los TAIs. No ha habido mucha investigación sobre los procedimientos que
permiten añadir al TAI la restricción de contenidos y tampoco sobre la incorporación de informa-
ción diagnóstica.
Acabaremos la revisión con el último comentario de Olea et al. (enviado), que es apropiado en
este contexto. Wainer (2000) muestra el crecimiento exponencial que ha tenido el número de TAIs
administrados durante la última década. Una reflexión interesante de su trabajo es que precisa-
mente los TAIs se están aplicando en programas de evaluación en los que no son necesariamente
la mejor opción. En nuestro país, sin embargo, el interés por los TAIs, que sepamos, no termina
de salir de los recintos universitarios. En colaboración con el Instituto de Ingeniería del Conoci-
miento de la Universidad Autónoma de Madrid (Ponsoda, Olea, Abad, Aguado, López & Díaz,
2003), hemos puesto a disposición de las empresas para la evaluación eficiente del inglés escrito
un TAI (eCat) que puede administrarse por internet o instalarse en la red local.

Referencias

Barrada, J.R, Olea, J. y Ponsoda, V. (enviado). Reglas de selección de ítem en TAIs. VIII Congreso de metodo-
logía de las Ciencias Sociales y de la Salud. Valencia.
Bejar, I.I., Lawless, R.R., Morley, M.E., Wagner, M.E., Bennett, R.E. & Revuelta, J. (2002). A feasibility study of
on-the-fly item generation in adaptive testing. GRE Board Report No. 98-12P. Educational Testing Service.
Blaise, J.-G. & Raîche, G. (2002). Some features of the sampling distribution of the ability estimate in comput-
erized adaptive testing according to two stopping rules. Paper presented at the 11 International Objective Meas-
urement Workshop. New Orleans.
Brumfield, T., Burroughs, R. & Luecht, R. (2001). Optimal calibration sampling designs for the uniform CPA
examination. AERA. Seattle, WA.
Chang, H-H & van der Linden W. (2003). Optimal stratification of item pools in a stratified computerized
adaptive testing. Applied Psychological Measurement, 27, 262-274.
Chang, H-H & Ying Z. (1999). A-stratified multistage computerized adaptive testing. Applied Psychological
Measurement, 23, 211-222.
Los tests adaptativos informatizados: investigación actual 509

Chang, Y.I. & Ying, Z. (en prensa). Sequential estimation in variable length computerized adaptive testing.
Journal of Statistical Planning and Inference.
Chang, H-H & Zhang, J. (2002). Hypergeometric family and item overlap rates in computerized adaptive
testing. Psychometrika, 67, 387-398.
Cheng, P. E. & Liou, M. (2000). Estimation of trait level in computerized adaptive testing. Applied Psychologi-
cal Measurement, 24, 257-265.
Chen, P. E. & Liou, M. (2003). Computerized adaptive testing using the Nearest-Neighbours criterion. Applied
Psychological Measurement, 27, 204-216.
Chen, S.-Y., Ankenmann, R.D. & Spray, J.A. (1999). Exploring the relationship between item exposure rate and
test overlap rate in computerized adaptive testing. Research report 1999-5. ACT. Iowa City, IA.
Davey, T. & Fan, M. (2000). Specific information item selection for adaptive testing. NCME . New Orleans.
Davis, L.L. (2003). Strategies for controlling item exposure in computerized adaptive testing with the general-
ized partial credit model. NCME. Chicago, Illinois.
Davis, L.L. & Dodd, B.G. (2003). Item exposure constraints for testlets in the verbal reasoning section of the
MCAT. Applied Psychological Measurement, 27, 335-356.
Eggen, T.J.H.M. (2001). Overexposure and underexposure of items in computerized testing. Measurement and
Research Reports. CITO. 2001-1.
García Morín, J.R. y Revuelta, J. (2003). Control de la exposición e infrautilización de ítems en tests adaptati-
vos informatizados: El método Progresivo-Sympson-Hetter. VIII Congreso de metodología de las Ciencias Sociales
y de la Salud. Valencia.
Glas, C.A.W. (2000). Item calibration and parameter drift. En W.J. van der Linden & C.A.W.
Glas, Computerized adaptive testing: theory and practice. Boston, MA: Kluwe-Nijhoff.
Glas, C.A.W. & van der Linden, W.J. (2003). Computerized adaptive testing with item cloning. Applied Psy-
chological Measurement, 27, 247-261.
Guo, F. & Wang, L. (2003). Online calibration and scale stability of a CAT program. NCME. Chicago: IL.
Harmes, J.C., Parshall, C.G. & Kromrey, J.D. (2003). Recalibration of IRT item parameters in a CAT: sparse
data matrices and missing data treatments. NCME. Chicago: IL.
Hontangas, P., Ponsoda, V., Olea, J. y Abad, F. (2000). Tests adaptativos informatizados en la frontera del si-
glo XXI: una revisión. Metodología de las Ciencias del Comportamiento, 2, 183-216.
Hsu, Y., Thompson, T.D. & Chen, W.-H. (1998). CAT item calibration. NCME. San Diego, CA.
Huang, C.-H., Kalohn, J.C., Lin, C.-J. & Spray, J. (2000). Estimating item parameters from classical indices for
item pool development with a computerized classification test. ACT Research Report Series 2000-4. Iowa City,
Iowa.
Leung, C-K, Chang, H-H & Hau K-T. (2003). Incorporation on content balancing requirements in stratifica-
tion designs for computerized adaptive testing. Educational and Psychological Measurement, 63, 257-270.
McLeod, L., Lewis, C. & Thissen, D. (2003). A bayesian method for the detection of item preknowledge in
computerized adpative testing. Applied Psychological Measurement, 27, 121-137.
Meijer, R.R. (2002). Outlier detection in high-stakes certification testing. Journal of Educational Measure-
ment, 39, 219-233.
Mills, C.N. & Steffen, M. (2000). The GRE computer adaptive test: operational issues. En W.J. van der Linden
& C.A.W. Glas (Eds.), Computerized adaptive testing: theory and practice. Boston, MA: Kluwe-Nijhoff.
Mills, C.N., Potenza, M.T., Fremer, J.J. & Ward W.C. (2002). Computer-based testing: building the foundation
for future assessment. London: Lawrence Erlbaum Associates.
Olea, J. y Ponsoda, V. (2003). Tests adaptativos informatizados. Madrid: Ediciones UNED.
Parshall, C.G. (2002). Item development and pretesting in a CBT environment. En C.N. Mills, M.T. Potenza,
J.J.Fremer & W.C. Ward (Eds.), Computer-based testing: building the foundation for future assessment. London:
Lawrence Erlbaum Associates.
Parshall, C.G., Spray, J.A., Kalom, J.C. & Davey, T. (2002). Practical considerations in computer-based testing.
New York: Springer.
Pastor, D. A., Dodd, B. G. & Chang, H-H. (2002). A comparison of item selection techniques and exposure
control mechanisms in CATs using the generalized partial credit model. Applied psychological Measurement, 26,
147- 163.
Pommerich, M. & Segall, D.O. (2003). Calibrating CAT pools and online pretest items using marginal maxi-
mum likelihood methods. NCME. Chicago: IL.
Ponsoda, V. Olea, J., Abad, F.J., Aguado, D., López, F. y Díaz, J. (2003). eCat. Computerized adaptive test para
la evaluación del nivel de conocimientos del ingles escrito. VIII Congreso de Metodología de las Ciencias Sociales
y de la Salud. Valencia.
Raîche, G. & Blaise, J.-G. (2002). Practical considerations about expected a posterior estimation in adaptive
testing: adaptive a priori, adaptive correction for bias, and adaptive integration interval. Paper presented at the
11 International Objective Measurement Workshop, New Orleans.
Revuelta, J. & Ponsoda, V. (1998). A comparison of item exposure control methods in computerized adap-
tive testing. Journal of Educational Measurement, 35, 311-327.
Revuelta, J. y Ponsoda, V. (1999). Generación automática de ítems. En J. Olea, V. Ponsoda y G. Prieto (eds.),
Tests informatizados: Fundamentos y aplicaciones. Madrid: Pirámide.
Shyu, C.-Y., Fan, M., Thompson, T. & Hsu, Y. (2002). An investigation of procedures for estimating error in-
dexes in proficiency estimation in CAT. AERA. New Orleans.
Stocking, M.L. & Swanson, L. (1998). Optimal design of item banks for computerized adaptive tests. Applied
Psychological Measurement, 22, 271-280.
Sympson, J.B., & Hetter R.D. (1985). Controlling item exposure rates in computerized adaptive testing. 27th
Annual Meeting of the Military Testing Association. San Diego.
Swaminathan, H., Hambleton, R.K., Sireci, S.G., Xing, D. & Rizavi, S.M. (2003). Small sample estimation in di-
chotomous item response models: effect of priors based on judgmental information on the accuracy of item
510 Vicente Ponsoda, Pedro Hontangas, Julio Olea, Javier Revuelta, Francisco J. Abad y Carmen Ximénez

parameter estimates. Applied Psychological Measurement, 27, 27-31.


van der Linden, W.J. (2001). Computerized adaptive testing with equated number-correct scoring. Applied
Psychological Measurement, 25, 343-355.
van der linden, W. & Chang, H-H (2003). Implementing content constrains in alpha-stratified adaptive test-
ing using a shadow test approach. Applied Psychological Measurement, 27, 107-120.
van der Linden, W.J. & Krimpen-Stoop, E.M.L.A. (2000). Using response times to detect aberrant responses in
computerized adaptive testing. Technical Report RR 00-09, University of Twente, Enschede.
van der Linden, W.J. & Reese, L.M. (1998). A model for optimal constrained adaptive testing. Applied psycho-
logical Measurement, 22, 259-270.
van der Linden, W.J., Veldkamp, B.P. & Reese, L.M. (2000). An integer programming approach to item pool
design. Applied Psychological Measurement, 24, 139-150.
Van Rijn, P. W., Eggen T.J.H.M., Hemker B. T. & Sanders, P.F (2002). Evaluation of selection procedures for
computerized adaptive testing. Applied Psychological Measurement, 26, 393-411.
Veerkamp, W.J.J. (2000). Taylor approximations to logistic IRT models and their use in adaptive testing.
Journal of Educational and Behavioural Statistics, 25, 307-343.
Wainer, H. (2000). CATs: Whither and whence. Psicologica, 21, 121-133
Wang, S. y Wang, T. (2001). Precision of Warm’s weighted likelihood estimates for a politomous model in
computerized adaptive testing. Applied Psychological Measurement, 25, 317-331.
Way, W.D., Gawlick,, L.A. & Eignor, D.R. (2002). Scoring alternatives for incomplete computerized adaptive
tests. NCME. Seatle, WA.
Way, W.D., Steffen, M. & Steffen Anderson, G. (2002). Developing, maintaining and renewing the item inven-
tory to support CBT. En Mills, C.N., Potenza, M.T., Fremer, J.J. & Ward, W.C. Computer-based testing. N.J.: LEA.
Yi, Q. (2001). A-Stratified computerized adaptive testing with content blocking. Annual Meeting of the Psy-
chometric Society. King of Prusia, PA.
Yi, Q. (2002). Incorporating the Sympson-Hetter exposure control method into the a-Stratified method with
content blocking. AERA. New Orleans.

Вам также может понравиться