1.3 - Cofré - Francisco - Estudio Metodológico de La Calidad Métrica de Los Ítems Del Test BAVEL Desde La Perspectiva de La Teoría Clásica de Los Test (TCT) y La Teoría de Respuesta Al Ítem (TRI)

Estudio metodolgico de la calidad mtrica de los tems del
Test BAVEL desde la perspectiva de la Teora Clsica de los

Test (TCT) y la Teora de Respuesta al tem (TRI)
Autor: Francisco Sebastin Cofr Seplveda

Universidad de Playa Ancha de Ciencias de la Educacin
Ms informacin en:
jovenesinvestigadores@upla.cl
www.upla.cl/jovenesinvestigadores
ndice
Antecedentes del estudio..................................................................................................... 6
1.
Objetivo General ......................................................................................................... 7
1.1.
2.
Objetivos Especficos ............................................................................................. 7

Aproximacin terica ................................................................................................. 8
2.1.
Importancia de la Teora de los Test............................................................. 10
2.2.
Teora Clsica de los Test (TCT) ..................................................................... 11
2.2.1.
Supuestos ............................................................................................................ 12
2.2.2.
Ventajas ............................................................................................................... 13
2.2.3.
Limitaciones ........................................................................................................ 14
2.3.
La Teora de Respuesta al tem (TRI) .......................................................... 16
2.3.1.
Ventajas de la TRI ............................................................................................ 18
2.3.2.
Desventajas de la TRI ..................................................................................... 19
2.3.3.
Modelos, parmetros y Curva Caracterstica del tem ....................... 19
2.3.4.
Parmetros .......................................................................................................... 20
2.3.5.
Curva Caracterstica del tem (CCI) .......................................................... 21
2.3.6.
Modelos ................................................................................................................. 22
2.3.7.
Modelo de Rasch o logstico de un parmetro ....................................... 22
2.3.8.
Modelo de dos parmetros ............................................................................ 24
2.3.9.
Modelo de tres parmetros ........................................................................... 25
2.3.10.
Supuestos de la TRI ......................................................................................... 25
2.3.11.
Ventajas y desventajas .................................................................................. 26
2.3.12.
Software de anlisis estadstico TRI .......................................................... 28
2.4.
Ventajas de un modelo sobre otro ................................................................. 29
2.5.
Sntesis comparada de ambas teoras .......................................................... 30
Ms informacin en:
2.6.
2.6.1.
La Medicin de Constructo y las propiedades mtricas de las Teoras

30
Constructo ........................................................................................................... 31
2.7.
Tipo de evaluacin................................................................................................ 32
2.8.
Propiedades Psicomtricas de un test .......................................................... 32
2.9.
Confiabilidad ........................................................................................................... 33
2.10.
Validez ....................................................................................................................... 37
2.11.
Clculos necesarios en la TCT .......................................................................... 39
2.12.
Clculo de Dificultad ............................................................................................ 40
2.13.
Clculo de Discriminacin .................................................................................. 41
2.14.
Clculo de Confiabilidad ..................................................................................... 43
2.15.
Clculo de la Validez de un test ...................................................................... 45
2.16.
Cmo escoger tems adecuados? ................................................................. 45
3.
Metodologa de Investigacin .............................................................................. 47
3.1.
Tipo de estudio y diseo .................................................................................... 47
3.2.
Variables................................................................................................................... 47
3.3.
Definicin conceptual .......................................................................................... 47
3.4.
Definicin operacional ......................................................................................... 48
3.5.
Poblacin .................................................................................................................. 49
3.6.
Muestra ..................................................................................................................... 49
3.7.
Instrumento Test BAVEL, Batera de Velocidad y Eficacia Lectora.... 50
RESULTADOS.............................................................................................................................. 52
4.
4.1.
Resultados a nivel Test........................................................................................... 52

Confiabilidad ........................................................................................................... 52
4.2.
Calidad Mtrica del Test BAVEL desde la perspectiva de la Teora
Clsica de los Test ................................................................................................................ 53
4.2.1.
Dificultad de los tems .................................................................................... 53
Ms informacin en:
4.2.2.
Discriminacin de los tems .......................................................................... 55
4.3.
Calidad mtrica del Test BAVEL desde la perspectiva de la Teora de
Respuesta al tem ................................................................................................................ 57
4.3.1.
Segn modelo de dos parmetros ............................................................. 57
4.3.2.
Interpretacin de los parmetros a y b ................................................... 59
CONCLUSIONES ......................................................................................................................... 63
Bibliografa ......................................................................................................................................... 68
Ms informacin en:
RESUMEN
La construccin y anlisis de Test, se fundamenta en el importante uso
que se entrega a la informacin que de estos instrumentos se obtiene; por ello,
ponderar adecuadamente variables como Validez y Confiabilidad permiten tanto
a investigadores, docentes y profesionales de distintas reas, tomar decisiones
ms acertadas.
Segn
lo
anterior,
esta
investigacin
corresponde
un
estudio
metodolgico que analiz comparativamente la Validez y Confiabilidad del Pre

Test BAVEL aplicado a alumnos de 4 bsico de la Corporacin Municipal de
Via del Mar (CMVM) el ao 2011, desde la perspectiva de la Teora Clsica de
los Test (TCT) y la Teora de Respuesta al tem (TRI).
La pregunta de investigacin plante como objetivo central responder:
qu teora proporciona mejor calidad de informacin de un Test? Con esa
finalidad se estim la calidad mtrica del instrumento, calculando, desde la
perspectiva de la TCT, el Grado de Dificultad de los tems; Discriminacin de los
tems; Confiabilidad del Test; Anlisis factorial y el consecuente clculo de
Validez. Para ello se utiliz el programa Excel 2010 y SPSS versin 18.
Para el caso de la TRI, a travs del software Bilog MG 3 se estimaron los
clculos de Grado de Dificultad por tem, adems de los parmetros Dificultad,
Discriminacin, las curvas caractersticas de cada tem se obtuvieron con
WinGen 3.
Analizados y comparados los resultados, no se aprecian notables
diferencias entre las teoras que permitan optar por una u otra, sino ms bien
se establece un principio de convivencia y complementariedad.
Palabras clave: Teora Clsica de los Test, Teora de Respuesta al tem,

calidad Mtrica, Dificultad, Discriminacin.
Ms informacin en:
Antecedentes del estudio
Un mbito de
la
Evaluacin est
referido
la construccin de
instrumentos de evaluacin, denominados genricamente Test, que permiten

medir o evidenciar determinadas conductas o rasgos en los sujetos. La
Evaluacin a travs de la psicometra se ha encargado de teorizar, construir,
investigar y sistematizar el conocimiento relativo a la construccin y anlisis de
test.
La investigacin relativa a estas teoras ha desarrollado un avance
intelectual, el cual permite que profesores, cientficos o psiclogos, puedan
tomar buenas decisiones a partir de los resultados que sus mediciones
entregan.
El problema de investigacin se circunscribe a establecer un estudio
metodolgico que aborde desde una perspectiva cientfica el comportamiento en
validez y fiabilidad de la Teora Clsica de los Test y la Teora de Respuesta al
tem. De esta forma se podr contrastar los antecedentes tericos que cada
una propone con los datos empricos que proporcione la investigacin.
La evaluacin adems se ve enfrentada a ciertos mitos, que desde la
prctica se han instalado como verdades incuestionables, como por ejemplo:
que la mejor prueba es aqulla que posee ms tems, pues de esa forma se
asegura cubrir todos los contenidos trabajados desde diferentes mbitos. Este
supuesto, es un elemento que incide directamente en la falta de tiempo de los
profesores, pues se construyen instrumentos evaluativos bajo el supuesto que
la extensin implica calidad, sin embargo, en este caso lo nico comprobado es
que genera un mayor gasto de tiempo, y ciertamente disminuye las
posibilidades tanto para profesores y estudiantes de conocer oportunamente el
resultado del proceso de enseanza aprendizaje.
En tal sentido, resulta til, prctico y hasta necesario plantear un trabajo
metodolgico que evale el comportamiento de un test o instrumento desde su
calidad mtrica. La utilidad terica o acadmica de este estudio se relaciona con
Ms informacin en:
evaluar el aporte que La Teora Clsica de los Test y La Teora de Respuesta al

tem ofrecen respecto a la informacin de un instrumento de evaluacin, pues
el desarrollo investigativo no ha desechado a una o validado completamente a
la otra.
Segn lo anterior, la Teora Clsica de los Test y la Teora de Respuesta
al tem entregan informacin relevante respecto a los instrumentos de
evaluacin y sus respectivos tems. Pero Existe complementariedad entre la
Teora Clsica de los test (TCT) y la Teora de Respuesta al tem (TRI) al
momento de determinar la Calidad Mtrica del test y de sus tems?
1. Objetivo General
Determinar la calidad mtrica del Test BAVEL desde las perspectivas
analticas de la Teora Clsica de los Test (TCT) y la Teora de Respuesta al tem
(TRI), para explorar la calidad del Test y de sus tems.
1.1.
Objetivos Especficos
1. Establecer
la
calidad
mtrica
del
Test
BAVEL
segn
el
anlisis
psicomtrico de la Teora Clsica de los Test y la Teora de Respuesta al

tem.
2. Establecer la calidad mtrica de los tems del Test BAVEL identificando los
parmetros de Dificultad, Discriminacin y Curvas Caractersticas del
tem desde la perspectiva de la TRI.
Ms informacin en:
2. Aproximacin terica
Si se parte del supuesto de que todo objeto es medible o mensurable, se
debe establecer adems que cada objeto medido o evaluado necesitar de un
instrumento apropiado para tales fines. Segn ello la medicin de estatura ser
establecida a travs de un instrumento que registre centmetros y metros.
Ahora bien, la medicin de otros atributos o constructos sociales, psicosociales,
psicolgicos, no ser precisada a travs de instrumentos convencionales, sino
por el contrario, a travs de test bien diseados (Abad, Garrido, Olea, y
Ponsoda, 2006). Pero, es necesaria la delimitacin conceptual de aquel objeto
medible, para determinar qu entendemos por aquello que deseamos observar
y en definitiva, evaluar.
Es imprescindible establecer cul es el instrumento de evaluacin o
medicin adecuado para cada constructo o atributo. Segn lo anterior, el
evaluador educacional, cual especialista mtrico, es hbil en definir qu es lo
medible y a travs determinado de un instrumento. El desarrollo de la
psicometra ha permitido un avance notable en la elaboracin de test, pues
desde inicios del siglo XX los esfuerzos intelectuales han visto cmo cada
disciplina, junto con establecer su objeto de estudio, ha procurado proporcionar
instrumentos de medicin cada vez ms precisos.
La construccin de test y su estudio a travs de la psicometra, ha tenido
un notable desarrollo terico y prctico, por tanto nos enfrentamos al estudio
de instrumentos provenientes desde esta disciplina para determinar, por
ejemplo, hasta qu punto un grupo de alumnos poseen actitudes que les
permitan lograr una produccin diferente a lo que ya exista, esto es, el uso de
la originalidad o pensamiento divergente. Los test, permiten la recoleccin de
informacin sobre la conducta o atributos de un determinado constructo. El
punto est en definir cmo ser o cules sern las caractersticas de aquel test
o conjunto de tems, para poder recoger los atributos que se intentan
evidenciar.
Ms informacin en:
Si un test es el resultado de la planificacin de evaluacin expresada en

una tabla de especificaciones, la cual determina, a su vez, la naturaleza de cada
tem que lo compone, es absolutamente necesario dirigir la atencin al tem. En
tal sentido, (Muiz, Fidalgo, Garca-Cueto, Martnez, y Moreno, 2005) definen
tem como cada uno de los elementos utilizados en esos instrumentos (test)
para obtener la respuesta de los sujetos que se desea estudiar.
Desde esta perspectiva, los test son herramientas que intentan explicar
de una forma simple situaciones de suyo complejas, la ciencia desde siempre ha
intentado descifrar o explicar a travs de modelos qu es la realidad,
propendiendo a una explicacin que en el mejor de los casos permite
adelantarse o predecir ciertos fenmenos. Para el caso de la Ciencias Sociales,
se ha tomado este desafo en distintos mbitos, uno de ellos es la Psicometra.
Esta disciplina pretende establecer cientficamente aquello que saben los
individuos a partir de la aplicacin de test y su consecuente evaluacin
estadstica. Por tanto, el evaluador se encuentra frente a modelos que poseen
la pretensin de acercarse fielmente a la realidad.
Ante ello es pertinente aclarar un par de ideas.
En primer lugar, qu es un modelo en estricto rigor? Se puede
caracterizar un modelo como la representacin de una sistema real (Fishman,
1973, citado en Muiz, et. al, 2005). A partir de esto se establece que cada
modelo es pretencioso en explicar o predecir las respuestas de las personas
ante un determinado test.
En segundo lugar, cada modelo har una explicacin a su modo, o sobre
la base de sus supuestos, del comportamiento de las personas en un
determinado test. Lo anterior parece una obviedad, sin embargo, es necesario
de explicitar. Se establece que tanto la TCT y la TRI, son modelos matemticos
que pretenden, una explicar y la otra predecir las respuestas de los sujetos.
Pero, en qu se diferencian? La Teora Clsica de los Test, explica la
puntuacin observada de un test como la suma de la puntuacin verdadera ms
Ms informacin en:
el error de medida (Muiz et al, 2005). Es importante sealar que en ambas

teoras responden a misma pregunta, a saber: Cul es el verdadero nivel de
habilidad de un examinado ante la aplicacin de un test que mide un constructo
o rasgo? La Teora de Respuesta al tem, haciendo eco de esta pregunta,
establece que su unidad bsica de anlisis es el tem, no el Test completo como
en el caso de la TCT, e incorpora adems elementos que permiten evaluar el
comportamiento de cada tem, no slo por el nivel de habilidad al responder,
sino tambin por las caractersticas psicomtricas inherentes a cada uno.
Lo planteado anteriormente diferencia los modelos, pero no es tarea an
determinar las ventajas y desventajas de cada modelo, pues ello ser
desarrollado ms adelante. Sin embargo, se establece como elemento crucial de
los siguientes apartados, y por consecuencia de los futuros anlisis, que las
gravitantes diferencias entre cada planteamiento descansan en los supuestos
que subyacen a cada modelo.
2.1.
Importancia de la Teora de los Test
El desarrollo de estas teoras que permiten evaluar hasta qu punto un

test mide aquello que declara medir, quizs no justifican por s solas su
existencia, pues en el mbito de la evaluacin, segn sus diferentes utilidades,
suele interesar la calificacin por si misma o el puntaje obtenido en un test,
pero pocas veces surge el cuestionamiento sobre qu es lo que realmente
representa aquel puntaje y cules son sus implicancias. La respuesta a estas
interrogantes estriba en que en el mbito de la psicologa, as como en la
mayora de las Ciencias Sociales, los puntajes asignados a un test permiten la
toma de decisiones que afectan o desafectan la vida de las personas evaluadas,
por ello es necesario asegurar en la mayor medida posible que la inferencia
realizada por el especialista sea un correlato de la realidad medida o evaluada.
En otras palabras, las teoras estadsticas de los test van a permitir la
estimacin de las propiedades psicomtricas de los test para de ese modo
garantizar que las decisiones tomadas a partir de ellos son las adecuadas
Ms informacin en:
(Muiz, 2010). En tal sentido, estas teoras permiten conocer cientficamente la

validez y confiabilidad del instrumento aplicado, esto es, sus propiedades
mtricas; de esta forma el profesional trabaja sobre la comprobacin y
determina la utilidad de un test en su conjunto o de cada tem por separado.
En la construccin del test, es necesario sealar que en la actualidad
coexisten dos teoras de los test, la Teora Clsica de los Test y la Teora de
Respuesta al tem. La hiptesis fundamental de la Teora Clsica de los Test
(TCT) es que la puntuacin observada de una persona en un test es una funcin
de dos componentes: su puntaje verdadero (que es inobservable) y el error de
medicin implcito en toda medicin. Por su parte, la Teora de Respuesta al
tem (TRI) presenta un supuesto diferente basado en el funcionamiento de los
tems dentro de las pruebas, asumiendo que el coeficiente de confiabilidad es el
mismo para todas las personas a las que se aplica la prueba (Tornimbeni,
Prez, y Olaz, 2008).
2.2.
Teora Clsica de los Test (TCT)
Estableciendo un punto de inicio histrico, es posible afirmar que esta

Teora tiene sus inicios en los postulados de Charles Spearman, quien realiz
una serie de investigaciones que desembocan en el desarrollo del anlisis
factorial. El autor, apoyndose en las evidencias de sus investigaciones plantea
su famosa teora de los dos factores. Segn esta teora, las puntuaciones de
los test pueden explicarse a travs de dos factores: uno general, conocido como
el factor g, que es comn a todas las variables medidas y uno especfico, s, que
sera exclusivo a cada uno de esas variables (Tornimbeni, Edgardo, y Olaz,
2008, p.31). Este planteamiento tuvo un notable desarrollo en el campo de los
test psicolgicos, desde este punto de vista los aportes del autor son fundantes,
tanto es as que, adems logra desarrollar la teora de la confiabilidad, as como
tambin junto a Thorndike, el modelo estadstico de puntuaciones, el cual dar
paso posteriormente a la TCT.
Ms informacin en:
Como afirma (Muiz, 2001, citado en Tornimbeni, Edgardo, y Olaz,

2008), el modelo lineal de medicin sobre el que se asienta la TCT, es sencillo,
robusto y parsimonioso, y satisface la mayor parte de las necesidades de los
profesionales de la medicin psicolgica, tanto en lo relativo a la confiabilidad
de las mediciones (estimacin de error) como a la validez (inferencias hechas a
partir de los test).
Es necesario, por tanto, determinar cules son los fundamentos o
supuestos sobre los que esta teora establece sus planteamientos.
2.2.1.
Supuestos
La TCT parte de tres supuestos relacionados con el puntaje obtenido del

sujeto, a saber:
a)
El primer supuesto se relaciona con dos conceptos: el puntaje
verdadero y el error de medicin. Segn ello, el puntaje obtenido ser la

combinacin de estos principios, es decir, una estimacin del valor verdadero
del rasgo que se mide. Lo anterior significa una definicin conceptual de la
puntuacin verdadera de un sujeto en un test, estableciendo que su puntaje se
relacionara como la media si se le aplicara infinitas veces el test (Muiz, 2010).
Ciertamente, sta es una definicin terica, pues no se aplicar un test infinitas
veces, sin embargo, si as fuera, aquella puntuacin media sera en definitiva su
verdadera puntuacin.
b)
El segundo supuesto planteado por Spearman, seala que no
existe relacin entre el valor de las puntuaciones verdaderas de las personas y

el tamao de los errores que afectan a dichas puntuaciones. En otras palabras,
que el valor de la puntuacin verdadera de una persona no tiene nada que ver
con el error que afecta esa puntuacin (Muiz, 2010, p. 61).
c)
Un tercer supuesto establecido por el autor seala que los errores
de medida de las personas en un test no se relacionan con los posibles errores
Ms informacin en:
cometidos en otro test. Esto es: no hay ninguna razn para pensar que los
errores cometidos en una ocasin vayan a covariar sistemticamente con los
cometidos en otra ocasin (Muiz, 2010, p. 61).
Cada supuesto establecido desde la teora, requiere necesariamente su
contraste con la realidad, principio en el cual se fundamenta esta investigacin.
En este punto es necesario establecer las siguientes conclusiones
respecto a esta teora, (Murat, 1985, citado en Tornimbeni, Prez, y Olaz,
2008).
1.
La puntuacin verdadera de un individuo es una puntuacin
lmite, un punto de un intervalo de la distribucin de puntuaciones

observadas.
2.
Cuanto ms alta sea la confiabilidad de un test, menor ser ese
intervalo, y la puntuacin observada se ubicar ms prxima a la

puntuacin verdadera.
3.
Como
la
desviacin
estndar
no
puede
modificarse,
deben
disminuirse los errores de medida.
2.2.2.
Ventajas
Es ms fcil de utilizar: su anlisis no requiere, necesariamente, el
uso de software especializado.
Puede
ser explicado
con mayor sencillez a un pblico
no
especializado, sus principios sustentantes permiten que cualquier lector

incipiente en la materia pueda comprender a qu se refiere un porcentaje
de sujetos que responden acertadamente un tem.
Requiere de una muestra relativamente pequea y sus resultados
de estimacin no se ven afectados. Cien sujetos suele ser un nmero
Ms informacin en:
recomendado, no obstante lo anterior la literatura incluso seala cifras

menores.
Sus principios son menos rgidos, lo que la sita como una
metodologa flexible, que se adapta mejor ah donde la TRI ofrece mayor

resistencia.
2.2.3.
Limitaciones
Segn lo expuesto hasta este punto, es posible advertir que esta teora
presenta algunas limitaciones, entre las que se puede contar que no permite
entregar una diferencia entre las caractersticas del examinado de las propias
del Test. Por tanto, la dificultad del tem ser estimada a travs de la cantidad
de examinados que respondan correctamente, por lo mismo la posibilidad de
establecer las mediciones mtricas de validez y confiabilidad se tornan inciertas
o al menos dificultosas, pues ellas sern precisadas solamente en torno a la
escala de puntuacin realizada para ese test en especfico. Por lo tanto se
dificulta la comparacin con examinados que puedan haber rendido otros test.
Adems, si la finalidad de un test es determinar las habilidades de cada sujeto
medido, en el caso de la Teora Clsica, no entrega informacin precisa de las
habilidades individuales, pues solo asume un valor medio de las varianzas.
La teora clsica de los Test, plantea tres situaciones limitantes, lo
anterior se expresa de la siguiente forma:
En primer lugar, la literatura seala que las puntuaciones no son
invariantes respecto del instrumento utilizado (Muiz, 2001, en Tornimbeni,
Edgardo, y Olaz, 2008, p. 213). En otras palabras, se afirma que las mediciones
pueden variar respecto al instrumento utilizado. Esto se refiere a que si son
utilizados tres instrumentos diferentes para medir un determinado constructo a
tres diferentes sujetos, los resultados no podrn ser comparables. A modo de
ejemplo: si un psiclogo evala la inteligencia a diferentes personas con
instrumentos distintos, no podr determinar con certeza cul de ellos es ms
inteligente. Ello es as en tanto que cada test tiene su propia puntuacin. En
Ms informacin en:
otras palabras, cada test posee su propia escala. Para efectuar las necesarias
comparaciones hechas por los psiclogos ser pertinente transformar las
puntuaciones a escalas similares, es decir, estandarizar los resultados.
Lamentablemente, si bien este proceder no es errneo, igualmente descansa en
un supuesto frgil, pues no siempre se garantiza que las escalas de diferentes
test sean homologables en la prctica, pues se asume que los grupos
normativos en los que se elaboraron los baremos de los distintos test son
equiparables, lo cual es difcil de garantizar en la prctica. Si eso falla la
comparacin se viene abajo (Muiz, 2010). Afortunadamente, la Teora de
Respuesta al tem, como ser revisado ms adelante, propone una solucin
cientfica a esta dificultad.
En segundo lugar, existe una limitacin referida a las propiedades
mtricas asociadas, pues se da la ausencia de invarianza de las propiedades de
los test respecto de las personas utilizadas para estimarlas, esto es: las
propiedades psicomtricas importantes de los test, tales como la dificultad de
los tems, o la fiabilidad del test, estaban en funcin del tipo de personas
utilizadas para calcularlas, lo cual resulta inadmisible desde el punto de vista de
una medicin rigurosa (Muiz, 2010, p. 62).
Por ejemplo, se seala que existe una dependencia circular entre los
sujetos que rinden el test y sus resultados. Esto es, si quienes respondieron la
prueba son hbiles, los tems de dicho instrumento sern considerados fciles;
por el contrario, si los sujetos no son hbiles, se podra concluir que los mismos
tems son difciles. En sntesis, la dificultad del tem depende de la distribucin
de la habilidad de los sujetos con que se calcule (Chvez lvarez y Antonio,
2008).
La habilidad de los sujetos que responden una prueba, inferida a partir
del puntaje observado, depender de la dificultad de los tems que componen
dicho instrumento. Segn lo anterior, un mismo sujeto tendr diferentes
puntuaciones en tres versiones distintas de una prueba si stas difieren en la
distribucin de dificultad de los tems que la componen.
Ms informacin en:
En tercer lugar, en la Teora Clsica el coeficiente de confiabilidad es

integral (para todo el test). Sin embargo, las investigaciones demuestran que la
calidad de precisin de un test para medir un determinado constructo depende
tambin del propio desempeo del individuo evaluado. En sntesis, los test no
miden con la misma precisin a todos los individuos (Tornimbeni, Edgardo, y
Olaz, 2008, p. 213).
De forma complementaria, es posible agregar que la TCT supone que el
error estndar de medida es igual a lo largo de toda la escala de habilidad. Sin
embargo, esto no es necesariamente correcto, pues una prueba puede ser ms
precisa en algunos rangos de puntuacin que en otros. Esto, en definitiva,
depende de la distribucin de la dificultad de los reactivos de la prueba (Chvez
lvarez y Antonio, 2008).
Todo lo anteriormente expuesto posibilita una crtica a la teora y
cuestionar sus alcances tcnicos. Sin embargo, y tal como se mencion, ello es
una oportunidad para evaluar complementariedad entre teoras, pues no se
trata de invalidar un planteamiento a partir de loa postulados de otro, sino ms
bien establecer desde la experiencia hasta qu punto ellos pueden ser
dialogantes y responder a inquietudes desde su sinergia.
En tal sentido, los
avances planteados por la Teora de Respuesta al tem se constituyen como una

potente herramienta que, mediada por un correcto y dirigido uso, posee el
potencial para responder aquello que la clsica teora no alcanza a hacer.
2.3.
La Teora de Respuesta al tem (TRI)
Tal como ha sido anunciado, la Teora de Respuesta la tem ha permitido

responder aquellas interrogantes planteadas por la Teora Clsica, no obstante
ello
el
costo
agregado
asumido
ha
sido
el
desarrollo
de
un
modelo
analticamente ms complejo y en tal sentido, para ciertos autores, ha sido

justamente ello lo que se ha transformado en un obstculo para el desarrollo
masivo de sus planteamientos.
Ms informacin en:
Entender las bases conceptuales de este modelo implica, en parte,

conocer su historia, para desde ah sentar sus postulados evidenciados desde el
contexto en que fueron desarrollados. Retrospectivamente puede ser situado a
Thurstone como el primero en presentar los atisbos de esta teora, pues ya en
el ao 1925 en los denominados Test de Binet, al plantear diferentes curvas
que grafican la edad de los sujetos y su capacidad de entregar respuestas
acertadas (Muiz y Hambleton, 1992). Al situar con ms precisin las bases
conceptuales de la teora, es necesario remontarse a los trabajos de Lord, pues
all es posible encontrar los principios genuinos de la teora que ms tarde sern
desarrollados. La nueva teora formulada marcar un nuevo rumbo en las
investigaciones psicomtricas, si bien, como el propio Lord indica, las
conclusiones obtenidas no contradicen en general los grandes logros de la
Teora Clsica (Muiz y Hambleton, 1992, p. 46).
Es en 1960 cuando el dans George Rash desarrolla estos principios y da
un paso ms adelante al exponer el modelo lgico de un parmetro. Hasta
ahora, es necesario mencionar, los desarrollos son a nivel terico y matemtico,
pues no es posible plantear an el uso de estos planteamientos a nivel de
usuario.
No es hasta en 1971 en que los autores Bock, R.D. y Wood, R en una
recopilacin denominada Test theory Annual Review of Psychology, incluyen,
resumen y explican los avances tericos desarrollados a la fecha en este
mbito, especial atencin requiere un apartado a la por ese entonces
denominada Teora de Rasgo Latente. A partir de esta poca las aportaciones
tericas y empricas se multiplicarn, generando un corpus intelectual cada vez
ms consistente y fecundo que se presentar con principios propios, a saber,
los siguientes (DEMRE, 2005):
Ms informacin en:
a) Intenta establecer para cada tem la probabilidad de ser contestado

correctamente.
b) Ahora bien, dicha probabilidad a su vez depende de: la habilidad propia del
examinado y las caractersticas propias de las preguntas como dificultad,
discriminacin y la probabilidad del azar en la respuesta del sujeto.
c) Entrega informacin sobre el nivel de precisin que aporta el tem sobre su
capacidad de medir un constructo determinado, esto es, informacin del
tem.
En resumen, mientras mayor es la informacin que proporciona una
pregunta en un determinado nivel de habilidad, mejor es el grado de precisin
con que se estima ese nivel de habilidad. Esto permite construir pruebas ms
ajustadas al propsito que se persigue.
2.3.1.
Ventajas de la TRI
Complementariamente a lo anterior, (Chvez lvarez y Antonio, 2008)

establecen las siguientes ventajas de la TRI:
En primer lugar, invarianza de grupo: la estimacin de los parmetros del
tem, por ejemplo dificultad y discriminacin, son independientes del grupo
particular de sujetos utilizados para su clculo.
En segundo lugar, invarianza del tem: la estimacin de la habilidad de
los sujetos que rinden un determinado test, es independiente del conjunto de
tems que se utilicen para su clculo. Esto resuelve el problema de la
dependencia circular descrito para el caso de la TCT, pues en este caso ni la
estimacin de los parmetros de los tems (Dificultad y Discriminacin)
dependen de la habilidad de los sujetos, ni dicha habilidad depende de los tems
que se utilicen.
Ms informacin en:
En tercer lugar, la TRI posibilita la estimacin del error asociado a cada

nivel de habilidad, en lugar de estimar un error estndar para todo el rango, lo
cual ocurre en la TRI.
2.3.2.
Desventajas de la TRI
En primer lugar es relativamente ms compleja que la TCT, lo cual hace

ms difcil de explicar a las audiencias. Requiere de software especial para su
anlisis y calificacin.
En segundo lugar, requiere de un nmero mayor de sujetos que rinden el
test para su calibracin. Si bien en el modelo de Rasch las muestras necesarias
son similares a la TCT, cuando se aplican modelos de dos parmetros la
literatura especializada recomienda muestras sobre los 500 sujetos para
obtener estimaciones aceptables.
En tercer lugar, su funcionamiento adecuado depende del cumplimiento
de sus supuestos. No es una tcnica adecuada para todos los casos y
exmenes, a pesar de ser adaptable a muchos casos.
2.3.3.
Modelos, parmetros y Curva Caracterstica del tem
Tal como se estableci en las definiciones conceptuales, un modelo es

una representacin matemtica de la realidad. Ahora bien, en el caso de la TRI
se pueden identificar distintos modelos, los cuales han de ser conocidos y
descritos a fin de poder cumplir fielmente los supuestos y principios de la
Teora.
En ese sentido, ha de entenderse la CCI como la representacin
matemtica de distintos modelos en relacin a la probabilidad que existe de
responder correctamente al tem. Corolario de lo anterior es, por tanto, la
existencia de distintos modelos segn las distintas curvas.
Ms informacin en:
2.3.4.
Parmetros
Con la intencin de conocer en detalle el comportamiento de los

diferentes modelos y por consiguiente la Curva Caracterstica del tem (CCI),
resulta necesario describir y caracterizar los distintos parmetros que se
asocian a estos conceptos. Segn lo anterior, se puede distinguir lo siguiente:
a) El parmetro .
En el caso de la TCT la puntuacin verdadera se refera a una estimacin
a partir de las respuestas a un test, para el caso de la TRI, el parmetro ,
siendo para este caso la denotacin del constructo que mide un test y al no ser
ste algo directamente observable se le denomina rasgo latente; pudiendo ser
un constructo de personalidad, una aptitud o conocimientos en ciencias (Muiz,
2005).
b) El parmetro b
Este parmetro representa la dificultad en la TRI, el cual es analogable al
ndice de dificultad en la TCT. Se encuentra medido en la misma escala que el
parmetro . Su interpretacin se entiende de la siguiente forma cuanto mayor
sea el valor de b, ms difcil ser el tem, ya que mayor ser el nivel de
habilidad necesario para tener una probabilidad de acertarlo de 0.5 (Muiz,
2005).
c) El parmetro
Este parmetro representa la discriminacin del tem y por tanto es el
smil en la TRI al ndice de discriminacin en la TCT. Como podr entenderse, el
parmetro entrega una medicin que permite escalar, esto es, diferenciar entre
los examinados con un nivel alto y bajo en la habilidad. Su interpretacin se
entiende de la forma que sigue: cuanto mayor sea el valor de , mayor ser el
poder discriminativo del tem (Muiz, 2005).
Ms informacin en:
d) Parmetro c
Este parmetro se refiere a las posibilidades que tienen de acertar un
tem las personas con un nivel de habilidad baja en el rasgo o constructo
medido. Su equivalente en la TCT es justamente la probabilidad de acertar el
tem al azar. En este caso se supone que el sujeto evaluado responde casi al
azar, por tanto se denomina tcnicamente parmetro de pseudo-azar (Muiz,
2005).
2.3.5.
La
Curva Caracterstica del tem (CCI)
denominada
Curva
Caracterstica
del
tem
es
una
forma
de
modelacin matemtica que permite graficar el comportamiento de la Teora.

Para los modelos de la TRI esta curva ayuda a estimar de forma independiente
el nivel que posee la habilidad de una persona evaluada (parmetro ) y las
propiedades psicomtricas de los tems (parmetros a, b y c) figura 1.
Figura 1. Curva Caracterstica del tem
Nota: (Chvez lvarez y Antonio, 2008, p.61)
El grfico anterior permite mostrar el comportamiento de la Curva

Caracterstica del tem, pues tal como se observa en ella confluyen tres
aspectos relevantes a esta teora, a saber: los parmetros a, b y c. En donde
a es el ndice de discriminacin del tem, b la dificultad del tem y c la
probabilidad de acertar el tem por azar. En tal sentido y a diferencia del
Ms informacin en:
modelo clsico aparece un nuevo parmetro relacionado con el azar, el cual es

determinante para estimar la calidad de un determinado test al momento de
medir un constructo. Ciertamente, dependiendo del valor que asuma cada
parmetro se establecern a su vez diferentes curvas. Ahora bien, dichos
valores estarn determinados por los clculos obtenidos al aplicar un test, los
cuales sern el producto de un anlisis estadstico que est mediado por la
existencia de software idneos, los que han sido de gran utilidad en el
desarrollo de la Teora de Respuesta al tem.
2.3.6.
Modelos
La TRI en tanto propuesta terica, presenta distintos modelos, los cuales

dependern del comportamiento de sus parmetros. En tal sentido y a fin de
una conceptualizacin conducente a determinar cul es ms oportuno utilizar,
se describirn sus componentes y alcances. Es necesario clasificar, a su vez, los
modelos segn sean stos dicotmicos (son aqullos donde la respuesta
esperada a un tem consta de dos posibilidades) o politmicos (son aqullos en
que se puede responder a cada afirmacin en tres o ms alternativas de
respuesta). En definitiva se concluye que bajo el nombre genrico de la TRI se
presentan diferentes modelos que, aunque se diferencian en algunos rasgos,
tienen en comn una serie de aspectos bsicos, especialmente el de ser
modelos estructurales que establecen una relacin matemtica formalizada
entre la respuesta a un tem concreto y el nivel de habilidad de una persona
(LLECE, 2010).
2.3.7.
Modelo de Rasch o logstico de un parmetro
Este modelo est compuesto por tems dicotmicos, y se sustenta en la

probabilidad de acertar una pregunta (o, en el caso de tems actitudinales, dar
la respuesta que implica presencia del constructo medido) depende solamente
del poder discriminador de los tems (que es constante para todos ellos) y de la
dificultad o localizacin de cada afirmacin en el continuo actitudinal (Asn y
Ziga, 2008). A su vez, por poder discriminador se debe entender como la
Ms informacin en:
capacidad que posee un tem de discriminar respecto a la habilidad que poseen

diferentes sujetos que se enfrentan a la medicin de un constructo. En otras
palabras, la capacidad de separar individuos sobre la base de sus habilidades o
niveles respecto al constructo medido. Este modelo parte del supuesto de que
todos los tems poseen el mismo poder discriminador, lo cual si bien parece
falso, permite que los anlisis sean simplificados. Por su parte, la dificultad es el
nivel de actitud o habilidad que debe tener el sujeto para responder el tem, o la
probabilidad que posee de dar una respuesta que represente la presencia de la
actitud medida. Se puede establecer, por tanto que el modelo considera que la
respuesta a un tem slo depende de la interaccin entre la habilidad del sujeto
y la dificultad del tem (LLECE, 2010).
A continuacin se presenta la frmula de clculo para este modelo y sus
caractersticas asociadas. (Chvez lvarez y Antonio, 2008, p. 63)
Segn lo anterior, el parmetro bi se define como la dificultad del tem i,

indicando la posicin de la CCI en la escala de habilidad y se define como el
punto en la escala donde la probabilidad de respuesta correcta es igual a 0.5.
La dificultad de un tem define un punto en la escala de habilidad donde
la posibilidad de acertar es 0,5 y a su vez la posibilidad de errar es tambin de
0.5. Este umbral permite dividir la escala en dos partes, los sujetos con nivel de
habilidad menor a la dificultad del tem tienen una probabilidad de xito menor
Ms informacin en:
a 0,5 y, por lo tanto, menor a la probabilidad de fracaso. Lo mismo opera a la

inversa, esto es, los sujetos con un nivel de habilidad mayor a la dificultad del
tem, tendrn menos probabilidades de responder el tem de forma incorrecta.
Como ya ha sido mencionado, el modelo de Rasch asume que la
discriminacin es la misma para todos los tems, y que solamente la dificultad
influye en los resultados de los sujetos que rinden un test.
2.3.8.
Modelo de dos parmetros
Este surge como un complemento del anterior, y se estructura sobre la

base de generar un modelo que sea menos restrictivo en sus supuestos que el
de Rasch. En este caso el aporte viene dado por el terico Lord, quien estima
un modelo que se diferencia del anterior en tanto permite tems con mayor
poder discriminador. En 1952, Frederic Lord propuso un modelo de Respuesta al
tem en el que las ICCs -(Curvas caractersticas del tem)- tomaban la forma de
una ojiva normal de dos parmetros. En este modelo se tienen en cuenta los
parmetros de dificultad (b) y discriminacin (a) (LLECE, 2010).
Este modelo suma a la dificultad, estudiada en el modelo anterior, la
discriminacin. (Chvez lvarez y Antonio, 2008, p. 66)
Ms informacin en:
Para este caso, el parmetro ai refiere a la discriminacin del tem,

diferenciando los sujetos que responden bien de aquellos que no lo hacen.
Su modelacin en la CCI indica que cuanto mayor sea el valor de
discriminacin ai, mayor ser la inclinacin de la curva, mientras que si el valor
es menor, la curva ser ms plana.
2.3.9.
Modelo de tres parmetros
Como su nombre lo indica, este modelo incluye la presencia de tres

parmetros, por tanto, toma los avances de los anteriores modelos y suma otro
parmetro, por tanto ahora se expresa directamente con los valores a, b y c.
Este modelo fue desarrollado por Allan Birnbaum.
Una de las caractersticas de los tems de seleccin mltiple es la
posibilidad implcita de que sean contestados por azar. De esta situacin se
hace cargo el modelo de tres parmetros, pues a la dificultad y discriminacin,
agrega este factor azaroso. (Chvez lvarez y Antonio, 2008, p. 70)
2.3.10.
Supuestos de la TRI
Cada una de las limitaciones derivadas desde el enfoque clsico, sern

desafiadas desde los planteamientos de la Teora de Respuesta al tem. sta
parte de una evaluacin de cada tem, no del test en su conjunto, por tanto
cada tem es analizado segn la posibilidad que tiene de estimar la habilidad
que tiene el sujeto para responderlo y, por tanto, la calidad mtrica del test en
relacin al constructo que se est midiendo.
El supuesto central de la TRI, se resume en que existe una relacin
funcional entre los valores de la variable que miden los tems y la probabilidad
de acertar estos, denominando a dicha funcin Curva Caracterstica del tem
(Muiz, 2010, p.64). Esto ser desarrollado en el apartado siguiente.
Ms informacin en:
En segundo lugar se asume como supuesto en la mayora de los modelos

de TRI que los tems constituyen una sola dimensin, es decir, son
unidimensionales, lo cual es de vital importancia a la hora de realizar los
anlisis.
Finalmente, se asume el principio de independencia local, esto es, que los
tems han de ser independientes unos de otros. El desarrollo de estos
supuestos, ser revisado a continuacin (DEMRE, 2005):
Unidimensionalidad: la puntuacin de una persona en el Test
depende exclusivamente de una dimensin o factor: su nivel en la habilidad

medida.
Independencia local: Indica que los modelos asumen que las Respuestas
de las personas a un tem son independientes de las respuestas a los
otros tems.
Experiencias educacionales similares en los alumnos que Rinden las

pruebas.
Que la prueba no haya sido apurada, es decir, que se asigne el Tiempo

necesario para que todos alcancen a abordar todos los tems.
Que no haya efectos de contexto no controlados.
En sntesis, es de suma importancia que en la TRI, el modelo sea capaz

de predecir con exactitud el posible comportamiento de los sujetos ante cada
pregunta.
2.3.11.
Ventajas y desventajas
La identificacin de las ventajas y desventajas de un modelo, es por un

lado la posibilidad de conocer sus alcances, pero tambin permite de
abrir nuevos campos investigativos.
Ms informacin en:
Ventajas asociadas a la Teora de Respuesta al tem (DEMRE, 2005):
Se establece como principal ventajas sobre la TCT, la invarianza de

los puntajes del test y de las caractersticas de las preguntas.
La posibilidad de construir curvas de informacin para cada tem, lo

cual permite optimizar la seleccin de preguntas para evaluar un
determinado constructo.
A travs de un anlisis diferencial, proporciona mtodos alternativos

para la deteccin de sesgos en las preguntas.
Proporciona mtodos alternativos para realizar procesos de equanting,

el cual permite comparar dos test.
No obstante las ventajas antes mencionadas, stas se relativizan

cuando
no se
cumplen
los
supuestos. Adems de
ello,
para
determinados constructos o disciplinas, esta teora no alcanza a medir

lo necesario.
En relacin a las desventajas propuestas, es conveniente desarrollar este
mbito sealando algunos ejemplos en los cuales no se cumplen los supuestos
de la teora, a saber:
Se
ha
comprobado
que
hay
teoras
que
son
claramente
multidimensionales; ejemplo de ello son:

-Pruebas de Ciencias, (Hamilton et al 1997 y Nussbaum et al 1997,
(DEMRE, 2005)).
-Pruebas en el rea de Ciencias Sociales.
La medicin de la comprensin lectora a partir de un texto viola el

supuesto de independencia local (Kolen y Brennan 1995, (DEMRE,
2005)).
Ms informacin en:
La medicin en gran escala implica que los alumnos medidos han sido
sometidos a diferentes experiencias educativas, lo que transgrede el
supuesto de experiencias educacionales similares, lo que a su vez,
atenta contra el supuesto de invarianza de las preguntas.
2.3.12.
Software de anlisis estadstico TRI
Las propiedades y supuestos intrnsecos de la TRI, requieren el uso de

software especficos, los cuales permiten la obtencin de datos e informacin
relevante. La eleccin de un programa respecto de otro se relaciona
principalmente con variables como el tipo de estudio realizado, es decir, cules
son las preguntas de investigacin y por ende cules son los clculos
requeridos; adems de lo anterior tambin son relevantes las caractersticas
propias del instrumento de evaluacin, a saber, tipo de tems dicotmicos o
politmicos.
Segn lo anterior, se encuentra disponible software como Bilog-MG de
Zimowski para el caso de tems dicotmicos (Barbero Garcia, 1999). Respecto a
este programa se establecen una serie de bondades relacionadas con los
distintos requerimientos de los usuarios. Se comporta relativamente bien para
el anlisis de modelos de dos y tres parmetros. Respecto a un anlisis del
funcionamiento del software (Lpez Pina J. A., 1996) seala que, del estudio
realizado en una muestra pequea y bajo el anlisis de dos parmetros, BILOG
permite obtener estimaciones exactas de los parmetros de los tems y de la
habilidad aun cuando el tamao muestral sea bajo y la longitud del test sea
breve. No obstante lo anterior, y como podra suponerse, las estimaciones de
los parmetros de discriminacin y dificultad sern sustancialmente mejores en
tanto aumente la muestra y tamao del test.
Ms informacin en:
2.4.
Ventajas de un modelo sobre otro
Hasta ahora el discurso terico se ha centrado en la descripcin por

separado de cada modelo, estableciendo sus principios, supuestos, alcances,
bondades, as como tambin las ventajas y desventajas de cada uno. No
obstante ello, se requiere dar un paso ms adelante y establecer si es necesaria
la comparacin, desde la teora, de ambos modelos. En otras palabras, justificar
la razn por la cual se habla de modelos y no de un modelo Qu es lo que
posee cada uno?, Es posible una complementariedad? O simplemente ya es
hora de definir cul posee ventajas sobre otro. Esto ltimo es de vital
importancia, pues en la medida en que la teora establece principios a favor de
un modelo sobre otro, aquello permite volcarse a la realidad y comprobar va
experiencia la consistencia de dichos planteamientos.
En relacin a lo anterior, es posible sealar las siguientes ventajas que
ofrece la TRI frente a la TCT (Muiz, et al. 2005).
a)
La TRI garantiza que si se cumplen los supuestos del modelo, es
decir, el modelo seleccionado es apropiado y se calibra correctamente, entonces

se obtendr el mismo valor de los parmetros de los tems con independencia
de la muestra para su calibracin.
b)
La TRI garantiza que la estimacin de la capacidad de los
examinados () no depende del test utilizado para su evaluacin. Lo anterior,

no es asegurado en el caso de la TCT.
c)
La TRI permite estimar la precisin con que cada tem y cada test
mide los diferentes niveles de habilidad. Dicho de otra forma, la TRI no asume
como si lo hace la TCT, el supuesto de igualdad de errores de medida.
d)
Lo
anteriormente
expuesto
permite
construir
desde
la
TRI
instrumentos de evaluacin personalizados y eficientes. Cumpliendo un principio
Ms informacin en:
de parsimonia, esto es, que el test estime con mayor precisin aquello que
mide empleando un nmero mnimo de tems.
2.5.
Sntesis comparada de ambas teoras
Segn (DEMRE, 2005), ambas teoras se sintetizan de la forma que

sigue:
a)
Se establece que los supuestos de la TCT son ms bien dbiles, al
ser stos generales, y a su vez la fuerza est en su generalidad, pues se

pueden aplicar a situaciones muy variadas.
b)
Por su parte, los supuestos de la TRI son ms fuertes, al ser ms
restrictivos; por tanto se sacrifica generalidad para ganar precisin predictiva.

c)
Por tanto, cientficamente se plantea la disyuntiva de opcin entre
la generalidad y la precisin, siendo la TCT quien aporta con sus planteamientos

propendiendo a la generalidad en tanto la TRI contribuye a la precisin. La
respuesta respecto a qu modelo optar parece, hasta ahora, no ser excluyente,
sino ms bien complementaria. En tal sentido, queda planteada la necesidad de
que ambas teoras dialoguen en beneficio de los usuarios, lo importante ahora
es demostrar esta idea en el comportamiento emprico y comparado de la TCT y
la TRI.
2.6.
La Medicin de Constructo y las propiedades mtricas de las
Teoras
Hasta ahora se han establecido las definiciones conceptuales de cada
teora, sin embargo es tarea pendiente determinar y caracterizar qu es lo que
se medir y de qu forma. Para ello es necesario sealar cmo se define la
medicin de atributos en psicologa, conocido esto como atributo o constructo,
pero adems caracterizar las propiedades mtricas a travs de los cuales sern
medidos los instrumentos trabajados.
Ms informacin en:
2.6.1.
Constructo
Un constructo es un concepto que tiene el significado agregado de haber

sido inventado o adoptado para un propsito especial, de forma deliberada y
consciente (Kerlinger y Lee, 2002, p.36). En ese sentido, el constructo es un
concepto formulado para ser usado en la ciencia. Su intencin es ser definido de
tal forma para ser observado y medido.
Hasta este punto las referencias a estos conceptos han sido parciales y
no se han desarrollado ampliamente sus alcances y significado. Es posible
definir constructo como una caracterstica no observable de una poblacin,
siendo ejemplos de ello la ansiedad, la habilidad lectora, la inteligencia, etc. En
tal sentido, es posible sealar que el constructo es la verbalizacin de un
abstracto para facilitar su comprensin, y su utilidad se entiende en tanto
ayuda a explicar diferentes comportamientos entre las personas. En otras
palabras: Cmo determinar que un sujeto es ms ansioso que otro
empricamente? La psicologa de la mano de la psicometra ha desarrollado toda
una teora
orientada a establecer conceptualmente
respuestas a estas
interrogantes.
Por tanto es posible afirmar que los constructos pueden abordar
diferentes comportamientos humanos, por lo mismo su explicacin y alcance es
de vital importancia para los propsitos del presente trabajo. En la medida que
se
conocen
las
caractersticas
del
constructo,
as
como
tambin
sus
limitaciones, ser posible orientar ms an las teoras empleadas para medirlos.

En otras palabras, no solamente se habla de la TCT o la TRI y su hipottica
complementariedad en relacin a su utilidad prctica contribuyendo al diseo
ptimo de test por parte de los docentes, sino que se establece un piso previo,
esto es, delimitar cmo se sabe y qu sabe del fenmeno evaluado.
Ms informacin en:
2.7.
Tipo de evaluacin
Segn (Elosua, 2003), existen distintos usos relacionados con los test.
Cada uso est determinado por la intencionalidad y naturaleza con el cual fue
confeccionado el instrumento. Segn lo anterior, en el contexto de la
interpretacin de los resultados de un test ya no basta justificar cada puntaje,
sino que es menester adems delimitar los fundamentos tericos de un
contexto interno, con relacin al propsito o interpretacin propuesta. Como
consecuencia de lo anterior, es necesario especificar las condiciones de la
situacin de medida en relacin a la relevancia y utilidad de las puntuaciones
para los fines propuestos.
Segn la clasificacin propuesta por la autora y para el caso especfico de
esta investigacin, BAVEL es una evaluacin colectiva cuyo propsito es la
evaluacin de politicas o intervenciones educativas, pues es un instrumento o
procedimiento de obervacin que permite medir y evaluar la Eficacia Lectora en
el marco de las herramientas curriculares (Marco Curricular de OF/CMO y
Programas de Estudio).
2.8.
Propiedades Psicomtricas de un test
La psicometra como disciplina se ocupa del estudio de los test y para

evaluar instrumentos que miden determinadas conductas de las personas,
atributos
constructos,
posee
dos
variables
que
legitiman
su
campo
investigativo, a saber: validez y fiabilidad. En este apartado se entrega una

aproximacin
conceptual
para
situar
estos
dos
trminos,
sealar
sus
caractersticas y hasta despejar supuestos errados en torno a ellos.

El primer supuesto errado en torno a las caractersticas psicomtricas se
refiere a creer que la validez y fiabilidad se refieren justamente a los test, en
circunstancias que corresponden a las interpretaciones, inferencias o usos que
se hacen de las medidas que los test entregan. En segundo lugar, se estima
muchas veces que la validez y fiabilidad poseen las caractersticas de estar o no
Ms informacin en:
estar, sin embargo es necesario aclarar que stas se presentan en diferentes

grados (Prieto y Delgado, 2010).
2.9.
Confiabilidad
En la fsica, para determinar que un instrumento de medida, una regla, es

buena, basta tan solo aplicarla varias veces y evaluar si esta mide lo mismo en
las indefinidas veces que se aplica. Ahora bien, en psicologa aplicar esta
analoga es posible, pero deben tenerse en cuenta algunos elementos. Si bien la
psicologa no dispone de instrumentos como la regla fsica para comprobar sus
mediciones, igualmente recurre a la repeticin, partiendo del supuesto que en
indefinidas mediciones con un mismo instrumento se puede llegar a ms o
menos la misma puntuacin. El grado en que la repeticin de la medida ofrece
un mismo valor de atributo medido se conoce como fiabilidad.
Lo anterior se entiende de la siguiente forma: el evaluador podr
determinar que el test es fiable si al repetir su aplicacin o al aplicar una
medicin paralela para medir el atributo. Este punto resulta necesario para el
trabajo que se desarrolla, pues la idea de test paralelos es de gran uso para
determinar la fiabilidad bajo los principios de la TCT. Volviendo a los
planteamientos de la hiptesis, se puede determinar que si se evala la
fiabilidad de los instrumentos ocupados segn los principios tericos que
sustentan
este
trabajo,
se
podr
determinar
comparativamente
el
comportamiento de cada teora.

Conceptualmente, la fiabilidad se define como el grado de error que
afecta a las mediciones hechas con los test, siendo el indicador ms frecuente
para expresar aquel grado de error el coeficiente de fiabilidad (Muiz, et. al
2005). En otras palabras se puede entender este concepto como la consistencia
o estabilidad que tienen las medidas cuando un instrumento se repite, es decir,
test y retest. Ejemplificando desde la experiencia, este concepto asume que si
ocupamos un instrumento para estimar el valor de un objeto, balanza para
pesar fruta, y si las distintas mediciones realizadas en similares condiciones
Ms informacin en:
varan, entonces se considera que aquellas mediciones son inestables,

inconsistentes y por tanto, poco fiables (Prieto y Delgado, 2010). Ser de esta
forma el coeficiente de fiabilidad el indicador que seale a travs de una
puntuacin estas posibles inconsistencias o falta de fiabilidad.
Consecuentemente a lo anterior, surge la pregunta respecto a cmo
calcular este coeficiente. Una primera aproximacin se refiere al ejemplo antes
entregado, es decir, Test-retest, pero adems encontramos el anlisis de
consistencia interna y Test paralelos. Para (Muiz, et. al 2005), las tres
metodologas son vlidas dependiendo del contexto aquel que sea ms
pertinente utilizar.
Se ha establecido que la fiabilidad, tambin denominada confiabilidad, se
entiende
como
la
consistencia
entre
dos
conjuntos
de
puntuaciones
independientes. Ahora bien, existen diferentes mtodos para su verificacin,

para lo cual se debe tener presente lo siguiente. El instrumento aplicado a una
muestra determinada debe estar en concordancia con el diseo de investigacin
propuesto, pero adems los datos resultantes de la mencionada aplicacin
deben ser analizados mediante procedimientos apropiados para as obtener
estadsticas
que
sean
capaces
de
comprobar
la
confiabilidad
del
test
(Tornimbeni, Edgardo, y Olaz, 2008).

Es necesario consignar que el coeficiente de fiabilidad no es una
propiedad intrnseca del test, sino que su valor est determinado por diversos
factores, entre los que cabe destacar (Muiz, et. al 2005):
a) La longitud del test: Entendindose como el nmero de tems que posee
un test, se establece que al aumentar la cantidad de tems, la fiabilidad
del test tambin tiende a aumentar.
b) La variabilidad de la muestra: Para este caso, se estima que en la medida
que aumenta la muestra la fiabilidad tambin tiende a aumentar.
Ms informacin en:
c) El nivel del sujeto en la variable medida. Ciertamente una de las

propiedades que se espera de un test es su capacidad de escalar a los
sujetos medidos, en tal sentido se parte del supuesto de que cada sujeto
se presenta con diferentes niveles y por tanto algunos tendrn
puntuaciones bajas, otros medias y otros altas. La experiencia muestra
que los test no miden con igual precisin a todos los sujetos de una
muestra, la solucin clsica a ello es el coeficiente de fiabilidad
adecuando este a cada rango (alto, medio y bajo).
La fiabilidad en torno a un test es un tema que cruza el cuestionamiento
de cualquier profesional que construye un instrumento de medicin, sin
embargo, como se ha expuesto hasta ahora son mltiples los factores que
influyen en que un instrumento mida correctamente aquello que pretende
medir.
Junto a lo anterior, es necesario mencionar la existencia de creencias en
torno a cmo deber ser un buen test, la creencia mayormente instalada hace
referencia a que una buena prueba es aquella extensa, pues de esta forma el
instrumento abarca ms y mejor los contenidos, sin embargo en este punto
muchas veces el argumento cae en una falacia que mezcla y confunde
extensin con calidad. Al suponer que la calidad del test est supeditada
solamente a su extensin, se cae en un error de construccin, pues como se
puede suponer, aparte de las consideraciones tcnicas propias a la seleccin de
tems, un test extenso por lo general provoca la fatiga de los sujetos y por lo
mismo la condicin ambiental se transforma en un fuerte enemigo de la
fiabilidad.
Lo expuesto hace referencia a la estimacin de la fiabilidad desde el
punto de vista de la discriminacin entre los sujetos, sin embargo es necesaria
para este estudio una conceptualizacin de fiabilidad que propenda a una
evaluacin del grado en el que los sujetos dominan un campo educativo o
profesional, esto es, Test Referidos a Criterio (TRC). Sin embargo, lo sealado
hasta ac respecto a la fiabilidad y su mencionado coeficiente, no es
Ms informacin en:
homologable a este tipo de test que relevan al sujeto respecto del constructo
medido, pues la puntuaciones ya no se expresan en torno al grupo, sino que
hacen referencia al grado en el que el sujeto domina el campo o criterio a
evaluar (Muiz, et. al 2005).
En tal sentido, se establece que los TRC se tratan de tests utilizados
fundamentalmente en el mbito educativo y en la evaluacin en contextos
laborales. Su objetivo es determinar si las personas dominan un criterio
concreto o campo de conocimiento, por tanto no pretenden tanto discriminar
entre las personas, como la mayora de los tests psicolgicos, sino evaluar en
qu grado conocen un campo de conocimiento denominado criterio, de ah su
nombre (Muiz, 2010). Estos test de rendimiento en un dominio especfico de
conocimiento son pertinentes en Lenguaje o Matemtica por ejemplo, ac
interesa fundamentalmente comprobar la confiabilidad de las clasificaciones
establecidas mediante su utilizacin respecto a la maestra de dominio de los
individuos que estn aprendiendo un dominio (expertos v/s no expertos),
(Tornimbeni, Edgardo, y Olaz, 2008).
Por ltimo es necesario consignar que respecto a la fiabilidad, tambin se
puede hacer esta estimacin desde la TRI. Hasta ahora, se ha descrito un
procedimiento que se refiere al test completo. Sin embargo, desde la Teora de
Respuesta al tem en vez de ofrecer una estimacin global de la fiabilidad
mediante un coeficiente de fiabilidad, se puede establecer una Funcin de
informacin para cada uno de los tems (Muiz, et. al 2005). En efecto, esta
funcin indica la precisin con la que el tem est midiendo a cada nivel la
variable evaluada, ahora bien la suma de las funciones individuales proporciona
la informacin del global del instrumento. El avance de este enfoque respecto al
clsico se refiere a que ahora la estimacin de fiabilidad, antes medida por el
coeficiente de fiabilidad desde la TCT, permite precisa informacin desagregada
del test, el cual puede ser fiable para sujetos con puntuaciones altas, pero poco
fiable para quienes obtienen puntuaciones bajas.
Ms informacin en:
2.10.
Validez
Si asumimos que la psicometra es una derivacin de la psicologa y en

tanto campo de estudio se dedica a la construccin de test, para un evaluador
resulta completamente lcito preguntarse, hasta qu punto las inferencias
realizadas a partir de la aplicacin y anlisis de un test son vlidos. Esta
interrogante que surge desde el campo disciplinar y ms especficamente
epistemolgico, es respondida desde el concepto de validez. La psicometra ha
desarrollado un corpus terico tendiente a optimizar las inferencias realizadas a
partir de los resultados obtenidos por un determinado test; siendo uno de los
objetivos de la evaluacin la toma de decisiones, es necesario que stas sean
vlidas y confiables.
La delimitacin del concepto est de la mano con el desarrollo que el
mismo ha tenido, por lo tanto, y al igual que el desarrollo cientfico en otras
reas, lo que hoy se conoce es el fruto de un devenir terico y conceptual. La
definicin ms clsica proviene de (Anastasi 1998) validez es lo que la prueba
mide y qu tan bien lo hace. Lo cual sita el concepto desde su raz primigenia,
no obstante ello el desarrollo contina y por lo mismo se multiplican las
acepciones y nomenclaturas.
Desde un punto de vista conceptual, la validez es un aspecto esencial de
la medicin psicolgica y se relaciona con la investigacin del significado terico
de las puntuaciones obtenidas por medio de un test (Oliden, 2003).
Desde un punto de vista conceptual y clsico, la validez, entendida como
las definiciones antes presentadas, se establece que los datos analizados para
la validacin de un test se estima a partir de (Muiz, et. al 2005):
a) Validez de contenido: Se refiere a la necesidad de comprobar que los
tems que componen el test representan adecuadamente el constructo
evaluado, por tanto, si existen errores en esta etapa, el resto queda
automticamente invalidado.
Ms informacin en:
Queda explcitamente claro que la validez de contenido es fundamental,

para asegurar que el test mide o representa necesariamente aquel universo que
declara estar midiendo. Segn (Martnez Arias, 1995), la validacin de
contenido debe realizarse a partir de los siguientes pasos:
Definicin del dominio de conocimiento o comportamiento a medir.
Identificacin de expertos en ese dominio.
Juicio de expertos acerca del grado en que el contenido del test es

relevante y representativo del dominio.
Procedimiento estadstico para resumir los datos de la fase precedente.
b) Validez predictiva: Se refiere a la comprobacin de que el test predice

un criterio externo. Se estima a travs del coeficiente de validez, el cual
se obtiene mediante el clculo de la correlacin entre el test y el criterio.
c) Validez de constructo: se refiere a la aportacin de datos que
garanticen que el constructo evaluado tiene consistencia como tal y no
resulta espurio. Generalmente su clculo est dado por el anlisis
factorial.
Ciertamente la validez de constructo entrega informacin relevante y
objetiva para determinar certeramente a partir de los datos que la
medicin es consistente. En tal sentido (Abad, Garrido, Olea, y Ponsoda,
2006) sealan:
a) Formular hiptesis relevantes (extradas de deducciones tericas o del
sentido comn) en las que aparezca el constructo que pretendemos
evaluar con el test. En definitiva, una hiptesis de trabajo consiste en
poner en relacin dos o ms variables. Pues bien, una de esas variables
ha de ser el constructo que pretendemos medir con el test.
b) Efectuar en la prctica mediciones oportunas de las variables o
constructos involucrados en las hiptesis. La medicin del constructo de
Ms informacin en:
inters se realizar con la prueba diseada a tal efecto, que es la que

pretendemos validar.
c) Determinar si se verifican o no las hiptesis planteadas. En el caso que
as sea, queda confirmado mediante una investigacin que el test mide el
constructo de inters ya que, de lo contrario, no habra razones lgicas
para que se cumplieran las hiptesis formuladas. Si las hiptesis no se
confirman no significa en principio que el test no es vlido, ya que puede
ser debido a que las hiptesis no estaban planteadas de manera
adecuada, lo cual exigira una revisin de la teora subyacente.
2.11.
Clculos necesarios en la TCT
Para que un test cumpla con el objetivo de medir lo que su constructor

determin que midiera, es necesario que sus componentes bsicos, sus tems,
estn calibrados de forma correcta. En otras palabras, es necesario que exista
una armona entre los tems que componen un test, pues de esta forma se
asegurar que las estimaciones o inferencias realizadas a partir de su anlisis
sean ms acertadas.
El anlisis de tems puede ser entendido como el conjunto de tcnicas
matemticas y estadsticas, que permiten verificar la calidad y hasta pertinencia
de las preguntas o tems de una prueba o test. Desde el punto de vista de la
utilidad, se puede establecer que este tipo de anlisis es til en tanto permite
inferir las caractersticas tcnicas de una pregunta, establecer si cumple con las
necesidades que de ella espera y, en definitiva, decidir si corresponde o no su
inclusin en una prueba o test.
Al momento de plantear un anlisis de tems, es necesario considerar que
el producto a evaluar corresponde a los resultados o respuestas de los sujetos a
los cuales se aplic la prueba o test. Pero, qu informacin se recoge de estas
Ms informacin en:
respuestas? Para cumplir con este objetivo desde la Teora Clsica de los Test,
se han definido algunos indicadores que colaboran en este propsito, a saber:
a)
Dificultad.
b)
Discriminacin.
c)
Fiabilidad.
d)
Validez.
A continuacin se definen las caractersticas esenciales de cada indicador

y su clculo respectivo.
2.12.
Clculo de Dificultad
La Dificultad es entendida como qu tan fcil o qu difcil resulta un tem

para el conjunto de sujetos que rinde la prueba. Por lo general esto se calcula a
partir de la cantidad de sujetos que responden acertadamente al tem. Segn
(Garca Cueto, 2005), La dificultad de un tem se refiere a determinar qu tan
fcil o difcil es ste, un tem es difcil o fcil.
La dificultad se mide a travs del grado de dificultad, entendido como el
porcentaje de sujetos que responden correctamente a un tem. Este ndice
registra valores desde cero cuando ningn sujeto contesta correctamente el
tem, hasta 100 cuando todos los sujetos responden correctamente. Su
interpretacin por momentos tiende a confundir, pues valores altos indican un
grado
de
dificultad
menor,
en
otras
palabras,
ms
sujetos
contestan
correctamente el tem.
El ndice de dificultad sirve para cuantificar el grado de dificultad de cada
tem ID (Abad, Garrido, Olea, y Ponsoda, 2006) y se define como el cociente
entre el nmero total de sujetos que han acertado el tem A y el nmero total
de sujetos que lo han intentado resolver N, omitiendo de este ltimo dato todos
aquellos sujetos que no contestaron el tem.
Ms informacin en:
ID A
N
La conceptualizacin clsica ha definido a este indicador como dificultad,
no obstante lo anterior su interpretacin puede conducir a errores en cuanto a
su interpretacin, es por eso que existen autores, entre ellos (Caro y Trujillo,
2009) quienes tambin hablan de facilidad definindolo como el porcentaje de
estudiantes que abord una pregunta y la respondi bien. A propsito de lo
anterior, los autores proponen una escala para evaluar esta caracterstica:
Tabla 1.
Interpretacin Nivel de Dificultad de los tems y del Test
Categoras
Interpretacin
Menos de 21,0%
Muy Difcil
21,0% a 40,9%
Difcil
41,0% a 60,9%
Apropiada
61,0% a 80,9%
Fcil
81,0% o ms
Muy Fcil
Nota. Fuente: (Caro y Trujillo, 2009, p.9)
2.13.
Clculo de Discriminacin
La discriminacin se entiende como hasta qu punto el tem permite

diferenciar entre aquellos que saben o no saben.
La estimacin de la discriminacin de un tem se puede realizar a travs
de diferentes formas. Una de ellas se relaciona con tomar como referencia la
puntuacin del sujeto la habilidad que se obtiene del total de la prueba. En ese
sentido un tem discrimina de manera eficaz si lo responden ms sujetos con
puntuaciones altas que sujetos con puntuaciones bajas. Por el contrario, aquel
Ms informacin en:
tem en el cual existan ms respuestas correctas de sujetos que poseen bajas

puntuaciones, ser considerado con baja discriminacin.
En este caso se opt por aquella basada en determinar la discriminacin
con la referencia a un criterio definido previamente, esto es, si existe una
definicin en la cual se conoce la habilidad de los sujetos, se estima que el
reactivo discrimina si aquellos que lo contestan ms son aquellos de cierta
categora definida previamente.
Especficamente, el mtodo se relaciona con en el clculo del ndice de
discriminacin basado en grupos extremos. As, siguiendo las recomendaciones
de Kelly (en Muiz y otros, 2005), el total de la muestra es dividida en dos
grupos extremos correspondientes al 27 % superior y el 27 % inferior.
Segn (Caro y Trujillo, 2009) se considera que un tem discrimina bien
cuando lo contestan correctamente los que obtienen puntajes totales altos en la
prueba y no lo contestan correctamente los que obtuvieron puntajes totales
bajos en la prueba.
La apelacin a la capacidad del tem de diferenciar o discriminar entre
quienes saben y quienes no, se evidencia a travs del ndice de discriminacin
dado por la diferencia del porcentaje de respuestas correctas entre un grupo de
alto y otro de bajo rendimiento. Esto queda definido segn (Crocker y Algina,
1986), citados en (Chvez lvarez y Antonio, 2008) as:
ID = Ps Pi
ID = ndice de Discriminacin.
Ps = Proporcin de respuestas correctas en la prueba, de los sujetos del
grupo superior (nmero de respuestas correctas en el grupo superior
entre el nmero de sujetos que conforman este grupo)
Pi = Proporcin de respuestas correctas en la prueba, de los sujetos del
grupo inferior (nmero de respuestas correctas en el grupo inferior entre
el nmero de sujetos que conforman este grupo)
Ms informacin en:
Son diversos los procedimientos para medir esta caracterstica. Segn

(Caro y Trujillo, 2009) el ms simple consiste en correlacionar los puntajes del
tem con los puntajes totales de la prueba. Para grupos mayores a 100
estudiantes se puede emplear la tabla 2:
Tabla 2.
Categoras e interpretacin ndice de Discriminacin
Categoras
Interpretacin
Menos de 0,19
Deficiente (descartar tem o revisar muy bien)
0,20 a 0,29
Regular (se debe mejorar tem)
0,30 a 0,39
Razonablemente bueno
0,40 o superior
Alta discriminacin
Para determinar la Discriminacin de la prueba completa, una forma es

empleando el promedio de las discriminaciones de los tems.
2.14.
Clculo de Confiabilidad
Determinar la fiabilidad puede ser considerado uno de los objetivos ms

importantes de la Psicometra. Si una prueba es fiable, ello en funcin de su
consistencia, entonces la aplicacin repetida de la misma prueba o versiones
paralelas de ella, debera dar un resultado similar. Por esto, interesa en este
momento conceptualizar el clculo.
Un mtodo para calcular el grado de fiabilidad de una prueba es el
coeficiente alfa de Cronbach, desarrollado por el autor en 1951 es una
extensin del KR 21 y que es su equivalente cuando los tems son dicotmicos
(Chvez lvarez y Antonio, 2008).
Ms informacin en:
Donde:
= Coeficiente alfa de Cronbach
= Nmero de reactivos en la prueba
2i
= Varianza del puntaje en el reactivo i
2X
= Varianza del puntaje total
Su interpretacin seala que se espera que la fiabilidad de la prueba sea

siempre igual o superior en la prctica a la que estima este indicador.
Generalmente la Confiabilidad de un test puede entenderse de tres
maneras diferentes, (Abad, Garrido, Olea, y Ponsoda, 2006), a saber:
a)
Segn la estabilidad temporal de las medidas que proporciona.
b)
Segn el grado en que diferentes partes de un test miden un rasgo
de manera consistente.
c)
Enfatizando el grado de equivalencia entre dos formas paralelas.
Para el primer caso se establece el siguiente supuesto, si se aplica un test

a un grupo de personas y transcurrido un tiempo se aplica el mismo test al
mismo grupo, se debe suponer que, si el test es confiable, se obtenga una
correlacin de Pearson elevada entre ambas mediciones. Conceptualmente esta
correlacin de denomina coeficiente de fiabilidad test-retest, e indica mayor
estabilidad de la prueba en tanto el resultado de la correlacin sea ms cercano
a 1.
Para el caso del presente estudio, se medir la Confiabilidad del Pre Test
BAVEL a travs del clculo de la consistencia interna del instrumento estimando
el valor del Alfa de Cronbach.
Ms informacin en:
(Caro y Trujillo, 2009) sealan
que una escala para
interpretar esta
caracterstica es la siguiente:
Tabla 3
Valores e interpretacin del Nivel de Confiabilidad del Test
Categoras
Interpretacin
Menos de 0,51
No Aceptable
0,51 0,60
Nivel Pobre
0,61 0,70
Dbil
0,71 0,80
Aceptable
0,81 0,90
Buena
0,91 o ms
Excelente
2.15.
Clculo de la Validez de un test
Para el caso de la TCT la validez que interesa determinar se relaciona con

la validez de constructo, y especficamente es necesario identificar si el
conjunto de tems que componen la BAVEL permiten evaluar el constructo
Velocidad Comprensiva.
Segn el requerimiento anterior, es imprescindible un anlisis factorial
exploratorio que permita identificar qu dimensiones y a travs de qu tems se
est evaluando el constructo mediante el Test aplicado.
2.16.
Cmo escoger tems adecuados?
Estudiar la capacidad discriminativa de un test es estudiar su capacidad

de predecir un determinado criterio. Saber cul tem utilizar y porqu, cul no
utilizar y porqu, son preguntas a las que se debera enfrentar un evaluador al
momento de construir un instrumento, ciertamente esta vital informacin no
Ms informacin en:
puede quedar al arbitrio de las circunstancias. No son pocas las ocasiones en

que un docente se ve enfrentado a la disyuntiva del tiempo, y tendr que
elaborar pruebas para medir el aprendizaje de sus alumnos; para ello escoger
aquellas preguntas que segn su criterio y experiencia son las mejores, pues la
escasez de tiempo lo lleva a construir la prueba que le demande el menor
tiempo de correccin; sin embargo queda la incgnita respecto a la idoneidad
de lo seleccionado.
La discriminacin entrega valiosa informacin al respecto, y a su vez las
teoras desarrolladas, a saber, la TCT y la TRI, desde sus enfoques pretenden
contribuir a dicha labor. Optimizar los tiempos, escogiendo buenos tems, pero
su vez entregando la informacin sobre el resultado de los aprendizajes de los
estudiantes, se convierte en un potente aliado del proceso de enseanza y
aprendizaje, pues permite evaluar oportunamente y adems tomar las
decisiones a tiempo.
Por su parte el anlisis de validez permite establecer en qu medida cada
uno de los tems refleja un atributo externo. En este caso la comparacin se
hace con las puntuaciones de un atributo externo. Para el caso la comparacin
puede ser otro test o cualquier otro puntaje, en definitiva la validez de un tem
implica detectar su calidad predictiva con respecto a un criterio externo.
Lo importante es sealar que ambos mecanismos son oportunos para
seleccionar buenos tems, sean estos a partir de su homogeneidad, esto es,
consistencia interna y por tanto hablamos de un alto grado de fiabilidad, o
desde el punto de vista de su capacidad predictiva de un criterio externo.
Ms informacin en:
3. Metodologa de Investigacin
3.1.
Tipo de estudio y diseo
Estudio descriptivo y metodolgico que analiza comparativamente la

calidad mtrica del Test BAVEL desde la perspectiva de la Teora Clsica de los
Test y la Teora de Respuesta al tem.
3.2.
Variables
Las variables del estudio sern definidas desde el mbito conceptual y

operacional, es decir, en primer lugar se conceptualiza su definicin desde lo
terico y en segundo lugar son definidas desde su utilizacin prctica
especificando cmo sern medidas u observadas.
3.3.
Definicin conceptual
a) Dificultad: se entiende como que tan fcil o difcil resulta un tem para el
conjunto de sujetos que rinde la prueba. Por lo general esto se calcula a
partir de la cantidad de sujetos que responden acertadamente al tem.
Segn (Garca Cueto, 2005), la dificultad de un tem se refiere a
determinar qu tan fcil o difcil es ste, un tem es difcil o fcil.
b) Discriminacin: Segn (Caro y Trujillo, 2009) se considera que un tem

discrimina bien cuando lo contestan correctamente los que obtienen
puntajes totales altos en la prueba y no lo contestan correctamente los
que obtuvieron puntajes totales bajos en la prueba.
c) Curva caracterstica del tem: Indica para cualquier tem la probabilidad

que tienen las personas que se enfrentan a l de acertarlo (es decir,
responder correctamente) (Hambleton y Rogers, 1991 en Tornimbeni,
Edgardo, y Olaz, 2008, p. 228).
Ms informacin en:
d) Confiabilidad: se define como el grado de error que afecta a las

mediciones hechas con los test (Muiz, et. al 2005).
e) Validez: es un aspecto esencial de la medicin psicolgica y se relaciona
con la investigacin del significado terico de las puntuaciones obtenidas
por medio de un test (Oliden, 2003).
3.4.
Definicin operacional
a) Dificultad. El ndice de dificultad sirve para cuantificar el grado de

dificultad de cada tem ID (Abad, Garrido, Olea, y Ponsoda, 2006) y
se define, en el caso de la TCT,
como el cociente entre el nmero
total de sujetos que han acertado el tem A y el nmero total de

sujetos que lo han intentado resolver N, omitiendo de este ltimo
dato todos aquellos sujetos que no contestaron el tem. Su expresin
matematica es la siguiente:
ID A
N
Este ndice en la TRI se calcula a travs de la estimacin del

parmetro a y obtenido mediante el software Bilog MG 3.
b) Discriminacin. Expresada a travs del ndice de Discriminacin de

cada tem. Para el caso de la TCT se obtiene mediante Excel,
especficamente el mtodo se relaciona con en el clculo del ndice de
discriminacin
basado
en
grupos
extremos.
As,
siguiendo
las
recomendaciones de Kelly (en Muiz y otros, 2005), el total de la

muestra es dividida en dos grupos extremos correspondientes al 27 %
superior y el 27 % inferior.
Este ndice en la TRI se calcula a travs de la estimacin del
parmetro b y obtenido mediante el software Bilog MG 3 y WinGen 3.
Ms informacin en:
c) Curva caracterstica del tem. Este indicador es relaciona solo con

modelos analizados desde la perspectiva de la TRI. La representacin
grfica se obtiene a travs del software Bilog MG 3.
d) Confiabilidad. Este indicador se obtiene a travs del clculo del Alfa de

Cronbach, para el caso del presente estudio se utilizar el software
Spss versin 18.
e) Validez. Especficamente interesa el clculo de Validez de constructo,
para ello se analizarn los puntajes de los alumnos mediante un
anlisis factorial a travs del software Spss versin 18.
3.5.
Poblacin
Alumnos de la Corporacin Municipal de Via del Mar (CMVM) de cuarto

ao bsico en el subsector de Lenguaje y Comunicacin.
3.6.
Muestra
Intencionada a Alumnos de Cuarto ao bsico de la comuna de Via del

Mar, de la quinta regin de Valparaso, de escuelas de dependencia municipal.
El nmero de casos analizados equivale a 560 alumnos del total de
alumnos que rindieron el Test. Este nmero se obtuvo posterior a la depuracin
de la base de datos, excluyendo todos aquellos casos que carecan de
respuestas por parte de los alumnos.
Ms informacin en:
3.7.
Instrumento Test BAVEL, Batera de Velocidad y Eficacia
Lectora
La
investigacin
se
centra
en
la
revisin
comparacin
del
comportamiento psicomtrico de la BAVEL en trminos del anlisis de la calidad

mtrica del instrumento, lo anterior evaluado desde un punto de vista
metodolgico y comparativo, pues los anlisis sern realizados desde la Teora
Clsica de los Test y la Teora de Respuesta al tem.
BAVEL es un instrumento o procedimiento de observacin que cuenta con

19 tems, de los cuales 6 corresponde a seleccin mltiple y 13 a desarrollo
cerrado y abierto. La Batera a travs de su formato compuesto por textos e
tems asociados, permite evaluar tres dominios de lectura, a saber, Velocidad
Lectora Oral, Calidad Lectora o Fluidez Lectora y Compresin Lectora.
El constructo Eficacia Lectora est enmarcado en las herramientas

curriculares (Marco Curricular de OF/CMO y Programas de Estudio), Mapas de
Progreso de Aprendizajes y Aprendizajes clave e indicadores de desempeo
mnimo de la comprensin lectora.
BAVEL permite a docentes y directivos tener una perspectiva sinttica y

focalizada de los aspectos mnimos de la compresin lectora esperados para
cada nivel (Muoz y Saavedra, 2011). En ese sentido, la batera es una
importante fuente de informacin al servicio de distintas audiencias. En el
marco de lo anterior, este instrumento de evaluacin puede ser definido como
una evaluacin Educativa, de tipo diagnstico colectivo y que tiene por objetivo
la
evaluacin
de
Programas
Educativos
Evaluacin
de
politicas
intervenciones educativas (Elosua, 2003).
Ms informacin en:
El instrumento de evaluacin cuenta con un manual que permite

homogeneizar el proceso y de esta forma disminuir la variabilidad de las
puntuaciones por factores contextuales inherentes a la aplicacin. En ese
sentido, es necesario precisar lo siguiente:
a) Para medir y evaluar la Velocidad Lectora y Calidad Lectora se aplican
los mismos textos y protocolos desde 1 a 8 Bsico. En el caso de la
medicin y evaluacin de la Comprensin Lectora se administra una
forma focalizada, con la incorporacin gradual de textos diseados
segn grado de dificultad y nivel educativo.
b) Las instrucciones de administracin de la Batera son explicitadas
segn cada nivel de dominio de la lectura.
Ms informacin en:
RESULTADOS
Los resultados son presentados en funcin de los objetivos de

investigacin definidos.
4. Resultados a nivel Test

4.1.
Confiabilidad
La estimacin de la confiabilidad del instrumento se realiz a travs del

clculo del Alfa de Cronbach, valor que corresponde a 0,692, tal como se indica
en la siguiente tabla.
Tabla 4
Estadsticos de fiabilidad
Alfa de Cronbach
N de elementos
,692
19
La confiabilidad es medida a travs de un valor total para todo el

instrumento, en este sentido el Alfa de Cronbach con un valor de 0,692,
permite establecer una confiabilidad adecuada, y por lo tanto la posibilidad de
obtener resultados confiables si se vuelve a aplicar este instrumento tal como
est.
Si bien el valor recomendable es sobre 0,70, para el caso de este estudio

se considera que el Alfa de Crombach obtenido permite realizar estimaciones
respecto a la consistencia interna del Test BAVEL.
Ms informacin en:
4.2.
Calidad Mtrica del Test BAVEL desde la perspectiva de la
Teora Clsica de los Test

4.2.1.
Dificultad de los tems
La dificultad del tem est mediada por la cantidad de personas que lo

contesten correctamente. As la determinacin de fcil o difcil, depender
del nmero de sujetos que lo acierten o fallen.
El
indicador
ndice de Dificultad permite determinar la dificultad del
tem, siendo en este caso la Dificultad una proporcin obtenida entre las
personas que intentaron responder el tem y aquellas que efectivamente lo
respondieron correctamente.
Desde el punto de vista de las puntuaciones, para aquellos tems
dicotmicos el acierto es 1, mientras que para aquellos tems politmicos que
utilizan rbrica, el acierto corresponde a quien responde y es calificado con el
puntaje mximo del tem.
Ms informacin en:
Tabla 5.
Categorizacin del Grado de Dificultad de los tems
tem
GD (%)
Dificultad
19.Argumentacin
560
65
11,6
Muy difcil
8.Extraen Informacin explcita
560
81
14,5
Muy difcil
560
83
14,8
Muy difcil
560
95
17
Muy difcil
10.Argumentacin
560
119
21,3
Difcil
560
166
29,6
Difcil
560
205
36,6
Difcil
18.Incremento de Vocabulario
560
240
42,9
Apropiada
1.Identificar tipo de texto
560
249
44,5
Apropiada
560
251
44,8
Apropiada
4.Inferencia
560
279
49,8
Apropiada
5.Inferencia
560
296
52,9
Apropiada
560
339
60,5
Apropiada
560
348
62,1
Fcil
560
350
62,5
Fcil
11.Parafraseo
560
363
64,8
Fcil
12.Identifica idea global del texto
560
369
65,9
Fcil
560
440
78,6
Fcil
560
482
86,1
Muy fcil
Total Test
560
42
254
45,3
Apropiada
Nota. tem = tipo de reactivo ordenado segn grado de dificultad; N = total de alumnos que respondieron el
Test BAVEL; n = puntaje total posible de cada tem; f = nmero de estudiantes que acertaron el tem; GD
(%) Grado de dificultad del tem expresado en porcentaje.
Ms informacin en:
4.2.2.
Discriminacin de los tems
La discriminacin, entendida como la capacidad del tem para diferenciar

entre quienes saben y no saben, presentada en la tabla 13, fue construida con
la informacin del anexo 2.
Ms informacin en:
Tabla 6.
ndice de Discriminacin de tems del Test BAVEL e interpretacin
tem
ndice de Discriminacin
Interpretacin
0,14
Deficiente
0,17
Deficiente
0,19
Deficiente
19.Argumentacin
0,19
Deficiente
0,21
Regular
0,25
Regular
0,26
Regular
0,4
Alta discriminacin
0,42
Alta discriminacin
10.Argumentacin
0,42
Alta discriminacin
0,43
Alta discriminacin
12.Identifica idea global del texto
0,43
Alta discriminacin
0,45
Alta discriminacin
0,47
Alta discriminacin
0,5
Alta discriminacin
4.Inferencia
0,52
Alta discriminacin
11.Parafraseo
0,52
Alta discriminacin
0,56
Alta discriminacin
5.Inferencia
0,63
Alta discriminacin
Nota. tem = reactivos ordenados ndice de Discriminacin y su interpretacin.
Ms informacin en:
4.3.
Calidad mtrica del Test BAVEL desde la perspectiva de la
Teora de Respuesta al tem
4.3.1.
Segn modelo de dos parmetros
Al igual que el caso de la TCT, la TRI exige muestras mnimas al

momento de estimar los distintos parmetros, a saber:
Tabla7.
Cantidad de casos necesarios segn modelo de anlisis
Modelo
Nmero de sujetos
requeridos
Teora Clsica de los test
Teora de respuesta al tem
Alrededor de 100
Rasch
100
2 parmetros
250 500
3 parmetros
Ms de 1000
Nota: (Chvez lvarez y Antonio, 2008, p. 27)
Ms informacin en:
Tabla8.
Resultados desde la perspectiva TRI, segn modelo de 2 parmetros
tem
muestra
RC
GD
LOGIT
CPBA
CB
P15.Extraen Informacin explcita
560,0
490,0
87,5
-1,95
0,380
0,610
560,0
488,0
87,1
-1,91
0,189
0,301
560,0
482,0
86,1
-1,82
0,204
0,318
560,0
440,0
78,6
-1,30
0,378
0,532
P10.Argumentacin
560,0
422,0
75,4
-1,12
0,359
0,491
P12.Identifica idea global del texto
560,0
369,0
65,9
-0,66
0,212
0,274
560,0
364,0
65,0
-0,62
0,398
0,512
P11.Parafraseo
560,0
363,0
64,8
-0,61
0,295
0,380
560,0
351,0
62,7
-0,52
0,257
0,328
P6.Incremento de Vocabulario
560,0
350,0
62,5
-0,51
0,205
0,262
560,0
348,0
62,1
0,50
0,293
0,373
560,0
339,0
60,5
-0,43
0,220
0,279
P19.Argumentacin
560,0
333,0
59,5
-0,38
0,262
0,332
P5.Inferencia
560,0
296,0
52,9
-0,11
0,321
0,403
P4.Inferencia
560,0
281,0
50,2
-0,01
0,273
0,342
P13.Identificar tipo de texto
560,0
251,0
44,8
0,21
0,169
0,213
560,0
249,0
44,5
0,22
0,034
0,043
560,0
240,0
42,9
0,29
0,284
0,357
560,0
205,0
36,6
0,55
0,224
0,287
Nota. tem = reactivos del Test BAVEL ordenados segn Grado de Dificultad; Muestra = alumnos
que rinden el Test BAVEL; RC = Respuestas Correctas a cada reactivo; GD = Grado de Dificultad;
CPBA = Correlacin punto Biserial ajustada; CB = Correlacin Biserial.
Ms informacin en:
4.3.2.
Interpretacin de los parmetros a y b
Desde la perspectiva de la Teora de Respuesta al tem, pueden ser

estimados 1, 2 o 3 parmetros. El ms comn y conocido es el Modelo de un
parmetro o de Rasch, siendo consecuentemente los otros de 2 y 3 parmetros.
El primer parmetro, a, hace referencia a la capacidad discriminativa del tem;
el segundo, b, est relacionado con la Dificultad del tem y finalmente el
parmetro c representa la capacidad de responder el tem al azar.
a) Parmetro a discriminacin
Segn (Abad, Garrido, Olea, y Ponsoda, 2006, p. 134), el parmetro "a"

indica la mayor o menor inclinacin o pendiente de la CCI cuando =b.
Normalmente los valores de "a" oscilan entre 0,3 y 2,5, y se suelen considerar
tems "discriminativos" los que tienen valores "a" mayores de uno. Segn lo
anterior y gracias a los aportes de (Tornimbeni, Edgardo, y Olaz, 2008, p. 231),
se elabora la siguiente tabla de referencia.
Tabla9.
Interpretacin parmetro a
Valores
Interpretacin
1,34 o ms
Alta discriminacin
1,33 a 0,65
Moderada discriminacin
0,64 a 0,3
Escasa discriminacin
0,29 o menos
Deficiente
Nota. Elaboracin propia.
Segn lo anterior se presenta la tabla 17 y posteriormente se entrega un

comentario al respecto.
Ms informacin en:
Tabla 10.
Categorizacin parmetro a
tem
Valor a
Interpretacin
1,613
Alta discriminacin
1,287
1,278
P10.Argumentacin
1,154
P5.Inferencia
0,954
P11.Parafraseo
0,884
0,875
0,835
P4.Inferencia
0,783
P19.Argumentacin
0,775
0,716
0,688
0,682
0,664
0,635
Baja discriminacin
0,584
Baja discriminacin
0,571
Baja discriminacin
0,531
Baja discriminacin
0,272
Deficiente
Ms informacin en:
b) Parmetro b dificultad
Tabla 11.
Valores referenciales y clasificacin Parmetro b
Valores
Interpretacin
-1,5 a -3,0
Muy Fcil
0 a -1,5
Fcil
0 a 1,5
Difcil
1,5 a 3,0
Muy Difcil
Nota. Elaboracin propia.
Ms informacin en:
Tabla 12.
Valores referenciales e interpretacin del Parmetro b
tem
Valor b
Interpretacin
-3,030
Muy Fcil
-2,796
Muy Fcil
-1,703
Fcil
-1,312
Fcil
P10.Argumentacin
-1,213
Fcil
-1,131
Fcil
-0,942
Fcil
-0,838
Fcil
-0,805
Fcil
P11.Parafraseo
-0,804
Fcil
-0,682
Fcil
-0,631
Fcil
P19.Argumentacin
-0,558
Fcil
P5.Inferencia
-0,140
Fcil
P4.Inferencia
-0,008
Fcil
0,387
Difcil
0,420
Difcil
0,833
Difcil
0,912
Difcil
Ms informacin en:
CONCLUSIONES
En el siguiente apartado se entregan las conclusiones que se extraen del

presente
estudio,
investigacin.
organizado
Junto
lo
por
anterior,
objetivos
sern
especficos
expuestas
las
pregunta
de
limitaciones
implicancias del proceso desarrollado.
Determinar la calidad mtrica del Test BAVEL, implic un anlisis

psicomtrico desde la perspectiva de la Teora Clsica de los Test y la Teora de
Respuesta al tem y el consecuente anlisis comparado de resultados.
El anlisis comparado de la calidad mtrica del Test, permite concluir

que, segn la informacin disponible, la Teora Clsica de los Test posibilita la
obtencin de resultados con mayor facilidad, los cuales son concordantes entre
s y adems tienen mayor relacin con los niveles taxonmicos de cada uno de
los tems que componen el Test BAVEL. Por su parte, la Teora de Respuesta al
tem, entrega tambin informacin relativa a la calidad mtrica de los tems del
Test, sin embargo la obtencin de esta informacin est regulada por una serie
de supuestos, a saber, unidimensionalidad e independencia local, cada uno de
difcil cumplimiento, lo cual en definitiva influye directamente en los resultados
obtenidos.
La Teora Clsica de los Test, es un modelo lineal cuyo foco de anlisis es

el Test, sin embargo, el anlisis de calidad mtrica definido para este estudio
permiti observar y analizar el comportamiento de cada tem en relacin al
Test. Determinar el ndice de Discriminacin y Grado de Dificultad para cada
tem, desde las perspectivas metodolgicas utilizadas, permiti una mirada ms
precisa y contextualizada de cada tem. En tal sentido, se ofrece un modelo
metodolgico de anlisis que permite determinar, con altos grados de precisin,
Ms informacin en:
informacin relevante al momento de tomar decisiones respecto a los tems de

cualquier test.
Los supuestos que subyacen a la Teora Clsica de los Test son dbiles y
fciles de cumplir, por lo tanto no son en ningn caso un impedimento al
momento de analizar y tomar decisiones respecto al test o sus respectivos
tems. Sin embargo, este modelo carece de la invariabilidad de los estadsticos,
pues stos dependen de la muestra.
Segn lo antes expuesto, es posible sealar que a pesar de que esta

perspectiva carece de relaciones explcitas y evidenciables entre sus tems y el
rasgo que se est midiendo, igualmente la informacin que ofrece permite
evaluar con gran nivel de detalles los principales indicadores de calidad mtrica
de un test, a saber, Grado de Dificultad y Discriminacin.
La Teora de Respuesta al tem, permite tambin un anlisis de calidad

mtrica a partir de la estimacin de los parmetros a, b y c, a saber,
Discriminacin, Dificultad y Azar. Para efectos del presente estudio, la cantidad
de datos analizados solo recomend la estimacin de los dos primeros.
El comportamiento de estos parmetros est mediado, como se dijo, por

supuestos fuertes y difciles de cumplir. En la perspectiva de un estudio
metodolgico, no se realizaron pruebas que permitieran determinar con certeza
el cumplimiento de estos supuestos, pues en todo momento interes analizar la
misma cantidad de tems desde ambas perspectivas, puesto que un anlisis de
Dimensionalidad o Independencia Local podra provocar la prdida de tems.
Ms informacin en:
No obstante lo anterior, tal como fue consignado en el apartado

metodolgico de este estudio, a causa de los requerimientos del Software de
anlisis, los datos de respuesta politmicos de los alumnos fueron recodificados
y traspasados a resultados dicotmicos. Tal como era de suponer, esto afect
notablemente la riqueza original de los datos, por lo tanto la estimacin de los
parmetros de Discriminacin y Dificultad perdi consistencia. Esto pudo
reflejarse en el anlisis comparado de Calidad Mtrica, en donde para un mismo
tem fue posible apreciar estimaciones radicalmente opuestas en algunos casos,
lo cual impeda consensuar criterios respecto a una recomendacin para el tem.
Sin embargo, desde otra perspectiva la TRI ofrece informacin de la cual

la TCT est limitada, a saber, la Funcin Caracterstica del tem (FCI) que
permite conocer la relacin entre el tem y el rasgo que se est evaluando. Para
efectos de esta investigacin, la definicin de indicadores de calidad mtrica no
contempl la FCI, pero s se obtuvo la Curva Caracterstica del tem (CCI), esta
funcin
grfica
es
un
importante
insumo
de
informacin
que
permite
complementar lo obtenido a travs de los indicadores de Dificultad y

Discriminacin. En tal sentido, es un hallazgo metodolgico importante destacar
que la CCI permite relacionar los parmetros de calidad mtrica tradicionales
con la habilidad de cada sujeto respecto al rasgo evaluado.
El anlisis factorial aplicado al Test BAVEL permiti evaluar la Validez de

Constructo del Instrumento. Para este caso se utiliz una metodologa
exploratoria que no estableci categoras o habilidades a priori, sino por el
contrario la exploracin de componentes posibilit determinar qu tems los
tributaban. Segn esta metodologa, se estableci que el Test a travs de sus
19 tems mide seis dimensiones del constructo Eficacia Lectora, sin embargo el
instrumento
mayoritariamente
evala
habilidades
taxonmicas
de
orden
inferior, pues son stas las que agrupan la mayor cantidad de reactivos.
Ms informacin en:
Al respecto se sugiere revisar la Tabla de Especificaciones de BAVEL en

compaa de las tablas de Dificultad y Discriminacin de cada tem, pues de
esta manera se podrn tomar decisiones fundadas y contextualizadas respecto
a la inclusin o no de los reactivos.
En relacin a la pregunta de investigacin, la informacin obtenida y

analizada lleva a sealar que tanto la Teora Clsica de los Test y la Teora de
Respuesta al tem permiten una comprensin de la Calidad Mtrica desde
perspectivas complementarias. Esta complementariedad deber ser entendida
como especfica y vinculante, esto es, por un lado la TRI ofrece la posibilidad de
analizar a los sujetos desde la probabilidad de respuesta en relacin a su
habilidad, pero adems esta informacin se vincula con los parmetros de
Dificultad y Discriminacin, los cuales pueden ser obtenidos desde ambos
enfoques.
Las implicancias de la investigacin se materializan en un estudio

constituido como un importante insumo metodolgico para analizar la calidad
mtrica de los tems de un test, ello con la finalidad de tomar decisiones ms
acertadas respecto a su uso, exclusin y/o modificacin.
Junto a lo anterior, la investigacin ofrece un potencial investigativo

futuro, pues hasta este punto se pudo establecer el tipo de complementariedad
entre ambas perspectivas de anlisis. No obstante lo anterior, es menester
plantear estudios que evalen metodolgicamente el comportamiento de un
mismo grupo de tems desde los diferentes modelos TRI. Es de vital importancia
contar con informacin certera respecto al comportamiento y calidad de
informacin que entregan para un mismo test los diferentes modelos, sean
stos de Rash, dos o tres parmetros.
Ms informacin en:
En la lnea de lo anterior, es interesante evaluar la calidad de informacin

que entrega la TRI respecto a la Validez y la Confiabilidad de un Test, as como
tambin evaluar a travs de un estudio correlacional hasta qu punto las
puntuaciones obtenidas en un modelo clsico o de respuesta al tem, estn
vinculadas.
Finalmente respecto a las limitaciones, es posible afirmar que para el

caso de la TCT la abundancia de informacin permite que su contraparte en
este estudio sea fuertemente opacada. En este sentido, el poco desarrollo
intelectual en nuestro pas en particular y en nuestra lengua en general,
dificulta en parte un estudio de este tipo. Junto a lo anterior, la escasa cantidad
de software libre que permitan estimacin de parmetros TRI, dificultan desde
el punto de vista econmico realizar estas investigaciones, lo cual en definitiva
lleva a tomar decisiones como la dicotomizacin de resultados, con las ya
mencionadas consecuencias.
Ms informacin en:
Bibliografa
ABAD, F., GARRIDO, J., OLEA, J., y PONSODA, V. (2006). Introduccin a la
Psicometra: Teora Clsica de los Test y Teora de Respuesta al tem.
Madrid: UAM.
ANASTASI, A., y URBINA, S. (1998). Test Psicolgicos. Mexico: Pretince Hall

Latinoamerica.
ASN, R., y ZUIGA, C. (2008). Ventajas de los Modelos Politmicos de Teora de

Respuesta al tem en la Medicin de Actitudes Sociales. El Anlisis de un
Caso. PSYKHE, Vol.17, N 2, 103-115.
ATTORRESI, H., LOZZIA, G., PABLO, F., GALIBERT, M., y AGUERRI, M. E.

(2009). Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para
la medicin de constructos psicologicos. Revista argentina de clnica
psicolgica, 179-188.
BARBERO GARCIA, M. I. (1999). Desarrollos recientes de los modelos

psicomtricos de la Teora de Respuesta a los tems. Psicothema, 195-210.
CARLINO, F. (1991). La evaluacin Educacional. Historia, problemas y propuestas.

Buenos Aires: AIQUE.
CARO, A., y TRUJILLO, H. (2009). Evaluacin del Rendimiento. Valparaso:

Univerdad de Valparaso.
CENEVAL. (2009). Boletin CENEVAL. Mxico DF: CENEVAL.
CHVEZ LVAREZ, C., y ANTONIO, S. H. (2008). Procedimientos bsicos para el

anlisis de reactivos. CENEVAL, 29-34.
Ms informacin en:
DEMRE, (2005). Teora Clsica de Medicin TC y Teora de Respuesta al TEM

TRI. Santiago: Universidad de Chile.
ELOSUA, P. (2003). Sobre la Validez de los Test. Psicothema, 315-321.
ESCALANTE, E., y ALBERTO, C. (2002). Anlisis y tratamiento de datos en spss.

Valparaso: Ed. Univ. Playa Ancha.
GARCA CUETO, E. (2005). Anlisis de los tems: Enfoque clsico. Madrid: La

Muralla.
GONZLEZ, M. C., ROLDN, C., ARREZ, D., GUTIRREZ, N., SEGURA, A., y
FERNNDEZ, A. (2010). Eficiencia Lectora: Comparacin alumnos
universitarios de ciencias tcnicas, ciencias experimentales yletras, y
alumnos de EE.UU. (Ciencias y letras). I Jornadas sobre Innovacin Docente
y Adaptacin al EEES en las Titulaciones Tcnicas (pgs. 137-140).
Granada: Godel Impresores Digitales S.L.
HOUSE, E. (1994). Evaluacin, etica y poder. Madrid: Morata.
KERLINGER, F., y LEE, H. (2002). Investigacin del comportamiento: mtodos de

investigacin en Ciencias Sociales. Mxico: McGraw Hill Interamericana.
LLECE. (2010). Compendio de los manuales del SERCE. Santiago: INTERSON

S.A.
LPEZ PINA, J. (2005). tems politmicos v/s tems dictcomicos: Un estudio

metodolgico. Anales de Psicologa, 399-344.
LPEZ PINA, J. A. (1996). Estimacin de parmetros en la TRI: Una evaluacin de

BILOG en muestras pequeas. Psicothema, 173-185.
LPEZ-CUADRADO, J., PREZ, T., y ARMENDARIZ, A. J. (2005). Evaluacin

mediante Tests: Por qu no usar el ordenador? Revista Iberoamericana de
Educacin .
Ms informacin en:
MANZI, J., y SAN MARTN, E. (2003). La necesaria complementariedad entre

teora clsica de la medicin (TCM) y teora de respuesta al tem (TRI):
aspectos conceptuales y aplicaciones. Estudios Pblicos, 145-183.
MARCHANT, T., RECART, I., CUADRADO, B., y SANHUEZA, J (2004). Pruebas

de Dominio Lector FUNDAR para alumnos de enseanza bsica. Santiago:
Ediciones Universidad Catlica de Chile.
MARTNEZ ARIAS, R. (1995). Psicometra: Teora de los Tests Psicolgicos y

Educativos. Madrid: Sintesis.
MARTNEZ, R. (1996). Psicometra: Teora de los Tests Psicolgicos y Educativos.

Madrid: Sintesis.
MUOZ, M., y SAAVEDRA, S. (2011). Batera de Velocidad y Eficacia Lectora.

Via del Mar.
MUIZ, J. (1992). Medio siglo de Teoria de Respuesta a los tems. Anuario de

Psicologa, 41-66.
MUIZ, J. (1998). La medicin de lo Psicolgico. Psicothema, 1-21.
MUIZ, J. (2001). Teora Clsica de los Test. Madrid: Pirmide.
MUIZ, J. (2010). Las Teoras de los Test: Teora clsica y Teora de Respuesta al
tem. Papeles del Psiclogo (31), 57-66.
MUIZ, J., y HAMBLETON, R. K. (1992). Medio siglo de Teora de Respuesta a los

tems. Anuario de Psicologa, 41-66.
MUIZ, J., FERNNDEZ-HERMIDA, J., FONSECA-PEDRERO, E., CAMPILLOLVAREZ, A., y PEA-SUREZ, E. (2011). Evaluacin de tests editados.
Papeles del psicolgo, 113-128.
Ms informacin en:
MUIZ, J., FIDALGO, ., GARCA-CUETO, E., MARTNEZ, R., y MORENO, R.

(2005). Anlisis de los tems. Madrid: La Muralla.
MURAT, F. (1985). Evaluacin del comportamiento humano. Crdova: Universidad

Nacional de Crdova.
OLIDEN, P. (2003). Sobre la Validez de los Test. Psicothema, 315-321.
PARDO, C. (2001). Revista Colombiana de Psicologa. ACTA, Bogot.
PARDO, C. (2008). Hablemos de Validez. Bogota : ICFES Instituto Colombiano

para el Fomento de Educacin Superior.
PRIETO, G., y DELGADO, A. R. (2010). Fiabilidad y validez. Papeles del Psiclogo,

Vol. 31(1), pp. 67-74.
REVUELTA, J., ABAD, F., y PONSODA, V. (2006). Modelos poltomicos de

Respuesta al tem. Madrid: La Muralla.
RODRGUEZ-JIMENEZ, O., ROSERO-BURBANO, R. B., y DUARTE, L. (2011).

Produccin de Conocimiento en Psicometra en Instituciones de Educacin
Superior de Bogot y Cha. Revista colombiana de Psicologa, 9-25.
RUIZ. (2003). Metodologa de la Investigacin Cualitativa. Bilbao : Universidad de

Deusto.
STUFFLEBEAM, L., y SHINKFIELD, A. (1987). Evaluacin Sistemtica. Gua

Terica y Prctica. Buenos Aires: Paidos Ibrica.
TORNIMBENI, S., EDGARDO, P., y OLAZ, F. (2008). Introduccin a la Psicometra.

Buenos Aires: Paids.
Ms informacin en:

1.3 - Cofré - Francisco - Estudio Metodológico de La Calidad Métrica de Los Ítems Del Test BAVEL Desde La Perspectiva de La Teoría Clásica de Los Test (TCT) y La Teoría de Respuesta Al Ítem (TRI)

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

1.3 - Cofré - Francisco - Estudio Metodológico de La Calidad Métrica de Los Ítems Del Test BAVEL Desde La Perspectiva de La Teoría Clásica de Los Test (TCT) y La Teoría de Respuesta Al Ítem (TRI)

Загружено:

Авторское право:

Доступные форматы

Estudio metodolgico de la calidad mtrica de los tems del

Test BAVEL desde la perspectiva de la Teora Clsica de los

Autor: Francisco Sebastin Cofr Seplveda

Objetivo General ......................................................................................................... 7

Objetivos Especficos ............................................................................................. 7

Importancia de la Teora de los Test............................................................. 10

Teora Clsica de los Test (TCT) ..................................................................... 11

La Teora de Respuesta al tem (TRI) .......................................................... 16

Ventajas de la TRI ............................................................................................ 18

Desventajas de la TRI ..................................................................................... 19

Modelos, parmetros y Curva Caracterstica del tem ....................... 19

Curva Caracterstica del tem (CCI) .......................................................... 21

Modelo de Rasch o logstico de un parmetro ....................................... 22

Modelo de dos parmetros ............................................................................ 24

Modelo de tres parmetros ........................................................................... 25

Supuestos de la TRI ......................................................................................... 25

Ventajas y desventajas .................................................................................. 26

Software de anlisis estadstico TRI .......................................................... 28

Ventajas de un modelo sobre otro ................................................................. 29

Sntesis comparada de ambas teoras .......................................................... 30

La Medicin de Constructo y las propiedades mtricas de las Teoras

Propiedades Psicomtricas de un test .......................................................... 32

Clculos necesarios en la TCT .......................................................................... 39

Clculo de Dificultad ............................................................................................ 40

Clculo de Discriminacin .................................................................................. 41

Clculo de Confiabilidad ..................................................................................... 43

Clculo de la Validez de un test ...................................................................... 45

Cmo escoger tems adecuados? ................................................................. 45

Metodologa de Investigacin .............................................................................. 47

Tipo de estudio y diseo .................................................................................... 47

Definicin conceptual .......................................................................................... 47

Definicin operacional ......................................................................................... 48

Instrumento Test BAVEL, Batera de Velocidad y Eficacia Lectora.... 50

Resultados a nivel Test........................................................................................... 52

Dificultad de los tems .................................................................................... 53

Discriminacin de los tems .......................................................................... 55

Segn modelo de dos parmetros ............................................................. 57

Interpretacin de los parmetros a y b ................................................... 59

metodolgico que analiz comparativamente la Validez y Confiabilidad del Pre

Palabras clave: Teora Clsica de los Test, Teora de Respuesta al tem,

Antecedentes del estudio

instrumentos de evaluacin, denominados genricamente Test, que permiten

evaluar el aporte que La Teora Clsica de los Test y La Teora de Respuesta al

psicomtrico de la Teora Clsica de los Test y la Teora de Respuesta al

Si un test es el resultado de la planificacin de evaluacin expresada en

el error de medida (Muiz et al, 2005). Es importante sealar que en ambas

Importancia de la Teora de los Test

El desarrollo de estas teoras que permiten evaluar hasta qu punto un

(Muiz, 2010). En tal sentido, estas teoras permiten conocer cientficamente la

Teora Clsica de los Test (TCT)

Estableciendo un punto de inicio histrico, es posible afirmar que esta

Como afirma (Muiz, 2001, citado en Tornimbeni, Edgardo, y Olaz,

La TCT parte de tres supuestos relacionados con el puntaje obtenido del

El primer supuesto se relaciona con dos conceptos: el puntaje

verdadero y el error de medicin. Segn ello, el puntaje obtenido ser la

El segundo supuesto planteado por Spearman, seala que no

existe relacin entre el valor de las puntuaciones verdaderas de las personas y

Un tercer supuesto establecido por el autor seala que los errores

de medida de las personas en un test no se relacionan con los posibles errores

La puntuacin verdadera de un individuo es una puntuacin

lmite, un punto de un intervalo de la distribucin de puntuaciones

Cuanto ms alta sea la confiabilidad de un test, menor ser ese

intervalo, y la puntuacin observada se ubicar ms prxima a la