Вы находитесь на странице: 1из 46

RIA

-
Ma J.; HERNNDEZ LLOREDA
'
ditorial.
de los Tests Psicolgicos y Edu-
-ts. Madrid: Editorial Pirmide.
:as.
Jrctica en la construccin de
ITEMA 5
LA FIABILIDAD EN LOS TESTS
REFERIDOS AL CRITERIO
Enrique Vila Abad
/SUMARIO
1. Orientaciones Didcticas
2. Definicin y objetivos de los tests referidos al criterio
3. Diferencias entre los tests referidos a la norma y los tests referidos al
criterio
4. Longitud del test
5. Fiabilidad en las clasificaciones en los tests referidos al criterio
5.1. ndices de acuerdo que requieren dos aplicaciones del test
5.1 .1. ndice de Hambleton y Novick
5.1 .2. Coeficiente Kappa de Cohen
5.1.3. ndice de Crocker y Algina
5.2. ndices de acuerdo que requieren una sola aplicacin del test
5.2.1. Mtodo de Huynh
5.2.2. Mtodo de Subkoviak
5.2.3. Coeficiente de Livingston
6. Mtodos para estimar el punto de corte en los tests referidos al criterio
6.1. Mtodos valorativos
6.2. Mtodos combinados
6.3. Mtodos de compromiso
7. Ejercicios de autoevaluacin
8. Soluciones a los ejercicios de autoevaluacin
9. Bibliografa complementaria
ri terio
( los tests referidos al
ri dos al criterio
::aciones del test
aplicacin del test
ests referidos al criterio
1. ORIENTACIONES DIDCTICAS
A lo largo de los temas precedentes se ha visto cmo llevar a cabo la cons-
truccin de los instrumentos de medicin psicolgica y, desde el marco de la
teora clsica de los tests, se han planteado distintos procedimientos para evaluar
la fiabilidad de las puntuaciones obtenidas al aplicarlos y estimar la puntuacin
verdadera de los sujetos en la caracterstica medida. Los tests construidos y eva-
luados con los procedimientos descritos se denominan: tests referidos a la norma
debido a que el rendimiento de los sujetos se evala en referencia a otros suj e-
tos que forman el grupo normativo. Este enfoque de los tests referidos a normas
no proporciona, en ocasiones, una informacin adecuada de la habilidad real de
un sujeto sino de su posicin relativa respecto a otros sujetos. Supongamos, a
modo de ejemplo, que un sujeto punta por encima del 80% de sus compae-
ros en un determinado test. Si deseamos saber la posicin relativa de dicho su-
jeto respecto al rasgo evaluado tendremos que tener informacin acerca del
grado de representatividad de esa muestra. Si estamos hablando de que un su-
jeto se encuentra en un percentil 80 respecto a una prueba de resolucin de pro-
blemas, nos podemos plantear cuestiones como, qu tipo de problemas es ca-
paz de resolver, qu tipo de resolucin requieren dichos problemas, cul es el
lmite de capacidad de resolucin de problemas de dicho sujeto, etc. Este tipo
de cuestiones puede ser abordado cuando la evaluacin de un sujeto no se
realiza en funcin de un grupo normativo, sino cuando tiene lugar en funcin del
nmero de objetivos logrados por dicho sujeto en dicho test. Hablaremos en este
caso de los tests referidos al criterio.
En el presente tema pretendemos desarrollar, lo ms ampliamente posible, y
siempre dentro de las pretensiones del libro, cuatro aproximaciones bsicas a la
estimacin de la fiabilidad de los tests referidos al criterio. Los modelos que aqu
247
1 PSICOMETRA
presentamos son adecuados para aquellas situaciones en las que la decisin de
clasificar a un sujeto dentro o no de un grupo de maestra est en funcin de si
ha alcanzado o no una determinada puntuacin en el test denominada puntua-
cin de corte.
2. DEFINICIN Y OBJETIVOS DE LOS TESTS REFERIDOS
Al CRITERIO
Los Tests Referidos al Criterio (TRC) tienen sus orgenes en los trabajos de
Fl anagan (1951) y Nedelsky (1954) que introdujeron el concepto de estndar ab-
soluto y relativo respecto a las puntuaciones obtenidas en los tests. La denomi-
nacin de Test Referido al Criterio se debe a Ebel (1962) y su diferenciacin res-
pecto a los tests normativos fue establecida por Glaser en 1963. Segn
Hambleton (1994), las principales causas que generan su aparicin son: la ne-
cesidad de conocer la eficacia de los programas educativos, el inters por eva-
luar el nivel de habilidades bsicas alcanzado por los sujetos y el clima contra-
rio al uso de los tests que caracterizaba la situacin de la sociedad americana en
la dcada de los aos sesenta. Durante esta dcada, se produce una escasez de
investigaciones en este campo. Merece destacar, sin embargo, el artculo de
Popham y Husek (1969) en el que se reaviva el tema y se amplan las distincio-
nes entre tests referidos al criterio y los tests referidos a normas.
Posteriormente, en la dcada de los setenta, se increment notablemente el
nmero de artculos, monografas, libros y revistas en los que se introducen nue-
vos trminos y modalidades de tests (Berk, 1980; Gray, 1978; Hambleton y col.,
1978; Huynh, 1976; Popham, 1978; etc.). Estos autores muestran unanimidad al
considerar un test referido al criterio como aqul que intenta establecer el esta-
tus de un sujeto respecto al dominio definido. Destaca el trabajo de Millman
(1974) en el que realiza la primera recopilacin e integracin de los avances en
esta temtica.
A partir de entonces aparecen sucesivamente manuales especializados ela-
borados por Bejar (1983), Berk (1980, 1984), Osterlind (1998), Popham (1978)
y Roid y Haladyna (1982) entre otros, as como diversos nmeros monogrficos
en las revistas journal of Educational Measurement (1978, Vol. 15, N.4) o Ap-
plied Psychological Measurement (1980, Vol. 4, N.4).
Hacia la segunda mitad de los aos 80, se produjo una disminucin signifi-
cativa en la produccin de publicaciones dedicada a este tema. Hambleton,
(1994) seala que ello fue debido a la irrupcin en el contexto educativo del
248
; en las que la decisin de
~ s t r a est en funcin de si
1 test denominada puntua-
:STS REFERIDOS
genes en los trabajos de
concepto de estndar ab-
s en los tests. La denomi-
2) y su diferenciacin res-
Giaser en 1963. Segn
. n su aparicin son: la ne-
cativos, el inters por eva-
sujetos y el clima contra-
la sociedad americana en
e produce una escasez de
embargo, el artculo de
11 se amplan las distincio-
a normas.
: rement notablemente el
los que se introducen nue-
~ ~ 1978; Hambleton y col.,
s muestran unanimidad al
intenta establecer el esta-
el trabajo de Millman
racin de los avances en
uales especializados ela-
d (1998), Popham (1978)
nmeros monogrficos
978, Vol. 15, N.4) o Ap-
una disminucin signifi-
a este tema. Hambleton,
contexto educativo del
lA FIABiliDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
nuevo enfoque denominado medicin autntica (autenthic measurement) o eva-
luacin de la ejecucin (performance assessment). No obstante, l mismo con-
sidera que los trminos medicin autntica y evaluacin de la ejecucin son sim-
plemente trminos alternativos al de medicin referida a criterio. A finales del
siglo xx ya es un tema de gran relevancia en el terreno de la medicin psicol-
gica y educativa y prueba de ello son los nmeros monogrficos publicados en
los ltimos aos en las revistas Educational Measurement: lssues and Practice
(1994, Vol. 13, N 4) y Applied Measurement in Education (1995, Vol. 8, N.1 y
1997, Vol. 1 O, N. 1).
Se han propuesto numerosas definiciones para hacer referencia a este tipo de
tests, aunque segn Hambleton (1 988) la ms aceptada es la propuesta por
Popham (1978):
Un test referido al criterio se utiliza para evaluar el status absoluto del sujeto
con respecto a algn dominio de conductas bien definido .
Teniendo en cuenta esta definicin, los TRC no constituyen un nuevo marco
terico en la Teora de los Tests sino un nuevo enfoque que responde a pregun-
tas y necesidades distintas de los tests referidos a las normas (TRN). En los TRN
la finalidad es describir al sujeto en el continuo de algn rasgo, haciendo hin-
capi en las diferencias individuales y expresando su posicin relativa respecto
al grupo de sujetos denominado grupo normativo. Desde la perspectiva de los
TRC el objetivo es construir y evaluar tests que permitan interpretar las puntua-
ciones en sentido absoluto, sin referencia a ningn grupo, y describir con mayor
precisin los conocimientos, habilidades y destrezas de los sujetos en un domi-
nio concreto de contenidos.
3. DIFERENCIAS ENTRE LOS TESTS REFERIDOS A LA
NORMA Y LOS TESTS REFERIDOS Al CRITERIO
En cuanto a la construccin del test, en los TRC se delimita claramente el do-
minio de contenidos o conductas y el uso pretendido del test, mientras que en
los TRN los tems suelen derivarse de alguna teora de rasgos y no se hace tanto
hincapi en la especificacin clara del dominio de contenidos. De este modo,
en los TRC se presta mucha atencin a las especificaciones de contenido y a la
elaboracin y anlisis cualitativo de los tems. Una descripcin detallada del
proceso de construccin de un TRC aparece en los trabajos de Hambleton y
Rogers (1991) y Popham (1978, 1984) y sobre elaboracin de tems en los de
Haladyna (1999), Millman (1984), Osterlind (1998), Popham (1978), Roid y
249
1 PSICOMETRA
Haladyna (1982) o Shrock y Coscarelli (1989). Por otra parte, la validez de con-
tenido, tal y como se ver en el tema siguiente, es fundamental en este tipo de
tests ya que su esencia es la relevancia y representatividad de los tems respecto
al dominio especfico.
Tambin se encuentran diferencias en los criterios de seleccin de tems para
el test. En los TRN el objetivo es maximizar las diferencias individuales por lo
que se eligen tems de dificultad media y alto ndice de discriminacin para in-
crementar el poder discriminativo del test. En los TRC, sin embargo, la selec-
cin de los tems se basa en los objetivos del test 'y en el propsito y finalidad
del mismo (Martnez Arias, 1995). Los TRC se pueden utilizar para dos tipos de
objetivos: la estimacin de la puntuacin dominio de los sujetos y el estableci-
miento de estndares mediante puntos de corte (Berk, 1980). Un TRC construido
atendiendo al primer objetivo se denomina test referido al dominio y se utiliza
para describir lo que una persona puede hacer en un rea de contenido espec-
fico. Por otro lado, cuando un test se construye para establecer estndares me-
diante los puntos de corte, el test se denomina test de maestra y es til para cla-
sificar a los sujetos en una de las posibles categoras de clasificacin excluyentes
entre s como xito-fracaso, apto-no apto o trastorno-no trastorno (Cracker y
Algina, 1986).
Segn sea el objetivo que se pretenda, la estimacin de la fiabilidad de las
puntuaciones se realizar de forma diferente (Traub y Rowley, 1980). En este
caso, los mtodos de la teora clsica para tests normativos no son apropiados
porque no permiten describir la precisin de las puntuaciones individuales ni la
consistencia de las decisiones tomadas a partir de ellas (Hambleton y Rogers,
1994). Nuevos procedimientos han sido necesarios para alcanzar los objetivos
de estos tests.
Por otro lado, el establecimiento de estndares lleva consigo la determinacin
de los puntos de corte que del imitan los estndares. La ubicacin de estos pun-
tos de corte ha motivado numerosas investigaciones dada la gran trascendencia
que tienen las decisiones que se toman para los sujetos. Una revisin ms com-
pleta de los criterios y mtodos empleados se puede encontrar en Berk (1986,
1996), Cizek (1996), de Gruijter (1985), Faggan (1994), Livingston y Zieky (1982),
Shepard, Glaser, Linn y Bohrnstedt (1993) y en los nmeros monogrficos de las
revistas }ournal of Educational Measurement (1978, vol. 15, nm. 4) y Applied
Measurement in Education (1995, vol. 8, nm. 1).
Adems de la f iabilidad de las clasificaciones y la adecuada ubicacin de los
puntos de corte, otro aspecto relevante de los tests de maestra es la obtencin
de evidencias acerca de la validez de las decisiones de la clasificacin, tal y
250
o
rr
el
u
d
b
la
ej
i
la
fe
ni
tu
VE
de
es
nc
m
Zi
4.
a {
en
en
de
de
cu
ca,
do
ter
tiv,
fic
de
r parte, la validez de con-
ndamental en este tipo de
idad de los tems respecto
de seleccin de tems para
~ n c i a s individuales por lo
e discriminacin para in-
e, sin embargo, la selec-
n el propsito y finalidad
utilizar para dos tipos de
los sujetos y el estableci-
980). Un TRC construido
'do al dominio y se utiliza
rea de contenido espec-
blecer estndares me-
estra y es til para cla-
clasificacin ex el uyentes
-no trastorno (Crocker y
de la fiabilidad de las
Rowley, 1980). En este
no son apropiados
ones individuales ni la
as (Hambleton y Rogers,
ra alcanzar los objetivos
consigo la determinacin
ubicacin de estos pun-
da la gran trascendencia
. Una revisin ms com-
encontrar en Berk (1986,
Li vingston y Zieky (1982),
ros monogrficos de las
. 15, nm. 4) y Applied
decuada ubicacin de los
maestra es la obtencin
de la clasificacin, tal y
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
como se ver en el tema 7. El estudio de este tipo de evidencias se lleva a cabo
mediante el anlisis de la correspondencia entre las clasificaciones realizadas por
el test y las de un criterio de clasificacin externo alternativo. Para ello se realiza
un proceso de validacin referida a un criterio en el que se calcula el coeficiente
de validez a travs de ndices de acuerdo, y se determinan los ndices de sensi-
bilidad y especificidad que complementan la informacin sobre la validez de
las decisiones tomadas por el test. Algunos trabajos en esta temtica (vase por
ejemplo, Dunn, 2000) proponen la aplicacin de la Teora de la Deteccin de Se-
ales, y ms concretamente de las curvas ROC para el estudio de la validez de
las decisiones tomadas al clasificar a los sujetos.
Por ltimo, en lo que respecta a la evaluacin de los sujetos, encontramos di-
ferencias entre ambos enfoques, el normativo y el referido a un criterio, en el sig-
nificado e interpretacin de las puntuaciones de los tests. En los TRN, la pun-
tuacin obtenida por los sujetos se considera un indicador de su puntuacin
verdadera en un rasgo latente y slo tiene significado en relacin a los resulta-
dos del grupo normativo. En los TRC, sin embargo, la puntuacin representa un
estimador del rendimiento del sujeto en el dominio y tiene significado en trmi-
nos absolutos. En este enfoque, para la estimacin de la puntuacin en el do-
minio se puede utilizar la proporcin de respuestas correctas (Bock, Thissen y
Zimowski, 1997).
4. LONGITUD DEL TEST
El problema de determinar la longitud del test, o el nmero de tems que van
a evaluar cada uno de los objetivos incluidos en el test, constituye un problema
crucial ya que de ello va a depender la utilidad de las puntuaciones obtenidas
en dicho test. Si el nmero de tems es pequeo, la interpretacin que hagamos
de las puntuaciones obtenidas tiene un valor limitado. Consiguientemente, se
debera ser cauto a la hora de emplear dichas puntuaciones para llevar a cabo
cualquier tipo de decisin que implique, por ejemplo, una seleccin o clasifi-
cacin de los sujetos. Si tenemos un test con pocos elementos, la estimacin del
dominio ser imprecisa y dar lugar a clasificaciones que o bien son inconsis-
tentes a lo largo de varias presentaciones de formas paralelas, o no son indica-
tivas del verdadero nivel de maestra de un sujeto; es decir, se obtendrn clasi-
ficaciones que son poco fiables.
Si el propsito que se persigue es el de poder establecer el grado de maestra
de un sujeto, la determinacin de la longitud del test est directamente relacio-
251
1 PSICOMETRA
nada con el nmero de errores de clasificacin tolerables. Por otra parte, cuando
el nmero de elementos del test es elevado, se pueden asegurar valores de pro-
babilidad de clasificacin incorrecta mnimos. Como cabe pensar, un excesivo
nmero de tems tampoco es lo ms adecuado debido a limitaciones de tiempo,
economa, etc.
Se pueden considerar dos maneras de reducir el nmero de errores que se
pueden cometer sin tener que aumentar la longitud del test. Por una parte, la
utilizacin de modelos bayesianos (Novick y Jackson, 1974) y, por otra parte, se
pueden utilizar mtodos basados en tests computarizados (Eignor y Hambleton,
1979; Hambleton y Eignor, 1978; Spineti y Hambleton, 1977; Wilcox, 1980).
A conti nuacin presentamos nicamente el modelo propuesto por Millman
(1973). El lector interesado podr recabar ms informacin a partir de las refe-
rencias citadas y/o los trabajos de Birbaum, 1968; Hambleton y col., 1983 y
Lord, 1980.
Modelo de Millman
El modelo propuesto por Mi liman (1973) est basado en el modelo binomial.
Considera la proporcin esperada de tems que un sujeto puede contestar co-
rrectamente para ser considerado como apto, de la poblacin de tems definidos,
y el error mximo que se est dispuesto a tolerar.
Dicho modelo parte de los siguientes supuestos:
1) El test est compuesto por una muestra aleatoria de tems dicotmicos.
2) La probabilidad de una respuesta correcta por parte de un sujeto es cons-
tante para todos los tems del test.
3) Las respuestas dadas a los tems del test son independientes unas de otras.
4) Los errores se ajustan al modelo binomial,
Prob(x 1 p) =(n]pxqn-x = i( n! )pxqn-x
x x x!(n-x)!
[5.1]
donde:
Prob(x lpJ =probabilidad de que un sujeto con una puntuacin p, conteste
correctamente x tems de un test que tiene n tems.
A partir de la siguiente ecuacin podemos calcular la longitud del test, su-
puesta una determinada proporcin de aciertos:
252
Por otra parte, cuando
asegurar valores de pro-
pensar, un excesivo
limitaciones de tiempo,
mero de errores que se
el test. Por una parte, la
974) y, por otra parte, se
(Eignor y Hambleton,
, 1977; Wilcox, 1980).
propuesto por Millman
in a partir de las refe-
bleton y col., 1 983 y
en el modelo binomial.
eto puede contestar co-
acin de tems definidos,
de tems dicotmicos.
rte de un sujeto es cons-
dientes unas de otras.
[5.1]
puntuacin p, conteste
en tems.
la longitud del test, su-
[5.2]
donde:
n = nmero de tems del test.
Pe = proporcin de aciertos para ser considerado apto.
e = error mximo admisible.
EJEMPLO:
Para un determinado test se ha establecido la proporcin de aciertos para ser
considerado apto en 0,85. Se desea saber cul es la longitud del test si estamos
dispuestos a admitir un error mximo de 0,05 y 0,02.
n = 0,85(1- 0,85) =
51
0,05
2
n=
0
'
85
(
1
-
0
'
85
) =318 75,319
o 02
2
'
'
En el primer caso tendramos 51 tems y admitiramos un margen de aciertos
entre 0,80 y O, 90 (0,85 0,05) y en el segundo caso tendramos 319 tems y un
margen de aciertos entre 0,83 y 0,87 (0,85 0,02 ).
.:>. FIABILIDAD EN LAS CLASIFICACIO ES E, LOS T ... ST'
REFERIDOS Al CRITERIO
Como ya hemos dicho, los tests referidos al criterio se pueden utilizar para dos
tipos de objetivos: la estimacin de la puntuacin dominio de los sujetos, y el es-
tablecimiento de estndares mediante puntos de corte (tests de maestra). El se-
gundo enfoque, es el ms utilizado y el que ha dado lugar a un mayor nmero
de procedimientos para abordar el problema de la fiabilidad. Es en este contexto
desde donde abordaremos el estudio de la fiabilidad de los tests referidos al cri-
terio.
Desde este segundo enfoque, se considera un test fiable si, tras su aplicacin
a los mismos sujetos en distintas ocasiones, o la aplicacin de dos formas pa-
ralelas, se clasifica a los sujetos siempre en la misma categora.
Los mtodos que se presentan a continuacin para el clculo de la fiabilidad,
se pueden dividir en dos grupos: los que requieren dos aplicaciones del test, y
253
1 PSICOMETRA
aquellos que slo requieren una aplicacin. Dentro del primer grupo se pre-
senta: el ndice de Hambleton y Novick, el coeficiente Kappa de Cohen, y el n-
dice de Cracker y Algina. Dentro del segundo veremos: el mtodo de Huynh, el
mtodo de Subkoviak, y el coeficiente de Livingston.
5.1. ndices de acuerdo que requieren dos aplicaciones del test
5.1.1. Coeficiente Pe de Hambleton y Novick
Este coeficiente Pe (Hambleton y Novick, 1973; Swaminathan, Hambleton y
Algina, 1974), supone la utilizacin de la proporcin de sujetos que, consisten-
temente, son clasificados dentro del grupo de maestra o no-maestra, como un
ndice de la fiabilidad de un test.
Nos basaremos en el siguiente ejemplo para una mayor comprensin de este
procedimiento. Supongamos los datos de la tabla 5.1, en la que se presenta la
puntuacin total obtenida por 20 sujetos en dos tests paralelos compuestos por
doce tems, y que un sujeto debe responder correctamente a un mnimo de 7
tems para ser clasificado dentro del grupo de maestra.
Sujeto
11 5 3
12 5 5
13 4 4
14 3 3
5 7 5 15 4 3
6 6 7 16 3 4
7 6 6 17 2 2
8 6 6 18 5 2
9 6 6 19 3 1
10 5 4 20 1 1
Dichas puntuaciones pueden agruparse tal y como aparecen en la siguiente
matriz (Tabla 5.2) en funcin de que superen o no la puntuacin de corte que va
a permitir clasificarlos en una categora u otra.
254
:Jel primer grupo se pre-
Kappa de Cohen, y el n-
: el mtodo de Huynh, el
licaciones del test
minathan, Hambleton y
sujetos que, consisten-
o no-maestra, como un
comprensin de este
en la que se presenta la
ralelos compuestos por
ente a un mnimo de 7
Test A
Test B
5
3
5
5
4 4
3 3
4 3
3
4
2
2
5
2
3
1
1
1
aparecen en la siguiente
ntuacin de corte que va
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Test .. e ..
No- maestra Total (N
1
)
Maestra 2 3 5
No-maestra 1 14 15
Total (N) 3 17 N= 20
As, los sujetos 2 y 4 son los nicos sujetos que han sido clasificados en el
grupo de maestra en ambos tests. Del 7 al 20 los sujetos estn clasificados den-
tro del grupo de no-maestra tanto en el test A como en el B. El resto de los su-
jetos han sido clasificados de distinta manera en ambos tests. La proporcin de
sujetos consistentemente clasificados en ambos tests se puede expresar mediante
la ecuacin:
n n n n
p = L p = _1_1 + _ll_ + + mm
e i=1 1 N N .... N
[5.3]
donde:
p = proporcin de sujetos clasificados consistentemente en ambas formas.
N= nmero total de sujetos.
n
11
n
22
, ... nmm =nmero sujetos en cada casilla en los que ambos test coin-
'
ciden al clasificarlos.
A partir de los datos de la matriz:
= ~ = 2 + ~ = ~ = 0 80
Pe f:;p
1
20 20 20
1
El valor mximo de Pe es igual a 1, valor que se obtendr cuando los sujetos
sean clasificados de la misma forma con los dos tests, y el valor mnimo ser igual
a la proporcin de clasificaciones consistentes que podemos esperar por azar (p
3
),
valor que viene dado en funcin de las frecuencias marginales de la tabla (N) .
mNN
Pa = L NI 21 ~ i
j=1 ~ ~ '
[5.4]
255
1 I'SICOMETRIA
Con los datos de la tabla anterior:
53 1517
Pa =-
2
+--
2
-=0,0375+0,6375=0,675===0,68
20 20
Ante estos resultados se puede decir que la utilizacin de los tests supone
una mejora importante en la consistencia de las clasificaciones, y por lo tanto en
la fiabilidad de las mismas, con respecto a las realizadas por mero azar. Mien-
tras que por azar obtenemos una fiabilidad de 0,68, el uso de los tests nos reporta
una fiabilidad de 0,80.
5.1.2. Coe iciente Kappa de Cohen
Swaminathan, Hambleton y Algina en 1974 sugieren que en la estimacin
del coeficiente de fiabilidad se elimine del valor de la proporcin de sujetos cla-
sificados consistentemente el valor de la proporcin de clasificacin consistente
esperada por azar y, para ello, recomiendan la utilizacin del coeficiente Kappa
de Cohen (Cohen, 1960; Fleiss y col., 1969), cuya frmula es:
[5.5]
Si se aplica el coeficiente Kappa a los datos del ejemplo anterior los resulta-
dos sern:
El valor Kappa nos proporciona una medida de la consistencia de clasifica-
cin de los sujetos independientemente del posible valor esperado por azar. El
valor Kappa oscila entre 1, que indicara una fiabilidad perfecta, y O, que indi-
cara que la consistencia observada sera atribuible al azar.
Este coeficiente tambin se puede expresar en funcin de las frecuencias ab-
solutas:
[5.6]
256
az
co
me
pus
in de los tests supone
iones, y por lo tanto en
por mero azar. Mien-
de los tests nos reporta
n que en la estimacin
porcin de sujetos cla-
asificacin consistente
n del coeficiente Kappa
la es:
[5.5]
plo anterior los res u Ita-
sistencia de clasifica-
or esperado por azar. El
perfecta, y O, que indi-
r.
de las frecuencias ab-
[5.6]
LA FIABILIDAD EN LOS TESTS REFERIDOS Al CRITERIO
donde:
Fe = frecuencia observada de clasificaciones coincidentes.
Fa= frecuencia de coincidentes esperadas por azar.
N= nmero total de personas de la muestra.
Con los datos de la tabla 5.2,
Test A
Maestra
No-maestra
Total (N)
Test B
Maestra No- maestra
2 3
1 14
3 17
Total (N)
5
15
N= 20
s;;::ne
En primer lugar, calculamos las frecuencias de coincidencias esperadas por
azar a partir de las frecuencias marginales.
3
"
5
=0 75
20
1
17 15 =12 75
20
1
Fa =0J5+12J5=13,50
A continuacin, calculamos las frecuencias observadas de clasificaciones
coincidentes
Por lo tanto:
K=Fc-Fa = 16-13,50=2,50=
0
,
38
N-Fa 20-13,50 6,50
Como se puede observar, el valor es el mismo que se ha obtenido anterior-
mente.
Para ver la significacin estadstica del coeficiente Kappa, Cohen (1960) pro-
puso la utilizacin del error tpico de medida de K:
257
1 PSICOMETRA
[5 .7]
Aplicando los datos de nuestro ejemplo:
En primer lugar calculamos el error tpico de medida
A continuacin calculamos el intervalo confidencial:
[5.8]
Si utilizamos un N.C. del 95%, el intervalo confidencial vendr dado por:
Dado que el valor K= O, se encuentra dentro de los lmites del intervalo, po-
demos establecer que el acuerdo entre las clasificaciones no es estadsticamente
significativo.
5.1.3. ndice de Crocker y Algina
Cracker y Algina (1986) proponen el ndice P*, como una alternativa al coe-
ficiente Kappa de Cohen (1960). Este ndice se basa en que la probabilidad m-
nima de una decisin consistente es 0,50. Este mnimo tendr lugar si las pun-
tuaciones del test son estadsticamente independientes y el punto de corte est
en la mediana de la distribucin conjunta de las puntuaciones obtenidas por los
sujetos en las dos aplicaciones. El coeficiente P* viene expresado por:
P*= Pe -0, 50 =2 -1
1-0 50 Pe
1
[5.9]
Siguiendo a Cracker y Algina (1986), el valor de P* es igual a 1 cuando las de-
cisiones son totalmente consistentes, e igual a O cuando las decisiones no son
258
m
pE
ce
5.
5 . ~
tra
de
un
dis
n o ~
tra
Hu
a ce
intt
m
ant
nor
ter
jete
seg
L
2
[5.7]
[5.8]
vendr dado por:
ites del intervalo, po-
o es estadsticamente
una alternativa al cae-
e la probabilidad m-
ndr lugar si las pun-
e! punto de corte est
: ones obtenidas por los
por:
[5.9]
1 a 1 cuando las de-
las decisiones no son
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
ms consistentes que las que resultaran de utilizar tests estadsticamente inde-
pendientes, cuyas puntuaciones presentan la misma distribucin y un punto de
corte igual a la mediana de la distribucin comn.
En nuestro caso Pe =0,80, por lo tanto:
P* =Pe -O, SO = 2p -1 = (2 O 80) -1 =O 60
1-0,50 e
1 1
5.2. ndices de acuerdo que requieren una sola aplicacin del test
5.2.1. Mtodo de Huynh
Los mtodos que se han presentado implican la existencia de una sola mues-
tra de sujetos y dos aplicaciones de un mismo test o de dos formas paralelas. Una
de las primeras ventajas que supone el mtodo de Huynh es que slo se precisa
un test y una sola aplicacin. En el trabajo de Keats y Lord (1962): A theoretical
distribution for mental test scores estos autores proponen un mtodo para pro-
nosticar las puntuaciones en un test B conocidas las puntuaciones de una mues-
tra de sujetos en una primera aplicacin (test A). El mtodo original descrito por
Huynh (1976) lleva consigo un desarrollo matemtico laborioso por lo que es
aconsejable que se cuente con paquetes de programas computerizados. El lector
interesado puede seguir este desarrollo en Berk (1980).
Sin embargo, Huynh (1976) y Peng y Subkoviak (1980), han propuesto un
mtodo de aproximacin ms manejable. Esta aproximacin al procedimiento
anterior, presupone que la distribucin de puntuaciones es aproximadamente
normal. Huynh sugiere que este presupuesto es adecuado cuando el nmero de
tems es superior a ocho y la razn entre la media de las puntuaciones de los su-
jetos en el test y el nmero de tems oscila entre O, 15 y 0,85. Los pasos a seguir
segn este mtodo son:
1) Calcular la media (X'), la varianza ( 5 ~ ) y el coeficiente de correlacin de
Kuder-Richardson 21 (KR2 7) y especificar el valor del punto de corte (e). En
el ejemplo que presentamos, suponemos que la media del test A es igual a
X= 5, 15, la varianza 5 ~ = 4,45, el coeficiente KR21 = 0,37 y el punto de
corte sobre las puntuaciones directas X se establece en e= 7.
2) Calcular la puntuacin tpica (Zx) correspondiente al valor del punto de
corte, con una correccin de 0,5 y, acudiendo a las tablas de curva nor-
mal se busca el valor de P que deja por debajo la Z obtenida.
259
1 J
L
=
X S
X
[5.1 O]
z = re - o 1 5 - x J = (7 -o 1 5 - 51 1 5 J =
0 64
X S 2 109
1
X 1
3) A partir de las tablas de Gupta (1963) incluidas al final del libro (tabla 11 ),
obtenemos la probabilidad (Pzz) de que dos variables distribuidas nor-
malmente con una correlacin KR21 = 0
1
37 sean menores que Z = 0,64.
Pzz = 0,58
4) Por ltimo calculamos los valores Pe y k
Pe = 1 + 2 (Pzz - Pz )
L__
[5.11]
[5 .12]
pe = 1 + 2 ( p zz - p z ) = 1 + ( 2 O 1 58 - O ,7 4) = O 1 68
=0158-(0,74/ =0 16
0,74-(0,74/
1
En definitiva podemos considerar que el mtodo de Huynh constituye un pro-
cedimiento matemtico sofisticado para estimar la consistencia de cl asificacin
a partir de una sola administracin de un test de maestra (Subkoviak, 1980).
Nota: Tngase en cuenta que al utilizar la frmula KR21 , los tems del test debern
1
tener la misma dificultad.
L.__
260
.:>.
cu
Su
m;
dor
[5 .1 O]
na! del libro (tabla 11 ),
ables distribuidas nar-
res que Z = 0,64.
[5 .11]
[5.12]
=0, 68
uynh constituye un pro-
stencia de clasificacin
(Subkoviak, 1980).
tems del test debern
5.2.2. /I.Jdodo de Sub .m ic1k
Subkoviak (1980) establece un procedimiento con una nica aplicacin
cuando no es posible establecer una forma paralela de un test. El mtodo de
Subkoviak simula las puntuaciones de una segunda forma paralela del test. Su
mtodo, al igual que el desarrollado por Huynh, proporciona una buena esti-
macin de los valores Pe y k.
Para la explicacin del mtodo de Subkoviak vamos a utilizar los datos del
ej emplo desarrollado en el mtodo de Hambleton y Novick suponiendo que solo
se pudiera aplicar el test A y que el coeficiente de fiabilidad fuera igual a 0,62.
Los pasos para confeccionar la tabla son los siguientes:
Las columnas 1, 2, 3 y 4 representan la distribucin de frecuencias de las
puntuaciones obtenidas por los 20 sujetos de la muestra.
Una vez obtenida la distribucin de frecuencias, se calcula la media y el
coeficiente alfa del test, que suponemos igual a 0,62:
x = :x = 103 = 5 15
N 20 '
a=0,62
A continuacin se estima la probabilidad de que una persona con una
determinada puntuacin X responda correctamente a cada tem. Dicha
probabilidad se estima mediante la ecuacin:
donde:
a = coeficiente alfa.
X= Puntuacin directa.
N= Nmero d tems del test.
X = Media del test.
[5.13]
261
1 PSICOMETRA
X
fx 1-2 (Px- ~ ) fx (1-2 (Px- ~ ) ) fxpx
9 1 0,628 0.7362 0,6114 0,6114 0,7361
8 2 0,576 0,5999 0,5198 1,0396 1,1998
7 2 0,525 0.4562 0,5038 1,0076 0,9124
6 4 0.473 0,3164 0,5674 2,2696 1,2656
5 4 0.421 0,1978 0,6826 2.7304 0,7912
4 2 0,370 0,1105 0,8034 1,6068 0,2210
3 3 0,318 0,0522 0,9010 2.7030 0,1566
2 1 0,266 0,0201 0,9606 0,9606 0,0201
1 1 0,215 0,0059 0,9882 0,9882 0,0059
20 13,9172 5,3088
A modo de ilustracin, calcularemos el resultado para el primer caso de la
matriz de frecuencias, es decir, el caso en el que X= 9. El resto de los valores de
Px (representados en la tercera columna) se obtienen siguiendo el mismo pro-
ceso. Recurdese que el test consta de 12 tems.
Px = 0,62 (9/12) + (1-0,62) (5,15/12) = 0,628
En tercer lugar calculamos la probabilidad de que una persona, con una
determinada puntuacin X, y una probabilidad Px de acertar cada tem
(valor correspondiente en la columna 3) responda correctamente siete o
ms tems en el test y sea clasificado dentro del grupo de maestra. Para
ello, puesto que podemos considerar los tems como ensayos de un pro-
ceso binomial, aplicaremos la funcin de distribucin binomial o se bus-
carn los valores correspondientes en las tablas de la distribucin bino-
mial , para lo que se tendr en cuenta el nmero de tems (n), el valor del
punto de corte (e), que en nuestro ejemplo es 7 y la probabilidad de acer-
tar cada tem (px) en funcin de la puntuacin obtenida en el test.
f(k) = Prob(X 2 k)= L(: )p'q"-'
[5.14]
Los valores obtenidos aparecen recogidos en la cuarta columna de la tabla 5.3.
Veamos cul sera el proceso a seguir en el caso de un sujeto que ha obtenido
una puntuacin 9 en el test, y una probabilidad de acertar cada tem de Px = 0,628.
Recurdese que el punto de corte se estableci en 7 tems.
262
(1-2 (Px- P!J)
fxPx
0,6114
0,7361
1,0396
1,1998
1,0076
0,9124
2,2696
1,2656
2,7304
0,7912
1,6068
0,2210
2,7030
0,1566
0,9606
0,0201
0,9882
0,0059
13,9172
5,3088
na el primer caso de la
:1 resto de los valores de
1guiendo el mismo pro-
0,628
e una persona, con una
Dx de acertar cada tem
a correctamente siete o
grupo de maestra. Para
omo ensayos de un pro-
1Cin binomial o se bus-
la distribucin bino-
tems (n), el valor del
a probabilidad de acer-
ida en el test.
[5.14]
lumna de la tabla 5.3.
sujeto que ha obtenido
cada tem de Px = 0,628.
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
1(7) ~ Prob(X ~ 7) ~ (
1
: )a,62 8' 0,3 72' ~ O , 21 734
1(8) ~ Prob(X ~ 8) ~ (
1
~ }0,628" 0,3 72' ~ O , 22 932
1(9) ~ Prob(X ~ 9) ~ (
1
~ )o,62 8' 0,3 72' ~ O , 1 72 06
1(1 O) ~ Prob(X ~ 1 01 ~ G )o,62 8" 0,3 72' ~ O, 087
1(11) Prob(X ~ 11) G )o,628 "0,3 72' ~ O, 02 67 5
11121 ~ Prob(X ~ 121 ~ G )o,62B" 0,3 72" ~ o, 003 76
Px = 0,73623
Luego, la probabilidad de acertar 7 o ms tems de 12 es Px = 0,73623 que
es la suma de las probabilidades de acertar 7, 8, 9, 10, 11 y 12.
Si se acude a las tablas de la distribucin binomial habra que buscar la pro-
babilidad de que ~ 7 paran= 12, p = 0,628 lo que equivale a buscar 1- la pro-
babilidad de que X::; 6. Para encontrar el valor exacto, la tabla debera contem-
plar todos los valores de probabilidad de xito p.
Una vez calculados los valores de la cuarta columna, se calcula la pro-
babilidad de que cada sujeto sea consistentemente clasificado en el grupo
de maestra para dos tests independientes; es decir, la probabilidad de que
cada persona sea clasificada en el grupo de maestra por el primer test
(Px,), por la probabilidad de que sea clasificado en el grupo de maestra
por el segundo test (Px
2
) y que ser igual a P ~ y la probabilidad de que sea
clasificado en el grupo de no maestra en los dos tests que ser:
[5.15]
Consiguientemente, la probabilidad de clasificacin consistente para dicho
sujeto es:
263
1 PS!COMETRA
P} +(1-Px/ = 1- 2(P
2
-P})
[5.16]
En nuestro caso tenemos que:
1- 2. (o, 73 66- o, 73 66
2
) =o, 612
El conjunto de todos los valores obtenidos aparece recogido en la quinta co-
lumna.
En la sexta columna se recoge el nmero de sujetos que, habiendo obte-
nido una puntuacin X sern consistentemente clasificados. Para el caso
de X= 9, tenemos:
[5.17]
1 [1 - 2. (0,7362- 0,7362
2
) J = 0,6114
La forma de obtener estos valores es multiplicando los valores obtenidos en
la quinta columna por la frecuencia de la columna 2.
Por ltimo, la suma de los valores de la columna 7, que se obtienen mul-
tiplicando los valores obtenidos en la columna 4 por los de la columna 2,
representa el nmero de sujetos que superarn el punto de corte en am-
bos tests.
Con todos estos datos ya se pueden obtener los coeficientes Pe y Kappa
El coeficiente Pe se obtiene dividiendo el valor de la suma del nmero de su-
jetos que para una determinada puntuacin han sido consistentemente clasifi-
cados (columna 6) por el nmero total de sujetos.
L fx [ 1 - 2(?, - P}) J
Pe= f
X
[5.18]
Lfx[1-2(Px-P})] 13,9172
P
= = =0 695
e f 20
1
X
ZE4
En e
mente
Para
dad de
tal estir
mos ve
Pa :
A ce
5.2.3 .
El ce
Clsica
que her
deran, r
jeto per
que cor
maestr;
s tiene
de clasi
que s t ~
[5.16]
ecogido en la quinta co-
tos que, habiendo obte-
:lasificados. Para el caso
[5 .17]
14
valores obtenidos en
, que se obtienen mui-
r los de la columna 2,
punto de corte en am-
cientes Pe y Kappa
uma del nmero de su-
nsistentemente clasifi-
[5.18]
LA FIABILI DAD EN LOS TESTS REFERIDOS Al CRITERIO
En dicha expresin, el numerador representa el nmero de sujetos correcta-
mente clasificados, y el denominador el nmero total de sujetos.
Para calcular el coeficiente Kappa hay que calcular el valor de la probabili-
dad de clasificacin consistente por azar (p) a partir de la suma del nmero to-
tal estimado de sujetos clasificados en el grupo de maestra cuyos valores pode-
mos ver en la columna 7.
:P. p, p, J)
L_
[5.19]
=
1
_
2
(I/x Px -(L/x px )
2
]=
1
_
2
(5
1
3088 -(5
1
3Q88)
2
)=
61
Pa N N 20 20
1
A continuacin calculamos el coeficiente Kappa:
[5 .20]
K= Pe -Pa = 0
1
695 = 01 085 =O
22
1-pa 1-0
1
61 0
1
39
1
.:i.2. 1. CfJeficiente de Livingston
El coeficiente de Livingston (1972) se desarrolla en el contexto de la Teora
Clsica de los Tests. Siguiendo a Muiz (1998), podemos decir que los mtodos
que hemos presentado hasta el momento para el estudio de la fiabilidad, consi-
deran, por igual, tanto los errores que cometemos cuando clasificamos a un su-
jeto perteneciente al grupo de maestra en el grupo de no-maestra, como los
que cometemos cuando clasificamos a un sujeto perteneciente al grupo de no-
maestra dentro del grupo de maestra. Sin embargo, el coeficiente de Livingston
s tiene en cuenta este tipo de errores, al considerar ms importantes los errores
de clasificacin de los sujetos ms distanciados del punto de corte de aquellos
que estn ms cerca del punto de corte. Lgicamente, es ms fcil cometer erro-
1 PSICOMETRA
res de clasificacin cuando un sujeto se encuentra muy cercano al punto de
corte y ser ms difcil cometer estos errores de clasificacin cuando el sujeto se
encuentra muy alejado del punto de corte.
El coeficiente viene determinado por:
donde:
a = coeficiente alfa.
s; = varianza del test.
X = media del test.
e = punto de corte.
EJEMPLO:
K
2
= a s; +(X- C)
2
XV s; +(X - C)2
[5.21]
Si aplicamos la frmula a los datos del ejemplo anterior: a= 0,62, X= 5,15
y Sx = 2,109 y el punto de corte igual a 7:
K
2
=a5;+(X-C)
2
=0,624,45+(5,15-7)
2
=2,759+3,42=
078
XV s;+(X-C)
2
4,45+(5,15-7)
2
7,87 '
A medida que el punto de corte se distancia del valor de la media del test, au-
menta el valor de K;v. Cuando la media del test coincide con el punto de corte,
K;v es igual al coeficiente alfa. Cuando el coeficiente de fiabilidad alfa es igual
a 1, K ~ tambin es igual a uno. Por lo tanto, K;v ser siempre igual o mayor que
el coeficiente de fiabilidad alfa.
6. MTODOS PARA ESTIMAR EL PUNTO DE CORTE
EN LOS TESTS REFERIDOS AL CRITERIO
En el punto anterior hemos presentado una serie de mtodos para el clculo
de la fiabilidad de los tests referidos al criterio en los cuales partimos del esta-
blecimiento de una puntuacin de corte que nos va a permitir clasificar a un su-
jeto en dos posibles categoras: la de aquellos sujetos que dominan el criterio
266
P'
n1
ta
p
e
Sf
o
n
q
g
Jf
n
e

e
e
E
il1UY cercano al punto de
:acin cuando el sujeto se
[5.21]
erior: a= 0,62, X= 5,15
2,759+3,42 =0,78
7,87
r de la media del test, au-
e con el punto de corte,
fiabilidad alfa es igual
mpre igual o mayor que
DE CORTE
mtodos para el clculo
ales partimos del esta-
itir clasificar a un su-
que dominan el criterio
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
evaluado, o la de aquellos sujetos que no dominan el criterio evaluado. Es de-
cir, el criterio acta como un filtro o punto de corte para clasificar a los sujetos.
La cuestin fundamental es, cmo se establece este punto de corte? cul es la
puntuacin a partir de la cual un sujeto se situar en un grupo u otro? Existen in-
numerables situaciones que requieren establecer un punto de corte antes de do-
tar de significado a la puntuacin obtenida por un sujeto en un test. Por ejem-
plo, la calificacin de aprobado o suspenso en un examen, la seleccin de
aspirantes a un puesto de trabajo, la admisin para entrar en la universidad, son
ejemplos donde es necesario establecer un punto de corte. Como se puede ob-
servar, las decisiones que se tomen como consecuencia del valor del punto de
corte establecido son de gran importancia, ya que de ellas depender, en algu-
nos casos, el futuro de las personas implicadas.
Por lo general, se suele contar con un nmero adecuado de expertos que son
quienes establecen ese punto de corte. Es, en definitiva, una cuestin sujeta a un
grado de subjetividad, por lo que garanta absoluta no existe. Siempre habr su-
jetos clasificados errneamente. Sujetos clasificados como competentes cuando
no lo son y viceversa.
Se suelen considerar dos tipos de puntos de corte (Muiz, 1998): puntos de
corte relativos y puntos de corte absolutos. Se definen como relativos, cuando
el punto de corte se establece en funcin del grupo de sujetos evaluados, y se
definen como absolutos, cuando el punto de corte se establece en funcin del
constructo o materia objeto de estudio.
Son innumerables los modelos propuestos (Berk, 1996, 1986; Cizek, 1996;
Hambleton y Eignor, 1980; Hambleton y Rogers, 1990; Jaeger, 1995, 1989) para
establecer el punto de corte. Aqu presentamos los mtodos utilizados con ma-
yor frecuencia.
6.1. Mtodos valorativos
Los cuatro mtodos que veremos a continuacin se basan en la evaluacin
que un grupo de expertos, con un cierto entrenamiento y en nmero suficiente,
llevan a cabo sobre los tems de un test. La forma en que dichos expertos abor-
dan la evaluacin tambin vara segn el mtodo utilizado. Los expertos sola-
mente deben ser especialistas en la materia a evaluar, y no es necesario que co-
nozcan el grado de competencia de cada uno de los sujetos. A pesar de que aqu
solamente presentaremos los modelos basados en el contenido de los ten1s, exis-
ten otros modelos que basan el proceso de evaluacin en el contenido del test
267
(Giass, 1978; Shepard, 1976), o en caractersticas tales como el acierto al azar
(Millman, 1973).
Mtodo de Nedelsky
El mtodo de Nedelsky (1954) es el primero de los procedimientos estableci-
dos para fijar el punto de corte en tests de competencia mnima. Estos tests se uti-
lizan habitualmente en el mbito acadmico para determinar si un sujeto posee
los conocimientos mnimos exigibles en una determinada materia. El mtodo de
Nedelsky se utiliza con tests compuestos de tems de eleccin mltiple, y pre-
cisa que los expertos o jueces analicen las distintas alternativas de los tems y, a
continuacin, determinen cules de las posibles alternativas sern consideradas
como errneas por un sujeto que tuviese los conocimientos mnimos exigibles
para ser considerado como competente. El modelo asume que un sujeto elegir
al azar, entre las restantes opciones, la posible respuesta correcta.
Seguidamente, para cada tem, el juez registra el recproco del nmero de
preguntas que quedan. Supongamos que un tem consta de seis alternativas, y un
juez considera que un sujeto mnimamente competente rechazar cuatro de ellas
como errneas. El recproco, se determina dividiendo la unidad por el nmero
de alternativas restantes, las que el sujeto no ha considerado como alternativas
errneas, en nuestro caso 2 por lo que el recproco ser 0,5. Esta puntuacin se
correspondera con la puntuacin esperada para un sujeto en un tem determi-
nado. Para calcular la puntuacin de un sujeto mnimamente cualificado en un
test, se sumaran todos los valores esperados de cada tem. De esta manera, se
obtendr la puntuacin otorgada por un determinado juez a un sujeto mnima-
mente cualificado. El promedio de las puntuaciones otorgadas por todos los jue-
ces, nos dar la puntuacin de corte.
Veamos el proceso que se seguira con el siguiente tem correspondiente a un
test de mecnica:
268
Una pieza esencial para que un vehculo pueda circular es:
a) El manillar
b) El espejo retrovisor
e) El motor de arranque
d) La rueda de repuesto
e) Los intermitentes
f) Los faros
con e
a, b 1
tem
terna
tro e
test. 1
la SUI
dia d
punt<
Pa
corte
dond
n =
EJE
Su
ternat
Esto ir
amos
Co
Ar
todo e
que m
si n em
les como el acierto al azar
procedimientos estableci-
mnima. Estos tests se uti-
terminar si un sujeto posee
1ada materia. El mtodo de
2 eleccin mltiple, y pre-
lternativas de los tems y, a
nativas sern consideradas
nientos mnimos exigibles
ume que un sujeto elegir
correcta.
recproco del nmero de
ta de seis alternativas, y un
e rechazar cuatro de ellas
D la unidad por el nmero
iderado como alternativas
0,5. Esta puntuacin se
jeto en un tem determi-
amente cualificado en un
tem. De esta manera, se
juez a un sujeto mnima-
rgadas por todos los jue-
correspondiente a un
res :
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Segn el mtodo de Nedelsky, un juez considerara que un sujeto, con unos
conocimientos mnimos de mecnica descartara como alternativas errneas la
a, by d. La puntuacin esperada para un sujeto mnimamente competente en ese
tem vendra dada por el resultado de dividir la unidad entre el nmero de al-
ternativas que se supone que el sujeto no ha rechazado como errneas; en nues-
tro caso 1: 3 = 0,33. Este proceso es el que se seguira con todos los tems del
test. El valor esperado por ese juez para ese tipo de sujeto en el test ser igual a
la suma de los valores esperados en cada uno de los tems. Si se calcula la me-
dia de todos los valores esperados por todos los jueces se tendr el valor del
punto de corte.
Para corregir los posibles efectos del azar a la hora de determinar el punto de
corte se puede utilizar la siguiente expresin:
1
4Ji?i. w;w; ;un w
donde:
Pe = la puntuacin corregida.
N= nmero de tems.
A = media de los valores esperados.
n = nmero de alternativas de cada tem.
EJEMPLO:
[5.22]
Supongamos un test de percepcin del color compuesto por 40 tems de 4 al-
ternativas. La media de los valores esperados determinada por 7 jueces es 28.
Esto implica que el valor del punto de corte sin corregir el azar es igual a 28. Ve-
amos cul sera el valor si corregimos los efectos del azar.
p =A-N-A=28-
e n-1 4-1 3
Corregido el efecto del azar la puntuacin de corte sera 24.
A pesar de su utilizacin no deja de ser un procedimiento cuestionable. El m-
todo de Nedelsky asume que los sujetos responden al azar entre las alternativas
que no son descartadas como errneas cuando no conocen la respuesta correcta,
sin embargo, no existe ninguna evidencia que sustente este hecho (van der Linden,
269
1 PSICOMETRA
1982; jaeger, 1989). Asimismo es un mtodo en el que se tiende a dar valores de
corte ms bajos que si se utilizan otros procedimientos (Shepard, 1980) debido a
que los jueces no suelen asignar valores esperados entre 0,5 y 1. De ser as, o slo
quedaran dos alternativas sin eliminar y, por lo tanto, el valor esperado sera 0,5 o
slo quedara una alternativa sin eliminar, en cuyo caso el valor esperado sera 1.
Mtodo de Angoff
El mtodo propuesto por Angoff (1971 ), puede considerarse como una va-
riante del mtodo de Nedelsky, con la diferencia de que es aplicable a toda clase
de tems, no slo a los de eleccin mltiple. En este mtodo, no se pide a los jue-
ces que emitan juicios acerca de cada una de las alternativas de un tem, como
en el mtodo anterior, sino que deben evaluar el tem globalmente y determinar
la probabilidad de que un sujeto, con los requisitos mnimos para ser compe-
tente, responda correctamente a cada uno de los tems del test. Para poder de-
terminar estas probabilidades, los jueces han de comprender claramente lata-
rea que deben realizar los sujetos. Una vez que los distintos jueces han
establecido las probabilidades de que los sujetos mnimamente competentes res-
pondan a los tems correctamente, estamos en condiciones de establecer el
punto de corte. La puntuacin total establecida por cada uno de los jueces para
cada sujeto se considera como la puntuacin estimada de un sujeto mnima-
mente competente. Para calcular el punto de corte, se suman los valores de las
probabilidades establecidas por cada uno de los jueces, y se calcula la media de
dichas puntuaciones. Como en el caso del mtodo de Nedelsky, tambin se
puede aplicar la correccin de los efectos del azar.
EJEMPLO:
En la tabla siguiente aparecen las probabilidades, otorgadas por cuatro jue-
ces, de que un sujeto mnimamente competente supere cada uno de los tems de
un test. Calcular el punto de corte mediante el mtodo de Angoff.
tems Juez 1 Juez 2 Juez 3 Juez 4
1 0,44 0,25 0,45 0,20
2 0,35 0,20 0,40 0,38
3 0,40 0,25 0,35 0,30
4 0,30 0,40 0,30 0,45
5 0,50 0,22 0,50 0,25
6 0,30 0,30 0,45 0,22
Total 2,29 1,62 2,45 1,80
270
por
Mt
E
Ang
raci<
el gr
ni ve
leva
una
los
pont
juec
que
ni m<
cin
done
p
EJ
Er
cent<:
tame
propt
se tiende a dar valores de
(Shepard, 1980) debido a
0,5 y 1. De ser as, o slo
valor esperado sera 0,5 o
el valor esperado sera 1 .
nsiderarse como una va-
es aplicable a toda clase
o, no se pide a los jue-
ativas de un tem, como
obalmente y determinar
nimos para ser campe-
del test. Para poder de-
der claramente la ta-
los distintos jueces han
amente competentes res-
iciones de establecer el
a uno de los jueces para
de un sujeto mnima-
suman los valores de las
y se calcula la media de
Nedelsky, tambin se
as por cuatro j u e-
. cada uno de los tems de
de Angoff.
Juez 4
0,20
0,38
0,30
0,45
0,25
0,22
1,80
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
El punto de corte ser igual a la media de las puntuaciones totales otorgadas
por los cuatro jueces:
Mtodo de Ebel
P.C.= 2,29 + 1,62 + 2,45 + 1,80 =
2
,
04
4
El mtodo de Ebel (1972) guarda una cierta similitud con el mtodo de
Angoff que acabamos de ver, puesto que los jueces tambin realizan una valo-
racin global del tem aunque desde una doble perspectiva. Los jueces evalan
el grado de dificultad del tem, y tambin su grado de relevancia. Ebel sugiere tres
niveles de dificultad para cada tem: fcil, medio y difcil; y cuatro niveles de re-
levancia: esencial, importante, aceptable y dudoso. De esta manera, se obtiene
una matriz con doce categoras distintas en la que aparecern clasificados todos
los tems del test. Una vez que se han clasificado los tems en la casilla corres-
pondiente, se hace un recuento del nmero de tems por casilla, y los distintos
jueces proceden a establecer un porcentaje que representa el nmero de tems
que seran contestados correctamente por un sujeto con una competencia m-
nima. A continuacin se calcula el punto de corte mediante la siguiente ecua-
cin:
1 XC= "ip(M) t
[5.23]
donde:
Xc = puntuacin correspondiente al punto de corte.
p =proporcin de tems en cada casilla que un sujeto mnimamente compe-
tente debera contestar correctamente.
M= nmero de tems en cada celda.
EJEMPLO:
En la siguiente tabla aparecen clasificados los 165 tems de un test y el por-
centaje de tems de cada casilla que un juez considera que responder correc-
tamente un sujeto mnimamente competente (dividido por 100 se obtendr la
proporcin). Calcular el punto de corte.
271
1 PSICOMETRA
Niveles de dificultad
Niveles de relevancia Fcil Medio Difcil
tems: 15 tems: 20 tems: 10
Esencial
Juez: 80% Juez: 60% Juez: 30%
tems: 30 tems: 18 tems: 7
Importante
Juez: 70% Juez: 55% Juez: 30%
tems: 25 tems: 15 tems:10
Aceptable
Juez: 65% Juez: 50% Juez: 25%
tems: 14 tems: 6 tems:5
Dudoso
Juez: 40% Juez: 45% Juez: 20%
XC= "Lp(M) = 15 (0,80) + 20 (0,60) + 1 o (0,30) + 30 (0,70) + 18 (0,55) +
+ 7 (0,30) + 25 (0,65) + 15 (0,50) + 1 o (0,25) + 14 (0,40) + 6 (0,45) +
+ 5 (0,20) = 95,55
Esta puntuacin correspondera, tal y como hemos expuesto a la puntuacin
otorgada por un juez; en el caso de que hubiera varios jueces, el valor del punto
de corte vendra dado por la media de las puntuaciones asignadas por cada uno
de ellos.
Mtodo de }aeger
El mtodo propuesto por jaeger (1978), puede considerarse una variante del
mtodo de Angoff. En este mtodo se le pregunta a cada uno de los jueces, si
cada uno de los tems del test ser contestado correctamente por los sujetos. El
proceso para poder determinar el punto de corte precisa de tres sesiones. En la
primera sesin, cada uno de los jueces, y para cada uno de los tems del test, res-
ponde con un S o con un No a la pregunta de si un sujeto mnimamente com-
petente ser capaz de contestar correctamente ese tem. Una vez que los jueces
han contestado a dicha pregunta para cada uno de los tems, se calcula el n-
mero de tems a los que cada juez respondi con un S.
En la siguiente matriz se presentan los datos correspondientes a la evaluacin
que cinco jueces han hecho respecto a los siete tems de un test.
En la segunda sesin, repetimos el mismo proceso que acabamos de descri-
bir pero, al comienzo de la sesin se pone a disposicin de los jueces los datos
obtenidos en la sesin anterior, las opiniones o recomendaciones emitidas por
los jueces, y una tabla con los porcentajes de respuestas SI a cada uno de los
tems.
272
Ur
su op
dos:
En
y se 1
sesi
form;
U1
m os
El
(1
M
de o
u
cin
Difcil
tems: 10
Juez: 30%
tems: 7
Juez: 30%
tems:10
Juez: 25%
tems:5
Juez: 20%
o (0,70) + 18 (0,55) +
4 (0,40) + 6 (0,45) +
expuesto a la puntuacin
jueces, el valor del punto
asignadas por cada uno
derarse una variante del
da uno de los jueces, si
mente por los sujetos. El
isa de tres sesiones. En la
de los tems del test, res-
jeto mnimamente com-
. Una vez que los jueces
tems, se calcula el n-
, ndientes a la evaluacin
de un test.
que acabamos de descri-
de los jueces los datos
daciones emitidas por
SI a cada uno de los
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
Juez 1 Juez 2 Juez 3 Juez 4 Juez 5
tem 1 SI SI NO SI SI
tem 2 SI NO SI SI SI
tem 3 NO NO NO SI SI
tem 4 SI NO NO SI SI
tem 5 NO NO SI NO SI
tem 6 NO NO NO NO NO
tem 7 NO NO NO NO NO
Total 3 1 2 4 5
Una vez conocidos los datos de la primera sesin cada juez puede cambiar
su opinin; en nuestro caso supongamos que obtenemos los siguientes resulta-
dos:
Juez 1 Juez 2 Juez 3 Juez 4 Juez 5
Total 4 2 1 5 6
En la tercera sesin, se presentan los datos de la sesin anterior a los jueces,
y se les pide que valoren nuevamente cada uno de los tems. Al igual que en la
sesin anterior los jueces pueden ir modificando sus juicios en funcin de la in-
formacin que se les va proporcionando.
Una vez conocidos los datos de la segunda sesin supongamos que obtene-
mos los siguientes resultados:
Juez 1 Juez 2 Juez 3 Juez 4 Juez 5
Total 4 3 5 6 7
El punto de corte, es la mediana ms baja de los diferentes grupos de jueces.
Con los datos anteriores obtenemos los siguientes valores:
Md
1
= 3, Md
2
= 4, Md
3
= 5. Con estos resultados establecemos que el punto
de corte es igual a 3.
Un problema de este mtodo (Berk, 1986) es que slo se permite la asigna-
cin de probabilidades de O 1, pues un sujeto o acierta o falla el tem.
273
1 PSICOMETRA
6.2. Mtodos combinados
Los dos mtodos que presentamos a continuacin se basan en los juicios que
los expertos llevan a cabo respecto a la competencia de los sujetos. En los m-
todos descritos en el apartado anterior, los jueces se suponan expertos en cuanto
a los contenidos a evaluar. En los que ahora presentamos, adems de esa con-
dicin, los jueces tambin deben conocer la competencia de los sujetos en la
materia que se evala.
Mtodo del grupo lmite
En el mtodo del grupo lmite, propuesto por Zieky y Livingston (1977), se
pide a los jueces que definan de mutuo acuerdo tres niveles de competencia
en el dominio a evaluar: competente, lmite y no competente. Seguidamente,
los jueces deben identificar entre los sujetos a los que va dirigido el test, aque-
llos que, en su opinin, estaran en el lmite de ser competentes. Es decir, aque-
llos sujetos cuyos conocimientos en la variable estudiada no son del todo in-
adecuados, pero tampoco adecuados como para ser considerados como
competentes. Una vez que se han seleccionado los sujetos con estas caracte-
rsticas, se les aplica el test para, posteriormente, determinar el punto de corte.
Para establecer el punto de corte, se calcular la media o la mediana de las
puntuaciones que han obtenido en el test los sujetos lmite. La mediana es ms
conveniente, puesto que es menos sensible a la variabilidad de las puntua-
ciones.
EJEMPLO:
Supongamos que una empresa conservera ha impartido a un grupo de trabaja-
dores un cursillo de tcnicas de envasado y etiquetado con el fin de poder aumentar
sus ventas. Una vez terminado el cursillo, la direccin solicita de los tcnicos que
lo han impartido que emitan un juicio sobre el grado de aprovechamiento de quie-
nes lo han realizado, observando que 7 de ellos parecen haber adquirido una for-
macin lmite. Una vez que los asistentes han sido sometidos a una prueba sobre
adquisicin de conocimientos, las puntuaciones de estos 7 sujetos fueron: 50, 48,
47, 46, 45, 43, 40.
Para calcular el punto de corte se podra calcular la media, aunque tal y como
hemos apuntado es mejor calcular la mediana de estas puntuaciones que es igual
a 46. Ese sera el punto de corte.
274
se basan en los juicios que
a de los sujetos. En los m-
Jponan expertos en cuanto
amos, adems de esa con-
de los sujetos en la
y Livingston (1977), se
:s niveles de competencia
te. Seguidamente,
va dirigido el test, aque-
, mpetentes. Es decir, aque-
diada no son del todo in-
ser considerados como
suj etos con estas caracte-
minar el punto de corte.
edia o la mediana de las
lmite. La mediana es ms
ri abil idad de las puntua-
"do a un grupo de trabaja-
el fin de poder aumentar
li cita de los tcnicos que
aprovechamiento de quie-
haber adquirido una for-
"dos a una prueba sobre
7 sujetos fueron: 50, 48,
edia, aunque tal y como
puntuaci ones que es igual
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
Mtodo de los grupos de contraste
El mtodo de los grupos de contraste (Berk, 1976; Livingston y Zieky, 1982),
se basa, al igual que el mtodo anterior, en el conocimiento que los jueces tie-
nen del rendimiento de los sujetos en el dominio que se pretende evaluar con
el test en el que estamos interesados en establecer el punto de corte. Una vez que
los jueces han clasificado a los sujetos en dos grupos, los que a su juicio son
competentes y los que no lo son, se les administra el test y las puntuaciones se
establecen en base a su rendimiento en el mismo. El paso siguiente sera deter-
minar el punto de corte. Para ello se puede utilizar un procedimiento muy sen-
cillo basado en la representacin grfica de la distribucin de puntuaciones del
grupo de sujetos considerados como competentes por los jueces, y la distribu-
cin de los que no son considerados como competentes (grfico 5.1)
Se elegira como punto de corte la interseccin de ambas distribuciones, que
en nuestro caso sera 60.
Si se desplaza el punto de corte hacia la derecha, se reducen los falsos posi-
tivos, es decir, se reduce la probabilidad de considerar como competentes a su-
jetos que no lo son. Por otra parte, si el punto de corte se desplaza hacia la iz-
quierda, se reducen los falsos negativos, es decir, se reduce la probabilidad de
considerar no competentes a los sujetos que s lo son. Es fundamental tener en
cuenta esto, ya que pueden surgir situaciones prcticas en las cuales puede in-
teresar minimizar un tipo de error ms que otro (Muiz, 1998).
Grfico 5.1
Cf)
o
Q
:y
Cf)
Q)
"O
e
Q)
E
':::l
z
Punto de corte
/ Componentes
10 20 30 40 50 60 70 80 90 100
Puntuaciones en el test
275
1 PSICOMETRA
6.3. Mtodos de compromiso
En los dos mtodos que exponemos a continuacin, el mtodo de Beuk y el
mtodo de Hosftee, los jueces no se basan exclusivamente, como hasta ahora,
en los conocimientos mnimos que un sujeto tiene que poseer para superar el cri -
terio, sino que incorporan adems la informacin relativa a la posicin de un
sujeto con relacin a su grupo. El hecho de considerar la informacin derivada
de la posicin que un sujeto puede ocupar respecto a su grupo, viene justificada
por las implicaciones de carcter social, econmico, etc. que, en ocasiones, se
pueden derivar del establecimiento del punto de corte.
Mtodo de Beuk
En el mtodo propuesto por Beuk (1984), los jueces han de tener en cuenta,
en primer lugar, las puntuaciones obtenidas por los sujetos en el test en el que
estamos interesados en establecer un punto de corte y, en segundo lugar, la in-
formacin recogida de las respuestas de los jueces a dos preguntas que les son
formuladas. La primera pregunta hace referencia al porcentaje mnimo de tems,
que los distintos jueces creen que un sujeto debera contestar correctamente
para superar el test y la segunda, hace referencia al porcentaje de sujetos que es-
timan que obtendrn la puntuacin mnima para superar el test. La primera pre-
gunta hace referencia a datos absolutos, es decir, a la informacin derivada del
simple conocimiento de un sujeto con relacin al valor del punto de corte. La
segunda pregunta, implica informacin o cuestiones de carcter relativo, es de-
cir, cuestiones que pueden tener una importancia econmica, social, etc. y que
no dependen exclusivamente del conocimiento que tenga un sujeto.
Una vez que los jueces han recogido y analizado esta informacin, se pro-
cede a determinar el punto de corte. A continuacin, se expone la forma de ob-
tener el punto de corte segn el modelo de Beuk. La siguiente representacin gr-
fica ha sido tomada de Beuk (1984).
En primer lugar, se representa sobre el eje de abscisas el porcentaje mnimo de
tems que los distintos jueces creen que un sujeto debera contestar correctamente
para superar el test y, en el eje de ordenadas, el porcentaje de sujetos que estiman
que obtendrn la puntuacin mnima para superar el test. A continuacin calcu-
lamos el valor de la media de los juicios emitidos por los expertos a las dos pre-
guntas formuladas, CX' y Y) y se representa el punto de interseccin A.
En segundo lugar, se obtiene la distribucin C correspondiente a las pun-
tuaciones de los sujetos en el test. Como se puede observar la distribucin es
276
decrec
rrectar
supera
En 1
por el
ces a 1
En
corte,
detem
sujeto
del n
n , e
Mtoc
El r
maci
de cor
taje dE
sidera
test y,
infom
n, el mtodo de Beuk y el
ente, como hasta ahora,
poseer para superar el cri-
lativa a la posicin de un
la informacin derivada
etc. que, en ocasiones, se
s han de tener en cuenta,
en el test en el que
en segundo lugar, la in-
dos preguntas que les son
je mnimo de tems,
contestar correctamente
rcentaje de sujetos que es-
r el test. La primera pre-
informacin derivada del
lor del punto de corte. La
carcter relativo, es de-
nmica, social, etc. y que
nga un sujeto.
esta informacin, se pro-
expone la forma de ob-
iente representacin gr-
el porcentaje mnimo de
a contestar correctamente
de sujetos que estiman
A continuacin calcu-
las expertos a las dos pre-
rrespondiente a las pun-
rvar la distribucin es
({)
.9
Q)
"S'
({)
Q)
"O
Q)
N'
e
Q)
t!
o
(l_
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
X Xc
Porcentaje de tems
decreciente ya que, a medida que el nmero de tems que hay que responder co-
rrectamente para superar el test se eleva, disminuye el nmero de sujetos que lo
superan.
En tercer lugar, se dibuja una recta (AB), cuya pendiente viene determinada
por el cociente entre la desviacin tpica de las respuestas emitidas por los jue-
ces a las dos primeras preguntas: Sy/Sx.
En cuarto lugar, se obtiene el punto de corte Xc Para obtener el punto de
corte, se proyecta el punto B sobre el eje de abscisas. El punto de interseccin
determina el punto de corte Xc Este valor expresa el porcentaje de tems que un
sujeto debe contestar correctamente. Si queremos expresar este valor en funcin
del nmero de tems, multiplicamos el valor de Xc por el nmero de tems del test
n, es decir: N tems = Xc n.
Mtodo de Hofstee
El mtodo de Hofstee (Hofstee, 1983; De Gruijter, 1985), se basa en la infor-
macin proporcionada por los jueces al dar respuesta a cuatro puntos: el punto
de corte que los jueces consideran adecuado y que se define como el porcen-
taje de tems que los sujetos deben superar, el punto de corte que los jueces con-
sideran inadecuado, el porcentaje mximo admisible de sujetos que fallan en el
test y, el porcentaje mnimo admisible de sujetos que fallan en el test. Con esta
informacin y la distribucin de los resultados obtenidos en el test, se puede es-
277
1 PSICOMETRA
tablecer el punto de corte mediante la siguiente representacin grfica 5.3 (To-
mado de Muiz, 1998):
Grfico 5.3-
e
~
~
Fmx
Q)
::J
cr
en
o
Q)
"S'
en
Q)
ro
+"'
e
Q)
2
o
0...
__ ~ ,
1
1
1
1 Pmn 1 Pe
1
Pmx
Porcentaje de tems correctos
Para la obtencin del punto de corte se procede de la siguiente manera: En
primer lugar se representa en el eje de abscisas los puntos P mx, punto de corte
que los jueces consideran adecuado y P mn, punto de corte que los jueces con-
sideran inadecuado. En el eje de ordenadas se representan los puntos F mx, por-
centaje mximo admisible de sujetos que fallan en el test y F mn , porcentaje m-
nimo admisible de sujetos que fallan en el test. A continuacin se representan los
puntos A y 8, resultantes de las intersecciones P mx - F mx y F mn- F mn , respec-
tivamente. Por ltimo se traza una recta perpendicular al eje de abscisas que
coincida con la interseccin de la distribucin de las puntuaciones en el test, y
la recta AB y se determina el punto Pu punto de corte que buscamos.
278
grfica 5.3 (To-
la siguiente manera: En
ntos P mx , punto de corte
corte que los jueces con-
los puntos F mx, por-
y F mn , porcentaje m-
uacin se representan los
mx Y F mn - F mn , respec-
ar al eje de abscisas que
puntuaciones en el test, y
que buscamos.
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
7. EJERCICIOS DE AUTOEVALUACIN
1. Se han aplicado dos tests compuestos de 15 tems a una muestra de 12 su-
jetos. Para que un sujeto sea clasificado dentro del grupo de maestra debe
contestar correctamente un mnimo de 1 O tems. Calcular el ndice de fi a-
bilidad empleando para ello el mtodo propuesto por Hambleton y Novi ck.
SUJETOS TEST -A TEST- B
1 10 9
2 8 9
3 11 10
4 12 10
5 7 7
6 10 10
7 9 8
8 11 10
9 10 10
10 8 6
11 10 11
12 11 7
2. Calcular la probabilidad de que un sujeto sea clasificado dentro de un
grupo de maestra, supuesta una puntuacin de corte del 80%, n = 1 O,
X= 8, p = 0,75.
3. En la matriz da datos adjunta se presenta la puntuacin total obtenida por
1 O sujetos en dos tests paralelos de fluidez verbal compuestos por diez
tems. Para que un sujeto sea clasificado dentro del grupo de maestra debe
responder correctamente a un mnimo de 6 tems.
""'?'
rJ..l:llllJ
.
ri.I:1.flll
Sujetos Test A Test B Sujetos Test A Test B
1 7 6 6 7 8
2 9 8 7 5 5
3 8 9 8 8 7
4 5 6 9 6 5
5 3 4 10 7 9
279
1 PSICOMETRA
280
Estimar la fiabilidad en las clasificaciones utilizando el coeficiente kappa
de Cohen.
4. En la tabla adjunta se presentan las puntuaciones y frecuencias obtenidas
por 25 sujetos en un test compuesto por 1 O tems. Para que un sujeto sea
clasificado dentro del grupo de maestra, debe responder un mnimo de 8
tems. Calcular, empleando el mtodo de Subkoviak, la consistencia de
clasificacin una vez eliminada la proporcin de clasificacin debida al
azar. (KR20 = 0,56)
X
5. En la siguiente tabla se presentan las probabilidades asignadas por tres j ue-
ces de que los cinco tems de un test utilizado en un proceso de selecci n
sean superados por un grupo de sujetos.
tem Juez 1 Juez 2 Juez 3
1 0,7 0,8 0,8
2 0,8 0,7 0,7
3 0,5 0,6 0,6
4 0,4 0,5 0,5
5 0,4 0,3 0,3
Calcular:
a. Los puntos de corte de cada Juez mediante el mtodo de Angoff.
b. El punto de corte del test, a partir de la informacin de los tres Jueces.
c. Qu Juez considera el test ms fcil y ms difcil.
6. Hemos aplicado un test de aptitud numrica a un grupo de estudiantes de
1 de Bachillerato. El test est compuesto por tems de eleccin mltiple
1 PSICOMETRA
280
Estimar la fiabilidad en las clasificaciones utilizando el coeficiente kappa
de Cohen.
4. En la tabla adjunta se presentan las puntuaciones y frecuencias obtenidas
por 25 sujetos en un test compuesto por 1 O tems. Para que un sujeto sea
clasificado dentro del grupo de maestra, debe responder un mnimo de 8
tems. Calcular, empleando el mtodo de Subkoviak, la consistencia de
clasificacin una vez eliminada la proporcin de clasificacin debida al
azar. (KR20 = 0,56)
X
5. En la siguiente tabla se presentan las probabilidades asignadas por tres jue-
ces de que los cinco tems de un test utilizado en un proceso de seleccin
sean superados por un grupo de sujetos.
tem Juez 1 Juez 2 Juez 3
1 0,7 0,8 0,8
2 0,8 0,7 0,7
3 0,5 0,6 0,6
4
0.4 0,5 0,5
5 0.4 0,3 0,3
Calcular:
a. Los puntos de corte de cada Juez mediante el mtodo de Angoff.
b. El punto de corte del test, a partir de la informacin de los tres Jueces.
c. Qu Juez considera el test ms fcil y ms difcil.
6. Hemos aplicado un test de aptitud numrica a un grupo de estudiantes de
1 o de Bachillerato. El test est compuesto por tems de eleccin mltiple
zando el coeficiente kappa
1es y frecuencias obtenidas
ms. Para que un sujeto sea
responder un mnimo de 8
1koviak, la consistencia de
de clasificacin debida al
des asignadas por tres jue-
n un proceso de seleccin
Juez 3
0,8
0,7
0,6
0,5
0,3
mtodo de Angoff.
acin de los tres jueces.
grupo de estudiantes de
ms de eleccin mltiple
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
con cuatro posibles alternativas. En la siguiente tabla se recogen las alter-
nativas errneas que cuatro jueces creen que seran descartadas por un
alumno con los conocimientos mnimos exigidos para superar el test.
tem Juez 1 Juez 2 Juez 3 Juez 4
1 bcd cd be bcd
2 cd bd bcd cb
3 ab abd abd bd
4 acd a e cd acd
Calcular:
a. El valor esperado en el test para cada juez.
b. El punto de corte del test sin corregir y corrigiendo el efecto azar, utili-
zando el mtodo de Nedelsky
7. Ejercicios conceptuales
Ante cada una de las afirmaciones que se muestran a continuacin, el lec-
tor deber responder si el concepto que contiene es verdadero o falso.
1. El coeficiente kappa (K) es un estimador de la consistencia de clasifi -
cacin de sujetos.
2. El mtodo propuesto por Subkoviak para determinar la fiabilidad en las
clasificaciones requiere dos aplicaciones del test.
3. Los tests referidos al criterio evalan la posicin de un sujeto en funcin
de su nivel de rendimiento respecto al dominio definido.
4. El valor del coeficiente Kappa oscila entre O y 1.
5. Si p :2: Pe, podemos establecer que un sujeto pertenece al grupo de
maestra.
6. Un error falso-negativo tiene lugar cuando clasificamos incorrecta-
mente a un sujeto dentro de un grupo de maestra.
7. La clasificacin de un sujeto dentro de un grupo de maestra depende
del valor Pe establecido.
8. El valor de kappa proporciona una medida de la consistencia de clasi-
ficacin de los sujetos dependiente del valor esperado por azar.
9. En los tests referidos a la norma no se hace hincapi en la especifica-
cin clara del dominio de contenidos.
281
1 PSICOMETRA
282
1 O. El ndice P* de Cracker y Algina se basa en el modelo binomial.
11. Los puntos de corte absolutos se establecen en funcin del grupo de
su jetos e val u a dos.
12. El mtodo de Angoff puede ser considerado como una variante del m-
todo de Nedelsky.
13. El mtodo de Beuk es un mtodo valorativo.
1 modelo binomial.
en funcin del grupo de
)mo una variante del m-
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
8. SOLUCIONES A LOS EJERCICIOS
DE AUTOEVALUACIN
1.
Maestra
No-maestra
Total
Test B
No- maestra
6 2
o 4
6 6
6 4
P
= - +-=0 83
e 12 12
1
8 6 4 6
Pa = 12 .12 + 12 .12 =O, 50
k= Pe -pa= 0,83-0,50 = 0,33 =O
66
1-pa 1-0,50 0,50
1
2. Puntuacin de corte del 80%, n = 1 O, x = 8 y, p = 0.75
Aplicando la funcin de distribucin binomial:
10
(
10
](0 75)' (O 25)"-x
L x ' '
x=B
Total
8
4
12
Prob(x 8)
0
} (0,75)" (0, 25)' 45 O, 1 O O, 0625 O, 28
Prob(x 9)
0
} (0,75)" (0, 25)' 1 O 0,075 O, 25 O, 19
Prob(x 1 (0,75)" (0,25)
0
1 O, 056 1 O, 056
L: =O, 53
La probabilidad de acertar 8 o ms tems de 1 O y ser clasificado dentro
del grupo de maestra es igual a 0,53.
283
1 PSICOMETRA
284
3. N= 1 O n = 1 O
Sujeto Test A Test 8
Sujeto Test A Test 8
1 7 6 6 7 8
2 9 8 7 5 5
3 8 9 8 8 7
4
5 6 9 6 5
5 3 4 10 7 9
Test 8
Test "A" Maestra No- maestra
Total
Maestra
6 1 7
No-maestra
1
2
3
Total
7
3
10
Se calculan las frecuencias de coincidencias esperadas por azar:
7
.
7
= 4 90
1 o
1
Fa =4,90 + 0,90=5,80
3
.
3
=o 90
1 o
1
A continuacin, calculamos las frecuencias observadas de clasificaciones
coincidentes
Por lo tanto:
k=Fc -Fa = 8-5,80 =2,20=
052
N-Fa 10-5,80 4,20 '
Este resultado nos indica una consistencia de clasificaciones media.
Test A
7
5
8
6
7
.ra
Test B
Total
7
3
10
8
5
7
5
9
eradas por azar:
=5,80
rvadas de clasificaciones
0,52
ificaciones medi a.
4.
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
X
fx
Px
Px 1-2 (Px- fx (1-2 (Px-
f?x
9 1 0,724 0,4492 0,5052 0,5052 0.4492
8 2 0,668 0,3023 0,5782 1,1564 0,6045
7 3 0,612 0,1874 0,6954 2,0862 0,5623
6 3 0,556 0,1064 0,8099 2,4296 0,3192
5 5 0,500 0,0547 0,8966 4,4830 0,2734
4 6 0,444 0,0250 0,9512 5,7071 0,1502
3 3 0,388 0,0100 0,9803 2,9409 0,0299
2 1 0,332 0,0033 0,9934 0,9934 0,0033
1 1 0,276 0,0009 0,9983 0,9983 0,0009
25 21,3001 2,3929
X=1 25=
5
5
Veamos como se han obtenido los valores de Px y Px para el caso de X= 9
Px = 0,56 (9/1 O)+ (1-0,56) (5/1 O)= 0,724
Aplicando la funcin de distribucin binomial:
Prob( X 81 p 0,56,n 1 0) L.(: o} (0,72 4)' . (O, 2 76)"-'
Prob(x 8)
0
} (0,724)' (0,276)' 45 0,0755 0,0761 0,2585
Prob(x 9)
0
} (0,724)' (0,276)' 1 O 0,0546 0,276 O, 1506
Prob(x 1 (0,724)" (0,276)
0
1 0,0395 -1 __
Px = 0,45
El proceso sera idntico para el resto de las puntuaciones
285
1 PSICOMETRA
5.
286
L/x(1-2(f, -?,
2
)) 21 3001
P
= =
1
=o 852
e f 25
1
X
=
1
_
2
[I/x ?,-[Ir, ?,]
2
]=
1
_
2
[2,3929 -[2,3929J
2
]=o
827
Pa N N 25 25 '
K=Pc-Pa =0,852-0,827 =0,025=
014
1-pa 1-0,827 0,173
1
Puesto que el valor de Kappa es muy bajo, cabra esperar una fiabilidad baja.
a)
tem Juez 1 Juez 2
1 0,7 0,8 0,9
2 0,8 0,7 0,8
3 0,5 0,6 0,7
4 0,4 0,5 0,5
5 0,4 0,3 0,4
Los puntos de corte se calculan sumando las probabilidades, asignadas
por cada uno de los jueces, de que cada uno de los tems sea superado por
los sujetos. Sumando dichas probabilidades tenemos:
Punto de Corte: 2,8 Uuez 1) 2,9 Uuez 2) 3,3 Uuez 3)
b)
El punto de corte del test es igual al promedio de los puntos de corte asig-
nados por cada uno de los jueces.
P.C = 2,8 + 2, 9 + 3,3 = ~ =
3
test
3 3
e)
El tercer juez, es el que considera el test ms fcil ya que es el que define
un punto de corte ms alto. El primer juez, es el que considera el test ms
difcil ya que es el que define un punto de corte ms bajo.
perar una fiabilidad baja.
Juez 3
0,9
0,8
0,7
0,5
0,4
obabilidades, asignadas
os tems sea superado por
m os:
3,3 Uuez 3)
los puntos de corte asig-
=3
ril ya que es el que define
que considera el test ms
ms bajo.
6.
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1
a)
tem Juez 1 Juez 2 Juez 3
1 bcd cd be bcd
2 cd bd bcd cb
3 ab abd abd bd
4 acd a e cd acd
En primer lugar, debemos calcular la puntuacin esperada por un sujeto en
cada uno de los tems del test. La puntuacin esperada para un sujeto en
un tem viene dada como resultado de dividir la unidad por el nmero de
alternativas del tem que el sujeto no haya rechazado. A continuacin su-
mamos las puntuaciones esperadas y su valor nos da el valor esperado en
el test para cada juez. Estos datos son los que se recogen en la siguiente
tabla:
tem Juez 1 Juez 3 Juez 4
1 1/1 1/2 1/2 1/1
2 1/2 1/2 1/1 1/2
3 1/2 1/1 1/1 1/2
4 1/1 1/2 1/2 1/1
2: 3 2,5 3 3
b)
El punto de corte del test es igual al promedio de los valores esperados
para cada juez
P.C.= 3 + 2, 5 + 3 + 3 = 11,5 =
2
,
87
4 4
N-A 4-2 87
P.Ccorregido =A---= 2,87-
1
= 2,87-0,37 = 2,49
n-1 4-1
7. Soluciones a las preguntas conceptuales
1 . Verdadera.
2. Falsa.
287
1 PSICOMETRA
288
Requiere una sola aplicacin del test.
3. Verdadera.
4. Verdadera.
5. Verdadera.
6. Falsa.
Tiene lugar cuando clasificamos incorrectamente a un sujeto dentro del
grupo de no-maestra.
7. Verdadera.
8. Falsa.
Proporciona una medida de la consistencia de clasificacin de los su-
jetos independientemente del valor esperado por azar.
9. Verdadera.
1 O. Falsa.
Se basa en que la probabilidad mnima de una decisin consistente es
0,50.
11. La afirmacin es falsa.
El punto de corte se establece en funcin del constructo objeto de es-
tudio.
12. La afirmacin es correcta
No es necesario que los tems sean de eleccin mltiple
13. La afirmacin es falsa.
Se trata de un mtodo de compromiso.
te a un sujeto dentro del
clasificacin de los su-
azar.
decisin consistente es
constructo objeto de es-
mltiple
LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
9. BIBLIOGRAFA COMPLEMENTARIA
MARTNEZ-ARIAS, M.R. (1995). Psicometra: Teora de los tests psicolgicos y
educativos. Madrid: Sntesis.
En el captulo 21 se hace una exposicin detallada de los tests referidos al cri-
terio.
MUIZ, J. (1998). Teora clsica de los tests. Madrid: Pirmide.
En el captulo 2, el apartado 2.1 O est dedicado al tema de la fiabilidad en los
tests referidos al criterio.
289

Вам также может понравиться