Вы находитесь на странице: 1из 17

A lo largo de los temas precedentes, se ha visto cmo llevar a cabo la construccin de los

instrumentos de medicin psicolgica y, desde el marco de la Teora Clsica de los Test


(TCT), se han planteado diferentes procedimientos para evaluar la fiabilidad de las
puntuaciones obtenidas al aplicarlos y estimar la puntuacin verdadera de los sujetos en la
caracterstica medida.

Los tests construidos y evaluados con los procedimientos descritos, se denominan: Test
referidos a la norma, ya que el rendimiento de los sujetos, se evala en referencia a otros
sujetos que forman el grupo normativo. Este enfoque de los tests referidos a normas, no
proporciona, en ocasiones, una informacin adecuada de la habilidad real de un sujeto, sino
de su posicin relativa, respecto a otros sujetos. Supongamos que un sujeto punta por
encima del 80% de sus compaeros en un determinado test. Si deseamos saber la posicin
relativa de dicho sujeto respecto al rasgo evaluado, tenemos que tener informacin acerca
del grado de representatividad de esa muestra. Si estamos hablando de que un sujeto se
encuentra en un percentil 80 respecto a una prueba de resolucin de problemas, podemos
plantearnos cuestiones como: qu tipo de problemas es capaz de resolver, qu tipo de
resolucin requieren dichos problemas, cul es el lmite de capacidad de resolucin de
problemas de dicho sujeto

Este tipo de cuestiones, puede ser abordado cuando la evaluacin de un sujeto no se


realiza en funcin de un grupo normativo, sino cuando tiene lugar en funcin del nmero
de objetivos logrados por dicho sujeto, en dicho test, hablando en este caso de Tests
referidos al criterio.

En este tema, vamos a desarrollar dos aproximaciones bsicas a la estimacin de la


fiabilidad de los tests referidos al criterio. Los modelos aqu presentados, son adecuados
para aquellas situaciones en las que la decisin de clasificar a un sujeto dentro o no de un
grupo de maestra, est en funcin de si ha alcanzado o no una determinada puntuacin en el
test, denominada puntuacin de corte (ndices de acuerdo, que requieren dos aplicaciones
o una sola aplicacin del test)

Los Tests Referidos al Criterio (TRC): tienen sus orgenes en los trabajos de Flanagan y
Nedelsky, que introdujeron el concepto de estndar absoluto y relativo respecto a las
puntuaciones obtenidas en los tests. La denominacin de Tests Referido al Criterio, se debe
a Ebel, y su diferenciacin respecto a los Tests Normativos, fue establecida por Glaser
estable la diferenciacin con los tests normativos.

Segn Hambleton las principales causas que generan su aparicin son: la necesidad de
conocer la eficacia de los programas educativos, el inters por evaluar el nivel de
habilidades bsicas alcanzado por los sujetos y el clima contrario al uso de los tests, que
caracteriza la situacin de la sociedad americana, en la dcada de los aos 60. Durante esta

dcada, se produce una escasez de investigaciones en este campo; merece destacar, sin
embargo, el artculo en 1969 de Popham y Husek, en el que se reaviva el tema y se
amplan las distinciones entre tests referidos a normas y tests referidos al criterio.

Posteriormente, en la dcada de los 70, se increment notablemente el nmero de artculos,


monografas, libros y revistas en los que se introducen nuevos trminos y modalidades de
tests. Todos los autores, presentan unanimidad al considerar un TRC, como aqul que
intenta establecer, el estatus de un sujeto respecto al dominio definido. Destaca el
trabajo de Millman (1974), en el que realiza la primera recopilacin e integracin de los
avances en esta temtica.

Hacia la 2 mitad de los aos 80, se produjo una disminucin significativa en la produccin
de publicaciones dedicadas a esta perspectiva, debido a la irrupcin en el contexto educativo
del nuevo enfoque denominado medicin autntica o evaluacin de la ejecucin
aunque se considera que ambos trminos, son simplemente, trminos alternativos de la
medicin referida a criterio. Hoy en da, es un tema de gran relevancia en el terreno de la
medicin psicolgica y educativa.

Se han propuesto numerosas definiciones para hacer referencia a este tipo de tests, siendo la
ms aceptada la propuesta de Popham: un TRC se utiliza para evaluar el status absoluto
del sujeto, con respecto a algn dominio de conductas bien definido. Teniendo en cuenta
esta definicin, los TRC, no constituyen un nuevo marco terico en la Teora de los Tests,
sino un nuevo enfoque, que responde a preguntas y necesidades distintas de los Tests
referidos a las Normas (TRN).

En los TRN, la finalidad es describir al sujeto en el continuo de algn rasgo, haciendo


hincapi en las diferencias individuales y expresando su posicin relativa respecto al grupo
de sujetos denominado grupo normativo.

Desde la perspectiva de los TRC, el objetivo es construir y evaluar tests, que permitan
interpretar las puntuaciones en sentido absoluto, sin referencia a ningn grupo, y describir
con mayor precisin los conocimientos, habilidades y destrezas de los sujetos en un
dominio concreto de contenidos.

FINALIDAD

Construccin
del test

TEST REFERIDOS A
NORMAS (TRN)

TEST REFERIDOS A CRITERIO (TRC)

Describe al sujeto en el
continuo de algn rasgo,
haciendo hincapi en las
diferencias individuales y
expresando
su
posicin
relativa respecto al grupo
normativo.
Los tems suelen derivarse de
alguna teora de rasgos, y no
se hace tanto hincapi en la
especificacin
clara
del

Permiten interpretar las puntuaciones en


sentido absoluto (sin referencia), y describir
con mayor precisin los conocimientos,
habilidades y destrezas de los sujetos en un
dominio concreto de contenidos.

Se delimitan claramente el dominio de


contenidos o conductas, y el uso pretendido
del test.
Se presta mucha atencin a las

Criterios de
seleccin de
tems del test

dominio de contenidos.

especificaciones de contenido (dominio de


contenido) y a la elaboracin y anlisis
cualitativo de los tems.
As mismo, la validez de contenido, como
veremos en el tema siguiente, es
fundamental en este tipo de test, ya que su
esencia, es la relevancia y representatividad
de los tems, respecto al dominio especfico.

En este tipo de tests, el


objetivo es maximizar las
diferencias individuales, por
lo que se eligen tems de
dificultad media y alto ndice
de
discriminacin,
para
incrementar
el
poder
discriminativo del test.

La seleccin de los tems, se basa en los


objetivos del test y en el propsito y la
finalidad del mismo.
Los TRC, se pueden utilizar para 2 tipos de
objetivos:
Test referido a dominio: se denominan
as, los tests cuyo objetivo es la
estimacin de la puntuacin dominio de
los sujetos se utilizan para describir
lo que una persona puede hacer en un
rea de contenido especfico.
Test de maestra: se denomina as, los
tests cuyo objetivo es establecer
estndares mediante puntos de corte y
es til para clasificar a los sujetos, en
una de las posibles categoras de
clasificacin, excluyentes entre s,
como: xito-fracaso, apto-no apto.

Segn sea el objetivo que se pretenda, la estimacin de la fiabilidad de las


puntuaciones, se realizar de manera diferente. En este caso, (en los TRC) los mtodos de
la Teora Clsica para la estimacin de la fiabilidad para tests normativos no son
apropiados, porque:
No permiten describir la precisin de las puntuaciones individuales, ni la
consistencia de las decisiones tomadas a partir de ellas, por lo que nuevos
procedimientos han sido necesarios para alcanzar los objetivos de estos tests
Por otro lado, el establecimiento de estndares, lleva consigo la determinacin
de los puntos de corte que delimitan los estndares. La ubicacin de estos
puntos de corte, ha motivado numerosas investigaciones, dada la gran
trascendencia que tienen las decisiones que se toman para los sujetos. En el
tema 9, revisaremos algunos mtodos para el establecimiento de los puntos de
corte.
Adems de la fiabilidad de las clasificaciones y la adecuada ubicacin de los
puntos de corte, otro aspecto relevante de los tests de maestra, es la obtencin
de evidencias acerca de la validez de las decisiones de la clasificacin, como
veremos en el tema 7. El estudio de este tipo de evidencias, se lleva a cabo
mediante el anlisis de la correspondencia entre las clasificaciones realizadas
por el test, y las de un criterio de clasificacin externo alternativo. Para ello, se
realiza un proceso de validacin referido a un criterio, en el que se calcula el
coeficiente de validez mediante ndices de acuerdo, y se determinan los ndices
de sensibilidad y especificidad, que complementan la informacin sobre la
validez de las decisiones tomadas por el test. Trabajos recientes en esta

temtica, proponen la aplicacin de la Teora de la Deteccin de Seales, y ms


concretamente, las Curvas de ROC, para el estudio de la validez de las
decisiones de las clasificaciones.
Por ltimo, en lo que respecta a la evaluacin de los sujetos, encontramos tambin
diferencias entre ambos enfoques, el normativo y el criterial, en el significado e
interpretacin de las puntuaciones de los tests.
En los TRN: la puntuacin obtenida por los sujetos, se considera un indicador
de su puntuacin verdadera en un rasgo latente y slo tiene significado en
relacin a los resultados del grupo normativo.
En los TRC: la puntuacin, representa el estimador muestral del rendimiento
del sujeto en el dominio y tiene significado en trminos absolutos. En este
enfoque, para la estimacin de la puntuacin en el dominio, se puede utilizar la
proporcin de respuestas correctas.

El determinar la longitud del test, o el nmero de tems que van a evaluar cada uno de los
objetivos incluidos en el test, constituye un problema crucial, ya que de ello va a depender la
utilidad de las puntuaciones obtenidas en dicho test.
Si el nmero de tems es pequeo: la interpretacin que hagamos de las puntuaciones
obtenidas, tiene un valor limitado, por lo que se debera ser cautos a la hora de emplear
dichas puntuaciones para llevar a cabo cualquier tipo de decisin que implique, por
ejemplo, una seleccin. As mismo, la estimacin del dominio ser imprecisa y dar
lugar a clasificaciones que, o bien son inconsistentes a lo largo de varias presentaciones
de formas paralelas, o no son indicativas del verdadero nivel de maestra de un sujeto,
es decir, se obtendrn clasificaciones poco fiables. Si el propsito que se persigue, es
establecer el grado de maestra de un sujeto: la determinacin de la longitud del test,
est directamente relacionada con el nmero de errores de clasificacin tolerables.
Si el nmero de elementos del test es elevado: se pueden asegurar valores de
probabilidad de clasificacin incorrecta mnimos. Un excesivo nmero de tems
tampoco es lo ms adecuado, debido a limitaciones de tiempo, economa, etc.
Se pueden considerar 2 maneras de reducir el nmero de errores sin aumentar la longitud
del test:
Modelos bayesianos y
Mtodos basados en tests computarizados.
Vamos a presentar el Modelo propuesto por Millman: basado en el modelo binomial;
considera la proporcin esperada de tems que un sujeto puede contestar correctamente para
ser considerado como apto, de la poblacin de tems definidos, as como el error mximo que
se est dispuesto a tolerar
Dicho modelo, parte de los siguientes supuestos:
El test est compuesto por una muestra aleatoria de tems dicotmicos.
La probabilidad de una respuesta correcta por parte de un sujeto, es constante para
todos los tems
Las respuestas dadas a los tems del test, son independientes unas de otras.
Los errores se ajustan al modelo binomial.
!
= =

! ( )!

Pr ob( x p ) = Probabilidad de que un sujeto con una puntuacin p, conteste


correctamente x tems de un test que tiene n tems.

A partir de esta ecuacin, podemos calcular la Longitud del Test, supuesta una
determinada proporcin de aciertos:

( )

Dnde:
n= nmero de tems del test
Pc= proporcin de aciertos para ser considerado apto

e2= error mximo admisible.


: Para un determinado test, se ha establecido la proporcin de aciertos para ser
considerado apto en 0.85 (p c ). Se desea saber cul es la longitud del test (n), si estamos
dispuestos a admitir un error mximo (e) de 0.05 y 0.02.

n=

0.85(10.85)
0.052

=51; En este caso, en el que estamos dispuestos a admitir un error mximo

de 0.05, tendramos 51 tems y admitiramos un margen de aciertos entre 0.80 y 0.90


(0.850.05)

n=

0.851-0.85
0.022

=318.75319; En este caso, en el que estamos dispuestos a admitir un

error mximo de 0.02, tendramos 319 tems y admitiramos un margen de aciertos entre 0.83
y 0.87 (0.850.02)

Como ya sabemos, los TRC se pueden utilizar para 2 tipos de objetivos:


La estimacin de la puntuacin de dominio de los sujetos (tests referidos al dominio)
Establecimiento de estndares mediante puntos de corte (tests de maestra). Este
segundo enfoque, es el ms utilizado y el que ha dado lugar a un mayor nmero de
procedimientos para abordar el problema de la fiabilidad. Es desde este contexto desde
donde abordaremos el estudio de la fiabilidad de los tests referidos al criterio.
Desde este segundo enfoque, se considera un test fiable, si tras su aplicacin a los mismos
sujetos en distintas ocasiones o la aplicacin de dos formas paralelas, se clasifica a los sujetos
siempre en la misma categora. Los mtodos que se presentan a continuacin para el clculo de
la fiabilidad, se pueden agrupar en dos subgrupos:

Mtodos basados en dos aplicaciones del test: donde encontramos el ndice de


Hambleton y Novick; el Coeficiente Kappa de Cohen y el ndice de Croker y Algina.
Mtodos basados en una sola aplicacin del test: que incluye el Mtodo de Huynh, el
Mtodo de Subkoviak y el Coeficiente de Livingston.

Tratan en qu medida las clasificaciones hechas por un tests, coinciden con las hechas por
otro en una muestra (2 formas paralelas de test).
Estos mtodos implican la existencia de una sola muestra de sujetos y dos aplicaciones de
un mismo test o de dos formas paralelas.

Este ndice, supone la utilizacin de la proporcin de sujetos que, consistentemente, son


clasificados dentro del grupo de maestra o no-maestra, como un ndice de la fiabilidad del test.
Nos basaremos en un ejemplo, para la mayor comprensin de este procedimiento: supongamos
los datos de la siguiente tabla, en la que se presenta la puntuacin total obtenida por 20 sujetos
en dos tests paralelos, compuesto por 12 tems, y que un sujeto debe responder correctamente a
un mnimo de 7 tems para ser clasificado dentro del grupo de maestra.
Sujeto
1
2
3
4
5
6
7
8
9
10

Test A
7
9
8
8
7
6
6
6
6
5

Test B
6
8
6
7
5
7
6
6
6
4

sujeto
11
12
13
14
15
16
17
18
19
20

Test A
5
5
4
3
4
3
2
5
3
1

Test B
3
5
4
3
3
4
2
2
1
1

Estas puntuaciones, pueden agruparse tal y como aparecen en la siguiente MATRIZ, en funcin
de que superen o no la puntuacin de corte (en este caso 7), lo que va a permitir clasificarlos en
una categora u otra. Como vemos, los sujetos 2 y 4, son los nicos sujetos que han sido
clasificados en el grupo de Maestra en ambos tests. Del 7 al 20, los sujetos estn clasificados
dentro del grupo No Maestra, tanto en el test A como en el test B. El resto de los sujetos, han
sido clasificados de distintas maneras en ambos tests.

Test A
Maestra
No maestra
Total (N i )

Test B
No Maestra
3
14
17

Maestra
2
1
3

Total (N i )
5
15
20=N

La proporcin de sujetos consistentemente clasificados en ambos tests, se puede expresar


mediante la ecuacin:

= =
1=1

11 22

+
+ +

pi = Proporcin de sujetos clasificados consistentemente en ambas formas.


N = n total de sujetos.
n11 , n22 ,.....nmm = n de sujetos, en cada casilla de la matriz, en los que ambos tests
coinciden al clasificarlos.
A partir de los datos de la matriz de nuestro ejemplo:

= =
1=1

2 14
+
= 0.80
20 20

Esto es, el 80% de los sujetos El valor mximo de p c , es 1, valor que se obtendr, cuando
todos los sujetos sean clasificados de la misma forma en los dos tests.
El valor mnimo, ser igual a la proporcin de clasificaciones consistentes, que podemos
esperar por azar (p a ) valor que viene dado, en funcin de las Frecuencias Marginales de la
matriz (N j )

=
=1

Con los datos de nuestro ejemplo:


5 3 15 17
= 0.0375 + 0.6375 = 0.675
= 2 +
20
202

Ante estos resultados, se puede decir que la utilizacin de los tests supone una mejora
importante en la consistencia de las clasificaciones, y por tanto una fiabilidad de las mismas,
con respecto a las realizadas por mero azar. Mientras que por azar obtenemos una fiabilidad de
0.67, el uso de los tests, nos reporta una fiabilidad de 0.80

En 1974, una serie de autores sugieren que: en la estimacin de coeficiente de fiabilidad, se


elimine del valor de la proporcin de sujetos clasificados consistentemente, el valor de la
proporcin de clasificacin consistente esperada por azar, y para ello, recomiendan la
utilizacin del Coeficiente Kappa de Cohen, cuya frmula es (expresada en proporciones)

Si aplicamos el Coeficiente Kappa a los datos del ejemplo anterior, el resultado sera:

0.80 0.675
= .
1 0.675

El valor Kappa proporciona una medida de la consistencia de clasificacin de los sujetos


independientemente del posible valor esperado por azar.
El valor Kappa, oscila entre 1 que indicara una fiabilidad perfecta y 0 que indicara que
la consistencia observada sera atribuible al azar.
El Coeficiente Kappa, tambin se puede expresar en funcin de las frecuencias absolutas:
=

Dnde:
Fc = Frecuencia observada de clasificaciones coincidentes.

Fa = Frecuencia de coincidentes esperada por azar.


N = n de personas de la muestra.
Con la Matriz del ejemplo anterior:

Test A
Maestra
No maestra
Total (N i )

Test B
No Maestra
3
14
17

Maestra
2
1
3

Total (N i )
5
15
20=N

En primer lugar, calculamos las frecuencias de coincidencias esperadas por azar:


35
= 0.75
20
17 15
= 12.75
20
= 0.75 + 12.75 = .

A continuacin, calculamos las frecuencias observadas de clasificacin coincidentes:


= 2 + 14 =
Por lo tanto:

=
= .

Como se puede observar, se obtiene el mismo valor.
Para ver la significacin estadstica del coeficiente Kappa, Cohen propuso la utilizacin del
error tpico de medida de K:

=
( )

Si aplicamos la frmula a nuestros datos, en primer lugar, calculamos el error tpico de medida
de K
13.5
=
= 0.32
20(20 13.5)

A continuacin, calculamos el intervalo confidencial:

Si utilizamos un N.C 95%, el intervalo confidencial vendr dado por:

0.38 1.96 0.32; 0.247 1

Dado que el valor K=0, no se encuentra dentro de los lmites del intervalo, podemos
establecer que el acuerdo entre las clasificaciones, es estadsticamente significativo

Estos autores, proponen el ndice P* como alternativa al Coeficiente Kappa de Cohen. Este
ndice se basa en que la probabilidad mnima de una decisin consistente es de 0,50.
Este mnimo tendr lugar si las puntuaciones del test, son estadsticamente independientes y el
punto de corte, est en la mediana de la distribucin conjunta de las puntuaciones obtenidas por
los sujetos en las dos aplicaciones. El coeficiente P* viene expresado por la siguiente ecuacin:
=

0.50
= 2 1
1 0.50

Siguiendo a estos autores, el valor de P*=1, cuando las decisiones son totalmente consistentes, y
P*=0, cuando las decisiones, no son ms consistentes, que las que resultaran de utilizar tests
estadsticamente independientes, cuyas puntuaciones presentan la misma distribucin y un
punto de corte igual a la mediana de la distribucin comn.
En nuestro ejemplo: P C = 0.80, por tanto:
= (2 0.80) 1 = 0.60

Los mtodos que se han presentado anteriormente, implican la existencia de una sola muestra y
2 aplicaciones de un mismo tests o de 2 formas paralelas. El mtodo de Huynh, constituye un
procedimiento matemtico sofisticado, para estimar la consistencia de clasificacin, a partir de
una sola administracin de un test de maestra. Una de las principales ventajas del mtodo de

Huynh, es que slo se precisa un test y una sola aplicacin. Estos autores, proponen un
mtodo para pronosticar las puntuaciones en un test B, conocidas las puntuaciones de una
muestra de sujetos, en una primera aplicacin (test A). Para hacer ese pronstico, el mtodo
propuesto:
o

Presupone que la distribucin de puntuaciones es aproximadamente


normal. Huynh sugiere que este presupuesto es adecuado, cuando el
nmero de tems es superior a 8 y la razn entre la media de las
puntuaciones de los sujetos en el test y el nmero de tems oscila entre 0,15
y 0,85.

Los pasos a seguir segn este modelo, son los siguientes:


. Calcular la media ( X ) , la varianza ( S x2 ) y el coeficiente de correlacin de KuderRichardson 21 (KR21) y especificar el valor del punto de corte sobre las puntuaciones
directas (c).
En el ejemplo que presentamos, suponemos que en el test A: = 5.15;
2 =
4.45;
21 = 0,37; = 7
. Calcular la puntuacin tpica ( Z x ) del valor del punto de corte, con una correccin

de 0,5; y acudiendo a las tablas de la curva normal, se busca el valor de P que deja por
debajo a la Z obtenida (su probabilidad).
=

( 0.5 )

Para nuestro ejemplo:


7 0.5 5.15
= 0.64
=
2.109

= 0.64 = 0.74

. A partir de las tablas de Gupta, obtenemos la probabilidad

( Pzz ) de

que dos

variables distribuidas normalmente, con una correlacin KR21=0.37, sean menores que
Z=0.64

En nuestro ejemplo P zz =0.58


. Por ltimo, calculamos los valores del coeficiente

pc y k

= 1 + 2( )
=
En nuestro ejemplo:

10

2
2

= 1 + 2(0.58 0.74) = 0.68; =

0.58 (0.74)2
= 0.168
0.74 (0.74)2

Si el punto de corte se ubica en una zona extrema de la distribucin: Pc tiende a aumentar y


K a disminuir.

Este autor, establece un procedimiento con una nica aplicacin, cuando es imposible
establecer una forma paralela de un test. El mtodo, simula las puntuaciones de una segunda
forma paralela del test y al igual que el mtodo de Huynh, proporciona una buena estimacin
de los valores de P C y K.
Para la explicacin del mtodo, vamos a utilizar los datos del ejemplo desarrollado en el
Mtodo de Hambleton y Novick (test de 12 tems) suponiendo que slo se pudiese aplicar el test
A, y que el coeficiente de fiabilidad del test, es igual a 0.62 (coeficiente del test)

Sujeto
1
2
3
4
5
6
7
8
9
10

X Test A
7
9
8
8
7
6
6
6
6
5

sujeto
11
12
13
14
15
16
17
18
19
20

X Test A
5
5
4
3
4
3
2
5
3
1

Pasos para confeccionar la tabla:


. Con los datos de las puntuaciones obtenidas por los sujetos, construimos la
distribucin de frecuencias de las puntuaciones obtenidas por los 20 sujetos y, una vez
obtenida la distribucin de frecuencias de las puntuaciones, se calcula la media y el
coeficiente del test, que suponemos igual a 0.62.
X

fx

9
8
7
6
5
4
3
2
1

1
2
2
4
4
2
3
1
1
20

11


9
16
14
24
20
8
9
2
1
103


=
= . ;

= .

. A continuacin, se estima p X , que es la probabilidad de que una persona con una


determinada puntuacin X, responda correctamente a cada tem. Dicha
probabilidad, se estima mediante la ecuacin:

= + (1 )

Dnde:
=
=
=
= .

As, para el primer caso de la matriz de frecuencias, es decir, el caso en el que X=9, p X
sera:
9
5.15
= 0.628
= 0.62 + (1 0.62)
12
12
Siguiendo el mismo procedimiento se calcula el resto de los valores de P X, quedando la
columna del siguiente modo:
X

fx

9
8
7
6
5
4
3
2
1

1
2
2
4
4
2
3
1
1
20


9
16
14
24
20
8
9
2
1
103

0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215

. En tercer lugar, calculamos P x que es la probabilidad de que una persona, con una
determinada puntuacin X, y una probabilidad p x de acertar cada tem (calculada en el
apartado anterior), respondan correctamente 7 (nuestro punto de corte) o ms tems en
el test, y sea clasificado dentro del grupo de maestra.
Para ello, puesto que podemos considerar los tems, como ensayos de un proceso
binomial, aplicaremos la Funcin de Distribucin Binomial o se buscarn los valores
correspondientes, en las tablas de la distribucin binomial, para lo cual, se tendr en
cuenta:
o El nmero de tems (n)
o El valor del punto de corte (7 en nuestro ejemplo)
o La probabilidad de acertar cada tem, en funcin de la puntuacin obtenida
(p X )

12

Para calcular P x ,

() = ( ) =

Veamos cul sera el proceso a seguir, en el caso de un sujeto que ha obtenido una
puntuacin de 9 en el test y una probabilidad de acertar cada tem, de 0.628 (recordemos que
el punto de corte se estableci en 7)
12
(7) = ( = 7) = 0.6287 0.3725 = 0.21734
7
12
(8) = ( = 8) = 0.6288 0.3724 = 0.22932
8
12
(9) = ( = 9) = 0.6289 0.3723 = 0.17206
9
12
(10) = ( = 10) = 0.62810 0.3722 = 0.087
10
12
(11) = ( = 11) = 0.62811 0.3721 = 0.02675
11
12
(12) = ( = 12) = 0.62812 0.3720 = 0.00376
12
.
=

Por tanto, la probabilidad de acertar 7 o ms tems de 12, es 0.7363, que resulta de la suma
de las probabilidades de acertar 7, 8, 9, 10,11 y 12.
Si en lugar de hacer estos clculos, se acude a las tablas de la distribucin binomial,
habramos de buscar, la probabilidad de que X 7, para n=12, p=0,628, lo que equivale a
buscar 1- la probabilidad de que X 6
Esto mismo, se hace con el resto de puntuaciones y sus correspondientes p X quedando la
tabla como sigue:
X

fx

9
8
7
6
5
4
3
2
1

1
2
2
4
4
2
3
1
1
20


9
16
14
24
20
8
9
2
1
103

13

0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215

0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059

Una vez calculados todos los valores de P x, se calcula la Probabilidad de clasificacin


consistente de los sujetos, para lo cual se halla:
La probabilidad de que cada sujeto sea consistentemente clasificado en el grupo
de maestra para dos tests independientes; es decir, la probabilidad de que cada
persona, sea clasificada en el grupo de maestra en el primer test (P x1 ), por la
probabilidad de que sea clasificado en el grupo de maestra en el segundo test (P x2 ),
lo que ser igual a
La probabilidad de que sea clasificado en el grupo de no maestra en los dos tests,
que ser igual a:
(1 1 )(1 2 ) = (1 )2
Por consiguiente, la probabilidad de clasificacin consistente para un sujeto ser:

2 + (1 )2 = 1 2( 2 )

As, en nuestro ejemplo, tendremos para la primera fila: 1 2(0.7366 0.73662 ) =


.
Hacemos el mismo clculo con el resto de datos, quedando la tabla:
X
9
8
7
6
5
4
3
2
1

fx
1
2
2
4
4
2
3
1
1
20

0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215

0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059

(
0.6120
0.5205
0.5039
0.5672
0.6816
0.8039
0.9007
0.9602
0.9882

- En la sexta columna, se recoge el nmero de sujetos que, habiendo obtenido una


puntuacin X, sern consistentemente clasificados. La forma de obtener estos valores, es
multiplicando los valores obtenidos en la quinta columna, por la frecuencia de la columna 2.

[1 2( 2 )]
14

As, para nuestro ejemplo, en el primer caso (X=9) sera: . . =


. ; haciendo lo mismo en todos los caso, la tabla quedara:
X

fx

9
8
7
6
5
4
3
2
1

1
2
2
4
4
2
3
1
1
20

0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215

0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059

(
0.6120
0.5205
0.5039
0.5672
0.6816
0.8039
0.9007
0.9602
0.9882

[ ( )]
0.6120
1.0409
1.0079
2.2690
2.6273
1.6078
2.7022
0.9602
0.9882
13.9145

- Por ltimo, vamos a obtener el nmero de sujetos que superarn el punto


de corte en ambos tests ( ) Para ello, multiplicamos los valores obtenidos en la
columna 4 (P x ), por los de la columna 2 de frecuencias (f x ) y los sumamos. La tabla
quedara as:

fx

9
8
7
6
5
4
3
2
1

1
2
2
4
4
2
3
1
1
20

0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215

0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059

(
0.6120
0.5205
0.5039
0.5672
0.6816
0.8039
0.9007
0.9602
0.9882

[ ( )]
0.6120
1.0409
1.0079
2.2690
2.6273
1.6078
2.7022
0.9602
0.9882
13.9145

Con todos estos datos, ya podemos calcular los Coeficientes :


0.7366
1.2023
0.9112
1.2666
0.7948
0.2204
0.1571
0.0203
0.0059
5.3152

El Coeficiente p c Se obtiene dividiendo el valor de la suma del nmero de


sujetos que, para una determinada puntuacin, han sido consistentemente
clasificados (columna 6), por el nmero total de sujetos (tambin la suma de las
frecuencias). Esto es:
1 ( 2 )
=

15

En nuestro ejemplo: =

= . (el numerador, representa el nmero de

sujetos correctamente clasificados)

Para calcular el Coeficiente Kappa resulta necesario calcular el valor de la


probabilidad de clasificacin consistente por azar (p a ). Para ello, empleamos la
suma de los datos obtenidos en la columna 7, es decir, la suma del nmero total
estimado de sujetos clasificados en el grupo de maestra, mediante la siguiente
ecuacin:
2



= 1 2

,
,

En nuestro ejemplo: =

Ahora, ya podemos calcular el Coeficiente Kappa:

En nuestro ejemplo: =

,,
,

= ,

= .

Este coeficiente se desarrolla en el contexto de la Teora Clsica de los Tests. Los mtodos que
hemos visto hasta el momento para el estudio de la fiabilidad, consideran por igual, tanto los
errores cometidos al clasificar a un sujeto perteneciente al grupo de maestra en el grupo de nomaestra, como los que cometemos a la inversa.
Sin embargo, el Coeficiente de Livingston, s tiene en cuenta este tipo de errores, al
considerar ms importante, los errores de clasificacin de los sujetos ms distanciados del punto
de corte de aquellos que estn ms cerca del punto de corte. Evidentemente, es ms fcil
cometer errores de clasificacin cuando un sujeto se encuentra muy cercano al punto de corte y
ser ms difcil cometer estos errores de clasificacin, cuando el sujeto se encuentra muy
alejado del punto de corte. El Coeficiente viene determinado por:

16

Dnde:

2 + ( )2
2 + ( )2

= =
= =

A medida que el punto de corte se distancia del valor de la media del test, aumenta el
valor de K xv2

Cuando la media del test, coincide con el punto de corte, K xv2 = coeficiente alfa
Cuando alfa es igual a 1, tambin K xv2 es igual a 1.

K xv2 ser siempre que el coeficiente de fiabilidad alfa.

17

Вам также может понравиться