Вы находитесь на странице: 1из 37

Parte II

Evaluacin de las propiedades mtricas de los


instrumentos de medicin psicolgica.

Hasta el momento, se cuenta con una prueba piloto, que se ha aplicado a una muestra de sujetos a
los que se les han asignado sus puntuaciones correspondientes. Ahora, vamos a comenzar con el estudio de
la 2 parte del proceso, la evaluacin de la calidad mtrica de la prueba piloto y la construccin del
instrumento de medicin definitivo. Dado que, en todos los instrumentos (tests, escalas, cuestionarios) la
forma de llevar a cabo la evaluacin de la calidad mtrica, es la misma, a partir de ahora, utilizaremos el
trmino test, para referirnos a todos estos instrumentos de evaluacin.
Esta fase de evaluacin de la calidad del test, debera comenzar por el anlisis de la calidad de los
tems, dado que son las unidades elementales del test; difcilmente se podr contar con un buen test, si los
tems que lo forman son de mala calidad. Durante el proceso de construccin de la prueba inicial, se ha
explicado la forma de llevar a cabo una parte del anlisis de los tems, a partir de la revisin crtica del
contenido de los mismos, por un grupo de expertos o jueces. Sin embargo, quedara por hacer, otro tipo de
anlisis, no basado en juicios subjetivos, sino un anlisis objetivo, basado en las respuestas que han emitido
los sujetos a los tems. Dado que para llevar a cabo este tipo de anlisis, es necesario estar familiarizado con
los conceptos de validez y fiabilidad, el tema dedicado al anlisis de los tems se expondr ms adelante.
Una vez evaluada la calidad de los tems del test y eliminados aquellos que no se consideran
adecuados, el paso siguiente ser, la evaluacin de la calidad global de test, que incluye, entre otras cosas,
la evaluacin de la precisin y la estabilidad de las medidas (fiabilidad) y la pertinencia de las inferencias
realizadas, a partir de las puntuaciones obtenidas (validez). En este tema, se analiza el problema de la
fiabilidad y precisin de la medida, tratando de encontrar respuesta a la pregunta de hasta qu punto las
puntuaciones obtenidas por los sujetos en la prueba que se les ha aplicado, estn afectadas por errores de
medida, y en qu cuanta. El prximo tema, estar dedicado al estudio de la fiabilidad, desde la perspectiva
de los tests referidos al criterio (TRC).
Comenzaremos el tema, con una alusin al problema del error de medida, centrndonos en los
errores aleatorios y cmo el Modelo Lineal de Spearman, intenta buscar soluciones a esta cuestin.
Seguidamente, presentaremos los distintos tipos de errores aleatorios con los que nos podemos encontrar
al aplicar un instrumento de medicin.
A continuacin, introducimos la definicin que se hace, dentro de la Teora Clsica de los Tests, del
Coeficiente de Fiabilidad, haciendo mencin a los distintos factores que pueden influir en su cuanta, como
pueden ser: la longitud del test y las caractersticas de la muestra a la que se aplica, y explicando la
necesidad de establecer procedimientos empricos que nos permitan estimarlo:
El mtodo de las formas paralelas
El mtodo test-retest
Mtodos basados en la consistencia interna del test
Indicando en cada uno de ellos, cmo se deben interpretar los coeficientes obtenidos.
Posteriormente, se presentarn tres procedimientos, que permitirn estimar el nivel real del sujeto, en el
rasgo o caracterstica que mide el test: su puntuacin verdadera.

Uno de los requisitos fundamentales en cualquier teora de la medicin, es la fiabilidad y precisin


de los instrumentos utilizados para medir una determinada caracterstica. La medicin en Psicologa, no
est exenta de este requisito y debemos contar con instrumentos que sean fiables y, por consiguiente,
libres de errores de medida. El concepto error de medida, es un concepto bsico en psicometra, y se

2
define como: la diferencia entre la puntuacin emprica obtenida por un sujeto en un test y su puntuacin
verdadera, entendiendo por test, cualquier instrumento de medicin psicolgica.
Si aplicamos n veces un test a un mismo sujeto, con la finalidad de determinar su capacidad en
una determinada caracterstica, es casi seguro, que las puntuaciones obtenidas por ese sujeto, sern muy
parecidas, pero nunca iguales, observndose que, en algunos casos, el valor de la puntuacin emprica
estar por encima de la puntuacin verdadera del sujeto y, en otros, por debajo. En cualquier caso, ser
responsabilidad del investigador, construir pruebas que den lugar al mnimo error de medida posible y que
la puntuacin obtenida, proporcione el mayor grado de informacin real sobre la caracterstica objeto de
estudio.
En ocasiones, los errores de medida, no son debidos al propio instrumento de medicin, sino a
cambios que operan en el propio sujeto: su motivacin cuando realiza la prueba, que conteste al azar
algunos tems, las condiciones fsicas en las que se encuentreEstos son errores de carcter aleatorios e
impredecibles, con los que hay que contar y tratar de controlar para que no interfieran de manera
significativa en las predicciones que podamos hacer acerca de su capacidad. Son los errores de los que se va
a ocupar la fiabilidad.
De lo dicho hasta ahora, se puede deducir en primer lugar, que si aplicamos repetidas veces un
mismo test a un sujeto, lo ms probable es que obtengamos puntuaciones distintas en las diferentes
aplicaciones y, en segundo lugar, que cuando un sujeto obtiene una puntuacin en un test, dicha
puntuacin estar afectada por errores de medida, luego cmo podemos saber cul es el valor real del
sujeto en la caracterstica que estamos estudiando? Para ello, hay que acudir a alguna de las teoras que se
han ido desarrollando y que nos van a proporcionar los medios para hacer estimaciones acerca de la
cuanta del error que afecta a las puntuaciones empricas, y acerca del verdadero nivel del sujeto (o sujetos)
en la caracterstica que se est midiendo. En estas unidades didcticas, vamos a utilizar fundamentalmente
la Teora Clsica de los Tests, y por tanto, el modelo lineal de Spearman, que establece que la puntuacin
emprica obtenida por los sujetos, es funcin lineal de su puntuacin verdadera en el rasgo que se intenta
medir, y un componente de error, como se especificar en el prximo apartado.

Establece que: La puntuacin emprica obtenida por un sujeto en un test (X), puede considerarse
como una combinacin lineal de dos componentes: la puntuacin verdadera (V) de ese sujeto en el rasgo
que mide el test y el error de medida cometido (E). As, podemos establecer la ecuacin del modelo en los
siguientes trminos.
X=V+E
Como se deduce de esta expresin, si aplicamos un test a un sujeto. La puntuacin que obtenga en el test,
no coincidir con el valor de la puntuacin verdadera; como en cualquier proceso de medicin, hemos de
tener en cuenta la presencia del error de medida cometido.
Para poder estimar el nivel real de un sujeto V (puntuacin verdadera) en la caracterstica de inters, a
partir de su puntuacin emprica u observable, X el modelo, se basa en una serie de supuestos, referidos a
los errores de medida:
: La puntuacin verdadera (V) es la esperanza matemtica de la puntuacin emprica
(X). Si a un sujeto se le pasara un n infinito de veces un mismo test, y suponiendo que las aplicaciones
fueran independientes entre s, de manera que la puntuacin obtenida por dicho sujeto en una de las

3
aplicaciones, no estuviese influyendo en la obtenida en las dems, la media de todas las puntuaciones
observadas, sera la puntuacin verdadera del sujeto.

V = E (X)

: la correlacin existente entre las puntuaciones verdaderas de n sujetos en un


test, y los errores de medida, es igual a cero, es decir, no existe relacin entre los errores de medida y
las puntuaciones verdaderas.

r v,e = 0.
: La correlacin entre los errores de medida (re1e2) que afectan a las puntuaciones de
los sujetos, en dos tests diferentes (X1 y X2), es igual a cero. Si e1, representa los errores de medida de
las puntuaciones de n sujetos en el test 1 y e2, representa lo errores de medida de las puntuaciones
de los mismos sujetos en el test 2, no existe ninguna razn para presuponer, que los errores de medida
cometidos en un test, vayan a influir positiva o negativamente, en el otro test, siempre y cuando, los
test se apliquen correctamente.
r e1e2 = 0.

Partiendo de estos tres supuestos del modelo, se sacan las siguientes deducciones:
El error de medida se define como la diferencia entre la puntuacin emprica obtenida por un
sujeto, y su la puntuacin verdadera

E = X-V

La esperanza matemtica de los errores de medida es cero


E(e) = 0
La media de las puntuaciones empricas, es igual a la media de las puntuaciones verdaderas

X =V

La covarianza entre las puntuaciones verdaderas y los errores, es igual a cero.

4
Cov (V,E ) = 0

Cov (X 1, X 2) = Cov (V 1 V 2 )

La varianza de las puntuaciones empricas, es igual a la suma de la varianza de las puntuaciones


verdaderas ms la varianza de los errores.
2
S=
Sv2 + Se2
x

La covarianza entre las puntuaciones empricas y verdaderas es igual a la varianza de las


puntuaciones verdaderas
Cov (X,V) = Sv.

La correlacin entre las puntuaciones empricas y los errores, es igual al cociente entre la
desviacin tpica de los errores y la de las puntuaciones empricas.
rxe =

Se
Sx

La covarianza, entre las puntuaciones empricas de dos tests, es igual a la covarianza entre las
puntuaciones verdaderas.

Si a una misma muestra de sujetos, se le aplican dos tests, X y X, podemos considerar que son paralelos,
s adems de cumplirse los supuestos anteriores, se cumplen las dos condiciones siguientes:
son iguales en ambos test. Por tanto, segn el modelo
lineal, podemos establecer:
X = V +E
X= V+E
es la misma en ambos tests,

Se2 = Se2
De las condiciones de paralelismo enunciadas, podemos sacar una serie de deducciones importantes,
dentro del modelo clsico:

5
, supuestamente paralelos, es la
misma. Teniendo en cuenta que, la esperanza matemtica de los errores de medida es cero, y que las
puntuaciones verdaderas de los sujetos, en ambos tests son iguales, podemos concluir la existencia de
igualdad entre las medias de las puntuaciones empricas

X = X
X = V + E = V
X = V + E= V

, son iguales

S x2 =
S x2 ; S x2 =
Sv2 + Se2 ;

S x2 =
Sv2 + Se2

Teniendo en cuenta, por definicin de tests paralelos, que la varianza de los errores es la misma, podemos
concluir que las varianzas de las puntuaciones empricas son iguales.

es igual al
2

cuadrado de la correlacin entre las puntuaciones empricas y las puntuaciones verdaderas ( ) o


bien, al cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones
empricas.
2
2
= =
2

, son iguales.

....
rX1 X=
rX1 X=
rX 2 X=
= rX j X k
2
3
3

Definimos el coeficiente de fiabilidad de un test r XX como: la correlacin entre las puntuaciones empricas
obtenidas por una muestra de sujetos, en dos formas paralelas del test. Tambin se puede expresar como
el cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones empricas

rXX

SV2
= 2
SX

6
Por tanto, se puede interpretar como: la proporcin de la varianza de las puntuaciones empricas de
los sujetos, que se debe a la varianza de las puntuaciones verdaderas, o lo que es lo mismo, la proporcin
de varianza verdadera, que hay en la varianza emprica.
Si r xx = 1

El error de medida es 0, lo que implica, una fiabilidad perfecta del test.

Sin embargo, a medida que dicha proporcin disminuye, se produce un incremento en el error de
medida. En el caso de que la correlacin entre las puntuaciones empricas obtenidas por una muestra de
sujetos en dos formas paralelas del test, sea igual a 0:
Si r xx =0 = 2 = 2

La varianza de los errores de medida, es igual a la varianza de las


puntuaciones empricas.

As por ejemplo, si nos dicen que calculemos la fiabilidad de un test de razonamiento abstracto,
sabiendo que la varianza verdadera de dicho test es el 80% de su varianza emprica

r xx = =

= . ; es decir, el 80% de la varianza de las puntuaciones empricas, es verdadera.

A partir de las diferentes ecuaciones que hemos visto hasta ahora, podemos inferir que:

2
Si rXX = rXV
rXV =

rXX

Al trmino se le denomina ndice de fiabilidad de un test.


El coeficiente de fiabilidad de un test, se puede expresar tambin en funcin de la varianza de los
errores, de la siguiente manera:
2
= 1
= 1 2
2
Al mismo tiempo, es fcilmente deducible que:

= 1

Es decir, la correlacin entre las puntuaciones empricas y los errores de medida se puede obtener, a
partir de la correlacin entre las puntuaciones obtenidas por los sujetos en las dos formas paralelas del test.

1 rxx

Es la proporcin de la desviacin tpica de las puntuaciones de los sujetos en el test, que se


debe, a desviacin tpica de los errores.

Resumiendo, podemos decir, el coeficiente de fiabilidad, definido segn el modelo clsico de


Spearman, como la correlacin entre las puntuaciones obtenidas por una muestra de sujetos en dos test
paralelos, nos proporciona informacin para poder estimar la cuanta del error de medida.

En este apartado, vamos a hacer alusin a diferentes tipos de errores de medida. Como ya hemos
dicho, el Error de Medida, es la diferencia entre las puntuaciones empricas y las puntuaciones verdaderas.
E=XV

: se denomina as, a la desviacin tpica de los errores de medida y se expresa como:

=
Se S x 1 rxx

Cuando se calcula el error de medida, obtenemos una medida individual del error que se comete;
es decir, una medida individual de la precisin del test. Esta medida nos indica, la diferencia que existe
entre la puntuacin que un sujeto ha obtenido en un test, y el valor real de dicho sujeto en la variable que
medimos con dicho test; es decir, su puntuacin verdadera. Cuando calculamos el error tpico, estamos
llevando a cabo una medida grupal del error, puesto que se calcula para todos los sujetos de la muestra.
: es la diferencia entre la puntuacin verdadera de un
sujeto, y la puntuacin verdadera pronosticada mediante el modelo de regresin
e = V V

: es la desviacin tpica, de los errores de


estimacin, y viene expresado como

Svx =
S x 1 rxx

rxx =Se rxx

Es la diferencia entre las puntuaciones obtenidas por un sujeto en un test y las


obtenidas en otro test paralelo. Es decir, el error que se cometera, al sustituir las puntuaciones obtenidas
en un test X 1, por las obtenidas en un test paralelo X 2 .
e=X1 - X2

, sera la desviacin tpica de los errores de sustitucin y viene expresado


como:

8
S X=
S x 1 rxx
1X2

Es la diferencia entre las puntuaciones obtenidas por un sujeto en un test (X 1 ) y las


puntuaciones pronosticadas en ese mismo test, (X 1 ) a partir de una forma paralela X 2 .
= 1 1
La puntuacin 1 se obtiene mediante la recta de regresin de X 1 sobre X 2 :
1
(2 2 ) + 1
1 = 12 2

es la desviacin tpica de los errores de prediccin y viene expresado


como:

Se p = S x 1 rxx 1 rxx = Se 1 rxx

La fiabilidad de un test, depende de factores como: la variabilidad del grupo al que se aplica, la
longitud del propio test, las caractersticas de los tems que lo configuran. En este apartado, estudiaremos
los dos primeros aspectos, y que el tercero, lo abordaremos en otro tema dedicado especficamente al
estudio de la calidad mtrica de los tems. , la longitud del test y de las caractersticas de los tems.

Uno de los factores que influye en la fiabilidad de un test, es su longitud, es decir, el n de tems
que los componen. Cuantos ms tems representativos del rasgo a medir se utilicen, mayor ser la
informacin que obtengamos acerca atributo que estudiamos. Cabe pensar, que tambin ser menor el
error que cometamos al tratar de estimar la puntuacin verdadera de un sujeto, y por tanto, la fiabilidad
del test, aumentar. Por tanto, una manera de aumentar la fiabilidad del test, es aumentar su longitud.
La relacin existente entre la fiabilidad de un test y su longitud, siempre y cuando, los tems a
aadir, sean paralelos a los que ya tena el test original, se puede evaluar mediante la Ecuacin de
Spearman-Brown (que hace referencia al caso en que se quiera aumentar la longitud del test inicial n
veces).

Rxx =

nrxx
1 + nrxx rxx

R xx = Coeficiente de fiabilidad del test alargado o acortado.


r xx = Coeficiente de fiabilidad del test inicial.

n = n de veces que se ha alargado el test

n=

EF
EI

EF= n elementos finales del test


EI = n elementos iniciales del test.

Todo lo que acabamos de decir, es igualmente vlido, en el caso que queramos reducir la longitud del test,
con la salvedad, de que n siempre ser menor que 1 (n < 1)
: supongamos que se aplica un test de percepcin visual compuesto por 50 tems a una muestra de
sujetos, y se obtiene un coeficiente de fiabilidad de 0.60. Veamos lo que sucede, al incrementar n veces la longitud
del test:

Para n=2; = 1+(1)


=

Para n=3; =

Para n=4; =
Para n=5; =

1.80
1+1.2

2.4
1+1.8

3
1+2.4

= 0.82

2 0.60
1+0.60

= 0.75

= 0.86

= 0.88

A medida que aumenta el n de tems paralelos, aumenta el coeficiente de fiabilidad del test, aunque no,
de una manera proporcional. Sin embargo, a partir de un determinado velos de n, no se producen
incrementos significativos en la fiabilidad del test. Como consecuencia de ello, cabe preguntarse: Cunto
hay que alargar o acortar un test, para obtener un determinado coeficiente de fiabilidad?, y en segundo
lugar hasta qu punto es razonable dicho aumento?
Nuevamente, encontramos la respuesta a esta pregunta mediante la ecuacin de Spearman-Brown,
ya que, si dicha ecuacin despejamos n, tendremos:

n=

Rxx (1 rxx )
rxx (1 Rxx )

Supongamos, que con los datos del ejemplo anterior, queremos aumentar la fiabilidad del test,
hasta obtener un valor de 0.93. Si aplicamos la expresin anterior:
=

0.93(1 0.60)
= 8.85 9
0.60(1 0.93)

Esto significa, que para conseguir ese coeficiente de fiabilidad, ser necesario hacer, aproximadamente, 9
veces ms largo, el test original de 50 tems. Es decir, el nuevo test, tendr una longitud de.
= . = 950 = 450 .

Esto, implicara aumentar 400 tems al test original. Obviamente, aadir al test 400 tems, no parece una
solucin razonable, debemos plantearnos otras alternativas, como por ejemplo, revisar el objetivo para el
que se construye el test, mejorar los tems y analizar, cul es el valor de precisin aceptable para dicho
objetivo.

10
En ocasiones, puede ser, que estemos interesados en saber si es posible reducir el n de tems de
un test y que le nuevo coeficiente de fiabilidad, sea lo suficientemente aceptable, como para no perder
demasiada informacin respecto al atributo objeto de estudio. Esta situacin se da, cuando consideramos
que el n de tems es excesivo. Supongamos por ejemplo, un test compuesto por 100 tems, y un
coeficiente de fiabilidad de 0.85 ( ) . Supongamos que para nuestros objetivos, un coeficiente de
fiabilidad de 0.75 ( ) es admisible. La pregunta que nos formularamos, sera cuntos elementos
tendamos que eliminar del test original, para obtener ese coeficiente de fiabilidad. En este caso:
=

(1 ) 0.75(1 0.85) 0.11


=
=
= 0.52;
(1 ) 0.85(1 0.75) 0.21

= . = 0.52 . 100 = 52

Luego, tendramos que eliminar: 100 52 = 48 tems (EI EF)

La fiabilidad de un test, tambin depende de las caractersticas de la muestra a la que se aplica. Un


test, puede presentar tantos coeficientes de fiabilidad, como muestras distintas en las que se calcule. El
coeficiente de fiabilidad, puede variar en funcin de la mayor o menor homogeneidad del grupo, siendo
menor, cuanto ms homogneo sea, es decir, cuanto menor sea, la desviacin tpica de las puntuaciones
empricas obtenidas. Recordemos, que definimos el coeficiente de fiabilidad como la correlacin entre dos
formas paralelas de un test y, como sabemos, la correlacin, viene afectada por la variabilidad del grupo.
Por tanto, es importante conocer hasta qu punto, la fiabilidad de un test, se ve afectada por dicha
variabilidad.
Supongamos dos grupos de sujetos 1 y 2. Partiendo del supuesto de que el error tpico de medida se
mantiene constante, independientemente de la variabilidad del grupo en el que se aplique, podemos
establecer la siguiente igualdad:

Se21 = Se22

Por tanto, teniendo en cuenta que 2 = 2 (1 11 ) podemos establecer la igualdad: 12 (1 11 ) =


22 (1 22 ), y despejando, obtenemos:
22

12
= 1 2 (1 11 )
2

S12 = Varianza emprica de las puntuaciones en el grupo 1.

S 22 = Varianza emprica de las puntuaciones en el grupo 2.


r 11 = Coeficiente de fiabilidad en el grupo 1.
r 22 = Coeficiente de fiabilidad en el grupo 2.

11
: se ha aplicado un test a una muestra de sujetos, en la que la desviacin tpica de las
puntuaciones empricas obtenidas es igual a 20 y la razn entre la desviacin tpica de los errores y la
desviacin tpica de las puntuaciones empricas es 0.4. Aplicado el test a otra muestra de sujetos, en la
que la desviacin tpica de las puntuaciones empricas es igual a 10, Cul sera el valor del coeficiente de
fiabilidad del test?

= 0.4 11 = 1 2 = 1 0.16 = 0.84

12 (1 11 ) = 22 (1 22 );

400(1 0.84) = 100(1 22 )

64 = 100 10022 22 = 0.36

Como se puede apreciar, al reducir la variabilidad de las puntuaciones empricas en el segundo


grupo (la desviacin tpica), se reduce el coeficiente de fiabilidad. As mismo, se puede observar, que el
valor del error tpico de medida, permanece constante; lo cual es lgico, ya que hemos partido de ese
supuesto.

=
Se1 S x1 1 rxx

= 201 0.84 = 8

2
2 = 2
1 = 101 0.36 = 8

Un test, debe cumplir dos requisitos bsicos:


Medir el rasgo que realmente pretende medir (ser vlido).
Las puntuaciones empricas obtenidas al aplicar el test, deben ser estables y precisas.
, hace referencia, a la necesidad de que, en la medida de lo posible, estn libres de
errores.
se refiere a que, cuando se evala un rasgo con el mismo test en distintas ocasiones y
bajo condiciones, lo ms parecidas posibles, siempre y cuando el rasgo estudiado no haya
cambiado, se deber obtener unos resultados similares. Este segundo requisito, referido a la
reproductividad de unos resultados, en condiciones similares, es lo que definimos como fiabilidad
del test, entendida como estabilidad de las medidas. En definitiva, lo que se pretende es, poder
establecer el grado de acuerdo entre las puntuaciones obtenidas por los sujetos, en distintas
aplicaciones.
En este apartado, nos centraremos en dos mtodos basados en la estabilidad de las medidas, para calcular
el coeficiente de fiabilidad, mtodos, que constituyen una aplicacin directa de la definicin de correlacin
entre formas paralelas:
Mtodo de las formas paralelas.
Mtodo test-retest.

12

La forma de proceder, segn este modelo, sera: en primer lugar, construir dos formas paralelas de
un test X y X; en segundo lugar, aplicar las dos formas del test a una muestra de sujetos lo suficientemente
amplia, como para que sea representativa de la poblacin a la que va dirigido el test y, en tercer lugar,
calcular el coeficiente de correlacin de Pearson, entre las puntuaciones de los sujetos en ambas formas.

r=
r=
xx '
x1 x2

N X1 X 2 X1 X 2
N X 2 ( X )2 N X 2 ( X )2
1 2 2
1

Donde X 1 y X 2 : corresponden a las puntuaciones obtenidas por los sujetos, en cada una de las formas.
El coeficiente de fiabilidad as obtenido, recibe tambin el nombre de coeficiente de equivalencia,
haciendo referencia, al grado en que ambas formas, son equivalentes.
El mtodo de las formas paralelas, presenta la ventaja de que, si ambas formas son aplicadas en el mismo
momento, se obtiene un mayor control de las condiciones en las que los sujetos realizan las pruebas. Este
mtodo, presenta el inconveniente, de la dificultad que supone la construccin de 2 formas que sean
paralelas.

Con este mtodo, se aplica el mismo test, en 2 ocasiones diferentes, a una misma muestra de
sujetos. Calculamos el coeficiente de fiabilidad, mediante la correlacin entre las puntuaciones obtenidas
por los sujetos en ambas aplicaciones

rX=
rx=
X
1 x2
1 1

N X1 X 2 X1 X 2
N X 2 ( X )2 N X 2 ( X )2
1 2 2
1

Donde X 1 y X 2 corresponden a las puntuaciones obtenidas por los sujetos en cada una de las aplicaciones
del mismo test.
Como se puede apreciar, el clculo, es idntico al mtodo de las formas paralelas, siendo la nica diferencia
que, en lugar de aplicar dos formas, se emplea la misma, en dos momentos diferentes. Este mtodo,
presenta la ventaja, de que no requiere 2 o ms formas distintas del mismo test. Con el mtodo test-retest,
es el mismo test el que aplicaremos en distintas ocasiones. En el caso de que se pretendan medir rasgos
que pueden cambiar en el tiempo, hay que extremar las precauciones, si tenemos la pretensin de emplear
este mtodo. Al igual que el mtodo anterior, este mtodo no est exento de inconvenientes que hay que
tener presentes:
Posible influjo de la memorizacin de algunos tems, que puede interferir la 2 aplicacin. Un
sujeto, puede recordar la respuesta que haya dado a ciertos tems y esto puede provocar un
aumento o disminucin irreal de su puntuacin y, consecuentemente, del valor de la correlacin. El
efecto de variables de estas caractersticas, sobre la repeticin de un test, puede llegar a ser un
factor determinante en el valor del coeficiente de fiabilidad.

13
Un segundo inconveniente a tener en cuenta, es el Intervalo de tiempo transcurrido entre
aplicaciones. Es deseable incrementar el tiempo entre aplicaciones, para minimizar el efecto de
aprendizaje o de memoria pero, al mismo tiempo, un incremento demasiado grande, hace que
aumente la posibilidad de que el rasgo que estamos estudiando, haya variado debido a la influencia
de factores sociales, afectivos o incluso evolutivos del propio sujeto, lo cual puede incidir en una
infraestimacin del coeficiente de fiabilidad.
Una ltima cuestin es, la propia actitud del sujeto. Un cambio en el grado de cooperacin por
parte del sujeto puede provocar, deliberadamente, una puntuacin ms alta o ms baja, que dara
como resultado, un coeficiente de fiabilidad ms bajo o ms alto.
Teniendo en cuenta estos aspectos, y si las condiciones de aplicacin del test en ambas ocasiones son lo
ms parecidas posibles, los resultados obtenidos, indicarn el grado de estabilidad en las puntuaciones. El
coeficiente de fiabilidad as obtenido, se le denomina tambin coeficiente de estabilidad.

Existen situaciones, en las cuales: solamente es posible llevar a cabo una nica aplicacin del test;
situaciones, en las que la aplicacin de cualquiera de los dos mtodos que acabamos de describir no sea
factible, o donde un anlisis de la estabilidad o la equivalencia de las medidas, no constituya nuestro fin
prioritario.
En este apartado, presentaremos una serie de mtodos para estimar la fiabilidad de un test, que
slo requieren una aplicacin. Unos, hacen referencia a la divisin del test en dos mitades. Otros, requieren
un anlisis de la varianza y la covarianza de las respuestas de los sujetos a los tems. Las diferentes tcnicas
que presentamos, aportan un ndice de la consistencia interna de las respuestas de los sujetos a los tems
del test, en una sola aplicacin.

El mtodo de las dos mitades, presenta una ventaja sustancial respecto a los dos mtodos
explicados anteriormente. Esta ventaja, reside en el hecho de que consideramos las puntuaciones
obtenidas en un nica aplicacin de un test, con lo cual, la estimacin de la fiabilidad, no se ve afectada por
factores como el intervalo de tiempo transcurrido entre una aplicacin y otra, el aprendizaje, la memoria,
etc. y supone un ahorro de tiempo y esfuerzo, al no tener que construir una segunda forma paralela del
test, o tener que realizar una segunda evaluacin de los sujetos. Bsicamente, se tratara de aplicar el test
a una muestra y, una vez obtenidas las puntuaciones, dividir el test en dos mitades, calculando
posteriormente, la correlacin entre las puntuaciones por los sujetos en ambas partes y aplicar a
continuacin la frmula de correccin, que se detallar ms adelante.
La divisin del test en dos mitades, no es siempre una labor tan sencilla como pueda parecer a
primera vista. Las mitades del test, debern ser similares en dificultad y contenido, para que la correlacin
entre las puntuaciones, se aproxime al valor mximo. Uno puede cuestionarse, si efectivamente las medias,
varianzas y el contenido de los tems son realmente iguales o no y, por tanto, si este mtodo es adecuado,
en todo tipo de situaciones. Conseguir una igualdad de los valores de la media y la desviacin tpica, es
posible con este tipo de agrupamiento, pero, corremos el peligro de agrupar tems anlogos en un solo
lado, con lo que pudiera ocurrir, que las 2 mitades no fueran iguales, en cuanto a contenidos se refiere.
Este aspecto, deber ser cuidadosamente estudiado, debido a su importancia.
Son diversas las formas, en las que se puede llevar a cabo la divisin del test en dos mitades, pero
ante todo, una caracterstica que habr que valorar, es la forma en que se ha construido el test.

14
: consistira en dividir el test por la mitad, es decir, considerar los primeros n/2
tems, como una mitad y los ltimos n/2 tems, como la segunda mitad. Esta forma de dividir el
test, puede presentar inconvenientes. Puesto que, muchos tests estn formados por tems cuya
dificultad se va incrementando, las dos mitades no seran equivalentes; en el caso de tests con
contenidos heterogneos, las dos mitades, no seran comparables; en el caso de tests, con un n
elevado de tems, hay que tener en cuenta, el efecto del cansancio de los sujetos.
: consistira en definir una forma, con todos los elementos pares, y una segunda
forma, con todos los elementos impares, con lo cual, reducimos significativamente, los problemas
planteados por la forma anterior.
: puede ser, ordenar los tems en funcin de su grado de dificultad, calculando
para ello el ndice de dificultad de cada tem, y subdividirlos en pares e impares.
Una cuarta forma: aunque no muy recomendable por razones obvias, podra consistir en la
asignacin de los tems al azar a una mitad o a otra.
Normalmente, dado que cuando los tems del tests son de dificultad creciente, aparecen ya
ordenados a lo largo del test, la forma ms utilizada en la divisin del test en dos mitades, es asignar a una
de las mitades los elementos pares y a la otra los impares.
Cuando se utiliza el mtodo de las dos mitades, la fiabilidad, se puede estimar, aplicando cualquiera
de las siguientes frmulas que vamos a ver.
la ecuacin de Spearman-Brown, constituye una de las formas
ms habituales para estimar la fiabilidad de un test, por el mtodo de las dos mitades. Est basada en la
relacin existente entre la longitud de una test y el coeficiente de fiabilidad.
En primer lugar, se aplica el test a una muestra de sujetos. Una vez aplicado, dividimos ste en dos
mitades, que ha de ser paralelas. A continuacin, se calcula la correlacin, entre las puntuaciones obtenidas
por los sujetos en ambas partes. La correlacin calculada, correspondera al coeficiente de fiabilidad de
cada una de las mitades, pero lo que queremos es calcular la fiabilidad des test completo; para ello,
aplicamos la ecuacin de Spearman-Brown, para el caso de longitud doble.

RXX =

2rXX
1 + rXX

R xx = Coeficiente de fiabilidad del test cuando se ha duplicado su longitud.


r xx = coeficiente de fiabilidad de cada una de las mitades.

15
: hemos aplicado un test de aptitud numrica compuesto por 20 tems, a una muestra de 6 sujetos.
Los resultados que se presentan a continuacin, corresponden a las puntuaciones que dichos sujetos
obtuvieron en los tems pares (X 1 ) e impares (X 2 ). Calcular el coeficiente de fiabilidad, suponiendo que las dos
mitades del test, sean paralelas.
Sujetos
X1
X2
X12
X22
X1X2
1
8
4
64
16
32
2
7
7
49
49
49
3
8
6
64
36
48
4
5
4
25
16
20
5
8
7
64
49
56
6
6
6
36
36
36
total
42
34
302
202
241

r x1x2 =

N X1 X2 X1 X2

N X21 ( X1 )2 N X22 ( X2 )2

2.r

20.34

0.68

R xx =1+rxx = 1+0.34 = 1.34 = 0.51


xx

= r x1 x2 =

6 24142 34

(6 302422 )(6 202342 )

1441428
48 56

= 0.34

El coeficiente de fiabilidad de cada una de las 2 mitades es 0.34, pero el del test total es 0.51. Se trata de un
coeficiente medio, ya que el valor mximo, es la unidad. Hemos asumido que las dos mitades son paralelas,
por tratarse de un ejemplo, no obstante, para aplicar este procedimiento de forma estricta, habra que haber
hecho previamente la comprobacin, analizando por ejemplo, la igualdad de las medias de ambas mitades y
la igualdad de los errores tpicos de medida.

esta frmula para la estimacin de la fiabilidad de un test, segn el mtodo de


las 2 mitades, se utiliza cuando, an no siendo las dos mitades definidas Se usa cuando no siendo las dos
mitades estrictamente paralelas, podemos considerarlas -equivalentes (tau-equivalentes) o,
esencialmente -equivalentes. Lord y Novick definen:
Los tests tau-equivalentes, como aquellos en los que las puntuaciones verdaderas de los sujetos,
son iguales para un grupo de sujetos, en ambas formas, pero las varianzas de error no tienen por
qu ser iguales
Los tests esencialmente tau-equivalentes, como aquellos en los que la puntuacin verdadera de
cada sujeto en uno de los tests, es igual a la del otro ms una constante.
En ambos casos, se asume el cumplimiento del supuesto de igualdad de las varianzas verdaderas de ambas
mitades.
Calculados los valores de las puntuaciones en los tems pares e impares e impares, se calcula la diferencia
entre ellas y, a continuacin su varianza (varianza de la diferencia entre las puntuaciones)

S d2
Rxx = 1 2
Sx
d = diferencias entre puntuaciones pares e impares de cada uno de los sujetos.
2
Varianza de la diferencia entre las puntuaciones pares e impares.
=
S d2 S=
p i

S x2 = Varianza de las puntuaciones empricas de los sujetos.

16
: Hemos aplicado un test de fluidez verbal compuesto por 6 tem, a seis sujetos. En la siguiente tabla,
se presentan las puntuaciones empricas obtenidas por los sujetos en el total del test, as como, las obtenidas
en los elementos pares e impares. Calcular el coeficiente de fiabilidad del test.
sujetos
A
B
C
D
E
F

X
4
1
6
2
3
5

P
3
1
3
1
1
2

I
1
0
3
1
2
3

(P-I)=d
2
1
0
0
-1
-1

4 + 1 + 6 + 2 + 3 + 5 21
=
= 3.5
6
6
2
42 + 1 2 + 6 2 + 2 2 + 3 2 + 5 2
2 =
()2 =
(3.5)2 = 15.17 12.25 = 2.92

6
2 = 1.14
= 0.17;
2
1.14
= .
= 1 2 = 1
2.91

Se ha obtenido, un coeficiente de fiabilidad medio.


=

, estos dos autores, de forma independiente, llegaron a una


frmula equivalente a la de Rulon, que presenta una mayor sencillez de aplicacin, y bien determinada por
la siguiente expresin.

S p2 + Si2
2 1
R=

xx

S x2

S p2 yS i2 = Varianza de las puntuaciones de los tems pares e impares.

S x2 = Varianza emprica del test total.


Tanto la ecuacin de Rulon, como la ecuacin de Guttman-Flanagan, proporcionan el mismo valor de la
fiabilidad, por ser expresiones equivalentes.

17
: con los datos del ejercicio anterior, calcular el coeficiente de fiabilidad, utilizando la frmula de
Guttman-Flanagan.
= 1.83; = 1.66
32 + 1 2 + 3 2 + 1 2 + 1 2 + 2 2
(1.83)2 = 4.16 3.35 = 0.81
2 =
6
12 + 02 + 32 + 12 + 22 + 32
2
=
(1.66)2 = 1.22
6
2 + 2
0.81 + 1.22
= 2 1
= 2 1
= .

2.92

Al hablar de la fiabilidad como consistencia interna, hemos hecho alusin, a dos formas de abordar
el tema. Una forma, es la basada en la divisin del test en dos mitades. La segunda forma, requiere un
anlisis de la varianza y la covarianza de las respuestas de los sujetos a los tems. De esta forma, el
coeficiente obtenido, proporciona una estimacin de la consistencia interna de los tems del test. En el
presente apartado, haremos referencia a alguno de los mtodos ms frecuentes para estimar la fiabilidad
de un test, bajo estas condiciones, como son el coeficiente Alpha de Cronbach, o los coeficientes KR 20 y
KR 21 de Kuder-Richardson, que pueden ser considerados como casos particulares del coeficiente Alpha de
Cronbach, en el caso de que los tems que forman el test, sean dicotmicos.

Constituye un indicador de la consistencia interna del test. Expresa la fiabilidad del test, en funcin
del n de tems y de la proporcin de la varianza total del test debida a la covariacin entre los tems.
Cuanto ms covarien los tems entre s, mayor ser la fiabilidad del test. La ecuacin general del coeficiente
Alpha, viene expresada del siguiente modo

cov ( jk )
n j k

=
=

n 1
S x2

n
n 1

n ( r1 )
=

1 + ( n 1) r1

2
2
n Sx S j
=

n 1
S x2

n= n de elementos del test.

S = Suma de las varianzas de los tems del test


cov( jk ) = Suma de las covarianzas de los tems
2
j

S x2 = Varianza de las puntuaciones en el test.

r1 = Cociente entre la covarianza media de los tems y su varianza media

2
n Sj
1 2
n 1
Sx

18
: hemos aplicado un test de percepcin visual a una muestra de 6 sujetos. En la siguiente tabla, se
presentan las puntuaciones que los sujetos obtuvieron en cada uno de los 5 tems que forman el test. Se
desea saber, el valor del coeficiente de fiabilidad del test.
TEMS
TOTAL
sujetos
1
2
3
4
5
A
3
4
3
3
4
17
B
2
3
2
4
4
15
C
4
2
2
3
3
14
D
2
1
1
2
2
7
E
1
1
1
2
1
6
F
0
0
1
1
1
3
Primero, obtenemos la media y la varianza, para cada tem:
= 2;

= 1.86;

32 + 2 2 + 4 2 + 2 2 + 1 2 + 0 2
(2)2 = 1.67
6

= 1.81

= 1.66;

= 0.56

= 2.25;

= 1.86;
= 1.81

Ahora, obtenemos la media y la varianza de las puntuaciones del test.

= 0.92

17 + 15 + 14 + 7 + 6 + 3
172 + 152 + 142 + 72 + 62 + 32
= 10.33; =
(10.33)2 = 27.22
6
6
Sj2
1.67 + 1.81 + 0.56 + 0.92 + 1.89
5
n
1 2 = 1
=
= 0.94
27.22
Sx
4
n1

: siendo la covarianza media entre todos los elementos de un test igual a 0.25, averiguar el coeficiente
de fiabilidad del test, sabiendo que est compuesto por 10 tems, y que la varianza emprica, es igual a 40 puntos.
Sx2 = 40;
rk
= 0.25 Estos datos sabemos. Para resolver este problema, tenemos que partir de que: La
varianza de una variable compuesta suma de otras variables, es igual a la suma de las varianzas de todas las
variables ms la de las covarianzas o bien, a la suma de las varianzas ms los n (n-1) trminos, de covarianza
media:
2
= Sj2 + n(n 1)r
k S ;

Sj2
n
17.5
10
1 2 =
1
= 0.62
n1
40
Sx
9

2
= Sx2 n(n 1)r
k S = 40 10 9 0.25 = 17.5

19

:
El estimador insesgado de , se expresa de la siguiente forma:
=

(N 3)
+2
N1

= Valor de alpha de Cronbach. = Estimador insesgado. N = n de sujetos de la muestra.

A medida que aumenta el nmero de sujetos, en valor de encontrado en la muestra y el valor del
estimador insesgado se aproximan, siendo iguales cuando . En la prctica, a partir de 100 sujetos, se
pueden considerar insignificantes las diferencias encontradas. Por tanto:
=
,

: supongamos que en una muestra de 150 sujetos, hemos obtenido un valor de = 0.75 al aplicar
un test. El estimador insesgado de ser:
(150 3) 0.75 + 2
= 0.753
=
150 1
Como se puede apreciar, a partir de 100 sujetos, la diferencia encontrada entre ambos estimadores es
insignificante; si por ejemplo, tuvisemos una muestra de 40 sujetos, las diferencias seran mayores.
(40 3) 0.75 + 2
= 0.762
=
40 1
El coeficiente Alpha, puede ser considerado como una estimacin del lmite inferior del coeficiente
de fiabilidad de un test, siendo su valor, menor o igual que el coeficiente de correlacin r xx .

rxx
El coeficiente Alpha, es igual al coeficiente de fiabilidad, cuando los tems del test sean paralelos y,
por tanto, satisfagan las condiciones de paralelismo que hemos formulado con anterioridad.

= rxx

Otro estimador del lmite inferior del coeficiente de fiabilidad es lambda propuesto por Guttman:

20

n S 2j
3 = 1 2 +
j =1 S x

n
Cov( j, k )
n 1
S x2

n = n de elementos del test.

S 2j = Varianza del elemento j del test.

S x2 = Varianza del elemento x del test.

cov( j, k ) = S

2
x

S j = Suma de las covarianzas de los tems.


2

Como acabamos de ver, el coeficiente Alpha, nos proporciona una estimacin de la fiabilidad de un
test, basada en la consistencia interna del mismo. Pero en ocasiones, queremos ir ms all y nos
planteamos cuestiones como, por ejemplo:
Si existe un diferencia significativa, entre el valor del coeficiente Alpha, obtenido en dos o ms
muestras independientes
Si Alpha puede tomar un valor concreto en la poblacin
Si la diferencia entre dos o ms valores distintos de Alpha, para una mima muestra de sujetos es
significativa o no
Estos problemas referidos a las inferencias acerca del coeficiente Alpha, dieron lugar al desarrollo
de la teora muestral para el coeficiente Alpha. Kristof y Feldt, de manera independiente, derivaron un
estadstico de contraste del coeficiente Alpha, que se distribuye segn una distribucin F de Snedecor, a
partir del cual, se puede determinar un intervalo confidencial para el valor de Alpha en la poblacin.

Feldt deriva el estadstico W para el caso en que se quieran contrastar dos valores de Alpha, obtenidos
en muestras independientes. Este mtodo, fue ampliado a n muestras independientes, a partir del
estadstico postulado.
As mismo, se elabora un estadstico de contraste, para dos valores de Alpha, obtenidos en la misma
muestra, amplindose este mtodo al caso de n coeficientes para la misma muestra.

Cuando estamos interesados en saber si puede tomar un determinado valor en la poblacin o


entre qu valores se encuentra en la poblacin, podemos aplicar el estadstico F, propuesto por Kristof y
Feldt independientemente. Es decir, una vez que hayamos obtenido un determinado valor de Alpha en una
muestra de sujetos, podemos plantearnos la hiptesis de si el valor obtenido es compatible, con el hecho,
de que Alpha, tome un determinado valor en la poblacin. El estadstico de contraste propuesto, puede
expresarse como:

F=

21
F se distribuye con N-1 y (n-1) (N-1) grados de libertad
= Valor de propuesto por hiptesis para la poblacin.

= Valor alfa obtenido en la muestra.


N = n de sujetos.
n =n de tems.

: hemos aplicado un test de percepcin espacial, compuesto por 35 tems a una muestra de 60
alumnos, obteniendo una = 0.83. Deseamos saber en primer lugar, si dicho coeficiente es,
estadsticamente significativo, y en segundo lugar, entre qu valores se encontrar el coeficiente en la
poblacin (nivel de confianza del 95%).
La 1 cuestin, se refiere a si el valor del coeficiente obtenido, es estadsticamente
significativo o no. La hiptesis nula que se plantea es: H o : = 0
y, como hiptesis
alternativa H 1 : 0
=

1
10
=
= . ;
1 1 0.83

. = ( 1), ( 1) ( 1) = (60 1), (35 1) (60 1) = (59,2006)

Intervalo de confianza =95%, por tanto, el intervalo est comprendido en una zona, que deja ese 5% repartido
equitativamente, por tanto, los lmites del intervalo sern 0.025 y queda un 5%, que se repartir
equitativamente entre ambos lados del intervalo (0.025 y 0.0975)

F 0.975 (59.2006) =1.39; F 0.025 = 0.67 (*)


(*) F 0.025 (59,2006)=

0.975(2006,59)

= 1.48 = 0.67

Puesto que el valor F obtenido (5.88), no se encuentra dentro del intervalo establecido, rechazamos la H 0 y
podemos concluir, que el coeficiente Alpha, es estadsticamente significativo.
La segunda cuestin que nos planteamos, es cmo determinar los valores entre los que se
encontrar el coeficiente de la poblacin

1
1.39; 1 1.39(1 0.83); 0.764
1 0.83
1
0.67; 1 0.67(1 83);
1 0.83

0.886

0.763 0.886
Al nivel de confianza del 95%, est comprendida entre los valores 0.76 y 0.886. Por tanto, el valor planteado
por la H 0 , no est incluido en el intervalo.

En este caso, podemos analizar: dos muestras independientes y n muestras independientes

22
a) Dos muestras independientes: para el caso de dos muestras independientes, se propuso el estadstico
de contraste W que permite comprobar la H 0 : 1 = 2

1 1
W =

1 2
W se distribuye segn la F con (N 1 - 1) y (N 2 -1) grados de libertad

1 y 2 = valores del coeficiente en cada muestra.


N 1 y N 2 = n de sujetos de cada muestra.

: hemos aplicado un test de razonamiento a una muestra de 121 sujetos, obteniendo un valor
= 0.5. Se aplic el mismo test, a otra muestra de 61 sujetos, obtenindose un = 0.62. Queremos saber,
si existen diferencias estadsticamente significativas entre los valores de ambos coeficientes (NC. 95%)

0 : 1 = 2
1 : 1 2

1 0.55
= .
1 0.62

0.975 (120,60) = .
1
1
0.025(60,120) =
=
= .
0.975(60,120) 1.53
Por tanto, podemos afirmar, al N.C 95%, que la diferencia entre ambos coeficientes, no es estadsticamente
significativa, puesto que el valor W=1.18, se encuentra entre los valores encontrados.

b) n muestras independientes. Para el caso de n coeficientes, bajo la condicin de muestras


independientes, se ha derivado el estadstico de contraste UX 1 :

(1 i ) 3 u
UX 1 =
S2
n

UX 1 = se distribuye aproximadamente como con n-1 g.l.


2

n = nmero de muestras.
= Valor del coeficiente para cada muestra.

= =1
u = Media de los coeficientes transformados.

1
(1
) 3

S = Media aritmtica, de las varianzas de cada muestra. S 2 =


i =1

Si2
n

23

Siendo
Dnde:

2
) 3
9( 1)(1

N i = n de sujetos en cada muestra


n i = n de tems en cada test.

( 1)
+1

: se ha aplicado un test compuesto por 50 tems, a 3 muestras independientes, de 25, 40 y 50


sujetos. Para cada una de estas muestras, se obtuvieron los siguientes valores de Alpha: 1 = 0.55; 2 =
0.70; 3 = 0.75, deseamos saber, si existen diferencias estadsticamente significativas para los valores
de alpha obtenidos (N.C 95%)
0 : 1 = 2 = 3
=

(1

1
0.55) 3

(1

(1 0.75)3
+
= 1.457
3
2
12 =
2 = 0.016
9(24.02 1)(1 0.55) 3
2
22 =
2 = 0.013
9(38.43 1)(1 0.70) 3
2
32 =
2 = 0.112
9(48.04 1)(1 0.75) 3

+
3
3
25(50 1)
= 24.02;
1 =
50 + 1
2 =

: 1 2 3

1
0.70)3

40(50 1)
= 38.43;
50 + 1

50(50 1)
= 48.04;
50 + 1
0.016 + 0.013 + 0.112
= 0.047
2 =
3
3 =

1
3

(1 0.55)

. ( 1) = 2

0.047

1.457

(1 0.70)

1
3

0.047

1.457

(1 0.75)

1
3

0.047

1.457

= .

20.975,2=.

20.025,2=.

Podemos afirmar, al N.C95%, que existen diferencias estadsticamente significativas entre los distintos
valores de Alpha, y por tanto, rechazamos la hiptesis nula
En el caso, de querer ver, entre qu dos grupos existen diferencias significativas, podemos emplear el
estadstico de contraste W, para dos muestras independientes:
10.55

12 = 10.70 = .

13 =

F0.95(24,39)() = .

10.55
1075

= .

10.70

23 = 10.75 = .

F0.95(24,49)() = .

F0.95(39,49)() = .

Podemos concluir, que existen diferencias significativas entre los grupos 1 y 3

24

En algunos diseos experimentales, es posible administrar distintas pruebas a la misma muestra de


sujetos. En estas situaciones, los coeficientes obtenidos son dependientes y no podemos emplear ninguno
de los 2 contrastes que acabamos de estudiar. Los primeros estudios llevados a cabo para establecer un
estadstico de contraste que nos permita ver si existen diferencias significativas entre 2 coeficientes Alpha,
obtenidos en la misma muestra, se ampliaron posteriormente para n muestras.
En algunos diseos se pueden administrar distintas pruebas a la misma muestra, con lo que los coeficientes
son dependientes y no se puede utilizar lo anterior.
a) Dos muestras dependientes: Feldt propone el estadstico de contraste t para dos valores de
obtenidos a partir de una misma muestra de sujetos. Feldt recomienda el empleo de este estadstico
cuando N . n 1000
Siendo N= nmero de sujetos y n= nmero de tems. El estadstico se expresa como:

(1 2 )( 2)

4(1 1 )(1 2 )(1 21 2 )

t = Distribucin t de Student con (N-2) g.l.



= Valores del coeficiente alfa

N = nmero de sujetos de la muestra.

rx21x2 = Correlacin al cuadrado, entre las puntuaciones de los sujetos en los 2 test.

: aplicamos dos tests de percepcin visual a una muestra de 125 sujetos. La correlacin entre las
puntuaciones de ambos tests es igual a 0.70. Los valores del coeficiente Alpha, fueron respectivamente,
0.75 y 0.84. Queremos saber, si la diferencia existentes entre ambos valores, es estadsticamente
significativa o no. (N.C 95%)

(N-2) =t 123 =

(0.84 0.75)(125 2)

[4(1 0.84)(1 0.75)(1 0.702 )]

= .

1.98. Podemos establecer, que la diferencia entre los coeficientes, es estadsticamente

significativa, y por tanto, rechazamos la hiptesis nula.

b) n muestras dependientes: Para el caso de n muestras, existen una serie de estadsticos de contraste,
entre los que cabe resaltar, por su sencillez de aplicacin y gran precisin, el estadstico UX 2
k

UX 2 =

i =1

13

u
(
i)

S2 C

25
Dnde:
UX 2 = se distribuye aproximadamente segn una con (n-1) g.l.
2

n = n de tests (nmero de muestras)


N = n sujetos de la muestra

i = Valor de los coeficientes .

u = Media de los coeficientes transformados.

=1

S = Media aritmtica de las varianzas de cada muestra


2 =

9(

2
1)(1 ) 3

(1 )

S2 =

Dnde:

[1]

i =1

(1)

Si2
n

+1

1
3

n
n

n
i =1

n i = n de tems de cada test.

C = Media de las covarianzas S ij , o media de todas las C:

22

1
3 (1

9( 1)(1 )

1
3

: se aplicaron 3 versiones de un cuestionario de ansiedad a una muestra de 100 sujetos. Los


cuestionarios estaban compuestos por A=50, B=60 y C=65 tems respectivamente. Los coeficientes alpha
obtenidos, fueron = 0.60; = 0.70 = 0.74. Las correlaciones entre las puntuaciones de los
sujetos fueron: = 0.50; = 0.58 = 0.59. Calcular al 95% N.C, si existen diferencias
significativas, entre los valores de los coeficientes alpha
0 : = =
:

UX 2 =

1
3

= 13 (1 0.60)

1
3

+ 13 (1 0.70)

1
3

+ 13 (1 0.74)

i =1

13

u
i)
(

2
S C

= 0.45 + 0.50 + 0.52 = 1.47

26

=
=

3
= 58.82
1
1
1
+
+
50 60 65

100(58.82 1)
= 96.65
58.82 + 1

2 =

2 =
2 =

=
=

2
3

9(96.65 1)(1 0.60)


2

2
3

9(96.65 1)(1 0.70)


2

9(96.65 1)(1

2
0.74) 3

= 0.0042

= 0.0052

= 0.005; 2 =

2(0.50)2

1
3

1
3

9(96.65 1)(1 0.60) 3 (1 0.70)


2(0.58)2

9(96.65 1)(1 0.60) 3 (1 0.74)


2(0.59)2
9(96.65 1)(1

2 =

1
0.70) 3 (1

(1 0.60)

1
3

1.47

0.002

1
0.74) 3

0.0042 + 0.0052 + 0.005


= 0.0048
3

= 0.0011

= 0.0016

= 0.0015; =
1

(1 0.70)

1.47

0.002

. = 1 = 3 1 = 2; 20.975(2) = . ; 20.025(2) = .

0.0011 + 0.0016 + 0.0015


= 0.0014
3(3 1)
2
2

(1 0.74)

1
3

1.47

0.002

= .

Podemos aceptar la H 0 , ya que el valor de UX 2 se halla comprendido entre esos valores y, por tanto, no
existen diferencias significativas entre los valores de los distintos coeficientes.

:
En este punto, vamos a hacer referencia a la estimacin de la fiabilidad de un test, en el caso de
que los tems sean dicotmicos, para lo cual, haremos referencia a las ecuaciones de Kuder-Richardson
representan un caso particular del coeficiente de Cronbach, en el supuesto de que los tems sean
dicotmicos. Esta estimacin, es funcin del n de tems y sus intercorrelaciones. Cuanto mayor sea el
nmero de tems y cuanto mayor sea el valor de sus covarianzas, mayor ser su consistencia interna, y
mayor ser su fiabilidad.
Teniendo en cuenta que, la ecuacin de Kuder-Richardson, se basa en que los elementos del test
son dicotmicos, stos vendrn puntuados con un 1 en caso de acierto (o de respuestas favorables, si se

27
trata de medir variables no cognitivas) y, con un 0, en el caso de fallo (o de respuesta desfavorable, en el
caso de variables no cognitivas)
Como hemos visto, el Coeficiente Alpha, puede expresarse:

n
1
=
n 1

2
j

S x2

Por otra parte, sabemos que la Varianza de una variable dicotmica cualquiera h, con
proporcin de aciertos, P h y proporcin de errores, q h siendo q h = 1- P h , podemos expresarla en los
siguientes trminos: 2 =
2 =

Con lo que, la ecuacin Coeficiente Alpha, puede expresarse:

KR20 =

n ph qh
1
n 1
S x2

n = n elementos del test.


P h = Proporcin de aciertos en el elemento h; =

; ,

q h = Proporcin de errores en el elemento h; = 1


p h q h = Varianza del elemento h.

S 2x = varianza total del test.

Dicha expresin, recibe el nombre de ecuacin de Kuder-Richardson 20 (KR20)


Si los tems que componen el test, adems de ser dicotmicos, presentan la misma dificultad, se
usa la Kuder-Richardson21 (KR21)

KR21 =

n npq
1 2
n 1
Sx

n = n elementos del test.


npq = Suma de las varianzas de los elementos. Al ser iguales (igual dificultad), se sustituye el signo
sumatorio por n veces la misma varianza

S x2 = Varianza del test.


La expresin anterior, se puede simplificar y expresarse en los siguientes trminos:

KR21 =

n
(1
n 1

X2
n )
2

Sx

28
n = n de elementos del test

S x2 = Varianza del test

X = Media de las puntuaciones empricas.

: supongamos un test A de fluidez verbal y otro test B, de comprensin lectora. El test A, de fluidez
verbal slo admite dos posibles puntuaciones (1 y 0); calcular el valor de la fiabilidad de ambos test.
TEST A:
TEMS
SUJETOS
A
B
C
D
E
F
1
1
1
1
1
1
1
2
1
1
1
0
1
1
3
1
0
1
0
1
1
4
0
1
0
1
0
1
5
0
0
0
0
0
0
6
1
0
0
0
0
0
4
= 0.66;
6
3
= = 0.50;
6
3
= = 0.50;
6
2
= = 0.33;
6
3
= = 0.50;
6
4
= = 0.66;
6

1 =

1 = 1 0.66 = 0.34; 1 1 = 0.66 0.34 = 0.22

3 = 1 0.50 = 0.50; 3 3 = 0.50 0.50 = 0.25

2
4

5
6

2 = 1 0.50 = 0.50; 2 2 = 0.50 0.50 = 0.25


4 = 1 0.33 = 0.67; 4 4 = 0.33 0.67 = 0.22

5 = 1 0.50 = 0.50; 5 5 = 0.50 0.50 = 0.25


6 = 1 0.33 = 0.34; 6 6 = 0.66 0.34 = 0.22

6+5+4+3+1
= 3.16;
6

= 20 =
TEST B

(6)2 + (5)2 + (4)2 + (3)2 + (1)2


=
(3.16)2 = 4.47
6

0.22 + 0.25 + 0.25 + 0.22 + 0.25 + 0.22


=
1

= 0.82
1

5
1
4.47
2
TEMS

SUJETOS
1
2
3
4
5
6

A
3
2
4
2
1
0

B
4
3
2
1
1
0

C
3
2
2
1
1
1

D
3
4
3
2
2
1

E
4
4
3
1
1
1

F
3
2
4
2
2
1

29
()2
12
9 + 4 + 16 + 4 + 1
2
= 2; 1
=
()2 =
(2)2 = 1.67

6
6
()2
11
16 + 9 + 4 + 1 + 1
2

X 2 =
= 1.83; 2
=
()2 =
(1.83)2 = 1.81

6
6
()2
10
9+4+4+1+1+1
2
3 =
X
= 1.66; 3
=
()2 =
(1.66)2 = 0.56

6
6
()2
15
9 + 16 + 9 + 4 + 4 + 1
2
4 =
X
= 2.5; 4
=
()2 =
(2.5)2 = 0.92

6
6
()2
14
16 + 16 + 9 + 4 + 4 + 1
2
5 =
X
= 2.33; 5
=
()2 =
(2.33)2 = 1.89

6
6
()2
14
9 + 4 + 16 + 4 + 4 + 1
2
6 =
X
= 2.33; 5
=
()2 =
(2.33)2 = 0.90

6
6
20 + 17 + 18 + 9 + 8 + 4
=
= 12.66
6
(20)2 + (17)2 + (18)2 + (9)2 + (8)2 + (4)2
2 =
(12.66)2 = 35.31
6
2
1.67 + 1.81 + 0.56 + 0.92 + 1.89 + 0.90

6
1 2 = 1
= =
= 0.78
35.31
1
5

X 1 =

En el tests A, si en lugar de aplicar KR 20 , hubisemos aplicado KR 21 , al no tener los tems la misma dificultad,
se obtendra un valor inferior al de KR 20 .

Estos dos coeficientes, constituyen 2 indicadores de la consistencia interna de los tems de un test,
y una aproximacin al coeficiente . Se trata de dos coeficientes basados en el anlisis factorial de los
tems.
El Coeficiente Theta, se expresa mediante la siguiente frmula:

n
1
(1 )
n 1
1

n = n de tems del test.


1= Primer autovalor de la matriz factorial; es decir, la varianza explicada por el primer factor, antes
de la rotacin.
El coeficiente Theta, es adems, un indicador de la unidimensionalidad de los tems. Cuanto mayor
sea la varianza que explica el primer factor, mayor ser el valor de Theta, y por consiguiente, la
intercorrelacin de los tems, lo que explica que stos, se distribuyan en torno a una sola dimensin.
El Coeficiente Omega, se expresa mediante la siguiente frmula:

30
n

n
2
j
=j 1 =j 1
n
n

S S

= 1

cov( X

=j 1 =
h 1
j h

2
j

2
j

h 2j

, Xh)

= Suma de las varianzas de los tems.

h 2 = Comunalidad estimada del tem j.

Cov( X

j,

X h ) = Suma de las covarianzas entre los tems j y h.

Otra forma ms sencilla de expresar el Coeficiente Omega, es en funcin de las correlaciones entre
los tems

=1

n h 2j

n + 2 rj h

rjh = Correlacin entre j y h.


En general, y para los mismos datos, se verifica que . La igualdad entre los coeficientes se
verifica, cuando los tems son paralelos.
: en la siguiente tabla, aparecen los valores de la varianza explicada por los 5 factores obtenidos,
tras someter a un anlisis factorial a 5 variables. La suma de las comunalidades es igual a 4.95 y la suma de
las correlaciones entre los tems es igual a 5.1. Calcular el valor de los coeficientes y.
FACTOR
1
2
3
4
5

VARIANZA EXPLICADA
3.286
1.346
0.224
0.128
0.014

1
5
1
1 =
1
= 0.869
1
1
51
3.286
2
5 4.95
=1
= 0.996
=1
+ 2
5 + 2 5.1

Cronbach, introdujo el coeficiente como una medida de la consistencia interna de un test. En el


caso en el que un test se divida en varios subtests, con desigual nmero de tems, y se quiera estimar la

31
consistencia interna del test total, a partir de las puntuaciones totales de los sujetos en los subtests, el
coeficiente , presenta el problema de que nos proporciona un valor infraestimado de la fiabilidad.
El coeficiente propuesto por Raju, permite superar este problema y nos proporciona una
estimacin adecuada de la fiabilidad de un test compuesto de varios subtests, con distinto n de tems.
Aplicamos este coeficiente, cuando desconocemos las puntuaciones de los sujetos en los tems de
los distintos subtests. En el caso de conocer los valores de estas puntuaciones, debemos emplear el
coeficiente
El coeficiente viene dado por la frmula:
k

S x2 S 2j
j =1

2
k

nj
S 1

j =1 n

2
x

k = n de subtests.

S x2 = Varianza del test.


S 2j = Varianza de cada subtests.
n j = n de tems de cada subtests.
n = n de tems del test.

: hemos aplicado un test de destreza manual, compuesto de 4 subtests, a una muestra de 200
sujetos. Los subtests, estn formados por A=18; B=30; C=45 y D=55 tems, respectivamente. La varianza
total del test, es igual a 50 y las varianzas de los respectivos subtests, iguales a S2 A =5; S2 B =7; S2 C =9 y S2 D =11.
Con estos datos, calcular el valor del coeficiente y.
2

4
5 + 7 + 9 + 11
=
1
= 0.48
1 2 =
1
41
50

2 2
50 (5 + 7 + 9 + 11)
=
= 0.50
2

50[1 (0.015 + 0.041 + 0.092 + 0.138)]


2

Si los distintos subtests, estn compuestos por el mismo nmero de tems, entonces, el coeficiente , es
igual al coeficiente

Una vez visto el problema de cmo calcular la fiabilidad de un test, mediante los procedimientos
descritos en los epgrafes anteriores, estamos en condiciones de abordar el problema de cmo hacer
estimaciones acerca del valor de la puntuacin verdadera de un sujeto en un test y del error que afecta a
las puntuaciones empricas obtenidas en el test. No se puede calcular el valor exacto de la puntuacin

32
verdadera de un sujeto, pero s establecer un intervalo confidencial dentro del cual, se encontrar dicha
puntuacin, con un determinado nivel de confianza. Vamos a ver 3 formas de llevar a cabo esta estimacin

Esta desigualdad se aplica, si no se hace ningn supuesto sobre la distribucin de las puntuaciones
empricas o de los errores.

P X V

K ( Se ) 1

1
K2

1
= Nivel de confianza utilizado.
K2
S e = error tpico de medida.

: habiendo administrado a una muestra de 200 sujetos, un test de razonamiento numrico, se


obtuvieron los siguientes resultados: = 52; = 7 = 0.73. Estimar la puntuacin verdadera, de un
sujeto que obtuvo en el test una puntuacin emprica de 65 puntos. N.C=95%
Como sabemos, el error tpico de medida (S e ), es igual a:
= 1 = 71 0.73 = 3.64
1
1 2 = 0.95; = 4.5

{|65 4.5 3.64|} 0.95


{16.38 | 65| 16.38} 0.95
{48.62 81.38} 0.95
Por lo tanto, la puntuacin verdadera, se encontrar entre los valores: 48.62 y 81.38. Este es, sin embargo,
un intervalo confidencial demasiado amplio, que conlleva una estimacin vaga. Esta amplitud exagerada
del intervalo confidencial, puede ser debida, en primer lugar, a un coeficiente de fiabilidad bajo o, en
segundo lugar, a que este mtodo, no considera el tipo de distribucin de las puntuaciones empricas.

Este mtodo, asume una distribucin normal de los errores de medida (con media 0 y varianza Se2 )
y de las puntuaciones empricas, condicionadas a un determinado valor de V. Para la determinacin del
intervalo confidencial dentro del que se encontrar la puntuacin verdadera del sujeto, seguiremos los
siguientes pasos:
Se fija un nivel de confianza y se determina el valor Z c correspondiente, buscndolo en la tabla de
distribucin normal. (por ejemplo, para un intervalo de confianza del 95%, tendremos un valor Z C =
1.96)
Se calcula el error tpico de medida S e .

Se S x 1 rxx para puntuaciones directas o diferenciales.


=

33

S=
ze

1 rxx

para puntuaciones tpicas.

Calcular el error de medida mximo (E max ) que estamos dispuestos a admitir. Este error de medida
mximo, se ver afectado tambin, por el nivel de confianza).
E max = Z c . Se
Calcular el intervalo confidencial en el que se encontrar la puntuacin verdadera (V)

IC= X Emax
: habiendo administrado a una muestra de 200 sujetos un test de razonamiento numrico, se
obtuvieron los siguientes resultados:
X = 52; S = 7 r = 0.73. Estimar la puntuacin verdadera (en
puntuaciones directas, diferenciales y tpicas) de un sujeto que obtuvo en el test una puntuacin emprica
directa de 65 puntos. NC=95%
X = 65; x = 65 52 = 13; Z =
N. C = 95% Z = 1.96

65 52
= 1.86
7

S = 1 = 71 0.73 = 3.64
E = = 1.96 3.64 = 7.13
72.13
57.87
20.13
= 13 7.13
5.87

IC = X E = 65 7.13

IC = x E

S = 1 = 1 0.73 = 0.52
= = 1.96 0.52 = 1.02
2.88
= = 1.86 1.02
0.84

57.87 72.13 ( )

5.87 20.13 ( )

0.84 2.88 ( )

Como podemos apreciar, con respecto a la estimacin segn el procedimiento de Chebychev, el


intervalo confidencial se ha reducido sensiblemente. La principal ventaja que presenta la utilizacin de un
intervalo confidencial, es que clarifica el hecho de que una puntuacin emprica est afectada por un cierto
error de medida. Es decir, si un test presenta un coeficiente de fiabilidad bajo y, consiguientemente, poca
precisin de medida, los intervalos confidenciales son muy amplios. A medida que dichos coeficientes van
incrementndose, los valores extremos del intervalo se acotan, denotando una aproximacin a la
puntuacin verdadera del sujeto.

As como, la correlacin entre las puntuaciones verdaderas y los errores de medida es igual a cero
(r ve =0), no sucede lo mismo entre la correlacin de las puntuaciones empricas de los sujetos y los errores

34
de medida, puesto que dichas puntuaciones, se ven afectadas por un cierto componente de error,
producindose un sesgo. Esta correlacin, como ya se ha visto, viene expresada como r = 1
La correlacin as establecida, es siempre igual o mayor que cero:
Su valor mximo, se alcanzar cuando la fiabilidad del test es nula (r xx =0). En este caso, las
puntuaciones empricas, coinciden con los errores.
Su valor mnimo, se alcanzar cuando la fiabilidad del test es perfecta (r xx =1). En este caso, no
habr errores, y las puntuaciones empricas, coinciden con las verdaderas
En cualquier caso, como esa correlacin es siempre positiva, las puntuaciones empricas son siempre
sesgadas, y por tanto, es ms conveniente establecer el intervalo confidencial, no a partir de las
puntuaciones empricas (que son las sesgadas), sino a partir de la Puntuacin Verdadera Estimada, que
podremos calcular mediante el modelo de regresin lineal, segn el criterio de mnimos cuadrados.
Las ecuaciones de la recta de regresin de Y sobre X, vienen expresadas por las siguientes
ecuaciones:

Sy
Sy

Y =
X + rxy
X
Y rxy
Sx
Sx

Puntuaciones directas:
Puntuaciones diferenciales:

Puntuaciones tpicas:

y = rxy

Sy
Sx

Z y = rxy Z x

A partir de dichas ecuaciones de regresin, podemos establecer las ecuaciones de regresin


correspondientes, para estimar el valor de la puntuacin verdadera. Dichas ecuaciones, vendrn
expresadas de la siguiente forma:

V ' = rxv

Sv
S
Sv Sv Sv
X + (V rxv v X ) Sabemos que r=
= rxv2 y como V = X
xv
Sx
Sx
Sx Sx Sx
V = rxx X + ( X rxx X )

V= rxx ( X X ) + X

v = rxv

Sv Sv
Sv2
S
Sv
v
=
x =
x rxx .r
x , como rxv = v tendremos que=
Sx Sx
S x2
Sx
Sx

v ' = rxx x
v ' = rxx ( X X )

35

Z v=' rvx Z x

: con los datos del ejemplo anterior, estimar la puntuacin verdadera de un sujeto, que obtuvo en
el test una puntuacin emprica de 65 puntos. N.C.95%
Puntuaciones directas:
V = r + ( ) = 0.73 65 + (52 0.73 52) = 61.49
Puntuaciones diferenciales:

v = r = 0.73 (65 52) = 9.49


Puntuaciones tpicas:
Z = ;

= =

= 0.73

65 52
= 1.58
7

Una vez estimado el valor de la puntuacin verdadera, se seguir el esquema general para establecer el
intervalo confidencial en el que se pueda aceptar, a un determinado nivel de confianza, que se encuentre la
puntuacin verdadera del sujeto. Los pasos a seguir seran:
Adoptar un nivel de confianza y determinar el valor Z crtico (Z C )
Calcular el error tpico de estimacin S vx siendo:
S = 1
S = 1

Calcular el error mximo de estimacin E max siendo:

Establecer el intervalo confidencial, a partir de la estimacin puntual obtenida al aplicar las


ecuaciones de regresin; dicho intervalo, viene expresado por:
V E

Para los datos del ejemplo anterior:

36
N.C.95% = 1.96

= 1 = 71 0.730.73 = 3.09
E = = 1.96 3.09 = 6.06

67.55

55.43

I. C = V E = 61.49 6.06

15.55
I. C = v E = 9.49 6.06

3.43
= 1 = 1 0.730.73 = 0.44
I. C = Z E = 1.58 0.86

= = 1.96 0.44 = 0.86

2.44

0.72