Вы находитесь на странице: 1из 16

PSICOMETRIA

Tema 3.2 : Evaluacin de la calidad mtrica: Validez


1. Definicin general de validez
Grado en que el test mide aquello que pretende medir.
Adecuacin de las inferencias realizadas a partir de las puntuaciones del test
que dependern de los objetivos que se persiguen con su aplicacin
Evolucin histrica del concepto de validez
Ha estado definido por los objetivos concretos para los que se utilizaban los test
en cada momento:

Determinar el rendimiento o actuacin de un sujeto en un universo de


situaciones (contenido)
Inferir el grado en que un sujeto posee algn rasgo o atributo (constructo)
Predecir el rendimiento o comportamiento futuro (predictiva) o actual
(concurrente) en una variable externa al test.

Concepto actual de validez

grado en que la evidencia emprica obtenida y los conocimientos aportados


por las teoras apoyan las inferencias que se hagan a partir de las
puntuaciones del test cuando ste se utiliza para un objetivo concreto

En lugar de hablar de distintos tipos de validez se habla de distintas


estrategias para llevar a cabo un estudio de validacin

Estudio de validacin de un test


Proceso mediante el cual se recoge la evidencia emprica (datos, observaciones,
argumentos) necesaria para apoyar las inferencias que se van a realizar a partir
de las puntuaciones del test.
Un proceso de validacin ideal debe incluir los tipos de evidencia implicados en
los tres tipos tradicionales de validez: de contenido, de constructo y relativa al
criterio
2. Validacin de contenido
Es especialmente importante en los tests de rendimiento acadmico.
Trata de garantizar que los elementos o tems del test constituyen una muestra
relevante y representativa del contenido que este pretende evaluar.

Relevancia: que todos los aspectos que incluye el test sean relevantes
para el dominio de inters, y no haya ninguno irrelevante
Representatividad: que incluya todos los elementos importantes que
definen el dominio

Fases de un estudio de validacin de contenido

Llevar a cabo una especificacin de dominio


Recurrir a un grupo de expertos que deben emitir un juicio subjetivo
acerca de:
La relevancia de los tems
La representatividad del test
Aunque es un estudio ms cualitativo que cuantitativo existen algunos
ndices numricos

Fase 1: Especificacin del dominio

Debe realizarse una clara y exhaustiva especificacin de todas la posibles


conductas o reas de contenido que debe cubrir el test
Se construye una tabla de doble entrada donde:
las filas representa las distintas reas de contenido
las columnas las diferentes operaciones, procesos cognitivos,
objetivos instruccionales...
las celdas el nmero o la proporcin de tems que debe contener la
prueba en relacin con cada contenido y objetivo (pesos)

Ejemplo: tabla de especificaciones de dominio de un examen sobre la


asignatura de
Psicometra

Fase 2: Evaluacin de
la relevancia de los tems en relacin con el dominio

A partir de la tabla de especificaciones se elaboran los tems que son


evaluados por un conjunto de jueces en funcin de su adecuacin al
contenido para el que ha sido diseado.
El procedimiento ms utilizado es el de Hambleton (1980):
Se presenta a un grupo de expertos cada uno de los tems que
deben juzgar, mediante una escala de 5 puntos, el grado de ajuste
con su correspondiente especificacin en el dominio
El grado de relevancia de un tem se define mediante la media o la
mediana de estas puntuaciones

Ejercicio prctico 1
Supongamos que un grupo de 100 expertos han de juzgar la relevancia de 3
tems. En la tabla adjunta est la valoracin asignada a cada uno de los tems
por el grupo de expertos. Calcular la relevancia de cada tem sabiendo que la
categora 1 indica un mal ajuste
entre el tem y el constructo y la
categora 5 un muy buen ajuste
(pgina 314 del libro Psicometra:
Unidad didctica de Barbero y
cols.)

Fase 3: Evaluacin de la representatividad de los tems del test


Hace referencia al grado en que se han cubierto las especificaciones de dominio
y por ende, a la precisin de las inferencias acerca del dominio de los sujetos de
ese campo de conocimiento
Una vez eliminados los tems cuya relevancia no alcance un punto de corte
previamente especificado se comprueba la concordancia entre la tabla de
especificaciones previa y el test final
Un ndice de la representatividad podra ser la correlacin entre el peso dado a
cada especificacin y el nmero de tems que la cubren.
3. Validacin de constructo
Trata de garantizar que:
Existe un constructo psicolgico subyacente que da sentido y
significado a las puntuaciones del test (grado en que el sujeto
posee el rasgo o atributo)
El test mide realmente la variable latente que pretende medir
La distincin entre validez de constructo y de contenido es un tanto
artificial: en la especificacin de dominio podemos limitarnos a describir
las conductas (contenido) o establecer una definicin formal que las
relacione (constructo)
Fases de un estudio de validacin de constructo

Definir el constructo de inters a partir de las teoras existentes


Postular hiptesis acerca de la relacin del constructo de inters con una
serie de variables directamente observables, y con otros constructos
Disear un instrumento de medida que cuente con elementos relevantes
y representativos de las manifestaciones observables del constructo
Obtener datos empricos para contrastar las hiptesis acerca del
constructo

Mtodos de evaluacin en los estudios de validacin de constructo


Los ms utilizados son dos y su finalidad es analizar la estructura interna y
externa del test:
Matriz multimtodo-multirrasgo
Anlisis factorial
Matriz multimtodo-multirrasgo (Campbell y Fiske, 1959)
Se intenta medir un mismo constructo mediante diversos procedimientos y
diversos constructos mediante el mismo procedimiento
Se calculan las correlaciones entre todas las medidas obtenidas y se ordenan en
forma de matriz para su anlisis
Si las correlaciones entre las medidas del mismo constructo obtenidas a travs
de procedimientos distintos son altas diremos que existe validez convergente
Si las correlaciones anteriores son significativamente ms altas que las
obtenidas al correlacionar las medidas de distintos constructos con el mismo
procedimiento diremos que existe validez discriminante.
Un problema de este procedimiento es que no existe un criterio estadstico para
tomar decisiones, slo se puede decir que parece haber evidencia de que el
test es vlido o no.
Ejemplo
Supongamos que medimos en una muestra de sujetos 3 constructos:
Razonamiento numrico (RN), Factor espacial (FE) y Razonamiento abstracto
(RA) mediante tres pruebas distintas: Verdadero-falso (V-F), Eleccin mltiple
(E-M) y Frases incompletas (F-I). A la luz de los resultados resumidos en la
siguiente matriz, qu conclusiones podemos extraer con respecto a la validez
convergente y la discriminante? (pginas 317-318 del libro Psicometra: Unidad
didctica de Barbero y cols.)

En la matriz anterior las correlaciones marcadas en:

Azul: representan los coeficientes de fiabilidad


Morado: ofrecen informacin acerca de la validez convergente
Verde: deben ser comparadas con las anteriores para comprobar si
existe validez discriminante

Ejercicio prctico 2
Realiza el ejercicio n: 2 que encontrars en la pgina 340 del libro
Psicometra: Unidad didctica de Barbero y cols.

Realiza el ejercicio n: 1 que encontrars en la pgina 96 del libro Psicometra


de Muiz

Anlisis factorial
Es la tcnica ms utilizada para analizar la estructura interna y externa del
constructo y de sus relaciones con otras variables.
Trata de simplificar un conjunto de variables observables (ej.: tems de un test o
un conjunto de tests) mediante un nmero menor de factores o constructos, a
partir de las intrercorrelaciones entre las primeras
Fases del procedimiento:
Se parte de un conjunto de medidas tomadas de n variables observables (ej.:
tems del test, diversas medidas del constructo y otros constructos) sobre la
misma muestra
Se obtiene una matriz (n x n) con las intercorrelaciones entre todas ellas.
Se aplica alguna tcnica estadstica multivariada para la extraccin de los
factores: anlisis de componentes principales, mxima verosimilitud, ejes
principales...
Interpretacin de los resultados
Cuando en un mismo factor se agrupan (saturan) mltiples indicadores del
constructo se obtiene evidencia de la validez convergente.
Cuando en el anlisis se han obtenido medidas de otros constructos y stas
aparecen agrupadas en distintos factores, se obtiene evidencia de la validez
discriminante.
Ejemplo
Supongamos que realizamos un anlisis factorial a partir de la matriz de
correlaciones del ejemplo anterior. En la tabla se muestran los resultados
despus de la factorizacin donde se pueden observar las correlaciones de los
factores con las variables originales. Cmo podemos interpretar estos
resultados?

4. Validacin referida al criterio


Trata de garantizar la eficacia del test para hacer inferencias acerca del
comportamiento real de los sujetos en una variable de inters externa
(criterio)
A diferencia de los estudios de validacin de constructo se acenta el inters en
el aspecto emprico del proceso ms que en el terico
Es especialmente importante en el mbito de la seleccin de personal.
Tipo de anlisis dependiendo del uso que se da al test
Validez predictiva: grado de relacin de las puntuaciones del test con
las de un criterio externo medido con posterioridad.
Validez concurrente: grado de relacin de las puntuaciones del test con
las de un criterio externo medido en el mismo momento.
Ambas tratan de garantizar la validez del test para pronosticar el posterior
rendimiento de los aspirantes a un programa de formacin, un trabajo, etc.
Fases en un estudio de validacin referida al criterio
Definir claramente el criterio e identificar el indicador/es que vamos a
utilizar para medirlo
Aplicar el test y obtener una medida del criterio a una muestra de sujetos
representativa de la poblacin con la que se va a utilizar
Determinar el grado de relacin entre las medidas del test y del criterio
La seleccin y medicin del criterio
Todos los indicadores son parciales y no ofrecen una comprensin completa del
criterio.
Cmo decidir cul es el ms adecuado? Segn Thorndike y Hagen (1989)
deben ser:
Relevantes
Libres de sesgo
Fiables
Accesibles
Relevante
Un indicador es relevante en la medida en que se corresponde con el criterio
Para apreciar la relevancia es necesario tener en cuenta consideraciones
racionales y apoyarse en los juicios de expertos
Ej.: la talla de calzado no es un indicador relevante en un proceso de seleccin
de personal para un puesto de recepcionista ya que no nos proporciona ninguna
informacin acerca de su desempeo en el puesto

Libre de sesgo
Las medidas del criterio no deben estar afectadas por factores que acten de
forma diferencial en determinados grupos
Ej.: si utilizamos el juicio de un supervisor o un compaero como indicador
puede estar sesgado para determinados sujetos
Fiable
Las medidas del criterio que proporcionen los indicadores han de ser estables
De lo contrario sera imposible encontrar un test capaz de pronosticarla
Ej.: un indicador del xito en un determinado trabajo no puede variar de
manera que una persona sea considerada competente un da e incompetente al
siguiente.

Accesible
A la hora de medir los indicadores los hay que plantean ms problemas
econmicos, de tiempo, etc. que otros
Hay que tratar de seleccionar aquellos que sean ms accesibles siempre y
cuando cumplan los otros requisitos
Procedimientos para determinar la relacin entre el test y el criterio
Un solo test y un slo indicador del criterio: correlacin y modelo de
regresin lineal simple
Varios tests predictores y un slo indicador del criterio: correlacin
y regresin lineal mltiple. Si el criterio es cualitativo se utiliza el anlisis
discriminante y si es dicotmico la regresin logstica.
Varios tests predictores cuantitativos y varios indicadores de
criterio cuantitativos: regresin lineal multivariante y correlacin
cannica. No se utilizan mucho porque los resultados son difciles de
interpretar.
Procedimientos basados en la teora de la decisin: diferentes
mtodos para optimizar las decisiones realizadas a partir del test
(tcnicas maximin y minimax y Teora de la utilidad multiatributo)
Validacin con un solo predictor (test) y un solo criterio
La correlacin (Coeficiente de validez): permite conocer el grado de
asociacin entre el test y el criterio.
Modelo de regresin: permite pronosticar, a partir de las puntuaciones
obtenidas en el predictor (test), las del criterio.
El coeficiente de validez

Correlacin entre las puntuaciones obtenidas por los sujetos en el test


predictor (X) y en el criterio (Y).
Tambin es igual a la correlacin entre las puntuaciones obtenidas en el
criterio (Y) y las pronosticadas con la ecuacin de regresin (Y).
Indica la eficacia del test para estimar el criterio, en la medida en
que el valor sea ms alto la estimacin ser ms exacta
El tipo de correlacin que se calcule depender de la naturaleza de las
variables implicadas.
El resultado siempre oscilar
entre
-1 y 1

Correlacin de Pearson
X=

puntuaciones del test (predictor)


Y = puntuaciones del indicador (criterio)

En las pginas 327-329 del libro Psicometra: Unidad didctica de Barbero y cols., se
encuentran las frmulas de clculo de los distintos tipos de correlacin utilizados para calcular
el coeficiente de validez en funcin del tipo de variables implicadas.

El modelo de regresin lineal


Intenta buscar una ecuacin que ponga de manifiesto la relacin de
dependencia lineal entre el test y el criterio haciendo mnimos los errores de
pronstico.
Mediante la aplicacin de esta ecuacin obtendremos una estimacin puntual
de las puntuaciones de los sujetos en el criterio, a partir de sus puntuaciones en
el test
Para poder realizar predicciones sobre una muestra de sujetos, previamente
debemos calcular los trminos de la ecuacin utilizando las medidas en el
criterio y en el test de una muestra similar
La ecuacin de regresin
Y = a + bX
Donde:
Y= valor pronosticado en el criterio por la ecuacin de regresin

X= puntuacin obtenida en el test predictor


a= ordenada en el origen o trmino constante, que representa el valor
pronosticado en el criterio cuando la puntuacin en el test es 0
b= pendiente de la recta de regresin, que representa el cambio en los valores
del criterio por cada cambio unitario en la
puntuacin del test.
La recta de regresin
Si representamos mediante un diagrama
de dispersin la relacin entre las
puntuaciones del test y las pronosticadas
en el criterio obtendremos una
recta que siempre pasa por el
punto

Errores de estimacin
Error de estimacin (Y-Y): diferencia entre la puntuacin obtenida por
un sujeto en el criterio y la pronosticada mediante la ecuacin de
regresin.
Varianza residual o de error o error cuadrtico medio (S2Y.X):
varianza de todos los errores de estimacin de la muestra.
Error tpico de estimacin (SY.X): desviacin tpica de todos los errores
de estimacin de la muestra.
Error de estimacin (Y-Y)
Con cada sujeto se comete un determinado error de estimacin, es una medida
de error individual.
Estos errores sern menores en la medida en que el coeficiente de validez sea
ms alto.
En el caso en que el coeficiente de validez alcanzara su valor mximo, la
unidad, el valor estimado coincidira con la verdadera puntuacin obtenida en
el criterio.
Varianza residual o de error (S2Y.X)

2
Y .X

(Y Y ')

Es una medida colectiva del error.

Y= puntuaciones obtenidas por cada sujeto en el criterio


Y= puntuaciones pronosticadas mediante la ecuacin de regresin
N= nmero de sujetos de la muestra

Y .X

(Y Y ')

Error tpico de estimacin (SY.X)

Es la raz cuadrada de la varianza de error


Propiedades fundamentales de la estimacin mediante la ecuacin de regresin

Y Y'

La media de las puntuaciones obtenidas por los sujetos en el criterio es


igual a la media de las pronosticadas.
La suma de todos los errores de estimacin es 0, lo que implica que la media
tambin sea 0.

La varianza de las puntuaciones obtenidas en el criterio es igual a la varianza


de las pronosticadas ms la
varianza de residual o de error.

De la ltima propiedad se puede deducir otras formas de expresar el coeficiente


de validez, la varianza de error y el error tpico de estimacin: (ver
demostracin en las pginas 333-334 del libro Psicometra: Unidad didctica
de Barbero y cols.)

Ejercicio prctico 3
Con los datos del ejemplo de la pgina 335 del libro Psicometra: Unidad
didctica de Barbero y cols. comprueba que se cumplen las propiedades

anteriores, para lo que tendrs que calcular previamente el coeficiente de


validez y la ecuacin de regresin.

Principales factores que afectan al coeficiente de validez


Variabilidad de la muestra
Fiabilidad de las puntuaciones obtenidas en el test y en el criterio
Longitud del test
La variabilidad de la muestra
El coeficiente de validez es una correlacin y como tal tiende a
incrementarse a medida que la variabilidad de la muestra aumenta.
Por tanto, para un mismo test predictor y una misma medida del criterio
el coeficiente de validez puede variar de una muestra a otra.
Esto puede ocasionar problemas como el de la restriccin de rango.
La restriccin de rango
En el mbito de la seleccin es frecuente que el coeficiente de validez se
calcule con muestras ms homogneas que aquellas a las que se va a
aplicar en el futuro con fines predictivos.
Tanto si se utiliza el mtodo de validacin predictiva como el de
validacin concurrente el coeficiente de validez suele calcularse sobre
una submuestra seleccionada a partir de las puntuaciones del test u otro
criterio.
En ambos casos el coeficiente de validez queda infravalorado
Basndonos en una serie de supuestos se puede calcular el coeficiente de
validez criterial que se habra obtenido para toda la muestra de aspirantes
Supuestos

XY

S Y r xy s y
SX
sx

La pendiente de la ecuacin de regresin es la misma en el grupo


de aspirantes y en el de seleccionados.

1 R XY s y 1 r xy
El error tpico de estimacin es igual en ambos grupos.

XY

S .r
S .r s s .r
X

xy

xy

xy

Ecuacin para estimar el coeficiente de validez de la


muestra de aspirantes

SX y S2X: desviacin tpica y varianza de la muestra de aspirantes


s2x: varianza de la submuestra seleccionada
rxy y r2xy: coeficiente de validez y de determinacin de la submuestra
seleccionada
RXY: Coeficiente de validez de la muestra de aspirantes
Ejercicio prctico 4
Una universidad utiliza una batera de tests para seleccionar a sus alumnos. Se
quiere conocer la validez de la batera para pronosticar el rendimiento de los
alumnos. Se seleccionan 40 alumnos de entre 300 aspirantes y se calcula la
correlacin entre las puntuaciones en la batera y la nota media del primer
curso: 0,30. Sabiendo que la desviacin tpica de las puntuaciones en la batera
es de 12 para el grupo de aspirantes y de 6 para el subgrupo seleccionado,
estimar cul sera el valor de la validez si se hubiese calculado con la muestra
de aspirantes. (pginas 394-396 del libro Psicometra: Unidad didctica de
Barbero y cols.)

Fiabilidad de las puntuaciones del test y el criterio

Las puntuaciones del test y las del criterio estn afectadas por errores de
medida que influyen en el coeficiente de validez produciendo una serie de
sesgos que hay que controlar.
Spearman (1904) propuso una frmula de atenuacin que permite corregir la
reduccin del coeficiente de validez debida a esos errores de medida.
Estimacin del coeficiente de validez en el supuesto de que:
Se mejorara la fiabilidad del test y el criterio
Se mejorara la fiabilidad del test
Se mejorara la fiabilidad del criterio

XY

r
R

XX '
XX '

XY

r
R

YY '
YY '

En el supuesto de que se mejorara la fiabilidad de test y

criterio

RXY: coeficiente de validez estimado en el supuesto de que se mejorara la


fiabilidad del test y el criterio
rXY: Coeficiente de validez obtenido
rXX y rYY : Coeficientes de fiabilidad obtenidos para el test y el criterio
RXX y RYY : coeficientes de fiabilidad mejorados del test y el criterio

XY

r
r
R

XY
XX '

XY

XX '

En el supuesto de que se mejorara slo la fiabilidad del test

r
r
R

XY
YY '
YY '

En el supuesto de que se mejorara slo la fiabilidad del criterio

Ejercicio prctico 5

Aplicando un test a una muestra de sujetos se obtuvo un coeficiente de


fiabilidad de 0,64. Al correlacionar las puntuaciones del test con un criterio
externo se obtuvo un coeficiente de 0,56. La fiabilidad del criterio resulto ser
0,60.
Cul sera el coeficiente de validez si la fiabilidad del test se mejorara a 0,75 y
la del criterio a 0,64?
Y si slo mejorara la fiabilidad del test a 0,75?
Y si slo mejorara la fiabilidad del criterio a 0,64?
(pginas 396-401 del libro Psicometra: Unidad didctica de Barbero y cols.)

Longitud del test


El coeficiente de fiabilidad del test mejora con el aumento de su longitud
(aadiendo tems paralelos) lo que repercute en la mejora del coeficiente de
validez.
Mediante una frmula derivada de la de Sperman-Brown y la frmula de
atenuacin, para el supuesto de la mejora de la fiabilidad del test, podemos
poner en relacin el coeficiente de validez, la fiabilidad y la longitud del test.
(Ver desarrollo en la pgina 403 del libro Psicometra: Unidad didctica de
Barbero y cols.)

XY

n
1 (n 1) r XX '
XY

RXY: coeficiente de validez estimado al modificar la longitud del test


rXY: coeficiente de validez inicial del test
n: nmero de veces que se aumenta o disminuye el test
rXX: coeficiente de fiabilidad inicial del test
En el caso de que queramos averiguar el nmero de veces que hay que
aumentar o disminuir la longitud del test para obtener un determinado
coeficiente de validez despejamos:
2

(1 r
n R
r R r
XY

XX '

XY

XY

XX '

Ejercicio prctico 6
Supongamos un test de 25 elementos que tiene un coeficiente de validez de
0,60 y un coeficiente de fiabilidad de 0,64. Cuntos elementos habra que
aadirle para obtener un coeficiente de validez de 0,70? (pgina 404 del libro
Psicometra: Unidad didctica de Barbero y cols.)

Ejercicio prctico 7
Contesta a las preguntas conceptuales de ejercicio n 3 que encontrars en la
pgina 341 del libro Psicometra: Unidad didctica de Barbero y cols.)

Вам также может понравиться