Martinez Cap 12

328 Pdcomccria Teora de los rt-sfs psicolgicos y e<luca;ivos
- .-
SUBIECT IDENTIFICATION
WEiHT
SUBTEST
TRIED
RIGHT
PERCENT
ABILITY
S.E.
DOCUA
21
16
0,7619
1 - 0,0610
0,7707
DOCUA
21
II
0,5238
-1,1467
0.6920
1
1.o0
2
1.O0
~ A P ~ T U L1 2O7
LA VALIDEZ DE LOS TESTS
En la columna TRIED indica el nmero de iterns intentados, en RIGHT el nmero

de asertos, PERCENT expresa la proporcin de ,\ciertos, ABILITY la estimacin d e
ML ir la a p b d y SE error tpico de estimacin de la aptitud, que como puede verse es distinto e n cada nivel de aptitud.
En los captulos anteriores se trataron diversos modelos de puntuaciones (!e los

tests que permitan establecer las conexiones entre una puntuacin observada X y una
puntuacin verdadera V. En la TCT se examinaba la fuerza de la relacin lineal. expresada a travs del coeficiente de fiabilidad; en la TG la proporcin de varianza observada explicada por la vananza de las puntuaciones del universch. Cuando el coeficiente de fiabilidad o el de generalizabilidad son altos, puede considerarse que las
puntuaciones verdaderas y las observadas se corresponden. Ahora bien, esta cxrespondencia iio indica que la puntuacin pueda interpretarse como un indicador de la
cantidad del constructo que se pretende iiiedir. En la TRI se obtiene una puntuaciii en
aptitud (8) para cada sujeto y a efectos de interpretacin puede dtscribirse de 'ornia
anloga a la puntuacin verdadera. En s misinas, puntuacin verdadera, puiitu:icin
del universo o aptitud latente no son ms que eii~idadesnuniricas sin signific;v.lo iiitrnseco. Para interpretar la puntuacin de un tcst como una niedida del coiistruc!~)latente (recuerde el lector el proceso de medida descrito en el captulcl 1 eii la figui;i l . 1
y especialmente en la figura 1.2), se necesitan pruebas de su i d i l t 7 . En este capiiulo
explicaremos este concepto y presentaremos dentro de un marco geiicral los di'ei.trites
procedimien~osutilizados en la comprobacin de la validez de las puiituacioncs del
test. En captulos posteriores, explicaremos las tcnicas esladsticas iclneas p m ;iii;ilizar ilgninos de los tipos de validez preseiitndos.
l
I
12.1. El concepto de validez y su evolucin histrico

:
La validez siempre ha sido considerada el aspecto central de la Psicoiiietra

(Angoff, 1988), pero podramos decir sin riesgo de equivocarnos que es tambin el
ms diflcil de definir. lo 9ue ha llevado a una gran ~roliferacinde nombres o etiauetas diferentes para represe'ntarlo, tal como p e d e cohprobarse en la relaci6n exhaistiva que hace Messick (1980).
Captulo 12. L a validez de los tests
Como con otros muchos conceptos de la Psicologa, una breve revisin de la evoluci6-n histrica del trmino. puede ayudamos a aclarar el significado del concepto,
que ha cambiado considerablemente en los ltimos 40 aos (Angoff. 1988).
Convencionalmente la validez se define como "el grado en que un test mide lo
qucpretende medir'. definicin que no ha cambiado si la comparamos con una de las
definiciones antiguas. como la de Garren: " l a validez se refiere al grado en que un
test o un conjunto de operaciones mide lo que dice medir" (1 937, p.324). El problema
se encuenha a la hora de operacionalizar dicho grado de relacin y es ah donde ha
habido una gran evolucin histrica.
Durante muchos aos prim6 una aproximacin pragmtica, empfrica, e incluso
atenca, motivada por la perspectiva utilitaria de las aplicaciones de los tests y el operacionalismo dominantmn la filosofa de la cicncia. Una breve revisin de las principales definiciones de validez dadas antes de 1950, nos confirmar esta impresin. As,
Bingham define la validez cn trminos puramente operacionales como " l a correlacin entre los pi~ntrracionesde un test y o1,pririu otra medida objetiva de lo que el test
in!ento medir" (1937. p.2 14). Guilford la define de un niodo muy similar: "de una
forma muy general. un tesr es vlido para aqtrello con lo que correlaciona" (1946,
p.49). Cureton (19-50) tambin define la validez como la correlaciri entre las puntuaciones observadas del test con las verdaderas del criterio, pero ya introduce algunos matices tericos. distinguindola del poder predictivo del test, al que considera
como correlacin entre puntuaciones verdaderas y observadas del test y del criterio;
diferenciando este a su vez de la relevarrcia. a la que define como correlacin entre
puntuaciones verdaderas de ambos. En la prctica, y tal como seala Angoff (1988).
fue el uso de la validez en su sentido predictivo la que domin la escena psicomtrica
hasta los aos cincuenta y cita como ejemplo el ambicioso programa de la Air Force
A~iarionPsycliolo,py g?. F l a n a p , 19-18).
Durante este mismo periodo se fue introduciendo otro tipo de validacin por critenos. la valide: coricirrrenle IAPA: XERA. 1954), considerada como la correlacin del
test con un criterio. difiriendo de la concepcin predictiva anterior en que la recogida
de las puntuaciones d e ambos se realizaba simultneamente. Desde este punto de vista. se aceptaba como evidencia de la validez de un test la correlacin de ste con alguna d i d a aceptable del raspo en cuestin.
Oa caracterstica distintiva de la aproximacin con~elacional(correlacin testa-irerio) fue el uso de criterios conductuales y la conceptualizacin de los criterios en
rrminos de conductas observables.
Pronto se vio que esta comxptualizacin de la validez ligada a criterios extemos resultaba demasiado restrictiva, y3 que, aunque directamente aplicable en contextos de seleccin con finalidad esmcialmnte predictiva, no serva para otros muchos tests en 10s que
ellas mismos constitu>.en su propio criterio. como es el caso de los tests de rendimiento,
competencias, trastornos de conducta. etc. Esto llev a una primera ampliacin del conL T ~ O& validea definida ahora adems como "el grado en que su contenido representa
una niunrm sufu$actoria del dominio". apareciendo el concepto de validez de contenido.
Cm tipo de validez que fue popular durante los aos cuarenta fue el de validez
aporenie (Mosier. 1947), aunque nunca se le concedi mucho inters terico en la
Psicanetda
33 1
Un cambio importante fue el introducido en los Standards for Psychological urid

Educational Tests (APA, AERA, 1954), en los que se habla de 4 aspectos de la validez: contenido, predictiva, concurrente y de constructo, introduciendo esta ltima por
primera vez como un nuevo tipo. Los Standards de 1964 y 197 1 combinarori la concurrente y la predictiva en validez referida al criterio.
No fue casual que los Standards hablasen por primera vez de la validez de constructo, ya que L. J. Cronbach fue el presidente del Comit y Meehl uno de sus mienibros y al ao siguiente apareci el importantisimo artculo de ambos autores
(Cronbach y Meehl, 1955) sobre la validez de constructo y comienza a percibirse sta
como el aspecto fundamental e inclusivo de los restantes aspectos de la validez. La
concepci6n terica del constructo dicta la naturaleza de los datos a recoger para la validacin y la interpretacin de las puntuaciones. A su vez, los datos resultantes del estudio de validacin se usarn para validar, revisar o rechazar la teora misma. En este
sentido, ya Gulliksen (1950) hablaba de la validez intrinseca, segn la cual se postula
la existencia de constructos alternativos y se examinan los datos de varias medidas.
estudiando sus patrones de covariacin Desde el punto de vista de Cronbach y Meehl.
todos los datos que provienen de la teora son tiles para la validez de construclo: distribuciones de grupos, matrices de correlaciones internas (de items) y externas (de
tests), criterios extemos, datos de desarrollo y cambio, anlisis de contenidos, etc.
Dentro de esta nueva concepcin, parece obvio que la validez no puede expresarse por
un coeficiente nico, sino que requiere muchas lneas de evidencia, no todas cuaniiiativas. Todas las medidas que proporcionen datos que puedan considerarse expresiones
comportamentales del constructo, incluyendo tanto tests como criterios, pueden usarse
en la validacin de coristructo.
La validez de constructo tuvo un importante avance metodolgico pocos aos despus con la aparicin del artculo de Campbell y Fiske (1959), en el que ofrecieroii
pruebas conceptuales y empricas para la validacin de constructo, basadas en rnetlidas correlacionales, y diferenciando dos importantes tipos de evidencia de la vdidez
de constructo: validez convergente y validez di.rcriniiriari~e.
La triple clasificacin de la validez tuvo consecuencias toricamenie no deseables
ya que fue interpretada por los autores y us~iariosde los tests en el sentido de que los
tests podan validarse por medio de uno o ms de los tres procedimientos gener;ilrs.
Ademds comienzan a proliferar las denomiiiaciones de validez con nombres ligados n
los procedimientos empricos utilizados en su determinacin. Se haca necesario dc
nuevo la revisin del concepto desde una perspectiva integradora y unificada.
Aunquy no podemos olvidar los esfuerzos de otros autores en este sentido
(Cronbach, 1982, 1984, 1988; Guion, 1977, 1980; Loevinger, 1957; Tenopyr, 1977),
un autor con una significacin especial en la integracin del concepto de validez fue
Messick (1975, 1981. 1988, 1989), que integra las diferentes aproximaciones a la validez dentro de la validez de constructo.
La conclusin de todos estos autores es que hay una nica validez, la validez de
constmcto. tal como se refleja en las palabras de Messick: "la validez de construc~o
es el concepto unificador de validez que integra consideraciones de contenido y de
criterio, en un marco general para probar hiptesis racionales acerca de relaciones
tericamente relevantes" (1980, p.1015). Afiade adems que la validez representa la
332 Psicomcwa: Teoru de los rcsrs psicoldgicos
Caprulo 12: La validez de los rests
y educativos
interpretacin de los tests basada en la evidencia proporcionada por sus puntuaciones.

Messick seaala en el mismo artlculo que la validez de contenido mostrarla la relevancia & los conienidos y las valideces predictiva y concurrente, seran utilidadpredictiva y urilidad e n el diagnstico, respectivamente. Messick (1980) sugiere que algunas
de las otras formas de validez referidas en la literatura psicom6trica: convergente y
discriminante- predictiva y concurrente, factorial, etc., sern consideradas estrategias
de disero y ck. anlisis de datos. utilizadas para probar las conexiones conceptuales
entre la medida y el constructo.
Como puede observar el lector a partir de esta breve exposicidn hist<)rica, los trabajos que siguieron al artculo conceptual de Cronbach y Meehl. tuvieron un importante papel ~Uarificadordel concepto y de los procedimientos de la validez. Cuando
deseamos medir una chcterstica psicolgica de los sujetos, en primer !ugar se define sta y a continuacin se establecen operaciones diseadas para proporcionar descripciones cuantitativas del grado en que un individuo la posee o manifiesta. Una
cuestin fundamental que debemos planteamos es el grado en que las propiedades
medidas por dicho co~rjrcirtode operaciones se corresponden de hecho a lo caracterstica &tinida -i. son apropiadas para las infeivircias y acciones basadas eii las puntuacionrs de los rcsrs. Es decir. antes de aceptar un conjunto de operaciones para la medida & un r a s p . es necesario saber si miden lo que pretenden medir y cuhles son las
consecuencia' potenciales de la interpretacin de las puntuaciones.
Es impownie destacar. como hace Messick (1989) que la validez es una cuestin
de gndo y que no es definitiva. pudiendo ser modificada por nuevas evidencias, consecuencias sch-iales potenciales. etc: es decir, la validacin de un test es un proceso
continuo. n u m a acabado.
Esu pers-ctivn unilicadora de la valide^ aparece recogida en los Standards for
,,
\ E(/IICJI~OIIUI
r;nd Psylrolopical Testiirg (APA. AERA, 1985) que dan la siguiente defii,nicih de la alidez: "ln \dide: se rvfieiu u Itr orlec~~ocirjii,
sigilificaciArr y utilidad de
\las inf'rerrciw esl~ec(/icosheclros ( 1 par.tir (Ir los prrrltrracioires de los tests ... una gran
~ w i t d u d<Ir r,~frr.crrc.ic~.s
prrcdeti Iroccrse o prir.lir de las plrnnrociones de irii determinado test y /I(IF nlr~clrus~ ~ J I . I I I < de
I . C (rcrrr)~rrI(tr.
eiv'(lcriciuqrre sop:wteir Irira irfciriicia particiilar: Lo i.aldr:. iro oh.sl(rtite.es lrrr coilcepto r~rritwioy sienilwe se i.ejiwe al grado en
que Id eiqidemi.iasoporr<ilas irlffiv~~ci(rs
hecliu~desde los ~ I I I I I I I U C ~ O ~ los
I ~ Stests. Se
i d i h las itfc.rcwius /)(irapir~pdsilosesp~~citrles.
no el test nrismo... Liricl ididacin
iclral inclr-e i w i o s 1il)os de ei.i(lerrcio.qrre c~orrrpreirtleirlos trrs tradicionales (contenido. mnstrrrcw 3 critrrioi... Los jrricios prnj'esiorroles guior.ir los decisiorics respecto a
los ~ i d e n c i a qnis inipor-/anteso lo Irr: del rtso prrtendido del test" (p.9).
Son mltiples las preguntas a las que intentan dar respuesta las puntuaciones de
los tests e i n m m e n t o s de medida psicolgica y tambin mltiples las fuentes de evldencia para la validacin. pero la validez es un concepto unitario, que siempre se mfiere al grado en que la evidencia emprica y las bases tedricas soportan la adecuacin
de la interpretaciones y acciones basadas en las puntuaciones de los tests.
Esta nueva definicin & la validez tiene importantes implicaciones. En primer lugar. debemm destacar el Cnfasis en las puntuaciones' y no en los tests o instrumentos~
ya qne estos oo tienen fiabilidades ni valideces, nicamente las tienen las puntuaciones -&ivadas d e ellos.
,
l
i1
&;. $
333
En segundo lugar, y como sucede con la fiabilidad que no es de un test "per se",
sino de unas medidas que representan a las puntuaciones verdaderas, y que en la perspectiva de la TG depende del objeto y de las facetas, los tests o instrumentos tampoco
tienen una validez, sino que utilizamos las puntuaciones de los tests para un propsito
particular, para hacer inferencias concretas; por tanto, diferentes tipos de inferencias
de las puntuaciones de los tests pueden requerir distintas evidencias, es decir, datos,
hechos, justificaciones racionales distintas, que ciinenten las inferencias extradas de
las puntuaciones. En otras palabras, suponiendo un conjunto de preguntas especficas
a las que el psicdlogo pretende responder usando el instrumento de medida, hasta
qu. punto son adecuadas las respuestas proporcionadas por las puntuaciones de los
tests? La ventaja de esta definicin es que liga la validez a unas necesidades especficas. Podemos buscar en el contenido del test, con relacin al dominio o contenido de
referencia; podemos examinar los procesos que subyacen a las respuestas a los items
del test; podemos preguntarnos acerca de la relacin entre las puntuaciones de los
tests y otras medidas externas. Estas variedades de evidencia no son alternativas, sino
complementarias. Desde este punto de vista es desde el que suele hablarse de tipos cle
validez. Por ejemplo, hasta que punto es til un test para predecir el xito en un puesto de trabajo?; Les vlido el test para determinar el nivel de conocimientos de un sujeto adquiridos en un curso?; hasta que punto el test mide el grado de sociabilidad del
sujeto?... Puede haber docenas de preguntas similares y los metodos usados para responder a ellas pueden diferir. La naturaleza de la validez vara en funcin de la cuestidn especfica considerada. Un procedimiento de medida puede resultar sirniili'aneamente vlido e invlido; es decir, sus puntuaciones pueden ser vlidas para deterrninados usos o inferencias, pero no para otros.
En tercer lugar, mientras quc la fiabilidad de una puntuacin observada dcrivntl~i
de un procedimiento de medida, puede describirse nuiiiricainente por medio tlc iiii
coeficiente de fiabilidad, error tpico de medida o una funcin de informacin, la validez no puede resumirse de forma adecuada por un ndice nuiiirico; no hay ti11 nico
coeficiente de validez. Los diversos estadsticos denominados coeficietites (le ~~rlidez
descritos en los manuales de los tests, trabajos de invesiigacin. eic., son descripiores
numricos de lafirerza o grado de algunas de las evidencias empricas de la validez.
Finalniente, puesto que la validez es el grado de adecuacin de las piiriiiiaciones
de un test para un uso particular, la i~1lirlrrcir5irde los tests es el proceso dc :iciiiiiul:icidn de pruebas y evidencias que soporten dichos usos e inferencias. El proceso tle validacin puede estar formado por muchos subprocesos independientes.
Ep resumen, y como seala Cronbach (1984) "la metlifiiial de la validocidir rs lo
explicacidn y la con~prensiiiy por toiito sto nos lleva a coiisiderni. que lodo ~~nlidacin es i~alidaciirde constrircto" (p. 126). En la misma obra Cronbach destaca que las
tradicionales tres formas de validez no pueden considerarse alternativas, sino esirategias de investigacin diferentes.
Otra consideracin importante que tiene que ver con la validez es la de las consecuencias sociales del test, ya que el uso de los tests est generalizado en todos los mbitos de la vida cotidiana y en este sentido, Cronbach (1988) seala que "...debeligar
conceptos, evidencia, consecuencias sociales y personales y valores ... y los validadores tienen la obligacin de revisar si una prctica tiene o no las consecuencias apro-
334
Caprulo 12: La validez de los resrs
;?ricometrla: Teora de los tests psicolCgicos y ediccutivos

.
''..---
p i a h s para individuos e instituciones, y especialmente evitar las consecuencias adversas" (p.6).

Estas ltimas consideraciones han llevado a considerar como parte del proceso de
validacin otros aspectos hoy muy importantes en la Psicometra, tales como el sesgo
de los item y de los tests.
De todo lo anterior se deduce, tal como seala Messick (1989) que el proceso de
interpretacin de los consmctos sita a las puntuaciones de los tests tanto en un contexto te6rico de relaciones implicadas con el constructo y otros consmctos, como en
un contexto de valores. Las pruebas empricas del primer tipo de relaciones contribuyen a poner las bases evidenciales para la interpretacin de los tests: las valoraciones
del segundo tipo proporcionan las bases consecuenciales para la interpretacin de los
tests. As pues, en palabks de este autor, la validacin de los tests radica sobre cuatro
bases, presentadas en la tabla 12.1.
TABLA 12.1. Facetas
335
facetas diferentes y se basa en diseos y anlisis de datos distintos, las abordamos por
separado. Presentamos a continuacin una breve definicin de cada una de estas categoras, antes de pasar a considerar cada una en detalle:
/o)
Validez de contenido, que expresa el grado en que el contenido de un test

constituye una muestra representativa de los elementos del constructo que pretende evaluar.
b) Validez relativa a un criterio. En situaciones en las que el usuario del test desea extraer inferencias acerca de algunas conductas en situaciones reales y de
importancia prctica. Expresa las relaciones del constructo con otros constructos. operacionalizada normalmente en trminos de correlaciones y regresiones
del test con otras medidas.
c ) Validez de constructo. Cuando el usuario del test desea hacer inferencias acerca de conductas o atributos que pueden agruparse bajo la "etiqueta" de un
constructo psicolgico particular. Integra toda la evidencia que permite la interpretacin de las puntuaciones de los tests.
de la validez de un test.
Interpretacin
del test
Uso del test
Bases de evidencia
Validez de Cons~nicto
Validez Consiructo +
RelevanciaAJtilidad
Bases de consecuencias
lrnplicaciones de valor
Consecuencias sociales
Estas cuatro bases son 1) resumen inductivo de la evidencia convergente y discriminante de que las puntuaciones del test tienen una inierpretacin de constructo, 2)
evaluacin de las implicaciones de valor de la interpretacin del test, 3) evidencia de
la relevancia del constructo y de su utilidad en aplicaciones particulares y 4) estimacin de las consecuencias sociales potenciales del uso propuesto del test y de las reales cuando se usa.
Una distincin similar entre interpretacin y uso fue establecida ya por Cronbach
(197 l), cuando diferenciaba entre uso del test para describir una persona y para tomar
decisiones acerca de ella.
A continuacin presentamos las categoras de la validez. siguiendo el esquema
tradicional. que como.hemos visto encaja dentro del marco unificador: contenido, criterio y consmcto. Las tres son aproximaciones a la dimensin "bases de evidencia"
de la tabla La segunda dimensin, aunque muy importante, no ser abordada aqu,
pues est ms ligada a otras materias como Evaluacin Psicolgica, Diagnstico, etc.
Unicarnenta trataremos ciertos aspectos estadsticos bajo el captulo "Evaluacidn del
funcionamiento diferencial de los i t e m y tests".
Insistimos de nuevo en que estas hirs categoras o aproximaciones a la validez son
diferentes w c t o s de un nico concepto y que todas ellas se aglutinan bajc la validez
de constructo. No obstante, por razones didcticas e hisdricas, como cada una aborda
Cuando se selecciona un test para un propsito particular, el usuario debe tener

claro el tipo de validez que es adecuada para dicho propsito. Diferentes tipos de validacin soportan diferentes tipos de inferencias, que no son intercambiables. Adems,
para ciertas inferencias, son necesarios varios tipos de validez. No obstante. la validez
de constructo subsume la relevancia y representatividad de los contenidos, as como
las relaciones con los criterios, ya que nnibas dan significado a las puntuaciones de los
tests (Loevinger, 1957; Messick, 1980, 1989).
A continuacin se presentan estas categoras de la validez insistiendo en las preguntas a las que pretende responder cada una. En captulos posteriores se iraiarn las
tcnicas de diseo y de anlisis de datos especficas.
12.2. Validez de contenido

12.2.1.Concepto
.
l
,I
Convencionalmente, la validez de contenido se define en trminos de la adecuacin muestra1 de los items de un test. en cumto muestras de un dominio mis amplio
de items representativos del constructo/conducta. El propsito de un estudio de validacin de contenido ser pues establecer el grado en que el conjunto de items del test
representa adecuadamente un dominio de conductas de interks especfico. Por ejemplo, en un test de vocabulario, el usuario raramente estar interesado en el conocimiento por parte del sujeto de las palabras concretas del test. Suen (1990) considera
insuficiente esta definicin, ya que no tiene en cuenta la posibilidad de la medida con
facetas mltiples (como la hace la TG) y da una definicin ms generalizada como
.-
336
Psicometria: Ttora de los restspsicoldgicos y educativos
Captulo 12: Lo validez de los tests
337
"tipo de evidencia que apoya el uso de muestius de los niveles de las facetas como
adecuadas y 1 epresentativas del universo".
Histricamente, la nocin de validez de contenido ha sido conceptualizada de tres

formas distintas, aunque relacionadas, influidas por el paradigma dominante de la
Psicologia: grado en el que el contenido del test representa una muestra adecuada del
contenido del dominio de inters (APA, 1954, 1966); grado en el que las conductas
exhibidas en el test constituyen una muestra representativa de las conductas del dominio (APA, 1974); grado en que los procesos empleados por los sujetos para llegar a la
respuesta son tpicos de los procesos subyacentes a las respuestas del dominio (APA,
1985).
En la priictica, la validacin de contenido supone el examen sistemltico del contenido del test. para determiliar si es una muestra relevante y representativa del dominio comportamental que se pretende medir. La APA en los Standards de 1985 seala
que los mCtoJos clasificados en la categora validacin de contenido suelen estar interesados en el constructo que mide el test, asl como en el cvntenido del mismo, por lo
que reconoce la dificultad de separar la validez de contenido de la de constructo. Este
procedimiento de validacin se usa normalmente con los tests de rendimiento, diseados para medx el grado en que los sujetos dominan alguna destreza particular o temas
de estudio. Podramos suponer que la mera inspeccin del contenido del test bastana
para establecer su validez para este propsito, sin embargo, no es tan simplc como parece. La principal dificultad es determinar qu representa un muestre0 adecuado de
los items del dominio. El dominio de conductas a evaluar debe ser sistemticamente
analizado para estar seguros de que todos sus aspectos importantes estn cubiertos por
los items del test y'en las proporciones adecuadas. Por ejemplo. un test puede estar SObrecargado en aquellos aspectos para los que es ms flcil la redaccin de items objetivos. El dominio bajo consicleracin debe ser completamente descrito de antemano, antes de la construccin del test e incluir todas las dimensiones, facetas y objetivos
principales.
Es impo~antedestacar que bajo la validacih de contenido hay dos aspectos de
las muestras: la relevancia y la representatividad (Messick, 1975). Los iteins del test
deben ser relevantes para el uso que se dar a las puntuaciones y representativos del
dominio de iwms de interbs. Una puntuacin es relevante para el uso pretendido cuando todos los items del test estn dentro del domiiiio de inters. Por ejeniplo, si el objetivo de un test es evaluar la ciipricidad mateiiiiica general de los sujetos. todos 10s
items deben ser de maten~ticiis.Sin eiiibago, si el test pretende medir los conocimientos de un sujeto despus de un curso de matemticas, solamente los iteins relacionados con los objetivos del curso sern relevantes. Una vez demostrada la relevancia, puede tenerse confiaiizii en la validez de contenido de la inferencia si puede demostrarse adcrns que los items constituyen una muestra representativa del universo 0
dominio. El concepto de representatividad hace referencia a que los items constituyen
una muestra aleatoria del universo, pero esta definicin es poco realista, ya que no
existe un marco muestrnl, ya que el universo entero de items no es identificable Y una
interpretacin ms prctica de la representatividad es que "los items represcrltan 0 reproducen las caracterfsticas esenciales del universo en sus proporciones" (Lennon*
1965).
En la validacin de contenido deben seguirse las siguientes fases:
1) Definicin del universo de observaciones admisibles.

2) Identificacin de expertos en dicho universo.
3) Juicio de los expertos acerca del grado en que el contenido del instrumento es
relevante y representativo de dicho universo, por medio de un procedimiento
estructurado que permita emparejar los items con el dominio.
4) Un procedimiento para resumir los datos resultantes de la fase anterior.
En una primera fase se establecen las e.specificaciones del test, con arreglo a las
cuales se coristruirn los itenis. Estas especificaciones mostrarn:
- reas de contenido que se deben cubrir.

- Objetivos instruccionales (en los tests educativos).
- Procesos que se evaluarin.
- Importancia relativa de los diferentes tpicos y procesos.

Una forma conveniente de establecer estas especificaciones es por medio de una
tabla de doble entrada con los procesos en las columnas y los tpicos en las filas. No
todas las casillas de la tabla necesitan tener items, ya que algunos contenidos pueden
ser irrelevantes para ciertos procesos.
La validacin de contenido suele eniplearse fundamentalmente con tests educativos y en ocasiones con la evaluacin coiiductual; raramente se utiliza para la niedida
de rasgos o atributos cognitivos o afectivos. El procedimiento habitual para la definicin del dominio suelen ser listas de objetivos de instruccin o de categoras tle conductas, aunque tambiEn pueden ser faceias de un rasgo o atributo.
Adems de seguir las fases anteriormeiitc sealadas. en la planificacin tic un cstudio de validez de contenido es preciso ioiiiar las siguientes decisiones prdciic;is.
1) i S e pntrdei.ardti o i r 1 1 los ohjeliws. ctrle,qorus,c~tc.?El piocetlimieiiio iiis comn es asumir que todos tendrn el iiiistiio peso, no obsianie. a veces no ser as. especialmente en los tests de reiidimientos acadiiiicos, doiide no todos los objciivos
t e n d r h el niismo peso. En estas ocasioiies. se pide a un conjunto de jueces que asignen pesos a los distintos objetivos.
2) E s l i w t ~ r r ade la lureo de em/~ui~rjuri~ien~o

ilems-ohjeliiws. Existen varios procedimientos para realizar esta tarea. El procedimiento ms comn es dar a los jueces
una lista de objetivos (categoras, facetas; etc.) -y presentarles
cada item en una ficha
.
separada; el juez compararcada item con la lista y registrar el resultado en una hoja
de respuestas, indicando al lado de cada item el nmero del objetivo. Generalmente el
emparejamiento se registrar como una dicotoma. Hambleton (1980) propone una es-
338
Psiconienia: Teora de los tesis psicol6gicos y educativos
Captulo 12.'Lo vulidez de los lests
cala de 5 puntos para expresar el grado de emparejamiento, en la que 1 indica un mal

ajuste y 5 uno excelente. Se calcula la media o mediana para cada item en los diferentes jueces y este resumen global indicar el grado de emparejamiento entre item y objetivo.
El valor ms alto posible de congruencia del item es 1,00, y slo puede alcanzarse
cuando un item es emparejado solo a uri objetivo por todos los jueces.
El porcentaje de objetivos no cubierto por un conjunto dado de items es un ndice
de hasta qu punto el dominio entero de contenidos est representado por los items.
Aunque la validacin de contenido es esencialmente un proceso de juicio, algunos
autores siigieren utilizar tcnicas estadisticas para resumir cuantitativamente la evidencia de la validez de contenido. Nunnally (1978) y Tucker (1962) sugieren usar
anlisis factorial y Bohrnstedt (1970) el anlisis de conglomerados. En la prctica, se
utilizan los procedimientos de juicio antes sealados.
3 ) Aspectos del item que sern c.xaminados. A los jueces se les presentarn descripciones claras de las caracteristicas de los items y del dominio que tienen que considerar. Algunas frecuentes son: la materia, proceso cogiiitivo, nivel de complejidad
de la respuesta requerida, modo de respuesta, formato de presentacin, etc.
4 ) Resunien de los resultados. Normalmente en la validacin de contenido, las
decisiones son ms cualitativas que cuantitativas; no obstante se han propuesto alguresumir las decisiones de los jueces sobre los items. Los
nos ndices cuantitati~o?~ara
ms frecuentes son los siguientes:
12.2.3. Pt~blemascon la validacin de contenido
Un problema de los procedimientos propuestos anteriormente es que, aunque es

posible que todos los items se ajusten a los objetivos, stos pueden no representar adecuadamente el dominio de rendimiento para el que se escribi el test. Cronbach
(1971) propuso un mtodo para eliminar este problema denominado el experimento
de la construccin duplicada. Dos equipos independientes reciben la misma definicin del contenido, reglas de muestre0 del dominio y criterios para la interpretacin
de los datos. Se pide a cada equipo que desarrolle un test para un dominio especificado. Una vez desarrollados los dos tests se aplican al mismo conjunto de sujetos y se
calcula la media de las diferencias al cuadrado en sus puntuaciones en los dos tests.
Desde la TC'C, tericamente, las dos formas deberan ser similares y:
a i Porcentaje de items que se emparejan a los objetivos.

bi P o ~ e n t a j ede items que se emparejan a objetivos con una elevada calificacin
media.
ci Correlacin entre el peso dado al objetivo y el nmero de items que miden el
objetivo.
d i fndice de congruencia item-objetivo
e / P o ~ e n t a j ede objetivos no evaluados por ninguno de los items del test.
Puesto que los diferentes lndices estin basados en diferentes lgicas, no suelen
llevar a las mismas conclusiones acerca del grado de ajuste entre un conjunto de items
y un dominio de contenido.
Los dos primeros ndices requieren un iimero de items elevado (100 o ms). El
tercer ndice est afectado por la varianza en el nmero de items que evalan cada objetivo y los pesos.
El cuarto indice descrito por Hambleton y Rovinelli (1977) puede usarse para evaluar el grado en que un item tiene validez de contenido para un conjunto de objetivos.
La frmula se basa en el supuesto de que en el caso ideal, un item se emparejar a un
solo objetivo del conjunto. En la recoleccin de datos se le pide al ji~ezque empareje
cada item con cada objetivo y le asigne al itein + 1 si mide el objetivo. O si no lo hace
y - 1 si no est seguro. El ndice de congrueiicia del item al objetivo se calcula mediante la frmula:
[12.11
don&: N: nmero de objetivos

pit: media de los jueces para el item i y el objetivo k
p,: media de los jueces para el item i en todos los objetivos
339
Una medida de la similaridad de los dos tests la da la razn de los dos trminos de
la igualdad anterior, sustituyendo las varianzas error por sus estimadores:
A medida que la razn se aproxime a 1, ms similares sern los dos tests.

J
A veces la validez de contenido se confunde con otros trminos que representan

otros rasgos del test, tales como la validez aparente, validez curricular y validez instruccional.
La vulidez aparente no representa forma alguna de validez en sentido tcnico; se
refiere no a lo que el test mide, sino a lo que superficialmente parece medir. Este aspecto es deseable en algunos tipos de tests. Anastasi (1988) habla de que cuando tests
normalmente utilizados con nios se aplican a adultos, Cstos normalmente expresan
crticas, resistencias y escasa motivacin a causa de su falta de validez aparente. Si el
340 Psicomerra: 7 eorfo de los resrr psicol6gicos y educarivos
Caprulo 12: Lo validez de los resrs

<.
contenido de los tests resulta irrelevante, sin sentido, infantil. etc., el resultado ser6
una pobre cooperacin por parte de los sujetos.
Nevo (1985) insiste en la investigacin sobre la validez a.parente dada su importancia en las actitudes hacia el test y propone tcnicas cuantitativas de evaluacin pidiendo a potenciales examinandos y otras personas no expertas en Psicologfa que evaIen lo adecuado de los items del test para la finalidad pretendida.
La validez aparente puede a veces mejorarse reformulando los items del test a
otros ttnninos que parezcan relevantes a la situacin particular.
En ocasiones no es deseable que el test tenga validez aparente. ya que los sujetos
pueden intuir fcilmente lo que pretende medir el test e inducirles al falseamiento de
las respuestas.
La validez c u r r i c u k r se refiere al grado en que los items son relevantes para los
objetivos del curriculum tal como son formal u oficialmente descritos. La validez instruccional indica si los profesores han proporcionado instruccin en los contenidos y
destrezas medidos por los items del test.
34 1
El criterio suele ser una variable o caracterstica de inters reafi(p.ej. rendimientos

acadmicos, rendimientos laborales, duracin y10 xito de una terapia, predjs-n. de
u ~ o ~ n d ~ c _ t a d e - n ~ gEn
~ ,estos
~ ~ tcasos
~ . ) . el test es de inters solamen&n la medida en que sus puntu ciones correlacionen con el criterio y puedan considerarsc un
buen sustituto de st$El cr/terio es una medida directa e independiente de lo q i e el
test intenta predecir o inferir.,Por ejemplo, para un test de aptitud mecnica, el criierio
puede ser el rendimiento posterior de los sujetos como maquinistas; para un ii:st de
aptitudes escolares, el criterio pueden ser las notas; para un test de neuroticismo. pueden ser otras informaciones o diagnsticos disponibles acerca de los sujetos.
Antes de usar las puntuaciones del test para tomar decisiones, debe existir un!! evidencia de que hay una relacin entre las puntuaciones del test y las del criterio. E;te tipo de evidencia se obtiene a travCs de unestudio de validacin~referida a ~ r i oi i t t ~ t ~ i .
El diseo general de un estudio de validacin referida a un criterio sigue los siguientes pasos:
12.2.4.Aplicaciones (le la volidet de contenido
Aunque la validez de contenido es importante para todos los tipos de tests, es absolutamente necesaria en la valoracin de los tests de rendimiento educativo y ocupacional, ya que permite responder a las dos cuestiones bsicas sefialadas al principio, la
relevancia y le representatividad:
1) Identificar un criterio relevante y un mtodo para medirlo.

2) Identificar una muestra de sujetos representativa de la poblacin en la que ser
usado el test.
3) Administrar el test y obtener una puntuacin para cada sujeto.
4) Cuando hay datos disponibles del criterio, obtener una medida de Cste para cada sujeto. Si no hay datos del criterio en el momento en que se aplica el teit.
dejar transcurrir un tiempo y recoger despus los datos del criterio.
5 ) Determinar el grado de la relacin o asociacin entre el test y el criterio.
12.3.2. La tcmporulidad del c.i.itci%~

Es especialmente importante para los tests referidos al criterio: que describiremos
ms adelante. ya que es el principal requisito para su mlidacin.
Tambin suele aplicarse a niuchos tests ocup;icionales diseadcs para la seleccin
y clasificacin de empleados, especialmente cuando el test represciita una iiiuestra de
tareas en el puesto de tr;ibajo e intenta poner (le relieve las destrezds y conocimientos
requeridos para el puesto. En estos casos, debe realizarse un delallado anlisis de
puestos p a n justificar el parecido en!re las actividades del puesto y el test. Ejemplos
de la aplicacin de esta tcnica pueden encontrarse en Schoenfeldt, Acker y Perlson
(1976) y Primoff y Eyoe (1987).
12.3. La validez referida a un criterio
- (..#
\c
N / -
12.3.1. Concepto
(' En muchos casos el usuario de un test quiere hacer inferencias de las puntuaciones,
del test a la conducta del sujeto en algn criterio de rendimiento externo al propio test.?
La evidencia relacionada al criterio suele considerarse desde dos perspectivas distintas, una en trminos de reliiciones predictivas y la otra concurrentes. que iiicitleii eii
el diseo de la recogida de los datos eii cuanto al momento de recogida.
La validez pirdictiva se refiere a1 griido en que las puntuaciones del iesi picdiceii
medidas del criterio tomadas posterioriiiente. es decir, los conductiis t'iituii~sdel s:.jc(c)
en el criterio.
refiere al grado en que I;is putitunciones del test correlaLa volic/et~concrri~~~e~~te)se
cionan con las del criterio, medidas al iiiisnio tiempo, es decir, con la sitii:icicii iiciii;il
del individuo en el criterio.
f L a a d e e de una uotra f o m ~ d rel;icin.&p~nde!~
e
I;i funciii o propsito
d&est:
seleccin, clasificacin, rendimiento e n una materia, certificaci6n o djign6stico para la intervencin, La validacin concurrente no es simplemente un sustituto f i D w d i c t i v a , como se consider durante mucho tiempo, sino que para algunos usos del test es el procedimiento adecuado.
En las decisiones de seleccin, las personas son aceptadas o rechazadas para un
tratamiento (puesto de trabajo, escuela, programa de formacin, etc.). En las decisjones de cIagificaci6nhay-dos o ms categoras o tratamientos y todas las personas son
asignadas
a una categora
Cuando los tratamientos alternativos representan unz se-- ---..-.-. d
- -L
Coprulo 12 La volider de los ~ c s r s 343
y educulivos
312 Psicomeirlo; Teoria de los i ~ ' s r spsi<i~l~icos
- ."
1) Sesgos en el criterio, que incluye problemas como la contaminacin con

otros factores, varianza irrelevante para el constructo, desigualdad de las unidades de
la escala, combinacin inadecuada de subcriterios, etc., Messick (1989) seala que
todos estos problemas pueden considerarse bajo la etiqueta general de "uirrhuci(jn
inadecuada de pesos o ponderaciones". As, c m un criterio contaminado se dan pesos positivos a elementos que deberan tener un peso de cero; en la desigualdad de
las unidades de la escala se asignan pesos diferentes a distintas partes del continuo
del criterio; en la distorsin del criterio, los pesos que reciben los distintos elementos
no son los adecuados.
Estos aspectos que introducen sesgos en los criterios pueden tener diferentes efectos y normalmente afectan a las correlaciones con el test as como a la fiabilidad del
criterio.
cuencia ordenada como los diferentes cursos escolares, se habla de colocacin. Otra
diferenciacin importante de las decisiones de lo\ t i @ =refiere a su-uso predictivo o
osacr-d
estamos i n t e r e s a d o ~ n _ ~ - ~ r - ~ ~
responder
II~eto
s
bien al tratamiento: enel segundo caso, se necesita idenificar c o n o c i m i ~ t u @!sujet o ~ o ~ , ~ d e _~_ ~ -~~ ~ i d@ Mod e tra&miento~Asuyez,
s
la identificaci63d~necesidade<es s e @ r a b . e & +prescr$cin de t r a t ~ n t o s S y Ytests
s puedenvalidarse=m&<epara
dichospro@s&i. Cuando el uso previsto es predictivo,
-- cuando es de_dia@6$@0, lo es ms la
esGaSadecuada la-vadez p r z c t i v -a , -pero
coprcente.
I\lo obstante. la validacin predictiva es ms diccil de llevar a cabo, puesto que
requiere un tiempo de espera, perdihdose con frecuencia sujetos de la muestra. Por
tal motivo. suele sustituirs~undiseo predictivo por otro concurrente. En algunas situaciones esta prctica puede ser peligrosa. A veces. el predictor (test) puede estar influido por experiencias posteriores del sujeto.
la s e g ~ c d a dcon la que podeFinalmente, algunas veceszs!cmos interesados
mosegimarel grado en que unindividuo posey un rasgo determinado eri el pasado.
En estas circunstancias hablaramos de wlidez posrdictiva o retrospectiva.
La distincin entre estos diseos de validacih y su aplicacin segn la pregunta O
inferencia a realizar. puede observarse fcilmente en las dos preguntas siguientes, referidas a un cuestionario de rimtornos depresivos:
- Tiene el sujeto un trastorno depresivo en la actualidad? (Concurrente).

- LTendrA el sujeto en el futuro un trastorno depresivo? (Predictiva).
123.3. Los problenius de lo 1~11idez
rdafivci o1 criterio
Para establecer la validez de un test con respcclo a un criterio, los criterios deben
cumplir una serie de requisitos, tales como ser relevantes, fiables, libres de sesgos y
distorsiones y fciles de obtener (Smitti. 1976). Hay otras cuestiones ms complejas
tales como si el criterio es uno o mhiple. si ser global o una combinacin ponderada
de varios elementos. si es dinmicc o estable y si es final, intermedio o inmediato.
Esta ltima cuestin es la que ha recibido nis aicricin en la literatura psicomtrica,
desde que Thorndike (1949) expres que: "el cr.iro.io ilrirno es la n~etafinalde cualcpier tipo particidar & selecciri o forniocin" (p. 12 1 ). Frente a ellos se encuentran
los criterios inmedioros que son aspectos del rendiiniento evaluados en las situaciones
aplicadas, para tomar decisiones, y son del tipo de registros de produccin, calificaciones de los supervisore's, notas obtenidas en iiii programa o curso, etc. Una distincin similar es la establecida por Astin (1964) entre criterios conceptuales y medidas
del criterio. Estas distinciones han llevado a la pregunta de jcmo evaluar el criterio
conceptual o el criterio iltimo?". Kavanagh et al., (1971), consideran que esta pregunta puede subsumirse en la validacin de constructo del criterio. Esta consideracin
prermite establecer los riesgos de la medicin de los criterios, que no son ms que las
amenzas a la validez de constructo (Cook y Campbell, 1979). Bajo este punto de vista comentaremos brevemente cules son estos peligros y riesgos:
2 ) Criterios mltiples vs. criterios nicos. Desde los inicios de la Psicomeira y

hasta los aos sesenta, los tericos de la validez perseguan la meta de encontrar criterios ltimos en ttrminos de una nica medida global, establecida como combinacin
lineal de diferentes criterios parciales. El problema fundamental de los defensores de
esta medida global es que raramente la medida del criterio proporciona un nico Factor general, ni parece que tenga mucho sentido combinar diferentes aspectos independientes en un compuesto nico, como si se tratara de un fenmeno unitario.
Por otra parte, los defensores de la niultidimensionalidad de los criterios defienden la idea de que la diversidad de criterios apoya que el xito no es igual para diferentes personas en el mismo puesto o programa educativo, ni para la misma persona
en diferentes aspectos del puesto de trabajo o cuiso escolar. Por otra parte, diferentes
personas pueden alcanzar los mismos niveles de rendimiento global por diferentes estrategias. Esta consideracin les lleva a defender la evaluacin de los criterios con inedidas inltiples (Cronbach y Snow, 1977; Ghiselli, 1960).
Esta aproximacin tiene su ejemplo ms representativo eii la denominada 1 ~ 1 k l ~ z
sinttica (Mossholfer y Harvey, 1984). en la que un criterio global se analizri en dimensiones mltiples o componentes, ciiyas relaciones con ei test son evaluadas de
forma separada, siendo combinadas despus en una prediccin compuesta, con pesos
diferenciales, segn las aplicaciones.
Otra importante aplicacin conceptunl de la niultidimensionalidad del criierio es
la que permite explicar los cambios en las correlaciones entre test y criierio con el
tiempo. Despues de los trabajos de Fleishmnii (Fleishman y Fruchter, 1960; Fleishman
y Hempel, 1954). se ha constatado que las correlaciones entre test y criterio, as como
la estructura factorial cambia como funcin de la experiencia de los sujetos en el
puesto. Esta cualidad dinmica de los criterios coiicuerda con los irabajos ms recientes de la psicologa cognitiva realizados con experlos y novutos. Estos cambios en las
correlaciones de los tests con los criterios no so11 exclusivas de los tests de doininios
cognitivos, sino que tambitn se han encontrado con variables no cognitivas, como se
puso de relieve en el trabajo de Helmreich, Sawin y Carsud (1986) en e'que encontraron ausencia de correlacin entre medidas de motivacin de logro y orientacin interpersonal y el rendimiento en el trabajo durante los tres primeros meses, pero correlaciones significativas y estables a partir del sexto mes.
344
Cap/rtlo t2: La vatictez de los resis
Psicomeniu: Teoria de los tests psicoldgicos y educativos
Hay varios problemas potenciales que pueden afectar a lvs nmltados de este tipo
de validacin. Los ms comunes son: identificacin y medida del criterio, tamaiios
muestrales insuficientes, contaminacin del criterio, falta de fiabilidad de las medidas
de predictor y10 criterio y restriccin del rango de variabilidad.
3) Validacidn de constructo de los criterios. Guion (1976) aboga por la validacin de constructo de los criterios, dando prioridad a las dimensiones crticas que diferencian entre buenos y malos rendimientos, as como la deteccin de variables moduladoras que intervienen en las relaciones predictor-criterio. Dentro de este marco,
Frederiksen (1986) propuso la similaridad de constructos del predictor y del criterio.
1) Del coeficiente de vulidez a la utilidad en la toma de decisiones. La utilidad

de un test para la seieccih u otras aplicaciones depende del grado de la relacin entre
predictor y criterio, pero a menudo tambin de otros aspectos como la tasa de base en
la poblacin, la razn de seleccin, los costos del test, etc. Por este motivo se va imponiendo la idea de hablar de utilidad del test, un tmino mucho ms descriptivo que
el de validez. La utilidad se refiere a los beneficios relativos derivados de utilizar el
test en la toma de decisiones. En la visin tradicional de la validez de criterio, los estadsticos usuales son el coeficiente de detenninacin o su complemento, proporcin
de variacin del criterio no explicada por el test o algunos otros ndices derivados COmo el coeficiente de valor predictivo, que se presentan en el captulo siguiente. En todos los casos, los diferentes ndices son funcin de p., o relacin lineal entre las puntuaciones del test y del criterio. Desde el punto de vista de la utilidad, se parte del SUpuesto de que diferentes tipos de errores pueden tener distinta importancia en la toma
de decisiones. Este cambio de nfasis lleva a considerar criterios discretos, tales como
Cxito y fracaso. Para establecer la potencia de la decisin, los costos y beneficios debcn expresarse en una escala comn de unidades de utilidad. Recientemente se han
desarrollado numerosos avances en este sentido, a los que nos referiremos en un apartado posterior.
5) val id^ de o-iretYo y sesgos eir las drcisioires. Un problema ligado a la dimensin ronsecrterrcios del tiso de los tests, pero para cuyo anlisis se han propuesto procedimientos e.;tadsticos, es el del sesgo y10 ittrl~ucroatli~ei.sofrente a ciertos grupos
sociales, especialmente grave cuando distintos grupos muestran consistentemente diferentes puntuaciones niedias en predictores. criterios o en- ambos. En estas circunstancias, el problema llega a adquirir unas repercusiones sociales alarmantes y se cuestiona el uso de los tests para la toma de decisiones, ya que un uso adecuado de 10s
tesis implicara que las decisiones de seleccin fuesen igualmente adecuadas y en
cieno sentido, independientes de la pertenencia a un grupo. En respuesta a este problema, se formularon diferentes modelos de seleccin no sesgada (Cleary, 1968; C o k
197 1; Darlington, 197 1; Linn, 1973, 1976; Thorndike, 197 1; Petersen y Novick,
1976).
6) Problemas de los estimadores del coeficiente de validez. El coeficiente de validez de un test. operacionalizado como el coeficiente de correlacin entre las puntua-
34.5
ciones del test y las del criterio, presenta varios problemas ligados a la naturaleza dc
la correlacin. Afortunadamente, algunos de estos problemas tienen solucin, ya qiic
bajo ciertos supuestos, la psicometra permite corregir dichas estimaciones de! coco
ficiente de validez. Estos problemas y sus soluciones sern tratados en u n tema postcrior, limitndonos aqu a indicar su naturaleza.
- Fiabilidad delpredicror y del crirerio. Bajos coeficientes de fiabilidad del test

y del criterio rebajan los valores del coeficiente de validez. De hecho, el valor
miximo que puede alcanzar la correlacin de una variable con otra, es igual ;i
su fndice de fiabilidad. Pueden estimarse los cambios que se producirn en el
coeficiente de validez, iritroduciendo cambios en el(los) coeficiente(s) de f i i i bilidad.
- Restriccidn del rango o reduccidn de la variabilidad. Por tratarse de un coei.iciente de correlacin, el coeficiente de validez puede ver reducido su valoi
con restricciones en la variabilidad del test, del criterio o de ambas.
Afortunadamente. los supuestos de la homoscedasticidad y de la igualdad dc
las pendientes de las rectas de regresin, permitirn obtener estimaciones del
coeficiente de validez en condiciones de variabilidad no reducida. Esta situacin suele darse sobre todo en la validacin de los tests de seleccin de personal, en que se seleccionan normalmente slo sujetos con puntuaciones altas eii
el test.
- Dicoromizacionrs en el test, crirerio o en ambos tambin reducen los valorc.\
del coeficiente de validez.
7) Generalizacidn de la validez. El concepto de validez referida al criterio de u n
test, prcticamente ha sido eliminada de las revistas cientficas (Landy, 1992), imponindose cada vez ms los estudios denominados de generaliiaciti de la valid~i,iratados con procedimientos de meta-anlisis (Landy y Shankster, 1994). Schmidt (1992)
critica los estudios tradicionales de validacin de criterio, sealando que han perdido
de vista la tradicin de los estudios acumulativos, presentando el meta-anlisis conic
un procedimiento ms valioso para obtener un buen partido de los datos.
Cuando los tests estandarizados de aptitud se correlacionan con el rendimiento en
puestos de trabajo, con frecuencia se encuentra que los coeficientes de validez de diferentes estudios muestran una gran variabilidad (Ghiselli, 1956, 1966). Algo similar
sucede cuando los criterios son cursos escolares (Bennett, Seashore y Wesman, 1984).
Estos resultados condujeron a un fuerte pesimismo de cara a la generalizacin de 1;i
validez de los tests a otros contextos o situaciones. Hasta mediados los aos setenta,
esta especificidad situacional fue considerada una grave limitacin de la utilidad de
los tests psicolgicos en la seleccin de personal (Guion, 1983). Schmidt, Hunter y
cols. desarrollaron procedimientos estadsticos para corregir algunos de los problemas
que reducan la generalizacin de la validez. Las muestras industriales disponibles para la validacin de tests son generalmente demasiado pequeas para proporcionar resultados estables de la correlacin predictor-criterio (generalmente entre 40-60 casos)
y adems estn afectadas de fuertes problemas de restriccin del rango. El grupo de
Finalmente, las correlaciones entre un nuevo test y un test

disponible
y del que se dispone de evidencia de validez, son frecuentemente citadas como prueba
de la validez de un test nuevo.
autores citados, a cuyos trabajos nos referiremos ms adelante, proponen una serie de
tcnicas estadsticas para corregir estos probleinas de falta de generalizacin.
12.3.4. Algunos criterios comunes

Un test puede ser validado frente a tantos criterios como usos posibles pueda tener. Cualquier mCtodo para la evaluacin de la conducta en cualquier situacin puede
proporcionar una medida de criterio para algn propsito particular. No obstante, los
criterios ms citados en los manuales de los tests pueden clasificarse en unas pocas
categoras. Entre los criterios ms frecuentemente empleados en la validacin de los
tests de inteligencia se enqentra algn indicador de rendimiento acadmico; por este
motivo se ha considerado a veces a estos tests como una medida de aptitud acadtmica. Los criterios habituales suelen ser: notas escolares, puntuaciones en tests de rendimiento, registros de promocin y graduaciones, honores y menciones especiales y
evaluaciones (ratings) de los profesores sobre la inteligencia de los sujetos. Estos mismos criterios suelen ser los utilizados en los diferentes tests de aptitudes aplicables a
sujetos escolarizados de diferentes niveles.
Una variante de los indicadores anteriores empleada frecuentemente en contextos
extraescolares son los aos de educacin que el sujeto ha completado, ya que se espera que, en general, los individuos ms inteligentes continen su escolaridad ms tiempo, mientras que las menos inteligentes abandonan antes la escuela. Es evidente que
este criterio est muy contaminado por otros aspectos eccnmicos, sociales y motivacionales.
Con los tests de aptitrrdes especificas u n criterio usual es el rerrdimiento en cursos de formacin especializados. Varios tests de aptitudes profesionales han sido validados en ttrminos del rendimiento de los sujetos en facultades de Medicina, Derecho. Ingeniera, etc. Un ejemplo tpico de esta tcnica de validacin lo constituye el
exhaustivo estudio de validacin de los tests de seleccin de pilotos del ejercito de los
EEUU. en los que el criterio fue el rendimiento en los cursos bsicos de vuelo (Flanagan, 1948).
Otros criterios especficos son los tests de rcndimiento tras un curso de formacion,
notas asignadas, evaluaciones de los instructores, completar el programa frente a haber sido eliminado de l, etc.
Para muchos propsitos, el tipo ms satisfactorio de medida del criterio son los registros de seguimiento del rendimiento real del sujeto eti el puesto de trabajo. La mayor parte de las medidas de rendimiento en el puesto, aunque no representan criterios
ltimos, al menos proporcionan buenos criterios intermedios para muchos propsitos
de los tests.
La validacin por el mtodo de los grupos contrastados en cuanto a niveles de
rendimiento es otro procedimiento muy utilizado. siendo en este caso el criterio una
variable categbrica. En la validacin emprica de los tests referidos al criterio se han
empleado diversas adaptaciones de este mttodo. Tambin es el procedimiento utilizado en la validacin de tests para el diagndstico de trastornos, as como en la seleccin
de items para estos tests.
12.3.5.Procedimientos estadsticos utilizados en la validacidn referida a un criterio

Existen diferentes procedimientos cuantitativos, la mayor parte estadsticos, para obtener estimaciones numtricas de la evidencia de validez de un test. Los ms frecuentes
son de naturaleza correlacional. Sin nimo de exhaustividad, presentamos a continuacin
una clasificacin de las tCcnicas usuales, en funcin del diseo de recogida de datos par;]
la validacin. La mayor parte de estas tcnicas sern tratadas en captulos
l
l
a ) Un nico test predictor y un solo criterio: se utilizan los procedimientos de la

correlacin y regresin lineal simple, as como otros ndices derivados de este
modelo. Cuando las puntuaciones en el criterio no son cuantitativas, se utilizar el coeficiente de correlacin adecuado segn la naturaleza de las variables
implicadas (biserial, biserial puntual, phi, tetrac6rica, eta, etc.). Una explicacin de estos coeficientes especficos se proporciona en el captulo dedicado al
anlisis de los items.
h ) Varios predictores y un solo criterio: cuando se trata de validar una batera de
tests, se utilizan los procedimientos de la correlacin y regresin lineal miiiple. Cuando hay mltiples tests predictores y u n criterio cualitativo, suele utilizarse el anlisis discriminante. Si el criterio es dicoimico, como sucede coi1
frecuencia en la validacin de algunos tests clnicos, se utiliza la regresin logstica. En este libro explicamos la correlacin y regresin lineal mltiples en
el captulo 14, ya que es la tcnica ms utilizada en la validacin de bateras
de tests. Como Cste es un texto de Psicometra y no de Anlisis Multivariante,
no podemos entrar en la explicacin de todas las tcnicas estadsiicas utilizadas en la validacin, sino nicamente en las ms tpicas y por tal moiivo no se
tratar aqui del Anlisis Discriminante. No obstante, el lector interesado puede
encontrar en castellano una buena explicacin de la tcnica en Cuadras (198 1 )
y una descripcin ms aplicada, con un ejemplo concreto de un tesi de "srreening" de trastornos, con todos los clculos descritos en Rivas, Rius y Martnez
Arias (1989). La regresin logstica se aplica a un ejemplo de anlisis del funcionamiento diferencial de ltems en el tema 19 y el lector podr hacerse una
idea del funcionamiento de la tcnica.
c) Varios predictores cuantitativos y varios criterios cuantitativos: regresin lineal multivariante y correlacin cannica. Estas tcnicas raramente se utilizan
en la prctica de la validacin de tests, ya que son complejas y frecuentemente
conducen a resultados difciles de interpretar. No obstante. el lector interesado
-- .
puede consultar algunos textos generaies de Anlisis Multivariante, como el
ya citado de Cuadras.
d) Procedimientos basados en la teoria de la decisidn: validez y utilidad en las
decisiones. Los procedimientos propuestos se basan en diferentes mtodos pa-
348
Psicomrna: Teora de los tests psicoldgicos y educativos
ra optimizar las decisiohGrealizadas con el test: tcnicas maximin, minimax

y especialmente la Teora de la Utilidad Esperada Multiatributo. Se utilizan
Coptulo 12: Lo volidez dc los tests
Dominio del iest
349
Dominio externo al test
7
-
poco en la prctica, aunque se han propuesto interesantes modelos tericos

(vase Van der Linden, 1990, para una revisin). Al final de este capitulo se
presenta una breve introduccin a estos modelos.
12.4. La validacin de constructo
La psicologia se caracteriza por el estudio de la conducta y de los atributos que

caracterizan la conducta be1 individuo. Estos atributos psicolbgicos y otros procesos
mentales, no pueden medirse directamente como hacemos con rasgos fisicos tales como la dtura o el peso; son constructos o conceptos hipotticos que forman parte de
las teoras que intentan explicar la coriducta humana. El grado en que un individuo
posee uno de estos atributos, solamente puede inferirse a partir de la observacin de
su conducta. Este carcter no observable de la mayor parte de las variables psicolgicas. hace especialmente difcil el diseo de tests o instrumentos para su medida.
Pensemos, p. ej., en constructos como "inteligencia", "creatividad", "dependencia de
campo", "extroversin-introversin", etc. En el capitulo 1 ya se consideraron estas peculiaridades de la medicin psicolgica y el lector se habr hecho una idea de las dificultades de su medida.
Como hemos hecho notar repetidamente en este tema, la validacin de constmcto,
entendida como las evidencias que apoyan que las conductas observables del test son
indicadores del constructo. es el aspecto esencial de la validez y permite unificar las
otras categoras.
En la figura 12.1. tomada de Messick ( 1989) pueden apreciarse los componentes
de la validez de constructo.
En la figura puede apreciarse cmo el contenido (en cuanto a relevancia y representatividad) es uno de los aspectos de la validez de constmcto. Tambin puede observarse en la trama de relaciones con otros constructos, como la validez relativa al criten o forma parte del proceso de validacin.
La figura tambin es representativa de lo que se denomina vali&z nomolgica
(Campbell, 1960). cuya funcin bsica es mostrar que la teora del constmcto medido
proporciona bases lgicas para establecer conexiones empiricamente demostrables entre las puntuaciones de los tests y las medidas de otros constructos. El test gana en
credibilidad en la medida en que las consistencias de las putituaciones reflejan implicaciones tericas del constnicto y el constructo la gana en la medida en que el test establece e s a predicciones. Embretson (1983) utiliza un concepto similar, amplitud nomotdtica, que se refiere a la red emprica de relaciones del test con medidas de otros
construd& y conductas criterio.
En el proceso de la validacin de constructo, es importante destacar que la puntuacin del test no se identifica con el constructo (Messick, 1989), sino que el constnicto
puede manifestarse a travb de mltiples indicadores. La validacin de constmcto
d
e
e exierno
n
t
Figura 12.1. Componentes de la validez de constmcto. (Adaptado de Messick, 1989.)
la acumulacin de evidencias que apoyan que la puntuacin del test es una de sus manifestaciones. Cuando se establece la validez de constructo, pueden hacerse inferericias o interpretaciones del test.
12.4.2. Procedimientos paro /a vu/i~/uricidtlde constructo

Como ya se ha sealado, la exjstencia de una slida teora del constructo es central para el proceso de validacin. Esta debe permitir especificar tanto la estnictura intema del mismo y su manifestacin se manifiesta en indicadores (Validez del rasgo,
Campbell. 1960). como sus relaciones con otras variables (Validez Nonio16gicai El
proceso comenzar siempre estableciendo deducciones de la teora, y se seguirr, las
siguientes fases:
1) Formular una o ms hiptesis acerca de las relaciones entre los elementos del
constructo, de este con otros constructos de la teotia y con otros constructos
externos. Estas hiptesis estarn basadas en la teora que fundamenta al constructo.
2) Seleccionar items o tests (indicadores observables) que representen manifesiaciones concretas del constnicto.
.
3) Recogida de datos empricos para poder poner a prueba las hiptesis.
4) Establecer la consistencia entre los datos y las hiptesis y examinar hasta qu
punto los resultados podran explicarse mediante explicaciones alternativas o
hiptesis rivales.
350
C ~ p l t u l o12: Lo isalidez de los tests
Psicometra: Teora de los tests psicd6giros Y. e<lirmivos
Como puede observarse, la validacin de la teora acerca de la naturaleza del

x m s n c t o y del test usado para su medida, van indisolublemente unidas. Si las relaLionzs hipotetizadas por la teora se confinnan, el constructo y el test son tiles.
La complejidad de la trama de relaciones hace que en la validacin de constructo
no se trtilice un procedimiento nico, sino que suelen seguirse mltiples procedimienm. Otra caracterstica importante es que esta validacin no es esttica, sino que es un
proceso continuo (Messick, 1989). ya que normalmente se van integrando nuevos
; O I W ~ C ~ O OS relaciones con otros constructos en la teona.
Sin nimo de exhaustividad, prcsentamos a continuacin los procedimientos utilizados con ms frecuencia en la validacin de constructo. solos o en combinacin.
1 ) Diferenciacin entre
shrlm
Lin criterio empleado con frecuencia en la validacin de tests de inteligencia es la

Puesto que se espera que las habilidades cogniti-.-as aumenten con la edad, las puntuaciones de los tests deben mostrar estos aumenros si el test es vlido.
Este criterio de diferenciacin con la edad no es aplicable a otras funciones que no
mwstran estos consistentes cambios; por ejemplo es de utilidad limitada en la medicin de constmctos de persoilalidad.
Estos anlisis d,e desarrollo tambiCn son bsicos para la validacin de constructo
de e ~ z a l a ordinales.
s
como las basadas en la Tcori'a de los Estudios de Piaget O Estadio: del desarrollo tnoral de Kohlberg. Un supuesto fundamental de estas escalas es el
patrin secuencial del desarrollo, especificado en la leoria.
En otrarmasiones. la validacin se basa en la aplicacin de diseos experimentales. cuando la teora del constructo especifica cambios en la posicin en el constructo
ligxios a ciertas intervenciones. Un problema frecuente con esta aproximacin a la
val>dacindel instrumento es que el no cumplimiento de las hiptesis puede deberse a
un fallo en la teora. en el instrumento o en la implenlentacin de la intervencin.
Jifr-rnciacin entrr grupos de edades.
2 ) Correlacione~c m o ~ r mmedidas del mn.s/riccto

A veces se utilizan las correlaciones entre u n nuevo test y otros tests ya validados
como evidencia de que el nuevo test mide el mismo constructo. Las correlaciones con
otnx tests tambikn se emplean a veces para demostrar que el test est libre de factores
irrelevantes.
3 ) Anlisis factorial
Esta aproximacin fue desarrollada como un medio de identificar rasgos psicolgicas y es especialmente relevante para la validacin de constructo. desde el punto de vista & la vaiidez del rasgo. Bsicamente, es una tcnica estadstica para analizar las inter-
35 1
correlaciones entre datos observable>.iiiiplica obtener p medidas de los mismos examinados (items del test U otras variables). calcular la matriz de correlaciones i, x p) entre
estas medidas y usar las tCcnicas del anlisis factorial para encontrar uri nmero reducido de variables no observables, denominadas factores, que explican la covariacin del
conjunto original de variables. En el captulo 16 explicaremos con ms detalle esta tcnica, pero indicaremos aqusu posible aplicacin a la validacin de constructo.
En los diseos de validez del rasgo, se parte de la matriz de correlaciones entre los
p items del test, y se buscan agrupaciones de los items predecibles desde la teora. Las
variaciones en las respuestas a items que van juntos, pueden atribuirse a variaciones
entre los examinados en un factor latente. Este factor, que no es directamente observable, puede considerarse un constructo definido por el conjunto particular de observaciones empricas (los items).
Despues de que los factores son identificados, pueden utilizarse para describir la
composicin factorial de un test. Cada uno de los factores se caracterizar en trminos
de las variables que determinan sus puntuaciones.
En otros casos se parte de una matriz de correlaciones entre las puntuaciones de p
tests, entre los que suele encontrarse el que es objeto de validacin. Por ejemplo, si se
aplican 20 tests a 300 personas. el primer paso ser calcular las correlaciones de cada
test con todos los dems. Una inspeccin de la matriz resultante de 190 correlaciones
puede revelar algunos grupos de tests, sugiriendo la presencia de algunos rasgos comunes.
En la misma lnea del anlisis factorial. especialmente en el dominio de la personalidad, se dice a veces que el test ha sido validado por el procedimiento de la consistencia interna. La caracterstica del mtodo es que el criterio es la puntuacin total eri
el mismo test. Se busca que cada item diferencie en la misma direccin en la que lo
hace el test entero. Esta es una aproximacin incorrecta a la validacin, ya que como
se ha estudiado en el captulo 7, las medidas de consistencia interna lo son de homogeneidad de los items o de los subtests, pero su contribucin a la validez es limitada.
4 ) Matrices multimtodo-mul/ira.i,qo
Campbell y Fiske (1959) describen esta aproximacin como m5s interesada en la

"adecuacidn de tests como medrdas de u t ~constructo, que en la adecuacrn del constructo". Para aplicar esta tcnica debemos disponer de dos o ms modos de medir el
constructo de inters. Adems se le pide al investigador que identifique otros constructos diferentes que puedan ser medidos por los mismos mtodos utilizados con el
constructo de inters. Se selecciona una muestra de N sujetos a los que se les aplican
todas las medidas de cada constructo y cada mtodo. Se calculan las correlaciones entre todas las medidas y se presentan en forma de una matriz (generalmente triangular
inferior), denominada Matriz Multimhtodo-Multirrasgo. Los diferentes coeficientes de
correlacin de la matriz pueden clasificarse en uno de los tres tipos siguientes:
correlaciones entre medidas del mismo constructo
usando el mismo mCtodo de medida. Debern ser muy elevadas.
a ) Coeficientes de fiabilidad:
352
Capnt10 12: La validez de los tesn
Psirometra: Teora de los tesis psico16gicos y educotiws
b) Coeficientes de validez convergente: correlaciones entre medidas del mismo

constructo usando diferentes mtodos. Normalmente debern ser altas, pero
deber tenerse en cuenta la posible atenuacin debida a la falta de fiabilidad
de los instrumentos de medida.
C ) Coeficientes de validez discriminante: correlaciones entre medidas de diferen.
tes constructos, usando el mismo mtodo de medida (correlaciones heterorrasgo-monomtodo) o correlaciones entre diferentes constructos' usando distintos
mCtodos (correlaciones heterorrasgo-heteromktodo). Sern bajas y considerablemente menores que los coeficientes de fiabilidad y de validez convergente.
Eii la tabla 12.2 se presentan las hipotticas correlaciones entre tres rasgos, cada
uno rnedido por dos rniodos diferentes:.
--
TABLA12.2. Matriz de correlaciones multi-m6todo/multi-rasgo.
Mtodo I
AI
Mtodo 1: Autoinfonne
A l . Lidemgo
Bl. Sociabilidad
C , . Popularidad
'
Mt!odo 2. Evaluacin
de los compaeros.
A2. Lidemgo
B2. Sociabilidad
C2.Popularidad
81
Mtodo 2
CI
A2
BZ
C2
($95)
j0.28'--.@.86)
10
2:58
- - - - - 0,39----10.92)
- _ -----L
0,76
0.30
0,40
0.32
0,65
0.57
0.40
0.3 1
0,60
$0,951
;0 3 P - - - SJ0.76)
353
de validez convergente son los ms altos de la tabla (excluidos los valores de la diagonal de fiabilidad). Con respecto a la validez discriminante, hay algunas coi~elacionc\
entre Al y C I y en!re A2 con C i . que son muy elevadas y es posible que no sean significativamente distintas de C , y C,, lo que puede hacer surgir algunas hiptesis rivales.
que convendra explorar con ms detalle.
Hoy, la tkcnica ms utilizada para el anlisis de estas matrices son los procedimientos de An1isi.r Factorial Cotfirmutorio (Kenny y Kashy, 1992; Joreskog y Sorbom, 1993; Marsi?. 1989, 1990). El lector interesado puede consultar el artculo dc
Schmitt y Stults ()986), para una revisin de las aplicaciones.
5 ) Vulidacidn hasndu en la Teoria de la Generalizahilidad

Otro tipo de evidencia para la validacin de constructo puede basarse en la TG.
viendo si las obseivaciones para un individuo sobre un constructo son invariantca
frente a diferentes mtodos de medida. Esto puede tratarse desde el modelo de los
componentes de Iu variunzu de la TG. Se asume que cada medida tomada por un sujeto representa una muestra aleatoria del conjunto de posibles medidas que se podran
haber obtenido. El universo puede variar en dimensiones mltiples o facetas que pueden ser los diferentes mktodos de medida. La identificacin de las facetas adecuada5
depender de la teora particular del constructo y del universo al que se harn las inferencia~.Sea por ejemplo el constructo "destrezas de comprensin lectora". Es posible
medir este constructo usando una gran variedad de formatos de item (eleccin mliiple, verdadero-falso, abiertos, emparejamiento, etc.). Pensamos que el constructo ex
ms generalizable si las puntuaciones del sujeto son independientes del tipo de formato que usemos. Podemos disear un estudio G usando diferentes formatos de itein y
de modo que todos los examinados se:in evaluados en los mismos n formutos mediante un diseo cruzado.
:455,- - - - -@5::: (0,741
Los coeficientes de fiabilidad estn entre parntesis. Los coeficientes Irelrrorrusgo-r;ionomtodo estn dentro d e tringulos con lneas slidas. Los coeficientes de validez convergente. que son las correlaciones de las puntuaci,ones del mismo rasgo, medido con diferentes mtodos esthn destacadas en negrilla. Estas deben ser estadfsticamente significativas y suficientemente elevadas. Estas correlaciones adems sern
mayores que las que aparezcan en el trihngulo heterorrasgo-heteromktodo. que se refieren a vafiables que no tienen nada en comn. Tambikn sern mayores que las correlaciones de los tringulos heterorrasgo/monomtodo. Si se da esta ltima circunstancia, se tendrn pruebas de la validez discriminante.
La falta de convergencia entre rridtodos indicar que hay demasiada varianza especfica ligada al mtodo o que los mtodos no estn midiendo los mismos constructos.
Campbell y Fiske recomendaron este procedimiento como un instrumento heuristico, no como un procedimiento analtico y, por lo tanto, se basaron en la inspeccin
visual de la matriz. Si observamos la tabla 12.2, puede verse que los tres coeficientes
A Finales de Icis aos setenta conienz el acercamiento entre I i Psicologa

Cognitiva y la Psicometra, intentando proporcionar la primera a la seguncln una coniprensin de los ccmtructos evaluados por los tests de inteligencia y aptitudes.
Algunos psiclogos comenzaron a aplicar procedimientos experimentales tpicos de la
Psicologla cognitiw y de simulacin de procesos a la exploracin de lo que niiden los
tests de inteligencia (Neisser, 19'76; Sternberg, 1977, 1981,' 1982, 1985). Las implicaciones de estos trabajos para la validacin de constructo estn muy bien expuestas en
los trabajos de Embretson (1983, 1986, 1992).
Prominente entre estos mtodos es el anlisis de prorocolos verhales (Ericsson y
Simon, 1984; Fredenksen, 1985) en los que se les pide a los sujetos que piensen en
voz alta mientras realizan la tarea o que la reconstruyan retrospectivamente. Una tcnica frecuentemente asociada a la anterior es la simulacin por compurador de los
procesos identificados con el anlisis de protocolos o del anlisis de la teora.
Col~itulo12: Lo validez de
Otra aproximacin para tareas realizadas en tiempos cortos y difcilmente captablcs por introspeccin es el anlisis cronomrrico (Stemberg, 1977) que contrasta los
tiempos de respuesta entre tareas que difieren en carga de procesamiento.
Los modelos matemticos de ejecucin de las tareas tambiCn se usan con frecuenc i i empleando medidas de los procesos subyacentes.para explicar la probabilidad de
ura respuesta correcta como funcin de la dificultad del item y la posicin del sujeto
et. el rasgo. Los modelos multicomponentes son una combinacin de los dos tipos de
modelos anteriores (Embretson, 1984; Fischer, 197 1; Fischer y Formann, 1982).
Una aproximacin diferente es la de los correlatos cognitivos (Pellegrino y
Ghser. 1979), aproximacin en la que se forman grupos contrastados de sujetos con
izas y bajos rendimientos en el test y que son comparados en tareas sencillas de labor~nrio.
Hay adems otros p)ocedimientos menos frecuentes, tales como el at~lisisde ra: , : w s en l que se les pide a los sujetos que justifiquen la eleccin de la respuesta.
TxnbiCn se ha propuesto el arrlisis de los niovimientos oculares, muchas veces en
combinacin con el anlisis de los protocolos verbales.
En estas diferentes aplicaciones se ha detectado con frecuencia que distintos sujeti,s realizan las tareas de diferente forma e incluso el mismo individuo puede cambiar
de item a item o de ocasin a ocasin, es decir. los individuos difieren consistentern-nte en sus esrrate~icrs estilos de rcolizacitjti de lo tarcu.
12.5. Ejemplos d e preguntas e inferencias tpicas d e las distintas estrategias
de validacin
A lo largo de este captulo se ha insistido en la validez de constructo como el tipo
y como
;i;lutinantc de los restantes tipos de validez, a travs de una red como la presentada en
11 figura 12.1. Se ha destacado adems la vrilidez de un test como grado de adecuai ~ S nde 1% inferencias que se establecern con sus puntuaciones. Desde este punto de
:Sta y bajo el marco terico unificador de la validez de constructo. hay ciertas estrate-sias de \didacin nis o menos iniportantes segn el tipo de inferencias realizadas a
p n i r de las puntuaciones y del propsito del test. En la tabla 12.3. presentamos de
forma resumida las estrategias de validacin ms adecuadas segn el tipo de pregunta
2 la que pretendamos responder con las puntuaciones del test. Consideramos como
c?emplo un hipottico test de Matemticas.
l e validez que garantiza la interpretabilidad de las puntuaciones de los tests
'. ..
..
resrs
35.5
TABLA12.3. Validacin de un hipotCtico test de Matemticas en funcin

del propsito de su aplicacin.
Propsiio del Tesi
Pregunfu tpica
Validuciciri
Medir el rendimiento
de alumnos de 8 de EGB
iCubto ha aprendido
Enrique en el curso?
Contenido
Test de aptitud para

predecir el nivel en
. matem&ticasde BUP
Cmo rendir&Enrique
en el futuro BUP?
Criterial-predictiva
Tcnica para el diagnstico de dificultad

en el aprendizaje de
las matemhticas
Muestra la ejecucin
de Enrique algn tipo de
disfunciones especficas?
Criterial-coricurrenie
El test como medida

de razonamienio
matem&tico
Permite el test caracterizar

los procesos y estrategias de
solucin de problemas de
Enrique'?
Constructo
obstante, al exponer en este tema los problemas de los criterios y la evolucin de csic
concepto de validez, mencionamos la nocin de utilidad en las decisioiies. Tambi6ri
se mencionaron procedimientos ligados al concepto de utilidad, al coincniar los mtodos utilizados en la validez de criterio. Parece pues que el concepto de utilidad en I:i>
decisiones va adquiriendo cada vez m i s importancia en la Psicometra. Por razones tlc
espacio y por la escasa utilizacin que tienen por el momento en las aplicaciones. no
podemos dedicarle un tema completo a estos conceptos, pero en este apartado inteniamos iniciar al lector en esta importante cuestin.
Consideraremos nicamente la prediccin de criterios discretos, caso al que en la
practica se reducen la mayor parte de las decisiones y, en particular, a criterios dicotmicos. Esta situacin, cuando la decisin con el test es admitir vs. no admitir, queda
bien reflejada en la tabla 12.4
TABLA12.4. La5 decisiones de selccciii
Decisin con el Tcst
1-6. Validez y utilidad de los tests
En los temas que siguen se tratarn diferentes procedimientos estadsticos para diferentes cuestiones de la validez de los tests, tanto de criterio como de constructo.
Todos los mttodos y conceptos presentados estn ligados a modelos lineales correlacjonales. La necesidad de dedicarles temas especificas s e debe a la importancia que
tienen estos modelos tanto en la teora psicomCtrica. como en las aplicaciones. No
10s
Situacin en el
criterio de
rendimiento
Admitido
No adniitido
Alto
A (VP)
C (FN)
A+C
Bajo
D (FP)
B (VN)
B+D
A+D
C+B
Las diversas situaciones de la tabla quedan reflejadas en la figura 12.2.
356
Psicomcrrlo: Teora de los tests psirolrlgicos y edircotivos
Capitrrlo 12; Lo vulidez rlc los ~esrs
A partir de- la tabla podemos sacar algunos conceptos importantes que utilizaremos al tratar de la utilidad. En primer lugar podemos ver que de las decisiones de la
seleccin se derivan 4 resultados posibles, denotados por las letras A , B. C y D.
Utilizando tenninologa de la Teora de la Deteccin de Sehales. estos resultados son
los sigbientes:
1) A: Aceptados en el test y con rzndimiento satisfactorio en el criterio, grupo al
que se denomina Verdaderos Positivos (VP).
2) B: Rechazados en el test y con bajo rendimiento eR el criterio, grupo denominado de Verdaderos Negativos (VN).
3) D: Aceptados en el test y con rendimiento insatisfactorio en el criterio o
Falsos Positivos (FP).
4) C: Rechazados e p el test y con rendimiento satisfacforio en el criterio o Falsos
Negativos(FN).
Algunos otros datos de la tabla tambin sern importuntcs a la hora de valorar los
resultados de la seleccin.
Otros conceptos importantes que sern de ~itilidadm i s delante son los siguientes:
- (A
+ C)/N es Iii proporcin de aspirantes que podra11tcner xito cii el criterio.
A esta proporcin se la denomina tusri d e host o ro:cti c i i l o t ~ e i d ~ ~ r l .
- (A + D)/N es la proporcin de iispirnntes adniitidos, que recibe el nombre de

raxiti d e selec~Ycti.
- Al(,-\ +D) es la proporcin de sujetos scleccionodos que tendrii
iiii reiidimiento satisfactorio en el criterio y se la suclc denoniinai ~.ozcitt(le c$cwio.
Verd;ideros
posiiivos
Alios
Criterio
Bajo
Falsos
positivos
Verdaderos
negativos
Rechazar
Xc
Aceptar
Predictor
Figura 12.2. Resuliados de las decisiones de seleccin.
357
Observando la figura podemos ver que, en general, la proporcin relativa de predicciones coiTectas y de errores es funcin de tres factores:
1) El punto de corte en el criterio, que define las dos categoras de rendimiento
I
I
satisfactorio y no satisfactorio. En principio, la mayor seguridad se obtendra

con una divisin del 50%, ya que la varianza de una variable dicotmica se
maximiza si p = q = OJO. La proporcin de sujetos superiores en el criterio t s
la tasa d e base, antes definida.
2) El punto de corte en el test predictor, que esta bajo control del dccisor. Cuando
ste se cambia, tambin lo hacen los valores de las cuatro casillas. No obstante. cambios nicamente en este factor, suelen reducir la frecuencia de un tipo
de error a expensas de otro. El punto de corte en el test viene determinado por
la razdn d e seleccin.
3) La proporcin de aciertos y errores es tambin funcin del grado de asociacin entre el predictor y el criterio. A mayor correlacin, mayor porcentaje de
casos en las casillas A y B y menos en C y D.
Si movemos punto de corte y tasa de base, estos cambios afectan de t o m a dit'i:rente a los dos tipos de errores. Cambiar el punto de corte hacia la derecho, reduce la
proporcin de falsos positivos a expensas de aumentar los falsos negativos.
Taylor y Russell (1939) construyeron unas tablas, que se presentan en el Apndice
4, y que tienen en cuenta estos tres factores, para diferentes razones de selcccin. LIsas de base y coeficientes de validez. Estas tablas permiten tratar solanlente con u11 ! i po de error, los falsos positivos y un tipo de prediccin, la correcta, los verdaderos pcsitivos. A partir de estos tres factorespueden calcularse indicadores de la utilidad tlc
la seleccin, en cuanto mejora en la eficacia de la prediccin con respecto al azar o a
otro predictor determinado. Los valores de la tabla pueden interpretarse coirio protjabilidad de xito en el criterio. En el Apndice 4 se presentan reproducidas rilgunas de
las tablas de Taylor y Russell, donde el lector podr comprobar la relacin enire lo5
tres aspectos. Si seleccionamos la tabla de tasa de base = 0,50, y fijarno\ el coeficienrc
de correlacin en un valor bajo, p, = 0,35, puede observarse conio la probabilidad tlc
xito es alta si II razn de seleccin cs baja (la razn de seleccin sc expresa en I:\
cabeceras de las coluninas de la tabla) y como a medida que la razn de sclccciri : I U menta, la probabilidad de xito disminuye. Si se mantienen estos valores fijados y I ; i
tasa de base cambia, el lector podr observar como tambin se alteran las pi.obabili(l:ides de xito.
Los intentos de pasar de la validez correlacional a la utilidad iniciados por Taylor
y Russell, fueron continuados por Brodgen (1949) y Cronbach y Gleser (1965).
Brodgen hizo un planteamiento muy simple basado en la regresin lineal simple,
que el lector conoce de los cursos de estadstica y que se explica con detalle en el ca~ i t u 1 013.
La ecuacin 12.4 representa la ecuacin de regresin de Y sobre X; en ella A es la
es la pendiente B:
ordenada en el origen y px, oYIoX

Martinez Cap 12

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Martinez Cap 12

Загружено:

Авторское право:

Доступные форматы

328 Pdcomccria Teora de los rt-sfs psicolgicos y e<luca;ivos

LA VALIDEZ DE LOS TESTS

En la columna TRIED indica el nmero de iterns intentados, en RIGHT el nmero

En los captulos anteriores se trataron diversos modelos de puntuaciones (!e los

12.1. El concepto de validez y su evolucin histrico

La validez siempre ha sido considerada el aspecto central de la Psicoiiietra

Captulo 12. L a validez de los tests

Un cambio importante fue el introducido en los Standards for Psychological urid

332 Psicomcwa: Teoru de los rcsrs psicoldgicos

Caprulo 12: La validez de los rests

interpretacin de los tests basada en la evidencia proporcionada por sus puntuaciones.

Caprulo 12: La validez de los resrs

;?ricometrla: Teora de los tests psicolCgicos y ediccutivos

p i a h s para individuos e instituciones, y especialmente evitar las consecuencias adversas" (p.6).

TABLA 12.1. Facetas

Validez de contenido, que expresa el grado en que el contenido de un test

Uso del test

Cuando se selecciona un test para un propsito particular, el usuario debe tener

12.2. Validez de contenido

Psicometria: Ttora de los restspsicoldgicos y educativos

Captulo 12: Lo validez de los tests

Histricamente, la nocin de validez de contenido ha sido conceptualizada de tres

En la validacin de contenido deben seguirse las siguientes fases:

1) Definicin del universo de observaciones admisibles.

- reas de contenido que se deben cubrir.

- Procesos que se evaluarin.

- Importancia relativa de los diferentes tpicos y procesos.

2) E s l i w t ~ r r ade la lureo de em/~ui~rjuri~ien~o

Psiconienia: Teora de los tesis psicol6gicos y educativos

Captulo 12.'Lo vulidez de los lests

cala de 5 puntos para expresar el grado de emparejamiento, en la que 1 indica un mal

12.2.3. Pt~blemascon la validacin de contenido

Un problema de los procedimientos propuestos anteriormente es que, aunque es

a i Porcentaje de items que se emparejan a los objetivos.

don&: N: nmero de objetivos

A medida que la razn se aproxime a 1, ms similares sern los dos tests.

A veces la validez de contenido se confunde con otros trminos que representan

340 Psicomerra: 7 eorfo de los resrr psicol6gicos y educarivos

Caprulo 12: Lo validez de los resrs

El criterio suele ser una variable o caracterstica de inters reafi(p.ej. rendimientos

12.2.4.Aplicaciones (le la volidet de contenido

1) Identificar un criterio relevante y un mtodo para medirlo.

12.3.2. La tcmporulidad del c.i.itci%~

12.3. La validez referida a un criterio

Coprulo 12 La volider de los ~ c s r s 343

1) Sesgos en el criterio, que incluye problemas como la contaminacin con

- Tiene el sujeto un trastorno depresivo en la actualidad? (Concurrente).

2 ) Criterios mltiples vs. criterios nicos. Desde los inicios de la Psicomeira y

Cap/rtlo t2: La vatictez de los resis

Psicomeniu: Teoria de los tests psicoldgicos y educativos

1) Del coeficiente de vulidez a la utilidad en la toma de decisiones. La utilidad

- Fiabilidad delpredicror y del crirerio. Bajos coeficientes de fiabilidad del test

Finalmente, las correlaciones entre un nuevo test y un test

12.3.4. Algunos criterios comunes

12.3.5.Procedimientos estadsticos utilizados en la validacidn referida a un criterio

a ) Un nico test predictor y un solo criterio: se utilizan los procedimientos de la

Psicomrna: Teora de los tests psicoldgicos y educativos

ra optimizar las decisiohGrealizadas con el test: tcnicas maximin, minimax

Coptulo 12: Lo volidez dc los tests

Dominio del iest

Dominio externo al test

poco en la prctica, aunque se han propuesto interesantes modelos tericos

12.4. La validacin de constructo

La psicologia se caracteriza por el estudio de la conducta y de los atributos que