Академический Документы
Профессиональный Документы
Культура Документы
- .-
SUBIECT IDENTIFICATION
WEiHT
SUBTEST
TRIED
RIGHT
PERCENT
ABILITY
S.E.
DOCUA
21
16
0,7619
1 - 0,0610
0,7707
DOCUA
21
II
0,5238
-1,1467
0.6920
1
1.o0
2
1.O0
~ A P ~ T U L1 2O7
l
I
Como con otros muchos conceptos de la Psicologa, una breve revisin de la evoluci6-n histrica del trmino. puede ayudamos a aclarar el significado del concepto,
que ha cambiado considerablemente en los ltimos 40 aos (Angoff. 1988).
Convencionalmente la validez se define como "el grado en que un test mide lo
qucpretende medir'. definicin que no ha cambiado si la comparamos con una de las
definiciones antiguas. como la de Garren: " l a validez se refiere al grado en que un
test o un conjunto de operaciones mide lo que dice medir" (1 937, p.324). El problema
se encuenha a la hora de operacionalizar dicho grado de relacin y es ah donde ha
habido una gran evolucin histrica.
Durante muchos aos prim6 una aproximacin pragmtica, empfrica, e incluso
atenca, motivada por la perspectiva utilitaria de las aplicaciones de los tests y el operacionalismo dominantmn la filosofa de la cicncia. Una breve revisin de las principales definiciones de validez dadas antes de 1950, nos confirmar esta impresin. As,
Bingham define la validez cn trminos puramente operacionales como " l a correlacin entre los pi~ntrracionesde un test y o1,pririu otra medida objetiva de lo que el test
in!ento medir" (1937. p.2 14). Guilford la define de un niodo muy similar: "de una
forma muy general. un tesr es vlido para aqtrello con lo que correlaciona" (1946,
p.49). Cureton (19-50) tambin define la validez como la correlaciri entre las puntuaciones observadas del test con las verdaderas del criterio, pero ya introduce algunos matices tericos. distinguindola del poder predictivo del test, al que considera
como correlacin entre puntuaciones verdaderas y observadas del test y del criterio;
diferenciando este a su vez de la relevarrcia. a la que define como correlacin entre
puntuaciones verdaderas de ambos. En la prctica, y tal como seala Angoff (1988).
fue el uso de la validez en su sentido predictivo la que domin la escena psicomtrica
hasta los aos cincuenta y cita como ejemplo el ambicioso programa de la Air Force
A~iarionPsycliolo,py g?. F l a n a p , 19-18).
Durante este mismo periodo se fue introduciendo otro tipo de validacin por critenos. la valide: coricirrrenle IAPA: XERA. 1954), considerada como la correlacin del
test con un criterio. difiriendo de la concepcin predictiva anterior en que la recogida
de las puntuaciones d e ambos se realizaba simultneamente. Desde este punto de vista. se aceptaba como evidencia de la validez de un test la correlacin de ste con alguna d i d a aceptable del raspo en cuestin.
Oa caracterstica distintiva de la aproximacin con~elacional(correlacin testa-irerio) fue el uso de criterios conductuales y la conceptualizacin de los criterios en
rrminos de conductas observables.
Pronto se vio que esta comxptualizacin de la validez ligada a criterios extemos resultaba demasiado restrictiva, y3 que, aunque directamente aplicable en contextos de seleccin con finalidad esmcialmnte predictiva, no serva para otros muchos tests en 10s que
ellas mismos constitu>.en su propio criterio. como es el caso de los tests de rendimiento,
competencias, trastornos de conducta. etc. Esto llev a una primera ampliacin del conL T ~ O& validea definida ahora adems como "el grado en que su contenido representa
una niunrm sufu$actoria del dominio". apareciendo el concepto de validez de contenido.
Cm tipo de validez que fue popular durante los aos cuarenta fue el de validez
aporenie (Mosier. 1947), aunque nunca se le concedi mucho inters terico en la
Psicanetda
33 1
y educativos
,
l
i1
&;. $
333
En segundo lugar, y como sucede con la fiabilidad que no es de un test "per se",
sino de unas medidas que representan a las puntuaciones verdaderas, y que en la perspectiva de la TG depende del objeto y de las facetas, los tests o instrumentos tampoco
tienen una validez, sino que utilizamos las puntuaciones de los tests para un propsito
particular, para hacer inferencias concretas; por tanto, diferentes tipos de inferencias
de las puntuaciones de los tests pueden requerir distintas evidencias, es decir, datos,
hechos, justificaciones racionales distintas, que ciinenten las inferencias extradas de
las puntuaciones. En otras palabras, suponiendo un conjunto de preguntas especficas
a las que el psicdlogo pretende responder usando el instrumento de medida, hasta
qu. punto son adecuadas las respuestas proporcionadas por las puntuaciones de los
tests? La ventaja de esta definicin es que liga la validez a unas necesidades especficas. Podemos buscar en el contenido del test, con relacin al dominio o contenido de
referencia; podemos examinar los procesos que subyacen a las respuestas a los items
del test; podemos preguntarnos acerca de la relacin entre las puntuaciones de los
tests y otras medidas externas. Estas variedades de evidencia no son alternativas, sino
complementarias. Desde este punto de vista es desde el que suele hablarse de tipos cle
validez. Por ejemplo, hasta que punto es til un test para predecir el xito en un puesto de trabajo?; Les vlido el test para determinar el nivel de conocimientos de un sujeto adquiridos en un curso?; hasta que punto el test mide el grado de sociabilidad del
sujeto?... Puede haber docenas de preguntas similares y los metodos usados para responder a ellas pueden diferir. La naturaleza de la validez vara en funcin de la cuestidn especfica considerada. Un procedimiento de medida puede resultar sirniili'aneamente vlido e invlido; es decir, sus puntuaciones pueden ser vlidas para deterrninados usos o inferencias, pero no para otros.
En tercer lugar, mientras quc la fiabilidad de una puntuacin observada dcrivntl~i
de un procedimiento de medida, puede describirse nuiiiricainente por medio tlc iiii
coeficiente de fiabilidad, error tpico de medida o una funcin de informacin, la validez no puede resumirse de forma adecuada por un ndice nuiiirico; no hay ti11 nico
coeficiente de validez. Los diversos estadsticos denominados coeficietites (le ~~rlidez
descritos en los manuales de los tests, trabajos de invesiigacin. eic., son descripiores
numricos de lafirerza o grado de algunas de las evidencias empricas de la validez.
Finalniente, puesto que la validez es el grado de adecuacin de las piiriiiiaciones
de un test para un uso particular, la i~1lirlrrcir5irde los tests es el proceso dc :iciiiiiul:icidn de pruebas y evidencias que soporten dichos usos e inferencias. El proceso tle validacin puede estar formado por muchos subprocesos independientes.
Ep resumen, y como seala Cronbach (1984) "la metlifiiial de la validocidir rs lo
explicacidn y la con~prensiiiy por toiito sto nos lleva a coiisiderni. que lodo ~~nlidacin es i~alidaciirde constrircto" (p. 126). En la misma obra Cronbach destaca que las
tradicionales tres formas de validez no pueden considerarse alternativas, sino esirategias de investigacin diferentes.
Otra consideracin importante que tiene que ver con la validez es la de las consecuencias sociales del test, ya que el uso de los tests est generalizado en todos los mbitos de la vida cotidiana y en este sentido, Cronbach (1988) seala que "...debeligar
conceptos, evidencia, consecuencias sociales y personales y valores ... y los validadores tienen la obligacin de revisar si una prctica tiene o no las consecuencias apro-
334
''..---
335
facetas diferentes y se basa en diseos y anlisis de datos distintos, las abordamos por
separado. Presentamos a continuacin una breve definicin de cada una de estas categoras, antes de pasar a considerar cada una en detalle:
/o)
de la validez de un test.
Interpretacin
del test
Bases de evidencia
Validez de Cons~nicto
Validez Consiructo +
RelevanciaAJtilidad
Bases de consecuencias
lrnplicaciones de valor
Consecuencias sociales
Estas cuatro bases son 1) resumen inductivo de la evidencia convergente y discriminante de que las puntuaciones del test tienen una inierpretacin de constructo, 2)
evaluacin de las implicaciones de valor de la interpretacin del test, 3) evidencia de
la relevancia del constructo y de su utilidad en aplicaciones particulares y 4) estimacin de las consecuencias sociales potenciales del uso propuesto del test y de las reales cuando se usa.
Una distincin similar entre interpretacin y uso fue establecida ya por Cronbach
(197 l), cuando diferenciaba entre uso del test para describir una persona y para tomar
decisiones acerca de ella.
A continuacin presentamos las categoras de la validez. siguiendo el esquema
tradicional. que como.hemos visto encaja dentro del marco unificador: contenido, criterio y consmcto. Las tres son aproximaciones a la dimensin "bases de evidencia"
de la tabla La segunda dimensin, aunque muy importante, no ser abordada aqu,
pues est ms ligada a otras materias como Evaluacin Psicolgica, Diagnstico, etc.
Unicarnenta trataremos ciertos aspectos estadsticos bajo el captulo "Evaluacidn del
funcionamiento diferencial de los i t e m y tests".
Insistimos de nuevo en que estas hirs categoras o aproximaciones a la validez son
diferentes w c t o s de un nico concepto y que todas ellas se aglutinan bajc la validez
de constructo. No obstante, por razones didcticas e hisdricas, como cada una aborda
.
l
,I
Convencionalmente, la validez de contenido se define en trminos de la adecuacin muestra1 de los items de un test. en cumto muestras de un dominio mis amplio
de items representativos del constructo/conducta. El propsito de un estudio de validacin de contenido ser pues establecer el grado en que el conjunto de items del test
representa adecuadamente un dominio de conductas de interks especfico. Por ejemplo, en un test de vocabulario, el usuario raramente estar interesado en el conocimiento por parte del sujeto de las palabras concretas del test. Suen (1990) considera
insuficiente esta definicin, ya que no tiene en cuenta la posibilidad de la medida con
facetas mltiples (como la hace la TG) y da una definicin ms generalizada como
.-
336
337
"tipo de evidencia que apoya el uso de muestius de los niveles de las facetas como
adecuadas y 1 epresentativas del universo".
338
El valor ms alto posible de congruencia del item es 1,00, y slo puede alcanzarse
cuando un item es emparejado solo a uri objetivo por todos los jueces.
El porcentaje de objetivos no cubierto por un conjunto dado de items es un ndice
de hasta qu punto el dominio entero de contenidos est representado por los items.
Aunque la validacin de contenido es esencialmente un proceso de juicio, algunos
autores siigieren utilizar tcnicas estadisticas para resumir cuantitativamente la evidencia de la validez de contenido. Nunnally (1978) y Tucker (1962) sugieren usar
anlisis factorial y Bohrnstedt (1970) el anlisis de conglomerados. En la prctica, se
utilizan los procedimientos de juicio antes sealados.
3 ) Aspectos del item que sern c.xaminados. A los jueces se les presentarn descripciones claras de las caracteristicas de los items y del dominio que tienen que considerar. Algunas frecuentes son: la materia, proceso cogiiitivo, nivel de complejidad
de la respuesta requerida, modo de respuesta, formato de presentacin, etc.
4 ) Resunien de los resultados. Normalmente en la validacin de contenido, las
decisiones son ms cualitativas que cuantitativas; no obstante se han propuesto alguresumir las decisiones de los jueces sobre los items. Los
nos ndices cuantitati~o?~ara
ms frecuentes son los siguientes:
media.
ci Correlacin entre el peso dado al objetivo y el nmero de items que miden el
objetivo.
d i fndice de congruencia item-objetivo
e / P o ~ e n t a j ede objetivos no evaluados por ninguno de los items del test.
Puesto que los diferentes lndices estin basados en diferentes lgicas, no suelen
llevar a las mismas conclusiones acerca del grado de ajuste entre un conjunto de items
y un dominio de contenido.
Los dos primeros ndices requieren un iimero de items elevado (100 o ms). El
tercer ndice est afectado por la varianza en el nmero de items que evalan cada objetivo y los pesos.
El cuarto indice descrito por Hambleton y Rovinelli (1977) puede usarse para evaluar el grado en que un item tiene validez de contenido para un conjunto de objetivos.
La frmula se basa en el supuesto de que en el caso ideal, un item se emparejar a un
solo objetivo del conjunto. En la recoleccin de datos se le pide al ji~ezque empareje
cada item con cada objetivo y le asigne al itein + 1 si mide el objetivo. O si no lo hace
y - 1 si no est seguro. El ndice de congrueiicia del item al objetivo se calcula mediante la frmula:
[12.11
339
Una medida de la similaridad de los dos tests la da la razn de los dos trminos de
la igualdad anterior, sustituyendo las varianzas error por sus estimadores:
contenido de los tests resulta irrelevante, sin sentido, infantil. etc., el resultado ser6
una pobre cooperacin por parte de los sujetos.
Nevo (1985) insiste en la investigacin sobre la validez a.parente dada su importancia en las actitudes hacia el test y propone tcnicas cuantitativas de evaluacin pidiendo a potenciales examinandos y otras personas no expertas en Psicologfa que evaIen lo adecuado de los items del test para la finalidad pretendida.
La validez aparente puede a veces mejorarse reformulando los items del test a
otros ttnninos que parezcan relevantes a la situacin particular.
En ocasiones no es deseable que el test tenga validez aparente. ya que los sujetos
pueden intuir fcilmente lo que pretende medir el test e inducirles al falseamiento de
las respuestas.
La validez c u r r i c u k r se refiere al grado en que los items son relevantes para los
objetivos del curriculum tal como son formal u oficialmente descritos. La validez instruccional indica si los profesores han proporcionado instruccin en los contenidos y
destrezas medidos por los items del test.
34 1
Aunque la validez de contenido es importante para todos los tipos de tests, es absolutamente necesaria en la valoracin de los tests de rendimiento educativo y ocupacional, ya que permite responder a las dos cuestiones bsicas sefialadas al principio, la
relevancia y le representatividad:
- (..#
\c
N / -
12.3.1. Concepto
(' En muchos casos el usuario de un test quiere hacer inferencias de las puntuaciones,
del test a la conducta del sujeto en algn criterio de rendimiento externo al propio test.?
La evidencia relacionada al criterio suele considerarse desde dos perspectivas distintas, una en trminos de reliiciones predictivas y la otra concurrentes. que iiicitleii eii
el diseo de la recogida de los datos eii cuanto al momento de recogida.
La validez pirdictiva se refiere a1 griido en que las puntuaciones del iesi picdiceii
medidas del criterio tomadas posterioriiiente. es decir, los conductiis t'iituii~sdel s:.jc(c)
en el criterio.
refiere al grado en que I;is putitunciones del test correlaLa volic/et~concrri~~~e~~te)se
cionan con las del criterio, medidas al iiiisnio tiempo, es decir, con la sitii:icicii iiciii;il
del individuo en el criterio.
f L a a d e e de una uotra f o m ~ d rel;icin.&p~nde!~
e
I;i funciii o propsito
d&est:
seleccin, clasificacin, rendimiento e n una materia, certificaci6n o djign6stico para la intervencin, La validacin concurrente no es simplemente un sustituto f i D w d i c t i v a , como se consider durante mucho tiempo, sino que para algunos usos del test es el procedimiento adecuado.
En las decisiones de seleccin, las personas son aceptadas o rechazadas para un
tratamiento (puesto de trabajo, escuela, programa de formacin, etc.). En las decisjones de cIagificaci6nhay-dos o ms categoras o tratamientos y todas las personas son
asignadas
a una categora
Cuando los tratamientos alternativos representan unz se-- ---..-.-. d
- -L
y educulivos
312 Psicomeirlo; Teoria de los i ~ ' s r spsi<i~l~icos
- ."
cuencia ordenada como los diferentes cursos escolares, se habla de colocacin. Otra
diferenciacin importante de las decisiones de lo\ t i @ =refiere a su-uso predictivo o
osacr-d
estamos i n t e r e s a d o ~ n _ ~ - ~ r - ~ ~
responder
II~eto
s
bien al tratamiento: enel segundo caso, se necesita idenificar c o n o c i m i ~ t u @!sujet o ~ o ~ , ~ d e _~_ ~ -~~ ~ i d@ Mod e tra&miento~Asuyez,
s
la identificaci63d~necesidade<es s e @ r a b . e & +prescr$cin de t r a t ~ n t o s S y Ytests
s puedenvalidarse=m&<epara
dichospro@s&i. Cuando el uso previsto es predictivo,
-- cuando es de_dia@6$@0, lo es ms la
esGaSadecuada la-vadez p r z c t i v -a , -pero
coprcente.
I\lo obstante. la validacin predictiva es ms diccil de llevar a cabo, puesto que
requiere un tiempo de espera, perdihdose con frecuencia sujetos de la muestra. Por
tal motivo. suele sustituirs~undiseo predictivo por otro concurrente. En algunas situaciones esta prctica puede ser peligrosa. A veces. el predictor (test) puede estar influido por experiencias posteriores del sujeto.
la s e g ~ c d a dcon la que podeFinalmente, algunas veceszs!cmos interesados
mosegimarel grado en que unindividuo posey un rasgo determinado eri el pasado.
En estas circunstancias hablaramos de wlidez posrdictiva o retrospectiva.
La distincin entre estos diseos de validacih y su aplicacin segn la pregunta O
inferencia a realizar. puede observarse fcilmente en las dos preguntas siguientes, referidas a un cuestionario de rimtornos depresivos:
Para establecer la validez de un test con respcclo a un criterio, los criterios deben
cumplir una serie de requisitos, tales como ser relevantes, fiables, libres de sesgos y
distorsiones y fciles de obtener (Smitti. 1976). Hay otras cuestiones ms complejas
tales como si el criterio es uno o mhiple. si ser global o una combinacin ponderada
de varios elementos. si es dinmicc o estable y si es final, intermedio o inmediato.
Esta ltima cuestin es la que ha recibido nis aicricin en la literatura psicomtrica,
desde que Thorndike (1949) expres que: "el cr.iro.io ilrirno es la n~etafinalde cualcpier tipo particidar & selecciri o forniocin" (p. 12 1 ). Frente a ellos se encuentran
los criterios inmedioros que son aspectos del rendiiniento evaluados en las situaciones
aplicadas, para tomar decisiones, y son del tipo de registros de produccin, calificaciones de los supervisore's, notas obtenidas en iiii programa o curso, etc. Una distincin similar es la establecida por Astin (1964) entre criterios conceptuales y medidas
del criterio. Estas distinciones han llevado a la pregunta de jcmo evaluar el criterio
conceptual o el criterio iltimo?". Kavanagh et al., (1971), consideran que esta pregunta puede subsumirse en la validacin de constructo del criterio. Esta consideracin
prermite establecer los riesgos de la medicin de los criterios, que no son ms que las
amenzas a la validez de constructo (Cook y Campbell, 1979). Bajo este punto de vista comentaremos brevemente cules son estos peligros y riesgos:
344
Hay varios problemas potenciales que pueden afectar a lvs nmltados de este tipo
de validacin. Los ms comunes son: identificacin y medida del criterio, tamaiios
muestrales insuficientes, contaminacin del criterio, falta de fiabilidad de las medidas
de predictor y10 criterio y restriccin del rango de variabilidad.
3) Validacidn de constructo de los criterios. Guion (1976) aboga por la validacin de constructo de los criterios, dando prioridad a las dimensiones crticas que diferencian entre buenos y malos rendimientos, as como la deteccin de variables moduladoras que intervienen en las relaciones predictor-criterio. Dentro de este marco,
Frederiksen (1986) propuso la similaridad de constructos del predictor y del criterio.
34.5
ciones del test y las del criterio, presenta varios problemas ligados a la naturaleza dc
la correlacin. Afortunadamente, algunos de estos problemas tienen solucin, ya qiic
bajo ciertos supuestos, la psicometra permite corregir dichas estimaciones de! coco
ficiente de validez. Estos problemas y sus soluciones sern tratados en u n tema postcrior, limitndonos aqu a indicar su naturaleza.
autores citados, a cuyos trabajos nos referiremos ms adelante, proponen una serie de
tcnicas estadsticas para corregir estos probleinas de falta de generalizacin.
l
l
348
349
7
-
d
e
e exierno
n
t
la acumulacin de evidencias que apoyan que la puntuacin del test es una de sus manifestaciones. Cuando se establece la validez de constructo, pueden hacerse inferericias o interpretaciones del test.
350
shrlm
3 ) Anlisis factorial
Esta aproximacin fue desarrollada como un medio de identificar rasgos psicolgicas y es especialmente relevante para la validacin de constructo. desde el punto de vista & la vaiidez del rasgo. Bsicamente, es una tcnica estadstica para analizar las inter-
35 1
correlaciones entre datos observable>.iiiiplica obtener p medidas de los mismos examinados (items del test U otras variables). calcular la matriz de correlaciones i, x p) entre
estas medidas y usar las tCcnicas del anlisis factorial para encontrar uri nmero reducido de variables no observables, denominadas factores, que explican la covariacin del
conjunto original de variables. En el captulo 16 explicaremos con ms detalle esta tcnica, pero indicaremos aqusu posible aplicacin a la validacin de constructo.
En los diseos de validez del rasgo, se parte de la matriz de correlaciones entre los
p items del test, y se buscan agrupaciones de los items predecibles desde la teora. Las
variaciones en las respuestas a items que van juntos, pueden atribuirse a variaciones
entre los examinados en un factor latente. Este factor, que no es directamente observable, puede considerarse un constructo definido por el conjunto particular de observaciones empricas (los items).
Despues de que los factores son identificados, pueden utilizarse para describir la
composicin factorial de un test. Cada uno de los factores se caracterizar en trminos
de las variables que determinan sus puntuaciones.
En otros casos se parte de una matriz de correlaciones entre las puntuaciones de p
tests, entre los que suele encontrarse el que es objeto de validacin. Por ejemplo, si se
aplican 20 tests a 300 personas. el primer paso ser calcular las correlaciones de cada
test con todos los dems. Una inspeccin de la matriz resultante de 190 correlaciones
puede revelar algunos grupos de tests, sugiriendo la presencia de algunos rasgos comunes.
En la misma lnea del anlisis factorial. especialmente en el dominio de la personalidad, se dice a veces que el test ha sido validado por el procedimiento de la consistencia interna. La caracterstica del mtodo es que el criterio es la puntuacin total eri
el mismo test. Se busca que cada item diferencie en la misma direccin en la que lo
hace el test entero. Esta es una aproximacin incorrecta a la validacin, ya que como
se ha estudiado en el captulo 7, las medidas de consistencia interna lo son de homogeneidad de los items o de los subtests, pero su contribucin a la validez es limitada.
4 ) Matrices multimtodo-mul/ira.i,qo
constructo de inters. Adems se le pide al investigador que identifique otros constructos diferentes que puedan ser medidos por los mismos mtodos utilizados con el
constructo de inters. Se selecciona una muestra de N sujetos a los que se les aplican
todas las medidas de cada constructo y cada mtodo. Se calculan las correlaciones entre todas las medidas y se presentan en forma de una matriz (generalmente triangular
inferior), denominada Matriz Multimhtodo-Multirrasgo. Los diferentes coeficientes de
correlacin de la matriz pueden clasificarse en uno de los tres tipos siguientes:
correlaciones entre medidas del mismo constructo
usando el mismo mCtodo de medida. Debern ser muy elevadas.
a ) Coeficientes de fiabilidad:
352
Eii la tabla 12.2 se presentan las hipotticas correlaciones entre tres rasgos, cada
uno rnedido por dos rniodos diferentes:.
--
Mtodo I
AI
Mtodo 1: Autoinfonne
A l . Lidemgo
Bl. Sociabilidad
C , . Popularidad
'
Mt!odo 2. Evaluacin
de los compaeros.
A2. Lidemgo
B2. Sociabilidad
C2.Popularidad
81
Mtodo 2
CI
A2
BZ
C2
($95)
j0.28'--.@.86)
10
2:58
- - - - - 0,39----10.92)
- _ -----L
0,76
0.30
0,40
0.32
0,65
0.57
0.40
0.3 1
0,60
$0,951
;0 3 P - - - SJ0.76)
353
de validez convergente son los ms altos de la tabla (excluidos los valores de la diagonal de fiabilidad). Con respecto a la validez discriminante, hay algunas coi~elacionc\
entre Al y C I y en!re A2 con C i . que son muy elevadas y es posible que no sean significativamente distintas de C , y C,, lo que puede hacer surgir algunas hiptesis rivales.
que convendra explorar con ms detalle.
Hoy, la tkcnica ms utilizada para el anlisis de estas matrices son los procedimientos de An1isi.r Factorial Cotfirmutorio (Kenny y Kashy, 1992; Joreskog y Sorbom, 1993; Marsi?. 1989, 1990). El lector interesado puede consultar el artculo dc
Schmitt y Stults ()986), para una revisin de las aplicaciones.
Los coeficientes de fiabilidad estn entre parntesis. Los coeficientes Irelrrorrusgo-r;ionomtodo estn dentro d e tringulos con lneas slidas. Los coeficientes de validez convergente. que son las correlaciones de las puntuaci,ones del mismo rasgo, medido con diferentes mtodos esthn destacadas en negrilla. Estas deben ser estadfsticamente significativas y suficientemente elevadas. Estas correlaciones adems sern
mayores que las que aparezcan en el trihngulo heterorrasgo-heteromktodo. que se refieren a vafiables que no tienen nada en comn. Tambikn sern mayores que las correlaciones de los tringulos heterorrasgo/monomtodo. Si se da esta ltima circunstancia, se tendrn pruebas de la validez discriminante.
La falta de convergencia entre rridtodos indicar que hay demasiada varianza especfica ligada al mtodo o que los mtodos no estn midiendo los mismos constructos.
Campbell y Fiske recomendaron este procedimiento como un instrumento heuristico, no como un procedimiento analtico y, por lo tanto, se basaron en la inspeccin
visual de la matriz. Si observamos la tabla 12.2, puede verse que los tres coeficientes
Col~itulo12: Lo validez de
Otra aproximacin para tareas realizadas en tiempos cortos y difcilmente captablcs por introspeccin es el anlisis cronomrrico (Stemberg, 1977) que contrasta los
tiempos de respuesta entre tareas que difieren en carga de procesamiento.
Los modelos matemticos de ejecucin de las tareas tambiCn se usan con frecuenc i i empleando medidas de los procesos subyacentes.para explicar la probabilidad de
ura respuesta correcta como funcin de la dificultad del item y la posicin del sujeto
et. el rasgo. Los modelos multicomponentes son una combinacin de los dos tipos de
modelos anteriores (Embretson, 1984; Fischer, 197 1; Fischer y Formann, 1982).
Una aproximacin diferente es la de los correlatos cognitivos (Pellegrino y
Ghser. 1979), aproximacin en la que se forman grupos contrastados de sujetos con
izas y bajos rendimientos en el test y que son comparados en tareas sencillas de labor~nrio.
Hay adems otros p)ocedimientos menos frecuentes, tales como el at~lisisde ra: , : w s en l que se les pide a los sujetos que justifiquen la eleccin de la respuesta.
TxnbiCn se ha propuesto el arrlisis de los niovimientos oculares, muchas veces en
combinacin con el anlisis de los protocolos verbales.
En estas diferentes aplicaciones se ha detectado con frecuencia que distintos sujeti,s realizan las tareas de diferente forma e incluso el mismo individuo puede cambiar
de item a item o de ocasin a ocasin, es decir. los individuos difieren consistentern-nte en sus esrrate~icrs estilos de rcolizacitjti de lo tarcu.
12.5. Ejemplos d e preguntas e inferencias tpicas d e las distintas estrategias
de validacin
A lo largo de este captulo se ha insistido en la validez de constructo como el tipo
y como
;i;lutinantc de los restantes tipos de validez, a travs de una red como la presentada en
11 figura 12.1. Se ha destacado adems la vrilidez de un test como grado de adecuai ~ S nde 1% inferencias que se establecern con sus puntuaciones. Desde este punto de
:Sta y bajo el marco terico unificador de la validez de constructo. hay ciertas estrate-sias de \didacin nis o menos iniportantes segn el tipo de inferencias realizadas a
p n i r de las puntuaciones y del propsito del test. En la tabla 12.3. presentamos de
forma resumida las estrategias de validacin ms adecuadas segn el tipo de pregunta
2 la que pretendamos responder con las puntuaciones del test. Consideramos como
c?emplo un hipottico test de Matemticas.
'. ..
..
resrs
35.5
Pregunfu tpica
Validuciciri
Medir el rendimiento
de alumnos de 8 de EGB
iCubto ha aprendido
Enrique en el curso?
Contenido
Cmo rendir&Enrique
en el futuro BUP?
Criterial-predictiva
Muestra la ejecucin
de Enrique algn tipo de
disfunciones especficas?
Criterial-coricurrenie
Constructo
obstante, al exponer en este tema los problemas de los criterios y la evolucin de csic
concepto de validez, mencionamos la nocin de utilidad en las decisioiies. Tambi6ri
se mencionaron procedimientos ligados al concepto de utilidad, al coincniar los mtodos utilizados en la validez de criterio. Parece pues que el concepto de utilidad en I:i>
decisiones va adquiriendo cada vez m i s importancia en la Psicometra. Por razones tlc
espacio y por la escasa utilizacin que tienen por el momento en las aplicaciones. no
podemos dedicarle un tema completo a estos conceptos, pero en este apartado inteniamos iniciar al lector en esta importante cuestin.
Consideraremos nicamente la prediccin de criterios discretos, caso al que en la
practica se reducen la mayor parte de las decisiones y, en particular, a criterios dicotmicos. Esta situacin, cuando la decisin con el test es admitir vs. no admitir, queda
bien reflejada en la tabla 12.4
TABLA12.4. La5 decisiones de selccciii
Decisin con el Tcst
En los temas que siguen se tratarn diferentes procedimientos estadsticos para diferentes cuestiones de la validez de los tests, tanto de criterio como de constructo.
Todos los mttodos y conceptos presentados estn ligados a modelos lineales correlacjonales. La necesidad de dedicarles temas especificas s e debe a la importancia que
tienen estos modelos tanto en la teora psicomCtrica. como en las aplicaciones. No
10s
Situacin en el
criterio de
rendimiento
Admitido
No adniitido
Alto
A (VP)
C (FN)
A+C
Bajo
D (FP)
B (VN)
B+D
A+D
C+B
356
A partir de- la tabla podemos sacar algunos conceptos importantes que utilizaremos al tratar de la utilidad. En primer lugar podemos ver que de las decisiones de la
seleccin se derivan 4 resultados posibles, denotados por las letras A , B. C y D.
Utilizando tenninologa de la Teora de la Deteccin de Sehales. estos resultados son
los sigbientes:
1) A: Aceptados en el test y con rzndimiento satisfactorio en el criterio, grupo al
que se denomina Verdaderos Positivos (VP).
2) B: Rechazados en el test y con bajo rendimiento eR el criterio, grupo denominado de Verdaderos Negativos (VN).
3) D: Aceptados en el test y con rendimiento insatisfactorio en el criterio o
Falsos Positivos (FP).
4) C: Rechazados e p el test y con rendimiento satisfacforio en el criterio o Falsos
Negativos(FN).
Algunos otros datos de la tabla tambin sern importuntcs a la hora de valorar los
resultados de la seleccin.
Otros conceptos importantes que sern de ~itilidadm i s delante son los siguientes:
- (A
Verd;ideros
posiiivos
Alios
Criterio
Bajo
Falsos
positivos
Verdaderos
negativos
Rechazar
Xc
Aceptar
Predictor
Figura 12.2. Resuliados de las decisiones de seleccin.
357
Observando la figura podemos ver que, en general, la proporcin relativa de predicciones coiTectas y de errores es funcin de tres factores:
I
I