Tema 2 Apuntes

Tema 2
La evaluacin psicomtrica
de la inteligencia
Profesor: Daniel G. Manjn
Tema 2: Evaluacin psicomtrica de la inteligencia
NDICE DE CONTENIDOS
Introduccin
Parte I: Principios y supuestos bsicos de la evaluacin
psicomtrica
A. La aplicacin de un test como experimento psicolgico.
B. El rendimiento en los tests como signo de las aptitudes.
C. La evaluacin de la inteligencia como medicin de aptitudes.
D. Distribucin normal y normas de los tests.
Parte II: Propiedades psicomtricas de los tests y calidad de la

evaluacin
A. La cuestin de la fiabilidad.
B. La cuestin de la validez.
1.Validez de contenido.
2.Validez criterial.
3. Validez de constructo.
Parte III: Las puntuaciones y los ndices de los tests de

inteligencia
Parte IV: Principales instrumentos de evaluacin de la
inteligencia y las aptitudes
A. Instrumentos de exploracin global de la inteligencia.
B. Tests factoriales.
Parte V: Perspectiva crtica y tendencias actuales
INTRODUCCIN
Como tuvimos ocasin de comentar a lo largo del primer captulo, en el enfoque

tradicional de la Psicologa Diferencial se considera la inteligencia como un atributo o
rasgo psicolgico (o una serie de ellos: las aptitudes mentales) que cada persona posee
en grado variable. Esas aptitudes mentales se consideran, por definicin, como entidades
no directamente observables y causa latente del rendimiento en las tareas intelectuales.
Desde este presupuesto, la Psicologa Diferencial ha desarrollado a lo largo de un siglo un
amplio conjunto de instrumentos, los tests de inteligencia, que constituyen su recurso
fundamental en la evaluacin y el diagnstico psicolgicos (tambin en la investigacin) y
que son concebidos, bsicamente, como instrumentos de medida de las aptitudes, lo que
justifica la denominacin con que suele designarse a esta aproximacin: enfoque
psicomtrico.
Pero en qu consisten los tests de inteligencia? qu propiedades debe tener un buen test
de inteligencia? cules son los supuestos y principios especficos en los que se basa su
construccin y aplicacin? cul es su utilidad en la evaluacin psicolgica en la infancia y
la adolescencia? cmo deben interpretarse? cules son los principales tests de
inteligencia?... Estas son las principales cuestiones de las que nos ocuparemos a lo largo de
este tema.
I. PRINCIPIOS Y SUPUESTOS BSICOS DE LA

EVALUACIN PSICOMTRICA
A. LA APLICACIN DE UN TEST DEBE CONSIDERARSE COMO
UN EXPERIMENTO PSICOLGICO.
Con el fin de garantizar la validez de los resultados obtenidos con la aplicacin de un test a
un individuo, un principio bsico en este enfoque es que dicha aplicacin debe replicar de
forma escrupulosa las condiciones en que se valid originalmente el instrumento (por lo
general, una situacin de neutralidad por parte del examinador, que debe repetir al pie de
la letra unas consignas completamente especificadas y actuar segn un guin
preestablecido).
Este primer principio responde al hecho de que la validacin de un instrumento de
evaluacin psicolgica no es algo que ocurra de una vez para siempre, sino que se pone a
prueba cada vez que se raliza una aplicacin. No obstante, la insistencia en las condiciones
de la aplicacin no parece que sea suficiente para garantizar la validez del test, de su
aplicacin concreta, pues como nos recuerda Silva (1989:110), la validez est
relacionada con las inferencias que se hagan a partir de las puntuaciones obtenidas
mediante un instrumento en determinadas circunstancias, no slo por las condiciones
en que se obtienen dichas puntuaciones.
Dicho de otro modo, la validez de un test se pone a prueba en cada aplicacin que
realizamos del mismo, tanto por la adecuacin de las condiciones en que se lleva a cabo,
como por la interpretacin que realizamos de los resultados obtenidos.
B. EL RENDIMIENTO EN UN TEST COMO SIGNO DE LAS

APTITUDES SUBYACENTES.
Como ya se ha dicho, para el enfoque diferencialista lo que interesa en la evaluacin de la
inteligencia no es tanto el comportamiento en s del individuo frente a las tareas, como esos
rasgos psicolgicos subyacentes denominados aptitudes.
Puesto que estas aptitudes son constructos psicolgicos inobservables a los que se otorga
valor explicativo con respecto al rendimiento intelectual, la evaluacin psicomtrica de la
inteligencia es, por definicin, una evaluacin indirecta, inferencial, una estimacin basada
en la representatividad de las tareas realmente propuestas al sujeto con respecto al conjunto
de comportamientos que se suponen determinados por las aptitudes examinadas.
Es por ello por lo que se dice que el rendimiento del individuo en un test de inteligencia es
un signo de su aptitud, es decir, una manifestacin indirecta y representativa de sus
capacidades subyacentes, de modo que uno de los problemas fundamentales en toda
evaluacin psicomtrica es llegar a determinar que, efectivamente, las tareas de examen
empleadas son representativas de la aptitud supuestamente evaluada (lo que se conoce
como validez de contenido del test).
En ocasiones, no obstante, el problema no se plantea en trminos de la validez de
contenido del test, sino en trminos del grado en que las tareas que lo conforman son
realmente una muestra representativa del conjunto de conductas determinadas por la
aptitud examinada o, lo que es lo mismo, en trminos de su validez de criterio, que se
relaciona con la medida en que el rendimiento observado en un test de inteligencia es
capaz de predecir el rendimiento del individuo en otras situaciones (de predecir el
rendimiento acadmico, por ejemplo). Algo absolutamente fundamental desde el momento
en que, como ya se dijo en el primer captulo, lo que justifica la utilizacin de los tests
psicomtricos para la Psicologa Diferencial es su (supuesta) capacidad para predecir
conductas reales en contextos reales, al estar tanto stas como el rendimiento en el test
determinados por las aptitudes intelectuales subyacentes.
Se considere la cuestion desde una perspectiva o desde otra, en cualquier caso, lo que
debemos tener en cuenta es que la evaluacin con tests de inteligencia, dada su naturaleza
de medida indirecta de una aptitud subyacente a partir de un repertorio reducido de
conductas, debe acreditar siempre tanto su validez de contenido (demostrar que el test mide
la aptitud que dice medir) como su validez de criterio (demostrar que la situacin de
laboratorio que es el test es realmente capaz de predecir el rendimiento de los sujetos en
otras tareas de la vida real supuestamente relacionadas con la misma aptitud).
C. LA EVALUACIN DE LA INTELIGENCIA COMO MEDICIN

OBJETIVA DE LAS APTITUDES.
Por definicin, la evaluacin psicomtrica de la inteligencia constituye un proceso de
obtencin de medidas acerca de la aptitud intelectual del individuo, de modo que una de
sus grandes preocupaciones es la de asegurar la objetividad de las mediciones efectuadas.
Con este fin, el rendimiento de un individuo en un test es siempre cuantificado mediante
algn procedimiento (ms o menos) preciso que supone otorgar una determinada cantidad

de puntos por cada elemento al que responde correctamente (y, en su caso, detraerlos por
errores), de modo que al final se pueda obtener una puntuacin total del individuo en el
test, que sera el indicador de su aptitud. No obstante, este procedimiento general presenta
algunos problemas que deben considerarse.
En primer lugar, y sobre todo, cabe pensar que cualquier puntuacin en un test est sujeta a
errores de medida de muy diversa naturaleza, desde los atribuibles al sujeto (falta de
motivacin, cansancio,...) a los atribuibles a la situacin de examen, pasando por los
errores atribuibles al propio instrumento de medida.
Desde luego, las dos primeras fuentes de error citadas pueden ser relativamente
controladas con algunas estrategias, como la ya citada estandarizacin de la situacin de
examen, pero todo test encierra siempre imperfecciones de medida que deben ser
conocidas y, en la medida de lo posible, reducidas, ya que pueden afectar seriamente a su
fiabilidad, esto es, a su grado de precisin.
En segundo lugar, las puntuaciones directas de un test no nos dicen nada en s mismas
acerca de la inteligencia de un individuo: qu significa que un sujeto obtuvo una
puntuacin directa de, por ejemplo, 12 puntos en el test de Matrices Progresivas de Raven?
Para poder atribuirles un significado en el proceso de evaluacin, las puntuaciones directas
(o puntuaciones brutas) de cualquier test deben ser sometidas a un proceso de
normalizacin o tipificacin, de conversin a una escala estndar de medida.
D. DISTRIBUCIN NORMAL DE LAS APTITUDES

Y NORMAS DE LOS TESTS.
Esa conversin de las puntuaciones de los tests a una escala tpica de medida se basa, como
es conocido, en la determinacin de una serie de estadsticos de tendencia central y de
dispersin (media y desviacin tpica, especialmente, pero tambin moda y mediana), ya
que la evaluacin psicomtrica de la inteligencia asume dos hiptesis bsicas:
-
Las aptitudes intelectuales tienden a distribuirse en la poblacin de acuerdo con el

modelo de curva normal.
La evaluacin de la inteligencia es, en lo esencial, un proceso comparativo, en el que

los valores concretos logrados por un individuo cobran sentido al ser contrastados con
los valores tpicos, con las normas de los tests en la poblacin general de referencia.
La primera de estas hiptesis es la que permite que las puntuaciones brutas de los tests
puedan convertirse a una escala tpica de medida (por ejemplo, puntuaciones z) en la que,
realmente, lo que se hace es atribuir a cada una de ellas un valor ordinal, una posicin
dentro de la serie ordenada de puntuaciones que sirvieron de norma al construir el test...
Lo que, evidentemente, supone que la asignacin de valor a las puntuaciones de cualquier
individuo en el test se lleva a cabo de acuerdo con la segunda idea expresada: por
comparacin.
En este sentido, lo que en realidad nos dicen tales puntuaciones es que, comparado con tal
norma estadstica, el sujeto X se sita en la posicin Xi con respecto al resto de sujetos que
han sido examinados con la misma prueba, lo que hace que una de las cuestiones
esenciales en la construccin de cualquier test sea la seleccin de la muestra de validacin,

tanto en el sentido de su representatividad con respecto a la poblacin de referencia, como
en el sentido de su amplitud (de la cantidad de sujetos que la componen): si un test
presenta debilidad en este punto, cualquier interpretacin de los resultados de un individuo
en l ser, en esencia, gratuita.
El hecho, por tanto, de que los resultados se expresen en forma de un cociente de
inteligencia, de una edad mental, de un ndice general cognitivo, de un ndice de desarrollo,
de una puntuacin centil... no debe ocultar nunca que, en ltima instancia, de lo que
estamos hablando es siempre de una escala ordinal del tipo 1, 2, 3... en la que el tamao
y representatividad de la muestra van a determinar sustancialmente el juicio final que nos
merezca la ejecucin del individuo en el test.
No debe ocultar tampoco que, dada la estrategia de tipificacin de las pruebas de
inteligencia, as como la existencia de errores tpicos de medida en cualquier test, de lo que
estamos hablando no es, en realidad, de una valoracin del tipo la puntuacin de X lo
sita en la 45 posicin en una escala de 100 posiciones, muy precisa, sino de una
valoracin del tipo la puntuacin de X lo sitan entre las posiciones 40 y 50 sobre una
escala de 100 posiciones. Es decir, no debe ocultar que la escala de un test es siempre, y
por definicin, una escala aproximativa o de rangos; una escala, por cierto, en la que
cuanto ms se quiera incrementar la seguridad de que el resultado obtenido est libre de
error, ms amplios deben ser los rangos utilizados, como veremos ms adelante, al hablar
de los denominados cocientes de desviacin.
II. PROPIEDADES PSICOMTRICAS DE LOS TESTS

Y CALIDAD EN LA EVALUACIN
Como acabamos de ver, el enfoque diferencialista fa todo su valor en la evaluacin a la
calidad de los tests de inteligencia, por lo que resulta fundamental asegurarse de que estos
instrumentos de medida renen una serie mnima de propiedades psicomtricas que, segn
se ha expuesto, tienen que ver sobre todo con la validez de los tests, con su fiabilidad y con
el tamao y representatividad de las muestras utilizadas para construir sus normas o
baremos.
A. LA CUESTIN DE LA FIABILIDAD
Del mismo modo que, cuando realizamos medidas con una cinta mtrica, nos gustara que
fuera "de fiar", que no midiese hoy una cosa y maana otra distinta, de un test de
inteligencia debemos esperar que no nos ofrezca un resultado diferente cada vez que se lo
aplicamos al mismo individuo, y ese es el sentido bsico del concepto de fiabilidad de un
test. As, pues, cuando hablamos de fiabilidad de un test nos estamos refiriendo al grado en
que podemos confiar en las puntuaciones que nos ofrece al aplicarlo.
Dicho ms formalmente, lo que entendemos por fiabilidad de un test es el grado en que las
puntuaciones observadas al emplearlo coinciden con las puntuaciones verdaderas que
deberan obtenerse en el caso de que sus mediciones estuviesen libres de error... Slo que
al definir de este modo la fiabilidad tenemos un problema de gran importancia: puesto que
ningn test est completamente libre de errores de medida, es imposible conocer
directamente las puntuaciones verdaderas.

Para resolver este problema, que nos impide lgicamente establecer la fiabilidad absoluta
de un test, lo que se hace habitualmente es definir sta no como la relacin existente entre
puntuaciones observadas y puntuaciones verdaderas, sino como el grado en que las
diferentes puntuaciones observadas (es decir, las diferentes medidas) que nos proporciona
al aplicarlo a una misma muestra de sujetos son consistentes entre s, ya que todas ellas
deberan ser iguales si no existiesen errores de medicin" (Fdez Ballesteros y Carrobles,
1981:165).
En efecto, si aplicamos en varias ocasiones el mismo test a los mismos individuos y el test
est libre de errores de medida (si es fiable al 100%), sera de esperar que en todos los
casos las puntuaciones de cada uno de ellos fuesen siempre las mismas, de modo que
podemos establecer la fiabilidad del test observando el grado de coincidencia entre tales
puntuaciones. Por ejemplo, si aplicamos el mismo test a los mismos individuos en dos
ocasiones diferentes, evidentemente ser ms fiable si la coincidencia de las primeras y las
segundas puntuaciones es del 90% que si es del 50% (si coinciden al 50%, debemos
suponer que los errores de medida son mucho mayores que si la coincidencia es del 90%).
As, pues, para establecer la fiabilidad de un test lo que debemos hacer es comparar entre s
las puntuaciones obtenidas al aplicarlo a los mismos sujetos, pero debe observarse que, si
un test se aplica en dos momentos distintos, cabe la posibilidad de que haya entre las
puntuaciones observadas en uno y otro caso diferencias no debidas a problemas de
fiabilidad del instrumento, sino al hecho de que en ese lapso de tiempo hayan actuado ya
sea la maduracin del organismo o el aprendizaje (el instrumento mide correctamente, pero
la variable medida ha cambiado en sus valores entre la primera y la segunda aplicacin).
Este tipo de error de medida debido a la maduracin o el aprendizaje, as como otros
debidos a las condiciones en que se ha aplicado el test (p.e., el examinador no respeta
escrupulosamente las consignas que debe dar o muestra expresiones no neutras, ya sea de
apoyo y aprobacin o de desaprobacin, ante las respuestas del sujeto) o a las diferencias
en el estado psicofsico del individuo examinado, por citar slo dos ejemplos, son lo que se
denomina errores sistemticos de medida.
Los errores sistemticos de medida introducen diferencias entre las puntuaciones
observadas y las puntuaciones verdaderas, pero realmente no afectan a la fiabilidad del
test, pues se trata de diferencias explicables desde la teora y, en consecuencia, pueden ser
previstas y controladas, tomando las medidas oportunas en la construccin y en la
aplicacin del test.
Existe, sin embargo, un segundo tipo de errores de medida que no son explicables desde la
teora y no son, por tanto, ni predecibles ni controlables, en sentido estricto. Son los
denominados errores aleatorios de medida, que constituyen la autntica amenaza a la
fiabilidad de una prueba: La falta de fiabilidad de las puntuaciones est ligada a errores
aleatorios no sometidos a control y, en consecuencia, no predecibles (Martnez Arias,
1995:74).
En resumen, pues, el problema de la fiabilidad de un test es que, puesto que no puede
establecerse de manera absoluta, nos vemos obligados a establecerla de modo relativo,
comparando las diferentes puntuaciones obtenidas al aplicarlo a los mismos individuos.
Dicha comparacin nos permite apreciar la consistencia, el grado de correlacin existente
entre las diferentes mediciones que realiza el instrumento, lo que arroja una estimacin de
la parte de las mismas que es puntuacion verdadera y la parte que deberamos atribuir a

ese tipo de errores de medida llamados errores aleatorios, que no podemos controlar ni
en la construccin ni en la aplicacin de la prueba.
Ese grado de correlacin al que nos hemos referido, indicativo de la exactitud y precisin
del test, se expresa numricamente, por lo general, en forma de un coeficiente de
fiabilidad cuyos valores oscilan entre 0 y 1, siendo 0 el valor que indica absoluta
aleatoriedad de las medidas (carencia absoluta de fiabilidad del test) y 1 el valor que indica
ausencia absoluta de errores aleatorios (fiabilidad absoluta del test). No obstante, es
virtualmente imposible encontrar nunca esos valores extremos, por lo que el coeficiente de
fiabilidad de cualquier test estar en la prctica por encima de 0 y por debajo de 1, siendo
la exactitud de la medidas mayor cuanto ms se acerque a 1.
Por lo que se refiere a los procedimientos concretos para calcular ese coeficiente, no
existe un nico modo. Martnez Arias (1995:81), por ejemplo, describe tres estrategias
diferentes:
- Mtodo de formas paralelas. Se construyen dos formas paralelas (A y B) del test, se
aplican las dos formas a un mismo colectivo y se calcula el coeficiente de correlacin
entre ambos grupos de puntuaciones. Para este ltimo clculo suelen emplearse la
frmula producto-momento de Pearson o la ecuacin de Spearman-Brown.
- Mtodo del test-retest. Consiste en aplicar la prueba al mismo grupo de sujetos en
dos ocasiones sucesivas y calcular luego la correlacin entre las puntuaciones
observadas en ambas, que ser el coeficiente de fiabilidad del test. Este mtodo
admite realizarse con la misma prueba y con pruebas alternativas.
- Mtodos de consistencia interna. Estos mtodos no se basan en las correlaciones
entre puntuaciones correspondientes a aplicaciones sucesivas de pruebas, sino en las
correlaciones encontradas dentro de "una" aplicacin del test. Los dos
procedimientos bsicos para calcular la consistencia interna son el clculo de la
correlacin entre las puntuaciones de dos mitades del mismo test y el clculo de la
covarianza entre todos los tems que forman la prueba.
Cuando no existen formas paralelas, el coeficiente de fiabilidad empleado suele ser el
Alpha () de Cronbach, el coeficiente de Kuder-Richardson o los coeficientes L1, L2 o L3
de Guttman.
En sentido estricto, para establecer la fiabilidad de un test estos procedimientos deberan
realizarse sobre las puntuaciones obtenidas al aplicarlo a toda la poblacin objetivo del
mismo, lo cual es imposible en el tema que nos ocupa. Consecuentemente, los coeficientes
de fiabilidad se calculan a partir de las puntuaciones obtenidas con muestras de esa
poblacin objetivo, por lo que realmente no constituyen sino una estimacin probabilstica
de la fiabilidad real del instrumento.
Dicho de otro modo, incluso si el proceso de construccin de un test de inteligencia ha sido
slido, sus puntuaciones son estimaciones de las aptitudes que incluyen un margen de error
que debe tenerse en cuenta en su anlisis y valoracin. Si, por ejemplo, al obtener el C.I. de
un sujeto en una prueba dada, el baremo indica que es de 89, debe entenderse que
realmente ese C.I. se encuentra en una banda de valores en la que 89 es, aproximadamente,
el punto central.

Ello pone de relieve la gran importancia de atender a los coeficientes de fiabilidad en el
proceso de seleccin de las pruebas que utilizaremos en una aplicacin, un proceso en el
que deberamos examinar no slo los valores de dichos coeficientes, sino toda una serie de
variables que, como seala Martnez Arias (1995:91-92), inciden de manera determinante
en su valor como estimaciones de la fiabilidad de las medidas:
-
El tamao de la muestra utilizada para el clculo del coeficiente.
La representatividad de la muestra con respecto a la poblacin objetivo.
La independencia experimental de la medidas utilizadas para el clculo.
La identidad de la aplicaciones.
El disponer de dos o ms medidas para cada sujeto.
Junto a estos elementos, deberamos tener tambin en cuenta otros aspectos que influyen
en el valor de los coeficientes de fiabilidad, como son:
-
La variabilidad del grupo empleado como muestra (cuanto mayor sea, mejor ser la
fiabilidad de la prueba).
La longitud de la prueba (por definicin, cuanto mayor es la longitud de una prueba,

mayor es su fiabilidad).
B. LA CUESTIN DE LA VALIDEZ
Con ser importante, la fiabilidad de un test es una condicin insuficiente por s misma para
determinar su valor como instrumento de evaluacin, ya que una alta fiabilidad asegura
que estamos midiendo correctamente algo, pero... qu es lo que estamos midiendo?
Y es que no basta con que digamos que un instrumento mide tal variable para que ello sea
cierto: cmo podemos estar seguros de que es as?
Como sealara Cronbach (1984), el ms bsico y fundamental de los criterios de calidad
psicomtrica de cualquier test es, sin duda, la validez, un concepto que incluye al menos las
siguientes dimensiones: la validez de contenido, la validez criterial y la validez de
constructo.
1. Validez de contenido.
La validez de contenido hace referencia al grado en que los tems de un instrumento de
medida son una muestra adecuada del dominio o mbito que se pretende testar, esto es, al
hecho de si el instrumento examina la variable o variables que intenta examinar y si
examina todos los aspectos relevantes de la misma (Cronbach,1971).
El establecimiento de la validez de contenido se basa en el anlisis racional de los tems
que componen un instrumento de medida (por lo general, recurriendo al juicio de varios
expertos en la materia objeto de examen) y se define bsicamente como validez muestral,
esto es, como el grado en que los tems que conforman el test cubren el conjunto de
aspectos del dominio objeto de examen y el grado de relevancia de dichos tems con
respecto a tal dominio.

Secundariamente, la validez de contenido incluye la denominada validez aparente, que se
refiere a si los tems que conforman el test dan la impresin (aparentan) medir lo que
realmente pretenden medir.
Esta validez aparente es, desde luego, algo que a veces puede ser deseable en un
instrumento de medida y a veces no (por ejemplo, si incluimos una escala de sinceridad en
una prueba, no parece lgico que los tems elegidos manifiesten a las claras esa intencin),
pero la validez muestral es un requisito absolutamente indispensable para cualquier test de
ejecucin, incluidos los tests de inteligencia, de modo que todo test de esta naturaleza
deber dar respuesta satisfactoria tres preguntas clave:
-
Son los tems elegidos apropiados para el test y ste mide el objeto que interesa?
Contiene el test la informacin necesaria para abarcar bien el conjunto de aquello que
se supone que se va a medir?
A qu nivel de dominio se evala esa variable?
Si la respuesta a estas tres preguntas es satisfactoria, podremos acordar que el instrumento

en cuestin posee una adecuada validez de contenido (Sattler, 1988:23).
2. Validez criterial.
La validez criterial o validez con respecto a un criterio, por su parte, hace referencia al
grado en que las medidas de un test son consistentes con otras medidas externas que,
tericamente, debieran estar relacionadas con ellas.
En este sentido, podemos hablar de un tipo particular de validez criterial que sera la
validez predictiva, definida como el grado en que, a partir de las medidas que nos
proporciona el test en cuestin, podemos predecir los valores que adoptarn las mediciones
de una variable diferente.
Desde luego, este es uno de los aspectos cruciales para cualquier test de inteligencia, pues
la nica justificacin tica posible para aplicar un instrumento de tal naturaleza es que sus
resultados sean capaces de anticipar el rendimiento del individuo en otras actividades, de
modo que podamos tomar medidas efectivas de ayuda basadas en esa prediccin. En el
mbito educativo, por ejemplo, la justificacin para la utilizacin de este tipo de tests ha
sido precisamente que, por la relacin causa-efecto entre inteligencia y rendimiento
acadmico, son capaces de proporcionar predicciones altamente fiables acerca de si un
alumno podr tener xito o no en el seguimiento de un determinado currculo antes de
enfrentarlo a l (una cosa, claro, es esta afirmacin y otra, bien diferente, que sea correcta).
La validez predictiva de un test se establece analizando con procedimientos estadsticos
complejos (por lo general, una ecuacin de regresin) el grado de correlacin existente
entre las puntuaciones del test observdas en una muestra dada y los valores de la variable
criterio observados con un instrumento diferente (por ejemplo, un test de rendimiento
acadmico, las calificaciones escolares, etc.) en esa misma muestra. Este procedimiento
nos ofrece un coeficiente de validez predictiva del test, como puede ser el coeficiente de
correlacin lineal producto-momento de Pearson, que exige muestras de 200 o ms sujetos.
El procedimiento es bsicamente el mismo que se utiliza para calcular los coeficientes de
validez criterial cuando sta se considera no en su dimensin predictiva, sino como validez

concurrente (las puntuaciones de un test dado se correlacionan con las puntuaciones de un
test diferente que mide la misma variable, obtenidas ambas con la misma muestra de
sujetos) o validez retrospectiva (el caso inverso de la validez predictiva).
Dadas esas tres dimensiones de la validez criterial (predictiva, concurrente y retrospectiva),
por tanto, podemos decir que un test presenta una alta validez criterial cuando las medidas
obtenidas con l son capaces de predecir los valores que adoptarn las mediciones de una
segunda o ms variables criterio tericamente relacionadas, correlacionan en alto grado
con medidas independientes de la misma variable obtenidas con otros instrumentos de
cualidades psicomtricas ya probadas y cuando presentan un alto grado de correlacin con
medidas previas de una o ms variables criterio obtenidas con anterioridad.
3. Validez de constructo.
Pese a la importancia de los anteriores tipos de validez, y en especial de la validez
predictiva, lo cierto es que no pueden considerarse como criterios definitivos de calidad
psicomtrica de un test. Como afirmara Andr Rey, los coeficientes de correlacin
muestran el grado de relacin que existe entre los resultados de los tests y las cualidades o
insuficiencias que se manifiestan en la vida cotidiana (pero) si este procedimiento tiene a
su favor la solidez de la experiencia, tiene tambin los inconvenientes del empirismo y
hace que se eche a menudo de menos un buen modelo del funcionamiento mental (Rey,
1974:259).
Y es que para establecer la validez real de cualquier instrumento psicolgico de medida, es
necesario establecer su validez de constructo, esto es, demostrar que realmente mide el o
los constructos que dice medir, y ello requiere ineludiblemente el anlisis terico del
objeto de inters examinado, la inteligencia y las aptitudes, en nuestro caso.
En palabras de Messick (1975:995), es en la validez de constructo en donde reside la
evidencia de base para inferir el significado de una medida, ya que es justamente en el
proceso de validacin de constructo cuando se ordena la evidencia en forma de relaciones
empricas tericamente importantes, capaces de sustentar la inferencia de que la conducta
observada posee un significado psicolgico real. Consecuentemente, los dems tipos de
validez no podran considerarse, en sentido estricto, sino como diferentes tipos de
evidencias orientadas a esta validacin de constructo.
Esta es una cuestin que nos parece especialmente importante en la evaluacin psicolgica
y psicopedaggica, en la medida en que a menudo se olvida en ellas dos cuestiones
fundamentales: (a) que un test slo es psicomtricamente apropiado si demuestra poseer
una validez de constructo suficiente; y (b) que la validez de constructo implica,
inevitablemente, el anlisis terico de la variable examinada, la interpretacin de los datos,
que introduce un elemento de subjetividad realmente sustantivo en la evaluacin.
Con respecto a la primera de estas cuestiones, claro, parece evidente que la validez de
constructo de un instrumento no puede establecerse nunca en trminos absolutos, sino
relativos (la validez de constructo es siempre una cuestin de grado), y precisamente por
ello es an ms fundamental subrayar que su establecimiento no es una cuestin
exclusivamente emprica, de datos, sino un proceso que exige la demostracin de que la
hiptesis que subyace al constructo examinado posee realmente entidad terica.

Slo si demostramos que el constructo medido tiene el soporte de la evidencia emprica y
tiene, adems, sentido en un marco terico explcito, slo entonces, ser lcito derivar
conclusiones e interpretaciones de los datos que nos proporciona el test... Y esta es una de
las razones que han puesto en entredicho el modelo diferencialista clsico como estrategia
adecuada en la evaluacin de la inteligencia, pues al debilitarse sus bases tericas se ha
puesto inevitablemente en tela de juicio la validez de constructo de sus instrumentos de
medida.
Con respecto a la segunda de las cuestiones apuntadas, lo que debe subrayarse en este
momento es que esa afirmacin implica que la validez de constructo no se establece tanto
para el instrumento en s, como para las interpretaciones e inferencias que hacemos desde
los datos que nos proporciona: La expresin validacin de un test es fuente de muchos
malentendidos. Se valida no el test, sino una interpretacin de los datos que surgen de un
determinado procedimiento (Cronbach,1971:447), de modo que no existe algo parecido a
la validez de un test; ningn test es vlido para todos los propsitos, en todas las
situaciones o para todos los grupos (Cronbach y Quirk, 1976:165).
Dicho de otro modo, la validez de constructo debe ser sometida a investigacin y contraste
cientfico en cada uso de un instrumento de medida, ya que es en s misma inferida, no
medida. Se pueden presentar coeficientes de validez en un manual, pero la validez para un
aspecto particular de la utilizacin de un test se infiere a partir del conjunto de estos
coeficientes. Por tanto, es algo que se juzga como adecuado o marginal o insatisfactorio
(AERA, APA y NCME, 1974:25).
Es por ello por lo que la aplicacin rutinaria de instrumentos que se suponen vlidos y
fiables per se, con independencia del uso e interpretacin que hagamos de ellos y de los
datos que nos proporcionan, debe considerarse como una prctica que atenta directamente
contra la propia validez de las medidas obtenidas con los test de inteligencia (en realidad,
con cualquier test).
III. LAS PUNTUACIONES Y LOS NDICES DE LOS TESTS

DE INTELIGENCIA
Resumiendo muy rpidamente lo expuesto hasta ahora, podramos decir que la evaluacin
psicomtrica de la inteligencia es, en lo esencial, un proceso de medida indirecta de las
aptitudes mentales evidenciadas a travs del anlisis factorial, utilizando unos
instrumentos, los tests psicolgicos, que renen una serie de requisitos mnimos en cuanto
a su fiabilidad y validez, establecidas a partir del anlisis estadstico de las puntuaciones
obtenidas en la aplicacin a una muestra que satisface determinados criterios en cuanto a
su tamao y representatividad.
Desde el punto de vista prctico, el proceso consiste, bsicamente, en aplicar un test o
conjunto de tests a un sujeto en las mismas condiciones seguidas al validar esos
instrumentos y comparar las puntuaciones observadas en esta aplicacin con las normas o
baremos elaborados a partir de las puntuaciones observadas en la muestra de validacin.
Este procedimiento se remonta a principios del s. XX, cuando Alfred Binet se enfrent,
con la colaboracin de Simon, a la tarea de crear un instrumento de evaluacin capaz de
identificar la deficiencia mental, careciendo de una teora de la inteligencia, de una teora

de la deficiencia y, desde luego, de una escala objetiva para determinar el grado de
inteligencia o deficiencia de los individuos.
En esta tesitura, la estrategia seguida por Binet y Simon fue la de seleccionar una serie de
tareas que consideraron representativas de los distintos aspectos del desarrollo intelectual
en diferentes edades y construir un sistema de puntuacin para ellas. Con esta serie de
tareas, ordenadas en forma de una escala, y con el sistema de puntuacin decidido, estaban
en condiciones de aplicar el test a individuos de diferentes edades y determinar una
puntuacin media, caracterstica para cada edad.
La Escala Mtrica de la Inteligencia (EMI) elaborada de este modo permita, al aplicarse a
un individuo dado, determinar su edad mental comparando las puntuaciones que obtena
con la escala de puntuaciones caractersticas de cada edad. Por ejemplo, un nio poda
tener 8 aos de edad cronolgica, pero si al realizar el test su puntuacin era la
caracterstica (la puntuacion media) de los nios de 6 aos, se poda determinar que exista
un desfase de 2 aos entre su edad real y su edad mental.
Debe aclararse, no obstante, que la edad mental proporcionada por la EMI no tena siempre
el mismo significado psicolgico. En primer lugar, porque no significa lo mismo una edad
mental de 6 aos cuando se tienen 5, cuando se tienen 8 o cuando se tienen 13 aos de
edad cronolgica. En segundo lugar, porque dos sujetos de la misma edad cronolgica y la
misma edad mental en la EMI podan haber alcanzado sta por caminos muy diferentes;
por ejemplo, la edad mental de 5 aos en la escala se poda obtener puntuando bien en la
prctica totalidad de las tareas de los niveles de 2, 3, 4 y 5 aos y fracasando en las
siguientes, pero tambin puntuando bien slo en algunas de las tareas de esas edades y
puntuando a la vez en ciertas tareas de los niveles de 6, 7, 8 y 9 aos.
Sin embargo, el problema fundamental de este ndice, la edad mental (EM), es que el
crecimiento intelectual ni sigue un ritmo regular, ni es indefinido, lo que produce un claro
sesgo en la relacin entre EM y edad cronolgica a partir de la adolescencia. Al seguir
creciendo la edad cronolgica y lentificarse, si no deternerse, el crecimiento de la edad
mental, a partir de los 16 o 18 aos la EM se convierte en un ndice artificial, que pierde
todo su significado original (Greene, 1941; Sattler, 1974).
Para evitar este efecto, Stern y otros autores propusieron que deba sustuirse la edad mental
como ndice de desarrollo intelectual por un ndice alternativo, el Cociente Intelectual
(CI). As, en la revisin de la escala de Binet-Simon efectuada por Terman en 1916 en la
Universidad de Stanford (conocida como escala de Stanford-Binet), al igual que en la
revisin posterior de 1937, llevada a cabo por Terman y Merrill, la edad mental fue
sustituida por este nuevo ndice general de inteligencia, el CI, que relacionaba edad mental
y edad cronolgica mediante una simple divisin (de ah su nombre: cociente, que no
coeficiente):
Edad Mental
Cociente Intelectual = ------------------------------- X 100
Edad Cronolgica
La terica ventaja de este nuevo ndice era que el CI, al relacionar edad mental y edad
cronolgica, aporta un plus de significado con respecto a la EM, al informarnos
directamente sobre la relacin entre esta ltima y la edad real o edad cronolgica del
indviduo. Este CI era un ndice estable en el que un valor de 100 representa siempre que

EM y EC son iguales (por ejemplo, 9/9=1, 1x100=100), cualquier valor inferior a 100
representa una EM menor que la EC (por ejemplo, una EM=9 aos en un individuo de
EC=10 aos arroja un CI de 90) y cualquier valor superior a 100 una EM superior a la EC
(por ejemplo, una EM=11 aos en un sujeto con una EC=10 da un CI=110).
Este CI, sin embargo, tampoco era un ndice exento de problemas, pues, al basarse en la
EM, incurra en el mismo defecto ya sealado para sta: en el curso del desarrollo
intelectual de un individuo llega un momento en que la EM deja de crecer, mientras que su
EC aumenta al ritmo inexorable de una unidad por ao, de modo que la aplicacin de la
frmula original de Terman-Merrill conllevaba que, inevitablemente, el CI tendiese a
decrecer con la edad, a partir de los 14 o 15 aos.
Por otra parte, como ya se apunt, el desarrollo intelectual no es, desde el punto de vista
ontogentico, un proceso gradualmente uniforme, sino que presenta momentos de rpida
evolucin combinados con otros de crecimiento lento, de modo que el posible desfase entre
EM y EC no tiene el mismo significado psicolgico en diferentes edades, incluso durante
la infancia, ya que en los primeros aos de vida el desarrollo intelectual es mucho ms
acelerado que durante los ltimos de la infancia o en la primera adolescencia.
Para evitar este tipo de sesgos en la EM y el CI tradicionales, una estrategia alternativa ha
sido recurrir a la tipificacin estadstica de las puntuaciones directas (puntuaciones
observadas) en los tests, utilizando como unidad bsica de referencia las desviaciones
tpicas, que como sabemos constituyen una unidad constante de medida.
Porcentaje de poblacin
ste fue el mtodo utilizado por Wechsler en sus conocidas Escalas de Inteligencia, que
ofrecen como medida global un Cociente de Inteligencia no obtenido segn la frmula
antes presentada de Terman-Merrill, sino a partir del clculo de las desviaciones tpicas de
las puntuaciones observadas en las muestras de normalizacion, por lo que es conocido
como Cociente de Desviacin (las versiones actuales de la vieja EMI tambin utilizan esta
estrategia). Al proceder
de este modo, sean
Distribucin de la poblacin en funcin del C.I.
cuales sean los datos
brutos
originales
obtenidos al aplicar el
test, su tratamiento
68.26%
estadstico nos ofrece
una
escala
estandarizada,
13.59%
13.59%
constante, cuya media
se
ha
situado
2.14%
2.14%
arbitariamente en 100 y
0.13%
0.13%
con una desviacin
-3DT -2DT -1DT
X
+1DT +2DT +3DT
tpica de 15 puntos (16
C.I. Wechsler: 55
70
85
100 115 130 145
en el caso de la
Stanford-Binet).
C.I. Sta.-Binet: 52
68
84
100 116 132 148
Como puede comprenderse, este procedimiento opera sobre el supuesto de la distribucin
normal de las aptitudes intelectuales, al que ya hicimos referencia y, bsicamente, no
consiste en otra cosa que en transformar las puntuaciones directas en puntuaciones tpicas,
lo que otorga a este tipo de medidas de los tests una serie de caractersticas que no
podemos perder de vista.
En primer lugar, puesto que la tipificacin se lleva a cabo a partir de las puntuaciones
observadas en muestras de sujetos diferentes para cada edad, dos CI de desviacin del
mismo valor en sujetos de edades diferentes no son equivalente entre s: al derivarse el
primer CI de la tipificacin de las puntuaciones de una muestra y el segundo de la
tipificacin de las puntuaciones de otra distinta, uno y otro no tienen nada que ver,
realmente, entre s... Razn por la que resulta incorrecto valorar la puntuacin obtenida por
un individuo de 7 aos utilizando como referencia las normas o baremos de la muestra de
individuos de 10 aos, o de cualquier otra edad diferente a la suya.
Por el mismo motivo, resulta inadecuado determinar el CI de un sujeto al que se le aplic
la versin espaola de un test como la Escala de Inteligencia de Wechsler para Nios
(WISC) utilizando las normas elaboradas a partir de las puntuaciones de los sujetos de su
misma edad en la versin inglesa o francesa.
En segundo lugar, no podemos perder de vista que la tipificacin de las puntuaciones de un
test implica siempre un proceso probabilstico, con un cierto margen de error, de modo que
al obtener un CI de desviacin ste se estima con un margen de confianza determinado.
Consecuentemente, un CI nunca es una cifra segura, sino una estimacin que se mueve en
una banda de valores, mayor o menor en funcin de que se haya elegido un margen de
confianza ms o menos elevado (p<0.05, p<0.01, etc.).
Esta es una cuestin especialmente importante y delicada en ciertas situaciones de
evaluacin en las que mover un CI 4 puntos hacia arriba o hacia abajo (es decir, en una
banda de 8 puntos) puede suponer llegar a conclusiones muy diferentes. El caso ms
evidente son las definiciones administrativas de Deficiencia Mental basadas en valores
determinados de CI, pero nos referimos tambin a otros casos, como cuando los resultados
de un test aplicado en dos ocasiones (antes y despus de una intervencin) se utilizan como
criterio para determinar la eficacia de un tratamiento, o como el caso en que se trata de
establecer si hay diferencias significativas entre dos medidas de aptitudes diferentes para
inferir la eventual
existencia
de
un
determinado
perfil
aptitudinal
68.26%
caracterstico en un
sujeto o grupo de
sujetos.
13.59%
13.59%
Aunque hasta ahora
2.14%
2.14%
0.13%
0.13%
nos hemos estado
refiriendo, en estos
-3DT -2DT -1DT
X
+1DT +2DT +3DT
ltimos prrafos, a los
C.I. Wechsler: 55
70
85
100
115
130
145
CI
de
desviacin,
C.I. Sta.-Binet: 52
68
84
100
116
132
148
cuanto hemos dicho Percentiles....:
1
5 10 20 50 60 80 90 95
99
sobre la tipificacin de Puntuacin Z: -3
-2
-1
0
+1
+2
+3
puntuaciones
es Puntuacin T: 20
30
40
50
60
70
80
aplicable a aquellos
tests de aptitudes que ofrecen los resultados utilizando otro tipo de ndices, como
percentiles o decatipos.

Este tipo de ndices, al igual que el cociente de desviacin, son el resultado de una
normalizacin de las puntuaciones observadas en la muestra empleada en la validacin del
instrumento, de acuerdo con el supuesto de distribucin normal, con la nica diferencia de
que el autor del test ha optado por presentar las puntuaciones tpicas en forma de una
escala ordinal, que indica la posicin relativa del sujeto en relacin con la poblacin
representada por la muestra de referencia (ya sean los nios espaoles de entre cinco y seis
aos, los estudiantes de 6 curso de Enseanza Primaria, los Tcnicos Administrativos de
Grado Medio o cualquier otro colectivo).
En el caso de los percentiles, se trata de una escala ordinal con 100 posiciones, de modo
que decir que tal sujeto ocupa el percentil (PC) 35 en tal test de aptitud significa que,
tomando como referencia una determinada muestra con la que se ha tipificado el test, su
posicin en la serie ordinal es la 35, empezando a contar desde el rendimiento menor
(habra 34 posiciones por debajo y 65 por encima). En el caso de los decatipos, por su
parte, se trata de una escala de 10 posiciones, pero todo es esencialmente igual que en el
caso de los percentiles y en el de los cocientes de desviacin: no hacemos otra cosa, en
ltimo trmino, que expresar la posicin ordinal que le corresponde a un sujeto de acuerdo
con las puntuaciones con las que se ha baremado el test.
Dada esta situacin, creemos que a nadie escapa la tremenda importancia que revisten las
muestras utilizadas en dicha baremacin, tanto en lo que atae a su representatividad como
en lo tocante a su tamao, ya que una misma puntuacin directa en un test podr dar lugar
a un CI (o percentil, o decatipo...) o a otro muy distinto, segn las puntuaciones de la
muestra con la que se compara y valora el rendimiento del individuo.
Baste, para comprender este punto, con pensar en lo que supone tratar de establecer la
aptitud de razonamiento numrico de los jvenes de 16 aos de hoy en da utilizando el
baremo elaborado en los primeros aos 70 para algn conocido test no con una muestra de
los jvenes de 16 aos, sino con una muestra de los entonces estudiantes de 6 de
Bachillerato... que apenas suponan un 15 % de la poblacin de esa edad (precisamente, la
parte de los jvenes que haba superado los filtros escolares de la prueba de ingreso en
Bachillerato Elemental a los 10 aos, la prueba de Revlida de Bachillerato Elemental a los
14 y el primer curso del Bachillerato Superior a los 15). Si, adems, la muestra no se eligi
aleatoriamente entre los estudiantes de 6 de Bachillerato, sino que estaba formada por los
estudiantes de ese nivel de los centros hiperprivadsimos de la ciudad X a los que el autor
del trabajo de validacin tena acceso por sus relaciones de amistad... sobra todo
comentario. Especialmente si, adems, N=200.
IV. PRINCIPALES INSTRUMENTOS DE EVALUACIN DE

LA INTELIGENCIA Y LAS APTITUDES
Como puede imaginarse, dada su larga trayectoria y el predominio absoluto del enfoque
diferencialista en la evaluacin de la inteligencia y las aptitudes durante dcadas, la lista de
instrumentos publicados es prcticamente interminable, incluso si centramos nuestra
atencin exclusivamente en el mbito especfico de la evaluacin en la infancia y la
adolescencia, de modo que en este apartado nos limitaremos a comentar en lneas generales
algunos de los instrumentos que creemos ms representativos, dado su uso ms o menos
masivo en la prctica profesional.

Comellas (1990: 34) los diferencia en funcin de que pretendan ofrecer una informacin
general, sin preocuparse por la heterogeneidad de las aptitudes que contribuyen a
establecer el puntaje final (a los que llama tests de exploracin global) o bien explicar
las diferencias individuales que se observan en las aptitudes humanas mediante el menor
nmero de factores mentales (a los que llama tests factoriales).
Desde nuestro punto de vista, se trata de una clasificacin discutible, pero puede servir de
base para organizar la exposicin de los principales instrumentos disponibles siempre y
cuando tengamos en cuenta que unos y otros comparten lo esencial, siendo las diferencias
entre ellos, bsicamente, de formato: los que Comellas denomina tests factoriales suelen
emplear un formato de papel y lpiz, mientras que los de exploracin global suelen
emplear una mayor variedad de formatos y tipos de respuesta en el examen.
Desde luego, ello implica que estos ltimos suelen ser ms costosos en tiempo de
aplicacin y, adems, requerir aplicaciones individuales, mientras que los primeros suelen
presentarse de forma que permiten la aplicacin colectiva.
A. INSTRUMENTOS DE EXPLORACIN GLOBAL

DE LA INTELIGENCIA
Con esta denominacin nos referimos a aquellos instrumentos de evaluacin de la
inteligencia que exploran un amplio rango de aptitudes intelectuales a travs de tareas
diversas en cuanto al tipo de contenido, modalidad de respuesta requerida, etc. Son, por
definicin, instrumentos de aplicacin individual.
1. Las Escalas Stanford-Binet.

En su origen se encuentra la escala mtrica de la inteligencia de
Binet y Simon, inicialmente publicada en 1905 y revisada en 1908
y 1911 por sus propios autores, y ms tarde revisada y adaptada
por Terman y Merrill en los Estados Unidos. La versin
actualmente utilizada en nuestro pas es la adaptacin espaola de
la denominada Forma L-M, que es la versin de la Stanford-Binet
elaborada en Terman y Merrill en 1960 al revisar la versin
anterior, de 1937, que contaba con dos escalas (la L y la M) que
fueron refundidas en una.
La forma L-M utiliza la frmula de las Cocientes de Desviacin y es aplicable desde los
dos aos hasta la edad adulta, proporcionando medidas de 6 en 6 meses para los aos
preescolares y de ao en ao a partir de ellos.
La estructura de la Stanford-Binet en su versin espaola es la siguiente:
En cuanto al significado de estas diferentes pruebas, a la determinacin de qu miden

exactamente, son diversos los anlisis factoriales efectuados desde hace ms de setenta
aos con el fin de dilucidar la cuestin, aunque las divergencias han sido ms que notables
entre unos y otros trabajos, tal y como se pone de relieve en la revisin presentada por
Garrido (1984). Es interesante destacar, no obstante, la identificacin de estructuras
factoriales diferentes segn la edad de los sujetos que cumplimentan las escalas.
Por ejemplo, Jones (1949) realiza un estudio sobre sujetos 7, 9, 11 y 13 aos concluyendo
lo siguiente que a los 13 aos los factores subyacentes a la Binet son Verbal, Memoria,
Visualizacin, Espacial y dos factores de Razonamiento diferentes; a los 11 aos, Verbal,
Espacial, Memoria; a los 9 aos Memoria, Verbal, Espacial, Razonamiento; y a los 7 aos
de edad tres factores, que denomina Verbal, Razonamiento, Numrico.
Su conclusin es que la Stanford-Binet, en su revisin de 1937, ni mide un factor unitario
(lo que debera llamar a la prudencia a la hora de intepretar un dato basado en el supuesto
de medida unitaria, como son el CI y la EM que nos proporciona) ni presenta las mismas
estructuras factoriales en los diferentes niveles de edad (lo que llamara a la prudencia
acerca de qu significa realmente, dada esta situacin, la nocin de Edad Mental).
Conclusiones que tiende a ratificarse tambin en los trabajos de Stott y Ball (1965), que
encuentran soluciones factoriales diferentes a las edades de 3, 4 y 5 aos, o del propio
Garrido Landvar (Pelechano y Garrido, 1975, Garrido, 1977) que, trabajando con sujetos
con deficiencia mental, comprueba que las estructuras factoriales son diferentes segn la
edad mental y que existen numerosas correlaciones negativas entre factores, lo que pone en
tela de juicio el significado psicolgico real y la adecuacin de los ndice globales.
Por otra parte, los estudios factoriales llevados a cabo sobre las diferentes versiones de las
escalas tienden tambin a poner de relieve que se trata de un instrumento en el que ciertas
aptitudes prcticamente no aparecen reflejadas (por ejemplo, pensamiento divergente), a la
vez que existe una enorme saturacin de aptitudes verbales y, excepto en las edades
menores, del factor Memoria (cfr. Garrido, 1984), lo que justificara considerarla sobre
todo como una escala de medida de las aptitudes cristalizadas.
2. Las Escalas de Inteligencia de Wechsler.

Su origen se remonta a los trabajos desarrollados por David Wechsler en los aos 30 con el
fin de poner a punto un instrumento de evaluacin de la inteligencia en personas adultas,
que lograse superar las limitaciones de la Stanford-Binet relacionadas tanto con el tipo de
tareas de examen como con el tipo de ndices que proporcionaba (la edad mental, en
particular). Estos trabajos dieron lugar a la publicacin, en 1940, de la Escala de
Inteligencia de Wechsler-Bellevue, que fue pronto revisada y modificada por su escaso
poder discriminativo, siendo sustituida por la la Wechsler Adults Intelligence Scales
(WAIS), una batera de tests construidos sobre el supuesto de que la inteligencia est
formada por habilidades diversas que permiten la adaptacin al medio y que deben ser
medidas independientemente.
Sobre el modelo del WAIS se construyeron posteriormente las Wechsler Intelligence
Scales for Children (WISC) y las Wechsler Preschool and Primary Scales of
Intelligence (WPPSI), destinadas a la evaluacin de los sujetos entre 5 y 15 aos y
menores de 6 aos, respectivamente, que son los instrumentos de los que nos ocuparemos
en estas pginas, dado el objetivo de la asignatura.

En la actualidad, en Espaa, las versiones ms recientes disponibles son la III de las
escalas WPPSI y la IV de las Escalas WISC, cuya descripcin se encuentra en los
documentos adjuntos, que deben leerse como parte de este tema.
3. Escalas McCarthy de Aptitudes y Psicomoticidad para Nios

Las MSCA contituyen una batera de examen especialmente destinada a la evaluacin de
nios en edad preescolar o de nios algo mayores con dificultades de aprendizaje o
pertenecientes a grupos culturales minoritarios. Con un rango de aplicacin entre los dos
aos y medio a los ocho y medio, fueron elaboradas por Dorothea McCarthy durante los
aos 60 y tipificadas para poblacin norteamericana en los primeros setenta (existe versin
espaola desde los primeros aos ochenta)
La batera consta de 18 tests que se han combinado en seis escalas. La principal de ellas es
la Escala General Cognitiva, formada por la Escala Verbal, la Escala Numrica y la
Escala Perceptivo-Manipulativa; las dos restantes son la Escala de Memoria y la Escala
de Motricidad.
La Escala General Cognitiva proporciona un Indice General Cognitivo (GCI), ms o
menos equivalente a un CI de desviacin con media en 100 y desviacin tpica de 16
puntos. De hecho, como sealan Kauffman y Kauffman (1983: 27), en la elaboracin de
las MSCA el trmino CI se evit y fue sustituido por el GCI por las desafortunadas
connotaciones que se han asociado al primero, ms que por diferencias conceptuales entre
ambos. As, pues, el GCI es un ndice de funcionamiento intelectual y puede
intercambiarse con el CI (Kauffman y Kauffman, 1983: 31)... pero slo en nios de edad
preescolar, para lo que fue especialmente ideado el test.
En el caso de nios a partir de los cinco o seis aos, las MSCA no incluyen una serie de
variables s examinadas en otras pruebas de exploracin general como las Escalas de
Wechsler o la Stanford-Binet, sino que se centran ms en aquellas aptitudes supuestamente
relacionadas con el aprendizaje escolar, por lo que pueden considerarse ms adecuadas en
la evaluacin de nios con trastornos de aprendizaje (ibd.).
Las cinco escalas restantes proporcionan ndices especficos de la aptitud verbal, numrica,
perceptivo-manipulativa, de memoria y psicomotriz, con media en 50 puntos y desviacin
tpica de 10.
La Escala Verbal, en primer lugar, est formada por tests que se han agrupado en funcin
de sus contenidos. Todos ellos son pruebas en las que se deben manejar palabras y dar
luego una respuesta verbal, ya que la inteligencia verbal en estas edades se entiende, sobre
todo, como la madurez de los conceptos verbales del nio (responsable de la comprensin
de informacin verbal) y su capacidad para expresarse verbalmente.
En cuanto a la Escala Perceptivo-Manipulativa, los tests que la conforman utilizan tareas
en las que hay que manejar elementos concretos y dar luego una respuesta no verbal,
siendo su finalidad examinar la capacidad de razonamiento no verbal (aproximadamente, la
inteligencia manipulativa de las escalas de Wechsler), con un fuerte componente de
organizacin perceptiva (viso-espacial) y de coordinacin visomotora en las tareas. La
velocidad de ejecucin en esta escala es muy secundaria a la exactitud de respuesta.

La Escala Numrica, por su parte, evala la aptitud del nio para comprender los
conceptos cuantitativos y tratar con nmeros. Concretamente, examina las aptitudes de
recuento y razonamiento numrico, con importantes componentes aadidos de memoria y
atencin.
Finalmente, la Escala de Memoria examina la memoria inmediata de estmulos visuales y
auditivos (manifestada a travs de tareas que requieren respuestas verbales o
manipulativas, segn el caso) y la Escala de Motricidad evala aptitudes motrices gruesas
y finas.
En cuanto a los tests que conforman las escalas, son los siguientes:
-
Construccin con cubos: Con unos pequeos cubos o dados de madera, el nio debe
reconstruir diversos modelos tridimensionales que, previamente, el examinador
construye a su vista. No tiene tiempo limitado.
Rompecabezas: El nio debe ensamblar las piezas de una figura sencilla y muy familiar
(alimentos y animales, segn el caso) que puede constar de entre dos y seis fragmentos.
En esta prueba hay tiempo lmite y bonificacin en la puntuacin por resoluciones
correctas rpidas.
Memoria pictrica: Tras observar durante 10 segundos una lmina con seis dibujos de
objetos corrientes, el nio debe recordar cules eran tras ocultarlos el examinador.
Existe tiempo lmite.
Vocabulario: Consta de una Parte I (Vocabulario Pictrico) en la que el nio debe

sealar con el dedo el dibujo correspondiente a la palabra dicha por el examinador; en
la Parte II (Vocabulario Oral), debe definir 10 palabras de niveles de abstraccin
conceptual muy diferentes.
Clculo: Se le formulan al nio diversas preguntas que implican el manejo de conceptos

cuantitativos. Las primeras evalan el conocimiento de datos cuantitativos sobre
objetos reales (por ejemplo, cuntas cabezas tienes?) y las restantes implican la
resolucin mental de problemas sencillos de clculo aritmtico, con respuesta verbal.
No hay tiempo lmite.
Secuencia de golpeo: El nio debe reproducir en esta prueba varias secuencias rtmicas
producidas previamente por el examinador, golpeando las teclas apropiadas en un
pequeo xilfono. No hay tiempo lmite.
Memoria verbal: En la Parte I, la primera tarea consiste en repetir en el orden

apropiado los elementos de una serie de tres o cuatro palabras no relacionadas (ni
semntica ni fonolgicamente) dichas por el examinador; la segunda, en repetir frases
de longitud creciente. En la Parte II, el examinador lee una breve historia y el nio debe
retener y repetir sus principales ideas y detalles.
Orientacin derecha-izquierda: En los primeros tems, el nio debe demostrar su

dominio de los conceptos de derecha e izquierda sobre el propio cuerpo, sealando las
partes que se le indican; en los siguientes, debe hacer lo mismo, pero sobre la figura
dibujada de un nio que le mira.

-
Coordinacin de piernas: En este test, el examinador muestra o describe, segn el tem,

un movimiento determinado de las piernas, que el nio debe reproducir o realizar. En
general, se trata de actividades que exigen ms coordinacin y equilibrio que otras
destrezas (caminar de puntilla, caminar hacia atrs, sobre una lnea recta...).
Coordinacin de brazos: Tests de destrezas en el movimiento de los miembros

superiores y de coordinacin dinmica general en la que, sucesivamente, el nio debe
botar una pelota pequea (de tenis), recoger una pequea bolsa que le lanza el
examinador y hacer pasar esta misma bolsa por un orificio, lanzando desde una
distancia no demasiado larga.
Accin imitativa: El nio debe imitar diversos movimientos amplios con los brazos,
manos y pies, realizado por el examinador frente a l.
Copia de dibujos: El nio debe reproducir con lpiz en un papel tres figuras sencillas
que el examinador ejecuta ante l y seis ms que se le presentan en tarjetas
individuales. No hay tiempo lmite.
Dibujo de un nio: Se le pide al examinando que dibuje un nio (si es varn) o una
nia (si de trata de una chica) con la mayor exactitud y nivel de detalle que pueda. No
hay tiempo lmite.
Memoria numrica: Test de retencin y repeticin de series de dgitos en orden directo

(Parte I) e inverso (Parte II).
Fluencia verbal: En un tiempo lmite de 20 segundos, el nio debe decir tantos casos
como pueda de una categora semntica dada (cosas para comer, animales, cosas de
vestir y cosas para montarse en ellas).
Recuento y distribucin: Test de conteo simple, de reparto en cantidades iguales y de

determinacin de posiciones en una escala ordinal, que slo se aplica en caso de una
muy pobre ejecucin en el test de Clculo.
Formacin de conceptos: Test de clasificacin con bloques lgicos, atendiendo a las

categoras de color, forma y/o tamao. No hay tiempo lmite.
D. nio
Me.Num
Fluencia
Recuent
Opuestos
X
X
X
X
X
X
X
X
X
X
X
Concep
Copia
X
X
Imitac
C.Brazos
C.Piernas
X
X
Der-Izq.
X
X
Me.Verb
Vocabul.
Golpeo
Mem.Pic
Clculo
Rompec.
Gral. Cognit.
Verbal
Perc.-Manip.
Numrica
Memoria
Motricidad
Cubos
La relacin entre escalas y tests en las MSCA es la que se observa en la siguiente tabla:
4. Las Escalas de Alexander

Publicadas originalmente a finales d elos aos 30, la Escala de Alexander pretende evaluar
la inteligencia sin interferencia de los aspectos verbales, por considerar que stos estn ms
sujetos a la influencia del entorno cultural. Es, por tanto, un instrumento de medida de la
inteligencia no-verbal, que implica un fuerte factor que Alexander denomin inteligencia
prctica, pero que no coincide tanto con lo que hoy se entiende por esta expresin (en la
teora trirquica de Sternberg, la inteligencia prctica coincide conla inteligencia
contextual) como con el concepto de inteligencia manipulativa de las escalas de
Wechsler.
Las escalas de Alexander estn formadas por tres subtests.
-
Cubos de Kohs. Como Wechsler, Alexander incluy en sus escalas una adaptacin de
los clsicos cubos de Kohs, una tarea que se considera que suele considerarse un muy
buena medida de G. En este subtest, el examinando debe reconstruir con los cubos diez
diseos geomtricos planos que ponen en juego su capacidad de estructuracin
espacial, y en particulat su aptitud para el anlisis y la sntesis de configuraciones
visuales abstractas, geomtricas, que carecen de significado.
Construccin con cubos. Similar a la prueba anterior, en las tareas de construccin con
cubos el sujeto debe resolver tres problemas espaciales tridimensionales, construyendo
con unos cubos con caras coloreadas y caras sin colorear un bloque.
Passalong. En esta prueba, se le presenta al sujeto un diseo con fichas de colores

(azules y rojas) y se le pide que las cambie de posicin de acuerdo con ciertas reglas
hasta lograr formar un nuevo diseo que se le muestra en una tarjeta. En total, se
presentan nueve problemas de este tipo, de dificultad creciente.
Por el nivel mnimo de lenguaje que requieren (slo necesario como medio de
comunicacin entre examinador y examinando al dar las consignas), las Escalas de
Alexander se consideran un instrumento especialmente til en la medicin de la
inteligencia en el caso de personas sordas, con un nivel muy bajo de desarrollo del lenguaje
o que no dominan la lengua de examen por ser su lengua materna otra diferente. Del
mismo modo, se considera en general una prueba muy sensible a los signos de deterioro
mental orgnico.
Su aplicacin es posible desde los 7 aos y proporciona un ndice de edad mental y otro de
cociente intelectual.
B. TESTS FACTORIALES
1. Tests de Matrices Progresivas, de Raven.
Las matrices progresivas son uno de los instrumetnos ms ampliamente utilizados como
medida del factor g, finalidad con las que fueron ideadas por Raven.
Bsicamente, la estrategia de evaluacin consiste en presentar a los sujetos un conjunto de
estmulos organizados en formato de tabla (o matriz), de modo que forman varias series al

mismo tiempo: en sentido horizontal, en sentido vertical y en diagonal, aunque en las
tareas de menor dificultad la matriz no es tal, sino una especie de bandera o diseo
geomtrico no significativo al que le falta un fragmento. En ambas modalidades, lo que se
pide al sujeto examinado es que elija la opcion correcta de respuesta entre seis alternativas
levemente diferentes.
En total, los tests de matrices progresivas son tres pruebas diferentes, ideadas para sujetos
de diferentes edades y/o niveles de capacidad intelectual:
1. Matrices en color (Escalas CPM): Ideado para sujetos de 4 a 9 aos, o mayores con
deficiencia mental, consta de tres series (A, Ab y B) y su peculiaridad es que el color es
una variable o dimensin importante en la solcuin de las tareas propuestas, lo que las hace
ms sencillas que las tareas de las otras dos formas. Asimismo, incluye una mayor
proporcin de elementos que son diseos incompletos que las otras dos.
2. Escala General (Escalas SPM): Es un test diseado para individuos desde los 11 aos
de edad cronolgica en adelante, sin requisitos de nivel cultural previo, ya que se supone
que es una prueba libre de cultura. Consta no de tres, sino de cinco series de problemas (A,
B, C, D y E) organizadas en dificultad creciente a partir de un criterio de complejidad,
bsicamente; esto es, la dificultad se incrementa sobre todo por el mayor nmero de
variables que se deben tener en cuenta simultneamente para resolver los tems.
3. Escala de Nivel Superior (Escalas APM): Consta de dos series, la segunda de las
cuales est pensada para aplicarse slo a individuos de inteligencia superior.
2. Test de Domin D-48, de Pichot.

Basados en los mismos principios generales de las Matrices Progresivas y destinados,
como stas, a la medida de G, existe una serie de pruebas conocidas como tests de domins
por utilizar como reactivos representaciones de las fichas de este popular juego. Entre
ellos, uno de los ms empleados es el Test de Domin D-48, que recibe esta denominacin
por contar con 48 reactivos de series de fichas de domin.
Los ndices de fiabilidad estn por lo general por encima de 0,85 (elevada), pero apenas
hay estudios sistemticos sobre validez predictiva.
Kowrousky y Rennes elaboraron una versin paralela al D-48 (para sujetos mayores de 12
aos, al igual que ste), denominada D-70. En Espaa estn tambin disponibles el Test de
Inteligencia General TIG, con una versin TIG-1 (desde 10 aos) y otra TIG-2 (a partir de
los 14), para cubrir los tramos de nivel superior e inferior medidos por D-48 y D-70.
3. Tests de Factor G, de Catell.

Pretenden evaluar el funcionamiento intelectual con tareas supuestamente libres de
condicionamientos culturales, siendo este requisito la preocupacin fundamental de su
autor an la construccin de las tres escalas disponibles:
-
Escala 1: Integrada por las siguientes pruebas: Sustitucin, laberintos, identificacin,

semejanzas, clasificacin, errores, rdenes y adivinanzas (ordenes y adivinanzas no son
preceptivos). Esta escala es aplicable a nios de 4 a 8 aos y a adultos con deficiencia

mental.
-
Escalas 2 y 3: Ambas estn formadas por cuatro subtests de fuerte componente

perceptivo: Series, Clasificacin, Matrices y Condiciones. La forma 2 se aplica entre
los 8 y los 14 aos y la forma 3 desde los 14 en adelante (esta ltima consta de dos
formas paralelas).
En las tres escalas, las puntuaciones obtenidas en los subtests se combinan para tener una
puntuacin directa que luego se pasa a centil o a CI de desviacin. La saturacin de g
hallada vara en torno a 0,90 pero la validez predictiva no supera el valor de 0,27. La
fiabilidad es alta y la validez es superior a 0,5.
4. Escala de Madurez Mental de Columbia

Aunque por su formato suele incluirse habitualmente entre las escalas de exploracin
global, la Escala de Madurez Mental de Columbia es, en realidad, un test de medida de la
aptitud general de razonamiento, que utiliza como reactivos unas tarjetas en las que
aparecen diversos dibujos, uno de los cuales no se relaciona con los dems y debe ser
identificado. Exige, por tanto, razonamiento inductivo y deductivo al mismo tiempo en una
tarea que suele considerarse una buena medida de g.
El test est formado por 92 elementos organizados en series con 8 niveles superpuestos,
aunque no se aplican todos a todos los sujetos: cada nio (entre los 3 y los 10 aos) recibe
los reactivos correspondientes a su edad cronolgica.
Los resultados de la evaluacin vienen expresados en puntuaciones de desviacin con
media de 100 y desviacin tpica de 16. Tambin se puede calcular a travs de
puntuaciones directas un ndice de Madurez, que expresa con cul de los trece grupos de
edad de la muestra de tipificacin concuerdan mejor los resultados del mismo. Tiene
versin espaola.
5. PMA, Test de Aptitudes Mentales Primarias.

PMA es un test desarrollado a principios de los 40 por Thurstone y Thurstone a partir de la
teora de las aptitudes mentales primaria comentada en el captulo 1, por lo que su objetivo
es, precisamente, la medicin de tales aptitudes, consideradas como factores mentales
independientes y especficos.
En su adaptacin para poblacin espaola, PMA permite examinar dichas aptitudes en
sujetos de 11 a 18 aos a travs de los siguientes subtest:
-
Subtest de Factor V (Aptitud de comprensin verbal): Consta de 50 tems en los que se

presenta una palabra seguida de una serie de otras, para que indique cul de ellas tiene
el mismo significado.
Subtest de Factor E (Aptitud espacial): Formada por 20 tems en los que hay que
identificar cul de entre varias opciones es la correspondiente al modelo que se
presenta.

-
Subtest de Factor R (Aptitud de razonamiento abstracto): Consta de 30 tems

consistentes en series incompletas de letras, queel sujeto debe completar eligiendo la
opcin apropiada entre seis posibilidades diferentes.
Subtest de Factor N (Aptitud de clculo numrico): Mediante un total de 70 tems, se

mide esta aptitud con una tarea de verificacin de resultados sumas simples.
Subtest de Factor W (Aptitud de fluidez verbal): En este subtest la tarea de examen es

escribir el mayor nmero posible de palabras que empiecen por determinada letra dada.
En todas las tareas del PMA la velocidad de ejecucin es un factor fundamental, ya que se
da un tiempo limitado para la ejecucuin de las diferentes tareas. En cuanto a la aplicacin,
puede ser tanto individual como colectiva y dura aproximadamente unos 30 minutos.
6. DAT, Test de Aptitudes Diferenciales.

Elaborada expresamente en los aos 40 como un instrumento para la medida de aptitudes
en estudiantes de educacin secundaria, el DAT tiene una estructura similar a la del PMA,
del que apenas difiere salvo por el hecho de que el test de Thurstone se organiz para que
cada subtest midiese, en lo posible, factores puros, mientras que a ste subyace la idea de
que las diferentes aptitudes examinadas guardan estrechas relaciones funcionales entre
ellas.
La versin espaola, en la que no aparecen todos los subtest del DAT original, est
formada por las siguientes pruebas:
-
Subtest de Razonamiento verbal (Factor VR): Prueba de razonamiento inductivo en la

que el examinando ha de completar una analoga verbal en donde faltan la primera y la
ltima palabra. Consta de 50 tems.
Subtest de Aptitud numrica (Factor NA): Presenta un total de 40 tems en los que se
presentan sumas, restas, multiplicaciones, divisiones, races cuadradas, races cbicas,
porcentajes y proporciones seguidos de varias opciones de respuesta entre las que se
incluye la correcta. Se proporcionan normas para valorar esta variable en relacin con
la anterior, como ndices de la aptitud acadmica del individuo.
Subtest de Razonamiento abstracto (Factor AR): Como es habitual en este tipo de tests,
se trata de una tarea de series a completar; en este caso, 50 series de incompletas de
figuras geomtricas.
Subtest de Relaciones espaciales (Factor SR): Este subtests est formado por 60 tems
en los que el sujeto debe elegir entre varias formas geomtricas tridimensionales la que
se formara al plegar un modelo de desarrollo plano dado.
Subtest de Razonamiento mecnico (Factor MR): Coleccin de 68 problemas en donde

el sujeto debe analizar e inferir el comportamiento de poleas, engranajes, palancas...
eligiendo a continuacin la opcin de respuesta correcta.
Subtest de Rapidez y precisin perceptivas (Factor CSA): En este subtest la tarea

propuesta es identificar y marcar con la mayor velocidad posible un grupo de cifras y/o

letras que se muestra al principio, cada vez que aparezca. Estos grupos aparecen
enmascarados entre otros muchos relativamente similares.
A diferencia del PMA, en el DAT el tiempo de ejecucin no es una variable fundamental
salvo, lgicamente, en el subtest de rapidez perceptiva.
El test est pensado especialmente para aplicaciones colectivas y requiere unos treinta
minutos.
7. BADyG - R, Batera de Aptitudes Generales y Diferenciales.

BADyG es un instrumento de evaluacin desarrollado por investigadores espaoles con el
fin de examinar la inteligencia general y una serie de aptitudes que representan tanto
inteligencia cristalizada como inteligencia fluida.
Consta de tres series o niveles, el Elemental (dirigido a sujetos de 6 a 12 aos y formado
por los Test E1, E2 y E3), el Medio (dirigido a estudiantes d eESO y Ciclos Formativos de
Grado Medio Test M) y el Superior (para alumnos de Bachillerato y Ciclos Fomativos de
Grado Superior Test S).
Adems de la inteligencia general, las aptitudes medidas por BADyG-R son Razonamiento
Lgico, Factor Verbal, Factor Numrico y Factor Espacial. Complementariamente,
examina diversos tipos de Memoria, Atencin y Rapidez/Eficacia.
La aptitud de Razonamiento Lgico es examinada mediante tareas de razonamiento
analgico, problemas numricos verbales y matrices; la aptitud Verbal, mediante tareas de
analogas verbales, seguimiento de rdenes verbales, completamiento de oraciones (segn
las edades); la aptitud Espacial mediante tareas de resolucin de matrices y tareas de
deteccin de partes ausentes en figuras y de manejo de relaciones espaciales; la aptitud
Numrica, finalmente, se mide mediante tests de clculo, tests de series lgicas y tests de
resolucin de problemas.
Desde el punto de vista psicomtrico, se trata de un instrumento con adecuadas
propiedades de fiabilidad y validez, cuyas normas se han elaborado sobre una muestra
suficientemente amplia de poblacin escolar espaola.
8. EIDAP, Escala Informatizada de Desarrollo Aptitudinal.

Para terminar esta breve presentacin incluiremos las escalas EIDAP de Carlos Yuste, que
acaban de aparecer al mercado como una actualizacin de los clsicos tests factoriales
tanto en su forma de administracin (con reactivos suministrados a travs del ordenador)
como en su estructura factorial (los datos se interpretan desde una perspectiva prxima a
las definiciones del estrato II de Carroll).
Para estudiar las caractersticas de este instrumento, deber leer atentamente el archivo
adjunto sobre el mismo.
V. PERSPECTIVA CRTICA Y TENDENCIAS

ACTUALES
A. LIMITACIONES DE LOS TESTS
Como no poda ser de otro modo, la evaluacin psicomtrica presenta las mismas
limitaciones e inconvenientes que las teoras factoriales, de las que surgen, y esas son
probablemente su inconveniente ms serio, ya que se trata de problemas que afectan a la
misma validez de constructo de los tests; sin embargo, los propios tests presentan sus
limitaciones y problemas aadidos como instrumentos de obtencin de datos sobre la
inteligencia humana. Para Marrero et al. (1989), tales limitaciones pueden resumirse en
tres grandes categoras: limitaciones conceptuales, limitaciones de los tests como
instrumentos de medida y limitaciones sociales.
Empezando con las limitaciones conceptuales, debemos recordar que los tests clsicos son
una tecnologa que carece de una teora de partida que la sustente, pues, como ya se
indic, la teora ha surgido a posteriori, para dar sentido a los datos de los tests una vez
obtenidos.
Aunque esta puede ser una afirmacin discutible para el trabajo de algunos autores
puntuales, que han elaborado sus instrumentos a partir de modelos tericos, es bastante
realista para el conjunto del movimiento psicomtrico y apunta hacia el argumento de
circularidad antes mencionado al hablar del anlisis factorial: por su propio origen y
naturaleza, los tests son incapaces de ayudar a responder a la pregunta de qu es la
inteligencia, de modo que nos encontramos ante unos instrumentos que son la herramienta
esencial en el desarrollo de la teora y que, curiosamente, no sabemos exactamente qu
miden.
Podra argumentarse, como hace Colom (2002:36-37), que no es preciso poder definir con
exactitud el fenmeno, cuando las correlaciones entre las medidas de los diferentes tests de
inteligencia llegan a ser tan altas como las existentes entre las medidas de la longitud de los
brazos y cuando la inteligencia psicomtrica tiende a mantenerse ms o menos estable
cuando se mide en un mismo individuo a los 6 y a los 18 aos. Sin embargo, en la pgina
44 de la obra citada, este mismo autor refiere correlaciones entre diversos tests de
inteligencia que, salvo para CI inferiores a 80, no llegan en ningn caso a 0.40, lo que es
una indicador de correlacin ms que moderado para medidas que se suponen del mismo
fenmeno. Y eso sin contar con el hecho de que lo que muestran los datos es la correlacin
entre las medidas de los tests... sea lo que sea lo que midan!
La circularidad en la argumentacin, por tanto, es un hecho innegable, del que slo se
puede salir en la medida en que podamos demostrar que las medidas de los tests de
inteligencia son realmente potentes a la hora de predecir el rendimiento de los individuos
en actividades que no son los propios tests y que se considera que requieren de eso que
llamamos inteligencia. Dicho de otro modo, los tests tradicionales se basan en unos
supuestos de generalizacin transituacional y generalizacin transconductual que, para
muchos, no estn en absoluto demostrados (cfr. Gil-Roales, 1988).
Ciertamente, los tests de inteligencia tradicionales han demostrado con las medidas de
rendimiento acadmico correlaciones moderadas (aunque mayores que las de cualquier
otra variable con ese rendimiento) que se han interpretado como una capacidad predictiva

del nivel de inteligencia con respecto a la capacidad de aprendizaje de los individuos que
expresara una relacin de causa-efecto entre ambas variables (inteligencia y capacidad de
aprendizaje): La razn por la que las puntuaciones en los tests de inteligencia se asocian
al rendimiento escolar est en que las actividades escolares y los problemas de los tests
reclaman inteligencia. Los alumnos deben establecer relaciones constantemente para
poder aprender cosas nuevas y deben transferir el conocimiento y las habilidades
aprendidas para poder aprender otras nuevas. Este tipo de actividades mentales exige
inteligencia (Colom, 2002: 76).
Sin embargo, el hecho de las relaciones entre puntuaciones en los tests y actividades
reales debe matizarse al menos en tres sentidos.
En primer lugar, los datos con respecto a las correlaciones entre medidas de los tests de
inteligencia y rendimiento acadmico son extremadamente variables, dependiendo tanto
del instrumentos o instrumentos utilizados para medir la inteligencia, como del nivel
escolar en el que nos interesemos.
En segundo lugar, la mayor parte de los tests de inteligencia resultan escasamente
predictivos del rendimiento fuera del mbito acadmico o, como mnimo, los datos
disponibles son muy variables en cuanto al valor exacto de las correlaciones y, en
consecuencia, no hablan por s mismos si no se les hace hablar (para ver dos
interpretaciones opuestas, consultar Sternberg, 1996, y Colom, 2002). Por ejemplo, Colom
(2002: 85-86) comenta los resultados de un estudio acerca de las relaciones entre nivel de
ingresos de un individuo, nivel socioeconmico de su familia de origen y CI concluyendo
que la inteligencia se asocia en una intensidad tres veces superior al nivel
socioeconmico de la familia de los jvenes con el nivel de ingresos de los propios
jvenes, pero los coeficientes de correlacin que cita son... 0.09 y 0.31! Teniendo en
cuenta la inexactitud inherente a las medidas, si en lugar del CI se hubiese tenido en cuenta
el color del pelo de los sujetos, puede que los ndices de correlacin obtenidos no hubiesen
sido muy diferentes (aunque, seguramente, expresar una conclusin similar y de ese modo
para esta nueva variable no hubiese producido el mismo efecto en el potencial lector).
Lo que es ms importante, con todo, es que el enfoque correlacional empleado para extraer
conclusiones no permite llgar, como a menudo se pretende, a establecer relaciones de
causa y efecto, sino a constatar la existencia de asociacin entre las variables consideradas.
Una asociacin que puede ser interpretada de diversos modos: Se ha realizado una
investigacin que muestra la gran debilidad inherente al CI como elemento de prediccin
de resultados posteriores, pero, en lugar de concluir que el CI no es muy importante, hay
investigadores que concluyen extraamente que las habilidades que mide el CI son la
causa de los xitos o fracasos posteriores. La investigacin no muestra eso, lo que muestra
la investigacin es una relacin estadstica, no una relacin causal (Sternberg, 1996: 25).
Entre las limitaciones conceptuales que subyacen a la evaluacin con los tests de
inteligencia clsicos se encuentra tambin la dificultad de este modelo para explicar por
qu cada dcada es preciso revisar y actualizar las normas estadsticas que permiten la
estimacin del CI y dems ndices similares, basados como sabemos en la comparacin del
rendimiento de un sujeto en el test con el rendimiento medio de quienes sirven como grupo
de referencia.
Ese es el caso, por ejemplo, ocurrido con la renovacin de los baremos de la StanfordBinet efectuada a principios de los aos setenta (los baremos anteriores eran de los aos 30

y 50), en donde el fenmeno era tan acusado que el propio director del proyecto, R. L.
Thorndike (1973) se vio obligado a constatarlo, reconociendo que los antecedentes
culturales de los individuos norteamericanos haban cambiado sustancialmente en el lapso
de tiempo transcurrido entre una baremacin y otra. Pero no es el nico, desde luego, pues
basta con revisar los baremos sucesivos de cualquier gran prueba clsica de inteligencia
para comprobar que una misma puntuacin da lugar a un CI mayor cuanto ms antiguas
sean las normas.
Este fenmeno ha sido ampliamente constatado en la literatura, en la que suele referirse
como efecto Flynn, en referencia a James R. Flynn, profesor neozelands de la
Universidad de Otago que en 1984 public un artculo titulado The mean IQ of
Americans: Massive gains 1932 to 1978 (Psychological Bulletin, 95, 29-51) en el que
demostraba cmo cada dcada se haba producido en los resultados de los tests de
inteligencia una ganancia de 3 puntos de CI, lo que en el perodo de casi 50 aos
examinado supona una ganancia media de 15 puntos, es decir... el valor de una
desviacin tpica completa en pruebas como las escalas de Wechsler!
El efecto Flynn se constat posteriormente hasta en 14 pases ajenos a los Estados Unidos,
como Brasil, Japn, Alemania, Francia, Holanda, Gran Bretaa... (Flynn, 1987, 1994) y
presenta una serie de aspectos curiosos. Por ejemplo, que las ganancias resultan superiores
en los tests de inteligencia fluida que en los de inteligencia cristalizada, cuando se supone
que es sta ltima la ms sensible a la experiencia del individuo y aqulla la ms
determinada genticamente; o que pese a darse el efecto en todas las poblaciones y en
todos los niveles de CI, las ganancias son mayores en los niveles inferiores.
Como consecuencia de este fenmeno aparecen algunas cuestiones interesantes de
analizar. Por ejemplo, la diferencia entre el CI medio de la poblacin afroamericana y la
poblacin anglosajona de los EE.UU. se ha acortado una desviacin tpica desde los 40
hasta hoy, y se constata que la puntuacin necesaria para obtener un CI de 100 en las
Escalas de Wechsler es la misma que hace 40 aos produca un CI de 112 puntos, as como
que el nmero de personas diagnosticadas como deficiente mental con este tipo de
escalas se ha reducido casi a una cuarta parte en este mismo lapso de tiempo, al haberse
producido la ganancia mayor en la gama inferior de Cocientes Intelectuales. Hasta la
asuncin de que la inteligencia fluida se deteriora con la edad, a partir de un determinado
momento, se ha puesto en cuestin: los datos resultan de comparar los resultados de
personas mayores con baremos obtenidos de la siguiente generacin, que son unos 15
puntos mejores en los tests de inteligencia fluida y unos 9 en los tests de inteligencia
cristalizada.
Seas cuales sean las causas del efecto Flynn, lo que parece claro es que ste pone de relieve
una limitacin conceptual de base en los tests de inteligencia tradicionales, a la vez que
evidencia un problema no ya conceptual, sino de medida, que afecta a estos tests: puesto
que miden la inteligencia comparando el rendimiento de un sujeto con una norma
estadstica y esa norma vara hasta tres puntos cada 10 aos, si no ms (Flynn, 1994, resea
una ganacia de 20 puntos de CI en las Matrices de Raven de los jvenes holandeses entre
1952 y 1982), las normas deben actualizarse como mucho cada dcada. Haciendo una
comparacin simple, es como si una cinta mtrica fabricada hoy fuese menguando poco a
poco y dentro de 10 aos midiese no ya 100, sino 97 centmetros.
Esto pone de relieve que los tests no son realmente medidas cuantitativas continuas, sino
escalas ordinales que se limitan a medir la inteligencia de un individuo diciendo qu

posicin ocupa ste en una serie de otros individuos, pero con el agravante de que entre el
1 y el 2 puesto la diferencia no es la misma que, por ejemplo, entre el 10 y el 11: una
medida realmente cuantitativa exigira que dichos intervalos fueran idnticos.
Como consecuencia de ello, por otra parte, los tests de inteligencia clsicos no son
instrumentos demasiado finos ni para los casos de individuos con graves limitaciones (en
donde las posibilidades de decir algo distinto a ocupa la ltima posicin de la escala son
pocas) ni en el de individuos con trastornos muy limitados y selectivos, pero de
consecuencias relevantes desde el punto de vista de personal y social, como ocurre en
muchos trastornos de desarrollo del lenguaje.
Por lo que se refiere a las limitaciones de tipo social, adems de que su escaso valor
predictivo fuera de los ambientes acadmicos (e incluso en stos) reduce enormemente su
utilidad prctica, los tests de inteligencia han demostrado en su ya larga historia que no
existen, en absoluto, las pruebas libres de cultura. Incluso los elaborados con esta
pretensin expresa se consideran actualmente fracasados en su empeo, lo que pone
seriamente en entredicho su misma validez de constructo.
En todas sus formas, los tests de inteligencia requieren de un conjunto de conocimientos,
tanto declarativos como procedimentales, que suponen un sesgo en el sentido de lo que
Neisser (1976) denomina inteligencia acadmica, adems de que su aplicacin misma se
basa en una serie presupuestos, hbitos, valores y actitudes que son propios de
determinados sectores sociales de una cultura dada. Por ello, los tests de inteligencia
favorecen sistemticamente los resultados de los individuos de las clases sociales medias y
altas de la cultura occidental, perjudicando los de todos los dems.
Al obviar estas cuestiones, por otra parte, y suponer que los tests reflejan aptitudes en gran
parte, si no del todo, heredadas, su uso ha supuesto demasiado a menudo una forma de
justificacin con marchamo cientfico de diferencias socialmente constituidas y
originadas, como se ha puesto de manifiesto en diversos momentos de la historia reciente a
travs del debate suscitado por esos incunables que son Raza, inteligencia y educacin,
de Hans Eysenck, y La curva de la campana, de Herrnstein y Murray.
B. PERSPECTIVAS ACTUALES Y TENDENCIAS DE FUTURO

Pese a todas estas limitaciones, es justo destacar al mismo tiempo que el uso de tests a lo
largo de un siglo nos ha proporcionado la mayor base de datos de que se dispone en
Psicologa; una base de datos que no cabe desechar, sino estudiar y reinterpretar, en la
lnea de lo efectuado por Carroll con su modelo de los tres estratos. Al mismo tiempo, sera
injusto y absurdo no reconocer que, en los ltimos tiempos, la psicometra ha empezado a
lograr independizarse del lastre de las teoras aptitudinales tradicionales y de la Teora
Clsica de los Tests, proporcionando nuevos modelos conceptuales y nuevos
procedimientos que ya han comenzado a renovar seriamente este viejo campo de la
Psicologa cientfica.
Como seala Martnez Arias (1999), la Teora de la Generalizabilidad, la Teora de la
Respuesta al tem (Modelo del rasgo latente), los Tests Referidos al Criterio, los Modelos
de Ecuaciones Estructurales o la Teora de la Decisin constituyen aportacions realmente
novedosas y relevantes, capaces de superar con nuevas perspectivas muchos de los viejos
problemas.
Por ejemplo, el Anlisis Factorial Confirmatorio, surgido en el marco de los modelos de

ecuaciones estructurales, han permitido sacar la construccin de tests del empirismo
aterico tradicional y llevarla a procedimientos ms propios de la investigacin cientfica,
en los que la investigacin de la validez de constructo adquiere un rol central, al permitir
poner a prueba modelos factoriales hipotticos previamente establecidos desde la teora.
Los Tests Referidos al Criterio (TRC), por su parte, nos han proporcionado procedimientos
de examen en donde el comportamiento de un sujeto ya no es necesariamente evaluado a
partir de la comparacin con las puntuaciones de otros individuos, segn el tradicional
enfoque nomottico, sino en relacin con un dominio cuya definicin precisa y exhaustiva
permite que los resultados dependan del estatus absoluto del sujeto en l, no de los
resultados de un grupo normativo (Glaser, 1963). Ciertamente, sus aplicaciones hasta el
momento se han dado, sobre todo, en el mbito de la medida de los logros educativos y no
en el de la evaluacin de la inteligencia, pero no dejan de constituir una interesante
posibilidad.
Ms que una posibilidad son ya, por citar un nuevo ejemplo de estas perspectivas de
futuro, los Tests Adaptativos Computerizados (TAC) o, si se prefiere, Tests Adaptativos
Informatizados (TAI), surgidos de la comunin entre las aportaciones de la Teora de
Respuesta al tem y la accesibilidad y potencia creciente de los ordenadores:
Bsicamente, un TAI consiste en un conjunto de tems, llamado banco de tems,
organizados en un programa de ordenador que selecciona y presenta cclicamente en
pantalla al examinado los que mejor le evalan. El ordenador escoge cada tem en funcin
de los anteriores aciertos y errores y termina la sesin cuando ha situado la puntuacin del
examinado con un mnimo margen de error de medida, o bien tras satisfacer una condicin
de parada o fin de la sesin de evaluacin (Renom, 1997: 28).
Este nuevo modelo no es, pues, una simple transformacin del test clsico de lpiz y
papel a un formato informatizado de aplicacin, sino que implica una nueva filosofa, en
la que el test como tal es sustituido por un banco de tems unidimensionales, calibrados
uno a uno en funcin de su poder discriminativo y su resistencia a ser acertado al azar y
ordenados en funcin de su grado de dificultad, de modo que nos permiten estimar la
capacidad del examinando sin necesidad de responder a todos los tems del banco, sino
slo el nmero de ellos necesario para situarle en el continuo de la dimensin examinada.
Dado el notable progreso conceptual y tcnico en este rea, el ritmo de desarrollo de los
ordenadores personales, el ahorro de tiempo que supone un TAI con respecto a los tests
tradicionales y la posibilidad emergente de llevar a cabo aplicaciones no presenciales, sino
a travs de una red, desde nuestro punto de vista se trata de una herramienta de evaluacin
llamada a jugar en los prximos aos el mismo papel que los tests tradicionales jugaron
para el profesional cien aos atrs.

Tema 2 Apuntes

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tema 2 Apuntes

Загружено:

Авторское право:

Доступные форматы

Tema 2

Profesor: Daniel G. Manjn

Tema 2: Evaluacin psicomtrica de la inteligencia

Parte II: Propiedades psicomtricas de los tests y calidad de la

Parte III: Las puntuaciones y los ndices de los tests de

Parte V: Perspectiva crtica y tendencias actuales

Profesor: Daniel G. Manjn

Tema 2: Evaluacin psicomtrica de la inteligencia

Como tuvimos ocasin de comentar a lo largo del primer captulo, en el enfoque

I. PRINCIPIOS Y SUPUESTOS BSICOS DE LA

Profesor: Daniel G. Manjn

B. EL RENDIMIENTO EN UN TEST COMO SIGNO DE LAS

C. LA EVALUACIN DE LA INTELIGENCIA COMO MEDICIN

Tema 2: Evaluacin psicomtrica de la inteligencia

D. DISTRIBUCIN NORMAL DE LAS APTITUDES

Las aptitudes intelectuales tienden a distribuirse en la poblacin de acuerdo con el

La evaluacin de la inteligencia es, en lo esencial, un proceso comparativo, en el que

Profesor: Daniel G. Manjn

II. PROPIEDADES PSICOMTRICAS DE LOS TESTS

Tema 2: Evaluacin psicomtrica de la inteligencia

Profesor: Daniel G. Manjn

Tema 2: Evaluacin psicomtrica de la inteligencia

El tamao de la muestra utilizada para el clculo del coeficiente.

La representatividad de la muestra con respecto a la poblacin objetivo.

La independencia experimental de la medidas utilizadas para el clculo.

El disponer de dos o ms medidas para cada sujeto.

La longitud de la prueba (por definicin, cuanto mayor es la longitud de una prueba,

Profesor: Daniel G. Manjn

A qu nivel de dominio se evala esa variable?

Si la respuesta a estas tres preguntas es satisfactoria, podremos acordar que el instrumento

Tema 2: Evaluacin psicomtrica de la inteligencia

Profesor: Daniel G. Manjn

III. LAS PUNTUACIONES Y LOS NDICES DE LOS TESTS

Tema 2: Evaluacin psicomtrica de la inteligencia

Profesor: Daniel G. Manjn

Tema 2: Evaluacin psicomtrica de la inteligencia

Profesor: Daniel G. Manjn

IV. PRINCIPALES INSTRUMENTOS DE EVALUACIN DE

Tema 2: Evaluacin psicomtrica de la inteligencia

A. INSTRUMENTOS DE EXPLORACIN GLOBAL

1. Las Escalas Stanford-Binet.

Profesor: Daniel G. Manjn

En cuanto al significado de estas diferentes pruebas, a la determinacin de qu miden

2. Las Escalas de Inteligencia de Wechsler.

Tema 2: Evaluacin psicomtrica de la inteligencia

3. Escalas McCarthy de Aptitudes y Psicomoticidad para Nios

Profesor: Daniel G. Manjn

Vocabulario: Consta de una Parte I (Vocabulario Pictrico) en la que el nio debe

Clculo: Se le formulan al nio diversas preguntas que implican el manejo de conceptos

Memoria verbal: En la Parte I, la primera tarea consiste en repetir en el orden

Orientacin derecha-izquierda: En los primeros tems, el nio debe demostrar su

Tema 2: Evaluacin psicomtrica de la inteligencia

Coordinacin de piernas: En este test, el examinador muestra o describe, segn el tem,

Coordinacin de brazos: Tests de destrezas en el movimiento de los miembros

Memoria numrica: Test de retencin y repeticin de series de dgitos en orden directo

Recuento y distribucin: Test de conteo simple, de reparto en cantidades iguales y de

Formacin de conceptos: Test de clasificacin con bloques lgicos, atendiendo a las

Profesor: Daniel G. Manjn

4. Las Escalas de Alexander

Passalong. En esta prueba, se le presenta al sujeto un diseo con fichas de colores

Tema 2: Evaluacin psicomtrica de la inteligencia

2. Test de Domin D-48, de Pichot.

3. Tests de Factor G, de Catell.

Escala 1: Integrada por las siguientes pruebas: Sustitucin, laberintos, identificacin,