You are on page 1of 26

1

TEMA 4. GARANTAS CIENTFICAS Y TICAS DE LA EVALUACIN

Las pruebas son herramientas. En las manos de un tonto


o de una persona sin escrpulos se volvern una
perversin seudocientfica (Sundberg y Tyler, 1962)

1. Introduccin
2. Instrumentos de evaluacin psicolgica
2.1. Clasificacin de los instrumentos
2.2. Eleccin del mejor instrumento
2.3. Los manuales de aplicacin de los instrumentos
3. Garantas o criterios de calidad de los instrumentos de evaluacin
psicolgica
3.1. Fiabilidad
3.2. Validez
4. Puntuaciones de las pruebas de evaluacin psicolgica
4.1. Escalas de medida
4.2. Puntuaciones directas
4.3. Puntuaciones referidas al criterio
4.4. Puntuaciones referidas a la norma

5. Garanta del proceso de evaluacin


5.1. Las Guas del Proceso de Evaluacin (GAP)
5.2. Garanta de los datos recogidos
6. Directrices y guas que afectan a la evaluacin psicolgica
6.1. Criterios sobre la revisin de los tests
6.2. Directrices para la traduccin y adaptacin de tests
6.3. Directrices internacionales para el uso de los tests
6.4. Directrices internacionales para la evaluacin informatizada y
tests aplicados por internet
7. Garantas ticas: el cdigo deontolgico
8. Conclusiones

OBJETIVOS

1.

Saber qu es un instrumento de evaluacin psicolgica.

2.

Familiarizarse con las clasificaciones de las tcnicas de evaluacin


psicolgica.

3.

Aprender a seleccionar la mejor prueba de evaluacin psicolgica.

4.

Identificar las partes de un manual de aplicacin de un test.

5.

Conocer los criterios de calidad exigibles a los instrumentos de


evaluacin psicolgica.

6.

Conocer las principales puntuaciones de medida de los tests.

7.

Conocer las condiciones de deontologa profesional que rigen en


evaluacin psicolgica.

1. Introduccin

Como ya se ha dicho, la evaluacin psicolgica tiene por objeto el


anlisis cientfico del comportamiento de una persona. Durante este
proceso se formulan hiptesis que ha de ser operacionalizadas mediante
un conjunto de procedimientos cientficos de recogida de informacin:
tests, tcnicas, instrumentos, etc., que han de presentar una serie de
garantas cientficas, tanto en su construccin como en su uso. Por otro
lado, el proceso de evaluacin supone un procedimiento cientfico sujeto
a normas. Por ltimo, cualquier actividad humana est sometida a una
regulacin dictada por los agentes sociales y por la propia profesin. En
consecuencia, en este tema vamos a tratar las garantas cientficas y
ticas de la evaluacin psicolgica.

2. Instrumentos de evaluacin psicolgica

Como dice Garca-Montalvo (1997); un instrumento de evaluacin


psicolgica es todo aquello que el evaluador puede utilizar como legtima
fuente de datos acerca de una persona. Los instrumentos de evaluacin
psicolgica se clasifican en funcin de distinto tipo de tcnicas
(observacin, entrevista, autoinformes, subjetivas, objetivas, proyectivas)
entendidas como conjunto de procedimientos y recursos de que se sirve
una ciencia.

En muchas ocasiones, utilizamos indistintamente instrumento,


tcnica y test, pero existe una diferencia clara entre estos trminos.

Test es un procedimiento sistemtico para observar la conducta y


describirla con la ayuda de escalas numricas o categoras establecidas.
El evaluador recoge informacin preguntando y observando a todas las
personas de la misma manera, en la misma o en comparables situaciones.
Esta definicin engloba los cuestionarios, a travs de los cuales se obtiene
informes sobre la personalidad, procedimientos para observar la conducta
social, aparatos de medida de la coordinacin o, incluso, registros sobre
productos (Cronbach, 1990, p.32).

Tres son las caractersticas principales de los tests:


1.

presentar escalas numricas o categoras establecidas,

2.

a todas las personas se les debe preguntar u observar de la misma


manera, y

3.

permiten comparaciones interindividuales.

Pero, no todos los procedimientos de evaluacin psicolgica son


tests. Las tcnicas o instrumentos pueden ser estndar o pueden ser
flexibles. Y, por ltimo, tenemos las tcnicas cualitativas que permiten
formas subjetivas de valoracin (las del evaluador).
Finalmente, en evaluacin psicolgica existen tambin las medidas
simples o moleculares que son registradas mediante instrumentos o
tcnicas.

Por lo tanto, los procedimientos de recogida de informacin no se


reducen a los tests o tcnicas estndar de medida. E n d e f i n i t i v a , e l
evaluador debe seleccionar aquellos tests estndar que sean idneos;
debe elegir tambin aquellas tcnicas, instrumentos o medidas que den
cuenta de las caractersticas especficas del caso. Adems, de aprender
a elegir los mejores instrumentos o pruebas de evaluacin psicolgica, el
buen profesional debe saber aplicarlos correctamente.

2.1. Clasificacin de los instrumentos

Una de las clasificaciones ms antiguas de los instrumentos de


evaluacin es la de Pervin (1979):
4.

Tests proyectivos

5.

Tests subjetivos

6.

Tests psicomtricos

7.

Tests objetivos

Por otro lado, Fernndez-Ballesteros (1999) presenta una


clasificacin en seis categoras compartida por Forns, Abad, Amador,
Kirchner y Roig (2002):
8.

Tcnicas de observacin

9.

Tcnicas objetivas

10.

Tcnicas de autoinforme

11.

La entrevista

12.

Tcnicas subjetivas

13.

Tcnicas proyectivas

Las tcnicas de evaluacin psicolgica tambin pueden clasificarse


en funcin de su aplicacin a lo largo del proceso de evaluacin
psicolgica.

Es necesario, por otro lado, aclarar las diferencias existentes entre


cuestionario, inventario y escala.

El cuestionario incluye una lista de cuestiones o preguntas, por lo


tanto la formulacin de los tems siempre va con interrogacin.
Los inventarios, por el contrario, se construyen a partir de un listado
de tems en forma de conjunto de frases que representan
situaciones, conductas o respuestas a las que la persona tiene que
contestar con qu frecuencia le ocurren.
La escala comporta la observacin externa.

Caractersticas bsicas de la clasificacin de las tcnicas de


evaluacin psicolgica (Aiken, 1996, Cohen y Swerdlik, 2001, Gregory,
2001, entre otros):
1.

Procedimientos estandarizados y no estandarizados: se considera


que una prueba est estandarizada cuando tiene instrucciones fijas
para su aplicacin y clasificacin y se aplica a un grupo
representativo de la poblacin, para quienes est especficamente
dirigido. Por el contrario, un procedimiento no estandarizado es
aquel que no posee normas y por tanto no necesita comparar al
individuo en particular con un grupo de referencia.

2.

Pruebas individuales o grupales: un instrumento individual slo se


aplica a una persona, mientras que las pruebas grupales pueden
aplicarse de forma simultnea a varias personas.

3.

Pruebas referidas a la norma: en una prueba referida a la norma, la


puntuacin de cada persona se interpreta con referencia a una
muestra de estandarizacin, mientras que en las pruebas referidas
a criterio no se necesita la comparacin de una persona con un
grupo de referencia.

10

4.

El grado de estructuracin de los estmulos y la respuesta: una


prueba estructurada en el estmulo tiene una nica interpretacin,
mientras que una prueba con menor grado de estructuracin ofrece
ms variedad de interpretaciones.

5.

El grado de enmascaramiento del objetivo de la prueba: una prueba


no enmascarada deja claro desde el primer momento los objetivos
que pretende alcanzar, mientras que los instrumentos enmascarados
poseen un objetivo diferente del que pretenden aparentar en un
principio.

6.

El grado de inferencia interpretativa: los niveles de inferencia se


refieren a las respuestas que una persona emite frente a cualquier
dispositivo de evaluacin. Son cuatro los niveles de inferencia
propuestos por Sundberg, Tyler y Taplin (1973).

7.

El grado de modificabilidad de la respuesta: se refiere al grado en el


que la persona puede modificar o alterar su respuesta en la prueba.

Por otro lado, los instrumentos de evaluacin pueden clasificarse


segn Aiken (1996) a partir de sus contenidos verbal/no verbal, tests de
ejecucin, o segn se trate de una prueba cognoscitiva, o afectiva.

11

2.2. Eleccin del mejor instrumento

En 1950 un Comit sobre Normas ticas para la Psicologa de la


American Psychology Association (APA) public unas orientaciones en las
que se definan tres niveles de pruebas en funcin del grado de
conocimientos que su uso requera. Por otro lado, existe un proyecto de
la Asociacin Europea de Evaluacin Psicolgica (EAPA) para restringir el
acceso de pruebas no slo a los no psiclogos, sino tambin a los
psiclogos no formados en evaluacin.
Las tareas del proceso de evaluacin son propias de un profesional
de la psicologa.
Muiz (1997) describe tanto los aspectos ticos como los
deontolgicos de la evaluacin psicolgica. Este autor resalta la
clasificacin de los instrumentos de evaluacin entre tres niveles (a, b, c)
que utilizan los editores para la venta de las pruebas (siguiendo las normas
de la APA).
a) Formacin y experiencia en el mbito concreto de aplicacin.
b) Conocimiento sobre la teora de los tests y mtodos estadsticos.
c) Titulacin superior en psicologa, psiquiatra o psicopedagoga y
experiencia profesional en diagnstico clnico.

12

En cuanto a la eleccin de la herramienta psicolgica ms


adecuada, depende de qu se quiere evaluar, para qu, y quin o
quines va/n a ser evaluados. Cmo elegir la mejor prueba?
1. Saber cules son las pruebas de inteligencia estandarizadas.
2. Elegir aquellas que posean unos adecuados criterios de calidad.
3. Seleccionar aquellos instrumentos que puedan aplicarse a la edad
de la persona o personas que queremos evaluar.
4. Seleccionar un instrumento de administracin individual o grupal.
Pasos en la aplicacin de un instrumento de evaluacin psicolgica:
5. Se familiarice con la prueba.
6. Prepare adecuadamente el lugar donde se aplicar la prueba.
7. Cree un ambiente y rapport adecuados .
8. Prepare los materiales necesarios.
9. Explique el propsito de la evaluacin antes de aplicar la prueba y
cmo se va a utilizar la informacin obtenida.
10. Siga estrictamente las normas de aplicacin de la prueba.
11. Corrija las pruebas siguiendo los pasos que se indican en el
manual con el fin de no cometer errores.
12. Cumpla con las obligaciones ticas y deontolgicas antes de iniciar
la evaluacin.

13

2.3. Los manuales de aplicacin de los instrumentos

Las partes de un manual (que pueden variar en orden de


presentacin) por lo general suelen tener los mismos contenidos:

1. Introduccin. Origen de la prueba.


2. Objetivos que pretende el instrumento.
3. Descripcin general. Incluye una ficha tcnica con la descripcin
general de la prueba.
4. Fundamentacin estadstica. Fiabilidad y validez.
5. Instrucciones para la aplicacin, correccin e interpretacin.
6. Ventajas y limitaciones de la prueba.
7. Investigaciones recientes realizadas con este test. Este ltimo
apartado no se incluye en todos los manuales.

El buen evaluador debe leer a fondo el manual antes de aplicar el


test y prestar una atencin especial a los siguientes aspectos:
1. La construccin de la prueba.
2. Cmo debe realizarse la administracin del test.
3. Pasos a seguir para corregir y obtener los resultados.

14

3. Garantas o criterios de calidad de los instrumentos de evaluacin


psicolgica

Como deca Yela (1990), el proceso de evaluacin psicolgica debe


realizarse cubriendo ciertas garantas de calidad. Desde los inicios de la
teora clsica de los tests se desarrollaron y establecieron los requisitos
psicomtricos de calidad y bondad asumidos como normas en la
construccin, interpretacin y utilizacin de instrumentos psicolgicos de
medicin: fiabilidad y validez. Estos dos criterios se integran en las
normas de la APA desde 1954.

Por otro lado, los tests y cualquier otro instrumento de medida, no


nos proporciona una medida perfecta por lo que existe un elemento de
error e imperfeccin que resulta imprescindible conocer.

3.1. Fiabilidad
La APA describi fiabilidad como la exactitud (consistencia y
estabilidad) de la medicin de un test; es decir, la precisin con la que
mide la prueba. En trminos ms tcnicos, la confiabilidad de una prueba
permite estimar qu proporcin de la varianza total de las puntuaciones se
debe a la varianza de error (Anastasi y Urbina, 1998).

15

Se puede decir que existen tres tipos de evidencias de fiabilidad:


1.

Relacionadas con la estabilidad de la medida

2.

Con la objetividad del registro

3.

Con la homogeneidad de la prueba en aquellos tests que se


componen de un agregado de elementos

Las posibles fuentes de error de medicin o fuentes de varianza de


error que pueden reducir la fiabilidad de una prueba son descritas por
Aiken (1996), Cohen y Swerdlik (2001), Gregory (2001) y otros muchos
autores:

1. Construccin de pruebas
2. Administracin de las pruebas
3. Calificacin e interpretacin de las pruebas

En cuanto a los tipos de fiabilidad o formas de estimar el coeficiente


de fiabilidad de una prueba, hacemos una breve exposicin:
1. Coeficiente test-retest o estabilidad del test
Se halla al correlacionar las puntuaciones que obtiene un grupo de
personas en la aplicacin de una prueba con las obtenidas en una
segunda aplicacin.

16

2. Coeficiente de formas paralelas/alternas o de equivalencia


Consiste en aplicar la segunda vez una forma paralela o alterna del
tests; sin embargo, algunos autores como Gregory (2001) sealan que
introduce diferencias en la muestra de reactivos. Para solucionar esto,
Aiken (1996) describe el procedimiento correcto: elaborar dos formas de
la misma prueba. La correlacin resultante es el coeficiente de
equivalencia.

3. Coeficiente de consistencia interna


Este coeficiente es ms sencillo y tiene en cuenta los errores de
diferentes muestras de reactivos de una prueba, pero no refleja los errores
de medicin debidos a las diferentes condiciones o momentos de la
aplicacin.

4. Coeficiente interjueces o entre evaluadores


La fiabilidad entre evaluadores es el grado de acuerdo o consistencia
que existe entre dos o ms evaluadores, jueces o calificadores (Cohen y
Swerdlik, 2001).

17

3.2. Validez
La definicin de los Estndares para los tests educativos y
psicolgicos (AERA, APA, NCME, 1985, 1999) indica que una prueba es
vlida al grado en que las inferencias que se realicen a partir de ella sean
apropiadas, significativas y tiles. Al igual que la fiabilidad, la validez de
una prueba puede verse afectada por los errores de medida no
sistemticos, pero tambin por los sistemticos.
Las principales clases de validez o evidencia son las que aparecen
a continuacin:

1. Validez de contenido
Representa la comprobacin de que el contenido de la tcnica en
cuestin comprenda una muestra representativa del universo posible de
conductas que se pretende evaluar con ella (Fernndez-Ballesteros y
Maci, 1992).
2. Validez criterial
Tambin llamada predictiva, expresa el grado en que las
puntuaciones en una variable -normalmente un predictor-, pueden
utilizarse para inferir el rendimiento en una variable diferente y
operacionalmente independiente llamada criterio. Dos tipos: a) La validez
concurrente y b) La validez predictiva.

18

3. Validez de constructo
Establece el grado en el cual un instrumento mide o guarda relacin
con un determinado rasgo o constructo hipottico. Integra las
consideraciones criteriales y de contenido. Es el tipo de validez ms
general.

4. Puntuaciones de las pruebas de evaluacin psicolgica


4.1. Escalas de medida
Existen en psicologa cuatro tipos de escalas de medida: nominal,
ordinal, de intervalo y de razn.
4.2. Puntuaciones directas
Son el resultado directo e inmediato que se obtiene a la hora de
corregir un test.
4.3. Puntuaciones referidas al criterio
Una puntuacin referida al criterio o al universo de conductas, se
interpreta en funcin de unos logros u objetivos a cumplir, arbitrariamente
definidos, y que sirven para tomar decisiones.

19

4.4. Puntuaciones referidas a la norma


Se interpreta a partir de un grupo de referencia; es decir, se basa en
la comparacin de la ejecucin de una persona con su grupo normativo.
Existen tres tipos de puntuaciones normativas:
a) Puntuacin percentil.
b) Puntuacin cronolgica.
c) Puntuacin tpica.
4.5. Puntuaciones independientes de la norma
Se fundamentan en la Teora de Respuesta al tem, representan
unos valores determinados en la dimensin de la aptitud analizada
reflejando el nivel de habilidad del individuo, y poseen la ventaja de realizar
un perfil individual y preciso de cada persona.

20

5. Garanta del proceso de evaluacin

Para garantizar el proceso de evaluacin hemos de utilizar las Guas


del proceso de evaluacin, ya que suponen normas que la comunidad
cientfica ha elaborado, y garantizar los propios datos (no slo las tcnicas
utilizadas).

5.1. Las Guas del Proceso de Evaluacin (GAP)

Los objetivos de las GAP son: 1) asistir a los evaluadores en su


esfuerzo por optimizar la calidad de su trabajo; 2) asistir al cliente de una
evaluacin para que pueda enjuiciar el trabajo evaluativo; y 3) facilitar el
entrenamiento en evaluacin.
Existe, por otro lado, una herramienta de las GAP llamada Hoja de
autovaloracin del proceso de evaluacin (HAPE), que comprende cada
una de las 95 normas con el fin de permitir la valoracin sobre el
cumplimiento de las mismas mediante un autoexamen.

21

5.2. Garanta de los datos recogidos

La conceptualizacin sobre las garantas cientficas que ofrecen


nuestros datos procede de la Teora de la generalizabilidad (TG) formulada
por Cronbach y colaboradores (1972). Se pretende la utilizacin de su
racional como un heurstico para indagar la bondad de los datos recogidos.
La TG propone que existen distintos universos a travs de los cuales los
datos obtenidos podran ser generalizables.
Algunos de los problemas en torno a la fiabilidad, validez y exactitud
de los datos de una evaluacin en relacin a estos universos de
generalizabilidad:

1. Generalizabilidad de las puntuaciones


Este universo de generalizabilidad implica la siguiente pregunta: en
qu medida los datos procedentes de un evaluador son generalizables a
los obtenidos por otros evaluadores?
2. Generalizabilidad de los elementos
Este universo de generalizabilidad implica la siguiente pregunta:
hasta qu punto los elementos de un test son representativos del amplio
universo de elementos implicados en el mismo mbito de contenido y/o de
unos elementos del test se puede generalizar a otros?

22

3. Generalizabilidad temporal
Este universo de generalizabilidad implica la siguiente pregunta:
hasta qu punto los datos obtenidos en un determinado momento son
extensibles a otros momentos de la vida de la persona?
4. Generalizabilidad de las situaciones
Este universo de generalizabilidad implica la siguiente pregunta:
hasta qu punto los datos de un test recogidos en una situacin son
generalizables a otras situaciones?
5. Generalizabilidad de los mtodos
Este universo de generalizabilidad implica la siguiente pregunta: en
qu medida los datos procedentes de un mtodo de evaluacin son
generalizables a otros que evalen el mismo contenido?
6. Generalizabilidad de las dimensiones
Este universo de generalizabilidad implica la siguiente pregunta: en
qu medida las propiedades o estimaciones de una variable son
generalizables a otras?

23

6. Directrices y guas que afectan a la evaluacin psicolgica

A partir del ao 1991 distintas organizaciones nacionales, europeas


e internacionales han producido un conjunto de guas, directrices, normas
o estndares, siendo las ms relevantes las siguientes:

Los criterios sobre la revisin de los tests (2000).

Las directrices para la traduccin y adaptacin de tests (1996).

Las directrices internacionales para el uso de los tests (2000)

Las directrices internacionales para la evaluacin informatizada y


tests aplicados por internet (2003) (en proceso de revisin).

6.1. Criterios sobre la revisin de los tests


Un test debe ser revisado cuando existen datos de investigacin que
representen cambios significativos en el dominio, en las condiciones de
uso, o en la interpretacin que pueden hacer inapropiado el uso del test;
cuando la investigacin ha mostrado nuevos conceptos subyacentes que
han de ser incorporados.

24

6.2. Directrices para la traduccin y adaptacin de tests


La International Test Comission (ITC) ha desarrollado normas para
la adaptacin de los tests formados por 22 principios agrupados en cuatro
reas:

Contexto

Desarrollo y adaptacin de instrumentos

Administracin

Interpretacin

6.3. Directrices internacionales para el uso de los tests


Tambin han sido elaboradas por la ITC y se dirigen no slo a los
constructores, investigadores o usuarios, sino a todas las personas que
participen en un proceso en el que est implicada la evaluacin
psicolgica. Poseen dos apartados, el primero consta de 33 artculos y
revisa la responsabilidad en el uso tico de los test, y el segundo con 102
artculos se dirige a la utilizacin adecuada de los tests.
A estos principios aaden tres apndices en los que se revisan las
pautas para establecer polticas sociales sobre el uso de los tests, pautas
para confeccionar contratos entre las partes implicadas en la evaluacin
y aplicacin de tests a personas con discapacidades.

25

6.4. Directrices internacionales para la evaluacin informatizada y tests


aplicados por internet
En marzo de 2003, la ITC enviaba un borrador sobre estndares de
aplicacin internacional. Aparecen cuatro objetivos fundamentales:
1.

Cuidar las cuestiones tecnolgicas

2.

Garantas de calidad

3.

Asegurar los niveles de control apropiados

4.

Asegurar la privacidad y seguridad de los datos recogidos.

7. Garantas ticas: el cdigo deontolgico


Ver el Cdigo Deontolgico del Psiclogo en la pgina oficial del
Colegio Oficial de Psiclogos.

8. Conclusiones
A lo largo de este tema se ha tratado de estudiar cules son las
garantas cientficas y ticas en la evaluacin psicolgica. Hemos tenido
en cuenta las diferencias entre los tests y otros instrumentos de medida,
as como las diferentes puntuaciones que se obtienen.
Por otro lado, se han presentado los conceptos de fiabilidad y
validez, as como los diferentes tipos de evidencia.

26

Por ltimo, se habla de garantas cientficas y ticas en el proceso


de evaluacin psicolgica. Por una parte, se trata de garantizar el proceso
de evaluacin psicolgica mediante unos estndares suministrados por
asociaciones cientficas o profesionales de psiclogos; y, por otro parte,
abarca comportamiento ticos que se han de seguir teniendo en cuenta el
cdigo deontolgico del psiclogo.

PREGUNTAS:

V1) El test difiere del instrumento de evaluacin psicolgica en que el test


siempre est tipificado y el instrumento puede no estarlo
F2) Un procedimiento estandarizado slo puede aplicarse individualmente
F3) El nivel A de clasificacin de las pruebas se refiere a que el evaluador
debe tener titulacin superior en psicologa, psiquiatra o psicopedagoga.
4) Una puntuacin referida a criterio nos informa del dominio que tiene la
persona en una habilidad particular.