Академический Документы
Профессиональный Документы
Культура Документы
CONSTRUCCIÓN DE PRUEBAS
PSICOLÓGICAS
V CICLO
TRUJILLO - PERU
CONSTRUCCIÓN DE PRUEBAS
PSICOLÓGICAS
VI CICLO
PSICOLOGÍA
REFERENCIAS
DR. EDMUNDO ARÉVALO LUNA
Psicólogo Colegiado y miembro del Colegio de Psicólogos del Perú
Miembro del Consejo Regional VII, del Colegio de Psicólogos de la Libertad
Doctor en Educación por la UPAO
Magíster en Psicología mención Psicología Educativa UNMSM
Posgraduado en Neuropsicología Clínica UNFV
Posgraduado en Detección, prevención y Tratamiento de Disfunciones sexuales UIGV
Profesor de la Sección de Post Grado en la UCV-UPAO- UNT
Profesor de Pre Grado en las Escuelas de Psicología y Educación de la UPAO
Profesor de la Facultad de Ciencias Médicas de la UCV- Trujillo
Profesor de la Escuela de Psicología de la USS - Chiclayo
Profesor Investigador de la Facultad de Medicina Humana de la UPAO.
Director de la Escuela Profesional de Psicología de la UPAO
Director de PSICARE, institución dedicada al desarrollo humano y la familia
CONSTRUCCIÓN DE PRUEBAS
PSICOLÓGICAS
CONTENIDO
Pág.
Carátula
Contenido
Ruta de estudio
Ruta de trabajo
BIBLIOGRAFÍA
Para estudiar este curso, necesitamos tener una actitud abierta y colaborativo,
porque vas a construir o adaptar un aprueba psicológica, que debes sustentar al finalizar
el curso. Para ello considera un horario especial, para trabajar en equipos, por lo tanto
ORGANIZA TU TIEMPO, para incluir horas de lectura independiente, pero
fundamentalmente organízate para hacer trabajos en equipo. Para que aprendas y logres
las competencias del curso, considera las recomendaciones que te hacemos llegar:
¡ATENCIÓN!
LA PRESENTE RUTA DE TRABAJO, TE AYUDARÁ A PLANIFICAR CON ANTICIPACIÓN TUS TAREAS Y
RESPONSABILIDADES EN LA ASIGNATURA, LA IDEA ES QUE TRABAJES CON ANTICIPACIÓN, PARA
EVITAR DIFICULTADES Y ASÍ PRESENTAR A TIEMPO TU TRABAJO
PRIMERA UNIDAD
1. CAPACIDADES
2. CONTENIDOS
• Medición psicológica.
• La medición en la ciencia: Escalas de medición.
• Diseño y elaboración de una prueba psicológica
• Introducción y generalidades
• Finalidad de la prueba
a. La medición
Medir hace explicito un proceso mediante el cual se abstraen a partir del objeto o del
acontecimiento, un atributo o dimensión determinado a los que se aplican los números
asignados (Nunnally, 1995). Tiene una connotación más amplia que prueba, ya que esta se
puede realizar también por medio de observaciones, escala de evaluación, o cualquier
otro instrumento, que nos permita obtener información cuantitativa.
b. Prueba
Es el más limitado de los términos, en el significado más aproximado connota la
presentación de un conjunto de preguntas que se han de contestar y como resultado de
esa aplicación se otorga un valor numérico, el mismo que se asigna a una característica de
la persona. (Cerda, 1995)
c. Evaluación
Stufflebean y Cols. (1971), conceptuaban a la evolución como un proceso que permite
definir, obtener y proporcionar información indispensable para juzgar alternativas en una
decisión. Tal vez será esta definición una de las más amplias. Así usada, abarca y rebasa el
significado de los conceptos de prueba y medición.
1.2."NoCIENCIA
medimosY MEDICÍON
ni evaluamos a las personas, sino sus características o propiedades"
1.2.1. Ciencia:
La ciencia constituye un modo particular de “saber”, sin duda el más valido y riguroso,
integrado por conocimientos denominados científicos.
Estos conocimientos se distinguen de otros que también nos informan sobre el mundo y
el hombre, como son el conocimiento común y el conocimiento filosófico.
Sobre la base de estos dos objetivos básicos, la ciencia luego de saber cómo es un sector
de la realidad (objeto) y los factores que lo explican, están en condiciones de alcanzar
otros objetivos, los cuales son derivados o aplicados, puesto que puede:
Y CUANTIFICACIÓN
ACTIVIDAD (Números)
MATEMÁTICA ABSTRACTA
El error surgirá con el simple uso de una escala continua; el número o puntuación usada
para caracterizar el rasgo que se está midiendo en una escala continua debería
considerarse como una aproximación al número “real”. Una puntuación X en alguna
prueba no debería considerarse como una medida precisa de la variable sino más bien
como una aproximación a la puntuación real de esta. En contraste con los números o
puntuaciones usados para caracterizar rasgos en escalas continuas, los números o
puntuaciones usados en escalas discretas se supone que son exactos.
La palabra francesa para negro es noir (pronunciada “nuar”). Dicha palabra es útil para
recordar los cuatro niveles o escalas de medición; cada letra en noir es la primera letra de
cada uno de los niveles más riguroso en forma sucesiva. La n significa escala “nominal”, la
o “ordinal”, la i de “intervalo” y la r de “razón”.
Las escalas son las reglas de medición, y la elaboración de las mismas se define como el
proceso de establecimiento de reglas para la asignación numérica en la medición.
Las escalas son instrumentos utilizados para medir algo, siendo ese “algo”, generalmente,
un rasgo, característica o atributo psicológico.
Con el fin de tener una precisión de las mediciones psicológicas, es necesario tener en
consideración la naturaleza de las escalas utilizadas. Dependiendo de las suposiciones
matemáticas y lógicas que se hagan, resultan posible varios tipos de escalas. Estos niveles
de escalas resultan jerárquicos y nos sirven para ordenar los trabajos psicológicos.
Los datos difieren de acuerdo con las propiedades de la serie de números reales (orden,
distancia u origen) que podemos atribuir a las puntuaciones.
La clasificación más común (aunque no la más refinada) es la sugerida por Stevens (1984),
quien clasifica las escalas en:
Las escalas nominales son la forma más simple de medición. Estas escalas implican la
clasificación o asignaciones de categorías basada en una o más características distintivas
donde deben colocarse todos los objetos en categorías mutuamente excluyentes y
exhaustivas. Por ejemplo, las personas pueden caracterizarse por género en un estudio
(hombre 1 ó A y mujer 2 ó B). en el área de la especialidad de la psicología clínica, una
escala nominal usada a menudo es el Manual Diagnóstico y Estadístico de Trastornos
Mentales IV (DSM-IV). A cada trastorno enumerado en el manual se le asigna su propio
número, pero estos números se usan de manera exclusiva con propósitos de clasificación
y no pueden sumarse, restarse, jerarquizarse o promediarse de manera significativa.
Las operaciones aritméticas que se pueden realizar en forma legítima con datos
nominales incluyen contar con el propósito de determinar cuántos casos en cada
categoría y alguna determinación consecuente de proporción o porcentajes.
Como las escalas nominales, las escalas ordinales permiten la clasificación. Sin embargo,
además de la clasificación, con las escalas ordinales también es permisible un
ordenamiento en rangos de alguna característica. Los individuos son comparados con
otros y se les asigna un rango.
Los instrumentos de evaluación aplicados al sujeto individual también pueden usar una
forma ordinal de medición.
Las escalas ordinales no implican nada respecto a cuánto más grande es una categoría
que otra. Aun cuando las escalas ordinales generalmente emplean números para
representar el ordenamiento del as categorías, los números no indican unidades de
medición. Las escalas ordinales no tienen un punto cero absoluto; sin unidades, el cero
carece de significado.
Debido a que pueden existir unidades de medición desiguales en las escalas ordinales, y a
que no hay un punto cero, las formas en que pueden tratarse los datos de estas escalas
desde el punto de vista estadístico son limitadas.
Además de las características de las escalas nominales y ordinales, las escalas de intervalo
contienen iguales intervalos iguales entre números; cada unidad en la escala es
exactamente igual a cualquier otra unidad en la escala. Pero, como sucede en las escalas
ordinales, las escalas de intervalo no contienen un punto cero absoluto. Con las escalas de
intervalo hemos llegado a un nivel de medición en el que es posible sacar el promedio de
un conjunto de mediciones y obtener un resultado significativo.
Las escalas de Razón; además de tener todas las propiedades de las escalas nominales,
ordinales y de intervalo, una razón tiene un punto cero verdadero. Todas las operaciones
matemáticas pueden realizarse de manera significativa en las escalas de razón porque
existen intervalos iguales entre los números en la escala al igual que un punto cero
verdadero o absoluto. La diferencia entre escalas de intervalo y de razón parece
relacionarse de manera más estrecha con consideraciones teóricas relacionadas con el
atributo que se está midiendo.
El nivel ordinal de medición es el que se usa con mayor frecuencia en psicología. Como lo
señalo Kerlinger: “Las puntuaciones de las pruebas de inteligencia, aptitud y personalidad
son, hablando en forma básica y estricta, ordinales. Indican con más o menos precisión no
la cantidad de inteligencia, aptitud y rasgos de personalidad de los individuos, sino más
bien las posiciones ordenadas en categorías de los individuos… la mayor parte de las
escalas psicológicas y educativas se aproximaran bastante bien a una igualdad de
intervalo”.
No todas las pruebas se crean igual. La creación de una buena prueba no es una cuestión
fortuita; es el producto de una aplicación meditada y sólida de principios establecidos de
elaboración de pruebas. Los procedimientos empleados varían de acuerdo con el tipo de
test y objetivos de los usuarios, pero cualquiera que sea el tipo de instrumento o los
objetivos de los usuarios, es necesaria cierta planeación del contenido antes de redactar
los reactivos que ésta comprende.
Existen otros autores que señalan que no existe un procedimiento determinado para la
construcción de pruebas psicológicas, por lo que mucho dependerá de la habilidad del
constructor. En nuestra experiencia consideramos proponer el esquema del cuadro 2:
Los procedimientos utilizados para construir pruebas psicológicas tienen como fin
asegurar que estas alcancen sus finalidades y metas deseadas. Esto se logra mediante la
aplicación de los principios de la medición. Aun cuando el proceso exacto varía
dependiendo del tipo de pruebas psicológicas, se puede establecer una secuencia general
de los pasos de los construcción de pruebas psicológicas, que incluye la especificación de
su finalidad, la construcción y especificación de los reactivos, el ensamblaje de la forma
final de la prueba, el análisis y estandarización de las calificaciones de prueba psicológica.
En la construcción de cualquier prueba específica, se puede omitir algunas de las etapas.
Puede variar su orden o se puede llevar a cabo varias etapas de manera simultánea.
La idea de una prueba como un signo se puede aclarar por medio de dos ejemplos.
Tomemos en consideración la creatividad, que es un concepto muy utilizado, pero que se
define raramente con claridad. Un buen método para abordar el estudio de la creatividad
podría ser el desarrollo de una prueba de aptitudes y de resolución de problemas que
parezcan medir la capacidad creativa.
El efecto esencial de una prueba predictiva es que sus calificaciones se relacionan con el
comportamiento de interés (el criterio). Hasta donde la selección de reactivos para esa
prueba se base con la exactitud que predice una conducta externa, se podría incluir en
ella reactivos que parezcan no tener ninguna relación lógica con la conducta que se este
tomando en consideración.
Puesto que las escuelas secundarias difieren muchos en sus cursos, sus normas
académicas y sus prácticas de calificación, los funcionarios encargados de la admisión a la
universidad necesitan contar con alguna medida estándar de la capacidad para comparar
las solicitudes de los candidatos procedentes de distintas escuelas.
El SAT es una prueba objetiva con duración de tres horas, destinada a proporcionar una
medida estándar de las capacidades verbales y matemáticas de los candidatos a ingresar
a la universidad. Las secciones verbales del SAT pondrán a prueba la capacidad para
comprender las relaciones entre las palabras y las ideas y entender lo que se lee. Las
secciones matemáticas ponen a prueba la capacidad para comprender símbolos
matemáticos y utilizarlos en la resolución de problemas.
Obsérvese que esta declaración no sólo explica la finalidad de la prueba sino que subraya
el contenido.
Un criterio es una medida del éxito, o sea, la conducta que debe predecir la prueba. Se
debe definir lo que constituye una ejecución apropiada, especificándose un índice de
éxito. Por ejemplo, el éxito como ensamblador de reguladores se puede definir como el
número de unidades de ensambladas por hora, el éxito de un vendedor por su volumen
de ventas, el de un alumno por el promedio de sus calificaciones, etc.
Una tabla de especificaciones debe ser bastante detallada en los términos del
conocimiento y las habilidades que se espera demuestren los sujetos, pero es importante
no enfatizar demasiado un objetivo en particular. Quizá sea más fácil elaborar los
reactivos que evalúan el conocimiento en términos y hechos que aquellos que miden la
capacidad para analizar y evaluar; pero también deben incluirse en el instrumento los
reactivos en las últimas dos categorías. (Ver los ejemplos del cuadro 3)
Total Ítems 10 10 10 10
(CUADRO N 4)
Modelo de una Matriz de Consistencia para la Construcción de una Prueba Psicológica
Título:
2. Pruebas de velocidad vs. Pruebas de poder: en una prueba de velocidad los reactivos
suelen ser muy sencillos; pero existe un tiempo límite estricto; así, la calificación es
un índice de la velocidad de las respuestas. Una prueba
de poder se compone de reactivos de dificultad variable y tiene un límite de tiempo
que permite dar respuesta a todos ellos. En esa forma, la calificación refleja el nivel
de dificultad de los reactivos a los que puede responder el sujeto.
3. Ejecución máxima vs. Ejecución típica: en las pruebas de ejecución máxima, el sujeto
recibe instrucciones de tratar de obtener la mejor calificación que pueda. En las
pruebas de ejecución típica, nos interesa conocer su comportamiento habitual o
normal. En general, las pruebas de rendimiento y aptitudes son medidas de ejecución
máxima en tanto que las de personalidad, son medidas de ejecución típica.
4. Papel y lápiz vs. Ejecución: esta distinción se refiere al modo en que se presentan los
reactivos de una prueba y cómo se dan las respuestas. Las pruebas de ejecución
implican, con frecuencia, la manipulación de algún aparato u objeto.
5. Aplicación colectiva vs. Individual: las pruebas colectivas se pueden aplicar a más de
un solo individuo a la vez, por lo que suelen ser de papel y lápiz. Las pruebas
individuales se pueden aplicar sólo a una persona cada vez y pueden ser de ejecución
o verbales.
Cualquier prueba combinará varias de esas dimensiones; es decir, puede ser una prueba
de velocidad, de papel y lápiz, utilizando reactivos de reconocimiento. Además, una
prueba puede incluir varios tipos de reactivos; por ejemplo, los exámenes de clase
incluyen con frecuencia tanto preguntas de elección alternativa (como las de elección
múltiple o las de verdadero y falso) como la de respuesta libre (tales como las de ensayo
o respuestas cortas).
Objetivos:
• Que los alumnos analicen una prueba psicológica (sea de aptitudes, inteligencia,
inventarios de personalidad, escalas, entre otros) a fin de conocer y comprender
cada una de las fases de su construcción
• A partir de este análisis comprender los procedimientos que se han seguido para
su construcción, la misma que les servirá de referencia, para elaborar una prueba
psicológica.
Duración: 2 Semanas
Actividad:
1º. Formar equipos de trabajo para realizar la actividad, de acuerdo al número de
alumnos en las prácticas.
2º. Realizar el análisis crítico considerando el esquema que se presenta
3° Exponer en diapositivas
ESQUEMA
I. FICHA TÉCNICA
1.1. Nombre de la prueba
1.2. Autor o autores
1.3. Año de publicación
1.4. Procedencia (se refiere al lugar donde se elaboró la prueba inicial)
1.5. Adaptación española (generalmente se denomina el instituto o lugar donde se
adaptó al idioma español, si es posible el autor de la misma)
1.6. Ámbito de aplicación (Se refiere a las edades, niveles educativos o población en
que se administra la prueba)
1.7. Tiempo de duración (Se refiere a la administración de la prueba, si es por áreas o
el total del examen)
1.8. Significación u objetivos de la prueba (Aquí se plantea, en general los propósitos
que tiene la prueba que se analiza)
1.9. Áreas que evalúa la prueba (Se detallan las áreas, describiendo cada una de ellas)
1.10. Datos normativos (Señalar que tipos de puntuaciones y datos normativos presenta
la prueba)
ANEXOS:
Se adjunta el cuestionario, el protocolo de respuestas y la información bibliográfica se
hace referencia, en versión Word y Power Point, en físico y CD.
NOTA:
Este trabajo al ser producto de un análisis pormenorizado de un equipo, se debe
presentar con una redacción impecable y manteniendo las normas APA.
EAL/
ACTIVIDADES DE RETROALIMENTACIÓN
SEGUNDA UNIDAD
1. CAPACIDADES
2. CONTENIDOS
▪ Los reactivos
▪ Análisis de reactivos
▪ Ensamblaje de la prueba
Después de tomar esas decisiones preliminares, quien desarrolla la prueba estará listo
para comenzar a redactar los reactivos. Una vez más tendrá varias opciones para actuar.
Tomemos en consideración las fuentes que podrían utilizarse para desarrollar reactivos
individuales. Para un examen en clase, el maestro puede utilizar libros de texto, tareas de
lectura, exposiciones y debates en clase, como fuentes para las preguntas. En contraste,
en las pruebas de rendimiento desarrolladas para usarse en diversas escuelas, los
redactores de los reactivos no toman solamente en consideración un texto, sino las de
gran variedad de maestros y expertos en planes de estudios.
Las preguntas o reactivos de los inventarios de personalidad los sugieren por lo común las
teorías de personalidad, los vocablos y las fases que se utilizan para describir la
personalidad, las declaraciones que se encuentran en los historiales clínicos, las palabras
que usan las personas para describirse a sí misma e incluso las preguntas o los reactivos
de otros inventarios de personalidad.
A continuación, se revisan y corrigen las primeras redacciones de las preguntas, tanto por
parte de los escritores originales como con otras personas. La corrección implica la
eliminación de la redacción ambigua, el fortalecimiento de las alternativas débiles y la
exclusión de reactivos duplicados y, por ende, inútiles.
2.1.2. Preparación de los Reactivos del Instrumento: Al preparar los reactivos o ítems
reales de un instrumento es recomendable que se redacten alrededor del 20% más de los
reactivos necesarios, de modo que se cuente con una cantidad adecuada para la versión
final del instrumento. Dichos reactivos deben de ser redactados por personas que tengan
conocimientos sobre el instrumento que se quiere construir. Todos los ítems presentan
procedimientos para obtener información de los sujetos pero ésta información en cuanto
a la cantidad y clase varía de acuerdo con la naturaleza de la tarea que implica el ítem.
Se han sugerido distintos métodos para clasificar los reactivos de acuerdo con el formato,
o la forma en que se requiere la respuesta. Completamiento o llenado contra selección,
recuerdo contra conocimiento y construcción de respuesta contra identificación. Otro
método para clasificar son los reactivos de ensayo contra objetivo. Los reactivos pueden
ser de tipo de llenado, completamiento de selección, dependiendo de si los sujetos deben
elaborar una respuesta o sólo seleccionar la mejor respuesta de una serie de alternativas.
Cuando se elaboran escalas, por ejemplo de actitudes, se deben tener en cuenta ciertas
consideraciones, como las que se presentan en el cuadro 6 (Ver cuadro 6)
(Cuadro 6)
NORMAS PARA LA ELABORACIÓN DE REACTIVOS
(Tomado de: Gerardo Marín “Manual de Investigación en Psicología Social”, México:
Trillas)
Los reactivos de una escala de actitudes, en especial si son seleccionados de acuerdo con el
método de Likert, deben ser redactados por un grupo de personas que conozcan lo suficiente
acerca del estímulo como para poder incluir todas las dimensiones posibles de la actitud
respectiva. Los reactivos deben redactarse en un lenguaje claro y sencillo, de al forma que
sean comprensibles para los evaluados.
El índice más importante es el del poder discriminativo de los reactivos. Este análisis
estadístico indica la amplitud con la que el reactivo mide lo que debe de medir.
Idealmente deberá disponer de un criterio externo de medida, con el fin de que se pueda
determinar empíricamente si las personas que respondieron correctamente a un reactivo
obtuvieron también calificaciones elevadas en el criterio. En la práctica, esas medidas
externas frecuentemente no se encuentran disponibles. Como substituto de ellas, se
utiliza la calificación total en la prueba como medida de criterio y se comparan las
respuestas a los reactivos individuales con las calificaciones totales, con el fin de
determinar si las personas que obtuvieron calificaciones elevadas en la prueba
respondieron a un reactivo en una forma correcta con mayor frecuencia que las que
obtuvieron calificaciones más bajas. Cuando esto ocurre, se dice que el reactivo
discrimina. Obsérvese que, en esta situación, la discriminación se refiere al hecho de
efectuar distinciones entre personas que tengan conocimiento o habilidades mayores o
menores en el área medida por la prueba.
En situaciones específicas, se pueden realizar otros análisis. Si la prueba tiene como fin
medir sólo un rasgo homogéneo, se necesitará alguna medida de las interrelaciones entre
los reactivos. O bien, si es importante la velocidad, se podrá hacer un análisis de los
efectos de diversos límites de tiempo.
Puesto que los análisis estadísticos derivados de diferentes muestras varían debido a los
errores de muestreo, los análisis de reactivos se llevan a cabo con frecuencia en dos
muestras independientes. Este proceso, denominado de validación cruzada, hace que
reduzcan las posibilidades de tomar decisiones basadas en procedimientos estadísticos
que reflejen sólo las fluctuaciones aleatorias, en lugar de las verdaderas diferencias.
La etapa que sigue es la de preparar la o las formas finales de la prueba. Los resultados de
los análisis de reactivos se utilizan para seleccionar los reactivos que proporcionen la
mejor discriminación, tengan la dificultad apropiada y no posean ambigüedades ni
alternativas deficientes. Esta selección requiere equilibrio y ajuste reciproco, puesto que
quizá sea necesario incluir menos reactivos, discriminativos para asegurar el balance
Por lo general es difícil llegar a un acuerdo sobre qué tanto debe saber un individuo
acerca de una materia en particular o qué constituye el dominio de la materia, casi
siempre la clasificación en una prueba psicológica o educativa se interpreta al compararla
con las clasificaciones de otras personas. Las pruebas psicológicas se crearon sobre todo
para evaluar las diferencias individuales con respecto de las características cognoscitivas y
afectivas, dichas diferencias ayudan a tener una alta predicción del comportamiento de
los sujetos.
R= Yp – Y MNp
S (N – Np) (N – 1)
Dónde:
M = Cantidad total de sujetos.
Np = Sujetos que pasan el reactivo.
Yp = Media de las calificaciones de criterio de quienes pasan el reactivo.
Y = Media de todas las calificaciones de criterio.
S = Desviación estándar de todas las calificaciones de criterio.
Cuanto más alto sea el índice de validez para un reactivo (correlación de criterios de
reactivos), éste será más útil para predecir el criterio. El hecho de sí un reactivo va a
conservarse o no depende del tamaño de índice de validez. A pesar de que los reactivos
con índices de validez tan bajos como 0.20 pueden contribuir a la predicción del criterio,
se refieren los índices de validez más altos. Desde luego, un reactivo con un índice de
validez cercano a .00 o negativo debe de revisarse o descartarse. La utilidad de un
reactivo para predecir un criterio específico depende no sólo del índice de validez, sino
también de la correlación del reactivo con otros reactivos de la prueba. Los reactivos que
tienen índices de validez altos pero correlaciones bajas son los mejores porque realizan
una contribución independiente a la predicción de las calificaciones de criterio.
Las medidas de discriminación de los reactivos indican qué tan adecuadamente separa o
discrimina un reactivo a quienes obtienen puntuaciones altas y quienes obtienen
puntuaciones bajas en una prueba. Cuanto más alto sea el valor del reactivo es más
efectivo al discriminar entre los individuos con calificaciones altas y bajas en la prueba
como un todo.
Consiste en dividir los sujetos en tres grupos de acuerdo con las calificaciones que
obtienen en la prueba como un todo: un grupo superior que consta de 27% que obtiene
P= Up + L p
_________ d= Up - L p
Y ____________
U +L
U
Dónde:
Up Y Lp = Cantidades de sujetos en los grupos superior e inferior que pasan el reactivo.
U Y L = Cantidad total de sujetos en los grupos superior e inferior.
P = Índice de dificultad del reactivo.
d = Índice de discriminación del reactivo.
El índice de dificultad de los reactivos tiene un rango de 0.00 a 1.00. Un reactivo cuyo p =
.00 es aquel que ningún sujeto contestó correctamente y un reactivo con p = 1.00 es
aquel que todos los sujetos respondieron de manera correcta. El valor óptimo p para un
reactivo depende de varios factores, que incluyen los propósitos de la prueba y la
cantidad de opciones de respuesta. Si el propósito de una prueba es identificar o
seleccionar sólo a un porcentaje reducido de los mejores solicitantes, entonces la prueba
debe ser lo suficiente difícil y tener un valor medio bajo de p. si la prueba está diseñada
para observar sólo a unos cuantos solicitantes inferiores, entonces es mejor un valor
elevado de p.
Cuando el índice de discriminación (d) es 1.00, todos los sujetos en el grupo superior en
las calificaciones totales de la prueba y ninguno del grupo inferior respondieron el
reactivo en forma correcta. Sin embargo, rara vez d es igual a 1.00 y, por lo regular, un
reactivo se considera aceptable si su índice es de .30 o más alto. No obstante, d y p no
son índices independientes y el valor mínimo aceptable de d varía de acuerdo con el valor
de p. Un valor de d que es poco menor que .30 es aceptable conforme p aumenta o
disminuye cada vez más con respecto del valor óptimo, sobre todo cuando el tamaño de
los grupos de comparación superior e inferior es grande. Además, un reactivo que tiene
un índice d bajo no se descarta de manera automática; quizá sea posible conservarlo si se
modifica. La elaboración de reactivos de prueba adecuados es un proceso que lleva
tiempo, de modo que aquellos que son defectuosos deben revisarse siempre que sea
posible.
LECTURA COMPLEMENTARIA
CONSTRUCCIÓN DE LA PRUEBA
Elaboración de escalas
Hemos definido con anterioridad medición como la asignación numérica de acuerdo con
reglas y señalamos que las escalas son las reglas de medición. La elaboración de escalas
puede definirse como el proceso de establecimiento de reglas para la asignación
numérica en la medición. Planteado de otra manera, la elaboración de escalas es el
proceso por el que se diseña y calibra un dispositivo de medición, y la forma en que se
asignan números (u otros índices), valores de escala, a diferentes cantidades del rasgo,
atributo o característica que se esté midiendo.
En psicometría, las escalas también pueden concebirse como instrumentos usados para
medir algo; siendo ese "algo" generalmente un rasgo, característica o atributo psi-
cológico. Además, es significativo hablar de diferentes tipos de escalas como una función
de varias características. Hemos visto, por ejemplo, que las escalas pueden clasificarse de
manera significativa a lo largo de un continuo del nivel de medición y denominarse por su
naturaleza como nominal, ordinal, de intervalo o de razón. Pero también podríamos
caracterizar las escalas de otras maneras. Si es de interés crítico el desempeño de quien
responde la prueba como función de la edad, entonces la prueba podría denominarse
"escala de edad". Si es de interés crítico el desempeño de quien responde la prueba como
función del grado, entonces la prueba podría denominarse "escala de grado". Si todas las
puntuaciones crudas en la prueba van a ser transformadas en puntuaciones que puedan
variar del 1 al 9, entonces la prueba podría denominarse "escala estanueve". Una escala
podría describirse en otras formas, como unidimensional en oposición a
multidimensional, y comparativa en oposición a categórica.
Quienes elaboran las pruebas diseñan un método de medición (es decir, hacen la escala
de una prueba) en la forma que creen que se adapta óptimamente a la manera en que
han conceptualizado la medición del rasgo o rasgos que son su objetivo. No hay un
método único para la elaboración de escalas; puede lograrse de varias maneras. Tampoco
hay un tipo mejor de escala; el que una escala sea de naturaleza nominal, ordinal, de
intervalo o de razón dependerá en parte de variables como los objetivos de la escala y la
legitimidad matemática de las manipulaciones y transformaciones de los datos
resultantes.
Por ejemplo, considérese una medida de opinión en cuestiones morales llamada Escala de
Comportamientos Moralmente Debatibles-Revisada (Morally Debatable Behaviors Scale-
Revised; MDBS-R; Katzet al., 1994). Elaborada para ser "un medio práctico de evaluación
de lo que creen las personas, la fuerza de sus convicciones, al igual que diferencias
individuales en la tolerancia moral" (p. 15), la MDBS-R contiene 30 reactivos. Cada
1 2 3 4 5 6 7 8 9 10
Nunca _________________________________________ siempre
Se justifica se justifica
Excelente___/___/___/___/___/___/___/ Insatisfactoria
Figura 7.2
Las muchas caras de las escalas de evaluación: Las escalas de evaluación pueden adoptar
muchas formas. Caras "sonrientes", como las que se ilustran aquí como Reactivo C, se han
usado en la investigación psicológica social con niños pequeños y adultos con habilidades
lingüísticas limitadas. Las caras se emplean en lugar de palabras como positivo, neutral y
negativo.
En la MDBS-R, las estimaciones que hace quien responde la prueba para cada uno de los
30 reactivos se suman para obtener una puntuación final. Las puntuaciones varían desde
una baja de 30 (si quien responde la prueba indica que los 30 comportamientos nunca se
Un tipo de escala de estimación sumatoria, la escala Likert (Likert, 1932), se usa en forma
extensa dentro de la psicología, por lo general en escalas de actitudes. Las escalas Likert
son relativamente fáciles de elaborar. Cada reactivo presenta a quien responde la prueba
cinco respuestas alternativas, por lo general en un tipo de continuo entre acuerdo y
desacuerdo o aprobación y desaprobación. Si Katzet al, hubieran usado una escala Likert,
un reactivo en su prueba podría haber lucido así:
Las escalas Likert por lo general son confiables, lo cual puede explicar su popularidad
extendida. Likert (1932) experimentó con diferentes ponderaciones de las cinco
categorías pero concluyó que asignar valores de 1 (para la aprobación de reactivos en un
extremo) a 5 (para la aprobación de reactivos en el otro extremo) por lo general
funcionaba mejor.
Para cada par de opciones, quienes responden la prueba recibirían una puntuación mayor
si seleccionaran la opción que fue considerada más justificable por la mayoría de un
grupo de jueces. A los jueces se les habría pedido que estimaran los pares de opciones
antes de la distribución de la prueba, y se proporcionaría una lista de las opciones selec-
cionadas por los jueces junto con las instrucciones para la calificación como una clave de
respuesta. La puntuación de la prueba reflejaría el número de veces que las elecciones de
quienes responden la prueba están de acuerdo con las de los jueces. Si usamos la muestra
de estandarización de Katzet al. (1994) como jueces, la opción más justificable es hacer
trampa en la declaración de impuestos. Alguien que selecciona esta opción podría recibir
un punto hacia la calificación total del examen si se seleccionó la opción "a", pero ningún
punto si seleccionó la opción "b". Una ventaja del método de comparaciones apareadas
es que obliga a quienes responden la prueba a elegir entre reactivos.
a) Todas las personas deberían tener el derecho de decidir si desean terminar con sus
vidas.
b) Las personas con enfermedades terminales y que sufren dolor deberían tener la
opción de que un médico les ayude a terminar con sus vidas.
c) Las personas deberían tener la opción de rechazar el uso de equipo para mantener la
vida en forma artificial antes de enfermarse de gravedad.
d) Las personas tienen el derecho a una vida confortable.
Si ésta fuera una escala Guttman perfecta, todos aquellos que la responden que
estuvieran de acuerdo con el inciso "a" (la postura más extrema) también deberían estar
de acuerdo con "b", "c" y "d". Quienes responden que están en desacuerdo con "a" pero
están de acuerdo con "b" también deberían estar de acuerdo con "c" y "d", y así en forma
sucesiva.
Redacción de reactivos
En el esquema completo de la elaboración de una prueba, las consideraciones
relacionadas con la redacción real de los reactivos de la prueba van de la mano con las
consideraciones de la elaboración de escalas. Tres cuestiones que el futuro elaborador de
pruebas o redactor de reactivos enfrenta de inmediato son:
Cuando se diseña una prueba estandarizada usando un formato de opción múltiple, por
lo general es aconsejable que el número de reactivos para el primer borrador de una
DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 40
prueba estandarizada contenga aproximadamente el doble del número de reactivos que
contendrá la versión final de la prueba.2 Si, por ejemplo, una prueba llamada "Historia
Estadounidense: 1940 a 1990" fuera a tener 30 preguntas en su versión final, podría ser
útil tener 60 reactivos, reactivos que de manera general hagan un muestreo del dominio
de la prueba, en la reserva de reactivos. Una reserva de reactivos es el depósito o
provisión de la que se extraerán o descartarán los reactivos para la versión final de la
prueba. Un muestreo general proporciona una base para la validez de contenido de la
versión final de la prueba. Debido a que aproximadamente la mitad de estos reactivos
será eliminado en la versión final de la prueba, el elaborador de la prueba necesita
asegurarse de que la versión final de la prueba también contendrá reactivos que hagan un
muestreo adecuado del dominio. Por tanto, si se determinó que todas las preguntas
sobre la Guerra del Golfo Pérsico de los 60 reactivos originales estaban mal redactadas,
incumbirá a quien elabora la prueba redactar de nuevo los reactivos que hacen un
muestreo de este periodo o crear reactivos nuevos, y luego someter a ensayo también los
reactivos redactados otra vez. Si no se hiciera esto, se pondría en peligro la validez de
contenido de la prueba debido a que algunos aspectos del dominio de la prueba no
estarían representados en la versión final de la prueba. Por supuesto, el número de
formas planeadas de la prueba es otra consideración aquí; multiplique el número de
reactivos requeridos en la reserva para una forma de la prueba por el número de formas
planeadas.
¿Cómo se elaboran los reactivos para colocarlos en la reserva de reactivos? Quien elabora
la prueba puede redactar una gran cantidad de reactivos de su experiencia personal o
conocimiento académico sobre la materia. También puede buscar ayuda de otros,
incluyendo expertos. Para las pruebas psicológicas diseñadas para que sean usadas en
escenarios clínicos, pueden entrevistarse psicólogos clínicos, pacientes, familiares de los
pacientes, personal clínico y otros en busca de ideas que pudieran ayudar en la redacción
de reactivos. Para las pruebas psicológicas diseñadas para ser usadas por psicólogos
laborales, es probable que sean de gran valor las entrevistas con los integrantes de la
industria o empresa a la que se pretende llegar. Para las pruebas psicológicas diseñadas
para ser usadas por psicopedagogos escolares, las entrevistas con maestros, personal
administrativo, psicólogos educativos y otros pueden ser fundamentales. Las búsquedas
en la literatura de investigación pueden ser fuentes fructíferas de información, al igual
que las búsquedas en la literatura que no pertenece a la investigación.
Relacione los nombres de los actores (a aifc) con sus personajes (1 a 12) escribiendo el
número apropiado junto a la letra.
Quizás haya notado que hay diferente cantidad de reactivos en las dos columnas. Si el
número de reactivos en las dos columnas fuera el mismo, entonces una persona insegura
del personaje de uno de los actores podría deducirlo relacionando primero todas las otras
opciones. Entonces resultaría una puntuación perfecta aun cuando quien responde la
prueba no conozca en realidad todo el material. Proporcionando más opciones de las
necesarias está contemplado para minimizar dicha posibilidad.
Como los reactivos de opción múltiple, los reactivos cierto/falso tienen la ventaja de ser
aplicables con facilidad a una amplia gama de áreas temáticas. Además, como los
reactivos de opción múltiple, pueden lograrse niveles aceptables de confiabilidad de los
reactivos con reactivos cierto/falso. Los reactivos cierto/falso no necesitan contener una
lista de alternativas distractoras. Por consiguiente, tienden a ser más fáciles de redactar
que los reactivos de opción múltiple. Una desventaja de los reactivos cierto/falso es que
la probabilidad de obtener una respuesta correcta sólo con base en el azar (adivinando)
en cualquier reactivo es .5 o 50%.4 Por el contrario, la probabilidad de obtener una
respuesta correcta adivinando en una pregunta de opción múltiple con cuatro
alternativas es 25 o 25%.
Un buen reactivo de completar deberá redactarse de modo que la respuesta correcta sea
específica. Los reactivos de completar que pueden responderse en forma correcta de
muchas maneras pueden conducir a problemas de calificación. La respuesta de completar
correcta para el reactivo anterior es variabilidad. Una forma alternativa de redactar este
reactivo sería un reactivo de respuesta breve:
¿Qué estadística descriptiva es considerada por lo general como la medida más útil de
variabilidad?______________
Un buen reactivo de respuesta breve es redactado con la suficiente claridad para que
quien responde la prueba pueda hacerlo en forma sucinta, con una respuesta corta. No
hay reglas inflexibles que especifiquen qué tan corta debe ser una respuesta para ser
considerada una respuesta breve; una palabra, un término, una oración o un párrafo
pueden ser suficientes. Más allá de un párrafo o dos, el reactivo podría considerarse en
forma más apropiada como un "reactivo de ensayo". Aquí hay un ejemplo de un reactivo
de ensayo:
Las actitudes se ponen en contacto con las pautas psicométricas para su medición, por
que éstas no son objetos de observación directa; razón por la que se obliga a acceder a
ellas por vía indirecta, a través de la expresión verbal, corporal o motriz que la acompaña.
En cuanto a los métodos, las técnicas y procedimientos más utilizados para medir las
actitudes son: técnicas de respuestas verbales, escalas de actitud. Sin embargo, el campo
más habitual viene siendo el de las escalas de medida, en cuya construcción se utilizan las
posibilidades estadísticas de los intervalos previamente establecidos por jueces
A. Método de Likert
Es un método presentado por Rensus Likert a principios de los 30; pese a ello es un
enfoque bastante popularizado; que consiste en un conjunto de ítems presentado en
forma de afirmaciones o juicios, ante los cuales se pide la reacción de los sujetos. Es decir
se presenta cada afirmación, y se pide al sujeto que externe su reacción eligiendo uno de
los cinco puntos de la escala. A cada punto se le asigna un valor numérico; así el sujeto
obtiene una puntuación respecto a la afirmación y al final se obtiene la puntuación total
sumando las puntuaciones obtenidas en relación a todas las afirmaciones.
Las afirmaciones califican al objeto de actitud que se está midiendo y deben expresar solo
una relación lógica, además es muy recomendable que no excedan de 20 palabras.
Ejemplo:
Objeto de actitud medido …………………………….. Afirmación
En este caso la afirmación incluye 8 palabras y expresa una sola relación lógica
(x-y). Las alternativas de respuesta o puntos de la escala son cinco e indican cuánto se
está de acuerdo con la afirmación correspondiente.
Ejemplo:
( ) Muy de acuerdo.
( ) De acuerdo.
( ) Ni de acuerdo, ni en desacuerdo.
( ) En desacuerdo.
( ) Muy en desacuerdo.
Definitivamente sí
Probablemente sí
Indeciso
Probablemente no
Definitivamente No
“Es indispensable señalar que el número de categorías de respuesta debe ser el mismo
para todas las afirmaciones”.
Alternativa 1:
Afirmación
Muy en
Desacuerdo
Alternativas 2: do
Totalmente de De acuerdo
acuerdo
Alternativa 3:
Alternativa 4:
“Debe observarse que los adjetivos son “extremos” y que entre ellos hay siete opciones
de respuestas. Cada sujeto califica al candidato A, en términos de esta escala de adjetivos
bipolares. Osgood y colaboradores nos indican que si el respondiente considera que el
objeto de actitud se relaciona muy estrechamente con uno u otro extremo de la escala, la
respuesta se marca así.
Justo: X;,____:____;___;____;____;____ injusto
o Responsable - Irresponsable
o Puntual – Impuntual
o Participa en clases – No participa en clases
o Asiste a clases – No asiste a clases
o Colaborador – No colaborador
o Creativo – Nada creativo
o Analítico – No analítico
o Sintetiza información – No sintetiza información
o Buena presentación de trabajos – mala presentación de trabajos
o Ordenado – Desordenado
o Buena presentación personal – mala presentación personal
o Hábil para resolver problemas – No hábil para resolver problemas
o Habilidad para manejo de instrumentales – Inhabilidad para manejo de instr.
o Buena presentación oral – mala presentación oral
o Asertivo – No asertivo (pasivo o sumiso)
o Usa pensamiento crítico – no usa pensamiento crítico
TERCERA UNIDAD
1. CAPACIDADES
2. CONTENIDOS
3.1.1. DEFINICIÓN:
Viene a ser la demostración de que un test mide lo que dice medir, para tal fin se puede
utilizar los siguientes métodos: de análisis de contenido, concurrente, predictiva y de
constructo.
8. Para obtener la validez del resto de reactivos se utiliza el mismo proceso cambiando
únicamente la matriz 1, porque la matriz 2 será una constante (∑).
2. Hacemos click en el simbolo de Windows wn la parte superior izquierda, y luego hacemos click
en Opciones de Excel.
4. Hacemos click en la sección Datos de la barra de menús, y luego de ello hacemos click
en el submenú análisis de Datos situado al extremo izquierdo.
6. Aparecerá una nueva ventana. En la parte que nos solicita rango de entrada
seleccionaremos las celdas pertenecientes a las respuestas de los ítems y las sumatorias,
más no los rótulos de los reactivos y sujetos. Obviamente la agrupación se hara por
columnas y las correlaciones aparecerán en una hoja nueva por defecto. Hacemos click en
Aceptar.
3.2. CONFIABILIDAD
DENOMINACIÓN PROCEDIMIENTO
VARIANZA DE ERROR
Retest con la misma forma
ESTABLIDAD Fluctuación temporal
en distinta ocasión.
Retest con forma paralela en
EQUIVALENCIA Especificidad del elemento
la misma ocasión
ESTABILIDAD Y Retest con forma paralela en Fluctuación temporal y
EQUIVALENCIA distinta ocasión especificidad del elemento
CONSISTENCIA INTERNA
División por mitades Especificidad del elemento
HOMOGENEIDAD
CONSISTENCIA INTERNA KUDER-RICHARDSON Especificidad del elemento,
HOMOGENEIDAD Kr 20 y Kr 21 heterogeneidad
CONSISTENCIA INTERNA Especificidad del elemento,
Alfa de Crombach
HOMOGENEIDAD heterogeneidad
4. Aquí aparecerán dos ventanas, donde pide ingresar los datos de dos matrices. En la
matriz 1, (haciendo clic, en la ventanita con la flecha de color rojo), se seleccionan los
datos de la columna IMPAR, una vez culminado, nuevamente se hace clic en la ventana
con la flecha de color rojo.
DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 62
5. En la Matriz 2, (haciendo clic en la ventanita con la flecha de color rojo), se seleccionan
los datos de la columna PAR, una vez culminado, nuevamente se hace clic en la ventana
con la flecha de color rojo.
1. VALIDEZ
Cuando estimamos la validez de un test, necesitamos saber que rasgo deseamos que
mida. Este rasgo se llama variable de CRITERIO. Nos interesa saber que tan bien
corresponde las posiciones de los individuos en la distribución de los puntajes obtenidos a
sus posiciones en el continuo que representan la variable de criterio.
Podemos examinar con el test a varios solicitantes y luego tomar el monto de las ventas
de cada individuo, después de un cierto periodo de trabajo, como el criterio de éxito de
un vendedor. El coeficiente de correlación para la relación entre los resultados del test y
las cifras de ventas es el coeficiente de validez del test con respecto a su capacidad de
predecir el éxito como vendedor de un determinado tipo.
En todo procedimiento de validación la cuestión esencial es: ¿Para qué y para quién es
válido el test?; se necesita por consiguiente criterios diferentes para diferentes propósitos
de test. Como criterio de exactitud se necesita tener una expresión lo más exacta posible
de las posiciones de los individuos en la distribución del criterio verdadero.
TIPOS DE VALIDEZ
a) Validez Predictiva
Cuando computamos la validez Predictiva deseamos usar el test para predecir las
posiciones de los individuos sobre una distribución de la que sólo podemos disponer más
b) Validez Concurrente
Se dispone de la medida de la variable de criterio en el momento en que se obtienen los
resultados del test. El diagnóstico clínico de lesión cerebral, sobre el cual estuvieron de
acuerdo varios neurólogos, puede usarse, por ejemplo, como criterio para la validez de un
test de lesión cerebral. La razón para construir un test que mida una variable de la cual ya
se tienen datos es que en la mayoría de los casos, el test ahorra tiempo y esfuerzo y da el
mismo resultado que la medida de criterio. Se expresa también por un coeficiente de
validez.
Cuando computamos los coeficientes de validez, es necesario que los datos del test y los
del criterio se determinen en forma independiente. Por ejemplo: El psicólogo tiene una
hipótesis acerca de cómo dos grupos de individuos que difieren en ciertos aspectos,
también difieren con respecto a alguna otra variable la cual es el objeto de su interés.
Conociendo la pertenencia de grupo, él evalúa a los dos miembros de los dos grupos
sobre la segunda variable y computa la correlación entre las evaluaciones y la pertenencia
del grupo, la cual se constituye el criterio. El psicólogo ha sido presa de lo que se conoce
como contaminación de criterio. El conocía los datos del criterio, es decir, la pertenencia
de grupo, cuando hizo las estimaciones cuya validez fue robada usando la pertenencia de
grupo como criterio. Tal procedimiento no está permitido. No importa que el evaluador
intente ignorar su conocimiento previo no puede evitar el ser influido en algún sentido
por sus expectativas.
c) Validez de Contenido
Este tipo de validez es aplicable cuando estimamos el grado en que un test escolar, por
ejemplo, abarcan algún campo de estudio. Los ítems del test pueden considerarse como
una muestra de una población que representa el contenido y las metas del curso. La
validez de contenido se determina entonces por el grado en que la muestra de ítems del
test es representativa de la población total. Antes de que pueda estimarse la validez de
contenido, es necesario distinguir explícitamente las metas del curso, el material que de
los alumnos deberán aprender, la importancia relativa de las diferentes partes del curso,
etc. A diferencia de la validez Predictiva o concurrente, la validez de contenido no puede
expresarse por un coeficiente de validez.
d) Validez de Construcción
El concepto de validez de construcción a los tests que miden rasgos para los cuales no hay
un criterio externo.
La validez de construcción puede probarse de varias maneras. Aquí sólo daremos los
métodos más comunes:
1. El estudio de las diferencias entre grupos que deberían diferir de acuerdo con la
teoría de la variable.
2. El estudio de cómo los resultados del test son influidos por los cambios en los
individuos o en el medio que de acuerdo a la teoría deberían respectivamente
influir o dejar de influir en las posiciones de los individuos sobre le continuo.
3. La correlación entre los tests diferentes que se supone que miden la misma
variable. Aquí debe procurarse que las correlaciones entre las medidas no surjan
como resultado de semejanzas en el método. Este podría suceder si por ejemplo
las respuestas a los test requieren de alguna aptitud especial diferente de la que
está bajo consideración. Un posible acuerdo entre las medidas podría entonces
ser puramente efecto de las diferencias individuales entre ítems aislados o
diferencias individuales con respecto a esta aptitud especial.
4. La correlación entre ítems aislados o diferentes partes del test que mide una
variable unitaria.
2. CONFIABILIDAD
Confiabilidad, significa consistencia u obtención, una y otra vez, de los mismos resultados.
Una técnica de muestreo es confiable cuando varias muestras de una misma población
arrojan datos similares. En la mayor parte de los casos la Confiabilidad de la técnica de
muestreo está en relación directa con el tamaño de la muestra.
Confiabilidad de la Medición
Sin duda alguna, es mejor hacer todo lo posible para prevenir el error de la medición que
tener que evaluar o calcular sus efectos, una vez que éste se ha presentado. Para reducir
el error de medición deben escribirse claramente los reactivos, plantear las instrucciones
de la prueba de tal manera que se comprendan fácilmente y apegarse fielmente a las
condiciones prescritas de administración del instrumento.
En los estudios que ocurren a jueces o evaluadores para calificar la ejecución de los
sujetos, se desea tener un sistema confiable de evaluación o calificación, de tal manera
que, cualquiera pueda utilizar este sistema de evaluación, y obtener resultados
generalmente consistentes. Una manera de Confiabilidad de un sistema de evaluación es
hacer que utilicen este sistema dos o más evaluadores.
Si la correlación entre las dos series es relativamente alta, se considera que el sistema es
confiable. En su estudio sobre creatividad verbal, MaierJulius y Thurber (1967) obtuvieron
un coeficiente de Confiabilidad inter evaluadores de 80, el cual consideraron bastante
alto.
Cuando los psicólogos utilizan pruebas como las de inteligencia, desean que éstas sean
confiables. Si una prueba es confiable, un sujeto recibirá aproximadamente la misma
puntuación cada vez que resuelva dicha prueba o una forma equivalente de ésta. Cuando
un experto en Psicología Aplicada utiliza un instrumento como una prueba de
rendimiento para hacer predicciones acerca de la futura conducta de un individuo, le
interesa poder confiar en la validez de dicha prueba.
Es de esperar que la varianza de los errores de medición sea, por lo menos, relativamente
independiente de la Desviación Estándar de los puntajes obtenidos. En otras palabras, se
considera que el error estándar de la medición, sin que importe la muestra de sujetos que
se investigue. Así pues, es obvio que el coeficiente de Confiabilidad es mayor con
respecto al rasgo que se está investigando. A manera de ejemplo, supóngase que se
pretende estudiar la Confiabilidad de los puntajes de una prueba usada para seleccionar a
los alumnos universitarios de primer año. Si se usa la correlación entre las formas
alternativas como una medida de la Confiabilidad, y sólo se calcula la correlación entre las
personas que en realidad fueran aceptadas por la universidad, ésta sería menos del que
sería si se incluyeran también en el estudio los sujetos que no pudieran ingresar a la
misma.
Si en un estudio el grupo total de sujetos tiene una desviación estándar de puntajes que
no es mucho mayor que el error estándar de medición, no tiene ningún caso investigar la
variable –esto ya ha sucedido en muchos estudios. Tal ha sido el caso de algunos estudios
a niños que tienen un C.I. superior a 120. La Desviación Estándar de los coeficientes
intelectuales del grupo sometido a estudio no sería mucho mayor que el error estándar
de medición propio de la medida de inteligencia. Así pues, si existe correlación entre los
coeficientes intelectuales de los miembros de los grupos seleccionados y los puntajes
obtenidos en las pruebas de creatividad, dichas correlaciones, obviamente, serán muy
bajas.
ITEMS
s. 1 2 3 4 5 6 7 8 9 10 2 2
X X Y Y XY
1 4 5 2 4 5 5 2 3 5 2
2 1 2 5 3 5 4 2 5 4 1
3 3 2 4 4 5 3 4 3 2 3
4 5 3 4 2 2 3 4 5 2 2
5 3 2 3 5 4 2 2 1 2 3
6 4 5 1 5 2 2 5 4 4 4
7 1 3 1 4 1 5 1 3 4 2
8 3 4 2 3 2 3 3 2 3 5
9 2 3 5 1 4 4 1 1 2 4
10 1 5 5 1 4 3 4 2 3 4
xy − x y
r =
( )
½½ 2
x 2 − x y 2 − ( y )2
ITEM r INTERPRETACIÓN
1
2
3
4
5
6
7
8
9
10
xy − x y
r =
( )
½½ 2
x 2 − x y 2 − ( y )2
Spearman - Brown:
2r
r = ½½
11 1 + r
½½
Ejercicio:
Sujetos = 50
Reactivos Aprobados = 22
1 58 12 171
2 165 13 101
3 174 14 141
4 192 15 125
5 102 16 184
6 115 17 190
7 122 18 89
8 142 19 111
9 162 20 155
10 140 21 114
11 149 22 98
r = ________ ________
r11= _______________ _
CUARTA UNIDAD
NORMALIZACIÓN Y TIPIFICACIÓN
DE LA PRUEBA PSICOLÓGICA
1. CAPACIDADES
2. CONTENIDOS
No importa el cuidado que se ponga el elaborar un test, los resultados no serán válidos a
menos que se administre y califique de manera apropiada, para esto es necesario
establecer procedimientos o lineamientos para aplicar y calificar los test psicológicos.
Las variables de situación, como el tiempo y lugar de la prueba y las condiciones del
entorno como la iluminación, temperatura, nivel de ruido y ventilación pueden contribuir
a la motivación, concentración y desempeño de las personas.
A. Programación de la Prueba: Se debe tomar en cuenta las actividades en las que, por
lo regular, participan las personas en ese momento, a partir de ello se programa la
aplicación de la prueba.
E. Reducir los Engaños: Reducir al mínimo la posibilidad de copiar. Para esto se debe
preparar varias formas (reactivos distintos o en orden diferente) de la prueba y
distribuirlas a quienes están sentados juntos. Se hace necesario varios evaluadores o
examinadores.
G. Permanecer Alerta: Estar alerta a los engaños, así como a las conversaciones y otros
ruidos innecesarios. También se les puede informar sobre el tiempo disponible.
I. Estar Preparado para los Problemas Especiales: La persona que administra la prueba
además de conocer su trabajo debe estar alerta y ser flexible, cálida y objetiva, para
que pueda manejar los problemas especiales como: personas muy jóvenes o
ancianos, con trastornos, retraso mental, discapacitados o con desventajas
culturales.
J. Flexibilidad: Permite que las personas con problemas especiales demuestren sus
aptitudes, entre las que tenemos: 1. Proporcionar tiempo suficiente para que
contesten a toda la prueba; 2. Permitir práctica en los reactivos de ejemplo; 3.
Emplear periodos de prueba relativamente breves; 4. Detectar la fatiga o ansiedad; 5.
Estar consciente de las alteraciones perceptivas; 6. Mostrar motivación y
reforzamiento positivo y 7. No tratar de forzar a contestar a los sujetos, después de
haberse negado repetidamente.
Este proceso permite comparar los puntajes de un sujeto con el rendimiento de un grupo
normativo, acorde a sus propias características.
Por ejemplo, “José un niño del primer grado; podrá tener un mejor nivel en su
Comprensión de lectura que otro niño de su mismo grado del colegio San Juan donde
está; pero alcanzará un nivel inferior en comparación con otro niño del colegio “San José
“. La variable que intervendrá en la tabla será el nivel socioeconómico.” Este tipo de
comparaciones son muy usadas para proporcionar los resultados de los test
estandarizados. Se basa en las personas que alcanzan los puntajes más altos o más bajos.
Más económico y sencillo es el muestreo de grupos, este consiste en dividir una población
determinada en áreas geográficas u otras unidades relevantes en bloques o grupos. Luego
se seleccionan aleatoriamente un porcentaje específico de los grupos, y en cada uno se
eligen en la misma forma cierta cantidad de sub unidades (escuelas, lugares de
residencia, etc.). El paso final es aplicar la prueba a todas las personas en cada sub unidad
o por lo menos a una muestra aleatoria de individuos con determinada características.
a) Normas: Son los resultados obtenidos para especificar un grupo de sujetos en un test
determinado, nos proporciona un nivel de comparación entre los puntajes brutos con los
equivalentes.
La norma es la medida en puntajes para un grupo específico y ocasionalmente puede ser
usada como sinónimo de promedio en un sujeto. Además permite ubicar a las personas
sobre una medida específica o por debajo de ella. Una información normativa, nos indica
cómo realmente actúan las personas y no cómo deberían hacerlo.
f) Tipificación: Las normas que se aplican a una prueba, los criterios de uso, aplicación,
calificación e interpretación.
h) Adaptación: Construir los reactivos de una prueba ya elaborada para una población
determinada, utilizando criterios de la misma realidad. Consiste en elaborar los ítems y
cambiar los ítems con una misma connotación a la original pero con otros términos. Una
vez elaborada se aplica la prueba piloto, para a partir de ello ensamblarla
a) Normas nacionales, son las puntuaciones alcanzadas en una muestra de sujetos de una
población determinada y que sirven de referencia en la contrastación de un individuo
respecto a esa muestra a nivel nacional.
Ejemplo: Juan estudiante del quinto de primaria; hijo de profesionales se le aplica el test
de Catell 2; sus resultados indican que se encuentra en el cuartel superior de las normas
nacionales.
c) Normas especiales de grupo, Son aquellas normas que se especifican para grupos con
características singulares y ayudan a una toma de decisiones. Un ejemplo de estas, que
se destinan para evaluar a personas con deficiencias sensoriales como son los sordos,
ciegos, etc.
NOTA: “José un niño del primer grado; podrá tener un mejor nivel en su Comprensión de
lectura que otro niño de su mismo grado del colegio San Juan donde está; pero alcanzará
un nivel inferior en comparación con otro niño del colegio de “San José “. La variable que
intervendrá en la tabla será el nivel socioeconómico.”
FORMULA:
Z= Puntuación
X= Promedio de algún grupo
DS= Desviación estándar del mismo grupo.
a.2 Puntuación T. La puntuación T es una puntuación lineal y una de las más comunes. Su
promedio es de 50 y su desviación estándar de 10.
FORMULA: T = 10 Z + 50
_
Dónde: Z=X-X
DS
EJEMPLO: Continuando con el mismo caso de Anita. Su puntuación Z fue de –4; por tanto
su puntuación T la podremos hallar de la siguiente forma:
T = 10 Z + 50
T = 10 (-4) + 50 = 10
a.3. Puntuación CEEB.- Esta puntuación surge con la finalidad de presentar los resultados
de los Test College Entrance Examination Beard. Es igual a las puntuaciones etándars
lineales y se trabaja con un promedio de 500 y una desviación estándar de 100.
La desviación CI tiene Promedio de 100 y una desviación estándar que es dada por el
autor del Test.
a. 4.1.- Desviación CI del Weshsler.- Dentro de estas Escala Weschsler, las usadas son
Wisc y Wipsi. Sabemos que comprenden dos escalas una verbal y otra Ejecutiva. Cada una
de ellas con sus respectivos sub – tests.
En esta prueba se encuentra una puntuación bruta para cada una de las áreas o subtest
que mide; posteriormente se convierten estos puntajes a uno equivalente o derivado;
cuyo Promedio es de 10 y una Desviación Estándar de 3.
En la parte casi final sumamos las puntuaciones las cuales son convertidas a una
desviación CI con el apoyo de una tabla que nos muestra cada área teniendo como base
la variable edad.
FORMULA: CI = 15 Z + 100
a.4.2. Conciente Intelectual de Stanford Binet.- Hasta 1960 el CI del Stanford Binet fue
un CI de razón y fue el primer test en el que el CI fue utilizado. Los autores del test a
partir de 1960 decidieron por un CI de desviación; de manera que la desviación estándar
sea una constante de edad en edad. Ya con los arreglos respectivos se da una desviación
lineal con un promedio de 100 y una desviación estándar de 16.
a.5. Puntuación AGCT.- Los puntajes obtenidos provienen del Test de Clasificación
General de la Armada. Es similar a la puntuación Z así como a la T; con la excepción de
que su Promedio es de 100 Y su Desviación Estándar es de 20.
Una ventaja que presenta ésta puntuación es que permite un análisis posicional que las
dos anteriores.
B.2.-Percentiles.- Son unas de las más usadas ante las tests estandarizadas. “Un percentil
es cualquiera de los 99 puntos que divide una distribución de frecuencia en 100 grupos de
igual tamaño. Un rango nos indica la posición relativa que ocupa un sujeto dentro de un
grupo”.
SÍMBOLOS USADOS:
X = Valores de los puntajes directos (límites)
F = Frecuencia (n° de sujetos que alcanzan un PB dado)
FA = Frecuencia acumulada
Fapm = FA hasta el punto medio del puntaje
PA = Porcentaje acumulado
RP = Rango percentil
FÓRMULA:
Para poder usar un perfil es necesario convertir todas las puntuaciones en un mismo tipo
de puntuación derivada y basado en el mismo grupo normativo, además debe incluirse en
el perfil algún índice de error.
El fin de esta unidad, es ofrecer algunas normas para la redacción de manuales de tests,
según la propuesta de Yela, y como parte del curso de Construcción de Pruebas, es
necesario que todo alumno que se inicia en la elaboración de tests psicológicos conozca
este u otros formatos que se proponen.
Como se podrá apreciar, las normas son sencillas y prácticas, a nosotros nos ha servido
para ordenar la información correspondiente en algunos trabajos que hemos realizados
tanto de estandarización de pruebas como de elaboración de las mismas; claro está que
puede mejorarse y adaptarlas a las propias necesidades de comunicar la información del
test. En todo caso es imperativo entender que toda prueba psicológica, debe tener
pautado todo el trabajo realizado en su construcción o adaptación, así como las normas
de aplicación.
En el manual deben figurar todos los datos que hacen del test un instrumento científico.
Todos ellos pueden clasificarse en tres categorías, que constituyen las tres partes
principales del manual. A decir:
1ª Parte: Especificación
2ª parte: Descripción
3ª parte: Justificación
La primera parte del manual la titulamos Especificación, en ella deben incluirse todos los
datos referentes a la denominación y clasificación del test, lo que algunos autores
conocen con el nombre de Ficha Técnica.
La segunda parte se dedica a la descripción del test, y en ella se dan todas las
explicaciones necesarias acerca de la naturaleza, fines y aplicaciones del test, así como
una detallada exposición del mismo y de las condiciones exactas de su empleo.
1. NOMBRE:
Debe quedar claro que existen muchas formas de clasificaciones de los tests, cada cual
puede emplear la que más le agrade; conviene sin embargo que todos utilicemos la que
resulte más fácil y útil. Con estos datos que no ocuparán más de dos o tres renglones, se
tiene convenientemente especificado, clasificado y designado el test.
II. DESCRIPCIÓN
2.1. Generalidades
2.1.1. Fin: Se resumirá brevemente, el fin del test con respecto a los rasgos que pretende
medir
2.1.2. Características del test: Descripción sucinta de las principales características del
test. Relación con otros similares.
2.1.3. Datos históricos: Breve resumen de los antecedentes y desarrollo de este tipo de
test.
2.2. Aplicaciones
2.2.1. Generales: Campo general de aplicación del test. Aspectos psicológicos que
pretende medir y actividades profesionales a los que puede de algún modo
interesar. Aplicaciones que de él se han hecho y resultados obtenidos.
2.2.2. Especiales: Aplicaciones que especialmente interesan al centro que utiliza el test
en relación con sus necesidades propias.
2.4. Instrucciones
2.4.1. Instrucciones preliminares: Colocación exacta del sujeto, cuando convenga.
Advertencias generales sobre atención, interés tranquilidad, comprensión,
rapidez, etc. De cada una de las pruebas que ha de ejecutar.
2.4.3 Tiempo de Ejecución: En el caso de que existan tiempos límites se indicarán los
tiempos exactos concedidos para la ejecución de cada una de las fases de
que consta la prueba.
2.5. Puntuación:
2.5.1. Pruebas impresas: Se acompañarán debidamente explicadas: a) Las claves con las
soluciones; b) Las plantillas de corrección, si las hubiera; c) las fórmulas de
puntuación de cada parte y del total.
2.5.2. Pruebas manipulativas: Explíquese la manera de resolver correctamente el test y
la de puntuar los resultados, según el tiempo empleado y los errores cometidos.
Señálese la manera exacta de cronometrar.
2.5.3. Hoja de puntuación: Se indicará la forma de anotar las puntuaciones directas
obtenidas, en la hoja de puntuación individual.
III. JUSTIFICACIÓN
3.1. Duración: Se indicará la duración de cada una de las partes del test y de su total,
expresando el tiempo exacto de las partes que lo tengan limitado y el tiempo
medio de las partes que no lo tengan. Debe señalarse la duración de: a) Las
instrucciones preliminares, b) El ejercicio preparatorio, c) La revisión del ejercicio
anterior, d) Las instrucciones finales, e) La ejecución del test, f) El total del test, g)
La puntuación y calificación del test. Siempre que hayan de presentarse tiempos
medios se indicará el tipo y número de sujetos sobre los que se han calculado.
3.3 Validez del test: Se incluirán los datos siguientes: a) Métodos de validación
empleados, b) Tipos de criterios; c) Métodos de obtención de los criterios;
d)Fiabilidad y garantía de los criterios; e) Poblaciones utilizadas; f) Tipos de
muestreo; g) Tamaño y variabilidad de las muestras; h) Coeficientes de validez
obtenidos; i) Tablas y gráficos, cuando sea oportuno.
Este es el punto más importante del manual; es claro que un test sin validez es un
test inútil. No hay garantía alguna de que sea útil si en el manual no se dan las
3.4. Revalidación del test: Se incluirán los datos siguientes: a) Métodos de revalidación
empleados; b) Análisis de las poblaciones y muestras, como en los apartados
anteriores; c) Coeficientes de revalidación obtenidos; d) Tablas y gráficos
pertinentes.
La revalidación de los tests, es un procedimiento que sólo recientemente ha
llamado la atención de los psicólogos. Consiste, en esencia, en calcular de nuevo la
validez del test en nuevas muestras de las poblaciones utilizadas en la validación
original. Es sabido que tests altamente válidos en un primer ensayo, sufren una
considerable disminución de éste cuando se emplean en sucesivas ocasiones. Con
el objeto de evitar estas sorpresas desagradables y asegurar en lo posible el valor
de los métodos psicológicos; conviene usar tan solo aquellos tests que tengan
suficiente validez, tanto en la validación original, como en sucesivas
revalidaciones.
3.5. Tipificación:
3.5.1. Distribución de puntuaciones directas: De acuerdo con los datos disponibles, se
incluirán: a) Tablas de distribución de puntuaciones directas obtenidas en las
distintas muestras utilizadas; b) Valores estadísticos fundamentales de las diversas
distribuciones (número de datos, promedios, desviaciones típicas, errores típicos,
etc); c) Gráficas correspondientes.
3.5.2. Puntuaciones derivadas: Si conviene reducir las puntuaciones directas a algún otro
tipo de puntuaciones, se explicarán: a) Los métodos y fórmulas empleadas; b)
Tablas de conversión de las puntuaciones directas en puntuaciones derivadas; c)
Valores estadísticos fundamentales de las distribuciones de puntuaciones
derivadas; d) Gráficas.
3.5.3. Calificación definitiva del test: Se indicará la forma de calificar el test a partir de las
puntuaciones directas obtenidas y de acuerdo con lo expuesto en el punto
anterior.
3.5.4. Baremos: Explíquense las normas para interpretar la calificación final de cada
sujeto según la población a que pertenece.. Para ello habrán de
incluirse de tablas de baremos oportunas, que podrán ser de diverso tipo, según
los fines del test y las necesidades de quien lo use.
Mediante estas tablas, y según la población al que el sujeto pertenezca, se podrán
convertir sus puntuaciones finales en centiles, edades mentales, coeficientes
intelectuales o de otro tipo, puntuaciones típicas, etc.
BIBLIOGRAFÍA
Se hará un breve examen de los libros, folletos, manuales de artículos de revista en los
que figure alguna información referente al test descrito.
CARÁTULA
2. DESCRIPCIÓN DE LA PRUEBA
2.1. Ficha técnica
- Nombre de la prueba
- Autores
- Origen o procedencia
- Año de publicación
- Ámbito de aplicación
- Propósito (se describe qué evalúa la prueba)
- Tipos de normas que ofrece
3. NORMAS DE APLICACIÓN
- Se explica los pasos que tienen que darse para que el instrumento sea aplicado
- Señalar:
- El entrenamiento que se requiere
- Las condiciones del ambiente
- El procedimiento a seguir
- Las instrucciones generales y específicas
4. NORMAS DE CALIFICACIÓN
- Precisar el procedimiento que se sigue en la calificación del instrumento
- Cómo y de donde se obtienen los puntajes
- Qué sistema de calificación se da
- Plantillas
- Computarizadas
- Cómo convertir los PD en otros tipos de puntuaciones
- De preferencia deben poner un ejemplo simulado de calificación e interpretación
5. JUSTIFICACIÓN ESTADÍSTICA
5.1. Población y muestra
- Describir la población en la que fue aplicada para los estudios de validez y
confiabilidad, determinar el tamaño poblacional
- Determinar la muestra y el tipo de muestreo para los e
5.2. Validez y confiabilidad
- Explicar el procedimiento seguido para alcanzar la validez confiabilidad.
- Qué tipo de validez y confiabilidad han utilizado
- Describir la población y muestra que se ha empleado en la validez a través de
cuadros estadísticos
- Presentar cuadros de los índices alcanzados
6. NORMAS DE INTERPRETACIÓN
- Establecer a través de cuadros los datos normativos (Baremos con puntuaciones
percentilares y otros)
7. BIBLIOGRAFÍA
- Se debe especificar la bibliografía consultada en todo el trabajo, con las
características propias de un trabajo de investigación, respetando las normas de la
APA.
ANEXOS
En el manual de la prueba construida o adaptada se anexará lo siguiente:
- El cuestionario construido con las instrucciones
- El protocolo de respuestas
NOTA: La presentación final del trabajo, se hará en versión Word y Power Point, en CD, y
en físico, espiralado.
Los integrantes del equipo deben tener sus propios ejemplares