Академический Документы
Профессиональный Документы
Культура Документы
Concepto de validez
La validez es un tema complejo, controvertido y particularmente importante en la
investigación de la conducta.
Es posible estudiar la confiabilidad sin investigar el significado de las variables,
pero no podemos examinar la validez sin estudiar la naturaleza y el significado de
nuestras variables.
No existe una definición simple y única.
Una definición muy citada es la de Hammersley: un resultado es válido o
verdadero si representa exactamente aquellos rasgos del fenómeno que se
supone describe, explica o teoriza.
La validez es un aspecto esencial de la medición psicológica y se relaciona con la
investigación del significado teórico de las puntuaciones obtenidas por medio de
un test.
La situación ideal en lo referente a la validez es que un test represente
adecuadamente y mida la varianza relevante del constructo (representación
abstracta de un conjunto de comportamientos relacionados) (sin sesgo-error
sistemático ni varianza irrelevante).
La importancia de la validez
Se debe particularmente al problema filosófico de la naturaleza de la realidad.
En las Ciencias Sociales cobra mayor importancia, porque en ella no se miden
atributos físicos (peso, altura), sino psicológicos.
En Ciencias Sociales no poseemos medios tan directos para medir.
Cuando inventamos medios indirectos para medir las propiedades psicológicas, a
menudo son tan indirectos que surgen dudas sobre la validez de la medición, de
sus productos.
1
Historia del concepto de validez
Primera etapa: operacional, predomina una perspectiva pragmática de las
aplicaciones de los test. Coincide con el operacionalismo dominante en la
epistemología de la primera mitad del siglo pasado y se manifiesta en la noción de
validez como sinónimo de la correlación entre las puntuaciones de un test y algún
criterio que el test intenta predecir. La concepción de validez con un sentido
meramente predictivo dominó el escenario de la psicometría hasta los años
cincuenta.
- Posteriormente, se comprendió que este concepto de validez exclusivamente
ligado a la predicción de criterios externos no era útil para muchos test en los que
ellos mismos constituyen su propio criterio (por ejemplo, las pruebas de
rendimiento). Esto condujo a introducir el concepto de validez de contenido.
- En 1955 Cronbach y Meehl publican un artículo donde se presenta por primera
vez el concepto de validez de constructo, caracterizado a esta como el aspecto
fundamental e inclusivo de las restantes dimensiones de la validez.
Segunda etapa: a partir del artículo de Cronbach y Meehl se inicia una etapa en la
cual la teoría psicológica asume un papel fundamental. En esta etapa se
diferencian tres tipos de validez.
Tercera etapa: período actual o contextual, se caracteriza por una extensión de la
concepción anterior a la que se agrega la importancia otorgada al uso propuesto
para el instrumento.
- Esto significa que, en realidad, nunca se valida un test en sí mismo, sino que su
validez se verifica para determinados propósitos.
- En esta nueva perspectiva ya no se habla de distintos tipos de validez sino de un
proceso de recolección de diferentes tipos de evidencia para un concepto unitario.
Siempre referido al grado en que la evidencia empírica apoya las inferencias
realizadas en función de los resultados de un test.
2
Preguntas guía
1. ¿Por qué el autor dice que determinar la validez de un instrumento es más
difícil que establecer su confiabilidad?
La validez de un instrumento es más difícil que establecer su confiabilidad,
debido a que “no es común encontrar pruebas sólidas que sustenten la validez de
la mayor parte de las mediciones de carácter psicológico”.
Esto se debe a que mientras la confiabilidad sería esencialmente una cuestión
empírica; la validez incluye más elementos teóricos, ya que la validación
persigue la explicación, con todas las complicaciones que esto implica.
3
Dentro de la validez de criterio se habla de validez concurrente y validez
predictiva. La diferencia entre ambas formas de validez, radica en la temporalidad
del criterio.
Si las puntuaciones del test se utilizan para predecir alguna medida del criterio
que se va a realizar a futuro, sería validez predictiva.
Si por el contrario relacionamos las puntuaciones del test con alguna medida del
criterio tomada en el mismo momento sería validez concurrente.
4
constructos con métodos diferentes. Se calculan las correlaciones entre todas las
medidas y se forma con ellas una matriz que contendría los siguientes datos:
- Coeficientes de fiabilidad.
- Coeficientes de validez convergente.
- Coeficientes de validez divergente.
Formas de validez
1. Evidencia basada en el contenido del test
Este tipo de evidencia se obtiene demostrando que el contenido (ítems) del test es
una muestra representativa del constructo o dominio respecto del cual se desea
hacer alguna inferencia.
Si los ítems de un test son representativos de un dominio particular, si el
desempeño del sujeto en el mismo puede generalizarse a todo el dominio.
Los métodos para reunir evidencia de contenido se apoyan mayoritariamente en el
juicio de expertos.
En este tipo de validación deben realizarse las siguientes operaciones:
1. Definición del dominio a medir.
2. Identificación de expertos en ese dominio.
3. Juicio de los expertos acerca del grado en que el contenido del test es relevante y
representativo del dominio.
4. Procedimiento estadístico para resumir los datos del paso anterior.
Cuando se entregan a los jueces los ítems preliminares de un test conviene
adjuntar una forma estandarizada de calificación.
5
Los expertos también pueden juzgar la calidad formal de los ítems de un test
(aspectos gramaticales, claridad, educación del contenido a la población meta,
etc.) utilizando una escala numérica. Deberían retenerse aquellos ítems con
promedios más elevados y descartarse aquellos con puntuaciones más bajas.
Un estudio piloto con una pequeña muestra de características semejantes a la
población meta del test, también puede proporcionar información útil (claridad de
las instrucciones, comprensión de los términos empleados, etc.).
2. Evidencia basada en la estructura interna del test
Indican si las relaciones entre los ítems y las dimensiones (factores, escalas)
permiten confirmar la existencia de los constructos que el test pretende medir.
Permite corroborar empíricamente las dimensiones que el marco conceptual
propone de un determinado constructo.
A través del análisis factorial es posible verificar si estadísticamente los ítems se
agrupan del modo en que la teoría lo predice.
6
Fuentes externas de evidencia
El análisis de las relaciones de las puntuaciones del test con variables externas al
mismo test es otra fuente importante de evidencia.
Las variables externas pueden ser las medidas de algún criterio que el test intenta
predecir, así como las puntuaciones de otros test.
Las variables categóricas externas (por ej. esquizofrénico-no esquizofrénico)
también son importantes cuando la teoría sugiere diferencias en las puntuaciones
de grupos contrastados.
4. Evidencia convergente – discriminante
Convergencia: significa que los datos recabados de distintas fuentes y con
métodos diferentes revelan que las construcciones tienen un significado igual o
similar.
Los datos que se obtienen al aplicar diversos instrumentos que pretenden evaluar
constructos semejantes, administrados a los mismos sujetos debería dar
resultados que correlacionen de manera positiva y significativa.
Por ejemplo: una escala de inestabilidad emocional, debería correlacionar
positivamente con neuroticismo.
Discriminación: significa que empíricamente puede distinguirse la construcción
hipotética a evaluar de otros constructos , permitiendo determinar las diferencias
teóricas entre los distintos constructos.
Ej. Test de Raven y Test de Dominó.
¿Qué tienen en común? ¿Factor g o capacidad espacial?
Son procedimientos complementarios, implicaría la evaluación de tres elementos.
7
Se estudia mediante la comparación de los valores de una prueba o escala con
una variable o criterios externos que, según se sabe o se cree se relaciona o
predice el atributo de que se trata.
La evaluación en el criterio puede ser simultánea (evidencia concurrente) o
posterior (evidencia predictiva) a la administración del test.
Un estudio predictivo es especialmente pertinente para tests empleados en
contextos educativos y ocupacionales.
Un estudio concurrente, en cambio, es recomendable para test elaborados con
finalidades de diagnóstico clínico.
Las posturas actuales acerca de la validez:
1. Lo que se valida no es el test sino las puntuaciones del test, y por lo tanto la
pregunta que tratamos de responder es: ¿es válido el uso o la interpretación de las
puntuaciones de este test?
2. La validez no se puede resumir en un solo indicador o índice numérico de
información, si no se asegura mediante la acumulación de evidencia teórica ,
estadística, empírica y conceptual del uso de las puntuaciones.
3. Una puntuación puede ser válida para un uso y no para otro.
4. La validez es un proceso continuo y dinámico.
5. La teoría juega un papel muy importante como guía tanto del desarrollo de un test
como de su proceso de validación.
8
Se basa en el principio de parsimonia –busca siempre la estructura más
simple−, y esto se logra a través de una serie de pasos.
Hay dos formas de análisis exploratorio, que dependen de la estructura del test:
Exploratorio: se caracteriza porque no se conocen a priori el número de factores
y es en la aplicación empírica donde se determina este número. (Se parte de una
teoría, y hay una hipótesis de cuántos pueden ser los ítems, pero no se sabe
hasta la prueba empírica).
Confirmatorio: los factores están fijados a priori utilizándose contrastes de
hipótesis para su corroboración. (Es otro objetivo, otra forma de analizarlo. Ve
como ajusta mis datos ese modelo que estoy queriendo confirmar. No es
exploratorio, no voy a ver qué es lo que pasa, sino que ya hay una idea más
concreta y se busca confirmar).
El AF se utiliza para:
1. Explorar la relación entre las variables. Un instrumento creado con este método:
bf.
9
2. Informar sobre las evidencias de validez de un instrumento de medida “si las
puntuaciones que proporciona el instrumento parecen medir o no las dimensiones
con constructos pretendidos”. El AF permite poner a prueba la dimensionalidad
pretendida por el constructor del test.
3. Comprobar si la distribución de resultados se puede explicar con un número
menor de construcciones subyacentes, llamadas variables latentes o factoriales,
es decir ayuda a reducir grandes cantidades de variables a un número más
manejable. (En vez de explicar cada uno de los ítems de un test, el análisis
factorial encuentra un componente principal, que explica que por ejemplo 20 de los
50 ítems se encuentran en tal dimensión).
4. Comprobar algunas hipótesis sobre los datos, e incluso colabora en el desarrollo
de teorías sobre determinados constructos (ej. Inteligencia, personalidad).
5. Reducir el número de variables a una cantidad más manejable.
¿Qué son los factores? (si estamos hablando del análisis factorial)
Son atributos, construcciones hipotéticas, variables latentes.
Es decir, las partes que componen nuestro constructo. Los componentes
principales/dimensiones casi nunca explican la varianza, pero si gran parte de ella.
Esto es por la complejidad de los constructos que se estudian en psicología.
Las variables o los elementos en el análisis factorial son los ITEMS. Si dice,
se analizaron 50 variables son ítems, en cambio si digo, se analizaron 3 variables,
son las variables latentes.
10
Resumen
En Análisis Factorial se busca determinar si varias medidas (tests, características
médicas, etc.) se pueden justifican con un número menor de tales factores.
El grado de correlación con el factor.
Su aporte exclusivo.
Comunalidad: el grado de correlación con el factor.
Exclusividad: todos los ítems tienen una parte en común (comunalidad), y otra
exclusiva, que nadie más tiene.
Ambos elementos tienen que ser altos en el ítem.
Fases de la AFE: (ya habiendo tomado la muestra). Hay que ver si es factible.
2) Factibilidad del AF; responde a la pregunta ¿ existen factores?:
Esto se contesta con una matriz de correlaciones.
¿Qué es una correlación? Relación entre las variables, asociación del elemento y
dónde pertenece (o donde debería pertenecer) en el caso de los ítems nos damos
cuenta mediante el estudio de las correlaciones, la matriz de correlaciones.
11
Luego de administrar el test a la muestra de investigación, y antes de realizar el
AF, se debe determinar si los ítems están lo suficientemente interrelacionados
para que este método pueda aplicarse.
Uno de los requisitos que debe cumplirse para que el AF tenga sentido es que las
variables estén altamente intercorrelacionadas entre sí. Por tanto, si las
correlaciones entre todas las variables son bajas, el análisis factorial tal vez no
sea apropiado.
Hay dos formas de saber la factibilidad, que determinan si hay factores:
13
Contestación: la Matriz de Correlaciones se diferencia de la Matriz Unidad, según
el análisis de Barlett. Además, el promedio de correlaciones múltiples (KMO) es
superior a 0,60; indicando que existen factores.
Ya evalué la factibilidad, los supuestos, ahora veo con qué método voy a extraer
los factores.
3) Métodos de extracción de factores.
Existen diferentes métodos para la extracción de los factores.
Los más utilizados en AFE (en SPSS) son:
- Análisis de Componentes Principales: explica la mayor cantidad de varianza
posible en los datos observados (común, específica y de error).
- Si el análisis pretende identificar el número y composición de los factores comunes
(variables latentes) necesarios para explicar la varianza común del conjunto de
ítems analizado, entonces lo apropiado es aplicar un AFE.
Debe cumplir con dos criterios:
1) El segundo factor tiene que estar incorrelacionado con el primero.
2) Expresa la mayor parte proporcional de variancia, una vez tomado en
consideración el primer factor.
Ejes principales: no requiere supuesto de normalidad, lo cual es más probable
según se reduce el número de categorías de respuesta.
14
Máxima verosimilitud: requiere del cumplimiento de normalidad multivariada (al
menos univariada). Mejor, datos “continuos” con 5 o más categorías.
15
Si dividimos el auto valor de un factor por el número de variables y multiplicándose
ese valor por 100 obtenemos el porcentaje de varianza explicada por ese factor
particular.
El criterio tiene dos problemas:
- Es bastante arbitrario: un factor con auto valor 1.01 permanece, mientras que otro
con auto valor 0.99 queda descartado.
- Produce a menudo demasiado factores cuando hay más de 50 variables y da
demasiado poco si trabajamos con menos de 20 variables.
Lo ideal sería que exista concordancia en al menos dos criterios. Si es entre todos,
mejor.
17
La matriz inicial es difícil de interpretar, por lo cual luego de extraer los
factores iniciales, éstos son sometidos a un procedimiento denominado
rotación (cuando hay más de un factor en la solución).
Las rotaciones:
- Colocan a las variables más cerca de los factores diseñados para explicarlas.
- Concentran la varianza de las variables en menos factores.
- Facilitan la interpretación de la solución factorial obtenida.
- Ayuda a acomodar los ejes de los valores, y así se puede ajustar la
estructura a los criterios.
Hay dos tipos de rotación:
- Ortogonal: menor a 0.32.
- Oblicua: mayor a 0.32.
18
2. Cada variable/ítem sólo debe cargar un único factor.
3. Los pesos de los factores deben estar próximos a 1.00 o 0.00 (la carga que tienen
que tener tiene que ser muy alta o muy baja).
4. Los factores deben ser unipolares (todas las variables fuertes han de tener el
mismo signo o al menos un sentido teórico de las variables con sentido contrario).
19
1. Podemos suprimirla: si hay suficientes variables que permanezcan en los factores,
ésta pueda ser una opción. También podemos eliminar las variables que no den
un peso suficiente a ninguno de los factores.
2. Podemos mantener la presencia de las variables en ambos factores (si
teóricamente es correcto).
3. Si la variable es una de las que hemos diseñado, podemos reescribirla . Pero
tendríamos que repetir todo el estudio con un nuevo grupo de individuos para ver
si la variable revisada es mejor que la original.
4. Se dice que cuando la diferencia es menor a 0,150 el ítem es demasiado
complejo, no se sabe en dónde se pesa. Entonces la diferencia entre dos factores
debe ser mayor a 0,150.
20
4. Si esto no pasa, el ítem no discrimina: todos los sujetos contestan lo mismo.
Trabajo áulico:
Identifica los ítems discriminativos a partir de las tablas que aparecen a continuación. ¿Por
qué elegiste esos ítems?
Tabla
Ítem Media Bajo Media Alto T P
(X) (DT) (X) (DT) (bilateral)
34 3,60 1,06 4,77 0,44 -3,918 0,001*
37 3,53 0,83 4,38 0,87 -2,641 0,014*
40 2,13 0,83 3,77 0,83 -5,183 0,000*
43 1,93 0,70 2,85 0,99 -2,846 0,009*
46 3,67 1,35 4,31 0,86 -1,477 0,152
49 2,40 1,06 4,77 0,44 -4,588 0,000*
50 2,60 0,91 4,38 0,65 -5,88 0,000*
1) El ítem 34, 37, 40, 43 y 49 porque su significación bilateral es igual a (x) y es menor a
0,050.
21
Antes usamos la Teoría Clásica de los Tests (TCT).
Lo que antes era el valor verdadero, ahora es el valor de habilidad, de Theta.
Orígenes:
Inconvenientes TCT:
- La imposibilidad de separar las características del examinado, de las
características del test. Es decir: todas las características del test están situadas
en una distribución normal. Si un sujeto tuvo un puntaje alto en dentro de una
muestra, probablemente tenga uno bajo o normal en otro. Por eso son importantes
los baremos. En este sentido, el nivel de habilidad del sujeto no cambió, sino
cambió la muestra.
Conceptos
- ¿Qué significa habilidad?
Es el valor verdadero.
- ¿Dificultad del ítem?
Proporción de sujetos que lo contestan correctamente.
- El poder discriminativo de los ítems, la validez y la confiabilidad son
definidos en términos de un grupo particular de examinados.
- Definición de confiabilidad (sesgos desconocidos) y el error estándar de medición
(variancia igual para todos los individuos).
- Está orientada al test y no al ítem.
- La TCT no suplía las necesidades para medir la confiabilidad , estaba midiendo la
puntuación total, entonces en vez de medir al nivel del test, se debía medir al nivel
del ítem, y así surgió:
22
se sacó un 5 tiene un rendimiento mucho más alto, pero en un examen donde
hubo media 6 tiene uno bajo, esto no debería pasar).
3) Un modelo expresado al nivel del ítem y no al nivel del test.
4) Un modelo que no requiera tests estrictamente paralelos para la evaluación de la
confiabilidad.
5) Un modelo que provea una medida de precisión para cada habilidad.
Postulados básicos:
1) El rendimiento de un examinado en un ítem de un test puede predecirse o
explicarse por un grupo de factores llamados rasgos, rasgos latentes o
habilidades.
2) La relación entre el rendimiento de los examinados en el ítem y el conjunto de
rasgos subyacentes al rendimiento en el ítem puede describirse por una función
monotónicamente creciente, llamada función característica del ítem o curva
característica del ítem (CCI).
- Entonces lo primero que se evalúa en la teoría al ítem es su propiedad:
La propiedad de invariancia
Los parámetros que caracterizan un ítem no dependen de la distribución de
habilidad de los examinados, y los parámetros que caracterizan un examinado no
dependen del conjunto de ítem del test.
¿Qué es invariancia entonces? Al momento de clasificar, el valor del sujeto no
debería depender del grupo, del conjunto de ítems clasificados para el test. Tiene
que contestar lo que pide el ítem.
Supuestos TRI
Unidimensionalidad: (no puedo medir varias dimensiones como en escalas
Likert). Es la presencia de un componente o factor dominante (explica la mayoría
de la varianza) que influya sobre el rendimiento del test.
23
Independencia local: las respuestas de los examinados a cualquier par de ítems
son estadísticamente independientes entre sí. Ejemplo: la dependencia local (cuando no se
cumple este supuesto) en un examen de psicometría, es cuando él nos pone verdadero o falso, “la
confiabilidad apunta de manera general a que el instrumento está midiendo bien” “la _____ es que el
instrumento mida bien”. Entonces si vos pusiste verdadero en la primera tenías que poner confiabilidad en el
segundo. Aquí hay DEPENDENCIA TOTAL. No puede haber relación entre las dos respuestas.
24
- Además, se necesitan ítems que evalúen las diferentes habilidades o cantidad de
atributo que tengan los sujetos.
Resumiendo:
Los parámetros que definen la CCI son:
Parámetro de Dificultad (b):
- Es el valor de escala del ítem.
- Definido por el punto del continuo donde la probabilidad de acertar es de 0,5.
- Habitualmente toma valores comprendidos entre -3,5 y +3,5.
- Valores elevados indican alta dificultad (o elevado valor en la variable de medida).
25
Parámetro de Adivinación (c):
- Refleja el efecto del azar.
- Probabilidad de respuesta correcta para las personas con un nivel de habilidad
muy bajo.
- Útiles en el test de ejecución máxima.
26
Ejercitación de Teoría de Respuesta al Ítem
1. En la siguiente tabla se presentan los valores de parámetro de seis ítems:
Item b (dificultad) a (discriminación) c (adivinación)
1 1.0 1.8 0.00
2 1.0 0.7 0.00
3 1.0 1.8 0.25
4 -0.5 1.2 0.20
5 0.5 1.2 0.00
6 0.0 0.5 0.10
27
segundo porque es muy discriminativo y pocos sujetos estarían en este intervalo, y
finalmente porque tiene un pseudoazar muy elevado.
2. Usa las curvas características del ítem (CCI) de la Figura 1 para contestar
las preguntas que se presentan a continuación:
28
3. Según las siguientes CCI, responde a las siguientes preguntas:
29
Repaso antes de abordar Teoría G
En cualquier medición existe un error ya sea causado por:
- Instrumento que se utilice.
- Forma en cómo se aplica.
- Momento.
- Lugar.
- Otros factores.
Este error puede producirse por un proceso sistemático o aleatorio.
Recordemos... si descomponemos la variancia:
Variancia total = variancia secundaria (tendencia de las puntuaciones a ir a un
sentido) + variancia error/aleatorio (debida a cuestiones fortuitas)
Puntuación verdadera
Es aquella puntuación que obtendría como media si se le pasase infinitas veces el
test.
Se trata de una definición teórica, pero se considera que si esto se hiciese la
puntuación media que esa persona sacase en el test sería su verdadera
puntuación.
Confiabilidad
Definida en términos de puntuación verdadera y de error.
Cuanto mayor sea el error, menor será la confiabilidad.
30
Coeficiente de fiabilidad = la razón (o división) entre la variancia verdadera y
la variancia de error.
Teoría de la Generalizabilidad
¿Qué plantea?
Rendimiento afectado por distintos factores además del atributo que queremos
medir. Ejemplo: cansancio, memoria, ruidos, luz ambiental, evaluador. (= TCT).
Estos factores son fuentes potenciales de error que disminuyen la fiabilidad de la
puntuación. (= TCT).
Intenta identificar las posibles fuentes de error y minimizar su efecto.
Trata de descomponer e identificar fuentes de error que la TCT considera
error aleatorio, para lograr una medición más precisa.
Síntesis:
Identifica las fuentes de error.
Minimiza el error de medición.
Maximiza la confiabilidad.
31
¿Qué es la confiabilidad en la TG?
En la TCT estaba definida en términos de error, pero en TG:
Es el grado de exactitud al generalizar...
A partir de un valor observado de una persona en un test u otra medida...
Al valor promedio que la persona podría haber recibido bajo todas las
posibles condiciones (que el investigador quiera tener en cuenta).
Conceptos:
1. Las Facetas: (otro nombre que se le da a las fuentes de variación o de error):
Cada una de las características de la situación de medida.
Se consideran facetas a todos los factores o variables presentes en el diseño
de medida.
Circunstancias particulares en que se realiza la medición.
2. Anova (análisis de variancia)
En la TCT la confiabilidad se estudiaba a partir de correlaciones.
En la TG se hace un ANOVA: análisis de variancia. Es un estadístico.
Se emplea para conocer el efecto de cada faceta o fuente de variabilidad y el
efecto de cada combinación de estas facetas (interacciones).
3. Puntuación de universo (puntuación de dominio)
Es lo mismo que puntuación verdadera en la TCT.
Característica que se desea medir al aplicar el test o prueba a un sujeto.
4. Universo
Conjunto de condiciones de medida sobre las que el investigador generaliza.
Éste va a cambiar según el propósito de investigación.
Es importante que el investigador defina claramente el universo especificando las
condiciones de medida sobre las que intenta generalizar.
32
- Está definido por una fuente de error de medición, es decir, por una sola
faceta.
- Ejemplo: supongamos que estamos midiendo inteligencia. Tenemos una muestra
de 50 adultos y los examinamos en cinco ocasiones diferentes. De aquí podemos
identificar:
- Objeto de medición: Inteligencia.
- Población: 50 adultos (A).
- Faceta: Ocasiones (O).
Lo único que podría ser una fuente de error (que es esa faceta) es la ocasión,
porque son cinco ocasiones diferentes, no es una ocasión. Entonces, en TG
siempre se va a identificar así: objeto de medición, población, faceta; y después de
faceta tenemos las fuentes de variación. Son importantes las letras con que se
identifican.
33
facetas, ve la interacción entre ellas: ver la interacción que tiene un colegio con las
ocasiones, un colegio con los evaluadores, y así.
Cada faceta es una fuente de error, y las interacciones entre sí es otra fuente de
error.
34
Cuando se habla de criterio: el potencial total que tiene una persona respecto al
constructo que se está evaluando.
Status absoluto: cuánto domina un sujeto el constructo que estoy midiendo.
¿Hasta cuanto se de matemática?
TRC
Definición: se construyen para permitir la interpretación de las puntuaciones de los
tests individuales y de grupo, con relación a un conjunto de objetivos, destrezas y
competencias, bien definidos.
Definición de parcial: Popham (1978): “un test referido al criterio se utiliza para
evaluar el status absoluto del sujeto con respecto a algún dominio de conductas
bien definido” (p. 93).
- Ejemplo: el status es saber cuánto es el máximo potencial que un sujeto puede
dar (por ejemplo) en matemática. Cuánto tiene en total de ese constructo que
quiero evaluar.
Usos y aplicación
a) En la evaluación conductual.
b) En las fuerzas armadas para evaluar la competencia de los sujetos.
c) En la industria, para evaluar las competencias de los sujetos en el puesto de
trabajo.
d) En evaluación de programas, para medir cambios relativos a la aplicación de los
tratamientos.
e) En la evaluación educativa, para distinguir a los sujetos aptos y no aptos para
superar cursos y/o grados y en general, para evaluar las competencias de los
sujetos en diversas áreas.
Características
Además de dominio (suma, resta, multiplicación, multiplicación) de conductas,
puede hablarse intercambiablemente de objetivos, destrezas y competencias.
El dominio debe estar bien definido, siendo variables:
35
- La amplitud (en cada uno de los temas, debo definir hasta dónde voy a evaluar
sobre confiablidad, validez y escalamiento).
- Los contenidos de este domino (temas de unidades: confiabilidad, validez,
escalamiento).
Si se evalúa más de un objetivo, los ítems que cubre cada uno de los objetivos
suelen organizarse subtests de manera que se evalúe el rendimiento en cada uno.
Crítica: el TRC no incluye (aunque se pueden usar) el establecimiento de
estándares (significa la clasificación de hasta dónde es normal, hasta dónde es
puntaje alto, puntaje bajo), se realiza una interpretación descriptiva del
rendimiento.
Características
1. El número de objetivos medidos en un TRC puede variar entre los diferentes tests.
2. El número de ítems que mide cada objetivo es variable, pudiendo ser diferente el
de distintos objetivos dentro del mismo test.
3. No es necesario que el formato de los ítems sea de elección múltiple opción,
aunque sea éste el formato más frecuente. El formato va a depender de lo que se
evalúe.
4. Una forma habitual para tomar decisiones del tipo “apto” “no apto” o “pasa” vs. “no
pasa”, es comparar la proporción de aciertos del examinado con un criterio
estándar de rendimiento, decidiendo que el sujeto “pasa” si su rendimiento es igual
o mayor que el estándar y “no pasa” en caso contrario.
Requisitos básicos
Como todo tipo de test tiene que tener sus requisitos.
1. La existencia de un conjunto de objetivos claramente definidos (contenidos y
amplitud/alcance).
2. Una proposición explícita de la finalidad del test (¿para qué se va a utilizar
este test?).
36
Entonces: El test referido a la norma busca clasificar según se sepa en relación a
la norma, es decir, el grupo. Al criterio, es el conocimiento que tengas en SÍ, sin
comparación.
Diferencias y similitudes
TRC es similar a TRD (al domino): es exactamente lo mismo, solo reemplazaron la
palabra, porque ambas describen el status absoluto que domina una persona.
TRC es diferente de TRO (al objetivo): en el TRO los ítems no se consideran
referidos al dominio de contenidos, están en función de alcanzar objetivos.
TRC: miden objetivos y los ítems representan el dominio de un contenido.
Ejemplo: un TRO puede tener por objetivo ver si las personas pueden o no sumar.
Pero en un TRD se mide hasta dónde se puede sumar, de qué maneras, en sí,
sumar de distintas formas.
Fases de elaboración del TRC
1. Planteamientos iniciales: plantear lo que se quiere evaluar y el propósito.
2. Revisión de los objetivos: delimitar el alcance, (de todo lo que quiero evaluar,
hasta dónde voy a llegar).
3. Redacción de los ítems.
4. Evaluación de la validez de contenido: si se evaluaron todos los aspectos que
se querían evaluar a través de jueces expertos, gente que sabe del tema y que
digan si ese ítem realmente mide. A través de la coherencia, pertinencia,
importancia.
5. Aplicación del test (Se juntan todas las respuestas de los jueces, se hace una
armonización de las respuestas, y se hace una versión piloto que se aplica a los
sujetos).
6. Revisión del test (antes era una revisión cualitativa, ahora es una revisión
cuantitativa, más formal: poder discriminativo, dificultad, facilidad, aporte a la
consistencia interna, etc.).
7. Preparar la forma definitiva del test.
8. Una vez tenida la forma definitiva, se aplica en otra muestra más heterogénea
(distintas poblaciones) buscando el establecimiento un estándar.
37
9. Aplicación en forma piloto del test definitivo.
10. Preparación del manual.
11. Recolección de datos adicionales para la investigación sobre fiabilidad y
validez.
38
- Usa el coeficiente de Generalizabilidad de la TG para las Decisiones Absolutas
(del tipo pasa o no pasa, cuando quiero establecer un estándar).
- En las clasificaciones (apto vs no apto):
Interesa confiar en el punto de corte establecido:
Se hace un análisis de funciones de pérdida umbral: estima el grado en que un
examinado es consistentemente clasificado en la misma categoría en una
administración repetida del test.
Y el otro análisis: funciones de pérdida cuadrática: tienen en cuenta los
tamaños del error en la clasificación.
Así se evalúa la confiabilidad de la TRC: con el coeficiente de Generalizabilidad. Y
lo que interesa evaluar prioritariamente es la clasificación del punto de corte. Este
se evalúa con la función de pérdida de umbral o con la función de pérdida
cuadrática.
39
La reedificación de 2 categorías de persona puede crear una distorsión mucho
mayor que el error de medida individual.
“La competencia es una variable continua que no se puede dicotomizar:
Explicación: porque hay mayor distorsión, mayor error. Cuando pongo un punto de
corte o dicotomizo genero un error en la medida: es mejor valorar la competencia
en valor del puntaje: si una persona obtuvo 5,99 y otro 6 voy a cometer menos
errores en la comparación si comparo los valores en sí, en lugar de establecer un
punto de corte.
40