Вы находитесь на странице: 1из 5

Confiabilidad:

Luego de todas las preguntas anteriores, del árbol de decisiones, si la validez es positiva, luego de
eso miramos la confiabilidad de los resultados: La confianza que podemos tener en los resultados
que nos da un test cuando lo utilizamos con una persona particular.

En cualquier medición nos encontramos con tres tipos de errores: por un lado el error de medición
y el error sistemático de construcción, junto con error sistemático para un subgrupo poblacional
(sesgo) por el otro.

Error de medición: Es azaroso, no se da siempre en el mismo sentido, es decir a veces se da de


modo de favorecer el rendimiento de un sujeto en el test y a veces lo empeora. No es negativo ya
que es inherente a la medición, es ineludible ya que la medición no puede darse sin este error. Es
la contracara de la confiabilidad, cuanto mayor el error y mas varianza de error menos
confiabilidad. Tiene 3 fuentes, 3 origenes posibles: 1- Examinado. 2- Examinador. 3-Ambiente.

Error sistemático de construcción: No es azaroso, es acumulable y depende de como el


examinador realiza las preguntas. Su detección es simple ya que los examinados manifiestan las
molestias y los evaluadores así los detectan y su solución es simple mas alla de que no siempre se
lleve a cabo. Afecta a todos los sujetos.

Error sistemático de tipo sesgo: Este error es sistemático pero no para todos, sino para un
subgrupo de la población. Se da siempre por razones ajenas a la variable evaluada, puede ser por
ejemplo por la poca familiaridad con los materiales del test o los items. Esta culturalmente
determinado.

Los últimos dos errores afectan a la validez ya que la pregunta de ¿Qué estamos midiendo? No
puede responderse

La confiabilidad es la confianza que podemos tener en el resultado que nos da un test.

PV(puntuación verdadera) = PO (puntuación obtenida) + (-) E (error)

Como no se puede obtener nunca la puntuación verdadera la podemos inferir a partir de la


fórmula de confiabilidad.

Distintos aspectos de la confiabilidad:

Estabilidad temporal: Test- re test, r. Es decir, administrar el test a una muestra de sujetos y
después de un tiempo volver a administrar. Cuando mas cerca de 1 esta, mayor estabilidad
temporal tiene.

Consistencia: coherencia de las puntuaciones que arrojan los dintistintos grupos de ítems dentro
de una escala o subescala (dimensión)
Homogeneidad: tiene que ver con los puntajes derivados de los dintitos tipos de contenidos.

Estos últimos dos se miden con correlaciones múltiples entre todos los ítems y todas las
respuestas de todos los sujetos que formaron esa muestra. Y se calcula mediante el coeficiente
alpha o por división por mitades y se pueden usar otros índices como kr, guttman.. etc. Todos se
interpretan de la misma manera : deben ser todos positivos y lo más cercanos a 1 posibles,
a partir de 0.70 se considera que es aceptable, 0.80 muy bueno y 0.90 es excelente.

Consistencia entre evaluadores: ( r ) se hace cuando tiene que ver con la interpretación,
opinión u impresión del evaluador (ejemplo circulitos o puntitos Bender), y si las
instrucciones quedan claras queda poco sujeto a la subjetividad del evaluador. Es decir
dos evaluadores tienen que llegar a las mismas conclusiones.

El evaluador es quien debe leer que esto se hizo en el manual, pero lo debe hacer el
investigador.

Los métodos para determinar la confiabilidad pueden requerir una sola aplicación a la
muestra de sujetos o una doble aplicación la misma muestra de sujetos.

Aquellas metodologías que requieren una sola aplicación son: (se trabaja principalmente
con la consistencia)

*Consistencia interna: calculamos el apha de combrach por ejemplo y no vemos mas a los
sujetos. Si el alpha es alto y positivo estamos ante una buena confiabilidad.

*División por mitades: se toma normalmente y lo dividimos por la mitad en el análisis


posterior. Esas mitades tienen que ser comparadas en nivel de dificultad y en cuanto a
tipos de contenidos. Se establece la correlacion entre las dos mitades teniendo en cuenta
que esas dos mitades deben ser equivalentes en contenido, cantidad de ítems etc. Si la
correlacion es alta y postiva estamos ante una buena confiabilidad.

*Formas paralelas sin intervalos: es muy trabajoso, implica crear dos versiones del test
que sean prácticamente clonadas, pero no tanto, mucho costo, mucho tiempo y quedo
fuera de tiempo. Hay dos modos: sin intervalos en la misma muestra de sujetos uno atrás
del otro y se establece a correlación entre ellos y se evalúa la consistencia entre esas dos
formas paralelas.

*Entre evaluadores: Aquí los coeficientes de confiabilidad deben ser de 0.90 a 099 es
decir, excelente.

Aquellas metologias que requieren dos aplicaciones:


*Test-retest: a la misma muestra de sujetos se le administra el test y luego de cierto
tiempo de intervalo se le vuelve a administrar el test a la misma muestra y
correlacionamos los resultados. Si es alta y positiva hay una buena confiabilidad en
términos de estabilidad temporal.

*Formas paralelas con intervalos: tambien se crean dos versiones del test y se toma la
forma A en la primera aplicación, un intervalo de tiempo y la forma B en la segunda
aplicación. Se investiga por un lado la consistencia entre las mediciones pero también la
estabilidad temporal siendo asi una manera de chequear los dos componentes principales
de la confiabilidad.

Que se evalua entonces?

Test-retest: Estabilidad temporal

Consistencia interna: Consistencia + homogeneidad. (están emparentadas)

División por mitades: Consistencia + homogeneidad. Tratamos a ambas mitades como si


fueran el mismo test al estilo de un test retest.

Del evaluador: Criterios de evaluación, claridad y precisión de claves de puntuación.

Formas paralelas sin intervalos: Consistencia.

Formas paralelas con intervalo: consistencia entre forma a y b pero también la estabilidad
temporal.

Etapas de construcción de un test:

Hay dos grandes etapas: Diseño y construcción

Diseño:

-se define la finalidad del test: para quienes va a estar destinado, que queremos evaluar y
mediante que modelos teóricos.

-Análisis del rasgo o atributo: se hace de dos maneras posibles que no son excluyentes,
ellas son: análisis racional, es decir revisión de toda la bibliografía producida teóricamente
y las investigaciones producidas a partir de todas esas teorías por distintos autores y en
base a eso se elige el modelo mas robusto desde el punto de vista teorico y empírico y se
diseña el test a partir de esa construcción teorica. Se puede utilizar también el enfoque
empírico en lugar de ir a la bibliografía teorica se va al campo, a donde el fenómeno se
desarrolla y mediante las respuestas obtenidas se puede analizar el rasgo o atributo que
deseamos medir y la máxima exigencia es combinar ambos.
-Aspectos formales.

Etapa de construcción:

-Preparacion de los ítems:

a. Redaccion:A partir de esas decisiones se procede ya a la redacción del pool inicial de


ítems, mucho más numeroso de los ítems que deseamos que el test tenga en realidad ya
que por lo menos 2/3 se van a perder.

b. Juicio experto. Se van a perder algunos ítems y otros se van a modificar por lo cual el
test va a cambiar paso a paso . (este es un estudio de validez de contenido)

c. Estudio piloto: Trabajamos con una pequeña muestra de sujetos con características
similares a los que se va a ofrecer el test. (tmb estudio de validez aparente)

-Estandarizacion: Administración de tipificación a una muestra muy grande de sujetos en


donde esos sujetos homogéneos en cuanto a características sociodemográficos y de
distribución geográfica a los sujetos a los cuales se va administrar el test. Esto nos va a
permitir analizar los ítems.(discriminación, dificultad en aumento)

-Validez y confiabilidad: recién ahí se hacen todos los estudios de validez y confiabilidad. El
test va a quedar cada vez mejor y pequeños en cuanto a su extensión.

-Normas estadísticas y baremos, juntos con todos los estudios anteriores que deben
revisarse cada vez que el test se vuelve a adoptar y se redactan los manuales que enseñan
a los profesionales a administrar, puntuar y también juzgar la bondad científica y las
propiedades técnicas a fines de elegir o no el test.

Cuando hay que adaptar los test hay 3 tipos de equivalencias de que deben ser
determinadas:

Conceptuales: Que el concepto o constructo teorico que se quiere medir tenga una
concepción equivalente en la cultura donde se elaboro el test y la cultura de destino. Y si
eso no se puede establecer el test no se puede tomar porque no tiene vigencia cultural.

Linguisticas: que los términos utilizados y tmabien los iconos y todos los materiales
graficos sean verbales o no verbales y que los mismos tengan una adecuación lingüística
para la cultura de destino y un signficado equivalente respecto de la cultura original donde
el test fue evaluado.
Metricas: Todos los estudios que vimos en cuanto a diseño y construcción que deben ser
reiterados y replicados en la población de destino y dentro de la misma cultura debe
hacerse una renovación de los estudios cada 5 o 10 años.