Confiabilidad

Confiabilidad
Editar 3 16…
En la creación de un instrumento de medición, es importante tomar en cuenta 2 componentes
importantes que son la validez y la confiabilidad; Por ende, la obtención de confiabilidad es un
requisito, más aun si se quiere considerar válido dicho instrumento. Es por ello que todo
instrumento válido es confiable, no obstante el obtener la confiabilidad no hace válido un
instrumento. Para ejemplicar mejor lo anterior, es útil la siguiente analogía con un blanco de tiro,
como se muestra en la Figura 1
Figura 1.
Según Hernández, Fernández y Baptista (2006), la confiabilidad de un instrumento de medición se
refiere al grado en que su aplicación repetida al mismo sujeto u objeto produce resultados iguales
(consistentes y coherentes).El significado de la confiabilidad, tal como se aplica a las pruebas y a la
evaluación puede clarificarse todavía más si se destacan los siguientes puntos generales:
1. El significado de la confiabilidad se refiere a los resultados obtenidos con un instrumento

de evaluación y o al instrumento mismo. Cualquier instrumento en particular puede tener cierto
número de confiabilidades diferentes, según sea el grupo involucrado y la situación en que se use.
Así pues, es más apropiado hablar de la confiabilidad de “los resultados de la prueba" o de “la
medición”, que de “la prueba” o “el instrumento”.
2. Un punto íntimamente relacionado con lo anterior es que una estimación de la confiabilidad
siempre se refiere a un tipo particular de consistencia. Los resultados de las pruebas no son, en
general, dignos de que uno se fie de ellos. Son de fiar (o susceptibles de generalizarse) en tiempos
diferentes, dados diferentes conjuntos de preguntas, con encargos de calificar diferentes, etc. Es
posible que los resultados de las pruebas sean consistentes con respecto a uno cualquiera de los
anteriores elementos y que no tenga consistencia alguna con respecto a otro. El tipo apropiado de
consistencia en un caso particular lo dicta el uso que va a hacerse con los resultados.
3. La confiabilidad es condición necesaria pero no suficiente de la validez. Cualquier prueba

que arroje resultados totalmente inconsistentes no puede en forma alguna posible suministrar
información veraz sobre el comportamiento que se mide. Por otro lado, hay resultados de prueba
sumamente consistentes que pueden estar midiendo algo equivocado que se pueden usar de
maneras que no son apropiadas.
4. A diferencia de la validez, la confiabilidad es estrictamente un concepto estadístico. El

análisis lógico de una prueba suministrara poca evidencia por lo que hace a la confiabilidad de las
calificaciones. La prueba debe administrarse, una o más veces, a un grupo apropiado de personas
y debe determinarse también la consistencia de los resultados. Dicha consistencia bien puede
expresarse en términos de cambio en las posiciones relativas de las personas dentro del grupo o
en términos del grado de variación que cabe esperar en la calificación de un individuo especifico.
Se informa de la consistencia del primer tipo por medio de un coeficiente de correlación llamado
coeficiente de confiabilidad. Se informa de la consistencia del segundo tipo mediante el error
normal de la medición. Ambos métodos de expresar la confiablidad son de uso generalizado y por
ello deben comprenderlos las personas responsables de la interpretación de los resultados de las
pruebas.
Para cualquier instrumento de medida (sea psicológico, físico o para medir el aprendizaje) es
necesario conocer cuál es la precisión con la que se mide, es decir, que tantos errores tiene la
medición. Mientras menos errores tengan más confiable es, lo que propiciaría que cada vez que
midamos algo sus valores cambiarían muy poco. Díaz, Batanero y Cobo (2003) mencionan que el
instrumento de medida “se considera fiable si las medidas que se obtienen a partir de él no
contienen errores o los errores son suficientemente pequeños” (p. 7).
Así, de forma teórica Muñiz (1994; en Díaz, Baterano y Cobo, 2003), se puede considerar que la
fórmula de la confiabilidad es la siguiente: la puntuación X obtenida por un sujeto es igual a su
puntuación verdadera (V) más el error de la medida (e): X = V+e.
Factores que Afectan la Confiabilidad

Algunos factores que pueden afectar la confiabilidad de un test:
Factores (Díaz, Baterano y Categorías (Muñiz, 1998)
Cobo, 2003)
Concernientes al sujeto La variabilidad del grupo. Mientras más variable sea el grupo más
confiabilidad se obtendrá.
Número de ítems en la prueba. Cuanto mayor sea el número de ítems

Concernientes al instrumento en una prueba mayor será la confiabilidad de las puntuaciones.
Dificultad de los reactivos. Si un reactivo es fácil, la mayoría de los

alumnos o sujetos responderá acertadamente, reduciendo la variabilidad en las
puntuaciones.
Concernientes a la aplicación, La confianza en la que dos personas califican una prueba. Es necesario un
corrección a interpretación consenso claro y preciso para la calificación de una prueba cuando son más de
una persona las que lo califican.
Estimación de la confiabilidad: coeficientes de confiabilidad

El coeficiente de confiabilidad es una medida para estimar la confiabilidad teórica de las
puntuaciones obtenidas. Se entiende como la correlación entre X y X’ obtenidas por el participante
cuando se le proporcionan dos veces la misma medida. Éste modelo para calcular la confiabilidad
de un instrumento trata de determinar cómo los errores aleatorios (en la medida) afectan las
puntuaciones obtenidas por el sujeto. Para calcular el coeficiente de confiabilidad usualmente se
utilizan las siguientes estrategias:
Modelo Descripción Desventajas
Test- Consiste en la aplicación del mismo test al sujeto después de Es necesario considerar el intervalo de
Retest un intervalo de tiempo. Finalmente se correlacionan las dos tiempo que se deja pasar antes de que
puntuaciones obtenidas en las dos aplicaciones para conocer el sujeto conteste la prueba
el coeficiente de confiabilidad.Cuando se correlacionan las nuevamente: lo suficiente para que no
dos puntuaciones y se obtiene el coeficiente adecuado recuerde lo aplicado pero no muy
significa que existe estabilidad temporal de las puntuaciones extenso para que no se den cambios
obtenidas (Mateo, 2008) por maduración o aprendizaje.
Formas Se necesitan construir formar paralelas de instrumento (p. Hay que cuidar especialmente la
Paralelas ej. Forma A y Forma B) que necesariamente tienen que ser elaboración de ambas formas para que
equivalentes, las cuales se le aplican al sujeto. se obtengan versiones que sean
Posteriormente se correlacionan las puntuaciones obtenidas equivalentes en contenido y en lo que
en ambas formas para obtener el coeficiente de se desea medir.
equivalencia.Cuando se correlacionan las dos puntuaciones
y se obtiene el coeficiente adecuado significa que existe
equivalencia de las puntuaciones obtenidas. (Mateo, 2008)
Dos Un mismo test se divide en dos mitades equivalentes (se Es necesario que ambas mitades sean
mitades aconseja que se realice de forma aleatoria) para aplicárselo equivalentes, y elaborar reactivos que
al sujeto. Posteriormente de correlacionan las puntaciones sean independientes los unos de otros
obtenidas en cada mitades.Cuando se obtiene la correlación para evitar sesgos en la división por
adecuada significa que el test es consistente en su extensión. mitades.
(Mateo, 2008)
Covarianza entre los reactivos de una Prueba (Consistencia Interna)

Este cálculo de la confiabilidad consiste en comparar la puntuación obtenida en todo el test con las
puntuaciones individuales de cada reactivo. Una de la grandes ventajas de este método es que
solo se necesita de una adminitración de la prueba para poder calcularlo.Usualmente se utilizan
dos métodos para su cálculo: el Alfa de Cronbach (para reactivos continuos) y la Kuder-Richardson
(para pruebas con reactivos dicotómicos).
Alfa de Cronbach
El coeficiente Alfa fue propuesto por Lee J. Cronbach en 1951. Es un índice usado para medir la
confiabilidad de tipo consistencia interna de una escala.
Este término hace referencia al promedio de las correlaciones entre los reactivos que forman parte
de un instrumento de medición o, también, se puede concebir como la medida en la cual algun
constructo está presente en cada reactivo.
Kuder-Richardson, Coeficiente KR-20

Kuder y Richardson, en 1937, desarrollaron un coeficiente para estimar la confiabilidad de una
medición, cuya interpretación, es la misma que la anterior.
Los nombres distintos de ambos coeficientes se deben a que los autores difieren en sus modelos
teóricos, aunque estén relacionados, y los desarrollaron en tiempos distintos.
Sobre el alfa de Cronbach y sus alcances

Desde la publicación en 1951 de Lee Cronbach acerca de su coeficiente de confiabilidad, el alfa de
Cronbach ha sido usada (y abusada) hasta nuestros días. Web of Science menciona que el artículo
original tiene al menos unas 6,500 citas en otros trabajos científicos, lo cual es mucho mayor a las
citas de otras fórmulas bajo los mismos principios como la de Kuder-Richardson con poco más 400
citas, o la de Guttman con poco más de 200 (Sijtsma, 2009).
Si bien no se trata de una medida “maravillosa” que puede utilizarse en todo momento y con todo
instrumento, su correcta y clara utilización permite obtener buenos resultados para conocer la
consistencia interna de una prueba. El mismo Cronbach (2004) reflexiona sobre el uso que se le ha
dado a su fórmula durante tanto tiempo mencionando que: no fue una prueba “nueva”, sino que
solo resumía lo que otros autores habían conseguido lograr a lo largo de todos los años (menciona
incluso que realmente su fórmula se basa en una extensión y generabilización de la fórmula de
Kuder-Richardson), y que incluso se avergüenza de que sea conocida como el Alfa “de Cronbach”
y del mismo nombre “Alfa” que utiliza para nombrarlo (pues solo hacía alusión al inicio de lo que él
considerada un intento para calcular las propiedades de una prueba). Para esta clara utilización es
necesario conocer los alcances y limitaciones que tiene la fórmula propuesta por Cronbach.
Sijtsma (2009) menciona que en su artículo original, Cronbach utiliza la consistencia interna como
un sinónimo de homogeneidad, sin embargo no es necesariamente así. Incluso Schmitt (1996)
menciona que el Alfa de Cronbach no necesita que una prueba sea unidimensional necesariamente
para ser utilizada. Sin embargo, para utilizar el Alfa con medidas multidimensionales es necesario
comparar las medidas de una misma dimensión con la dimensión misma en lugar de con toda la
prueba. Por tanto, Sijtsma y Schmitt concluyen el Alfa de Cronbach no es una medida de
consistencia interna como sea utilizado en muchas ocasiones.
A partir de la variabilidad en las puntuaciones encontradas tras una serie de mediciones

repetidas puede determinarse el índice de precisión, consistencia y estabilidad de un
instrumento. En el supuesto de que el resto de condiciones se mantengan inalteradas, puede
concluirse que, a mayor variabilidad de resultados, menor fiabilidad del instrumento de
medición.1
No obstante, uno de los principales problemas que se presentan en el campo de la
investigación en ciencias sociales tiene que ver con la dificultad de conseguir que las distintas
medidas se realicen exactamente en las mismas condiciones. Las condiciones personales de
los sujetos, como la motivación, la maduración o el grado de atención, pueden variar de una
medición a otra, por lo que resulta imprescindible establecer un procedimiento estandarizado
de medición que permita reducir al mínimo las variables extrañas que puedan influir en los
resultados finales. Por lo tanto, la fiabilidad hace referencia a la estabilidad y consistencia de
las mediciones en aquellos casos en los que no existen razones teóricas o empíricas que nos
hagan suponer que la variable que se mide se haya visto modificada de forma significativa por
los sujetos, por lo que se asume su estabilidad. 2
La teoría clásica de los tests[editar]

En el marco de la teoría clásica de los tests, según el modelo lineal clásico propuesto
por Charles Spearman (1904, 1907, 1913); la puntuación empírica (X) que obtiene un sujeto
en un test, es la suma de dos componentes: la puntuación verdadera (V) y el inevitable error
de medida asociado al instrumento. 3 Es decir, si a la puntuación empírica (obtenida en la
prueba) se le elimina el error de medida, se obtendrá la puntuación verdadera. En este
contexto, la fiabilidad hace referencia a la proporción de la varianza verdadera, es decir, la
parte de la varianza total que los ítems discriminan por lo que tienen en común. 4 Siguiendo
este razonamiento, obtendríamos:
donde es el símbolo de la fiabilidad de las puntuaciones observadas (X); y ,
,y son las varianzas de las puntuaciones empíricas, verdaderas y de error,
respectivamente. Dado que no existe modo alguno de determinar la puntuación verdadera

directamente, existe una serie de métodos para realizar una estimación de la fiabilidad.
Coeficiente de fiabilidad[editar]
El coeficiente de fiabilidad ( ) es la correlación entre las puntuaciones obtenidas por
los sujetos en dos formas paralelas de un test (X y X'). Suponiendo que las dos formas del
test sean realmente paralelas (es decir, midan realmente lo mismo), las puntuaciones de
los sujetos deberían ser iguales en ambas aplicaciones. Así, cuando la correlación es igual
a 1, la fiabilidad es máxima. El grado en que el coeficiente de fiabilidad se aleje de 1 será
un indicador del grado de error aleatorio de medida que estaremos cometiendo en la
aplicación de las pruebas. El coeficiente de fiabilidad no debe confundirse con el índice
de fiabilidad, que es la correlación entre las puntuaciones verdaderas y las empíricas (
), y se obtiene a partir de la raíz cuadrada del coeficiente.
Estimación empírica del coeficiente de fiabilidad [editar]

Desde la Teoría Clásica de los Tests (TCT) se han propuesto diferentes procedimientos
para calcular la fiabilidad. Algunos de ellos son los siguientes:
Formas paralelas[editar]
Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se utilicen
dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma diferente
(por ejemplo, dos tests que con diferentes preguntas midan un determinado rasgo).
Después se comparan los dos tests, calculando el coeficiente de correlación de Pearson.
Esta correlación será, como hemos visto en el apartado anterior, el coeficiente de
fiabilidad. Si la correlación es alta, se considera que hay una buena fiabilidad. Al valor
obtenido también se le conoce como coeficiente de equivalencia, en la medida en que
supone un indicador del grado de equivalencia entre las dos formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos sean
realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan
exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales en
las que se pueda garantizar el paralelismo de ambas formas, este es el método más
recomendable.
Test-retest[editar]
Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos veces a
los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de tiempo
entre el test y el retest. Después se calcula la correlación de Pearson entre las
puntuaciones de ambas aplicaciones, y el resultado obtenido será el coeficiente de
fiabilidad. Se considera un caso específico de formas paralelas, dado que evidentemente
un test es paralelo a sí mismo. Al resultado obtenido se le denomina coeficiente de
estabilidad, al servir de indicador de hasta qué punto son estables las mediciones
realizadas durante la primera aplicación del test. Las diferencias en los resultados se
atribuyen al grado de consistencia interna o muestreo de los ítems de la prueba en el caso
de pasar el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el
caso del intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede suponer
una amenaza a la validez interna por las posibles influencias externas a la que pueden
estar expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeño en
la segunda aplicación. En el extremo opuesto, una aplicación demasiado apresurada del
retest podría afectar igualmente a la validez interna, en este caso por los posibles efectos
del recuerdo reciente de la primera aplicación. La elección del intervalo de tiempo
adecuado entre ambas aplicaciones dependerá en gran medida del tipo de test, ya que en
función de su formato puede ser más sensible al efecto de una u otra amenaza. 2
Dos mitades[editar]
A diferencia de los anteriores, este método sólo requiere una aplicación del test. Tras
obtener las puntuaciones obtenidas por los sujetos en cada una de las dos mitades en
que se habrá dividido, se procede a calcular la correlación entre las dos puntuaciones. El
resultado obtenido será un indicador de la covariación entre ambas mitades, es decir, de
la consistencia interna del test. La principal dificultad de este sistema es asegurarse de
que ambas mitades sean efectivamente paralelas. Un sistema habitual es dividir el test
entre los ítems pares y los impares; no es recomendable dividirlo sin más por la mitad,
dado que muchos tests muestran un incremento gradual de la dificultad de sus ítems. 2
Otros métodos basados en la consistencia interna[editar]
 Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabilidad de un

test basado en su grado de consistencia interna. Indica el grado en que los ítems de
un test covarían.
 Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplicables a
sendos casos particulares de alfa. KR20 se aplica en el caso en que los ítems del test
sean dicotómicos, y KR21, en el caso de que además de ser dicotómicos, tengan la
misma dificultad.
 Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir de las

puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las dos
mitades se debe sólo al error aleatorio.
 Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la consistencia

interna, equivalente a la de Rulon.
 Coeficiente beta (β): Propuesto por Raju (1977) para calcular la fiabilidad de una
batería compuesta por diversos subtests. En los casos en los que se desea calcular la
fiabilidad de una batería, se trata a los distintos subtests como si fueran los ítems de
un único test y se calcula el coeficiente alfa global. El problema surge en los casos en
los que los distintos subtests no tienen el mismo número de ítems, lo que suele ser lo
más frecuente, y que repercute en una infraestimación del alfa global. El coeficiente
beta permite sortear esta infraestimación.
 Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los ítems, son
indicadores de la consistencia interna similares al coeficiente alfa. El coeficiente theta
fue desarrollado por Carmines y Zeller (1979); y el coeficiente omega fue desarrollado
por Heise y Bohrnstedt (1970).2
Relaciones entre fiabilidad y otros factores[editar]

Hay dos factores que afectan al grado de fiabilidad de un test: la variabilidad y la longitud.
 Fiabilidad y variabilidad: El tipo de muestra de sujetos que se haya escogido para

calcular la fiabilidad de un test puede influir en el resultado obtenido. Esto significa
que la fiabilidad ya no depende únicamente de las características del test, sino
también de la muestra de sujetos a los que se aplique, por lo que no se puede decir
que un mismo test tenga un coeficiente de fiabilidad fijo. En suma, puede afirmarse
que la fiabilidad de un test será mayor cuanta mayor variabilidad exista en la muestra
de sujetos seleccionada.
 Fiabilidad y longitud: En términos generales, puede decirse que la fiabilidad de un
test aumenta a medida que aumenta su longitud, es decir, su número de ítems. Ello no
significa que resulte recomendable alargar innecesariamente un test en pro de
aumentar su fiabilidad, ni que cualquier test pueda convertirse en un instrumento
fiable por el único medio de aumentar indefinidamente su longitud. La fórmula de
Spearman-Brown permite pronosticar el aumento de fiabilidad obtenida tras el
incremento de la longitud de un test, siempre y cuando los ítems añadidos sean
paralelos a los ya existentes.2
Confiabilidad
• La confiabilidad se refiere a la consistencia de los resultados. En el
análisis de la confiabilidad se busca que los resultados de un cuestionario
concuerden con los resultados del mismo cuestionario en otra ocasión. Si
esto ocurre se puede decir que hay un alto grado de confiabilidad.
También se habla de confiabilidad cuando dos o más evaluadores
evalúan al mismo estudiante sobre el mismo material y se obtienen
puntuaciones semejantes.
• En términos de confiabilidad lo que preocupa es la consistencia de los
resultados. Se necesita la confiabilidad para poder hablar de resultados
válidos, puesto que no es posible evaluar algo que cambia
continuamente. Sin embargo, es posible que un cuestionario sea
confiable, puesto que sus resultados son consistentes, pero que no mida
lo que se espera que mida. En ese caso tenemos un ejemplo claro de un
cuestionario con confiabilidad pero carente de validez. Se dice que la
confiabilidad es una condición necesaria, pero no suficiente para la
validez. Las evidencias de validez siempre han de ir de la mano con las
evidencias de confiabilidad. La confiabilidad indica el grado de
consistencia, pero no dice si las inferencias que se hacen y las decisiones
que se toman partiendo del cuestionario son defendibles.
• El mejor estimado de confiabilidad de un cuestionario vendría de tomar
dos grupos de medidas en idénticas condiciones y entonces comparar los
resultados. Pero esto tampoco es posible porque las condiciones jamás
pueden ser las mismas. Por lo tanto la función principal de los estudios
de confiabilidad y lo que les otorga calidad es el esfuerzo por minimizar el
efecto de todas las condiciones que harían la toma de medidas diferentes
en las dos ocasiones que esto se haga.
• Crocker & Algina mencionan (p.132) que como no es posible estar
atentos a todos elementos que asechan a los estudios de confiabilidad, es
mejor estar atentos a aquellos que más daño pueden causar al uso que
se planea dar a los resultados del cuestionario.
• Todos los métodos que se pueden usar incluyen la comparación de dos
grupos de medidas. El coeficiente de correlación que se utiliza para
determinar la confiabilidad se calcula e interpreta de la misma forma que
el que se utiliza para estimar la validez.
• La única diferencia entre ambos es que el coeficiente de validez se
establece en relación a un criterio externo y el de confiabilidad con
respecto a dos conjuntos de resultados que provienen del mismo
instrumento.
78
Page 2
A. Menéndez
Taller CES
15_ Confiabilidad
15.1 Métodos que requieren una sola administración
• Estos métodos se utilizan cuando el interés del constructor del
cuestionario no se dirige a determinar cuánto han cambiado los sujetos en
el tiempo. El interés va ahora dirigido a determinar si todos los ítemes o
todas las partes del cuestionario responden a las mismas
especificaciones. El investigador se interesa por investigar si la muestra
de ítemes que componen el cuestionario es realmente representativa del
constructo.
• Los procedimientos que se utilizan para analizar este tipo de confiabilidad
se llaman métodos de consistencia interna.
15.2 Factores que afectan la consistencia interna.
• Cuando los sujetos ejecutan consistentemente en todos los ítemes de un
cuestionario se dice que el cuestionario es homogéne con respecto a los
ítemes. Para que esto sea así es imprescindible que todas las partes del
cuestionario representen el mismo dominio de contenido y que los ítemes
estén bien construidos.
• Si en el mismo cuestionario los ítemes se seleccionan de diversas áreas,
la homogeneidad del cuestionario disminuye y por lo tanto el coeficiente
de consistencia interna también lo hace. Si unos ítemes están mejor
redactados que otros, es posible que algunos estudiantes no entiendan
bien lo que se les pide en algunos y no respondan correctamente. En
este caso la consistencia interna también se ve afectada.
15.3 Alfa de Cronbach
• El coeficiente alfa de Cronbach se basa en el cálculo de la confiabilidad
de un compuesto donde cada ítem se considera una subcuestionario del
cuestionario total y los ítemes se consideran cuestionarios paralelos.
Como esta propiedad de paralelismo es prácticamente imposible para los
ítemes, por lo general el coeficiente alfa de Cronbach subestima el
coeficiente de correlación. α < CC
• La fórmula para el coeficiente alfa es
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
−
=
∑
2
2
1
)1(
X
i
k
k
σ
σ
α
k = número de ítemes
(σi )2 = varianza de cada ítem
(σX )2 = varianza de la cuestionario total
79
Page 3
A. Menéndez
Taller CES
15_ Confiabilidad
15.4 Relación del coeficiente alfa y los métodos de
mitades
• Cronbach mismo clarificó la relación entre el coeficiente alfa y los
métodos de mitades por medio de los siguientes señalamientos:
• El coeficiente alfa se puede utilizar como un índice de consistencia
interna. Pero no implica nada sobre la estabilidad en el tiempo ni sobre la
equivalencia entre formas alternas del instrumento.
• El coeficiente alfa puede visualizarse como el límite inferior del coeficiente
de confiabilidad conocido como coeficiente de precisión. En otras
palabras, un coeficiente alfa de 0.80 sólo implica que el coeficiente de
precisión es mayor que 0.80, pero no se sabe por cuánto se diferencia.
• El coeficiente alfa se puede visualizar como el promedio de todos los
coeficientes de confiabilidad que se obtienen por los métodos de las dos
mitades.
• El coeficiente alfa no es un índice de unidimensionalidad del instrumento.
Por lo tanto no se puede utilizar como método para validar la
unidimensionalidad de un constructo.
• El coeficiente alfa se puede utilizar en cualquier situación en la que se
quiera estimar la confiabilidad de un compuesto.
15.5 Factores que afectan la confiabilidad
Homogeneidad del grupo
• La confiabilidad es una propiedad del cuestionario para un grupo
particular de sujetos. Por lo tanto el coeficiente de confiabilidad se afecta
por la variabilidad entre los sujetos.
• Mientras mayor es la dispersión de las puntuaciones, mayor es la
confiabilidad. Esto ocurre pues es difícil que las personas cambien de
posición en rangos cuando las distancias en puntuación entre ellos es
grande.
• Por lo tanto es posible que un cuestionario que se haya construido con
una población heterogénea muestre un coeficiente de confiabilidad mucho
menor cuando se aplica a una población más homogénea.
• Es importante, cuando se adquiere un instrumento construid para otra
población asegurarse que el coeficiente de confiabilidad se obtuvo con
una población semejante a la que va a utilizar el instrumento.
Tiempo
• Si un cuestionario tiene un tiempo límite para completarse algunos sujetos
van a terminar a tiempo y otros no. Por lo tanto nos encontramos ante
otra variable que va a aumentar la dispersión de puntuaciones en el
cuestionario. La varianza de esta variable "rapidez en responder" se
80
Page 4
A. Menéndez
Taller CES
15_ Confiabilidad
añade a la varianza de las puntuaciones y aumenta la confiabilidad del
instrumento.
• Para evitar este tipo de aumento artificial de la confiabilidad del
instrumento, la mejor estrategia es dar suficiente tiempo para que todos o
casi todos los sujetos puedan contestar todos los ítemes.
• La confiabilidad de los cuestionarios en los que la rapidez para contestar
es una variable importante, debe ponerse en duda.
Tamaño del cuestionario
• Mientras más largo es el instrumento, mayor es la confiabilidad. Esto
ocurre por dos razones principales:
1. En un cuestionario más largo la muestra de ítemes es mayor y el universo
del constructo está mejor representado.
2. La varianza de un cuestionario aumenta cuando aumenta el número de
ítemes (Compuesto). Por lo tanto mientras más ítemes, más varianza y
por lo tanto más confiabilidad.
• Cuando hay varias partes en un cuestionario y se calcula la confiabilidad
de cada subparte, estas por lo general son bajas, pues dependen de muy
pocos ítemes.
Objetividad del proceso de asignar puntuaciones
• Mientras más objetivo es el proceso para determinar las puntuaciones,
mayor es la confiabilidad. Esto ocurre pues se elimina la variable extraña
de la subjetividad de los jueces y con ello la dispersión de la puntuaciones
depende de una variable menos.
15.6 El grado de confiabilidad esperado
• El grado de confiabilidad que se espera de los instrumentos de medición
depende de la decisión que se vaya a tomar con los resultados del
instrumento.
• La confiabilidad puede ser baja si las decisiones no tienen consecuencias
importantes.
17.7 Sugerencias para obtener un grado alto de
confiabilidad
1. Tener un máximo de variabilidad en la muestra escogida de
encuestados o examinados. (Henerson, pp. 150154)
2. Asegurarse que las dos partes del splithalf son paralelas. (Henerson,
pp. 150154)
3. Llevar a cabo un análisis de ítemes para eliminar los ítemes que no
correlacionan. (Henerson, pp. 150154)
81
Page 5
A. Menéndez
Taller CES
15_ Confiabilidad
4. Inlcuir el estudio de confiabilidad en los planes de construcción del
cuestionario. (Henerson, pp. 150154)
15.8 Informes sobre los estudios de confiabilidad
• En los informes de confiabilidad publicados debe incluirse la siguiente
información:
1. Diversos estimados de confiabilidad obtenidos por diferentes métodos.
De esta forma la persona o institución que utiliza el cuestionario puede
hacer sus propios análisis de cuan adecuado el cuestionario es para sus
propósitos.
2. El error estándar de medición y algunos intervalos de confianza, para
facilitar la interpretación de las puntuaciones.
3. El estimado de confiabilidad y el error estándar de medición tanto del
cuestionario en su totalidad, como de los diferentes subcuestionarios que
lo componen.
4. Descripción de los sujetos utilizados en los estudios de confiabilidad
para poder determinar semejanzas con la población a la que se va a
administrar el cuestionario.
5. Si el cuestionario se va a administrar a un subgrupo de la población
para la que fue creada el cuestionario, se debe incluir el estimado de
confiabilidad y el error de medición del subgrupo (grado o nivel de
escolaridad, características especiales, etc.)
6. Si se utiliza otra teoría que no sea la clásica para calcular los
estimados de confiabilidad, se debe indicar, pues sino, se interpreta que
esa es la que se está utiliz
Validez y Confiabilidad
INTRODUCCION
En el siguiente informe trataremos sobre el tema de VALIDEZ Y CONFIABILIDAD,

que a su vez a lo largo del trabajo expondremos para que nos sirven estas
aplicaciones en nuestra carrera y la vida social.
De igual manera serán herramientas de vital importancia para cualquier
momento que se nos presente bien sea en la universidad o en nuestro lugar de
trabajo.
Es muy importante saber de que trata la validez y la confiabilidad para poderlas
aplicar de manera correcta y sin tener que pasar por un ensayo y un error.
VALIDEZ Y CONFIABILIDAD
El rigor y la calidad para evaluar el aprendizaje dependen, fundamentalmente,
de cómo se aborde la validez y la confiabilidad, cualidades esenciales que
deben estar presentes en el desarrollo del proceso de recoger y analizar la
información conducente a garantizar una mayor confianza sobre las
conclusiones emitidas, de manera individual y compartida, por el evaluador.
Tanto la validez como la confiabilidad se conjugan para coadyuvar al evaluador
a ser objetivo en el proceso de describir la realidad derivada de un aprendizaje
específico, el cual está inmerso en un discurso privado y que pretende ser
público a través de la comunicación.
La validez y la confiabilidad se abordan desde diferentes perspectivas,
dependiendo de la aproximación epistemológica considerada. Para el presente
trabajo, se abordarán los enfoques cuantitativo, cualitativo y hermenéutico;
siendo el último el que mejor explica y fortalece la concepción de una
evaluación centrada en el aprendiz.
Validez Cuantitativa y Cualitativa
La concepción de validez está referida a la firmeza o seguridad de algún acto y
las condiciones necesarias para su permanencia, vigencia y autenticidad. En el
caso de la evaluación del aprendizaje, ella se asocia a cuán seguro está el
evaluador al calificar o cualificar el aprendizaje que se alcanza sobre
determinado conocimiento y si se corresponde con la realidad en la cual se
desarrolló ese aprendizaje.
Validez Cuantitativa
La validez cuantitativa, bajo la perspectiva de la teoría positivista, se orienta
fundamentalmente hacia las técnicas e instrumentos de medición elaborados
por el evaluador, supuestos desarrollados a partir de las teorías planteadas por
el filósofo francés Auguste Comte (1798-1857). En esa perspectiva, la validez
asociada a la evaluación del aprendizaje se concibe en términos de: (a) precisar
el rasgo del aprendizaje del evaluado que se pretende medir, como aprendizaje a
través de pruebas o tests, (b) predecir algún rasgo del aprendizaje adicional a lo
que se pretende medir, y (c) medir lo que se dice medir de cierto rasgo (Comte,
1896).
Este tipo de evaluación presenta diferentes interpretaciones de validez,
referidas a pruebas o tests, establecidas en los Estándares para Tests y
Manuales para Educación y Psicología (American Psychological Association –
APA-, 1985):
www.scielo.org.ve/scielo
a. Validez de contenido: juicio lógico sobre la correspondencia que existe entre
el rasgo del aprendizaje del evaluado y lo que se incluye en la prueba,
recurriendo a expertos para valorar la adecuación de cada ítem al rasgo a
evaluar.
b. Validez de criterio: eficacia de la prueba para comparar un rasgo en cuestión
con alguna o algunas variables externas, midiéndola a través de análisis
correlacional o de regresión entre las puntuaciones obtenidas en la prueba y en
otras basadas en el criterio.
c. Validez de constructor: basada en la integración de cualquier evidencia que
fundamenta la interpretación o significado de las puntuaciones de la prueba o
test, medida a través del análisis correlacional y de covarianza interítem.
Estas categorías, establecidas por la APA, fueron resumidas en 1985 a partir de
cinco tipos de validez señalados por esta misma Asociación en 1954 (validez de
contenido, validez de criterio, validez predictiva, validez concurrente y validez
de constructor); apuntando hacia la concepción única de validez, referida a la
pertinencia, significado y utilidad de las inferencias específicas derivadas de
las pruebas o tests, coincidiendo, desde este punto vista, con Anastasi en 1982
y con Cronbach en 1984. Cronbach (1988), con la idea de que el argumento debe
unir la evidencia de los conceptos, las consecuencias sociales y personales, y
los valores, añade:
El fondo del asunto es que los que validan tienen la obligación de revisar cuándo
una práctica tiene consecuencias apropiadas para los individuos y las
instituciones, y especialmente prevenir las consecuencias adversas. Usted (….)
pudiera excluir la reflexión sobre las consecuencias a partir de los significados
de la palabra validación, pero no puede negar la obligación de hacerlo.
Ahora, al tomar en consideración la pertinencia, el significado y la utilidad de
las inferencias específicas derivadas de las pruebas o tests, conjuntamente con
las consecuencias sociales y personales, y los valores, se pudiera pensar más
bien en unificar las tres categorías de validez en una sola: la de constructor;
debido a que las otras dos categorías también contribuyen al significado de las
puntuaciones de la prueba o reconociéndolas así como aspectos de la validez
de constructor (Messick, 1989: 20). De esta manera, la validez de constructor
estaría conformada por tres componentes: (a) componente sustantivo
(confrontación entre la relevancia del juicio de contenido y la representatividad,
por un lado, y la consistencia de la respuesta empírica, por el otro); (b)
componente estructural (conjugación de la fidelidad del modelo para calificar
las características estructurales de las manifestaciones del constructor y el
grado de la estructura interítem); y (c) componente externo (grado de la relación
empírica entre la prueba o test con otras pruebas que reflejen las esperadas
relaciones implícitas en la teoría del constructor que se evalúa).
La validez de constructor, sin embargo, debe tomar en consideración el uso
contextual de la prueba o test y cómo se generan las puntuaciones de la misma.
Cronbach (1988) señala que "los argumentos para usar la prueba deben estar
claros para extender, de manera persuasiva y posible, la construcción de la
realidad y el peso valorativo implícito, y sus aplicaciones". Para recoger
información de la validez de constructor, necesaria para justificar la
interpretación de la prueba, los datos deben surgir, inicialmente, de la
administración y desarrollo de la prueba, para continuar con aquéllos obtenidos
más allá del análisis de las puntuaciones, estableciendo así un proceso de
búsqueda amplia y minuciosa.
Por su parte, las puntuaciones de la prueba pudieran llevar a emitir juicios
erróneos del evaluador sobre el evaluado, al no considerar otros aspectos de
tipo humano, social o cultural referidos al evaluado y, además, la información
susceptible de ser medida limita su existencia, dejando afuera otros aspectos
que pudieran ser de significativa importancia para validar el juicio. Al respecto
Messick (1989) señala lo siguiente:
… los tests no sólo son imprecisos o falibles en virtud de los errores muéstrales
de medida sino también inevitablemente imperfectos como ideales del
constructor que se proponen valorar. Los tests son medidas imperfectas de
constructor porque no consideran aspectos que pudieran incluir de acuerdo a la
teoría del constructor o incluyen aspectos que pudieran quedar fuera, o ambos.
Esto último indica que hay dos tipos de evidencias necesarias para validar el
constructor, uno para valorar el grado con el cual las implicaciones del
constructor se evidencian con las relaciones empíricas de la puntuación y el
otro para argumentar que estas relaciones no son atribuidas a otros
constructores diferentes y alternos.
Por su parte, Campbell y Stanley (1972) distinguen dos tipos de consideraciones
para la validez cuantitativa asociada a la evaluación del aprendizaje: la validez
interna y la externa.
a. Validez interna: concebida como la mínima imprescindible sin la cual es
imposible interpretar alguna evaluación. Algunas variables externas que pueden
generar efectos que se confundirían con el del estímulo del aprendizaje son: (a)
la historia (acontecimientos específicos ocurridos entre mediciones sucesivas
para evaluar el logro de un objetivo instruccional); (b) la maduración (procesos
internos del evaluado como cansancio, desmotivación, desinterés, etcétera); (c)
la administración de tests (influjo que la administración de una prueba o test
ejerce sobre los resultados de otro posterior); (d) la instrumentación (cambios
en los instrumentos de medición o en los evaluadores que pueden producir
variaciones en las mediciones que se obtengan); (e) la mortalidad (diferencia en
la pérdida de evaluadores).
b. Validez externa: la cual plantea la interrogante sobre la posibilidad de
generalización. Los factores que amenazan esta validez son: (a) el efecto
reactivo o de interacción de las pruebas o tests (aumento o disminución de la
sensibilidad o la calidad de la reacción del evaluado al estímulo de un
aprendizaje); (b) el efecto de interacción (sesgo de selección de técnicas e
instrumentos de evaluación y el tipo específico de aprendizaje); (c) efectos
reactivos de la evaluación (impedimentos para hacer extensiva las técnicas e
instrumentos para evaluar un aprendizaje en otros aprendizajes); y (d) las
interferencias de las evaluaciones múltiples (efectos que se producen cuando al
evaluado le aplican evaluaciones múltiples y sucesivas, persistiendo aquéllos de
procesos y resultados de evaluaciones anteriores).
Validez Cualitativa
La validez, bajo el enfoque cualitativo, concierne a la exactitud con que las
conclusiones representen efectivamente la realidad empírica y si los
constructor diseñados representan categorías reales de la experiencia humana
(Hansen, citado en Pérez, 1994: 80).
En otras palabras, ella es una forma de estimar el grado de correspondencia
entre el aprendizaje susceptible de ser evaluado y el proceso de evaluar ese
aprendizaje atribuido al evaluado. Agregado a esto, la credibilidad, asociada a la
validez, está condicionada a la estrecha relación del evaluador con el evaluado
y con el contexto sociocultural donde se realiza la evaluación, tomando en
consideración sus características más relevantes.
La validez depende, a su vez, de una actitud de aproximación de igual a igual,
entre el evaluador y el evaluado, revisando permanentemente las conjeturas
planteadas para que resulte en todos los casos, y desarrollando conjuntamente
un proceso de intersubjetividad progresiva sobre el propio proceso de
construcción.
Tomando en consideración el enfoque cualitativo, existen las siguientes
estrategias para asegurar la validez en materia de evaluación:
a. Triangulación: consiste en recoger información desde diferentes puntos de
vista, realizando comparaciones múltiples de una misma evaluación y
combinando metodologías en su análisis; pudiendo existir, según Denzin (1979:
140), las siguientes modalidades: (a) triangulación de tiempo (información
recogida en diferentes momentos para su contrastación); (b) triangulación de
espacio (técnicas transculturales); (c) niveles combinados de triangulación
(análisis del nivel individual, del nivel interactivo o grupal, y del nivel de
colectividades, organizacional, cultural o social); (d) triangulación teórica
(empleo de diferentes perspectivas coincidentes en una misma evaluación); (e)
triangulación del evaluador (verificación intersubjetiva entre varios evaluadores,
a través del contraste de la información); y (f) triangulación metodológica
(colección de técnicas o métodos diferentes, utilizados sobre el evaluado).
b. Saturación: Según Hopkins (1985), ella consiste en reunir las pruebas y
evidencias suficientes para garantizar la credibilidad de la evaluación; lo cual
se logra repitiendo la evaluación o revisando el proceso involucrado.
c. Validez respondente o negociación: se desarrolla contrastando los resultados
obtenidos por el evaluador con los del evaluado, así como contrastando su
interpretación.
Goetz y LeCompte (1988), por su parte, plantean dos tipos de validez asociados
a la evaluación del aprendizaje:
a. Validez interna: consiste en conocer si el evaluador observa realmente lo que
cree observar. Las variables que amenazan esta validez serían las mismas
descritas por Campbell y Stanley (1979), sólo que su tratamiento es diferente
debido a que la evaluación se realiza en escenarios no sujetos a mediciones
cuantitativas ni a esquemas rígidos preestablecidos. En el caso de la historia y
la maduración, el evaluador debe determinar la información que se mantiene
estable en el tiempo así como la mutable. Para conocer los cambios, recurre a
la replicación y comparación sistemática de la evaluación.
Sobre la influencia del evaluador, éste debe controlar los factores personales en
el proceso de recoger la información, la cual debe ser lo menos visible posible,
sin prejuicios ni posturas preestablecidas. La selección y regresión las controla
el evaluador a través de un inventario de subgrupos, acontecimientos y
escenarios. La mortalidad, debida a la disminución en número de otros
evaluadores, es un proceso posible en estos escenarios, para lo cual el
evaluador debe identificar sus efectos.
b. Validez externa: está referida a constatar si los constructor y postulados
abstractos creados, perfeccionados o comprobados por el evaluador son
aplicables a los del evaluado. Ella depende de la identificación y descripción de
las características más importantes del evaluador y de las evaluaciones, de tal
manera que puedan ser comparadas con otras posteriores de tipo similar, para
lo cual quizás sea necesario conocer exhaustivamente sus atributos. Para
contrarrestar esto, es recomendable desarrollar la evaluación, si es posible, en
múltiples escenarios. El efecto de selección se minimiza determinando el grado
de ajuste entre las categorías diseñadas y la realidad del evaluador y la del
evaluado. El efecto de escenario y de la historia, como amenazas al efectuar
interpretaciones intergrupales de constructor, disminuyen en la medida que la
dinámica interactiva y las experiencias históricas se identifican con la mayor
claridad.
Confiabilidad Cuantitativa y Cualitativa
La confiabilidad consiste en la esperanza firme que se tiene sobre algún acto,
así como su presunción en eventos futuros. En el caso de la evaluación del
aprendizaje, esta confiabilidad refiere al esfuerzo del evaluador para asegurar la
pertinencia y permanencia tanto del procedimiento como de las estrategias y
métodos utilizados para evaluar el aprendizaje.
Confiabilidad Cuantitativa
La concepción de confiabilidad de la evaluación del aprendizaje, bajo el enfoque
cuantitativo, hace referencia a la estabilidad o consistencia interna en las
técnicas e instrumentos; y reside en establecer la medida en que se puede
replicar la evaluación: una exigencia al evaluador para que, utilizando otros
métodos y estrategias, llegue a idénticos resultados. La prueba y el test
alcanzan un elevado coeficiente de confiabilidad si los errores de medida se
minimizan; es decir, cuando toda medida de confiabilidad indica qué proporción
de la varianza total de las puntuaciones es varianza de error.
Existen tres tipos de confiabilidad en la evaluación cuantitativa: (a) la repetición
de la prueba con tiempo suficiente para que el evaluado olvide los ítems,
calculando el coeficiente de correlación que permite conocer el grado de
confiabilidad de dicha prueba; (b) las formas paralelas, técnica similar a la
anterior pero con pruebas no idénticas sino con ítems equivalentes; y (c)
división en mitades, con el cual se calcula un coeficiente de consistencia
interna, mediante la correlación entre las puntuaciones de ambas mitades.
Confiabilidad Cualitativa
La confiabilidad, bajo la perspectiva cualitativa, es un proceso empírico para
verificar el grado de similitud entre el contexto del evaluador y el contexto del
evaluado. Es relativa y depende totalmente del grado de superposición o
apareamiento de sus características más sobresalientes. A su vez, depende
enteramente de la descripción detallada que realice el evaluador sobre el
tiempo, lugar y cultura donde ocurre la evaluación, para poder así transferir
juicios hacia otros evaluadores.
Según Goetz y LeCompte (1988), existen dos tipos de confiabilidad para la
evaluación:
a. Confiabilidad interna: consiste en conocer la congruencia existente entre las
inferencias relativas al aprendizaje, derivadas éstas del constructor elaborados
por el evaluado sobre un aprendizaje, para lo cual es fundamental la descripción
y composición de los acontecimientos sin tomar en cuenta su frecuencia.
Usualmente se utilizan las siguientes técnicas e instrumentos: (a) descriptores
de bajo nivel inferencial (narraciones y relatos concretos, minuciosos y
precisos, incluyendo datos discrepantes); (b) varios evaluadores (equipos de
evaluadores abocados a la evaluación de un mismo aprendizaje), (c) revisión por
otros evaluadores (corroboración de los hallazgos por parte de otros
evaluadores); y (d) datos registrados automáticamente (registros de video,
audio, fotografías, etc.)
b. Confiabilidad externa: consiste en establecer condiciones empíricas en el
proceso de evaluación que puedan ser replicadas por otros evaluadores, no
significando esto que los hallazgos sean replicables, debido a que el flujo de
información depende del contexto sociocultural donde ocurre la evaluación. El
evaluador aumenta la confiabilidad externa de la evaluación dando respuesta a
cuatro aspectos: (a) status del evaluado (rol social del evaluado frente al
aprendizaje y su evaluación); (b) selección de la evaluación (caracterización de
las técnicas e instrumentos que permitan la replicabilidad de la evaluación); (c)
situaciones y condiciones sociales (contexto físico, social e interpersonal donde
se recoge la información relativa a la evaluación); (d) premisas y constructor
analíticos (especificación adecuada de los constructor, conceptos y
definiciones que caracterizan la evaluación); y (e) métodos y estrategias de
recogida y análisis de información (presentación diáfana de la estrategia y
metodología de evaluación).
La Hermenéutica
El planteamiento del presente trabajo para asegurar la validez y la confiabilidad
en el proceso de evaluar el aprendizaje, cuando éste se centra en el aprendiz, se
enmarca ontológica y epistemológicamente en la filosofía de la interpretación o
la hermenéutica; en la cual el conocimiento se concibe como la articulación de
una comprensión originaria, donde las cosas están ya descubiertas (Vattimo,
1987); se abandona el objetivismo y la idea de un sujeto originariamente vacío,
concepciones que hace la filosofía moderna para definir una realidad que se
muestra al sujeto, constituida por la certeza que él mismo tiene sobre ella.
La época moderna impone al hombre una mentalidad alienada a una realidad
constituida por él mismo y que se reduce a él, un mundo tecnificado producto
del hombre. La verdad es absoluta, es única, y se deriva de una ciencia que
reduce el ser a la objetividad a través del laboratorio. La modernidad se
caracteriza por la formalización lógico-matemática y la matematización del
conocimiento natural. El objetivismo revela al mundo como matemática
aplicada y la conciencia objetiva se apropia de lo subjetivo. Con la modernidad
se disuelve el lazo social y el paso de las colectividades sociales al estado de
una masa compuesta de átomos individuales, cada uno se ve remitido a sí
mismo; un mundo en el cual los acontecimientos vividos se han vuelto
independientes del hombre (Lyotard, 1989).
Estas exigencias, provenientes de las ciencias de nuestro tiempo, tuvieron un
oponente: Martin Heidegger (1889-1976), quien escribió en 1942 La doctrina
platónica de la verdad, donde afirmaba: sólo en la subjetividad se puede
conocer la existencia del hombre, no en la objetividad. Este gran filósofo alemán
partía de la tradición metafísica para definir la verdad como conformidad de la
proposición con la cosa, el hombre se abre a la cosa en un acto libre tratando
de adecuarse a ella: "la esencia de la verdad es la libertad" (Heidegger en De la
esencia de la verdad, citado en Vattimo, 1987.
Nietzche (citado en Smith, 1996: 6) afirma, en todo caso, que la filosofía genuina
siempre perdura en el tiempo, es crítica y se proyecta por encima del presente
concreto, las ideas se manifiestan lentamente, de manera impredictiva y en
diferentes formas; y no existe relación biyectiva entre el pensamiento y la
configuración que envuelve al mundo concreto.
La filosofía hermenéutica se desarrolla con Heidegger cuando cualifica la
comprensión como determinación universal del estar ahí, "lo cual equivale a
decir que las cosas aparecen en la presencia" (Vattimo, 1987: 98);
distanciándose de la concepción de que es sólo apropiarse de una opinión
transmitida.
Antiguamente existían una hermenéutica teológica y una hermenéutica jurídica
como ciencias que se ponían al servicio de sacerdotes y jueces para
comprender e interpretar textos; con lo cual se transmitían los conocimientos y
sus verdades. Sin embargo, Gadamer (1977) señala que "el fenómeno de la
comprensión no sólo atraviesa todas las referencias humanas al mundo, sino
que también tiene validez propia dentro de la ciencia, y se resiste a cualquier
intento de transformarlo en un método científico" (p. 23).
La comprensión es un acuerdo hablado o escrito entre el aprendiz y el profesor
que se logra a través del entendimiento; y un malentendido u opinión
incomprensible se convierte en dato fijo como opinión. El fenómeno
hermenéutico legitima la verdad a través de la comprensión como experiencia
superior en el desarrollo del método. La interpretación gramática y psicológica,
como situación pedagógica, ayuda a la comprensión del aprendiz.
Lyotard (1989) señala que el saber, por su parte, conjuga "competencias que
exceden la determinación y la aplicación del único criterio de verdad, y que
comprenden a los criterios de eficiencia (calificación técnica), de justicia y/o de
dicha (sabiduría ética), de belleza sonora, cromática (sensibilidad auditiva,
visual), etc." (p. 44).
El saber se pragmatiza en la narración, legitimándolo con la costumbre y los
enunciados, y permitiendo un consenso para constituir la cultura de un pueblo,
a través del relato como la forma por excelencia de ese saber. La forma
narrativa admite una pluralidad de juegos de lenguaje con enunciados
denotativos (referidos a la naturaleza, por ejemplo), enunciados deónticos
(referidos a la relación familiar, diferencia de sexos, a los niños, a los vecinos,
etcétera), enunciados interrogativos (responder una pregunta, elegir un
elemento de un grupo), enunciados valorativos, entre otros.
El pensamiento hermenéutico "ya no será un ir a las cosas mediante el lenguaje
entendido como instrumento; a las cosas mismas se llegará, según el lema
fenomenológico, sólo en el lenguaje y reflexionando sobre el lenguaje" (Vattimo,
1987: 117). El pensamiento coloca al lenguaje en el centro de su atención,
sumergiéndose en una experiencia de la realidad misma y permitiendo al
hombre abrirse al mundo, interpretando las cosas con palabras y haciéndolas
accesibles hasta en la presencia temporoespacial. Vattimo, añade:
La experiencia a la que la filosofía en toda su historia siempre quiso remitirse
como a su fundamento y a su legitimación no puede pues entenderse de
ninguna manera como un encontrar las cosas en el tiempo y el espacio, o por lo
menos no primordialmente así, sino como un escuchar el lenguaje. El
pensamiento es fundamentalmente una escucha del lenguaje en su originaria
condición poética, esto es, en su fuerza de fundación y de creación: por eso, el
elemento en el cual se desarrolla nuestra existencia es la proximidad de pensar
y poetizar (p. 120).
Por su parte, Habermas (1973) aporta un interesante concepto referido a la
constitución del conocimiento, como es el interés cognitivo, definido por él
como una categoría peculiar que configura y determina lo que cuenta como
objetos y tipos de conocimiento, donde Habermas distingue tres intereses
básicos: el técnico, el práctico y el emancipador, incorporados respectivamente
al enfoque de las ciencias empírico-analíticas, las ciencias histórico-
hermenéuticas y las ciencias orientadas hacia la crítica. Además, añade, el
trabajo corresponde al interés técnico que guía las ciencias empírico-analíticas,
la interacción corresponde al interés práctico que guía las disciplinas histórico-
hermenéuticas, y el poder corresponde al interés emancipador que guía las
disciplinas críticas: las ciencias sociales críticas.
Habermas considera vital y correcto en los enfoques fenomenológicos,
hermenéuticos e interpretativos el énfasis primordial en un nivel de acción
comunicativa, de lenguaje y de intersubjetividad que resulta básico para el
entendimiento de la vida social y política. Asimismo, Habermas critica tanto a
las tendencias monopólicas del entendimiento positivista que de sí mismas
tienen las ciencias empírico-analíticas, como la afirmación de que las
disciplinas histórica-hermenéuticas proveen el conocimiento más fundamental
del hombre y el mundo.
Validez y Confiabilidad Hermenéuticas
Bajo la óptica hermeneuta, la evaluación del aprendizaje es concebida como un
proceso social e investigativo centrado en el aprendiz, construido, compartido y
desarrollado a través de la experiencia intersubjetiva asociada a los procesos
inteligentes, de pensamiento, conscientes, afectivos y emocionales; y
enmarcado por las interrelaciones existentes entre el conocimiento
(declarativo, procedimental, estratégico y metacognitivo) y el aprendizaje
(sensibilización, atención, adquisición, personalización, recuperación,
transferencia y evaluación).
El enfoque hermenéutico lleva al evaluador de su propio aprendizaje a ser
abierto a nuevos descubrimientos, a nuevas formas de pensar y de hacer las
cosas, receptivo a otras perspectivas con interpretaciones diferentes sobre la
evaluación, un ser auténtico y comprensivo de su propia razón de ser en el
mundo que le rodea, con historicidad y perfectamente ubicado en el tiempo y el
espacio.
Un evaluador que se realiza hacia lo humano, con posiciones flexibles, creativo
y solidario, construyendo su propia realidad en la experiencia estética y la
subjetividad (Flórez, 1994). Los procesos de pensamiento hermenéutico del
hombre estimulan una evaluación práctica, que le permite relacionar
estructuras o conceptos, establecer categorías y generalizaciones teóricas
modificables en lo particular, para adquirir experiencia progresiva en la
evaluación.
En la hermenéutica, la realidad observada por el evaluador e interpretación
derivada de una disposición, expectativa e interés por autoevaluarse, conlleva a
conclusiones propias construidas mediante la interacción de esa realidad y la
actividad mental, por lo que la evaluación, en consecuencia, es situada y
evolutiva. Además, la evaluación al ser un proceso más de aprendizaje, se
construye considerando la estructura semántica del aprendiz, la adecuación de
las actividades inherentes a la evaluación, las características del contexto y la
motivación de otros. Esta evaluación estaría socialmente condicionada y
compartida, conformándose en sistemas de significados que parten de
aprendizajes individuales y colectivos.
En este sentido, la evaluación del aprendizaje centrado en el aprendiz debe
dirigirse hacia la reflexión y la autocrítica al verse a sí mismo como evaluado,
surgiendo de manera natural la autoevaluación, para posteriormente someterse
a la evaluación de otros, la coevaluación, como son la del profesor de
determinada asignatura, la de los condiscípulos, la de otros profesores, la de los
padres y demás personas que considere importante el aprendiz para compartir
la evaluación de su aprendizaje
Validez Hermenéutica
Los argumentos esgrimidos por el aprendiz, al evaluarse, deben ser
confrontados e interpretados hasta lograr un entendimiento y consenso,
respetando los diferentes puntos de vista y teorías. Particularmente, y con el fin
de garantizar la validez en la evaluación del aprendizaje, la información
construida debe documentar fehacientemente las relaciones particulares
existentes entre el aprendizaje y la evaluación, cuando se aborda desde una
perspectiva diferente a las cuantitativa y cualitativa, en las cuales el evaluador
es simplemente un administrador de técnicas e instrumentos de medición,
responsabilidad asumida eminentemente por el docente.
Por tal razón, la auto y coevaluación del aprendizaje se revisten de validez y
confiabilidad a través del método hermenéutico de investigación, en los
siguientes términos:
a. Validez de contenido: toda estrategia o acción emprendida para auto y
coevaluar el aprendizaje se produce como respuesta a una pregunta pertinente,
precisa y oportuna, que permite la reflexión, el pensamiento profundo y la toma
de conciencia. La conversación y el entendimiento del discurso conducen a
construir e interpretar mancomunadamente la evaluación del aprendizaje,
compartida a través del diálogo. De esta manera surgen argumentos y acuerdos
para la comprensión plena de la evaluación y un consenso del verdadero sentido
alcanzado por el evaluador y los coevaluadores.
La experiencia intersubjetiva del aprendiz, al evaluarse, es privada, pero su
significación y sentido se hace público a través de la comunicación dialógica,
con el habla y la escucha. La pluralidad de posibles interpretaciones pudiera
permitir malentendidos, pero la función contextual del discurso los reduce.
La auto y coevaluación, expresadas oralmente, permiten una dialéctica de
acontecimiento y significado para aproximar las interpretaciones del
aprendizaje, coadyuvada simultáneamente por la interlocución, las emociones,
el contacto y el contexto.
b. Validez cognitiva: consistente en la viabilidad para evidenciar el esfuerzo del
evaluador para desarrollar la capacidad creadora y los procesos subjetivos
inteligentes, de pensamiento y reflexión, ajustados a las condiciones y
características específicas que se requieren en cuanto a las modalidades de
auto y coevaluación, tiempo, plazos y ponderación de jerarquías sobre los
modelos explicativos; acordados y convenidos entre el evaluador y los
coevaluadores.
c. Validez ecológica: que toma en consideración el uso contextual de la
estrategia o acción seleccionadas, permitiendo conocer si todos los procesos
que ocurren durante la construcción de la auto y coevaluación se están
reflejando fiel y minuciosamente; así como un ambiente óptimo para desarrollar
en libertad plena esta construcción; que tome, así mismo en consideración el
ánimo, las motivaciones, los intereses, la comprensión y la solidaridad tanto del
evaluador como de los coevaluadores.
d. Validez de juicio: que considere aspectos de tipo afectivo, social y cultural
referido al evaluador y los coevaluadores, que pudieran ser de significativa
importancia para validar dicho juicio. La descripción de estos aspectos
coadyuvan a darle validez a las opiniones emitidas por los evaluadores, cuando
ellas son producto de la reflexión compartida desarrollada a través del diálogo
cordial, sincero y transparente.
e. Validez de interpretación: con la cual se hacen evidentes los acuerdos
establecidos entre el evaluador y los coevaluadores al compartir los resultados
de la evaluación del aprendizaje. Esta validez es de suma importancia cuando se
adopta un enfoque hermenéutico, ya que el mismo hace énfasis en el método
para alcanzar acuerdos y convenimientos, cual es el de la hermenéutica, donde
recordemos se abandona el objetivismo y la concepción de apropiarse
solamente de opiniones transmitidas.
La comprensión e interpretación tienen validez propia dentro del proceso
intersubjetivo resistiendo, como acotó Gadamer (1977), cualquier intento para
transformarlo en un método científico.
En este sentido, es fundamental para la validez de interpretación escribir los
acuerdos y convenimientos, mediante actas o cualquier otro documento que
patentice los resultados y conclusiones sobre la evaluación que se realice de
algún aprendizaje.
Confiabilidad Hermenéutica
La confiabilidad, bajo el enfoque hermenéutico, se sustenta en la intuición, la
interpretación y el entendimiento, enlazándose para desarrollar un proceso de
construcción de la evaluación, sin pretender inducir generalizaciones sino
explicar lo particular. Tampoco es un proceso deductivo, concebida la deducción
como premisa axiomática. En toda circunstancia, el evaluador, en este caso el
aprendiz, se relaciona con el aprendizaje, interactúa con él y, a través del
lenguaje expone la evaluación correspondiente, generando, a su vez, un proceso
de transformación del aprendizaje, integrando los sucesivos estadios de
construcción.
Lo observable nunca se alcanza en su totalidad, es insuficiente concebirlo sólo
por sus características perceptivas. Piaget (1990) propone "que hay que
definirlo, pues, por medio de lo que el sujeto cree comprobar y no simplemente
de lo que es comprobable", lo que equivale a decir:
...que una comprobación nunca es independiente de los instrumentos de
registro (y por tanto de asimilación) de lo que dispone el sujeto y que estos
instrumentos no son puramente perceptivos, sino que consisten en esquemas
preoperatorios u operatorios aplicados a la percepción actual, los cuales
pueden modificar los datos en un sentido de precisión suplementaria o de
deformación.
La construcción de la autoevaluación debe considerar no sólo los aspectos
variables del aprendizaje, sino también la acción del aprendiz conducida por la
relación y la interacción. Las relaciones lógicas derivadas sólo se asimilan,
acomodan y reacomodan a través de la identificación de la abstracción
reflexiva y la equilibración de las estructuras cognoscitivas.
Por otro lado, explicar la evaluación supone emplear la investigación de la
causalidad, superando lo observable y recurriendo a enlaces inferidos y
operatorios. No significa esto considerar que las evaluaciones existen
exteriormente al evaluador y que actúan unas sobre otras independientemente
de ese evaluador, hay que agregar las respuestas de la evaluación alcanzadas
por procesos de inferencia.
Si la auto y coevaluación son procesos, su explicación causal permite
comprender la epistemología hermenéutica asociada a ellas, al ser susceptible
de aproximaciones sucesivas existentes en un ambiente abierto de diálogo y
comunicación para la convivencia y el desarrollo de una microsociedad de la
evaluación.
Por tal razón se impone, para asegurar la confiabilidad hermenéutica, el
describir cómo se alcanzaron la comprensión, la interpretación, los acuerdos y
convenimientos, señalando el espacio, tiempo, estrategias para desarrollar el
diálogo y la conversación, mecanismos de concertación y cualquier otro
elemento que permita tener una visión clara y diáfana del proceso de discusión
y conclusión sobre la evaluación del aprendizaje.
www.scielo.org.ve/scielo
CONCLUSION
El presente trabajo plantea, en definitiva, adoptar una aproximación hermeneuta
a la validez y confiabilidad en la evaluación del aprendizaje cuando ella se
centra en el aprendiz, utilizando convenientemente la creatividad y la
innovación, aunando a la experimentalidad con la intuición. Esto, por supuesto,
tomando en consideración las características biopsicológicas de evaluador y
coevaluadores, así como las específicas del conocimiento, del proceso de
aprendizaje y del contexto sociocultural e institucional. Recordando además
que la evaluación resulta ser un aprendizaje más.
La validez y confiabilidad de la auto evaluación se darán en la medida que el
evaluador tenga conciencia plena del proceso de aprendizaje y las
características que lo definen, la claridad y esteticismo en el tratamiento del
aprendizaje construido y la capacidad de analizarlo de manera crítica, su
inserción en el contexto y su participación sensible en el aprendizaje, en la
aceptación de los planteamientos de los coevaluadores, y en la intuición,
interpretación, y convencimiento de las teorías emergentes y cambiantes.
Considerando el enfoque hermenéutico, la validez abandona los juicios sobre la

congruencia, correspondencia y comparación entre, supuestamente, el
propósito de la evaluación y el contenido de los ítems de la prueba y entre éste
y las variables externas, así como entre los ítems de la prueba y los
correspondientes cálculos estadísticos y su interpretación.

Confiabilidad

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Confiabilidad

Загружено:

Авторское право:

Доступные форматы

Confiabilidad

1. El significado de la confiabilidad se refiere a los resultados obtenidos con un instrumento

3. La confiabilidad es condición necesaria pero no suficiente de la validez. Cualquier prueba

4. A diferencia de la validez, la confiabilidad es estrictamente un concepto estadístico. El

Factores que Afectan la Confiabilidad

Número de ítems en la prueba. Cuanto mayor sea el número de ítems

Dificultad de los reactivos. Si un reactivo es fácil, la mayoría de los

Estimación de la confiabilidad: coeficientes de confiabilidad

Covarianza entre los reactivos de una Prueba (Consistencia Interna)

Kuder-Richardson, Coeficiente KR-20

Sobre el alfa de Cronbach y sus alcances

A partir de la variabilidad en las puntuaciones encontradas tras una serie de mediciones

La teoría clásica de los tests[editar]

donde es el símbolo de la fiabilidad de las puntuaciones observadas (X); y ,

,y son las varianzas de las puntuaciones empíricas, verdaderas y de error,

respectivamente. Dado que no existe modo alguno de determinar la puntuación verdadera

Estimación empírica del coeficiente de fiabilidad [editar]

Otros métodos basados en la consistencia interna[editar]

 Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabilidad de un

 Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir de las

 Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la consistencia

Relaciones entre fiabilidad y otros factores[editar]

 Fiabilidad y variabilidad: El tipo de muestra de sujetos que se haya escogido para

En el siguiente informe trataremos sobre el tema de VALIDEZ Y CONFIABILIDAD,

Considerando el enfoque hermenéutico, la validez abandona los juicios sobre la

Вам также может понравиться