SESIÓN I - Validez y Confiabilidad

VALIDEZ y CONFIABILIDAD
Meneses, Julio(2014). Psicometra. Espaa: Editorial UOC
1. Qu es la validez
1.1. Definicin:
Para comprender el concepto de validez es necesario realizar un pequeo estudio de la
evolucin histrica que ha sufrido dicho concepto.
La utilizacin de cuestionarios se vio impulsada por la primera y segunda guerras mundiales.
Durante esos momentos se tuvo la necesidad de incorporar al ejrcito a la poblacin civil,
destinndola al puesto ms adecuado. Tras rellenar los cuestionarios se comprobaba en el
campo de entrenamiento si los sujetos rendan satisfactoriamente o no en el puesto al que
se les haba destinado. Dado que en primer lugar se haca la medicin y posteriormente se
evaluaba el xito, se hablaba de validez predictiva. Es decir, un test posee validez predictiva
si sirve para predecir el comportamiento en un constructo que ser evaluado posteriormente
a la aplicacin del cuestionario.
Ms tarde se trat de evaluar la relacin existente entre las caractersticas de las personas
que realizaban un trabajo y su xito en l. De este modo, se trataba de conocer qu
caractersticas podran predecir el xito laboral y buscarlas cuando se realizaba una
seleccin de personal. Dado que el estudio se realizaba sobre personas que ya tenan el
puesto y se valoraba su ejecucin, se hablaba de validez concurrente, ya que ambas
mediciones se hacan a la vez. Es decir, un test posee validez concurrente si sirve para
predecir el comportamiento en un constructo que es evaluado simultneamente a la
aplicacin del cuestionario.
Como se puede observar, inicialmente los tests eran exclusivamente empleados para
predecir. As pues, en un comienzo, se consideraba que un test era vlido si serva para
predecir alguna variable de inters, denominada criterio (Guilford, 1946).
Por lo tanto, se conceptualiza la validez como correlacin entre el cuestionario y el criterio de
inters (ya sea evaluado con posterioridad o simultneamente a la aplicacin del
cuestionario). As pues, se considera que un test es vlido para evaluar cualquier aspecto
con el que correlacione (Bingham, 1937; Guilford, 1946; entre otros).
Uno de los problemas de la conceptualizacin de la validez como correlacin es el hecho de
que hay que encontrar una medida del criterio adecuada, es decir, se necesitan datos del
criterio que hayan sido obtenidos de una manera fiable y vlida. Por tanto, si ya se posee
una medida vlida del criterio, para qu se necesita aplicar un cuestionario?
Otro problema de esta conceptualizacin es que dejaba fuera a un gran nmero de tests
educativos. En estos no se trata de predecir la conducta, se trata de comprobar cunto se ha
aprendido despus de un periodo de formacin. En estos cuestionarios la puntuacin
obtenida es un indicador de lo que el test pretende evaluar (conocimiento en matemticas,
en ingls, etc.) y no un predictor de criterios distintos del test. Desde esta perspectiva, la
validez hace referencia a que los tems que componen el cuestionario sean representativos
de aquello que se pretende evaluar. A este concepto se le denomin validez de contenido
(Anastasi, 1954). Por otro lado, a lo largo de los aos treinta se produce un auge de las
teoras que tratan de conocer la estructura factorial de la inteligencia. Con estas teoras
comienza a conceptualizarse un test como vlido cuando representa de manera fidedigna el
constructo psicolgico que pretende medir, as como las relaciones esperadas entre los
diferentes constructos. De este modo nace la validez de constructo (Cronbach y Meehl,
1955). Las tcnicas estadsticas empleadas para poder comprobar dicha validez son,
tradicionalmente, el anlisis factorial exploratorio y las matrices multirrasgo-multimtodo
(Campbell y Fiske, 1959), y ms recientemente el anlisis factorial confirmatorio. Por
ejemplo, si se emplea un test que evala la triada cognitiva desde el modelo cognitivo de
depresin de Beck (Beck, Rush, Shawn y Emery, 1979) (pensamientos sobre m mismo,
pensamientos sobre el mundo y pensamientos sobre el futuro), el cuestionario tendr validez
de constructo si evala las tres dimensiones y estas tienen las relaciones que se esperan
con, por ejemplo, ansiedad.
Hasta los aos ochenta se poda hablar de validez predictiva, validez concurrente, validez de
contenido y validez de constructo de un cuestionario, si bien las dos primeras en los
estndares de los tests y manuales educativos y psicolgicos publicados por la APA, AERA y
NCME en 1966 y 1974 se englobaban como validez de criterio.
Posteriormente, Cronbach (1971) puntualiz que en un test que pretende medir un rasgo de
personalidad no existe solo un criterio relevante que predecir, ni un contenido que muestrear
(validez predictiva y de contenido respectivamente). Se dispone, por el contrario, de una

teora acerca del rasgo y de sus relaciones con otros constructos y variables (validez de
constructo). Si se hipotetiza que la puntuacin del test es una manifestacin vlida del
atributo, se puede contrastar la asuncin analizando sus relaciones con otras variables. Por
tanto, comenz a existir una tendencia en la que consideraban la validez como algo unitario,
siendo la validez de constructo la cientficamente ms admisible y estando la validez de
criterio y de contenido incluidas en esta (Messick, 1989). As pues, se impone la concepcin
de que la validacin de constructo constituye un marco integral para obtener pruebas de la
validez incluyendo las procedentes de la validacin de criterio y de contenido. De hecho,
deja de hablarse de las diferentes categoras de validez para comenzar a hablar de
diferentes evidencias implicadas en los tres tipos tradicionales de validez (criterio, contenido
y constructo).
Dado que tanto el estudio de la estructura del constructo como las relaciones de este con
otros constructos pasa a ser considerado la principal forma de validez, este proceso puede
concebirse como un caso particular de la contrastacin de las teoras cientficas mediante el
mtodo hipottico-deductivo (Prieto y Delgado, 2010).
Notad que en estos momentos, a mediados de los aos ochenta, existe un cambio muy
relevante: mientras que al comienzo se conceptualiza la validez como una propiedad
inherente al test, despus se pasa a concebir que lo que realmente se valida no es el test en
s, sino las inferencias que se realizan a partir de este. Por ello, el responsable de asegurar
la validez ya no es solo el constructor del test, sino que tambin lo es el usuario que emplea
dicho cuestionario para una finalidad determinada. En muchas ocasiones los problemas que
un cuestionario posea en lo referente a la validez se deben no al diseo del cuestionario sino
a la utilizacin que se hace de este.
Actualmente, en la ltima edicin hasta el momento de los Standards for educational and
psychological testing (AERA, APA y NCME, 1999), muy influenciados por el captulo escrito
por Messick (1989) y el libro de Shepard, Camilli, Linn y Bohrnstedt (1993), se defiende que
la validez hace referencia al grado en el que la evidencia emprica y la teora apoyan la
interpretacin de las puntuaciones de los tests relacionada con un uso especfico . Como se
puede apreciar, se concibe la validez como un concepto unitario. Para comprobar la validez
se debe atender a cinco evidencias de esta:
El contenido de test : Los tems que constituyen el test son relevantes y representativos
del constructo psicolgico que se desea medir.
El proceso de respuesta : El proceso que siguen las personas al contestar al test permite
extraer respuestas indicadoras de lo que se quiere evaluar.
La estructura interna : Las relaciones de los tems entre s son congruentes con el modelo
terico empleado a la hora de definir el constructo que evaluar.
La relacin con otras variables : Las relaciones que se establecen entre el constructo que
se evala y otros constructos son las esperadas segn el marco terico en el que se haya
definido el constructo que evaluar.
Las consecuencias de la aplicacin del cuestionario : Las consecuencias tanto positivas
como negativas que se extraen al emplear un test son las previstas.
Como breve resumen de lo expuesto anteriormente se presenta la siguiente tabla, en la que
se puede apreciar la evolucin del concepto en los diferentes estndares publicados por la
APA.
1.2. Importancia de la validez
El concepto de validez es central en psicometra. Tal y como se coment anteriormente, para
comprobar la validez se deben acumular evidencias que proporcionen una base cientfica
para interpretar las puntuaciones de un cuestionario de manera adecuada. Por ello, lo que
realmente se valida no es el cuestionario en s, sino las interpretaciones que se hacen a
partir de l. Por tanto, no se puede defender que un test sea vlido o que por el contrario
carezca de validez.
Un test puede ser adecuado para un propsito pero no para otro. Si se aplica un
cuestionario con el que se pretende medir autoestima, las respuestas pueden ser
empleadas con diferentes fines (conocer el nivel de autoestima de una persona para
saber si es un problema que tratar en terapia, en seleccin de personal, como
investigacin sobre el propio constructo, etc.). Para poder usar el cuestionario con
una finalidad determinada, se deben acumular evidencias que indiquen que el uso
es correcto (evidencias de validez). En caso contrario, se estara haciendo un mal
uso de los tests, principales herramientas en el trabajo psicolgico, y las
conclusiones que se extrajeran de ellos no seran correctas. En el ejemplo anterior
no se sabra si es un aspecto sobre el que se debe intervenir teraputicamente, no
se sabra si la persona seleccionada realmente tiene la autoestima que se desea o
no se sabe si realmente se est midiendo autoestima.
Para poder realizar correctamente el trabajo como psiclogos, se debe saber si las
conclusiones que se extraen a partir de los tests empleados son adecuadas, ya que en caso
contrario se corre el riesgo de no saber exactamente qu se est evaluando o si esa
medicin realmente es til para el propsito del psiclogo.
CONFIABILIDAD
En el lenguaje cotidiano el trmino fiabilidad se asocia a algo que funciona de manera correcta. Nos
fiamos de nuestro despertador si suena a la hora que se ha programado, de la bscula si nos
proporciona sin error nuestro peso, incluso consideramos que contamos con un buen amigo si
siempre nos apoya cuando lo necesitamos. Si el despertador, la bscula y nuestro amigo no se
comportan de la manera correcta, consideramos que no son fiables y en consecuencia decidimos

que no podemos confiar en ellos. En psicometra nos referimos a la fiabilidad como aquella
propiedad que valora la consistencia y precisin de la medida. En consecuencia, si la medida toma
valores consistentes y precisos, creemos que podemos confiar en los resultados obtenidos cuando
se aplica un test. No obstante, sabemos que cualquier proceso de medida (se est midiendo un
objeto fsico o un aspecto psicolgico) se asocia a algn grado de error. La medida perfecta no
existe. El estudio de la fiabilidad de un instrumento de medida debe permitir conocer hasta qu punto
los resultados que se obtienen a partir de su aplicacin estn afectados por el error que se ha
cometido al medir. Si el error es pequeo, podemos confiar en el resultado del test; si el error es
grande, el proceso de medicin deja de tener sentido.
1. Concepto de fiabilidad segn la teora clsica
Segn la teora clsica de los tests, la fiabilidad de un test est relacionada con los errores
de medida aleatorios presentes en las puntuaciones obtenidas a partir de su aplicacin. As,
un test ser ms fiable cuantos menos errores de medida contengan las puntuaciones
obtenidas por los sujetos a quienes se les aplica. Dicho de otro modo, la fiabilidad de un test
ser su capacidad para realizar medidas libres de errores.
1.1. El error de medida
Todo instrumento de medida debe garantizar, con ms o menos rigor, que las medidas
que obtenemos con su aplicacin se corresponden con el verdadero nivel o valor de la
caracterstica evaluada. As, si queremos medir la temperatura del agua del mar un da
de un caluroso mes de agosto, necesitaremos un termmetro que nos permita obtener
este dato. Si lo hacemos con el termmetro que compramos en unos grandes
almacenes para medir la temperatura del agua de la baera de casa, seguramente
obtendremos un valor que ser menos preciso que si lo hacemos con el termmetro que
utiliza el servicio de meteorologa para tomar estas medidas. En cualquier caso,
seguramente tanto uno como otro termmetro medirn con un cierto grado de
imprecisin, posiblemente ms elevado en el primer caso que en el segundo, pero
ninguno exento de una cierta desviacin respecto a la verdadera temperatura del agua.
Si la medida la hiciramos utilizando un sofisticado instrumental cedido por la NASA,
seguramente tendramos bastantes ms garantas de que la temperatura obtenida se
corresponde con mucha ms precisin con la verdadera.
Por lo tanto, cualquier proceso de medida de una caracterstica de los objetos o de los
sujetos lleva inherente un cierto error en su medicin. Podemos encontrar instrumentos
de medida con ms o menos capacidad para minimizar estos errores, pero difcilmente
podremos encontrar uno que los elimine del todo.
En nuestro mbito de la psicologa, donde las variables que medimos habitualmente son
caractersticas propias de los sujetos, relacionadas con sus rasgos de personalidad, sus
capacidades cognitivas, sus estados de nimo, etc., y donde los instrumentos utilizados
para la medicin son generalmente los tests, an resulta ms evidente que las medidas
que hacemos de estos atributos estarn tambin afectadas por ciertos errores. Esto
provocar que las puntuaciones obtenidas con las administraciones de estos tests no se
correspondan exactamente con los verdaderos niveles de los sujetos en la caracterstica

medida.
En cualquier caso, algunos de estos errores propios de toda medicin pueden responder
a factores sistemticos que tendrn una posible causa en el propio proceso de medida,
en el instrumento utilizado o en ciertas caractersticas de los objetos o sujetos medidos.
As, si el termmetro con el que medamos la temperatura del agua del mar tiene un
error de construccin que hace que siempre mida un grado ms del real, este error
afectar por igual a toda medicin realizada con l, y se podr eliminar haciendo una
buena calibracin del aparato. Otros errores no tienen este componente sistemtico,
sino que son aleatorios, indeterminados y no responden a ningn factor que pueda ser
conocido, y por lo tanto eliminado. Estos errores aleatorios son los que estn implicados
en el concepto de fiabilidad.
1.2. El coeficiente de fiabilidad y su interpretacin
Desde la teora clsica de los tests (TCT) de Spearman, se define el coeficiente de
fiabilidad de un test U xx como la correlacin entre las puntuaciones obtenidas por un
grupo de sujetos en dos formas paralelas del test. Segn la definicin de formas
paralelas de un test de la TCT, si un test tuviera una fiabilidad perfecta, las puntuaciones
obtenidas por un sujeto en las dos formas paralelas del test deberan ser idnticas, y por
lo tanto la correlacin entre las puntuaciones de un grupo de sujetos en estas dos
formas paralelas del test sera 1 ( U 1 ). Cualquier valor inferior a 1 se deber a los
errores aleatorios xx propios del instrumento de medida.
A la hora de interpretar el valor del coeficiente de fiabilidad no existe un criterio nico y
universalmente aceptado como adecuado. Evidentemente, valores cercanos a 0
denotarn una alta proporcin de la varianza de los errores en la varianza de las
puntuaciones empricas, y por lo tanto, pondrn de manifiesto que el instrumento
utilizado no es fiable, mientras que valores cercanos a 1 mostrarn una baja proporcin
de la varianza de los errores en la varianza de las puntuaciones empricas y, en
consecuencia, nos permitirn interpretar que el test utilizado es fiable. Ahora bien, el
significado de esta varianza de error difiere con relacin al tipo de estrategia que se ha
utilizado para valorar la fiabilidad (estas estrategias se describen en los prximos
apartados). Cohen y Swerlik (2009) proponen que si se ha utilizado la estrategia de testretest, la varianza de error ser debida fundamentalmente a las diferentes
administraciones del test; si se ha utilizado la estrategia de formas paralelas, el error se
puede atribuir a la construccin del test o a las diferentes administraciones, y si se ha
valorado la fiabilidad a partir de la consistencia del test, la varianza de error puede
deberse a la construccin del test.
Aparte de los casos extremos, la determinacin del valor mnimo aceptable del
coeficiente de fiabilidad depende de factores que pueden influir en este valor, como la
longitud del test o el procedimiento emprico o la estrategia utilizada para su clculo, tal
como se ha comentado en el prrafo anterior. En cualquier caso, se han intentado
establecer ciertos criterios generales que nos pueden servir de referencia. As, en su
texto clsico, Nunnally (1978) considera que el valor mnimo aceptable del coeficiente
de fiabilidad estara en 0,70, sobre todo en un contexto de investigacin bsica. En
cambio, en un contexto aplicado, como el escolar o el clnico, es necesario que la
fiabilidad sea ms elevada, situndola por encima de 0,80 o 0,90. En estos mbitos es
necesario tener en cuenta que las consecuencias de la precisin de los instrumentos de
medida utilizados pueden ser ms decisivas para los sujetos evaluados (pensemos en
los tests de diagnstico clnico, o en los de inteligencia en poblacin infantil, para
determinar la necesidad de clases especiales por los nios). Murphy y Davidshofer
(2005) afirman que en cualquier contexto de evaluacin una fiabilidad por debajo de 0,6
se considerara baja e inaceptable. Kapplan y Saccuzo (2009) van algo ms all y
sugieren que coeficientes de fiabilidad que oscilan entre 0,7 y 0,8 son suficientemente
buenos para la mayora de las ocasiones en las que los tests se utilizan para fines de
investigacin.
Otros autores consideran que un coeficiente de fiabilidad muy cercano a 1 puede
significar que los tems que componen el test son redundantes al evaluar ciertos
elementos o factores del constructo medido, y por lo tanto no aportan informacin
relevante respecto a otros elementos o factores de este constructo, lo que tampoco se
puede considerar como adecuado.
Sin querer establecer criterios estrictos y teniendo en consideracin todo lo que se ha
expuesto hasta aqu, podramos concluir que, en general, es posible interpretar como
una fiabilidad adecuada valores del coeficiente de fiabilidad dentro del intervalo de 0,70
a 0,95.
1.3. Tipos de errores de medida
Hasta este momento solo nos hemos referido a un tipo de error: el error de medida, pero
hay que mencionar que este no es el nico error descrito en el mbito de la psicometra,
sino que tambin podemos hacer referencia al error de estimacin, al error de
sustitucin y al error de prediccin. Estos errores estn relacionados con las
puntuaciones de los sujetos individualmente consideradas. As, el error de medida es, tal
como lo definiremos a continuacin, la diferencia entre la puntuacin obtenida por un
sujeto en el test y su puntuacin verdadera en la caracterstica medida por este test.
Ahora bien, si consideramos los errores no individualmente sino en relacin con un
grupo o muestra de sujetos, podemos obtener los denominados errores tpicos, que son
las desviaciones tpicas de estos errores calculadas a partir de las puntuaciones de
todos los sujetos de la muestra. Por lo tanto, podemos definir ms formalmente estos
diferentes tipos de errores, sus errores tpicos asociados y las frmulas que los
expresan.
- Error de medida . Definimos el error de medida como la diferencia entre la
puntuacin emprica de un sujeto ( X ) y su puntuacin verdadera ( V ).
- Error de estimacin de la puntuacin verdadera . El error de estimacin de la
puntuacin verdadera se define como la diferencia entre la puntuacin verdadera de
un sujeto y su puntuacin verdadera pronosticada mediante el modelo de la

regresin ( V ).
Error de sustitucin . Se define el error de sustitucin como la diferencia entre las
puntuaciones de un sujeto en dos formas paralelas de un test o, dicho de otra
manera, el error que se comete al sustituir la puntuacin de un sujeto en un test ( X
1 ), por la puntuacin obtenida en una forma paralela de este mismo test ( X 2 ).
Error de prediccin . El error de prediccin podemos definirlo como la diferencia
entre la puntuacin de un sujeto en un test ( X 1 ) y la puntuacin pronosticada en
este test ( X 1, ) a partir de una forma paralela X 2 . Sera el error que
cometeramos si sustituyramos la puntuacin de un sujeto en un test por la
puntuacin pronosticada a partir de una forma paralela de este test.
Estructura bsica del trabajo ARTCULO VALIDEZ Y CONFIABILIDAD

Debes saber que existen diversas formas de estructurar un informe de investigacin, en esta oportunidad
nosotros solicitamos que tenga la siguiente estructura:
Ttulo
ndice
Introduccin
Desarrollo del tema de investigacin
Conclusiones
Referencias bibliogrficas
A continuacin, especificamos y describimos cada uno de los elementos o puntos sealados lneas arriba:
A. Ttulo del artculo: debe ser creativo y fomentar la atencin, guardando relacin con el contenido de
la investigacin.
B. Resumen: Debe estar correctamente redactado, debe ser breve, presenta en que consiste el artculo
y los aspectos fundamentales de su contenido.
C. La Introduccin: es un resumen del trabajo, brinda un panorama previo y suficiente del contenido
de la investigacin realizada. En esta parte se explica de manera general y secuenciada a travs de
los prrafos, los siguientes aspectos:
Presentacin general de tema de investigacin
Descripcin de los objetivos que persigue el artculo.
Descripcin de la metodologa, tcnicas e instrumentos que se utilizaron para elaborar el
trabajo.
A grandes rasgos se da a conocer la estructura o contenidos que presenta el trabajo.
Si es necesario se informa de los alcances y limitaciones del trabajo.
En el ltimo prrafo se cierra la introduccin con la despedida.
Recomendamos que la introduccin no se elabore al principio, se debe redactar una vez concluido el
trabajo, porque slo hasta terminarlo se puede conocer y expresar su contenido real.
D. Resultados o Desarrollo del Trabajo de investigacin: Es una de las partes ms importantes,
donde se aborda y desarrolla el contenido del trabajo, suele dividirse en captulos (o ttulos) y
subttulos numerados Esta parte de trabajo es la ms numerosa en pginas, mientras que el ndice,
la introduccin, las conclusiones y la bibliografa se abordan mayormente en una pgina, el
desarrollo de contenidos o temtico puede abarcar ms pginas.
E. Conclusiones: Las conclusiones son las ideas esenciales derivadas del trabajo realizado. Debe ser
una sntesis bien argumentada, obtenida de las diferentes relaciones de lo expuesto en los captulos
del trabajo. Con ellas se cierra el trabajo.
F. Bibliografa: En el mundo universitario, todo trabajo serio contempla la relacin de documentos
fsicos y virtuales que han sido consultados a lo largo de la investigacin. Esta relacin constituye la
bibliografa o referencia bibliografa que se presenta al final del documento, escrito de forma
ordenada, segn el estilo elegido.
En las referencias bibliogrficas solo se sealan o ubican los textos que han sido citados al interior
del trabajo acadmico. En la bibliografa los datos de la fuente deben detallarse de manera
suficiente, precisa y detallada que permite identificar una publicacin o parte de ella que ha sido
consultada para cumplir con el trabajo acadmico.
Como estudiante universitario debes saber que existen muchos estilos para redactar una bibliografa,
entre los ms usados tenemos los siguientes: ISO (Organizacin Internacional de Normalizacin),
VANCOUVER, APA. (American Psychological Association), HARVARD, normas cubanas, etc.
Nosotros recomendamos el sistema propuesto por la APA. (Para ver ms detalles hemos colocado
un anexo en material complementario y en el blog del curso.

SESIÓN I - Validez y Confiabilidad

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

SESIÓN I - Validez y Confiabilidad

Загружено:

Авторское право:

Доступные форматы

VALIDEZ y CONFIABILIDAD

Meneses, Julio(2014). Psicometra. Espaa: Editorial UOC

(validez predictiva y de contenido respectivamente). Se dispone, por el contrario, de una

comportan de la manera correcta, consideramos que no son fiables y en consecuencia decidimos

correspondan exactamente con los verdaderos niveles de los sujetos en la caracterstica

un sujeto y su puntuacin verdadera pronosticada mediante el modelo de la

Estructura bsica del trabajo ARTCULO VALIDEZ Y CONFIABILIDAD

Вам также может понравиться