Вы находитесь на странице: 1из 52

VALIDEZ Y CONFIABILIDAD

Mag. Fernando Ramos Ramos


Docente de la UNFV UIGV USMP - PUCP CPAL

TESTS
TESTS
TESTS
EJECUCIN
MXIMA

TESTS

ESCALAS O

INVENTARIOS
EJECUCIN
TPICA

PROPIEDAD PSICOMTRICAS
CONFIABILIDAD VALIDEZ
MUESTRAS DE CONDUCTA NO
ESTRUCTURADAS
OBSERVACIONES - ENCUESTAS

NO SON TESTS

Constructos Psicolgicos
Constructos

Observables

Tericos Indicadores
Indicadores

Constructos
Constructos

Indicadores

Constructos

tems

Constructos

Indicadores

Indicadores

Constructos
Constructos

Se asignan nmeros y se
establecen relaciones empricas

Propiedades psicomtricas de los tests

VALIDEZ
FIABILIDAD

Evidencias de Validez

CONTENIDO
CRITERIO
Predictiva

Retrospectiva

Concurrente

CONSTRUCTO
Convergente

Discriminante

Puntuacin
Observada

Propiedades psicomtricas de los tests

VALIDEZ
FIABILIDAD
Test- Retest
Estabilidad Tiempo

Consistencia interna
Homogeneidad

Divisin por mitades


Formas Paralelas
Puntuacin Observada

Validez y Fiabilidad.
Teora de la Medicin

VALIDEZ
FIABILIDAD

Errores sistemticos

Constructo
Puntuacin
Verdadera
Varianza de
factores irrelevantes
SESGO

Error de Medicin
asistemticos

Puntuacin
Observada

DEFINICIN DE VALIDEZ
Hogan 2004: Es el grado en que un
test mide lo que pretende medir, se
refiere al grado en que un
instrumento
o
conjunto
de
operaciones mide lo que dice medir.
Martnez, 2006: Es una inferencia, se
presenta como el proceso de
determinar si la teora y las
evidencias empricas respaldan esta
inferencia.

T IPOS

DE

VALIDEZ

TIPOS DE VALIDEZ
VALIDEZ DE
CONTENIDO

Evidencias
de
Validez

VALIDEZ DE
CRITERIO
VALIDEZ DE
CONSTRUCTO

VALIDEZ GLOBAL DEL TEST

VALIDEZ
GLOBAL

VALIDEZ DE
CONTENIDO

E NTRE

VALIDEZ
DE
CRITERIO

VALIDEZ DE
CONSTRUCTO

M AY O R E VI D E NC IA DE VAL ID E Z DE CO NT E NI DO S ,

VA L ID E Z DE CR I TE RIO Y VA L ID E Z DE CO NST R UC TO TE N GA
UN INS TR U M E NTO D E ME D IC I N , S T E SE AC E R CA MS A
RE P RE S E N TA R L A VA R I ABL E O VA R IA BL E S Q U E PR E TE N DE
ME DIR .

UN

INSTR UM E NTO P UE D E SE R F IA BL E PE RO NO VAL I DO ,

PU E DE ME DI R CO NSIST E NT E ME NT E UN ASP E C TO , M AS NO
ME DIR L O QUE PRE TE NDE ME DIR .

VALIDEZ

DE

C ONTENIDO

VALIDEZ DE CONTENIDO
Grado en que un instrumento refleja un
dominio especfico del contenido que se
mide.
Nunnally 1973: Es el grado en que los
tems que constituyen el instrumento
tienen el dominio del contenido que se
mide.
Un instrumento de medicin debe tener
representados a todos los tems del
dominio de contenido de las variables a
medir.

ILUSTRACIN DE UN INSTRUMENTO DE MEDICIN CON


VALIDEZ DE CONTENIDO VERSUS CON UNO QUE CARECE DE
STA

DOMINIO DE VARIABLE
INSTRUMENTO
CON VALIDEZ DE
CONTENIDO

L
E
N
A
U

R
A
M
Z
G

L
E
N
A
U

R
A
M
Z
G

INSTRUMENTO
SIN VALIDEZ DE
CONTENIDO

EL INSTRUMENTO DEBE CONTENER TODOS LOS ASPECTOS O TEMS DEL DOMINIO DE LA VARIABLE QUE SE ESTA
MIDIENDO, Y SE CONSTRUYE DE ACUERDO CON LA TEORA.
SU FINALIDAD ES GARANTIZAR QUE EL TEST CONSTITUYE UNA MUESTRA ADECUADA Y REPRESENTATIVA DEL
CONTENIDO QUE STE PRETENDE EVALUAR.
SE REALIZA MEDIANTE JUICIO DE EXPERTOS.
SE USA LA TABLA DE ESPECIFICACIONES COMO UNA DE LAS TCNICAS PARA EVALUAR LA VALIDEZ DE CONTENIDO .

C ALCULO DE LA VALIDEZ DE C ONTENIDO


C RITERIO DE LOS JUECES

IN DIC E DE A C U ER DO
Es la proporcin que existe entre los juicios que coinciden con
la definicin propuesta por el autor (acuerdo A) y el total de
juicios emitidos (acuerdos A y desacuerdos D).
Tomndose como vlidos los reactivos cuyos valores sean
iguales o mayores que 0,80 (Guilford, 1954).

IA = A / D
IA = ndice de acuerdo
A = Acuerdo
D = Desacuerdo

C ALCULO DE LA VALIDEZ DE C ONTENIDO


C RITERIO DE LOS JUECES

P R U EB A B IN O MIA L

Es un anlisis estadstico que estudia la


probabilidad de obtener x objetos en una
categora y n-x objetos en la otra (Hoel, 1976).

p = proporcin de casos esperados en una de las categoras.


q = 1 p proporcin de casos esperado en la otra categora.
D = Desacuerdo

C ALCULO DE LA VALIDEZ DE C ONTENIDO


C RITERIO DE LOS JUECES

P R U EB A B IN O MIA L

Las categoras son p (acuerdos) y q


(desacuerdos) y se asume que p = q = 0,50. Se
elige esta prueba porque los datos son
dicotmicos y se tiene un solo grupo de sujetos
(Siegel, 1980).
El clculo realizado nos da la probabilidad de
ocurrencia de manera directa de manera que si
es menor de 0,05 o 0,01 se asume que el tem
posee validez de contenido.

C OEFICIENTE DE VALIDEZ V
V DE A IKEN : 1985

Es un coeficiente que se computa como la


razn de un dato obtenido sobre la suma
mxima de la diferencia de los valores
posibles.
Puede ser calculado sobre la valoracin de un
conjunto de jueces con relacin a un tem o
como valoraciones de un juez respecto a un
grupo de tems. Asimismo las valoraciones
asignadas pueden ser dicotmicas (recibir
valores de 0 o 1) o politmicas (recibir valores
de 0 a 5).

C OEFICIENTE DE VALIDEZ V
V DE A IKEN : 1985
Este coeficiente puede obtener valores entre 0 y
1, a medida que se ms elevado el valor
computado, el tem tendr una mayor validez de
contenido.
El resultado puede evaluarse estadsticamente
haciendo uso de la tabla de probabilidades
asociadas de cola derecha.
Es precisamente esta posibilidad de evaluar su
significacin estadstica lo que hace a este
coeficiente uno de los ms apropiadas para
estudiar este tipo de validez,

C OEFICIENTE DE VALIDEZ V
V DE A IKEN : 1985

V =

9__ = 0,90
10(2-1)

P=

0,001 V LIDO

VALIDEZ

DE

C RITERIO

VALIDEZ DE C RITERIO
Establece la validez de un instrumento de
medicin comparando entre nuestra situacin
de medida y un estndar al que se le llama
criterio externo.
Este criterio es estndar con el que se juzga la
validez del instrumento.
Es disponer de otra situacin de lo que conozco
su validez.
Pero se requiere de consenso entre la
comunidad cientfica, se trabaja en relacin al
criterio o Gold Standard (patrn de oro).

E VIDENCIA R ELACIONADA
C RITERIO
Validez Concurrente: Si el Criterio
se fija en el presente (a corto
plazo)
Validez Predictiva: Si
el criterio se fija en
el futuro (a largo
plazo)

CON EL

VALIDEZ DE CRITERIO
CONCURRENTE
Cuando el instrumento y el estndar
se miden al mismo tiempo.
Se lleva a cabo un anlisis de
correlacin y mientras ms alta la
correlacin, mayor ser la validez de
criterio.
Por ejemplo: se administra el
instrumento a un grupo y seguido se
recoge una medida de desempeo.
Contesta la pregunta Carlos es
exitoso?

VALIDEZ DE CRITERIO
PREDICTIVA
Cuando el instrumento y el estndar no son
medidos a la vez, en este ltimo caso,
debemos conocer previamente los datos
del estndar y lo que se obtiene es la
prediccin. Se lleva a cabo un anlisis de
correlacin y mientras ms alta la
correlacin, mayor ser la validez de
criterio.
Por ejemplo: Se administra el instrumento
a un grupo, se deja pasar un tiempo (6
meses) y se recoge la medida de
desempeo. Contesta la pregunta Ser
Carlos exitoso?

VALIDEZ DE CONSTRUCTO
La ms importante desde una perspectiva
cientfica.
Se refiere a que tan exitosamente un
instrumento representa y mide un concepto
terico.
Cuanto ms elaborado y comprobado se
encuentre la teora que apoya la hiptesis,
la validacin de constructo arrojar mayor
luz sobre la validez general de un
instrumento de medicin.
Se realiza mediante anlisis de factores y
otras pruebas multivariadas.

VALIDEZ DE CONSTRUCTO

Se hace necesario partir de un


modelo terico que especifique
las relaciones tericas, entre el
rasgo latente o constructo
tericamente considerado y los
elementos
e
indicadores
especficos , que se deban
satisfacer
empricamente.

VALIDEZ DE CONSTRUCTO

En este sentido un constructo hace


referencia a un rasgo, atributo o
cualidad
no
observable
directamente, sino que es inferirle a
travs de una teora. Ello implica
que la validez de constructo no
puede expresarse empricamente
mediante indicadores bsicos como
un coeficiente de correlacin
simple.

T CNICAS DE LA VALIDEZ
C ONSTRUCTO

DE

A NLISIS FACTORIAL
El anlisis factorial es una tcnica
estadstica que examina la estructura
interna de la unidad de medida, mide si
los indicadores tienen algo en comn, es
decir si tienen un comn denominador,
mide las correlaciones entre los
indicadores e intenta descubrir si hay
algo subyacente. Los tems deben tener
un comn denominador que debe
aflorar estadsticamente. La estructura
subyacente o comn denominador se
llama factor

T CNICA

DE LOS GRUPOS CONOCIDOS

Aplicar la validez a un criterio estndar, el


procedimiento consiste en aplicar el
instrumento a dos o ms grupos y ver si
discrimina.
Ejemplo: Un grupo de pacientes crnicos
compuesto por un grupo de pacientes
hipertensos y otro grupo de pacientes con
esclerosis mltiple. Si el instrumento de
medida discrimina a ambos grupos (es decir
me dice que los hipertensos tienen mayor
calidad de vida que los pacientes con
esclerosis mltiple) es que tiene validez.

M ATRIZ

MULTIMTODO - MULTIRRASGO

El instrumento de medida introduce una


fuente de variacin, es la racionalidad.
Ejemplo: medir el grado de satisfaccin
mediante un cuestionario, una entrevista y la
observacin y posteriormente se estudiar la
convergencia entre los tres resultados.
Que se debe esperar en las medidas, que
haya
convergencia
(es
decir
gran
concordancia entre lo que miden los tres
mtodos).
MTMM nos permite medir varios mtodos
con varias variables.

CONFIABILIDAD
La
confiabilidad
(o
consistencia) de un test es la
precisin con que el test mide
lo que mide, en una
poblacin determinada y en
las condiciones normales de
aplicacin.

FALTA DE CONFIABILIDAD
La falta de confiabilidad de un
test psicomtrico esta en
relacin con la intervencin del
error. Se considera que el error
es cualquier efecto irrelevante
para los fines o resultados de la
medicin que influye sobre la
falta de confiabilidad de tal
medicin

FALTA DE CONFIABILIDAD
El error es de dos tipos:
a) Error constante (sistemtico),
que se produce cuando las
mediciones que se obtienen con
una
escala
son
sistemticamente mayores o
menores que lo que realmente
deben ser.

FALTA DE CONFIABILIDAD
b) Error causal (al azar o no
sistemtico), que se produce
cuando
las
medidas
son
alternativamente
mayores
o
menores de lo que realmente
deben ser. Este ltimo tipo de
error interviene cuando se afecta
la confiabilidad de un test
psicomtrico.

FALTA DE CONFIABILIDAD
Este error tiene que ver con la
salud, fatiga, motivacin, tensin
emocional, fluctuaciones de la
memoria, condiciones externas
de luz, humedad, ventilacin,
calor, distraccin por problemas
del momento, familiaridad con la
prueba,
que
presenta
el
examinado al momento de dar el
test

M TODOS PARA OBTENER LA


CONFIABILIDAD DE UN TEST

M TODOS PARA OBTENER LA


CONFIABILIDAD DE UN TEST
1. Confiabilidad a travs del tiempo
a. Test Retest
b. Formar alternas o equivalentes
2. Confiabilidad o consistencia interna
a. Mtodo de la equivalencia
racional o Alfa de Cronbach
b. Mtodo de la divisin por
mitades
emparejadas:
Spearman Brown, Guttman y
Alfa de Cronbach
3. Confiabilidad entre evaluadores.

1. C ONFIABILIDAD

A TRAVS DEL TIEMPO

Se utiliza un grupo, donde se le administra


el instrumento en dos tiempo diferentes.
El tiempo entre la primera y la segunda
administracin es un factor que hay que
tomar en consideracin.
Mientras ms tiempo pase entre la
primera y la segunda administracin,
menor puede ser el coeficiente de
confiabilidad.
Los intervalos de tiempo pueden generar
problemas de mortalidad, efectos de
aprendizaje o de memoria y maduracin.

A.

T EST - R ETEST

Se le administra el instrumento
a un grupo de personas, se deja
pasar un tiempo y luego se
administra
el
mismo
instrumento al mismo grupo.
Se correlacionan los pares de
puntuaciones, donde el ndice
de correlacin debe fluctuar
entre 0,70 a 1,00.

A.

T EST - R ETEST

APLICACION

RESULTADOS
r = 0,7 a ms

B.

F ORMAR

ALTERNAS O EQUIVALENTES

Se le administra dos o mas versiones


equivalentes similares al contenido
del instrumento de medicin.
La forma A del instrumento a un
grupo de personas, se deja pasar un
tiempo y luego se administra la
forma B del instrumento al mismo
grupo.
Se correlacionan los pares de
puntuaciones, donde el ndice de
correlacin debe fluctuar entre 0,70
a ms

B.

F ORMAR

ALTERNAS O EQUIVALENTES

APLICACION

RESULTADOS
r = 0,7 a ms

2. CONFIABILIDAD

DE CONSISTENCIA
INTERNA

Ayuda a determinar el grado de


interrelacin que existe entre los
reactivos de un instrumento.
La consistencia interna no contempla
los elementos que afectan a la
confiabilidad a travs del tiempo por
lo que ambas tcnicas son
complementarias y no son iguales.
En cierto modo trata de indagar
sobre el grado de homogeneidad de
las respuestas.

A . M TODO DE LA EQUIVALENCIA
RACIONAL O A LFA DE C RONBACH

Establece una relacin entre


reactivos y la puntuacin
total del instrumento.
Se usa mucho cuando hay
escalas de medicin tipo
Likert.
La correlacin debe ser de
0,7 a ms.

A . M TODO DE LA EQUIVALENCIA
RACIONAL O A LFA DE C RONBACH

ALFA DECRONBACH

INTERPRETACION

0,53 a menos

Confiabilidad nula

0,54 a 0,59

Confiabilidad baja

0,60 a 0,65

Confiable

0,66 a 0,71

Muy Confiable

0,72 a 0,79

Excelente Confiabilidad

0,80 a 1,0

Confiabilidad Perfecta

Los tems cuyos coeficientes de correlacin son


menores a 0,35 deben ser o recodificados
reformulados o desechados (Cohen- Manion,
1990).

A . M TODO DE LA EQUIVALENCIA
RACIONAL O A LFA DE C RONBACH

B. MTODO DE LA DIVISIN POR MITADES


EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y
ALFA DE CRONBACH

Se divide la prueba en dos


mitades
colocando
los
reactivos impares a un lado y
los pares al otro.
Se
correlacionan
ambas
mitades.
Se usa la frmula de correccin
de Spearman Brown.
El coeficiente de Correlacin
debe ser de 0,70 en adelante.

B. MTODO DE LA DIVISIN POR MITADES


EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y
ALFA DE CRONBACH

Nones

Pares

2
4
6
8
10

1
3
5
7
9

Correlacin de Spearman Brown


entre 0,7 a 1,0

3. C ONFIABILIDAD ENTRE EVALUADORES .


Unos expertos en el contenido
del instrumento contestan el
instrumento.
Se
supone
que
las
puntuaciones sean similares.
Se calcula un ndice de
concordancia.
A mayor concordancia, ms
confiable resultar ser el
instrumento.

Вам также может понравиться