Академический Документы
Профессиональный Документы
Культура Документы
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/228386853
CITATIONS READS
10 1,092
2 authors:
All content following this page was uploaded by Juan Jess Torres-Gordillo on 15 December 2013.
RESUMEN
ABSTRACT
We offer detailed results measuring inter-rater reliability of a coding scheme of higher educa-
tion online discussion boards. This is part of a piece of research on asynchronous communication
in e-Learning. We have used Fleiss Kappa coefficient (k) for three raters. Our Kappa coefficient
reaches a value of k=0.77. If we consider various authors interpretation tables of this index,
this k value can be interpreted as a high or good value regarding the strength of agreement. The
high reliability of this coding scheme allows it to be used by any researcher at any time, and
guarantees results that explain the roles of communication and teaching-learning processes
within e-Learning.
Key words: inter-rater reliability, Fleiss Kappa, coding scheme, online discussion board,
e-Learning
1. INTRODUCCIN
El presente trabajo se enmarca dentro de una investigacin que tuvo como objetivo
principal estudiar, indagar y analizar las posibilidades de la comunicacin asincrnica
como entorno de formacin en cursos de postgrado desarrollados a travs de Internet.
Concretamente utilizamos la plataforma tecnolgica WebCT. Para ello, se construy y
valid un sistema de categoras que permitiera analizar a posteriori los procesos comuni-
cativos y de aprendizaje colaborativo a travs del foro online. La tcnica de investigacin
aplicada en este proceso fue el anlisis de contenido.
En este artculo mostramos cmo se procedi al clculo de la fiabilidad del sistema
de categoras para el anlisis del foro online en e-Learning, a travs de la medicin del
acuerdo entre los codificadores. Una de las novedades que presentamos es que el clculo
se realiza para tres investigadores. Esto nos lleva a servirnos del coeficiente Kappa de
Fleiss (Fleiss, 1981), permitindonos ofrecer al lector una perspectiva ms avanzada de
la tcnica respecto al uso habitual que se da en muchas investigaciones que emplean
Kappa de Cohen para dos codificadores (Cohen, 1960).
2. MARCO TERICO
Estos autores continan afirmando que el primer test de objetividad en los estu-
dios de contenido pasa por ser la concordancia entre codificadores, entendida como el
momento en el que diferentes codificadores, codificando cada uno el mismo contenido,
llegan a las mismas decisiones de codificacin.
Tradicionalmente, el mtodo ms empleado para medir la concordancia entre codi-
ficadores es el estadstico de acuerdo porcentual. Dicho estadstico refleja el nmero
de acuerdo en funcin del nmero total de codificaciones realizadas. El coeficiente de
fiabilidad de Holsti (1969, citado en Rourke et al., 2001a) proporciona una frmula para
calcular el acuerdo porcentual:
C.F. = 2m / n1 + n2
donde:
La primera fase del estudio consisti en construir un sistema de categoras para ana-
lizar la comunicacin asncrona en el foro en e-Learning. Dentro de sta, llevamos a cabo
la validacin del propio sistema de categoras, realizando un estudio piloto. Partiendo
del primer borrador (denominado Sistema completo), el proceso de anlisis de los foros
nos llev a realizar continuos cambios de ajuste -fusin, integracin, reestructuracin y
eliminacin- en las categoras e indicadores del sistema creado. En cada subfase obtu-
vimos un nuevo sistema de categoras (llamados Sistema corregido, Sistema corregido 1,
Sistema corregido 2, etc.), hasta llegar al ltimo y definitivo (nombrado Sistema corregido
5 o Sistema definitivo).
TABLA 1
POBLACIN DE LA INVESTIGACIN
1 Con Nombre del Curso nos referimos al nombre que asignamos a cada curso para reconocerlos en
el estudio. No es el nombre oficial del curso.
general del curso para tutoras, consultas y/o dudas) y los foros especficos (aqullos
para dudas de un tema especfico, con una finalidad muy determinada o centrados en
algn aspecto concreto). Nuestro inters se centraba en los foros generales, por atender
al criterio de ser ms ricos y variados en la informacin que proporcionan.
El siguiente paso fue seleccionar la muestra. La muestra definitiva fue de diez foros.
La recogida de datos no fue puntual, sino un proceso que fue avanzando conforme obte-
namos resultados de los anlisis. Consisti en obtener un nmero arbitrario de unidades
de anlisis. En un primer momento, elegimos los foros generales ms representativos,
pero conforme se desarrollaban los anlisis, fuimos rehaciendo la muestra (ampliando
tambin la poblacin, como decamos ms arriba), para garantizar el criterio de repre-
sentatividad. Finalmente, llegamos a analizar todos los foros generales, apoyndonos
en el criterio de cubrir todas las funciones que cumplan dentro de los cursos, a saber:
unos slo para la entrega de actividades y mantener la comunicacin, a modo de dudas,
o cuando se trata de cursos semipresenciales; otros sirven para tutorizar a nivel general
el curso durante todo su desarrollo; otros ms especializados que se centran en algn
tema concreto; u otros sobre aspectos ms tcnicos.
Fleiss (1981) generaliz la aplicacin del ndice Kappa de Cohen para medir el
acuerdo entre ms de dos codificadores u observadores para datos de escala nominal y
ordinal. Por tanto, dado que nuestro estudio considera tres investigadores en el proceso
de codificacin, empleamos el Kappa de Fleiss, ya que ste parte de la misma frmula
4 Tambin denominada por Bakeman y Gottman (1989) como error de omisin o error de comi-
sin.
5 Bakeman y Gottman (1989) utilizan el trmino clasificacin de eventos de forma cruzada.
TABLA 2
CLCULO DE LOS COEFICIENTES KAPPA DE FLEISS
Todos los foros (10 foros: 2039 mensajes y n lneas entre 1-41348 lneas) ~ 3 cod.
Dimensin Cognitiva Dimensin Social Dimensin Didctica
(1936 acuerdos) (1950 acuerdos) (1923 acuerdos y 1944 acuerdos)
k=0.88 k=0.69 Resto de la Dimensin Enseanza Directa
k=0.64 k=0.87
k=0.77 (Kappa de Fleiss medio para la codificacin de todos los foros)
6 Las probabilidades que presentamos tras el clculo de Kappa de Fleiss aparecen redondeadas a dos
decimales.
La disposicin para valorar algo implica necesariamente contar con criterios previos
que nos permitan enjuiciar aquello que es objeto de evaluacin. As, para interpretar el
valor del coeficiente Kappa, es til disponer de alguna escala de valoracin. En nuestra
revisin de la literatura hemos encontrado algunas aproximaciones que los autores
siempre proponen reconociendo cierta arbitrariedad.
Fleiss (1981) ofrece una clasificacin de los Kappas que nos puede ayudar a inter-
pretar los coeficientes obtenidos. Este autor caracteriza como Regulares los Kappas que
se hayan entre 0.40 y 0.60, Buenos de 0.61 a 0.75, y Excelentes por encima de 0.75.
TABLA 3
INTERPRETACIN DEL NDICE KAPPA DE FLEISS (FLEISS, 1981)
Por su parte, Altman (1991) propone una clasificacin algo ms amplia. Los coeficien-
tes registran valores que van desde 0 a 1, siendo 0 el valor donde hay mayor desacuerdo
entre investigadores y 1 el punto donde encontramos mayor acuerdo. Su clasificacin
indica que los Kappas pueden ser Pobres (0 a 0.20), Dbiles (0.21 a 0.40), Moderados (0.41
a 0.60), Buenos (0.61 a 0.80) y Muy buenos (0.81 a 1.00). Nosotros basaremos nuestras
interpretaciones en esta clasificacin, por ser ms completa. La siguiente tabla resume
su propuesta:
TABLA 4
INTERPRETACIN DEL NDICE KAPPA DE FLEISS (ALTMAN, 1991)
Una de las ventajas que nos proporcionan las tablas Kappa es la representacin grfica
del desacuerdo. Una simple inspeccin ocular nos revela de inmediato cules fueron
los cdigos que presentaron una mayor confusin y cules casi nunca. Para optimizar
el clculo de Kappa de Fleiss, y con ello obtener versiones de los sistemas de categoras
ms fiables, pusimos especial atencin sobre los desacuerdos ms graves. De hecho, en
Figura 1
Valoracin de los coeficientes Kappa de Fleiss.
8. CONCLUSIONES
Figura 2
Fiabilidad, concordancia y credibilidad de la investigacin.
9. REFERENCIAS BIBLIOGRFICAS
ALTMAN, D.G. (1991). Practical statistics for medical research. New York: Chapman
and Hall.
ARCHER, W. et al. (2001). A framework for analysing critical thinking in computer
conferences. Paper presented at EURO-CSCL Conference 2001 (21-24 marzo).
Maastricht (Holanda). http://www.ll.unimaas.nl/euro-cscl/ programme.htm
(25/01/2008).
BAKEMAN, R. y GOTTMAN, J.M. (1989). Observacin de la interaccin: introduccin
al anlisis secuencial. Madrid: Morata.
CAPOZZOLI, M., McSWEENEY, L. & SINHA, D. (1999). Beyond kappa: A review of
interrater agreement measures. The Canadian Journal of Statistics, 27(1), 3-23.
COHEN, J. (1960). A coefficient of agreement for nominal scales. Educational and
Psychological Measurement, 20, 37-46.