Вы находитесь на странице: 1из 17

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/228386853

Clculo de la fiabilidad y concordancia entre


codificadores de un sistema de categoras para
el estudio del foro online en...

Article January 2009

CITATIONS READS

10 1,092

2 authors:

Juan Jess Torres-Gordillo Vctor Hugo Perera Rodrguez


Universidad de Sevilla Universidad de Sevilla
40 PUBLICATIONS 74 CITATIONS 75 PUBLICATIONS 142 CITATIONS

SEE PROFILE SEE PROFILE

All content following this page was uploaded by Juan Jess Torres-Gordillo on 15 December 2013.

The user has requested enhancement of the downloaded file.


Revista de Investigacin Educativa, 2009, Vol. 27, n. 1, pgs. 89-103 89

CLCULO DE LA FIABILIDAD Y CONCORDANCIA


ENTRE CODIFICADORES DE UN SISTEMA DE
CATEGORAS PARA EL ESTUDIO DEL FORO ONLINE
EN E-LEARNING
Juan Jess Torres Gordillo*
juanj@us.es
Vctor Hugo Perera Rodrguez*
vhperera@us.es

RESUMEN

Presentamos los resultados detallados del clculo de la fiabilidad de un sistema de categoras


para foros de debate online. Este trabajo se encuadra dentro una investigacin sobre el estudio de
la comunicacin asincrnica en la formacin a travs de Internet. Hemos utilizado el coeficiente
Kappa de Fleiss para tres codificadores. Nuestro coeficiente Kappa alcanza un valor k=0.77.
Tomando varias tablas de interpretacin del ndice de diferentes autores, obtenemos un valor
alto o bueno respecto a la fuerza de concordancia. La alta fiabilidad del sistema de categoras
acredita que dicha herramienta pueda ser empleada por cualquier investigador en el ejercicio de
la codificacin, y en diferentes momentos, con garantas de que pueda aportar resultados que
expliquen y faciliten la comprensin de los procesos de comunicacin y enseanza-aprendizaje
en e-Learning.
Palabras clave: fiabilidad entre codificadores, Kappa de Fleiss, sistema de categoras, foro
online, e-Learning.

* Dpto. Mtodos de Investigacin y Diagnstico en Educacin. Facultad de Ciencias de la Educacin.


Universidad de Sevilla. C/ Camilo Jos Cela, s/n. 41018 - Sevilla.

RIE, vol. 27-1 (2009)


90 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

ABSTRACT

We offer detailed results measuring inter-rater reliability of a coding scheme of higher educa-
tion online discussion boards. This is part of a piece of research on asynchronous communication
in e-Learning. We have used Fleiss Kappa coefficient (k) for three raters. Our Kappa coefficient
reaches a value of k=0.77. If we consider various authors interpretation tables of this index,
this k value can be interpreted as a high or good value regarding the strength of agreement. The
high reliability of this coding scheme allows it to be used by any researcher at any time, and
guarantees results that explain the roles of communication and teaching-learning processes
within e-Learning.
Key words: inter-rater reliability, Fleiss Kappa, coding scheme, online discussion board,
e-Learning

1. INTRODUCCIN

El presente trabajo se enmarca dentro de una investigacin que tuvo como objetivo
principal estudiar, indagar y analizar las posibilidades de la comunicacin asincrnica
como entorno de formacin en cursos de postgrado desarrollados a travs de Internet.
Concretamente utilizamos la plataforma tecnolgica WebCT. Para ello, se construy y
valid un sistema de categoras que permitiera analizar a posteriori los procesos comuni-
cativos y de aprendizaje colaborativo a travs del foro online. La tcnica de investigacin
aplicada en este proceso fue el anlisis de contenido.
En este artculo mostramos cmo se procedi al clculo de la fiabilidad del sistema
de categoras para el anlisis del foro online en e-Learning, a travs de la medicin del
acuerdo entre los codificadores. Una de las novedades que presentamos es que el clculo
se realiza para tres investigadores. Esto nos lleva a servirnos del coeficiente Kappa de
Fleiss (Fleiss, 1981), permitindonos ofrecer al lector una perspectiva ms avanzada de
la tcnica respecto al uso habitual que se da en muchas investigaciones que emplean
Kappa de Cohen para dos codificadores (Cohen, 1960).

2. MARCO TERICO

Durante algunos aos, la falta de paradigmas o mtodos de investigacin motiv


el escaso nmero de estudios rigurosos centrados en el aprendizaje en entornos de
comunicacin asincrnica (Marra, Moore & Klimczak, 2004). sta es una de las razones
que nos conduce a examinar en detalle aspectos como la fiabilidad de los instrumentos
utilizados.
Diversos trabajos preocupados por aclarar los conceptos y procedimientos relaciona-
dos con los criterios de rigor cientfico en la investigacin cualitativa han supuesto un
aliciente en el modo cmo abordar nuestra investigacin (Sandn, 2000; Donoso, Figuera
y Torrado, 2000; Garca, 2004).
Rourke et al. (2001a) llamaban la atencin hace unos aos sobre la falta de replicacin
de los modelos o sistemas de categoras presentados y publicados por otros autores en

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 91

torno al anlisis de contenido en la comunicacin mediada por ordenador. La siguiente


cita deja clara evidencia de que la replicacin debe ser el ltimo eslabn en el proceso
de construccin de un sistema de categoras fiable.

La fiabilidad de un sistema de categoras puede ser vista como un continuum, comen-


zando con la estabilidad de un codificador (un codificador de acuerdo consigo mismo todo
el tiempo), la fiabilidad entre codificadores (dos o ms codificadores de acuerdo unos con
otros), y, por ltimo, la replicacin (la capacidad de mltiples y distintos grupos de inves-
tigadores de aplicar un sistema de categoras de manera fiable). Adems, el test definitivo
de un sistema de categoras es la replicacin (Rourke et al., 2001a).

Estos autores continan afirmando que el primer test de objetividad en los estu-
dios de contenido pasa por ser la concordancia entre codificadores, entendida como el
momento en el que diferentes codificadores, codificando cada uno el mismo contenido,
llegan a las mismas decisiones de codificacin.
Tradicionalmente, el mtodo ms empleado para medir la concordancia entre codi-
ficadores es el estadstico de acuerdo porcentual. Dicho estadstico refleja el nmero
de acuerdo en funcin del nmero total de codificaciones realizadas. El coeficiente de
fiabilidad de Holsti (1969, citado en Rourke et al., 2001a) proporciona una frmula para
calcular el acuerdo porcentual:

C.F. = 2m / n1 + n2

donde:

m = nmero de codificaciones donde los dos codificadores estn de acuerdo


n1 = nmero de codificaciones realizadas por el codificador 1
n2 = nmero de codificaciones realizadas por el codificador 2

No obstante, como afirman algunos estadsticos, el acuerdo entre codificadores puede


ser una medida inadecuada porque no tiene en cuenta el acuerdo al azar entre investi-
gadores (Capozzoli, McSweeney & Sinha, 1999). Esto lo corrige el estadstico Kappa de
Cohen (k), que se utiliza para dos codificadores, en n casos y para m categoras nominales
exhaustivas y exclusivas mutuamente.
Archer et al. (2001) emplearon el coeficiente Kappa de Cohen para medir el acuerdo
entre codificadores en un sistema de categoras sobre pensamiento crtico en foros online,
obteniendo un k=0.74 en su ltima revisin.
Otros autores han descrito el foro online como un espacio de aprendizaje cuya comu-
nicacin puede ser estructurada para apoyar la creacin de significados compartidos
entre los miembros de grupos colaborativos. En este sentido, la dificultad para lograr
niveles aceptables de concordancia entre codificadores ha llevado a que se desarrollen
sistemas alternativos para la codificacin de transcripciones. As, Jonassen & Remidez
(2005) describieron el modo de cmo codificar las conversaciones de foros online ms
estructurados y con opciones limitadas de interaccin (aceptar, rechazar, ampliar, apoyar,
hiptesis, punto importante, evidencia, aprendizaje, etc.). De acuerdo con Rourke et al.

RIE, vol. 27-1 (2009)


92 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

(2001a), esto supone que indirectamente se est facilitando la autocodificacin general


de la propia aportacin.

3. SISTEMA DE CATEGORAS PARA ANALIZAR EL FORO ONLINE EN E-LEAR-


NING

La primera fase del estudio consisti en construir un sistema de categoras para ana-
lizar la comunicacin asncrona en el foro en e-Learning. Dentro de sta, llevamos a cabo
la validacin del propio sistema de categoras, realizando un estudio piloto. Partiendo
del primer borrador (denominado Sistema completo), el proceso de anlisis de los foros
nos llev a realizar continuos cambios de ajuste -fusin, integracin, reestructuracin y
eliminacin- en las categoras e indicadores del sistema creado. En cada subfase obtu-
vimos un nuevo sistema de categoras (llamados Sistema corregido, Sistema corregido 1,
Sistema corregido 2, etc.), hasta llegar al ltimo y definitivo (nombrado Sistema corregido
5 o Sistema definitivo).

TABLA 1
POBLACIN DE LA INVESTIGACIN

NOMBRE TIPO MODALIDAD ALUMNOS /


del CURSO1 TUTORES
Curso A Experto (250 horas, 1 ao) Semipresencial 18 alumnos
4 tutores
Curso B Formacin A distancia 86 alumnos
complementaria (100 (e-Learning) 5 tutores
horas, 1 ao)
Curso C Experto (250 horas, 1 ao) A distancia 66 alumnos
(e-Learning) 8 tutores
Curso D Doctorado (dos aos) Semipresencial 23 alumnos (1er ao),
18 alumnos (2 ao)
7 tutores
Curso E Formacin A distancia 24 alumnos
complementaria (100 (e-Learning) 5 tutores
horas, 6 meses)
TOTAL 217 alumnos / 29
tutores

1 Con Nombre del Curso nos referimos al nombre que asignamos a cada curso para reconocerlos en
el estudio. No es el nombre oficial del curso.

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 93

El sistema de categoras definitivo, que puede ser consultado en otras publicaciones


(Torres y Perera, 2005), se divide en tres dimensiones: cognitiva, social y didctica. Cada
una de stas consta de categoras, subcategoras e indicadores.

4. POBLACIN Y MUESTRA DEL ESTUDIO

Nuestra seleccin se dirige en torno a la poblacin de la investigacin, es decir, a los


foros de debate de los cursos de e-Learning en los cuales hemos participado durante dos
cursos acadmicos. En consecuencia, no entendemos la poblacin como los participantes
potenciales de un estudio, sino en los trminos que lo expresan Goetz y LeCompte (1988:
88): tambin los fenmenos no humanos y los objetos inanimados pueden constituir poblacio-
nes. Los grupos humanos realizan sus actividades en escenarios y contextos, perodos de tiempo
y circunstancias finitos y especificables. Cada uno de estos factores constituye una poblacin
limitada, a partir de la cual el investigador puede obtener muestras o seleccionar.
En la siguiente tabla se especifica la poblacin final de la investigacin con las carac-
tersticas de cada curso:
Debemos aclarar que, en un primer momento, nuestra poblacin la componan sola-
mente los cursos B, C y D. Pero, a medida que avanzaban los anlisis, decidimos
ampliar la poblacin con otros cursos en los cuales estbamos trabajando como tutores
(curso D) y con otros cursos con los que mantenamos alguna relacin y se desarro-
llaban en la misma plataforma tecnolgica WebCT (curso A).
No obstante, nuestra intencin no fue seleccionar todos los foros de estos cursos,
puesto que los datos seran redundantes segn el objetivo de estudio, adems de ser
innecesario y costoso en trminos temporales. Nos atenemos, por tanto, a la seleccin
basada en criterios, como lo han denominado Goetz y LeComte (1988)2, tanto para identi-
ficar la poblacin como para ir determinando la muestra (unidades de anlisis o foros).
Consiste en seleccionar casos con abundante informacin para estudios detallados
(Patton, 1990) cuando alguien pretende entender algo sobre estos casos sin necesitar
o desear generalizar sobre cada uno de los casos (McMillan y Schumacher, 2005). La
finalidad de elegir el procedimiento de seleccin basada en criterios es buscar la repre-
sentatividad de los datos. Segn McMillan y Schumacher (ibdem, p. 407), se realiza para
aumentar la utilidad de la informacin obtenida a partir de pequeos modelos, donde
la informacin se obtiene sobre variaciones entre las subunidades. El poder y la lgica
de este procedimiento consisten en que, con pocos casos estudiados en profundidad, se
obtienen muchas aclaraciones sobre el tema (abundante informacin).
Con este objetivo, y dentro de las variantes de la seleccin basada en criterios (o
muestreo intencionado), sealadas por Goetz y LeComte (1988) o McMillan y Schuma-
cher (2005), llevamos a cabo la seleccin por cuotas, tambin llamada por Patton (1990)
muestreo de variacin mxima. Es una estrategia para aclarar diferentes aspectos sobre la
cuestin del problema de investigacin. Esta tcnica, a diferencia de la seleccin exhaustiva
(que cubre la totalidad de la poblacin), se limita a un subconjunto de la poblacin. As,
en el estudio comenzamos identificando los subgrupos relevantes, que en nuestro caso
fueron dos grandes conjuntos: los foros de carcter principal (aqullos de seguimiento
2 Otros autores lo llaman, de manera menos apropiada, muestreo intencional.

RIE, vol. 27-1 (2009)


94 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

general del curso para tutoras, consultas y/o dudas) y los foros especficos (aqullos
para dudas de un tema especfico, con una finalidad muy determinada o centrados en
algn aspecto concreto). Nuestro inters se centraba en los foros generales, por atender
al criterio de ser ms ricos y variados en la informacin que proporcionan.
El siguiente paso fue seleccionar la muestra. La muestra definitiva fue de diez foros.
La recogida de datos no fue puntual, sino un proceso que fue avanzando conforme obte-
namos resultados de los anlisis. Consisti en obtener un nmero arbitrario de unidades
de anlisis. En un primer momento, elegimos los foros generales ms representativos,
pero conforme se desarrollaban los anlisis, fuimos rehaciendo la muestra (ampliando
tambin la poblacin, como decamos ms arriba), para garantizar el criterio de repre-
sentatividad. Finalmente, llegamos a analizar todos los foros generales, apoyndonos
en el criterio de cubrir todas las funciones que cumplan dentro de los cursos, a saber:
unos slo para la entrega de actividades y mantener la comunicacin, a modo de dudas,
o cuando se trata de cursos semipresenciales; otros sirven para tutorizar a nivel general
el curso durante todo su desarrollo; otros ms especializados que se centran en algn
tema concreto; u otros sobre aspectos ms tcnicos.

5. LA FIABILIDAD DEL SISTEMA DE CATEGORAS: ACLARACIN DE CON-


CEPTOS Y ELECCIN DEL ESTADSTICO PARA EL CLCULO DE KAPPA

Cabe hacer una importante aclaracin conceptual entre fiabilidad y concordancia


entre codificadores. De una parte, la concordancia es un trmino ms global que hace
referencia a la medida en que dos o ms codificadores estn de acuerdo entre ellos. La
entendemos como la proporcin de acuerdos entre el nmero total de codificadores.
Por ejemplo, hallamos la concordancia cuando dos codificadores se comparan entre
s. Por otra parte, la fiabilidad es un trmino ms restrictivo que aprecia cun precisa
es una medida, esto es, cunto se acerca a la verdad. Por ejemplo, hallamos la fiabili-
dad cuando un codificador se compara frente a un protocolo estndar asumido como
verdadero.
En el contexto de nuestro estudio hacemos referencia a la concordancia entre codifi-
cadores durante el proceso de construccin del sistema de categoras; mientras que nos
referimos a la fiabilidad en el momento en que los codificadores hacen uso del sistema
de categoras definitivo sobre los datos textuales.
El sentido que adopta todo trabajo de investigacin, as como los resultados a los
que se llega, dependern esencialmente del sistema de categoras creado. Es por esto
que debe evitarse caer en los peligros que suelen darse cuando se utilizan esquemas de
codificacin. Entre ellos se encuentra la posibilidad que tiene el investigador de inten-
tar reflejar su deseo o perspectiva idiosincrsica. Para salvar esta situacin, Bakeman y
Gottman (1989) afirman que son necesarios: a) mantener a los investigadores ingenuos
respecto a la(s) hiptesis de la investigacin; b) trabajar con ms de un investigador; y,
c) evaluar en qu medida concuerdan. Para la comprensin de este ltimo punto, hemos
de clarificar los conceptos de precisin, calibracin y deterioro de la fiabilidad:

n Precisin. Es la razn conceptual que consiste en la codificacin similar que hacen


de forma independiente dos o ms investigadores sobre los mismos hechos y

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 95

eventos. En otras palabras, diferentes investigadores han codificado eventos


semejantes de forma similar.
n Calibracin. Es la razn prctica que consiste en asegurarse que los datos que tienen
que registrar distintos investigadores no varan a lo largo del tiempo. Esto se
consigue comparando cada codificacin con las dems, o, mejor an, evaluando
a todos los codificadores respecto a algn protocolo estndar.
n Deterioro de la fiabilidad. Consiste en asegurarse que la codificacin de un obser-
vador sea consistente a lo largo del tiempo.

Siguiendo las definiciones de la terna anterior, entendimos que debamos interesar-


nos no slo por la concordancia entre codificadores (esto es, precisin y calibracin), sino
tambin por la fiabilidad intra-codificador (o lo que es igual, el deterioro de la fiabilidad).
Esto supuso que en el proceso de entrenamiento de los codificadores tuviramos claro
dos objetivos con relacin a la evaluacin de la concordancia de los codificadores. El
primer objetivo se refera a la preocupacin por entrenar a los codificadores de forma
que fuesen altamente precisos y calibrados. Un segundo objetivo consisti en asegurar
la consistencia en la codificacin de cada investigador. En definitiva, buscbamos un
estadstico que pudiera describir la concordancia respecto a cmo utilizan los investi-
gadores el esquema de codificacin.
Este inters nos llev a realizar una revisin de la literatura que nos mostrara la
variedad de estadsticos existentes en el campo de la investigacin social para calcular la
concordancia segn variables diferentes. Despus de precisar las condiciones de nuestro
estudio, nos basamos inicialmente en los trabajos de Cohen (1960) para dar respuesta
a los objetivos que nos propusimos. Este autor formul el clculo para la obtencin
de la probabilidad en la concordancia entre dos codificadores. Dicha probabilidad es
conocida como coeficiente Kappa de Cohen (caracterizado con el smbolo k), que se define
como un estadstico de concordancia entre dos investigadores que corrige el azar. Como
es obvio, al ser una probabilidad, toma su valor en el intervalo [0, 1]. sta se representa
segn la frmula:

Po se define como la proporcin de concordancia observada realmente y se calcula


sumando las marcas que representan la concordancia y dividiendo por el nmero total
de ellas;
Pc es la proporcin esperada por azar y se calcula sumando las probabilidades de
acuerdo por azar para cada categora.

Fleiss (1981) generaliz la aplicacin del ndice Kappa de Cohen para medir el
acuerdo entre ms de dos codificadores u observadores para datos de escala nominal y
ordinal. Por tanto, dado que nuestro estudio considera tres investigadores en el proceso
de codificacin, empleamos el Kappa de Fleiss, ya que ste parte de la misma frmula

RIE, vol. 27-1 (2009)


96 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

que propone Cohen, pero generalizada para ms de dos codificadores. El coeficiente


Kappa de Fleiss aade el clculo del sesgo del codificador (precisin-error) y el clculo
de la concordancia (calibracin). La frmula es la siguiente:

Los smbolos de la frmula vienen identificados por las siguientes corresponden-


cias:

n: se corresponde con el nmero total de conductas o cdigos a registrar;


m: identifica el nmero de codificaciones;
xij: define el nmero de registros de la conducta i en la categora j;
r: indica el nmero de categoras de que se compone el sistema nominal;
p: es la proporcin de acuerdos positivos entre codificadores;
q: es la proporcin de acuerdos negativos (no acuerdos) en codificadores (1 - p)

No obstante, para facilitar el clculo de nuestros coeficientes Kappa de Fleiss hemos


empleado un software especfico. Se trata de un programa informtico que funciona bajo
el sistema operativo MS-DOS. Fue creado por el francs Bonnardel3. Nosotros hemos
utilizado la versin 1.0, y se conoce como Fleiss v.1.0. Nos permite obtener el clculo
del coeficiente hasta un mximo de veinticinco codificadores y de dos a veinticinco
cdigos. Concretamente, para esta investigacin contbamos con tres investigadores
y el nmero de cdigos se introdujo por dimensiones, sin llegar a superar el lmite de
esos veinticinco cdigos.
Para introducir los datos en el programa, se construy una matriz de doble entrada,
donde la fila representaba cada uno de los mensajes, y la columna cada cdigo. De esta
forma, cada celda de la matriz podra variar entre 0 y 3. En aquellos casos en los que se
dio un 0, signific que dicho cdigo no fue asignado al mensaje en cuestin por ninguno
de los tres codificadores. El 1 nos dira que slo un investigador consider dicho cdigo
para el mensaje. Y as hasta llegar al nmero 3, que mostrara el acuerdo total entre los
codificadores para un mensaje. De aqu se desprende que la suma en cada fila de la
matriz es igual al nmero total de codificadores.
Por ltimo, respecto a la salida de resultados que obtuvimos del programa, en primer
lugar nos mostr la suma de los acuerdos totales por cdigo. Despus, nos ofreci todos
los resultados, donde se incluye el valor global del ndice Kappa de Fleiss, as como el
p-valor asociado al contraste de hiptesis donde la hiptesis nula (Ho) es k=0.
Conocido el modo cmo funciona el software, pasaremos a continuacin a presentar
los distintos ndices obtenidos.
3 El programa, conocido como Fleiss v.1.0, y creado por el francs Philippe Bonnadel, puede obtenerse
en la direccin http://perso.worldonline.fr/kappa

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 97

6. EL PROCESO DE CONCORDANCIA ENTRE CODIFICADORES: CLCULO


DEL COEFICIENTE KAPPA DE FLEISS

Nuestro estudio se basa en un sistema de categoras conformado por tres dimensio-


nes. Cada dimensin comprende a su vez un nmero diferente de cdigos. El clculo
de Fleiss tuvo en cuenta la proporcin de posibles acuerdos que ocurrieron en cada
dimensin. As, por ejemplo, la dimensin cognitiva tuvo 250 codificaciones sobre un
total de 250 mensajes (codificacin excluyente). La pregunta que nos planteamos en
ese momento consisti en conocer cuntos desacuerdos y acuerdos se dieron para ese
nmero de mensajes. Recordamos que las dimensiones Social y Didctica (excepto
Enseanza Directa) incluyen cdigos que pueden formar parte de una codificacin
cruzada.
Como consideracin importante para el clculo de la concordancia, advertimos que
el sistema de categoras empleado comprende varios sistemas nominales. Las dimen-
siones Social y Didctica presentan sistemas nominales (como, por ejemplo, la categora
Afectiva) que lo diferencia del resto de los cdigos que definen cada dimensin. Esto
supuso que debiramos considerar Kappas particulares para los subsistemas nominales
de cada dimensin, ya que cada sistema nominal incluye una probabilidad de acuerdo
distinta.
Alcanzar una alta fiabilidad en el sistema de categoras result ser una tarea ardua
y repleta de continuas dificultades que debamos salvar. La preocupacin por lograr un
elevado acuerdo en las tareas de codificacin requiri de un gran esfuerzo de concen-
tracin y dedicacin, de igual forma que la construccin de las tablas para el clculo del
Coeficiente Kappa de Fleiss, en las diferentes versiones que fuimos obteniendo. El conjunto
de todo este proceso se realiz de un modo sistematizado.
En primer lugar, definimos lo que para el grupo de investigadores constitua un
acuerdo. De este modo, identificamos el acuerdo entre codificadores como la coincidencia
comn en la identificacin de los cdigos sobre los mismos eventos o hechos. En caso
contrario, entrbamos en situaciones de desacuerdo4.
Llegados a un consenso sobre cmo debamos los investigadores entender el acuerdo,
en un siguiente paso se defini lo que para el grupo de codificadores iba a constituir una
unidad de codificacin. En nuestro caso, el lmite de las unidades estaba perfectamente
delimitado por cada mensaje, independientemente de la extensin del contenido textual.
Por tanto, la concordancia no necesit demostrarse para la determinacin de lmites en
las unidades, esto es, establecimiento de unidades, sino para la asignacin de los cdigos,
es decir, codificacin de eventos, conductas y pensamientos.
Cabe mencionar que la estrategia de codificacin seguida atenda a una codificacin
mltiple5, donde los codificadores anotaban los diferentes eventos particulares que
ocurran en cada mensaje a partir de las tres dimensiones que conformaban el sistema
de categoras. Para este caso concreto, diversos autores afirman que es ms difcil la

4 Tambin denominada por Bakeman y Gottman (1989) como error de omisin o error de comi-
sin.
5 Bakeman y Gottman (1989) utilizan el trmino clasificacin de eventos de forma cruzada.

RIE, vol. 27-1 (2009)


98 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

TABLA 2
CLCULO DE LOS COEFICIENTES KAPPA DE FLEISS

ndice de Kappa Fleiss6 para el Sistema de Categoras (corregido 2)

Foro 3 (30 mensajes y n lneas entre 1681-2359) ~ 3 codificadores


Dimensin Cognitiva Dimensin Social Dimensin Didctica
(19 acuerdos) (10 acuerdos) (7 acuerdos y 8 acuerdos)
Resto de la Dimensin Enseanza Directa
k=0.64 k=0.33
k=0.23 k=0.27
k=0.37 (Kappa de Fleiss medio para la codificacin del foro 3)

ndice de Kappa Fleiss para el Sistema de Categoras (corregido 3)

Foro 5 (58 mensajes y n lneas entre 1-1215) ~ 3 codificadores


Dimensin Cognitiva Dimensin Social Dimensin Didctica
(35 acuerdos) (31 acuerdos) (20 acuerdos y 22 acuerdos)
Resto de la Dimensin Enseanza Directa
k=0.60 k=0.53
k=0.34 k=0.38
k=0.46 (Kappa de Fleiss medio para la codificacin del foro 5)

ndice de Kappa Fleiss para el Sistema de Categoras (corregido 4)

Foro 8 (98 mensajes y n lneas entre 1-1279) ~ 3 codificadores


Dimensin Cognitiva Dimensin Social Dimensin Didctica
(87 acuerdos) (91 acuerdos) (91 acuerdos y 93 acuerdos)
Resto de la Dimensin Enseanza Directa
k=0.67 k=0.62
k=0.58 k=0.65
k=0.63 (Kappa de Fleiss medio para la codificacin del foro 8)

ndice de Kappa Fleiss para el Sistema de Categoras (corregido 5, definitivo)

Todos los foros (10 foros: 2039 mensajes y n lneas entre 1-41348 lneas) ~ 3 cod.
Dimensin Cognitiva Dimensin Social Dimensin Didctica
(1936 acuerdos) (1950 acuerdos) (1923 acuerdos y 1944 acuerdos)
k=0.88 k=0.69 Resto de la Dimensin Enseanza Directa

k=0.64 k=0.87
k=0.77 (Kappa de Fleiss medio para la codificacin de todos los foros)

6 Las probabilidades que presentamos tras el clculo de Kappa de Fleiss aparecen redondeadas a dos
decimales.

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 99

determinacin de la concordancia; circunstancia por la que decidimos centrarnos en


el clculo estadstico de la fiabilidad para cada una de las tres dimensiones de forma
separada. De este modo obtuvimos una tabla Kappa para cada esquema de clasificacin
o dimensin: Cognitiva, Social, y dentro de Didctica consideramos dos opciones, una
primera para Enseanza Directa; y una segunda, llamada Resto, que se refera al conjunto
de categoras restantes que no inclua la Enseanza Directa.
En segundo lugar, identificamos y anotamos en diferentes tablas los acuerdos y
desacuerdos. Este procedimiento se llev a cabo mediante una actividad manual donde
para cada unidad codificada los tres codificadores fuimos sealando una marca sobre
el papel. Una vez finalizada cada una de las sesiones, se contabiliz las marcas que
indicaban acuerdos y desacuerdos en los cdigos dentro de cada unidad de registro
(mensaje) para facilitar la obtencin del valor de Kappa. A partir de este momento,
dichos datos constituyeron las cifras que fueron sustituidas en la frmula que final-
mente adoptamos.
A continuacin presentamos los clculos y resultados de todos los coeficientes
Kappa de Fleiss realizados durante las distintas subfases (estudio piloto y validacin
completa). Ms adelante, en el siguiente punto, nos detendremos en la interpretacin
de estos resultados.

7. VALORACIN DE LA FIABILIDAD DEL SISTEMA DE CATEGORAS

La disposicin para valorar algo implica necesariamente contar con criterios previos
que nos permitan enjuiciar aquello que es objeto de evaluacin. As, para interpretar el
valor del coeficiente Kappa, es til disponer de alguna escala de valoracin. En nuestra
revisin de la literatura hemos encontrado algunas aproximaciones que los autores
siempre proponen reconociendo cierta arbitrariedad.
Fleiss (1981) ofrece una clasificacin de los Kappas que nos puede ayudar a inter-
pretar los coeficientes obtenidos. Este autor caracteriza como Regulares los Kappas que
se hayan entre 0.40 y 0.60, Buenos de 0.61 a 0.75, y Excelentes por encima de 0.75.

TABLA 3
INTERPRETACIN DEL NDICE KAPPA DE FLEISS (FLEISS, 1981)

Interpretacin del ndice Kappa de Fleiss (Fleiss, 1981)


Valor de K Fuerza de concordancia
0.40 0.60 Regular
0.61 0.75 Buena
> 0.75 Excelente

RIE, vol. 27-1 (2009)


100 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

Por su parte, Altman (1991) propone una clasificacin algo ms amplia. Los coeficien-
tes registran valores que van desde 0 a 1, siendo 0 el valor donde hay mayor desacuerdo
entre investigadores y 1 el punto donde encontramos mayor acuerdo. Su clasificacin
indica que los Kappas pueden ser Pobres (0 a 0.20), Dbiles (0.21 a 0.40), Moderados (0.41
a 0.60), Buenos (0.61 a 0.80) y Muy buenos (0.81 a 1.00). Nosotros basaremos nuestras
interpretaciones en esta clasificacin, por ser ms completa. La siguiente tabla resume
su propuesta:

TABLA 4
INTERPRETACIN DEL NDICE KAPPA DE FLEISS (ALTMAN, 1991)

Interpretacin del ndice Kappa (Altman, 1991)


Valor de K Fuerza de concordancia
< 0,20 Pobre
0,21 0,40 Dbil
0,41 0,60 Moderada
0,61 0,80 Buena
0,81 1,00 Muy buena

Una de las ventajas que nos proporcionan las tablas Kappa es la representacin grfica
del desacuerdo. Una simple inspeccin ocular nos revela de inmediato cules fueron
los cdigos que presentaron una mayor confusin y cules casi nunca. Para optimizar
el clculo de Kappa de Fleiss, y con ello obtener versiones de los sistemas de categoras
ms fiables, pusimos especial atencin sobre los desacuerdos ms graves. De hecho, en

Figura 1
Valoracin de los coeficientes Kappa de Fleiss.

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 101

nuestra investigacin aparecieron continuos desacuerdos que abrieron diversos espacios


de discusin entre los investigadores para alcanzar un consenso comn.
Cuando hablamos de fiabilidad entendemos que cualquier investigador que utilice el
sistema de categoras tendra que obtener resultados fidedignos y rigurosos. Tambin
se refiere a que el sistema pueda ser aplicado a cualquier foro de discusin. Incluso que
sea aplicado por un mismo investigador en distintos momentos.
Teniendo claro lo anterior, nos disponemos a representar grficamente los distintos
Kappas hallados, en funcin de las diferentes reuniones y sistemas de categoras utili-
zados en cada subfase del proceso de validacin. En la figura 1 describimos todos los
Kappas, teniendo en cuenta la clasificacin de la interpretacin de Altman (parte supe-
rior de la grfica), y los valores k alcanzados en cada reunin, dependiendo del sistema
de categoras empleado en cada caso.
Observamos que en la primera validacin del estudio piloto (tercera reunin), donde
utilizbamos el Sistema Corregido 2 para codificar una parte seleccionada al azar del
foro 3, obtuvimos el Coeficiente Kappa 1 con un valor k=0.37. Segn la clasificacin de
Altman, estamos ante un Kappa dbil, que implica poco acuerdo entre codificadores,
llevndonos a un concepto bajo de fiabilidad.
Esto nos condujo a continuar con un nuevo proceso de validacin en el estudio
piloto (segunda validacin). Tomando el Sistema corregido 3 codificamos el foro 5 (cuarta
reunin), alcanzando un valor k=0.46 (Coeficiente Kappa 2). Esto se traduce en un Kappa
moderado, que aunque supera al valor anterior, no logra un acuerdo satisfactorio para
asegurar la fiabilidad.
Pasamos a una tercera validacin en el estudio piloto. Fue codificado el foro 8
empleando el Sistema corregido 4. El valor del Coeficiente Kappa 3 fue de k=0.63, que nos
llevaba a un nivel bueno en la clasificacin de Altman. Esto proporcion una confianza
mayor en el acuerdo entre codificadores al haber logrado un Kappa aceptable. Por ende,
se tom la decisin de finalizar el estudio piloto y pasar a la codificacin completa de
todos los foros con el sistema de categoras resultante (hechas las oportunas modifica-
ciones).
Por ltimo, en la sexta y ltima reunin de codificacin, pusimos en comn todas
las codificaciones de la muestra completa de foros. Se realizaron con el Sistema corregido
5 (definitivo). Alcanzamos el nivel bueno en la clasificacin de Altman, con un valor
k=0.77 (Coeficiente Kappa 4). Podemos concluir que logramos un acuerdo alto y fiable
entre los tres codificadores.

8. CONCLUSIONES

En este artculo hemos contribuido a clarificar el modo de cmo realizar el clculo de


la fiabilidad y la concordancia entre codificadores en estudios donde se toma el anlisis
de contenido y/o anlisis del discurso como tcnicas principales de investigacin. Los
estudios revisados nos indican que el clculo de la fiabilidad se ha venido obteniendo
a partir del acuerdo entre dos codificadores, utilizando para tal fin el ndice Kappa
de Cohen. Es por ello que en este trabajo hayamos querido mostrar en detalle el pro-
cedimiento para el clculo de la fiabilidad en aquellos casos en los que el nmero de
codificadores que intervienen es mayor que dos.

RIE, vol. 27-1 (2009)


102 Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

Figura 2
Fiabilidad, concordancia y credibilidad de la investigacin.

Tomando la valoracin de nuestros coeficientes kappa, mostramos la figura 2 que


simplifica la relacin entre los conceptos de fiabilidad, concordancia y credibilidad de
nuestra investigacin.
La concordancia, que mide el acuerdo entre los investigadores, llega por los distintos
coeficientes Kappa que hemos hallado (cuatro en total). El valor ascendente que hemos
ido consiguiendo, pasando de un nivel dbil (k=0.37) a uno bueno (k=0.77), nos ofrece
adems una fiabilidad alta del sistema de categoras. Esto nos asegura que cualquier
investigador puede alcanzar resultados semejantes al aplicarlo a otros foros online en los
que tengan lugar procesos de enseanza-aprendizaje mediante e-Learning, as como en
diferentes momentos (evitando el deterioro de la fiabilidad). Por su parte, la credibilidad
nos viene proporcionada por las continuas revisiones y reuniones mantenidas durante
el proceso de construccin del sistema de categoras. De este modo, se garantiza que las
interpretaciones puedan ajustarse a la realidad estudiada.

9. REFERENCIAS BIBLIOGRFICAS

ALTMAN, D.G. (1991). Practical statistics for medical research. New York: Chapman
and Hall.
ARCHER, W. et al. (2001). A framework for analysing critical thinking in computer
conferences. Paper presented at EURO-CSCL Conference 2001 (21-24 marzo).
Maastricht (Holanda). http://www.ll.unimaas.nl/euro-cscl/ programme.htm
(25/01/2008).
BAKEMAN, R. y GOTTMAN, J.M. (1989). Observacin de la interaccin: introduccin
al anlisis secuencial. Madrid: Morata.
CAPOZZOLI, M., McSWEENEY, L. & SINHA, D. (1999). Beyond kappa: A review of
interrater agreement measures. The Canadian Journal of Statistics, 27(1), 3-23.
COHEN, J. (1960). A coefficient of agreement for nominal scales. Educational and
Psychological Measurement, 20, 37-46.

RIE, vol. 27-1 (2009)


Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio 103

DONOSO, T., FIGUERA, P. y TORRADO, M. (2000). Anlisis y validacin de una escala


para medir la conducta exploratoria. Revista de Investigacin Educativa, 18 (1),
201-220.
FLEISS, J.L. (1981). Statistical methods for rates and proportions. New York: John Wiley
and Sons.
GARCIA, R. (2004). Diagnstico de la Teleformacin: construccin y validacin de un
escalograma Guttman. Revista de Investigacin Educativa, 22 (1), 277-302.
GOETZ, J.P. y LeCOMPTE, M.D. (1988). Etnografa y diseo cualitativo en investigacin
cualitativa. Madrid: Morata.
JONASSEN, D. & REMIDEZ, Jr., H. (2005). Mapping alternative discourse structures
onto computer conferences. International Journal Knowledge and Learning, 1 (1/2),
113-129.
MARRA, R.M.; MOORE, J.L. & KLIMCZAK, A.K. (2004). Content analysis of online
discussion forums: a comparative analysis of protocols. Educational Technology
Research and Development (ETR&D), 52(2), 23-40.
McMILLAN, J.H. y SCHUMACHER, S. (2005). Investigacin educativa. 5 ed. Madrid:
Pearson Educacin.
PATTON, M.Q. (1990). Qualitative evaluation and research methods. 2nd ed. Beverly
Hills: Sage Publications.
ROURKE, L. et al. (2001a). Methodological issues in the content analysis of computer
conference transcripts. International Journal of Artificial Intelligence in Education,
12, 8-22.
ROURKE, L. et al. (2001b). Assessing social presence in asynchronous text-based computer
conferencing. Journal of Distance Education / Revue de lenseignement distance,
14 (2). http://cade.athabascau.ca/vol14.2/rourke_et_al.html (25/01/2008)
SANDIN, M.P. (2000). Criterios de validez en la investigacin cualitativa: de la
objetividad a la solidaridad. Revista de Investigacin Educativa, 18 (1), 223-242.
TORRES, J.J. & PERERA, V.H. (2005). Studying Collaborative Learning in Online
Discussion Forums. In ICTE in Regional Development, 118-121. Valmiera (Latvia):
Vidzeme University College.

Fecha de recepcin: 13 de mayo de 2008.


Fecha de aceptacin: 16 de diciembre de 2008.

RIE, vol. 27-1 (2009)


View publication stats

Вам также может понравиться