You are on page 1of 4

Coeficiente kappa de Cohen

El Coeficiente kappa de Cohen es una medida estadstica que ajusta el efecto


del azar en la proporcin de la concordancia observada1 para elementos
cualitativos (variables categricas). En general se cree que es una medida ms
robusta que el simple clculo del porcentaje de concordancia, ya que tiene en
cuenta el acuerdo que ocurre por azar. Algunos investigadores2 han expresado
su preocupacin por la tendencia de a dar por seguras las frecuencias de las
categoras observadas, lo que puede tener el efecto de subestimar el acuerdo
para una categora de uso habitual; por esta razn, se considera una medida
de acuerdo excesivamente conservadora.

Otros discuten la afirmacin de que kappa "tiene en cuenta" la posibilidad de


acuerdo. Para hacerlo con eficacia se requerira un modelo explcito de cmo
afecta el azar a las decisiones de los observadores. El llamado ajuste por azar
del estadstico kappa supone que, cuando no estn absolutamente seguros, los
evaluadores simplemente aventuran una respuesta (un escenario muy poco
realista).

ndice [ocultar]
1

Clculo

Ejemplo

2.1

Los mismos porcentajes pero diferentes nmeros

Referencias

Clculo[editar]
El Coeficiente kappa de Cohen mide el acuerdo entre dos observadores en sus
correspondientes clasificaciones de N elementos en C categoras mutuamente
excluyentes. La primera mencin de un estadstico similar a kappa se atribuye
a Galton (1892),4 vase Smeeton (1985).5

La ecuacin para es:

{\displaystyle \kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}},\!} {\displaystyle


\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}},\!}
donde Pr (a) es el acuerdo observado relativo entre los observadores, y Pr (e)
es la probabilidad hipottica de acuerdo por azar, utilizando los datos
observados para calcular las probabilidades de que cada observador clasifique
aleatoriamente cada categora. Si los evaluadores estn completamente de

acuerdo, entonces = 1. Si no hay acuerdo entre los calificadores distinto al


que cabra esperar por azar (segn lo definido por Pr (e)), = 0.

El artculo pionero que introdujo kappa como nueva tcnica fue publicado por
Jacob Cohen en la revista Educational and Psychological Measurement en
1960.6

Un estadstico similar, llamado pi, fue propuesto por Scott (1955). Kappa de
Cohen y pi de Scott difieren en cuanto a la forma de clculo de Pr(e).

Hay que tener en cuenta que la kappa de Cohen slo mide el acuerdo entre dos
observadores. Para una medida de acuerdo similar ( kappa de Fleiss ) utilizada
cuando hay ms de dos observadores, vase Fleiss (1971). La Kappa de Fleiss,
sin embargo, es una generalizacin para mltiples observadores del estadstico
pi de Scott, y no de la kappa de Cohen.

Ejemplo[editar]
Se tiene un grupo de 50 personas que presentan una solicitud de subvencin.
Cada propuesta de subvencin es analizada por dos evaluadores que anotan
un "S" o un "No", segn acepten o rechacen, respectivamente, la solicitud. El
resultado del anlisis de cada solicitud genera la tabla siguiente, en la que A y
B denotan a cada uno de los dos evaluadores:

B
S

No

20

No

10

15

Los datos situados en la diagonal formada por los valores 20 y 15, representan
el nmero de solicitudes en el que hay concordancia entre ambos evaluadores.
Mientras que la diagonal formada por los valores de 10 y 5, representan los
casos en los que hay discordancia entre los evaluadores.

Ahora pues, teniendo en cuenta que de las 50 solicitudes, 20 fueron aceptadas


y 15 rechazadas por ambos evaluadores. El porcentaje de acuerdo observado
es:

{\displaystyle \Pr(a)={\frac {20+15}{50}}=0.70\!} {\displaystyle


\Pr(a)={\frac {20+15}{50}}=0.70\!}
Para calcular Pr(e), es decir, la probabilidad de que el acuerdo entre
evaluadores se deba al azar, se advierte que:

El evaluador A acepta (dice "S") 25 solicitudes y rechaza (dice "No") 25. Es


decir, el evaluador A dice "S" el 50% de las veces.
El evaluador B acepta (dice "S") 30 solicitudes y rechaza (dice "No") 20. Es
decir, el evaluador B dice "S" el 60% de las veces.
Por lo tanto, la probabilidad de que ambos evaluadores digan "S" al azar es:

{\displaystyle \Pr(A)*\Pr(B)=0.50*0.60=0.30\!} {\displaystyle


\Pr(A)*\Pr(B)=0.50*0.60=0.30\!}
Y la probabilidad de que ambos lectores digan "No" al azar es:

{\displaystyle \Pr(A)*\Pr(B)=0.50*0.40=0.20\!} {\displaystyle


\Pr(A)*\Pr(B)=0.50*0.40=0.20\!}
Teniendo en cuenta lo anterior, el valor de Pr(e) se calcula como la suma de las
probabilidades de decir "S" y "No" al azar:

{\displaystyle \Pr(e)=0.30+0.20=0.50\!} {\displaystyle


\Pr(e)=0.30+0.20=0.50\!}
Aplicando los valores de Pr(a) y Pr(e) en la frmula de Kappa de Cohen se
obtiene:

{\displaystyle \kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}}={\frac {0.70-0.50}{10.50}}=0.40\!} {\displaystyle \kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}}={\frac


{0.70-0.50}{1-0.50}}=0.40\!}
Los mismos porcentajes pero diferentes nmeros[editar]
Un caso que a veces se considera un problema con la Kappa de Cohen se
produce al comparar las Kappas calculadas para dos pares de evaluadores,
ambos pares de evaluadores tienen el mismo porcentaje de acuerdo, pero los
evaluadores de uno de los pares tienen una distribucin de calificaciones
similar, mientras los evaluadores del otro par tienen una distribucin de
calificaciones muy diferente.7 Por ejemplo, en las dos tablas siguientes el
acuerdo entre A y B es similar (en ambos casos, 60 de cada 100), por lo tanto

cabra esperar que los valores correspondientes de Kappa reflejaran esta


similitud. Sin embargo, al calcular Kappa para cada tabla:

No

45

15

No

25

15

{\displaystyle \kappa ={\frac {0.60-0.54}{1-0.54}}=0.1304} {\displaystyle


\kappa ={\frac {0.60-0.54}{1-0.54}}=0.1304}
S

No

25

35

No

35

{\displaystyle \kappa ={\frac {0.60-0.46}{1-0.46}}=0.2593} {\displaystyle


\kappa ={\frac {0.60-0.46}{1-0.46}}=0.2593}
Referencias[editar]
Volver arriba Carletta, Jean. (1996) Assessing agreement on classification
tasks: The kappa statistic. Computational Linguistics, 22(2), pp. 249254.
Volver arriba Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). Content
analysis: What are they talking about?. Computers & Education 46: 29-48.
doi:10.1016/j.compedu.2005.04.002.
Volver arriba Uebersax, JS. (1987). Diversity of decision-making models and
the measurement of interrater agreement (PDF). Psychological Bulletin 101:
140-146. doi:10.1037/0033-2909.101.1.140.
Volver arriba Galton, F. (1892). Finger Prints Macmillan, London.
Volver arriba Smeeton, N.C. (1985). Early History of the Kappa Statistic.
Biometrics 41: 795.
Volver arriba Cohen, Jacob (1960). "A coefficient of agreement for nominal
scales". Educational and Psychological Measurement 20 (1): 3746.
doi:10.1177/001316446002000104
Volver arriba Kilem Gwet (May 2002). Inter-Rater Reliability: Dependency on
Trait Prevalence and Marginal Homogeneity. Statistical Methods for Inter-Rater
Reliability Assessment 2: 1-10.