Вы находитесь на странице: 1из 24

Medidas de Correlacin

7
Solomon Fabricant

todo el mundo parece hoy coincidir en que la estadstica puede ser til para comprender, evaluar y controlar el funcionamiento de la sociedad

Cuando tratamos de buscar relaciones entre diversas variables, nos encontramos dentro del rea de la correlacin. Para expresar cuantitativamente el grado en que dos variables estn relacionadas, es necesario calcular un coeficiente de correlacin. Existen muchos tipos de coeficiente de correlacin. La decisin de cul se ha de emplear para un conjunto especfico de datos depende de factores tales como: (1) el tipo de escala de medida en que cada variable est expresada (nominal, ordinal, intervalo o razones); (2) la naturaleza de la distribucin (continua o discreta); (3) la caracterstica de la correlacin (lineal o no lineal). Aunque el anlisis de correlacin es interesante, las conclusiones pueden ser muy precipitadas. Primero que nada, el hecho de encontrar una fuerte asociacin entre dos variables, no implica que necesariamente dicha relacin sea de carcter causal. Dado que el anlisis de correlacin se utiliza mayormente en estudios donde no es posible manipular libremente la variable independiente, puede introducirse el efecto de terceras variables, siendo stas responsables de la correlacin observada. En segundo lugar, si no se examina la naturaleza de la relacin entre dos variables, podra aplicarse una tcnica propia para tendencias lineales a una de ndole curvilneo (no lineal) o viceversa. En ambos casos es posible que no se encuentre correlacin cuando realmente existe. Sea cual sea la tcnica de correlacin que se use, lo fundamental es que todas tienen ciertas caractersticas comunes:

198

Arnaldo Torres Degr y Evelyn Afanador Mejas

1.

Los valores de los coeficientes de correlacin varan entre negativo uno (-1.00) y positivo uno (+1.00). Ambos extremos representan relaciones perfectas entre las variables, y 0.00 representa la ausencia de asociacin. Una relacin positiva o directa significa que los individuos que obtienen calificaciones altas en una variable tienden a obtener calificaciones altas en la otra, es decir, cuando X aumente, Y aumenta. La aseveracin contraria tambin es vlida; es decir, los individuos que obtienen calificacin baja en una variable tienden a obtener calificacin baja en la otra, es decir, cuando disminuye X, Y disminuye Una relacin negativa o inversa significa que los individuos que obtienen calificacin baja en una variable tienden a obtener calificacin alta en la segunda variable y viceversa. Es inversa cuando las variables se mueven en direcciones opuesta; esto es, cuando X aumente, Y se reduce o viceversa.

2.

. 3.

La relacin directa o inversa slo es posible en situaciones donde las escalas son ordinales, de intervalos o de razones y cuando la naturaleza de la relacin es lineal. Si las escalas son nominales, no hay gradacin numrica; por lo tanto, el coeficiente a obtenerse no puede interpretarse como indicando relacin directa o inversa. Ms an, los coeficientes que se obtienen para estas variables suelen ser siempre positivos (cero 0" hasta uno positivo +1"). Con miras a operacionalizar la interpretacin de los ndices de correlacin (Champion, 1981) se sugiere la siguiente clasificacin:

0.00 a .25 baja o ninguna correlacin 0.26 a .50 correlacin moderada baja 0.51 a .75 correlacin moderada alta 0.76 a 1.00 alta a perfecta correlacin

Con el propsito de introducir el tema sobre la correlacin y a tenor con el inters de seguir desarrollando todas aquellas tcnicas que estn asociadas a las variables cualitativas, introduciremos los siguientes coeficientes de correlacin: el coeficiente PHI y el coeficiente de V de Cramer.

Medidas de Correlacin 199

[7.1] Coeficiente de Correlacin PHI


Los coeficientes de correlacin aplicados a las variables cualitativas no deben interpretarse como si estos indicaran direccin de la relacin puesto que los mismos nicamente sealan intensidad de la asociacin. Para poder correlacionar es necesario observar las tabulaciones cruzadas. Una tabulacin 2x2 implica dos (2) variables dicotmicas, es decir, con dos (2) categoras por variable.

Figura 7.1 Estructura de una tabla de dos por dos


Variable B Categora 1 Categora 2 TOTALES Variable A Categora 1 Celda A Celda C A+C Categora 2 Celda B Celda D B+D TOTALES A+B C+D N

El coeficiente de correlacin frecuentemente utilizado para determinar la intensidad de la asociacin es el coeficiente PHI. El coeficiente de correlacin de PHI el smbolo asignado es . El coeficiente flucta entre cero (0) y uno (1). Segn se acerca a cero (0), ms baja es la asociacin entre las variables. Las variables no estn afectadas o relacionadas entre si, estableciendo que las variables seran independientes. Si el coeficiente es igual a uno (1) lo que podemos sugerir es que las dos (2) variables estn relacionadas o asociadas, es decir, las variables son dependientes. La forma operacional del coeficiente de PHI (), puede desarrollarse bajo dos (2) circunstancias: 1. Si los totales de las lneas y columnas son iguales, (Snchez, 1992) el coeficiente se obtendra de la siguiente manera;

200

Arnaldo Torres Degr y Evelyn Afanador Mejas

[ AD BC ] (A + C) (B + D) (C + D) (A + B)

2. Si los totales de las lneas y columnas no son iguales entonces ser necesario ajustar el coeficiente obtenido, siendo la frmula de la siguiente manera :

obtenido =
donde:

[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)

= Coeficiente de correlacin de PHI AD = La multiplicacin del valor o frecuencia observada en la celda A por el valor o frecuencia observada en la celda D BC = La multiplicacin del valor o frecuencia observada en la celda B por el valor o frecuencia observada en la celda C. AD - BC = Valor absoluto de AD menos BC. El valor absoluto implica que si el resultado de la resta diera negativo se debe cambiar a positivo. A+B = La suma de los valores o frecuencias observadas de las celdas A y B. C+D = La suma de los valores o frecuencias observadas de las celdas C y D. A+C = La suma de los valores o frecuencias observadas de las celdas A y C. B+D = La suma de los valores o frecuencias observadas de las celdas B y D. n = Es el total de casos o frecuencias.

Medidas de Correlacin 201

La ltima situacin ser elaborada en el texto porque usualmente los totales de las lneas y columnas de las variables dicotmicas organizadas en tablas de 2x2 son diferentes. Para lograr un anlisis completo de dicho coeficiente debemos completar tres (3) pasos: el coeficiente de PHI obtenido, el coeficiente de PHI mximo y el coeficiente de PHI corregido, siendo el ltimo paso donde se realiza el anlisis. Para poder comprender el coeficiente de correlacin de PHI analizaremos el siguiente caso. En el 1998, bajo el auspicio de la Vicepresidencia de Asuntos Estudiantiles de la Pontificia Universidad Catlica de Puerto Rico, Recinto de Ponce, se realiz un trabajo de campo titulado Estudio Descriptivo sobre las Caractersticas y Percepciones de los Estudiantes Subgraduados, PUCPR, Recinto de Ponce, PR, 1998 (Vera, 1998). Una de las preguntas realizadas en el estudio fue sobre el consumo de alcohol. La respuesta de la muestra de estudiantes subgraduado por gnero fue la siguiente: Alcohol Consumo No consumo TOTAL
3 casos no informaron

Hombres 47 (A) 105 (C) 152 (A + C)

Mujeres 182 (B) 140 (D) 322 (B + D)

TOTAL 229 (A + B) 245 (C + D) 474 (n)

Supongamos que usted quisiera conocer si el consumo de alcohol entre los estudiantes universitarios subgraduado de la Pontificia Universidad Catlica de Puerto Rico, Recinto de Ponce, para el ao 1998, vara en funcin del gnero. Para el primer paso tendramos que buscar el coeficiente de obtenido

202

Arnaldo Torres Degr y Evelyn Afanador Mejas

obtenido =

[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)

obtenido =

[ (47) (140) (182) (105) .5 (474) ] (229) (245) (152) (322)

obtenido =

[(6,580) (19,110) 237 ] 2,746,003,120 [12,530 237 ] 2,746,003,120

obtenido =

obtenido =

[+12,530 237 ] 2,746,003,120

obtenido =

12,293 52,402.3197 .234588

obtenido = obtenido =

.23

Luego de conseguir el coeficiente de obtenido, obtener el coeficiente de mximo. La frmula de mximo sera:

Medidas de Correlacin

203

mximo =

[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)

donde:

Es necesario reorganizar la tabla original con el propsito de obtener el valor mximo que podra alcanzar PHI (). El procedimiento para obtener el coeficiente de mximo sera de la siguiente forma:

Primer Paso: Eliminar los valores originales que se encuentran en las celdas A;
B; C y D. Se tiene que mantener los subtotales de las columnas y las lneas y no se debe alterar bajo ninguna circunstancia. Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)

Segundo Paso: De las cuatros celdas hay que seleccionar una, utilizando las
siguientes estrategias. a. Comenzaremos con las columnas que estn representando las categoras de la variable gnero. La columna que representa la categora hombre est compuesta de las celdas (A) y (C). La columna que representa la categora mujer est compuesta de las celdas (B) y (D). En esta fase se eliminarn dos celdas. Las celdas que estn localizadas en la columna con el subtotal ms alto sern seleccionadas, mientras las celdas que estn localizadas en la columna con el subtotal ms bajo sern eliminadas. Observemos que la primera columna (hombres) tiene un total de 152 y la segunda columna (mujeres) tiene un total de 322. El subtotal mayor recae en la segunda columna (mujeres) con 322 casos. Esto significa que la celda (B) o la celda (D) han sido

204

Arnaldo Torres Degr y Evelyn Afanador Mejas

seleccionadas, mientras que las celdas (A) y (C) sern eliminadas. No obstante, de las celdas seleccionadas ( B o D), una ser escogida y la otra ser eliminada. Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)

b. Para proseguir con la eliminatoria comenzaremos con las lneas que


estn representando las categoras de la variable alcohol. La columna que representa la categora consume est localizada una de las dos celdas seleccionas, celda (B). La columna que representa la categora no-consume est localizada en una de las dos celdas seleccionadas, celdas (D). En esta fase se elimina una de las dos celdas (B o D). La celda que est localizada en el subtotal ms alto de las lneas ser seleccionada, mientras la celda que est localizada en la lnea con el subtotal ms bajo ser eliminado. Observemos que la primera lnea (consume) tiene un total de 229 y en la segunda lnea (no-consume) tiene un total de 245. El subtotal mayor recae en la segunda lnea (no-consume) con 245 casos. Esto significa que la celda (D) ha sido seleccionada, mientras que la celda (B) ser eliminada. Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)

Tercer Paso: Buscar que valor tendr la celda seleccionada. En dicha celda
se colocar el valor menor entre el subtotal mayor de columna vs. el subtotal mayor de lnea. Segn en el paso anterior se pudo determinar que la celda seleccionada era la (D).El subtotal mayor de la columna que corresponde a la categora mujeres fue de 322. El subtotal mayor de la lnea que corresponde a

Medidas de Correlacin

205

la categora no-consume fue de 245. De esos dos subtotales seleccionados el menor corresponde a la categora no-consume con 245. Est valor ser ubicado en la celda (D). Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) 245 (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)

Cuarto Paso: Una vez se tiene la primera cantidad en la celda seleccionada,


las dems cantidades se obtendrn por diferencias, es decir, usando la operacin de recta. Las sumas de las celdas tienen que corresponder con los subtotales de las columnas y lneas. Ya obtenido el valor o cantidad en la celda (D) podemos sealar que para mantener el subtotal de la lnea que corresponde a la categora no-consume (245) la celda C tiene que ser cero (0). Por diferencia, si la celda C es igual a cero (0), la celda A tiene que ser 152, para mantener el subtotal de la columna inalterable (152). Para mantener el subtotal de la lnea que corresponde a la categora consume (229), la celda B tiene que ser 77.

Alcohol Consumo No consumo TOTAL

Hombres 152 (A) 0 (C) 152 (A + C)

Mujeres 77 (B) 245 (D) 322 (B + D)

TOTAL 229 (A + B) 245 (C + D) 474 (n)

Con la tabla reorganizada podemos buscar el coeficiente de mximo de la siguiente forma:

206

Arnaldo Torres Degr y Evelyn Afanador Mejas

maximo =

[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)

maximo =

[ (152) (245) (77) (0) .5 (474) ] (229) (245) (152) (322)

maximo =

[37,240 0 237 ] 2,746,003,120 [37,240 237 ] 2,746,003,120

maximo =

maximo = maximo = maximo =

37,003 52,402.3197 .70613

.71

Con el coeficiente de obtenido y el coeficiente de mximo podemos buscar el coeficiente corregido de . Dicho coeficiente se obtiene dividiendo el coeficiente obtenido con el coeficiente mximo, es decir: obtenido mximo

corregido =

Medidas de Correlacin

207

Teniendo los dos coeficientes necesarios para obtener el coeficiente corregido, el clculo sera de la siguiente forma y se sugiere que existe una correlacin moderada baja de .32 entre el consumo de alcohol y el gnero de los estudiantes universitarios subgraduados de la PUCPR, Recinto de Ponce, PR, para el ao 1998.

corregido =

obtenido mximo .23 .71 .32

corregido =

corregido =

208

Arnaldo Torres Degr y Evelyn Afanador Mejas

Medidas de Correlacin

209

Ejercicios de Coeficiente de PHI


Favor de identificar las hojas de ejercicios y elaborar todos los problemas segn lo establecido en el texto. Desprenda las hojas de ejercicios y entrguelas al profesor, SI FUESE NECESARIO.

NOMBRE: NUMERO DE ESTUDIANTE:

FECHA: _______________ SECCION: ___________

Ejercicio 7.1.1 Frecuencia de la opinin de estudiantes universitarios subgraduados si el alcohol debe estar disponible en las fiestas, Pontificia Universidad Catlica de Puerto Rico, Recinto de Ponce,1992

Alcohol Disponible No-disponible TOTAL

Hombre 71 61 132

Mujer 79 202 281

TOTAL 150 263 413

[7.1.1.a] Favor de calcular el coeficiente de Phi obtenido.

210

Arnaldo Torres Degr y Evelyn Afanador Mejas

Alcohol Disponible No-disponible TOTAL

Hombre

Mujer

TOTAL 150 263

132

281

413

[7.1.1.b] Favor de calcular el coeficiente de Phi mximo. Complete las celdas para poder elaborar el ejercicio.

[7.1.1.c] Favor de calcular y analizar el coeficiente de Phi corregido.

Medidas de Correlacin

211

Ejercicio 7.1.2 Frecuencia sobre la percepcin de la pena de muerte como reductor de la criminalidad, estudiantes de criminologa por zona residencial, Puerto Rico, 1995.

Pena de muerte como reductor de la criminalidad Si No TOTAL


Ejercicio hipotticos

Urbano 90 10 100

Rural 7 113 120

TOTAL 97 123 220

[7.1.2.a] Favor de calcular el coeficiente de Phi obtenido.

212

Arnaldo Torres Degr y Evelyn Afanador Mejas

Pena de muerte como reductor de la criminalidad Si No TOTAL


Ejercicio hipotticos

Urbano

Rural

TOTAL

97 123 100 120 220

[7.1.2.b] Favor de calcular el coeficiente de Phi mximo. Complete las celdas para poder elaborar el ejercicio.

[7.1.2.c] Favor de calcular y analizar el coeficiente de Phi corregido.

Medidas de Correlacin

213

[7.2.] Coeficiente de Correlacin de V de CRAMER


Si usted quisiera sacar una correlacin y una de las variables tiene ms de dos (2) categoras, no sera posible desarrollar el coeficiente de correlacin de PHI (). Un cruce de variable que genere una tabla mayor de 2 x 2, no podr aplicarse la tcnica de coeficiente de correlacin de PHI (). No obstante, el coeficiente de correlacin V de Cramer puede sustituir el coeficiente de correlacin de PHI (), cuando tengamos un cruce de variable que genere una tabla mayor de 2 x 2 y por lo menos una de las variables esta bajo la escala nominal. La notacin del coeficiente de V de Cramer es:

2 = n(k 1)

donde;

V = coeficiente de correlacin de Cramer = Chi cuadrado k = nmero de lneas o columnas; lo que sea menor De todos los nacimientos ocurridos en Puerto Rico para el ao 1993, unos 39,322 nacimientos ocurrieron en los hospitales pblicos y 25,622 nacimientos ocurridos en hospitales privados. Si usted como investigador quisiera saber si los nacimientos ocurridos en diversos sectores de servicios (pblicos o privados) de Puerto Rico para el ao 1993, est asociada a la escolaridad de la madre, podemos buscar el coeficiente de correlacin V de Cramer.

214

Arnaldo Torres Degr y Evelyn Afanador Mejas

Escolaridad 0 - 11 12 + 13 TOTAL

Pblico
a

Privado
d

TOTAL 21,097 17,901 25,946 64,944 (N)

19,260 12,385 7,677 39,322

1,837 5,516 18,269

25,622

Para poder obtener el coeficiente de correlacin V de Cramer debemos obtener el chi cuadrado , siendo sta la frmula:

2 =
donde;

(o - e)2 e

o =

Frecuencia observada es el valor, cantidad o casos en cada una de las celdas. La o es un dato suministrado por la tabla. Por ejemplo, la o de la celda de las madres de 0 a 11 aos de escolaridad que tuvieron sus hijos en hospitales pblicos fue de 19,260 casos. Frecuencia esperada es un valor que se calcular en cada celda que tenga una o. Para obtener la e es meritorio reconocer que cada celda esta localizada en una columna que tiene un subtotal y en una lnea que tiene un subtotal. Por consiguiente, se multiplica el subtotal de columna por el subtotal de lnea que le corresponda a la celda de inters. Obtenido el resultada el mismo se divide por N. La frmula puede ser presentada de la siguiente manera:

e =

e =

(Subtotal de columna) (Subtotal de lnea)

Medidas de Correlacin

215

Notemos que sin contar las celdas de los subtotales, existen seis (6) celdas con sus respectivas frecuencia observada (o). Para cada o se debe buscar la frecuencia esperada (e). Por ejemplo, en la celda (a) con una o de 19,260 se puede obtener la e de la siguiente forma: multiplicando el subtotal de la columna que corresponde a la celda a (39,322) por el subtotal de la lnea que le corresponde a la celda a (21,097); dividido por el total del universo (N= 64,944), es decir: e = (subtotal de columna) (subtotal de lnea) N

e a = (39,322)(21,097)
64,944 e a = 12,773.72

Las dems celdas se obtienen de la misma manera:


e b (39,322) (17,901) 64,944 = 10,838.62 e c (39,322) (25,946) 64,944 = 15,709.67 e d (25,622) (21,097) 64,944 = 8,323.28 e e (25,622) (17,901) 64,944 = 7,062.38 e f (25,622) (25,946) 64,944 = 10,236.33

Para efectos prcticos se recomienda que al lado de la o se coloque la e: Escolaridad 0 - 11 12 +13 TOTAL
a

Pblico 19,260(12,773.72) 12,385(10,838.62) 7,677(15,709.67) 39,322


d

Privado 1,837(8,323.28) 5,516(7,062.38) 18,269(10,236.33) 25,622

TOTAL 21,097 17,901 25,946 64,944 (N)

216

Arnaldo Torres Degr y Evelyn Afanador Mejas

Luego de obtener la e para cada celda podemos realizar el siguiente clculo por celda para obtener el Chi-cuadrado :

(o e) e celda d = ( 1,837 - 8,323.28 ) 8,323.28 = 5,054.72 celda e = ( 5,516 - 7,062.38 ) 7,062.38 = 338.60 celda f = ( 18,269 - 10,236.33 ) 10,236.33 = 6,303.41

celda a = ( 19,260 - 12,773.72 ) 12,773.72 = 3,293.62 celda b = ( 12,385 - 10,838.62 ) 10,838.62 = 220.63 celda c = ( 7,677 - 15,709.67 ) 15,709.67 = 4,107.27

= ( 3,293.62 + 220.63 + 4,107.27 + 5,054.72 + 338.60 + 6,303.41 ) = 19,318.25

Obtenido

el

podemos

buscar

el

V= V=

n (k 1) 19,318.25 64,944 (2-1) 19,318.25 64,944 .2974601 = .55

coeficiente de correlacin de V de Cramer. La correlacin de V de Cramer fue .55 y podemos sugerir que existe una correlacin moderada alta entre los nacimientos ocurridos en diversos sectores de servicios (pblico o privado) de Puerto Rico para el ao 1993 y la escolaridad de la madre.

V= V=

Medidas de Correlacin

217

Ejercicios de V de Cramer
Favor de identificar las hojas de ejercicios y elaborar todos los problemas segn lo establecido en el texto. Desprenda las hojas de ejercicios y entrguelas al profesor, SI FUESE NECESARIO.

NOMBRE: NUMERO DE ESTUDIANTE:

FECHA: _______________ SECCION: ___________

Ejercicio 7.2.1 Segn la data del Departamento de Salud de Puerto Rico para el ao 1990 podemos observar los nacimientos ocurridos por la escolaridad de la madre y el tipo de hospital usado. Favor de calcular y analizar la correlacin de V de Cramer.

Escolaridad 0 - 11 12 + 13 TOTAL

Pblico
a b c

Privado
d e f

TOTAL 22,167 18,903 25,191 66,261 (N)

20,292 12,745 7,733

1,875 6,158 17,458

40,770

25,491

218

Arnaldo Torres Degr y Evelyn Afanador Mejas

Ejercicio 7.2.2 Segn la data del Departamento de Salud de Puerto Rico para el ao 1987 podemos observar los nacimientos ocurridos por la escolaridad de la madre y el tipo de hospital usado. Favor de calcular y analizar la correlacin de V de Cramer.

Escolaridad 0 - 11 12 + 13 TOTAL

Pblico
a b c

Privado
d e f

TOTAL 23,156 18,893 22,023 64,072 (N)

21,132 12,769 7,802

2,024 6,124 14,221

41,703

22,369

Medidas de Correlacin

219

[7.3] Frmulas
Coeficiente de Phi = [ AD BC ] .5 (n) (A + C)(B + D)(C + D)(A + B)

Coeficiente de Phi corregido corregido = obtenido mximo

V de Cramer 2 n(k 1) Ji Cuadrado (o - e)2 e

2 =

Frecuencia esperada

e =

(Subtotal de columna) N

(Subtotal de lnea)

220

Arnaldo Torres Degr y Evelyn Afanador Mejas

[7.4] Ejercicios Adicionales


[7.4.1] Se le pregunt a un grupo de estudiantes de la Universidad Pitirre para el ao 2002 si era necesario que las mujeres aparecieran en los "shopper" vestidas en ropa interior para promover dicho producto. Est pregunta fue cruzado con las variables sexo, zona residencial, estado civil y religin. Para cada uno de los cruces favor de desarrollar y analizar el PHI obtenido, mximo y corregido.

(a) Preg. Gnero Hombre Mujer Si No TOTAL (b) Preg. Zona residencial TOTAL Urbano Si No TOTAL 70 42 112 Rural 8 80 88 78 122 200 60 15 75 15 110 125 75 125 200 TOTAL

[7.4.2] Se le pregunt a un grupo de estudiantes del rea de ciencias sociales de la Universidad Pitirre para el ao 2001 sobre la necesidad del estado benefactor. Favor de desarrollar y analizar el Coeficiente de correlacin de V de Cramer.

Pregunta Si No

Crim. Soc. Adm. Pb. 50 100 10 10 20 40 10 50

C. Pol. 10 20 30

TOTAL 110 140 250

TOTAL 150

Оценить