Академический Документы
Профессиональный Документы
Культура Документы
Asociacin bivarida
Cuando hablamos de asociacin bivariada estamos diciendo que existen dos variables que afectan mutuamente sus distribuciones.
La asociacin entre 2 variables muchas veces viene precedida de nuestro marco terico, pues en l hemos relacionado al menos 2 variables, sealando a una como variable independiente y a otra como variable dependiente.
Existen distintos tipos de estadsticos que nos ayudan al estudio de la asociacin de las variables en las muestras. Si estamos en el caso de variables cuantitativas continuas los estadsticos apropiados sern la correlacin producto momento de Pearson y el coeficiente de regresin. Si las dos variables son cualitativas (nominal u ordinal), el contraste de chi-cuadrado es el ms apropiado y el que ms se usa. As como los coeficientes relacionados a ste (coeficiente de contingencia, el coeficiente Lambda y los coeficientes Phi y V de Cramer,). Las variables ordinales tambin tienen sus propios coeficientes de asociacin: Gamma de Goodman y Kruskal, d de Somers, Tau-a de Kendall, Tau-b de Kendall, rho de Spearman, entre otros.
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
Asociacin bivariada
Las asociaciones bivariadas se pueden estudiar a partir de los siguientes criterios (Garca ferrando):
La existencia de la asociacin La fuerza de la asociacin La direccin de la asociacin. La naturaleza de la asociacin.
Los distintos estadsticos existentes se emplean para determinar cada uno de estos criterios.
En este sentido, la prueba de hiptesis basada en el estadstico chi-cuadrado (x2) nos seala si existe o no asociacin bivariada. Es decir, el x2 nos da cuenta de la existencia de la asociacin.
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
Cuando construimos una tabla de contingencia precisamente lo que hacemos es cruzar 2 variables y analizar la distribucin conjunta de ambas variable en los cruces de sus distintas categoras.
Count EDAD Es t Cesante Total S No joven 45 39 84 adulto 274 126 400 Total 319 165 484
Lo que hacemos en la prueba de chi-cuadrado de asociacin es probar si existe una relacin de asociacin o, por el contrario, si existe independencia entre 2 variables de escala nominal u ordinal.
Si tenemos en cuenta que la investigacin sociolgica viene fundamentada por un marco terico donde, por lo general, queremos contrastar una hiptesis que seala la dependencia de una variable respecto de otra, se podr decir entonces trabajamos con dos tipos de hiptesis:
H0 = No existe asociacin entre las dos variables (son variables independientes) H1 = Existe asociacin entre las dos variables (ambas variables estn relacionadas).
La H0 dir que lo que observamos en la muestra se debe al azar y que cualquier asociacin entre las variables no es estadsticamente significativa. En cambio, la H1 nos dir que lo que observamos en nuestra muestra s es estadsticamente significativo y, por tanto, no se debe a un error causado por el azar.
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
2.
3.
4.
2.
Cuando vimos la prueba chi-cuadrado para una muestra decamos que sta trabaja con las frecuencias de cada casilla, contraponiendo las frecuencias observadas con las frecuencias esperadas. En la prueba chi-cuadrado de asociacin tambin operamos con la comparacin entre las frecuencias observadas y las frecuencias esperadas. De hecho, la frmula es la misma que en la prueba Chi-cuadrado para una muestra, a saber:
La nocin de frecuencia esperada est relacionada con la H0 en el sentido de que son frecuencias que cabra esperar en el caso de que ambas variables no estn relacionadas, es decir, sean independientes.
En este sentido, al comparar las frecuencias observadas (es decir, la distribucin de frecuencias obtenidas en mi muestra) con las frecuencias esperadas (las que cabra esperar an caso de independencia entre ambas variables), la prueba Chi-cuadrado establece si existen diferencias significativas. Es decir, la prueba Chi-cuadrado nos dice si las frecuencias observadas son diferentes de lo que pudiera esperarse en caso de ausencia de asociacin. Esto significa que la nocin de frecuencia esperada en este caso es la de una distribucin de absoluta independencia entre ambas variables.
Recordemos que el Chi-cuadrado se calcula como la diferencia entre lo observado y lo esperado para cada casilla o celda. La frecuencia esperada de cada casilla se calcula a travs de la siguiente frmula:
Para la siguiente tabla, la frecuencia observada de la casilla jove-cesante es 45, mientras que su frecuencia esperada sera:
Count
fe =
319
84
EDAD
= 55.36
484
S No
joven 45 39 84
1.
2. 3. 4. 5. 6.
Esto quiere decir que para el caso de la tabla recin expuesta obtendremos los siguientes clculos:
x2 = 7
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
(O E) 2
E
Por lo tanto, el valor de x2 ser igual a 2.03 + 3.75 + 0.4 + 0.82 = 7 El siguiente paso sera calcular los grados de libertad (gl) mediante la frmula: gl = (filas 1) (columnas 1) En nuestro caso, los grados de libertad son: gl = (2 1) (2 1) = 1
Luego, deberamos ir a la tabla de distribucin de chi-cuadrado que vienen en todos los libros de estadstica eligiendo con anterioridad nuestro nivel de significacin (0.05 0.01). Si nuestro valor calculado de x2 es igual o superior al de la tabla concluimos que las variables estaran relacionadas (x2 fue significativa).
En efecto, vamos a una tabla de distribucin del estadstico chicuadrado y nos damos cuenta de que para que un valor x2 obtenido sea significativo a un nivel de significacin de 0.05 con 1 grado de libertad el valor debe ser igual o mayor que 3.841. Nuestro valor x2 obtenido es de 7, por tanto, es significativo o, lo que es lo mismo, existe asociacin entre ambas variables. Si bien el chi-cuadrado se calcula de la misma forma manualmente que en SPSS, la lgica del contraste de la significancia de nuestro valor x2 obtenido es muy distinto entre ambos procedimientos.
Pearson Chi-Square a Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by -Linear A ss ociation N of V alid Cas es
df 1 1 1
.007
a. Computed only f or a 2x 2 table b. 0 cells (.0%) hav e ex pec ted count less than 5. The minimum expected c ount is 28.64.
Lo que s debe aprender es el contraste en SPSS. De todos los estadsticos y sus respectivas significancias Ud. debe preocuparse del Pearson Chi-Square (Chi-cuadrado de Pearson), el cual tiene un valor de 6.886, un grado de libertad y una significancia o probabilidad de cometer el error tipo I de 0.009 (0.9%) Como 0.009 es menor que 0.05 (e incluso menor que 0.01) concluimos que la edad y el estar cesante estn relacionados. Es decir, rechazamos H0 pues 0.009 es menor que el nivel de significacin previamente establecido (0.05).
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
Pearson Chi-Square a Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by -Linear A ss ociation N of V alid Cas es
.007
a. Computed only f or a 2x 2 table b. 0 cells (.0%) hav e ex pec ted count less than 5. The minimum expected c ount is 28.64.
Volvemos a repetir: en el presente ejemplo la significacin del valor del x2 obtenido (Asymp.Sig. 2 sided = 0.009) es menor que 0,05.
Cuando la significacin de nuestro valor x2 obtenido es menor que el nivel de significacin previamente establecido por nosotros, entonces rechazamos H0 (por tanto, aceptamos H1 y concluimos que existe asociacin bivariada). En cambio, cuando la significacin de nuestro valor x2 obtenido es mayor que el nivel de significacin previamente establecido por nosotros, entonces aceptamos H0 (por tanto, concluimos que no existe asociacin bivariada o, lo que es lo mismo, ambas variables son independientes).
1.
2.
No debe existir ms de un 20% de casillas inferiores a 5. En otras palabras, se aceptan casillas menores a 5, siempre que stas no alcancen ms de 20% del total. Por otra parte, por ningn motivo puede haber una casilla con una frecuencia esperada inferior a 1.
a. 13 c ells (38.2%) have expected c ount less than 5. The minimum ex pec ted count is .17.
Eso suele ocurrir cuando el nmero de casillas es muy grande, pues muchas de stas quedan vacas o, en su defecto, con muy frecuencias observadas y esperadas muy bajas. La solucin es anular o bien agrupar categoras con el fin de obtener valores ms altos (se recomienda la recodificacin).
Imaginemos que queremos estratificar a algunos alumnos de la universidad y dos de los criterios son la zona de residencia (urbano rural) y el nivel educativo de los padres (E. Bsica, E. Media, E. Superior). Tendramos entonces 2 variables (en este caso una nominal y otra ordinal): zona de residencia y nivel educativo padres.
Total
Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total
De esta forma, la lectura de la tabla de contingencia nos seala que 10.9% del total de alumnos que tienen padres sin estudios que viven en zonas rurales. Mientras eso sucede, en la zona urbana no se encuentran casos de padres sin estudios. Otra relacin interesante de observar en este ejemplo ficticio, es que los padres que slo tienen una escolaridad de E. Bsica son el doble en las zonas rurales (25.1%) respecto de las urbanas (12.6%), cuestin que se invierte de manera notable cuando el nivel de escolaridad es la E. Media, donde apenas un 1.7% de padres rurales llegan a este nivel frente a 32.6% de padres residentes en zonas urbanas. Por ltimo, no existen padres residentes en zonas rurales que hayan logrado llegar a la E.superior, mientras que un 17.1% de los padres de zonas urbanas tienen este nivel de escolaridad.
Todo ello nos llevara concluir que existira una diferencia significativa entre vivir en determinada zona (urbano rural) y alcanzar determinado nivel educativo (E. Bsica, E. Media, E. Superior). En este sentido, podramos decir que la zona de residencia es una variable independiente que afecta la distribucin del nivel educativo (variable dependiente). No obstante, cabe preguntarse: Podemos estar seguros de que estadsticamente hablandohay una relacin entre el vivir en una determinada zona y alcanzar determinado nivel de estudios?
Estamos frente a un problema en donde lo que queremos probar es si existe independencia o asociacin entre 2 variables cualitativas o no mtricas (zona de residencia y nivel de escolaridad padres). Una de las variables establece grupos a comparar respecto de la otra variable: la variable independiente (zona de residencia) establece dos grupos (padres urbanos y padres rurales) que se diferencian en funcin de la variable dependiente (nivel educativo).
zona residencia RURAL URBANO 19 10.9% 44 22 25.1% 12.6% 3 57 1.7% 32.6% 30 17.1% 66 109 37.7% 62.3% Total 19 10.9% 66 37.7% 60 34.3% 30 17.1% 175 100.0%
Total
Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total
a. 0 cells (.0%) have ex pected count less than 5. The minimum ex pec ted count is 7.17.
Significacin del x2 obtenido. Este significacin se compara con el nivel de significacin previamente establecido por el investigador (por lo general es 0,05 0,01).
Todo el anlisis de la tabla de contingencia nos permite dar cuenta de una hiptesis: la zona de residencia afecta la distribucin del nivel educativo.
Es una H1, pues establece que ambas variables estn asociadas.
Por otra parte, sabemos que en todas las pruebas de hiptesis (chi-cuadrado tambin) la hiptesis que se somete a prueba es la hiptesis nula (H0).
Recordemos que la H0 sostiene que las variables son independientes (no existe asociacin bivariadas).
df 3 3
a. 0 cells (.0%) have ex pected count less than 5. The minimum ex pec ted count is 7.17.
Para someter a contraste la H0 vemos la significacin del chi-cuadrado obtenido (0.000). Claramente es menor que nuestro nivel de significacin (0,05 e, incluso, menor que 0,01).
Imaginemos que estamos estudiando si existe relacin entre la edad (joven adulto) y el tipo de religin profesada (catlica evanglica).
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
Pearson Chi-Square a Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by -Linear A ss ociation N of V alid Cas es
df 1 1 1
.149
a. Computed only f or a 2x 2 table b. 0 cells (.0%) hav e ex pec ted count less than 5. The minimum expected c ount is 32.28.
Independiente de la lectura de la tabla de contingencia, vmonos inmediatamente al contraste propiamente tal. Vemos que la significancia del valor chi-cuadrado obtenido es 0.244. En tanto 0.244 es claramente ms alto que 0,05 tenemos una probabilidad muy alta de cometer el error tipo I si nos atrevemos a rechazar H0. De hecho, la probabilidad de cometer el error tipo I es muy alta (24.4%).
Por lo mismo, aceptamos H0 y concluimos que las dos variables son indpendientes.
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
Para obtener una tabla de contingencia y un contraste chi-cuadrado de asociacin debemos ir al men Analizar (Analyce) Estadsticos Descriptivos (Descriptive Statistics) Tablas de contingencia... (Crosstabs...). Obtendr el presente cuadro de dilogo.
Elija Frecuencias Observadas y Esperadas. Tambin debiera elegir porcentajes en los 3 sentidos que vimos hoy ( Fila, Columna, Total) Por ltimo, en cuanto a los residuos, haga clic en No tipificados. ....Continuar...
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile
Volver a la ventana de las tablas de contingencia. Ahora aprete en la pestaa Estadsticos ubicada en la parte de abajo del cuadro.
Osvaldo Blanco Socilogo Magster Cs. Sociales U. de Chile