Академический Документы
Профессиональный Документы
Культура Документы
The chi-square
Fernando Quevedo Ricardi
Artculo
Article
Autores
Historial
Foro (2)
Mtricas
Descargar PDF |
Resumen
El estadstico ji-cuadrado (o chi cuadrado), que tiene distribucin de probabilidad del mismo nombre,
sirve para someter a prueba hiptesis referidas a distribuciones de frecuencias. En trminos generales,
esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hiptesis
nula. En este artculo se describe el uso del estadstico ji-cuadrado para probar la asociacin entre dos
variables utilizando una situacin hipottica y datos simulados. Luego se describe su uso para evaluar
cun buena puede resultar una distribucin terica, cuando pretende representar la distribucin real de los
datos de una muestra determinada. A esto se le llama evaluar la bondad de un ajuste. Probar la bondad de
un ajuste es ver en qu medida se ajustan los datos observados a una distribucin terica o esperada. Para
esto, se utiliza una segunda situacin hipottica y datos simulados.
Del mismo modo que los estadsticos z, con su distribucin normal y t, con su distribucin t de
Student, nos han servido para someter a prueba hiptesis que involucran a promedios y porcentajes, el
estadstico ji-cuadrado (o chi cuadrado), que tiene distribucin de probabilidad del mismo nombre, nos
servir para someter a prueba hiptesis referidas a distribuciones de frecuencias.
En primer lugar usaremos el estadstico ji-cuadrado para probar la asociacin entre dos variables, y luego
lo usaremos para evaluar en qu medida se ajusta la distribucin de frecuencias obtenida con los datos de
una muestra, a una distribucin terica o esperada.
En trminos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de
acuerdo con la hiptesis nula. Al igual que en el caso de las pruebas anteriormente presentadas,
ilustraremos con ejemplos.
Supongamos que un investigador est interesado en evaluar la asociacin entre uso de cinturn de
seguridad en vehculos particulares y el nivel socioeconmico del conductor del vehculo. Con este objeto
se toma una muestra de conductores a quienes se clasifica en una tabla de asociacin, encontrando los
siguientes resultados:
Permiten estos datos afirmar que el uso del cinturn de seguridad depende del nivel socioeconmico?
Usaremos un nivel de significacin alfa=0,05.
Los pasos del anlisis estadstico en este caso son los siguientes:
En esta prueba estadstica siempre la hiptesis nula plantea que las variables analizadas son
independientes.
Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si fuera cierta
la hiptesis nula.
Las frecuencias esperadas se obtendrn de la distribucin de frecuencias del total de los casos, 51
personas de un total de 94 usan el cinturn y 43 de 94 no lo usan. Esa misma proporcin se debera dar al
interior de los tres grupos de nivel socioeconmico, de manera que el clculo responde al siguiente
razonamiento: si de 94 personas 51 usan cinturn; de 21 personas, cuntas debieran usarlo?
La respuesta a esta pregunta se obtiene aplicando la regla de tres y es 11,4. Este procedimiento debe
repetirse con todas las frecuencias del interior de la tabla.
Estas son las frecuencias que debieran presentarse si la hiptesis nula fuera verdadera y, por consiguiente,
las variables fueran independientes.
Estos valores los anotamos en una tabla con las mismas celdas que la anterior; as tendremos una tabla
con los valores observados y una tabla con los valores esperados, que anotaremos en cursiva, para
identificarlos bien.
De este modo el valor del estadstico de prueba para este problema ser:
Grfico 1.
Dado que el estadstico ji cuadrado slo toma valores positivos, la zona de rechazo de la hiptesis nula
siempre estar del lado derecho de la curva.
La tabla de ji-cuadrado tiene en la primera columna los grados de libertad y en la primera fila la
probabilidad asociada a valores mayores a un determinado valor del estadstico (vase grfico de la tabla
III).
Los grados de libertad dependen del nmero de celdas que tiene la tabla de asociacin donde estn los
datos del problema y su frmula de clculo es muy sencilla:
As, en nuestro ejemplo, en que hay 2 filas y 3 columnas, los grados de libertad sern:
gl=(2-1)x(3-1)=2
Al comienzo elegimos un nivel de significacin alfa=0,05. Entonces un valor de tabla para x2 asociado a
2 grados de libertad y alfa 0,05 es 5,99.
Por lo tanto, como en el grfico 2 vemos que 5,23 se encuentra a la izquierda de 5,99, la probabilidad
asociada a valores superiores a 5,23 es mayor que alfa (0,05).
Grfico 2.
Segn esto, debemos aceptar la hiptesis nula que plantea que las variables uso de cinturn de
seguridad y nivel socioeconmico son independientes. Limitacin: como norma general, se exige que
el 80% de las celdas en una tabla de asociacin tengan valores esperados mayores de 5.
Tambin se puede usar el estadstico ji-cuadrado para evaluar cun buena puede resultar una distribucin
terica, cuando pretende representar la distribucin real de los datos de una muestra determinada. A esto
se le llama evaluar la bondad de un ajuste. Probar la bondad de un ajuste es ver en qu
medida se ajustan los datos observados a una distribucin terica o esperada.
Tomemos como ejemplo la distribucin esperada para los individuos de una poblacin que son
clasificados segn grupo sanguneo. Segn estudios realizados en poblacin, se espera que dicha
distribucin, en porcentajes, sea la siguiente:
Debemos calcular las frecuencias esperadas en nuestro grupo. Si aplicamos los porcentajes esperados a la
muestra de 150 casos podemos obtener las siguientes frecuencias esperadas (ei):
Los grados de libertad de esta tabla se obtienen restando 1 al nmero de filas, en este caso: gl=4-1=3
Recordemos que la fila del total no se considera para los grados de libertad.
Si ya tenemos las frecuencias observadas y esperadas, podemos proceder a evaluar la diferencia entre
ellas utilizando el estadstico ji-cuadrado. Si la diferencia entre frecuencias observadas y esperadas es
grande, significar que la hiptesis nula es falsa, o sea, esta distribucin no se ajusta a la distribucin
terica y si, en cambio, resulta que la diferencia entre frecuencias observadas y esperadas no es muy
grande, significar que la hiptesis nula es verdadera; por lo tanto, la distribucin en la muestra se ajusta a
la distribucin terica y diremos que no hay significacin estadstica.
El valor del estadstico de prueba (x2) es una medida de la diferencia entre frecuencias observadas y
esperadas; por lo tanto, mientras mayor resulte , ms fcil ser rechazar la hiptesis nula.
El valor de ji-cuadrado lo buscaremos con alfa=0,01 y 3 grados de libertad. Segn tabla, ese valor es
11,34.
Al comparar el valor del estadstico de prueba (0,73) con el valor de tabla (11,34), vemos que 0,73 se
encuentra a la izquierda de 11,34 desplazado hacia el centro de la curva y que, por lo tanto, la
probabilidad de valores mayores a l es muy superior al nivel de significacin alfa=0,01.
5. Conclusin
Dado que la probabilidad de es mayor que alfa, se acepta la hiptesis nula. Esto significa
que los datos observados se ajustan a la distribucin terica, por lo tanto las diferencias observadas no son
estadsticamente significativas.
6. Grfico
Grfico 3. Prueba de bondad de ajuste.
Notas
Declaracin de conflictos de intereses
Objetivos
Conceptos bsicos
Contraste de hiptesis. Un contraste de hiptesis es un proceso estadstico
mediante el cual se investiga si una propiedad que se supone que cumple una
poblacin es compatible con lo observado en una muestra de dicha poblacin.
Es un procedimiento que permite elegir una hiptesis de trabajo de entre dos
posibles y antagnicas.
Qu asignamos como H0 y H1 ?
Tipos de contrastes.
H0 = = 0
Simple - Compuesta
H1 = 0
H0 = 0
Compuesta - Compuesta
H1 = > 0
H0 = 0
Compuesta - Compuesta
H1 = < 0
La Reglas de decisin.
a. Contrastes bilaterales: Si la hiptesis alternativa da lugar a una regin
crtica a ambos lados del valor del parmetro, diremos que el test es
bilateral o de dos colas .
H0 = = 0
H0 = 0 H0 = 0
H1 = 0
H1 = > 0 H1 = < 0
La decisin:
P[ Rechazar H0 / H0 es verdadera ] =
Por tanto,
Naturaleza de H0
Falsa
Verdadera
Decisin P= P=1-
Decisin correcta Error de tipo II
No rechazar H0
P=1- P=
Relaciones_entre_los_errores_de_tipo_I_y_tipo_II
Debido a que H0 especifica un valor nico del parmetro, hay un solo valor
de . Sin embargo, hay un valor diferente de por cada valor del
parmetro recogido en H1 .
P[ decidir H1 / H1 es verdadera ] = 1 -
El concepto de potencia nos permite valorar cual entre dos contrastes con la
misma probabilidad de error de tipo I, , es preferible. Se trata de escoger
entre todos los contrastes posibles con prefijado aquel que tiene mayor
potencia, esto es, menor probabilidad de incurrir en el error de tipo II. En
este caso elLema de Neyman-Pearson garantiza la existencia de un contraste
de mxima potencia y determina cmo construirlo.
Los contrastes de hiptesis que construye SPSS son los proporcionados por
las Pruebas T, estas son de tres tipos: Prueba T para una muestra, Prueba T
para muestras independientes y Prueba T para muestras relacionadas
De un modo general, dos muestras se dice que son independientes cuando las
observaciones de una de ellas no condicionan para nada a las observaciones de
la otra, siendo dependientes en caso contrario. En realidad, el tipo de
dependencia que se considera a estos efectos es muy especial: cada dato de
una muestra tiene un homnimo en la otra, con el que est relacionada, de ah
el nombre alternativo de muestras apareadas. Por ejemplo, supongamos que
se quiere estudiar el efecto de un medicamento, sobre la hipertensin, a un
grupo de 20 individuos. El experimento se podra planificar de dos formas:
N esperado: Muestra el valor esperado para cada fila (suma de las frecuencias
observadas dividida por el nmero de filas). En este ejemplo hay 589 altas
observadas por semana, resultando alrededor de 84 altas por da.
donde:
263: Nmero de datos vlidos con los que se trabaja, es el 100% de los
datos
0: nmero de datos no vlidos