Академический Документы
Профессиональный Документы
Культура Документы
Chi-Cuadrada
La distribucin Chi-Cuadrada (chi squared en ingls, se pronuncia Kay Cuadrada skuerd) es una
de las distribuciones ms empleadas en todos los campos. Su uso ms comn es cuando se quiere
probar si unas mediciones que se hayan efectuado siguen una distribucin esperada, por ejemplo
la normal o cualquier otra. Otro de sus usos es en intervalos de confianza y pruebas de hiptesis
para las varianzas o desviaciones estndar.
Si graficamos curvas para diferentes valores de n, encontramos que la forma de la distribucin chi
cuadrada cambia dependiendo del nmero de grados de libertad.
Tambin vemos que al aumentar el nmero de grados de libertad, la curva se aproxima a la
distribucin normal.
La distribuci distribucin chi cuadrada cuadrada tiene las siguientes siguientes propiedades:
propiedades
La media La media es igual al nmero de grados de libertad libertad (que es igual al tamao
de las muestras menos 1): = = n 1.
La varianza varianza es igual a dos veces el nmero de grados de libertad libertad (por lo
tanto la desviaci desviacin estndar es la raz cuadrada cuadrada de 2): 2 = 2 * .
Cuando los grados de libertad libertad son mayores mayores o iguales iguales que 2, el
mximo valor de valor de Y ocurre cuando 2 = 2
Conforme Conforme los grados de libertad libertad (tamao de la muestra muestra)
aumenta aumenta, la distribuci distribucin chi-cuadrada cuadrada se aproxima a la
distribuci distribucin normal.
Supngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, .
. . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias observadas y que,
segn las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas
frecuencias tericas o esperadas. A menudo se desea saber si las frecuencias observadas difieren
significativamente de las frecuencias esperadas. Para el caso en que solamente son posibles dos
sucesos E1 y E2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto
satisfactoriamente con los mtodos de las unidades anteriores. Ahora se considera el problema
general.
Definici Definici n de 2 para el caso de pruebas de bondad de ajuste para el caso de pruebas de
bondad de ajuste. Una medida de la discrepancia existente entre las frecuencias observadas y
esperadas est dada por el estadstico que sigue la distribucin 2:
En la prctica, las frecuencias esperadas se calculan como la hiptesis Ho. Si bajo esta hiptesis el
valor calculado de 2 dado es mayor que algn valor crtico, se deduce que las frecuencias
observadas difieren significativamente de las esperadas y se rechaza Ho al nivel de significacin
correspondiente. En caso contrario, no se rechazar Ho. Este procedimiento se llama prueba de
hiptesis chi-cuadrado. Debe advertirse que aquellas circunstancias en que 2 est muy prxima a
cero deben tomarse con cierto recelo, puesto que es raro que las frecuencias observadas
concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede
determinar si el valor calculado de 2 es menor que las 2 crticas (prueba de cola izquierda), en
cuyos casos se decide si la concordancia es suficientemente buena.
1. En los experimentos de Mendel con chcharos, observaron 315 lisos y amarillos, 108 lisos y verdes,
101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teora, estos nmeros deberan
presentarse en la proporcin 9:3:3:1. Hay alguna evidencia que permita dudar de su teora al nivel
de significacin del 0.01? Solucin: Ho; La teora de Mendel es acertada. H1; La teora de Mendel no
es correcta. El nmero total de chcharos es 315+108+101+32=556. Puesto que los nmeros
esperados estn el la proporcin 9:3:3:1 (9+3+3+1=16), se esperara lo siguiente:
Grados de libertad = k-1-m = 4-1-0 = 3 No se tuvo que calcular ningn parmetro para obtener las
frecuencias esperadas.
Regla de decisin: Si 2 0.115 no se rechaza Ho. Si 2 < 0.115 se rechaza Ho. Como el valor de 0.470
no es menor a 0.115 se concluye que el experimento o la teora de Mendel es correcta.
2. Se cree que la duracin del sueo profundo de las personas se puede aproximar mediante una
distribucin normal con media = 3.5 hrs y desviacin estndar = 0.7 hrs. Probar la veracidad de
esta idea con los siguientes datos tomados de una muestra de pacientes. Utilizar una significancia
de 0.05.
En este ejemplo en particular se cuenta con la media y desviacin estndar de la poblacin, por lo
que no se tienen que estimar. En caso de que no se tuvieran, se estimaran a partir de los datos
agrupados, tomando en cuenta que para los grados de libertad el valor de m sera 2, ya que se
estimaran la media y la desviacin estndar. Se proceder a calcular los valores de z para encontrar
las probabilidades usando los lmites inferiores de los intervalos de clase:
La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite de 4.45, es porque
la suma de todas las probabilidades debe ser 1, bajo la curva normal. A continuacin se muestra la
curva normal con sus respectivas probabilidades, segn los limites reales.
Con estas probabilidades se calcularn los valores esperados, multiplicando cada probabilidad por
40 (el total).
ANLISIS DE LA VARIANZA
En general, cada conjunto muestral se caracteriza por estar afectado por un tratamiento especifico,
que eventualmente puede influir en los valores que tome la variable objeto de estudio.
Originalmente, el anlisis de la varianza se utiliz para determinar si las cosechas, que se obtenan
con distintos tratamientos o niveles de fertilizantes, diferan o no. As, en este caso, las parcelas
tratadas con un determinado nivel de fertilizantes constituyen una poblacin.
Se denomina factor a la variable que supuestamente ejerce una influencia sobre la variable
estudiada a la que se denomina dependiente. En el caso anterior, el factor es el fertilizante y la
variable dependiente la cosecha.
El problema ms sencillo de ANOVA se conoce como el anlisis de varianza de un solo factor o diseo
completamente al azar, ste se utiliza para comparar dos o ms tratamientos, dado que slo
consideran dos fuentes de variabilidad, los tratamientos y el error aleatorio. En este todas las
corridas experimentales se deben de realizar en un orden aleatorio. De esta manera, si durante el
estudio se hacen pruebas, stas se corren al azar, de manera que los posibles efectos ambientales
y temporales se vayan repartiendo equitativamente entre los tratamientos.
Si se decide hacer un experimento completamente al azar para comparar las poblaciones, que
cumpla las condiciones antes mencionadas, entonces se tiene que hacer mediante la hiptesis de
igualdad de medias:
0: 1 = 2 = . . . = =
1: para algn j
Los datos generados para un diseo completamente al azar para comparar dichas poblaciones se
pueden escribir tal y como se muestra en la tabla 2 El nmero de tratamientos es determinado
por el investigador y depende del problema en particular de que se trata. El nmero de
observaciones en cada tratamiento debe escogerse con base a la variabilidad que se espera observar
en los datos, as como en la diferencia mnima que el experimentador considera que es importante
detectar. Por lo general se recomiendan entre 5 y 30 mediciones en cada tratamiento. En caso de
que los tratamientos tengan efecto, las observaciones de la tabla 1 se puede escribir como el
modelo estadstico lineal dado por: = + + (1)
donde: Es el parmetro de escala comn a todos los tratamientos, llamado media global Es
un parmetro que mide el efecto del tratamiento es el error atribuido a la medicin j
Este modelo implica que actuaran a lo ms dos fuentes de variabilidad: los tratamientos y el error
aleatorio. La media global de la variable de respuesta no se considera una fuente de variabilidad por
ser una constante en todos los tratamientos, que es un punto de referencia con el cual se comparan
las respuestas medias de los tratamientos, tal como lo muestra la figura 1.
Cuando la primera predomina claramente sobre la segunda, es cuando se concluye que los
tratamientos tienen efecto tambin se puede decir que las medias son diferentes. Cuando los
tratamientos no dominan y contribuyen igual o menor que el error, por los que se concluye que las
medias son iguales y que no hay diferencias significativas entre los tratamientos, esto lo podemos
ver en la figura 2.
De la figura 1 se puede observar claramente que: = (2)
En la figura 3 podemos observar el error residual de cada una de las observaciones y este se puede
escribir de la forma: = (3)
Pero la ecuacin (2) y (3) se pueden escribir como = + (4) = + (5) Igualando la
ecuacin (4) y (5) se tiene: + = + (6).
En las ecuaciones anteriores se puede ver que las sumas de cuadrado son los numeradores de las
varianzas respectivas, que el ANOVA se llama cuadrados medios. A partir de las sumatorias de
cuadrados, es posible obtener dos estimadores insesgados de la varianza poblacional 2. Se puede
demostrar que cuando las medias de los tratamientos son iguales (0: ) tanto la suma
de cuadrados de los tratamientos como la suma de cuadrados del error divididas entre sus
respectivos grados de libertad proporcionan estimadores insesgados e independientes de 2.
Dentro de los tratamientos, se tiene que:
Normalidad
Un procedimiento grfico para verificar el cumplimiento del supuesto de normalidad de los residuos
consiste en graficar los residuos en la grfica de probabilidad normal. Esta grfica tiene las escalas
de tal manera que si los residuos siguen un distribucin normal, al graficarlos tienden a quedar
alineados en una lnea recta; por lo tanto, si claramente no se alinean se concluye que el supuesto
de normalidad no es correcto.
Para realizar esta grfica se considera residuos que resultan del anlisis de varianza de los
cuales se quiere verificar su procedencia de una distribucin normal. Los pasos en la construccin
de la grfica de probabilidad normal para los residuos son los siguientes:
Donde () es la distribucin normal estndar acumulada evaluad en. Las parejas a dibujar en el
papel son (, ). Vamos a calcular los residuos del ejemplo anterior, para comprobar este supuesto.
Realizaremos los clculos como se muestra en la tabla 5.
Una forma de verificar el supuesto de varianza constante o que los tratamientos tengan la misma
varianza, es graficando los valores predichos contra los residuos ( ) por lo general va en
el eje horizontal y los residuos en el eje vertical. Si los puntos en esta grfica se distribuyen de
manera aleatoria en una banda horizontal, sin ningn patrn claro o contundente), entonces es
seal de que se cumple el supuesto de que los tratamientos tienen igual varianza. Por el contrario,
si se distribuyen con algn patrn claro, como por ejemplo en forma de corneta o embudo, entonces
es seal de no se est cumpliendo dicho supuesto. Un claro embudo en los residuales indicar que
el error de pronstico del modelo tiene una relacin directa con la magnitud del pronstico. En la
tabla 6 se presenta el valor predicho y el valor residual ; ya que con estos valores se construya
la grfica para comprobar el supuesto de igualdad de varianzas, esta se muestra en la figura 6.
La grfica se muestra en la figura 5, como podemos observar en esta grfica, se cumple el supuesto
de normalidad, ya que la mayora de los puntos estn sobre la lnea recta.
En la figura 5 y 6, se puede observar que se cumplen los 3 supuestos para el anlisis de varianza ya
que en la figura 6 no se sigue un patrn de comportamiento y en la figura si la mayora de los valores
estn sobre la lnea recta. Que se puede hacer cuando los datos no satisfacen las suposiciones, por
ejemplo, vamos a suponer que las varianzas de las respuestas para diferentes tratamientos no
fueran iguales. En este caso, lo que se puede hacer es transformar los resultados, es decir, en lugar
de utilizar los datos originales, estos se pueden cambiar por sus races cuadradas, logaritmos o
alguna otra funcin. Se han encontrado transformaciones que tienden a estabilizar la varianza de
las respuestas y al mismo tiempo hacen que las distribuciones de probabilidad de las respuestas
transformadas estn ms cerca de la normalidad. Cundo es imposible lograr que se satisfagan las
suposiciones del anlisis de varianza, se deben utilizar procedimientos no paramtricos de pruebas
de hiptesis; ya que estos se basan en las magnitudes comparativas de las mediciones y son casi tan
eficientes y poderosos para detectar diferencias de tratamientos.
Desventajas Para usar este diseo se necesitan unidades experimentales muy homogneas, porque
de otra manera la variacin entre ellas pasa a formar parte del error experimental