Estadistica 222222

CONTENIDO:
UNIDAD 2 PRUEBAS DE LA BONDAD DEL AJUSTE Y ANALISIS DE VARIANZA.
2.1 ANALISIS Ji CUADRADA 2.1.1 PRUEBA DE INDEPENDENCIA 2.1.2 PRUEBAS DE LA BONDAD DEL AJUSTE 2.1.3 TABLAS DE CONTINGENCIA.
2.2 ANALISIS DE LA VARIANZA 2.2.1 INFERENCIA SOBRE UINA VARIANZA DE POBLACION (anova) 2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA)
2.3 PAQUETE COMPUTACIONAL.
ANEXOS CUESTIONARIO
ESTADISTICA II PRUEBAS DE LA BONDAD DEL AJUSTE Y ANALISIS DE VARIANZA.
2.1 ANALISIS Ji-CUADRADA. En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se extraen todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se obtendr la distribucin muestral de varianzas. Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el estadstico X2. Si se elige una muestra de tamao n de una poblacin normal con varianza , el estadstico:
tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1 grados de libertad y se denota X2 (X es la minscula de la letra griega ji). El estadstico ji-cuadrada esta dado por:
donde n es el tamao de la muestra, s2 la varianza muestral y la varianza de la poblacin de donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede dar con la siguiente expresin:
Propiedades de las distribuciones ji-cuadrada 1. Los valores de X2 son mayores o iguales que 0. 2. La forma de una distribucin X2 depende del gl=n-1. En consecuencia, hay un nmero infinito de distribuciones X2. 3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se extienden a la derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribucin X2 se da en el valor (n-3). La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) = (gl-2).
La funcin de densidad de la distribucin X2 esta dada por:
para x>0 La tabla que se utilizar para estos apuntes es la del libro de probabilidad y estadstica de Walpole, la cual da valores crticos (gl) para veinte valores especiales de . Para denotar el valor crtico de una distribucin X2 con gl grados de libertad se usa el smbolo (gl); este valor crtico determina a su 2 derecha un rea de bajo la curva X y sobre el eje horizontal. Por ejemplo para encontrar X20.05(6) en la tabla se localiza 6 gl en el lado izquierdo y a o largo del lado superior de la misma tabla.
Clculo de Probabilidad
El clculo de probabilidad en una distribucin muestral de varianzas nos sirve para saber como se va a comportar la varianza o desviacin estndar en una muestra que proviene de una distribucin normal. Ejemplos: 1. Suponga que los tiempos requeridos por un cierto autobs para alcanzar un de sus destinos en una ciudad grande forman una distribucin normal con una desviacin estndar =1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2. Solucin: Primero se encontrar el valor de ji-cuadrada correspondiente a s2=2 como sigue:
El valor de 32 se busca adentro de la tabla en el rengln de 16 grados de libertad y se encuentra que a este valor le corresponde un rea a la derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s 2>2)
2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una poblacin normal con varianza , tenga una varianza muestral: a. Mayor que 9.1 b. Entre 3.462 y 10.745 Solucin. a. Primero se proceder a calcular el valor de la ji-cuadrada:
Al buscar este nmero en el rengln de 24 grados de libertad nos da un rea a la derecha de 0.05. Por lo que la P(s2 >9.1) = 0.05 b. Se calcularn dos valores de ji-cuadrada:
y Aqu se tienen que buscar los dos valores en el rengln de 24 grados de libertad. Al buscar el valor de 13.846 se encuentra un rea a la derecha de 0.95. El valor de 42.98 da un rea a la derecha de 0.01. Como se est pidiendo la probabilidad entre dos valores se resta el rea de 0.95 menos 0.01 quedando 0.94. Por lo tanto la P(3.462 s2 10.745) = 0.94
Estimacin de la Varianza Para poder estimar la varianza de una poblacin normal se utilizar la distribucin ji-cuadrada.
Al despejar esta frmula la varianza poblacional nos queda:
Los valores de X2 dependern de nivel de confianza que se quiera al cual le llamamos . Si nos ubicamos en la grfica se tiene:
Ejemplos: 1. Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas de pasto distribuidas por cierta compaa: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2 y 46. Encuentre un intervalo de confianza de 95% para la varianza de todos los paquetes de semillas de pasto que distribuye esta compaa, suponga una poblacin normal. Solucin: Primero se calcula la desviacin estndar de la muestra:
al elevar este resultado al cuadrado se obtiene la varianza de la muestra s2= 0.286. Para obtener un intervalo de confianza de 95% se elige un = 0.05. Despus con el uso de la tabla con 9 grados de libertad se obtienen los valores de X2.
Se puede observar en la grfica anterior que el valor de X2 corre en forma normal, esto es de izquierda a derecha. Por lo tanto, el intervalo de confianza de 95% para la varianza es:
Grficamente:
Se observa que la varianza corre en sentido contrario, pero esto es slo en la grfica. La interpretacin quedara similar a nuestros temas anteriores referentes a estimacin. Con un nivel de confianza del 95% se sabe que la
varianza de la poblacin de los pesos de los paquetes de semillas de pasto esta entre 0.135 y 0.935 decagramos al cuadrado.
2. En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la variabilidad de los resultados que producen muestras estndar. En un estudio de la cantidad de calcio en el agua potable, el cual se efecta como parte del control de calidad, se analiz seis veces la misma muestra en el laboratorio en intervalos aleatorios. Los seis resultados en partes por milln fueron 9.54, 9.61, 9.32, 9.48, 9.70 y 9.26. Estimar la varianza de los resultados de la poblacin para este estndar, usando un nivel de confianza del 90%. Solucin: Al calcular la varianza de la muestra se obtiene un valor de s2= 0.0285. Se busca en la tabla los valores correspondientes con 5 grados de libertad, obtenindose dos resultados. Para X2(0.95,5)= 1.145 y para X2(0.0,5)= 11.07. Entonces el intervalo de confianza esta dado por:
2.1.1 PRUEBA DE INDEPENDENCIA Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representacin de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma Para ver el grfico seleccione la opcin "Descargar" del men superior Siendo nij el nmero de individuos que presentan simultneamente la i-sima modalidad del carcter A y la j-sima del B. La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la poblacin de la cual se extrae la muestra; siendo la alternativa la dependencia estocstica entre ambos caracteres. La realizacin de esta prueba requiere el clculo del estadstico Para ver el grfico seleccione la opcin "Descargar" del men superior dnde: Para ver el grfico seleccione la opcin "Descargar" del men superior y Para ver el grfico seleccione la opcin "Descargar" del men superior son las frecuencias absolutas marginales y Para ver el grfico seleccione la opcin "Descargar" del men superior el tamao muestral total. El estadstico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un nivel de significacin del 5%. Ejemplo de Aplicacin Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
Sin depresin Con depresin Deportista 38 9 22 31 47 53 100
No deportista 31 69
L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227 El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.
2.1.2 PRUEBA DE BONDAD DEL AJUSTE Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros casos, se desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parmetros de una distribucin conocida o supuesta es el problema que hemos analizado en los prrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribucin. Las pruebas estadsticas que tratan este problema reciben el nombre general de Pruebas de Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
donde f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. En caso de que los parmetros sean desconocidos, es necesario estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o criterios:
2) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la

distribucin que siguen los tiempos de falla de unos componentes, podramos pensar en una distribucin exponencial, o una distribucin gama o una distribucin Weibull, pero en principio no consideraramos una distribucin normal. Si estamos analizando los caudales de un ro en un determinado sitio, podramos pensar en una distribucin logartmica normal, pero no en una distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor indicacin del tipo de distribucin a considerar.
2.1.3 TABLAS DE CONTIGENCIA. En estadstica las tablas de contingencia se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Supngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relacin entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 Mujer 44 9 4 13 52 48 100
TOTAL 87
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es aproximadamente igual a la proporcin de mujeres diestras. Sin embargo, ambas proporciones no son idnticas y la significacin estadstica de la diferencia entre ellas puede ser evaluada con la prueba de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una poblacin. Si la proporcin de individuos en cada columna vara entre las diversas filas y viceversa, se dice que existe asociacin entre las dos variables. Si no existe asociacin se dice que ambas variables son independientes. El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes: el ms simple es el coeficiente phi que se define por = (2 / N) donde 2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. puede oscilar entre 0 (que indica que no existe asociacin entre las variables) e infinito. A diferencia de otras medidas de asociacin, el coeficiente de Cramer no est acotado.
2.2 ANALISIS DE VARIANZA El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizaran simultnea e independientemente varios contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere el valor crtico es (1 - )m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - )m, que para valores de prximos a 0 es aproximadamente igual a m. Una primera solucin, denominada mtodo de Bonferroni, consiste en bajar el valor de , usando en su lugar /m, aunque resulta un mtodo muy conservador. Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto: es un mtodo que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del anlisis multivariante. 2. Bases del anlisis de la varianza Supnganse k muestras aleatorias independientes, de tamao n, extradas de una nica poblacin normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la poblacin 2: 1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de2 y la media de k estimadores centrados es tambin un estimador centrado y ms eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los trminos independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es tambin un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad. MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras provengan de la misma poblacin. La distribucin muestral del cociente de dos estimaciones independientes de la varianza de una poblacin normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hiptesis usando esa distribucin. Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma poblacin. Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un nico contraste se contrasta la igualdad de k medias. Existe una tercera manera de estimar la varianza de la poblacin, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una nica muestra, su varianza muestral tambin es un estimador centrado de s 2: Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad. Los resultados de un anova se suelen representar en una tabla como la siguiente: Fuente de variacin G.L. Entre grupos Tratamientos Dentro Error Total k-1 SS SSA MS SSA/(k-1) F MSA/MSE
(n-1)k
SSE
SSE/k(n-1)
kn-1
SST
Y el cociente F se usa para realizar el contraste de la hiptesis de medias iguales. La regin crtica para dicho contraste es F > F(k-1,(n-1)k)
Algunas propiedades Es fcil ver en la tabla anterior que GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados: SST = SSA + SSE El anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos, sin embargo es recomendable iguales tamaos por dos motivos: La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el tamao es igual. Igual tamao minimiza la probabilidad de error tipo II. 3. Modelos de anlisis de la varianza El anova permite distinguir dos modelos para la hiptesis alternativa: Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas. Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extrado las muestras. Un ejemplo de modelo II sera: un investigador est interesado en determinar el contenido, y sus variaciones, de grasas en las clulas hepticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepticas. La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo despus, en un modelo I las muestras seran iguales (no los individuos que las forman) es decir corresponderan a la misma situacin, mientras que en un modelo II las muestras seran distintas. Aunque las asunciones iniciales y los propsitos de ambos modelos son diferentes, los clculos y las pruebas de significacin son los mismos y slo difieren en la interpretacin y en algunas pruebas de hiptesis suplementarias. Anlisis de la varianza de dos factores Es un diseo de anova que permite estudiar simultneamente los efectos de dos fuentes de variacin.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolucin segn el sexo. En un anova de dos vas se clasifica a los individuos de acuerdo a dos factores (o vas) para estudiar simultneamente sus efectos. En este ejemplo se haran cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrn ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observacin individual se representa como: El primer subndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observacin dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemtico de este anlisis es: modelo I modelo II modelo mixto donde m es la media global, a i o Ai el efecto del nivel i del 11 factor, j o Bj el efecto del nivel j del 2 factor y ijk las desviaciones aleatorias alrededor de las medias, que tambin se asume que estn normalmente distribuidas, son independientes y tienen media 0 y varianza s 2. A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo aade la de aditividad de los efectos de los factores. A los trminos (a b )ij, (AB)ij, (a B)ij, se les denomina interaccin entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interaccin veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supngase un estudio para analizar el efecto de un somnfero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnfero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la pldora.
Se trata de un anova de dos factores (sexo y frmaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnfero y placebo para el frmaco). Los dos tipos de resultados posibles se esquematizan en la figura
AB En la figura A se observa que las mujeres tardan ms en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan ms en dormirse que los tratados con somnfero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fcilmente observables. Sin embargo en la figura B es difcil cuantificar el efecto del somnfero pues es distinto en ambos sexos y, simtricamente, es difcil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interaccin. Podra, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnfero y los hombres antes con el placebo. La interaccin indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando estn por separado, por lo que, si en un determinado estudio se encuentra interaccin entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interaccin positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biologa se le denomina sinergia o potenciacin y a la interaccin negativa inhibicin. En el ejemplo de la figura B, se dira que el ser mujer inhibe el efecto del somnfero, o que el ser hombre lo potencia (segn el sexo que se tome como referencia). 4. Contrates de hiptesis en un anlisis de la varianza de dos factores
Del mismo modo que se hizo en el anova de una va, para plantear los contrastes de hiptesis habr que calcular los valores esperados de los distintos cuadrados medios. Los resultados son: Modelo I MS MSA Valor esperado
MSB
MSAB MSE Por lo tanto, los estadsticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hiptesis: no existe interaccin (MSAB/MSE)
no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)
no existe efecto del segundo factor (MSB/MSE)
Si se rechaza la primera hiptesis de no interaccin, no tiene sentido contrastar las siguientes. En este caso lo que est indicado es realizar un anlisis de una va entre las ab combinaciones de tratamientos para encontrar la mejor combinacin de los mismos.
2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACION (ANOVA) Prueba F (anlisis de varianza o ANOVA) El anlisis de varianza (anova) es uno de los mtodos estadsticos ms utilizados y ms elaborados en la investigacin moderna. El anlisis de la varianza, no obstante su denominacin se utiliza para probar hiptesis preferentes a las medias de poblacin ms que a las varianzas de poblacin. Las tcnicas anovas se han desarrollado para el anlisis de datos en diseos estadsticos muy complicados. Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto. Grupos 1 2 3 4 5 102 103 100 108 121 s2 15 12 12 14 10 Se aprecia que varan las medias de los grupos. Esta variacin de las medias de grupo a partir de la media total o global de todos los grupos, se conoce como varianza intergrupal, la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan en forma adecuada. Puede desentenderse por el momento cules puntuaciones pertenecen a que grupos. Estas puntuaciones varan. La variacin de estas puntuaciones individuales se denominan variacin total. El meollo del anlisis de varianza radica en el siguiente hecho: si los grupos son muestras aleatorias provenientes de la misma poblacin, las varianzas, intergrupal e intragrupal, son estimaciones insesgadas de la misma varianza poblacional. Se prueba la significacin de la diferencia de los 2 tipos mediante la prueba F. Supuestos que fundamentan la aplicacin de anlisis de varianza. Cuando se utiliza la tcnica anova se deben cumplir los siguientes supuestos: Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas. La varianza de los subgrupos debe ser homognea. Las muestras que constituyen los grupos deben ser independientes. Amenos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razn de las varianzas inter e intra no adoptar la distribucin F. Ejemplo:
Se busca determinar la influencia de la orientacin psicolgica en los mtodos de crianza de los nios, mediante una comparacin entre liberales y conservadores. Queremos hacer varias comparaciones que presenten varios puntos en la escala psicolgica, podramos comparar la permisibilidad en la crianza de los nios de conservadores, liberales, radicales y moderados. S X2= 10 + 8 + 13 + 15 = 56 S XT = 6 + 8 + 7 + 7 = 28 T = 7 / 4 = 1.75 Frmula: Suma total de todos los cuadrados. N = nmero de datos de todos los grupos. n = nmero de datos de un grupo. Clculo de: Scinter = S ( - T)2 n S x1 = 6 S x12 = 10 = 1.5 n = 4 S x2 = 8 S x22 = 18 = 2 n = 4 S xT = 28 S x3 = 7 S x32 = 13 = 1.75 n = 4 S T = 1.75 S x4 = 8 S x42 = 15 = 1.75 n = 4 S XT2 = 56 Grupo 1: (1.5 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24 Grupo 2: (2 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24 Grupo 3: (1.75 - 1.75)2 (4) = (0)2 (4) = 0 Grupo 4: (1.75 - 1.75)2 (4) = (0)2 (4) = 0 Scinter = 0.24 + 0.24 + 0 + 0 = 0.48 Variacin que existe entre los grupos. Clculo de: Scintra = 1 + 2 + 0.75 + 2.75 = 6.5 Comprobacin
SCT = Scinter + Scintra Scintra = SCT - Scinter Scinter = 0.48 = 0.5 Scintra = 6.5 SCT = 6.5 + 0.5 = 7 S Cintra? = 7 - 05 = 6.5 Calculamos la media cuadrtica (cuadrado medio) Existe una media de variacin conocida como la media cuadrtica o varianza, que obtenemos dividiendo S Cintra o S Cinter? Mediante los grados de libertad apropiados. Clculo de la media cuadrtica: glinter = K - 1 = 4 - 1 = 3 glintra = NT + K = 16 - 4 = 12
2.2.2 INFERENCIA SOBRE LA VARINCIA DE DOS POBLACIONES. De manera que, si las varianzas poblacionales son iguales, dicha razn es 1 y podramos afirmar que las dos poblaciones tienen una distribucin homognea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretacin de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales estn asignadas a diferentes profesores. Podra ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.
Observe las dos curvas en el siguiente grfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hiptesis para una razn de varianzas, a fin de comprobar si ellas son homogneas o no. Una aplicacin de esta razn podra ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, as como se realiza inferencia sobre la estimacin y prueba de hiptesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, as tambin podemos plantear el estudio de la razn de las varianzas de dos poblaciones definiendo al parmetro q como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hiptesis para q. Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extrada a partir una poblacin N(m1, s1) y se Y1, Y2, ..., Yn2 una muestra aleatoria extrada a partir una poblacin N(m2, s2). Si son los estadsticos de la primera muestra, de tamao n1 y los estadsticos de la segunda muestra, de tamao n2 en donde son
as como
y entonces diremos que las varianzas poblacionales es un estimador puntual para la razn o el cociente de
De manera que si
es el estimador de
definiremos la variable aleatoria
tal que F F(n1 1, n2 1)
Por tanto las pruebas de hiptesis a plantearse, usando el estadstico
con n1 1 grados de libertad en el numerador y n2 1 grados de libertad en el denominador, sern Caso I Caso II Caso III
Si Fc <Fa; Rechazar H0
Rechazar H0 si Fc < Fa/2 o si Fc Si Fc > 1-a ; rechazar H0 > F1-a/2
Y en cuanto al Intervalo de confianza del (1-a)x100% para
ser
2.3 PAQUETES COMPUTACIONALES Caractersticas De Los Paquetes Computacionales CARACTERISTICAS DE LOS PAQUETES COMPUTACIONALES Y SUS FUNCIONES LOS PAQUETES SON: MICROSOFT OFICCE, PORQUE TRAE WORD EXEL ACCESS PRONTPAGE OUTLOOK OTROS PAQUETES SERIA SAP, VISUAL ESTUDIO, ADOBECS3 ENTRE OTROS. WORD CARACTERSTICAS Y APLICACIONES GENERALES DE LOS PROCESADORES DE TEXTOS, BASES DE DATOS Y HOJA DE CLCUL Caractersticas APLICACIONES - Textos a travs de rengln seguido. - Oficios Se asemeja al uso de una mquina - carta Escribir. Permite alinear textos de diversas formas. - Memorando ms Dar formato al texto por columnas. -constancias Imprimir estilo y forma personal a los -tesis. Documentos. Elaborar portaos con imagen Disear mapas y/o redes conceptuales, -revisar ortografas. Organigramas, diagramas de flujo, etc. - Matriculas de alumnos. Elaboracin de formatos con rayado - relacin de personal. Especfico. -Cuadro de calificaciones Sexo, y diversas raves de regin seguido -cuadros de doble entrada EXEL: Caractersticas de Excel son Es una hoja de clculo Puede hacer clculos muy largos Tiene limitaciones increblemente pequeas Una tabla no es un reto par Excel Plantillas
Funcin Una funcin, es un comando que le das a Excel para que haga una cosa determinada, nosotros Access Caractersticas: Microsoft Access es un sistema interactivo de administracin de bases de datos para Windows. Access tiene la capacidad de organizar, buscar y presentar la informacin resultante del manejo de sus bases de datos.
BIBLIOGRAFIA
METODOS MULTIVARIABLES EN BIOESTADISTICA. Ed. CENTRO DE ESTUDIOS RAMON ARECES, 1996 MENDENHALL, ESTADISTICA PARA ADMINISTRADORES, EDITORIAL: GRUPO EDITORIAL IBEROAMERICANA GOMEZ VILLEGAS, INFERENCIA ESTADISTICA 1RA. EDICION. 2005. WWW.WIKIPEDIA. ENCICLOPEDIA LIBRE.

Estadistica 222222

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadistica 222222

Загружено:

Авторское право:

Доступные форматы

CONTENIDO:

UNIDAD 2 PRUEBAS DE LA BONDAD DEL AJUSTE Y ANALISIS DE VARIANZA.

2.3 PAQUETE COMPUTACIONAL.

ESTADISTICA II PRUEBAS DE LA BONDAD DEL AJUSTE Y ANALISIS DE VARIANZA.

La funcin de densidad de la distribucin X2 esta dada por:

Al despejar esta frmula la varianza poblacional nos queda:

Sin depresin Con depresin Deportista 38 9 22 31 47 53 100

H0: f(x,q) = f0(x,q)

H1: f(x,q) f0(x,q)

2) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la

no existe efecto del segundo factor (MSB/MSE)

definiremos la variable aleatoria

tal que F F(n1 1, n2 1)

Por tanto las pruebas de hiptesis a plantearse, usando el estadstico

Rechazar H0 si Fc < Fa/2 o si Fc Si Fc > 1-a ; rechazar H0 > F1-a/2

Y en cuanto al Intervalo de confianza del (1-a)x100% para

Вам также может понравиться