Вы находитесь на странице: 1из 103

Facultad de Ciencias Veterinarias

U.B.A.

Estadstica Analtica
Gua de Trabajos Prcticos

rea Bioestadstica 2013 1er. Cuatrimestre

Cronograma 2013 1er. Cuatrimestre


Sem 1
lunes 4/3

11/3

Jueves: Revisin de conceptos relativos a inferencia. Intervalos de confianza y pruebas de hiptesis para la diferencia de medias de dos poblaciones.(hasta test t con varianzas desconocidas y distintas inclusive). Martes: Revisin de conceptos relativos a inferencia. Intervalos de confianza y pruebas de hiptesis para la diferencia de medias de dos poblaciones.(hasta test t con varianzas desconocidas y distintas inclusive). Jueves: Continuacin con medias de dos poblaciones. Intervalos de confianza y pruebas de hiptesis para la media de las diferencias. Martes: Continuacin con medias de dos poblaciones. Intervalos de confianza y pruebas de hiptesis para la media de las diferencias. Jueves: Intervalos de confianza y pruebas de hiptesis para la diferencia de proporciones de dos poblaciones. Distribucin F. Intervalos de confianza y pruebas de hiptesis para el cociente de varianzas de dos poblaciones. Martes: Intervalos de confianza y pruebas de hiptesis para la diferencia de proporciones de dos poblaciones. Distribucin F. Intervalos de confianza y pruebas de hiptesis para el cociente de varianzas de dos poblaciones. Diseo de Experimentos. Diseo Completamente Aleatorizado. Modelo paramtrico. Diseo Completamente Aleatorizado modelo paramtrico (continuacin) y Diseo Completamente Aleatorizado no paramtrico. Ejercitacin e integracin 1er. Parcial Sbado 20/4 Estadstico de Chi cuadrado para pruebas de bondad de ajuste. Pruebas de Pruebas de Independencia. Estadstico de Chi cuadrado para Pruebas de Homogeneidad Ejercitacin. Regresin Lineal Simple. Supuestos del Modelo y Estimadores. Dcima de hiptesis e intervalo de confianza utilizando la t de Student. Regresin Lineal Simple. Intervalos de prediccin. Coeficiente de determinacin. ANOVA en la regresin. Regresin Lineal Mltiple. Correlacin Lineal Simple paramtrica. Correlacin Simple no paramtrica. Ejercitacin. Integracin. Revisin y consulta. 2do. Parcial Sbado 8/6 a las 11 hs

18/3

25/3

5 6 7 8 9 10

1/4 8/4 15/4

22/9 29/4 6/5

11 12 13 14 15 16 17

13/5 20/5 27/5 3/6 10/6 17/6 24/6

Recuperatorio 25/6 a las 18 hs.

II

Bibliografa
Cantatore de Frank, Norma M.: Manual de Estadstica Aplicada. Ed. Hemisferio Sur. 1ra. Edicin. Buenos Aires. Captulos: 4, 5, 6, 7, 8, 12 y 13. Cappelletti, Carlos A.: Elementos de estadstica. Cesarini Hnos. Editores. 2da. Edicin. Bs. As. Captulos 8, 9, 10, 11, 13 y 14. Daniel, Wayne W.: Bioestadstica. Base para el anlisis de las ciencias de la salud. 3ra. Edicin. Uteha, Noriega Editores. Mxico. Captulos: 5, 6, 8, y 10.

NOTA IMPORTANTE:

La ctedra publica solamente la GUIA DE TRABAJOS PRACTICOS y la GUIA DE FORMULAS Y TABLAS para la cursada de esta materia. Cualquier otra publicacin NO CUENTA CON LA APROBACION DE LA CATEDRA.

III

Sistema de Evaluacin de Estadstica Analtica


Se tomarn dos parciales, que sern calificados en una escala de 0 a 10, en forma global. Las condiciones de LIBRE, ASISTENCIA CUMPLIDA, REGULAR Y PROMOCIN se obtienen si se cumplen las situaciones con respecto a calificacin y asistencia que abajo se detallan. ASISTENCIA: Concurrencia a las clases terico-prcticas en un porcentaje: LIBRE: inferior al 75% ASISTENCIA CUMPLIDA y REGULAR: mayor o igual al 75% PROMOCIN: mayor o igual al 80% CALIFICACIN:
SEGUNDO PARCIAL 1 1 LIBRE 2 LIBRE PRIMER PARCIAL 3 LIBRE 4 AC 5 AC 6 7 8 9 10 REC 2P REC 2P REC 2P REC 2P REC 2P 2 LIBRE LIBRE LIBRE AC AC REC 2P REC 2P REC 2P REC 2P REC 2P 3 LIBRE LIBRE LIBRE AC AC REC 2P REC 2P REC 2P REC 2P REC 2P AC AC AC AC AC REC 2P REC 2P REC 2P REC 2P COL 4 AC AC AC AC AC REC 2P REC 2P REC 2P COL COL 5 6 REC 1P REC 1P REC 1P REC 1P REC 1P REG REG PROM PROM PROM 7 REC 1P REC 1P REC 1P REC 1P REC 1P REG PROM PROM PROM PROM 8 REC 1P REC 1P REC 1P REC 1P REC 1P PROM PROM PROM PROM PROM 9 REC 1P REC 1P REC 1P REC 1P COL PROM PROM PROM PROM PROM 10 REC 1P REC 1P REC 1P COL COL PROM PROM PROM PROM PROM

Siendo: AC: asistencia cumplida COL: coloquio PROM: promocin REC 2P: recupera 2do. Parcial REC 1P: recupera 1er. Parcial REG: regular NOTA 1. Los alumnos que estn ausentes a un parcial y presenten certificado oportunamente en la ctedra lo rendirn en la fecha de recuperatorio y si posteriormente quedan en situacin de recuperar un parcial se les asignar una fecha. 2. Los alumnos que recuperan algn parcial consiguen como mximo la condicin de REGULAR. 3. Los coloquios se tomarn en forma oral sobre los contenidos que involucra el parcial de menor puntaje y definen la condicin del alumno.

IV

Unidad 1: INFERENCIA para DOS POBLACIONES


Objetivos especficos: Comprender la importancia de disear experimentos. Analizar la adecuacin de cada diseo en funcin del contexto de la investigacin. Aplicar los conceptos de inferencia estadstica a la comparacin de dos poblaciones, utilizando como procedimientos la estimacin y la prueba de hiptesis. Seleccionar el procedimiento de inferencia adecuado en funcin del objetivo y del cumplimiento de los supuestos. Resolver problemas e interpretar conclusiones aplicando los mtodos de anlisis sobre dos poblaciones. Contenidos temticos: Diseo de experimentos: necesidad, ventajas, propsitos, definiciones previas. Tipos de diseos y alcances. Revisin de conceptos relativos a la estimacin puntual y por intervalos. Intervalos de confianza para la diferencia de medias y para la media de las diferencias. Estimaciones para la diferencia de dos proporciones, para el cociente de varianzas, y para el cociente de desvos estndar. Revisin de conceptos relacionados con las pruebas de hiptesis. Prueba de hiptesis para: diferencia de medias en base a dos muestras independientes: diferencia de medias, cociente de varianzas, diferencias de proporciones. Muestras apareadas: media de las diferencias. Relacin entre intervalo de confianza y prueba de hiptesis bilateral. Aplicaciones. Glosario: Diseo de experimentos: experimento, unidad experimental, tratamiento, factor, niveles de un factor, observacin, efecto. Repeticin, aleatorizacin, control local. Estudios observacionales, preexperimentales, cuasiexperimentales y experimentales. Inferencia para dos poblaciones: Poblacin, muestra. Parmetro. Estimador. Estimacin. Estimador puntual. Intervalo. Intervalo de confianza. Nivel de confianza. Hiptesis de trabajo. Hiptesis estadstica. Hiptesis nula y alternativa. Error tipo I y tipo II. Nivel de significacin. Regin crtica. Regla de decisin. Distribucin F de Snedecor. Diferencia de medias y de proporciones, cociente de varianzas para muestras independientes. Muestras apareadas: media de las diferencias. El diseo de experimentos La ciencia, tiene entre sus objetivos la explicacin y comprensin de los acontencimientos. Un requisito fundamental en toda ciencia fctica es el contraste de las hiptesis planteadas, poniendo a prueba las mismas mediante una confrontacin con la experiencia. El diseo experimental crea las condiciones para el contraste de la hiptesis y brinda la metodologa estadstica correspondiente para el anlisis de los datos. Es el proceso de planear un experimento para obtener datos apropiados que puedan ser analizados mediante mtodos estadsticos, con objeto de producir conclusiones vlidas y objetivas. La metodologa estadstica es el nico enfoque objetivo para analizar un problema que involucre datos sujetos a errores experimentales. As es que hay dos aspectos en cualquier problema experimental: el diseo del experimento y el anlisis estadstico de los datos. El propsito del diseo experimental es controlar la mxima cantidad de informacin pertinente al problema bajo investigacin. Sin embargo tambin es importante que el diseo o plan sea tan simple como sea posible, a fin de ahorrar tiempo, dinero, personal y material experimental. Para que la metodologa de diseo de experimentos sea eficaz es fundamental que el diseo sea el adecuado. Un experimento puede realizarse por alguno de los siguientes motivos: de Determinar los factores principales que influyen sobre la variable respuesta. Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable inters o respuesta. Comparar las respuestas en diferentes niveles de observacin de variables controladas. Obtener un modelo estadstico-matemtico que permita hacer predicciones de respuestas futuras.

Para poder realizar un buen diseo experimental, es necesario previamente comprender el problema que se desea estudiar, plantendose un conjunto de preguntas clsicas: 1234Cules son las caractersticas de inters? Qu variables afectan a las caractersticas que se van a analizar? Cuntas veces debera repetirse el experimento? A partir de qu valor se considerar que el efecto es significativo?

Lo cual conduce a elegir las variables ms apropiadas y sus niveles de medicin, elegir la o las respuestas a evaluar y el modelo de diseo. Para responder estas preguntas es necesario definir claramente algunos trminos fundamentales: Experimento: es un ensayo o una observacin realizado bajo condiciones establecidas y controladas por el experimentador, susceptible de repetirse bajo las mismas condiciones. Variable de inters o respuesta: es la variable que se desea estudiar. Unidad experimental: es la parte ms pequea de material experimental, entidad fsica o sujeto, en la que se aplica un tratamiento una sola vez. Tambin puede entenderse como cada una de las reproducciones del experimento. Tamao del Experimento: es el nmero total de observaciones recogidas en la ejecucin del experimento. Ejemplo: si se asignan 10 gallinas a cada una de tres dietas el tamao del experimento es 30. Factor: es una variable que se sospecha que puede ejercer influencia sobre la variable respuesta de inters. Factor controlado: se denomina as a una variable manipulada por el investigador o variable independiente, a fin de estudiar su influencia sobre la variable de inters o dependiente. Algunos autores la denominan variable de entrada al proceso. Ejemplo: si pensamos que la temperatura o la humedad pueden afectar a la conservacin de cierta propiedad de un alimento o medicamento, se puede controlar manteniendo dicho producto con tres valores distintos de temperatura. Niveles del factor: son cada una de las categoras, o valores, o formas especficas que adopta la variable independiente o controlada. Ejemplo: en el caso de las tres dietas, el factor dieta tiene tres niveles; en el caso del rodeo, el factor tiene dos niveles. Tipos de factores: existen factores cuantitativos, cuyos niveles son cantidades numricas, y cualitativas, cuyos niveles son procedimientos o cualidades. Ejemplo de factor cuantitativo puede ser la cantidad de fertilizante adicionado a las parcelas de cultivo por hectrea con niveles: 10kg/ha 20 kg/ha -30 kg/ha de fertilizante. Ejemplo de factor cualitativo puede ser el tipo de nutriente adicionado a una dieta con niveles: potasio, magnesio y calcio. Tratamiento: conjunto de condiciones experimentales o procedimientos creados para el experimento en funcin de la hiptesis de investigacin a las que se someter a las unidades experimentales en un diseo elegido. Con varios factores es una de las combinaciones especficas de los niveles de los factores de estudio, y en un diseo unifactorial es uno de los distintos niveles del factor en el caso. Por ejemplo: si se asignan tres dietas distintas a las gallinas de un criadero, cada una de las dietas es un tratamiento. Si en un tambo se combinan tres raciones de alimentacin dos rodeos con vacas en ordee (uno con vacas de alta produccin y el otro con las de baja produccin). Cada combinacin de rodeo y racin constituye un tratamiento (6 tratamientos). Observacin: valor que asume una variable, tambin denominada variable respuesta, en una determinada realizacin del experimento, es decir cada registro realizado en el contexto del experimento de la variable respuesta. Efecto: diferencia entre los valores medios de la variable respuesta en presencia y ausencia de un nivel del factor. Si la variable respuesta de inters es el engorde semanal medido en gramos de una gallina con cierta dieta enriquecida, el efecto es la diferencia entre el engorde medio con la dieta enriquecida y el engorde medio con la dieta tradicional, ambos medidos en gramos. Diseo equilibrado o balanceado: es el diseo en el que todos los tratamientos son asignados a un nmero igual de unidades experimentales, en el cual se obtiene la misma cantidad de repeticiones por tratamiento. Por ejemplo hay cuatro vacas en cada combinacin de rodeo y nutriente para el agua. Principios Bsicos del diseo experimental Los tres principios bsicos que caracterizan a un diseo experimental:

Repeticin: cuando un tratamiento es aplicado a ms de una unidad experimental. Las observaciones repetidas con las mismas condiciones experimentales en el contexto de un experimento no coinciden necesariamente, y por lo tanto una de las cuestiones fundamentales a la hora de disear un experimento es la seleccin del tamao de muestra o nmero de repeticiones adecuado en cada contexto. Las razones por las cuales es deseable realizar repeticiones del experimento son: a- Proporcionar una estimacin del error experimental (error generado por causas no controladas por el experimentador), que acta como unidad bsica de medida para indicar el significado de las diferencias. b- Obtener mayor precisin en la estimacin. c- Permitirnos extender el alcance de la inferencia relativa al experimento. El error experimental segn el contexto puede reflejar: errores de experimentacin errores de observacin errores de medicin variacin del material experimental El error experimental puede reducirse generalmente adoptando una o ms de las tcnicas siguientes: usando material experimental tan homogneo como sea posible. utilizando informacin proporcionada por otras variables aleatorias teniendo cuidado al dirigir el experimento usando un diseo experimental ms eficiente. Aleatorizacin: Todo procedimiento de prueba se basa en un conjunto de supuestos que deben satisfacerse para que la prueba resulte vlida. Una de las suposiciones ms frecuentes es que las observaciones, o los errores en ellas, son independientes. Dicho en otras palabras la aleatorizacin hace vlida la prueba. Control local: Se denomina de esta manera al conjunto de acciones que implementa el investigador con el fin de reducir al mximo posible el error experimental mantenindolo en un rango de variacin manejable. Por ejemplo: seleccin de unidades experimentales homogneas, divisin en bloques, calibracin de instrumentos, etc. Tipos de estudios de investigacin Los estudios observacionales son un conjunto de estudios en los que no hay intervencin por parte del investigador y este se limita a medir las variables que define en el estudio. Por ejemplo, los estudios epidemiolgicos. Ventajas de los estudios observacionales 1. Son ms prcticos y factibles de realizar, ya que la cooperacin de los sujetos es menos necesaria. 2. Sus resultados son ms generalizables a poblaciones, geogrfica o demogrficamente definidas. Inconvenientes de los estudios observacionales 1. Escaso control de las influencias de los factores de confusin sobre los resultados del estudio. (Los factores de confusin son factores no tenidos en cuenta que pueden llegar a modificar los resultados de un anlisis). 2. Debido a la falta de control por parte del investigador, cada estudio observacional tiende a ser nico, siendo muy difcil reproducir los resultados por otro investigador. Los estudios pre-experimentales se caracterizan por analizar una nica variable y prcticamente no existe ningn tipo de control. No existe manipulacin de la variable independiente ni se utiliza el grupo de control; por consiguiente son escasas las posibilidades de que este grupo sea representativo de los dems. Este tipo de diseo consiste en administrar un tratamiento o estmulo en la modalidad de solo pre-prueba / posprueba.

Un estudio de intervencin, tambin llamado estudio experimental, es un estudio caracterizado por la manipulacin artificial del factor de estudio por el investigador y por la aleatorizacin de los casos o sujetos en dos grupos, llamados control y tratado. Cuando la caracterstica de la aleatorizacin en el estudio no se cumple, se dice que el estudio es cuasiexperimental. La falta de aleatorizacin de los estudios cuasiexperimentales indica que no existe manera de asegurar la equivalencia inicial de los grupos denominados experimental y de control. Tambin es usual que, en un experimento, se utilicen controles histricos. El problema que presenta este tipo de diseo es que el grupo actualmente en tratamiento puede presentar importantes diferencias relativas al tratamiento respecto al grupo de control histrico. Los trabajos con controles histricos estn generalmente sesgados a favor del tratamiento, mientras que los experimentos aleatorios evitan este tipo de sesgo.
PROBLEMAS RESUELTOS

1) Mediante los estudios ecogrficos, los bebs pueden actualmente ser observados mientras estn en el seno materno. Sin embargo, gran cantidad de experimentos desarrollados en animales de laboratorio dieron como resultado que la aplicacin de ultrasonidos poda ser la causa de que el peso al nacer fuese inferior al normal. Ante el temor de que esta conclusin fuese aplicable a los humanos, un grupo de especialistas del Hospital John Hopkins de Baltimore puso en marcha un estudio para investigar el tema. En el mismo se observ el peso al nacimiento de los bebs que estuvieron expuestos a controles ecogrficos (ultrasonido) y de los que no estuvieron expuestos. Tambin en este caso los bebs expuestos al ultrasonido durante el embarazo pesaban en su mayora al nacer menos que aquellos que no lo haban estado, pero un dato a tener en cuenta es que los obstetras recomendaban el ultrasonido cuando sospechaban que el embarazo no se desarrollaba con normalidad. a) Se trata de un estudio observacional o experimental? Por qu? b) Puede concluirse que el ultrasonido influye sobre el peso del nacimiento? Solucin: a) Se trata de un estudio observacional, porque no hay intervencin del investigador. b) Los bebs expuestos al ultrasonido y los no expuestos presentaban diferencias que no tenan nada que ver con el hecho de ser tratados o no. De modo tal que los investigadores tuvieron un conjunto de factores de confusin con el cual enfrentarse. La conclusin del estudio fue, por lo tanto, que las ecografas y el menor peso de los bebs tenan una causa comn: problemas durante el embarazo. 2) Mediante la siguiente experiencia se quiere determinar si una droga reduce el nivel promedio de glucosa en sangre (glucemia) en una lnea de ratas diabticas. Se tomaron al azar 40 ratas de esta lnea y se les suministr la droga (grupo tratado). Al mismo tiempo se tomaron otras 30 ratas de la misma lnea y se les suministr un placebo (grupo control). Los niveles sanguneos de glucosa (mg/ml) en las ratas fueron:

1,82 1,41 1,60 1,68

1,89 1,88 1,70 1,57

1,39 1,88 1,69 1,91

Tratadas con droga 1,79 1,27 1,73 2,01 1,74 1,91 1,66 1,93 1,56 1,93 1,70 1,74 1,94 1,62 1,44 1,68 1,99 1,82 1,83 1,60 1,58 2,12 1,61 1,91

1,52 2,16 1,40 1,70

Tratadas con placebo 2,15 1,91 1,93 2,22 2,18 1,75 1,93 2,03 2,37 1,65 2,09 1,75 2,00 2,23 2,10 1,95 2,18 1,95 1,92 2,01 2,48 1,67 2,23 1,96 1,87 2,06 2,00 2,26 1,94 1,89

2,17

n= 40 r= 0,994 (Droga)

Cuantiles observados(Droga)

1,95

Shapiro-Wilks (modificado) Variable n Media D.E. W* p(una cola) Droga 40 1,73 0,20 0,97 0,7640
1,72

1,50

1,27 1,27 1,50 1,72 1,95 2,17

Cuantiles de una Normal(1,7328,0,04161)

2,48
Cuantiles observados(Placebo)

n= 30 r= 0,989 (Placebo)

2,27

Shapiro-Wilks (modificado) Variable n Media D.E. W* p(una cola) Placebo 30 2,02 0,20 0,97 0,7499

2,05

1,84

1,62 1,62 1,84 2,05 2,27 2,48

Cuantiles de una Normal(2,022,0,038086)

a) Es la droga efectiva para reducir el nivel promedio de glucosa en sangre, al 5%? Asuma que la droga no modifica la varianza poblacional del nivel de glucosa en sangre, y que sta es conocida, simblicamente 2droga= 2placebo =0,04 mg2/ml2 b) Construya un intervalo de confianza del 95% para la diferencia entre la media poblacional de la glucemia de las ratas tratadas con droga y la media poblacional de la glucemia de las ratas tratadas con placebo. Datos del problema: Variables en estudio X1: nivel de glucosa de una rata diabtica de la lnea, tratada con droga, en mg/ml X2: nivel de glucosa de una rata diabtica de la lnea, tratada con placebo, en mg/ml Tamaos de las muestras: n1= 40 y n2= 30 Varianzas poblacionales: Conocidas e iguales. ( Nivel de significacin: =0,05 Nivel de confianza: 1 = 0,95
2 1= 2 2

= 0,04 mg2/ml2)

Solucin: a) La hiptesis de trabajo que se desea poner a prueba es: El empleo de la droga disminuye el nivel medio de glucosa en sangre de ratas diabticas de la lnea Verificacin de supuestos: Para poder plantear las hiptesis estadsticas y llevar a cabo la prueba, hay que verificar los supuestos tericos necesarios. En este caso, los supuestos son que ambas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de independencia se cumple por la forma en que se realiz el experimento: a un grupo de ratas se le suministr la droga y a otro grupo, tambin tomado al azar, se lo trat con placebo. Para X1: se realiz un grfico de cuantil-cuantil (qqplot) para estudiar la normalidad de la variable. En este grfico se comparan dos distribuciones, la de los datos muestrales y la de una normal. Cuando los puntos estn perfectamente alineados, se infiere que la distribucin es exactamente normal, si los puntos estan muy cercanos a la lnea, la distribucin es aproximadamente normal, grandes apartamientos de esta estructura indican falta de normalidad. Esto sin embargo no tiene la fuerza de un test estadstico es una tcnica exploratoria.

Qqplot
Cuantiles observados(X1)

2.17

1.95

1.72

1.50

Observando el grfico se puede ver que los puntos no se alejan mucho de la recta, sin embargo, por ser un grfico, no se puede hacer inferencia sobre el comportamiento distribucional de la variable a nivel poblacional. Para poder concluir a nivel poblacional es necesario un test de normalidad. En Elementos de Estadstica se estudi la prueba Shapiro-Wilks, para verificar normalidad, y cuyas hiptesis son:

1.27 1.27 1.50 1.72 1.95 2.17

Cuantiles de una Normal(1.7328,0.04161)

En todos los casos para esta prueba utilizaremos un nivel de significacin del 10% Al realizar el test, utilizando InfoStat, se obtuvieron los siguientes resultados: Shapiro-Wilks (modificado) Variable n X1 40

Media D.E. 1.73 0.20

W* 0.97

p (una cola) 0,7640

Como p-valor= 0,7731 y es mayor que =0,10, no se rechaza la hiptesis nula, por lo tanto, con un nivel de significacin del 10% se puede decir que la variable X 1 (nivel de glucosa en sangre de una rata tratada con droga, en mg/ml) se distribuye normalmente.

Anlogamente se estudia la normalidad de la variable X2:

Qqplot
Cuantiles observados(X2)
2.48

H 0 : X 2 ~N

2 2 2

H1 : X 2 no se distribuye normalmente N

2 2

2.27

2.05

Shapiro-Wilks (modificado) Variable n Media D.E. X2 30 2.02 0.20

W* p (una cola) 0.97 0,7499

1.84

1.62 1.62 1.84 2.05 2.27 2.48

Cuantiles de una Normal(2.022,0.038086)

Como p-valor= 0,7739 y es mayor que =0,10, no se rechaza la hiptesis nula, por lo tanto, con un nivel de significacin del 10% se puede decir que la variable X 2 (nivel de glucosa en sangre de una rata tratada con placebo, en mg/ml) se distribuye normalmente. Una vez verificado el supuesto terico se puede seguir adelante con la prueba. Nota:este test no ser necesario si la informacin asegura distribucin normal de la variable. Hiptesis estadsticas. El inters del investigador es probar si la droga disminuye el nivel medio de glucosa en sangre, por lo tanto quiere saber si la media del nivel de glucosa en sangre de ratas tratadas con droga es menor que la media del nivel de glucosa en sangre de las ratas tratadas con placebo. Simblicamente: 1 2 , esta expresin no lleva el signo igual, por lo tanto debe corresponder a la hiptesis alternativa. Es decir que las hiptesis estadsticas son:

H0 : H1 :

1 1

2 2

Equivalentemente podra escribirse

H0 : H1 :

1 1

2 2

0 0

o tambin

H0 : H1 :

2 2

1 1

0 0

Cualquiera de estas formas expresan las mismas hiptesis estadsticas. Sin embargo hay que elegir una expresin para poder continuar con la prueba manteniendo la eleccin a lo largo de todo el anlisis y por sobre todo concluir para las hiptesis elegidas. Si esto no se mantiene deja de tener validez la prueba o peor an, se podra estar concluyendo errneamente. En este caso se va a trabajar

con:

H0 : H1 :

1 1

2 2

Nivel de significacin: =0,05 Estadstico de prueba (o variable pivotal) Se est realizando un test de hiptesis para la diferencia de medias poblacionales, por lo cual se cuenta con dos opciones al elegir la variable pivotal: Z o t de Student, dependiendo del conocimiento o no las varianzas poblacionales. En este caso las varianzas poblacionales son conocidas e iguales, por lo tanto se utiliza Z, la expresin de la variable pivotal es:

Regin crtica: Observando la hiptesis alternativa (del par de hiptesis elegidas), se ve que la regin crtica es unilateral izquierda. Por lo tanto el valor crtico es: Z0,05 1,64 y la regin crtica es: Z H 1,64
0

Regla de decisin: Rechazo H0 si

Z H0 Z H0

1,64 1,64

No rechazo H0 si

Clculo de ZHo: Hasta este momento no utilizamos los valores muestrales, excepto en la verificacin de supuestos, sin embargo se podra haber hecho con muestras piloto y recin en esta instancia extraer las muestras para el anlisis. Antes de calcular el valor del estadstico de prueba hay que calcular las medias muestrales utilizando las frmulas dadas en la unidad de estadstica descriptiva de Elementos de Estadstica:

X1 1,73; X 2

2,02 . Hay que tener en cuenta que la prueba se est realizando bajo la

hiptesis nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la diferencia de las medias poblacionales es cero, es decir que 1 0 . Reemplazando estos valores y 2 el resto de la informacin en la frmula nos queda:

Decisin: Se rechaza la hiptesis nula porque ZH = -6,017 , es menor que 1,64, o sea que o ZCALCULADO < ZCRITICO. Conclusin: Con un nivel de significacin de 5% tengo evidencia suficiente para rechazar la hiptesis nula ( H0 : 1 2 ), por lo tanto la media poblacional del nivel de glucosa en sangre de ratas diabticas tratadas con droga es menor que la media poblacional del nivel de glucosa en sangre de ratas diabticas tratadas con placebo, en estas poblaciones de ratas diabticas en estudio. Por lo tanto puedo decir que la droga es efectiva. b) La frmula del intervalo del 95% que se est pidiendo se despeja de la variable pivotal y es:
2 1 /2 2 2 2 1 /2 2 2

( X1 X 2 ) Z1
reemplazando se obtiene que

n1

n2

;( X1 X 2 ) Z1

n1

n2

Por lo el tanto intervalo de confianza para la diferencia de medias poblacionales

es:

Conclusin: Con un nivel de confianza del 95%, se espera que el intervalo [-0,3839 mg/ml; -0,1961 mg/ml] cubra o contenga a la diferencia entre la media poblacional del nivel de glucosa de las ratas tratadas con droga y la media poblacional del nivel de glucosa de las ratas tratadas con placebo, en estas poblaciones de ratas diabticas en estudio. NOTA: Observemos que el 0 (cero) no est incluido en el intervalo de confianza, y que ambos lmites son negativos, lo cual es indicador de que la diferencia es negativa. Sin embargo, hay que tener en cuenta que el IC no es equivalente porque la prueba es unilateral.

3) Se tom una muestra aleatoria de 21 cerdos Yorkshire del norte de la provincia de Buenos Aires. Los mismos tenan 3 meses de edad y pesos homogneos, y se los separ, aleatoriamente, en dos lotes. Al lote 1 se le asign una racin estndar (A) y al lote 2 otra con distinta formulacin (B). La siguiente tabla contiene las ganancias de peso de cada animal, luego de 30 das de experiencia, expresadas en kg. Lote 1(A) Lote 2(B) 24 26 26 32 25 28 23 25 28 29 27 27 28 28 24 27 29 27 29 28

30

Por estudios anteriores se sabe que ambas variables se distribuyen normalmente con varianzas iguales, pero desconocidas. a) Se puede suponer, al 5%, que la ganancia media de peso de los animales alimentados con la racin B supera significativamente la ganancia media de peso de los animales alimentados con racin A? b) Construir un intervalo para la diferencia de medias al 95%. Qu puede concluir? Datos del problema: Variables en estudio: XA: ganancia de peso de un cerdo Yorkshire de 3 meses de edad del norte de la provincia de Bs. As. alimentado con la racin estndar A XB: ganancia de peso de un cerdo Yorkshire de 3 meses de edad del norte de la provincia de Bs. As. alimentado con la formulacin distinta B Tamaos de las muestras: nA=10 y nB=11 Varianzas Poblacionales:
2 A = 2 B 2

(desconocidas)

Nivel de significacin: =0,05 Nivel de confianza: 1 = 0,95

Solucin a) Hiptesis de trabajo: La ganancia media de peso de los animales alimentados con la racin B supera la ganancia media de peso de los animales alimentados con racin A Verificacin de supuestos: En este caso, a diferencia del ejercicio anterior, en el enunciado se asegura la normalidad de ambas variables, por estudios anteriores. Por lo tanto no es necesaria la prueba de ShapiroWilks para verificarla. Por otro lado el supuesto de independencia tambin se cumple por la forma en que se realiz el experimento: a un grupo de cerdos, tomado al azar, se lo alimenta con la racin A y al otro grupo, tambin tomado al azar, se lo aliment con la racin B. Es decir que: XA N ( A, 2) y XB N ( B, 2) son variables aleatorias independientes. Observar que ambas variables tiene la misma varianza poblacional. Hiptesis estadsticas: La hiptesis de trabajo simblicamente nos lleva a la expresin:
B A

, por

lo tanto esta corresponde a la hiptesis del investigador que ubicamos en la hiptesis alternativa.

H0 : H1 :

B B

A A

nuevamente, existen diversas formas de plantear la misma hiptesis, como por ejemplo:

H0 : H1 : H0 : H1 :

B B

A A

0 0 0 0

y otras ms. En este caso, se trabajar con la segunda expresin y se concluir para esta expresin:
B B A A

Nivel de significacin: =0,05 Variable pivotal: En este caso, como en el ejercicio anterior, se est realizando un test para la diferencia de medias poblacionales, por lo tanto hay dos opciones para la variable pivotal (Z o t-Student). Como las varianzas poblacionales son desconocidas no se puede utilizar la variable Z, por lo tanto se utilizar la variable pivotal t de Student, cuya frmula es:

. Donde Sa es la raz cuadrada positiva de la varianza amalgamada, es decir que es un promedio ponderado entre la varianza muestral de la variable XA y la varianza muestral de la variable XB y estima a la nica varianza poblacional que se desconoce, 2. Regin crtica: Observando la hiptesis alternativa planteada se deduce que la regin crtica es unilateral derecha (es decir que se rechaza la hiptesis nula a valores grandes de la variable pivotal). El valor crtico que se utiliza es tn n 2;1 t10 11 2;0,95 t19;0,95 1,729 , por lo tanto la regin crtica es:
A B

t 1, 729 . Grficamente:

Regla de decisin: Rechazo H0 si


2

t H0

1,729 y no rechazo H0 si tH0

1,729

Clculo: Para obtener el valor calculado del estadstico de prueba, hay que realizar ciertos clculos auxiliares ( X A ; XB y Sa ) utilizando las frmulas habituales para las medias y las varianzas muestrales, y la siguiente frmula para la varianza amalgamada:

S
Se obtuvo: X A

2 a

2 2 (nA 1) S A (nB 1) S2 nA nB 2
2 4,90 ; SB

26,3 ; X B
Sa
2

2 27,91 ; SA

3,69 y
44,1 36,9 = 4, 26 19

(9)4,90 (10)3, 69 10 11- 2

por lo tanto S a

2, 06

Reemplazando estos valores en la frmula de la variable pivotal queda:

Como

t H0

1,78 y utilizando la regla de decisin se rechaza la hiptesis nula ya que 1,78 es mayor

que 1.729. Conclusin: Con un nivel de significacin del 5% tengo evidencia suficiente para rechazar la hiptesis nula (Ho: B - A 0), por lo tanto, la diferencia entre la media poblacional de la ganancia de peso de los cerdos alimentados con la racin B y la media poblacional de la ganancia de peso de los cerdos alimentados con la racin A es mayor a cero, en estas poblaciones de cerdos de 3 meses de raza Yorkshire del norte de la provincia de Buenos Aires.

Respuesta: Se puede suponer, al 5%, que la ganancia media poblacional del peso de los cerdos alimentados con la racin B supera significativamente a la media poblacional del peso de los cerdos alimentados con la racin A. Para este problema, la salida de InfoStat correspondiente es: Prueba T para muestras Independientes Gr(1) Gr(2) n(1) n(2) media(1) media(2) {A} {B} 10 11 26,30 27,91 p(Var.Hom.) 0,6623 T -1,78 p prueba 0,0452 UnilatI

Nota: InfoStat compara grupos en orden alfabtico, por lo cual la prueba es unilateral izquierda, o sea que utiliza H1: A- B<0. Para la comparacin es indistinta la forma en que se plantea la diferencia, siempre que se respete el sentido de la misma. El valor de t observado es el mismo que obtuvimos al aplicar la frmula, pero de signo opuesto, por haber invertido el orden de la diferencia. Como puede verse, al realizar la Prueba T para muestras independientes, tambin se realiza una prueba para evaluar la Homogeneidad de Varianzas, el p-valor es 0,6623, por lo que se cumple este supuesto. En este caso, en que la regin crtica es unilateral izquierda, el clculo del p valor es:, p valor= P(t V.Calc.) = P(t19 -1,78)

Ahora, si consideramos la regin crtica derecha que planteamos al principio, el p valor se grafica y se calcula de la siguiente forma, dado que la regin crtica es unilateral derecha: p valor= P(t V.Calc) = P(t19 1,78) b) La frmula del intervalo de 95% de confianza para la diferencia de medias se deduce de la distribucin de la variable pivotal:

(XB

X A ) tn A

nB 2;1

/2

Sa

1 nA

1 ;( X B nB

X A ) tn A

nB 2;1

/2

Sa

1 nA

1 nB

Reemplazando con los valores correspondientes queda:

Por lo tanto el intervalo pedido es: [-0,29 Kg ; 3,51 Kg] Conclusin: Con un nivel de confianza del 95% se espera que el intervalo [-0,29 Kg ; 3,51 Kg] cubra o contenga a la diferencia entre la media poblacional del peso de los cerdos alimentados con la racin B y la media poblacional del peso de los cerdos alimentados con la racin A, en estas poblaciones de cerdos Yorkshire de 3 meses de la provincia de Buenos Aires. NOTA: Tener en cuenta que en este caso el IC no es equivalente a la prueba de hiptesis porque la prueba es unilateral. 4) En un experimento referido al uso de la vitamina B12 en casos de anemia perniciosa durante el perodo de remisin, se administr, por va intramuscular, 30 g de B12 a un total de 10 pacientes tomado al azar. En ellos se midi la concentracin de hemoglobina en sangre (mg%) en dos momentos, al inicio del tratamiento y luego de tres meses. Los valores observados se muestran en la siguiente tabla:

Paciente Hemoglobina (mg%) Inicial (I) Despus de 3 meses (F, o final)

10

12,2 11,3 14,7 11,4 11,5 12,7 12,3 13,0 12,7 13,0 13,0 13,4 16,0 13,6 14,0 13,0 14,2 15,1 15,9 14,5

Hay aumento significativo de hemoglobina despus del tratamiento al nivel del 5%?
Qqplot
-0,30

Cuantiles observados(D)

-1,02

Shapiro-Wilks (modificado) Variable n Media D.E. W* D 10 -1,79 0,84 0,97

p (una cola) 0,9425

-1,75

-2,48

-3,20 -3,20

-2,48

-1,75

-1,02

-0,30

Cuantiles de una Normal(-1,79,0,70989)

Datos del problema: Variable en estudio: D: diferencia entre la concentracin de hemoglobina en sangre (en mg%) al inicio del tratamiento con vitamina B12 y la concentracin de hemoglobina en sangre (en mg%) despus de tres meses del tratamiento con vitamina B12, de un paciente con anemia perniciosa. En smbolos: di = ii - fi En la siguiente tabla estn calculados los valores correspondientes a la diferencia planteada: di -0,8 -2,1 -1,3 -2,2 -2,5 -0,3 -1,9 -2,1 -3,2 -1,5

Nota: En este caso se utilizar: di = ii - fi, pero tambin se podra haber definido la variable como di = fi - ii . La definicin de esta variable debe quedar clara al comienzo de la resolucin del ejercicio y debe mantenerse a lo largo del mismo. Nivel de significacin: =0,05 Solucin: Hiptesis de trabajo: Hay aumento significativo del nivel de hemoglobina despus del tratamiento Antes de plantear las hiptesis estadsticas hay que analizar la situacin planteada, ya que no es igual a las anteriores, dado que no hay independencia entre las mediciones realizadas, ya que se realizaron dos veces sobre cada individuo, al inicio y al finalizar los 3 meses de aplicado el tratamiento con vitamina B12. Por esta razn no se van a comparar las medias en los diferentes tiempos, sino que se va estudiar la media de la variable diferencia. Verificacin de supuestos: En este caso, solamente hay que probar la normalidad de la variable Di. El otro supuesto terico corresponde a la no independencia entre las mediciones, o sea, X1 y X2 no son independientes.

Qqplot
-0,30

H 0 : D se distribuye normal (

;
D

)
2 D

Cuantiles observados(D)

2 D

-1,02

H1 : D no se distribuye normal (
Shapiro-Wilks (modificado) Variable n Media D.E. W* D 10 -1,79 0,84 0,97

-1,75

p (una cola) 0,9425

-2,48

-3,20 -3,20

-2,48

-1,75

-1,02

-0,30

Cuantiles de una Normal(-1,79,0,70989)

Como 0,9425 es mayor que 0,10, no se rechaza la hiptesis nula. Entonces, con un nivel de significacin del 10% se puede concluir que la diferencia entre la concentracin de hemoglobina en sangre (mg%) al inicio del tratamiento con vitamina B12 y la concentracin de hemoglobina en sangre (mg%) luego de 3 meses de tratamiento con vitamina B12 en pacientes con anemia perniciosa se distribuye normalmente. Simblicamente

D~N (

2 D

Hiptesis estadsticas: si el tratamiento produce un aumento en el nivel de hemoglobina en sangre, los niveles de hemoglobina medidos a los 3 meses deberan ser mayores que los medidos al inicio del tratamiento, es decir que la variable D = I F, tendra una media negativa. Simblicamente 0. D La definicin de la hiptesis alternativa depende exclusivamente de la definicin de la variable en estudio, por esta razn debe quedar clara la forma en que se realiza la diferencia entre I i y Fi. Luego, las hiptesis estadsticas son:

H0 : H1 :

D D

0 0

Variable pivotal: Por ser una prueba de medias apareadas la opcin ms usual para la variable pivotal es una t de Student (difcilmente se conocer la varianza de la variable diferencia) con la siguiente frmula:

d sd

~t n

1.

Observar que esta expresin es la misma que la utilizada en

n
Elementos de Estadstica para estudiar una poblacin, la variable estudiada es D, su media muestral es d y su varianza muestral es
2 SD .

Regin crtica: Observando la hiptesis alternativa planteada, se ve que la regin crtica es unilateral izquierda, con valor crtico: tn 1;0,05 t10 1;0,05 t9;0,05 t9;0,95 1,83 (los grados de libertad son 10 - 1, porque hay 10 diferencias). Por lo tanto, la regin crtica queda definida como t Grficamente:

1,83 .

Regla de decisin: Rechazo H0 si

tH0

1,83 y no rechazo H0 si tH0

1,83

Clculo: Para obtener el valor calculado del estadstico de prueba hay que realizar ciertos clculos auxiliares ( d
2 y sD ), utilizando las frmulas habituales para la media muestral y la varianza muestral,

sobre las 10 diferencias. Utilizando los valores calculados para d i (ver la tabla correspondiente al plantear la forma de realizar la misma), se obtuvo

2 1,79 y sD

0,71 , reemplazando en la frmula de la variable pivotal:

tH0

1,79 0,84 10

1,79 0, 26

6,7 .

Como el valor observado 6,7 es menor que 1,83, vale decir pertenece a la regin crtica, se rechaza la hiptesis nula. Conclusin: Con un nivel de significacin del 5% tengo evidencia suficiente para rechazar la hiptesis nula ( D 0 ), por lo tanto la media poblacional de las diferencias entre la concentracin de hemoglobina en sangre (mg%) de pacientes con anemia perniciosa al inicio del tratamiento y la concentracin de hemoglobina en sangre (mg%) de pacientes con anemia perniciosa despus de tres meses de iniciado el tratamiento con vitamina B12 es menor que cero, en la poblacin de pacientes con anemia perniciosa. Por lo cual la hemoglobina aumenta significativamente luego del tratamiento con vitamina B12. A continuacin se da la salida del programa InfoStat para este problema Prueba T para un parmetro Valor del parmetro probado: 0 Variable n Media DE T p(Unilateral I) D 10 -1,79 0,84 -6,72 <0,0001 Nota: con un p-valor tan pequeo puede decirse que esta es una decisin fuerte.

Para el caso de que la regin crtica sea unilateral izquierda, el clculo del p valor es: p-valor= P(t V.Calc.)

Nota: Al comienzo del ejercicio se defini la variable diferencia como: di = ii - fi, Se recomienda realizar de nuevo la prueba, pero definiendo de la otra forma a la variable y observar qu se modifica y qu permanece igual. 5) En las poblaciones de adultos y adolescentes que vean un programa de televisin los sbados a la noche se tomaron sendas muestras al azar de 400 y 600 individuos, respectivamente. A la pregunta si realmente les gustaba el programa, 100 adultos y 300 adolescentes, de estas muestras, contestaron que s. a) Estimar puntualmente y con una confianza del 95% la diferencia entre las proporciones de adultos y adolescentes que ven el programa y les gusta. b) Probar, al 5%, si ambas proporciones son iguales. Datos del problema Variable en estudio: X1: Cantidad de adultos que ven el programa los sbados a la noche y les gusta, en una muestra de 400. X2: Cantidad de adolescentes que ven el programa los sbados a la noche y les gusta, en una muestra de 600. Tamaos de muestras: n1 = 400; n2 = 600 Nivel de confianza: 1 Solucin: a) Antes de comenzar a construir el intervalo hay que verificar los supuestos tericos. Supuestos tericos: En este caso, a diferencia de los ejercicios anteriores, el supuesto terico es distribucin binomial de ambas variables. La verificacin de este supuesto es ms sencilla que la verifi= 0,95.

cacin de la normalidad de las variables, ya que solamente hay que verificar que las variables cumplan con las condiciones de una variable binomial, es decir: Que cada repeticin del experimento tenga dos resultados posibles (xito y fracaso). Si lo aplicamos al ejemplo veremos que las dos posibles respuestas que podemos obtener, al encuestar a una persona, son: que le guste el programa del sbado a la noche y que no le guste el programa del sbado a la noche. Que los resultados (xito y fracaso) sean mutuamente excluyentes en una misma repeticin. Que los resultados (xito y fracaso) sean independientes de repeticin en repeticin. Que el nmero de repeticiones est prefijado de antemano y que la probabilidad de xito sea constante a lo largo de todas las repeticiones del experimento aleatorio. En este caso ambas variables cumplen con estas condiciones. Estimacin puntual: Lo que se quiere estimar es:la diferencia entre las proporciones poblacionales de adultos y adolescentes que ven el programa y les gusta, simblicamente: p1-p2. Por lo tanto la estimacin puntual de esta diferencia es la diferencia entre las proporciones estimadas, p1 p2 .

p1
p2

cantidad de adultos que ven el programa los sbados a la noche y les gusta cantidad total de adultos

100 400

0, 25

cantidad de adolescentes que ven el programa los sbados a la noche y les gusta cantidad total de adolescentes
Por lo tanto la estimacin puntual es:

300 600

0,5

p1

p2

0, 25 0,5

0, 25

Intervalo de confianza: La frmula del intervalo de confianza para la diferencia de proporciones se deduce de la nica variable pivotal posible, cuya frmula es:

Por lo tanto la frmula del intervalo es:

Reemplazando:

Conclusin: Con un nivel de confianza del 95% se espera que el intervalo [-0,31;-0,19] cubra o contenga a la diferencia entre la proporcin poblacional de adultos que ven el programa los sbados a la noche y les gusta y la proporcin poblacional de adolescentes que ven el programa los sbados a la noche y les gusta. b) Las hiptesis estadsticas son: H0: p1-p2=0 versus H1: p1-p2 0

El nivel de significacin es 5%, siendo el estadstico de contraste:

La regin crtica es bilateral, y est formada por los valores de Z mayores o iguales a 1,96, y los menores o iguales a -1,96. La regla de decisin es: RECHAZO H0 si Zobs 1,96 o Zobs -1,96 NO RECHAZO H0 si -1,96 < Zobs < 1,96

x1 x2 n1 n2

100 300 400 600

0, 4

Como Zobs = -7,81 la decisin es ..............................................................................................................................


En esta situacin (regin crtica bilateral) el p valor se grafica y se calcula de la siguiente forma:

p valor= 2*(min { P(Z

-7,81) P(Z

-7,81) } ) = 2* P(Z

-7,81)

Con un nivel de significacin del 5%, hay/no hay (tache lo que no corresponda) evidencias suficientes para rechazar H0, por lo tanto ................................................................................................................... ..................................................................................................................................................................... ..................................................................................................................................................................... 6) Basndose en el mismo texto y los mismos datos del problema 02, responda los siguientes tems: a.- Estimar el cociente entre las varianzas, puntualmente y con un nivel de confianza del 95%. b.- Los nutricionistas que desarrollaron la nueva racin (B) sostienen que adems esta genera mayor uniformidad en el crecimiento. Probar la hiptesis sugerida con un nivel de significacin del 5%. (Nota: Mayor uniformidad hace referencia a la obtencin de ganancias de peso parecidas dentro del lote, con baja dispersin, siendo esta una caracterstica deseada por los productores.) Solucin: Los datos son los mismos que los del problema 3 y los supuestos tericos tambin a) Estimacin puntual: se pide estimar puntualmente el cociente entre las varianzas, por ejemplo, simblicamente
2 A 2 B 2 SA , cuyo estimador puntual es el cociente de las varianzas muestrales, es decir 2 SB

Utilizando la frmula de la varianza muestral se obtiene:

Por lo tanto el estimador puntual del cociente entre

S A2

SB2

es:

2 SA 2 SB

4,9 1,3279 3, 69

(Nota: En este caso se estima el cociente entre la varianza poblacional de A sobre la varianza poblacional de B, pero tambin podramos resolver este ejercicio haciendo el cociente inverso, dado que en el enunciado no hay ninguna orientacin en especial para realizarlo.) Intervalo de confianza: La frmula del intervalo de confianza para el cociente de varianzas se deduce de la variable pivotal que se utiliza para estudiar el cociente de varianzas, cuya frmula es:
2 SA 2 SA 2 SB 2 A 2 B

2 A 2 B 2 B

~F( nA

1),( nB 1)

~F( nA

1),( nB 1)

La distribucin se grafica de la siguiente manera:

Donde:

F1

F
( nA 1),( nB 1); 2

F2

F
( nA 1),( nB 1);1 2

Como en la tabla de F de Snedecor que se usa en el presente curso el valor de F1 no est tabulado, para conocerlo es necesario hacer uso de la siguiente igualdad:

F
( nA 1),( nB 1); 2

1 F
( nB 1),( nA 1);1 2

Por ejemplo, en el problema que estamos resolviendo:

F9,10;0,975

3,78; F9,10;0,025

1 F10,9;0,975

; F9,10;0,025

1 3,96

0, 25.

El intervalo se construye basndose en las siguientes igualdades:


2 SA 2 SB 2 2 A 2 B

P F
( nA 1),( nB 1);

F
( nA 1),( nB 1);1 2

1 F
( nA 1),( nB 1); 2

S S

2 A 2 B 2 A 2 B
2 A 2 B 2 A 2 B

1 F
( nA 1),( nB 1);1 2

1 F
( nA 1),( nB 1);1 2

1 F
( nA 1),( nB 1); 2

S S

2 SA 2 SB

F
( nA 1),( nB 1);1 2

2 A 2 B

2 SA 2 SB

F
( nA 1),( nB 1); 2

Entonces, en nuestro problema:

1,3279 3, 78

2 A 2 B

1,3279 0, 25

0,3513

2 A 2 B

5,3116

Conclusin: Con una confianza del 95% se espera que el intervalo [0,35136; 5,3116] cubra, o contenga, al cociente entre la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3 meses de edad del norte de la provincia de Buenos Aires alimentados con la racin A durante 30 das, y la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3 meses de edad del norte de la provincia de Buenos Aires alimentados con la racin B durante 30 das. b) Hiptesis de trabajo: la nueva racin genera mayor uniformidad en el crecimiento. Supuestos tericos: Ya fueron verificados en el ejercicio 3 Hiptesis estadsticas: Si se quiere probar que la nueva formulacin es ms uniforme, se quiere probar que la nueva formulacin es menos variable que la racin A, simblicamente:
2 A 2 B 2 A 2 B

2 A

2 B

, esta

expresin no contiene el signo igual por lo que corresponde a la hiptesis alternativa. Entonces las
2 A 2 A 2 B 2 B

hiptesis quedan:

H0 : H1 :

H0 :
o equivalentemente

1 1

H1 :

al igual que en las dems pruebas se debe plantear solo un par de hiptesis y mantenerlas a lo largo de

H0 :
toda la prueba, en esta caso vamos a trabajar con

2 A 2 B 2 A 2 B

1 1

H1 :
Nivel de significacin: =0,05

Variable pivotal: Existe una nica opcin al elegir la variable pivotal en esta prueba, la F de Snedecor, cuya frmula es:

2 SA

2 A 2 B 2 B

~F( nA

1),( nB 1)

o F

2 SA 2 SB 2 A 2 B

~F( nA

1),( nB 1)

Regin crtica: Observando la hiptesis alternativa, se ve que la regin crtica es unilateral derecha. El valor crtico que la determina, debe buscarse en la tabla de la distribucin de F de Snedecor y es: F n 1,n 1 ;1 F10 1,9 1 ;1 0,05 F 9,10 ;0,95 3,02 , por lo tanto la regin crtica est determinada por
A B

3, 02
Regla de decisin: Rechazo H0 si

FH0

3,02 y no rechazo H0 si FH0

3,02

Clculo del estadstico de prueba: Todos los valores necesarios ya fueron calculados, por lo tanto, reemplazando en la frmula, se obtiene:
2 SA 2 SB 2 A 2 B

FH 0

4,9 3, 69 1

Observar que el cociente de las varianzas poblacionales fue

1,3279 reemplazado por 1, porque el clculo se hace bajo la hiptesis nula que
plantea la igualdad de las varianzas. Como 1,3279 es menor que 3,02, no se rechaza la hiptesis nula.

Conclusin: Con un nivel de significacin del 5% no hay evidencia suficiente para rechazar H0 ( H0 :
2 A 2 B

1 ). Esto significa que el cociente entre la varianza poblacional de la ganancia de peso de los

cerdos Yorkshire del norte de la provincia de Buenos Aires de 3 meses de edad alimentados con la racin A y la varianza poblacional de la ganancia de peso de los cerdos Yorkshire del norte de la provincia de Buenos Aires de 3 meses de edad alimentados con la racin B, es menor o igual a 1. Por lo tanto, al mismo nivel, no es cierta la hiptesis de los nutricionistas. Nota: a continuacin se da la salida del programa InfoStat para este problema. Observar que los resultados son los mismos que se obtuvieron anteriormente. Prueba F para igualdad de varianzas Grupo(1) Grupo(2) n(1) n(2) 1 2 10 11 Var(1) Var(2) F 4.900 3.691 1.328 p 0.3312 prueba Unilat D

7) Con el fin de comparar el rendimiento acadmico (en una escala de 0 a 10 puntos) entre establecimientos privados y estatales, se seleccionan aleatoriamente 15 personas que han realizado estudios secundarios en establecimientos privados, y 15 personas que han realizado estudios secundarios en establecimientos estatales. Los datos obtenidos son los siguientes: PRIVADO ESTATAL 7 9 6 6 4 5 7 6 5 5 5 4 4 4 9 4 9 4 8 4 4 6 5 3 5 3 7 5 5 4

Podemos suponer que los rendimientos acadmicos difieren significativamente? ( =0,05) Shapiro-Wilks (modificado) Secundario Variable n Media D.E. W* p (una cola) Estatal Rendim 15 4,80 1,52 0,85 0,0330 Privado Rendim 15 6,00 1,73 0,85 0,0253 Como primer paso debemos verificar el supuesto de normalidad, por lo que realizamos el test de Shapiro-Wilks: No se cumple el supuesto de normalidad para el rendimiento acadmico de las personas que provienen de establecimientos secundarios estatales y privados, por lo que no podemos realizar una prueba t para muestras independientes, debemos realizar un anlisis no paramtrico, la prueba de MannWhitney.

Como podemos ver en el boxplot, las distribuciones de rendimiento acadmico de los individuos que provienen de establecimientos estatales y privados, son similares. Ambas son asimtricas positivas, ya que prcticamente coinciden el C2 con el C1. La falta de normalidad ya la habamos confirmado con la prueba de Shapiro Wilks.

Las hiptesis a testear en este caso son:

H0:

= 0 vs

H1:

0 (hiptesis bilateral)

Se combinan ambas muestras en una nica muestra ordenada y luego asignamos a cada dato su rango (posicin) sin tener en cuenta de cul de las muestras proviene. Datos Secundario Orden Rango 3 Estatal 1 1,5 3 Estatal 2 1,5 4 Estatal 3 7 4 Estatal 4 7 4 Estatal 5 7 4 Estatal 6 7 4 Estatal 7 7 4 Estatal 8 7 4 Privado 9 7 4 Privado 10 7 4 Privado 11 7 5 Estatal 12 15,5 5 Estatal 13 15,5 5 Estatal 14 15,5 5 Privado 15 15,5 5 Privado 16 15,5 5 Privado 17 15,5 5 Privado 18 15,5 5 Privado 19 15,5 6 Estatal 20 21,5 6 Estatal 21 21,5 6 Estatal 22 21,5 6 Privado 23 21,5 7 Privado 24 25 7 Privado 25 25 7 Privado 26 25 8 Privado 27 27 9 Estatal 28 29 9 Privado 29 29 9 Privado 30 29

3+4+5+6+7+8+9+10+11 63 = =7 9 9

Estadstico: T = Suma de rangos de una de las muestras El valor esperado del estadstico y la varianza del estadstico bajo H0 son, respectivamente: T (estatal)= 1,5*2 + 7*6 + 15,5*3 + 21,5*3 + 29 = 185 15*(15 15 1) n1 (n1 n2 1) E (T ) E (T ) T 2 2

232,5

V(T )

n1 n2 (n1 n2 1) 12 15*15*(15 15 1) V(T) 12 581,5 24,109 T


Z obs T - E(T ) V(T ) N (0;1)

2 T

581, 25

Z obs

185 232,5 24,109

1,97

A un nivel de significacin del 5%, y para nuestra hiptesis, rechazamos H0 si Zobs< -1,96 o Zobs>1,96 Puesto que -1,97 < -1,96, la decisin es rechazar Ho.

Al nivel del 5%, existen evidencias suficientes para rechazar H0, por lo que la mediana poblacional del rendimiento acadmico de los individuos que han realizado estudios secundarios en establecimientos estatales es distinta a la mediana poblacional de los que han realizado sus estudios secundarios en establecimientos privados. Como respuesta a la pregunta, podemos decir, que, al 5%, los rendimientos acadmicos difieren significativamente entre los individuos que han realizado sus estudios secundarios, al comparar establecimientos estatales y privados. Utilizando InfoStat, tenemos que aplicar el test de Wilcoxon para muestras independientes, y obtenemos la siguiente salida, en la que figuran medidas resumen, el estadstico correspondiente, y el p-valor de la prueba. Prueba de Wilcoxon para muestras independientes (Mann Whitney) Variab Gr1 Gr2 n1 n2 Me1 Me2 R-media1 R-media2 W p(2 colas) Rta ESTATAL PRIVADO 15 15 4,00 5,00 12,33 18,67 185,0 0,0433 8) Los datos que se presentan a continuacin provienen de los pesos, en g, de 22 ratas hembras, de entre 28 y 84 das de vida. Doce de ellas fueron alimentadas con una dieta alta en protenas, y 10 con una dieta baja en protenas.
Alta en protena 120,2 120,57 119,78 120,29 118,62 120,69 120,27 119,13 118,04 120,29 117,46 119,7 105,3 103,39 104,73 98,00 95,89 98,65 98,73 95,2 102,47

Baja en protena 102,13

Shapiro-Wilks (modificado) Variable n Media D.E. Alta en protena 12 119.58 1.049 Shapiro-Wilks (modificado) Variable n Baja en protena 10

W* p (una cola) 0.8715 0.1683

Media 100.45

D.E. 3.62

W* 0.9282

p (una cola) 0.4305

a) Se puede suponer, al 5%, que el peso medio de las ratas alimentadas con la dieta alta en protenas es mayor que el peso medio las ratas alimentadas con la dieta baja en protenas? b) Construir un intervalo para la diferencia de medias al 95%. Qu puede concluir? Datos del problema: Variables en estudio X1: peso de una rata de entre 28 y 84 das de vida alimentada con una dieta alta en protenas. Medida en g. X2: peso de una rata de entre 28 y 84 das de vida alimentada con una dieta baja en protenas. Medida en g. Tamaos de las muestras: n1= 12 y n2= 10 Varianzas poblacionales: Desconocidas Nivel de significacin: =0,05 Nivel de confianza: 1- =0,95 Solucin: a) La hiptesis de trabajo que se desea poner a prueba es: La dieta alta en protenas produce un peso medio mayor que la dieta baja en protenas Verificacin de supuestos: Para poder plantear las hiptesis estadsticas y poder llevar a cabo la prueba, hay que verificar los supuestos tericos necesarios. En este caso, los supuestos son que ambas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de independencia se cumple por la forma en que se realiz el experimento: a un grupo de ratas seleccionado aleatoriamente se le suministr la dieta alta en protenas y a otro grupo, tambin tomado al azar, se le suministro una dieta baja en protenas.

Para X1: se realiz un test de Shapiro Wilks cuyas hiptesis son:

Al realizar el test, utilizando InfoStat, se obtuvieron los siguientes resultados: Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) X1 12 119.58 1.049 0.8715 0.1683 Como p-valor= 0,1683 y es mayor que =0,10, no se rechaza la hiptesis nula. por lo tanto, con un nivel de significacin del 10% se puede decir que la variable X1 (peso de una rata de entre 28 y 84 das de vida alimentada con una dieta alta en protenas medido en g) se distribuye normalmente. Anlogamente se estudia la normalidad de la variable X2:

Shapiro-Wilks (modificado) Variable n X2 10

Media 100.45

D.E. 3.62

W* 0.9282

p (una cola) 0.4305

Como p-valor= 0,4305 y es mayor que =0,10, no se rechaza la hiptesis nula. Por lo tanto, con un nivel de significacin del 10%, se puede decir que la variable X2 (peso de una rata de entre 28 y 84 das de vida alimentada con una dieta baja en protenas medida en g) se distribuye normalmente. En este caso, no hay informacin de las varianzas poblacionales, por lo tanto son desconocidas, y hay que probar si son iguales. Para esto hay que realizar un test de homogeneidad de varianzas, cuyas hiptesis son:

H0 : H1 :
Prueba F para igualdad de varianzas Variable Grupo(1) Grupo(2) n(1) n(2) Peso {Alta} {Baja} 12 10

2 1 2 1

2 2 2 2

Var(1) Var(2) F 1,10 13,10 0,08

p prueba 0,0009 Bilateral

El resultado del estadstico es F= 0,08 y un p-valor de 0,0009, por lo tanto se rechaza la hiptesis de homogeneidad de varianzas. Es decir que ambas variables se distribuyen normalmente con varianzas desconocidas y diferentes. Hiptesis estadsticas. Como el inters del investigador es probar si al alimentar a las ratas con una dieta con alta concentracin de protenas produce un peso medio superior, simblicamente: 1 2 . Por lo que las hiptesis estadsticas son:

H0 : H1 :
Nivel de significacin: =0,05

1 1

2 2

Estadstico de prueba (o variable pivotal) Se est realizando un test de hiptesis para la diferencia de medias poblacionales de variables con distribucin normal, por lo cual se cuenta con dos opciones al elegir la variable pivotal: Z o t de Student, dependiendo del hecho de conocer o no las varianzas poblacionales. En este caso, las va-

rianzas poblacionales son desconocidas y desiguales, por lo tanto se utiliza una t, con la siguiente ex-

presin: T

(X1 s n1
2 1

X2) 0
2 s2 n2

t w con w

s12 n1 s12 n1 n1 1
2

2 s2 n2

2 s2 n2 n2 1

Regin crtica: Es unilateral derecha, dado que H1:


1- 2>0

, por lo tanto el valor crtico es:

t w,0,95 , siendo w

El valor crtico es

t10,0,95

1,812 y la regin crtica queda determinada por: t 1,812


t H0 t H0 1,812 1,812

Regla de decisin: Rechazo H0 si

No rechazo H0 si

Clculo de tHo: Hasta este momento no fueron necesarias las muestras, excepto en la verificacin de supuestos, sin embargo se podra haber hecho con muestras piloto y recin en esta instancia extraer las muestras para el anlisis. Antes de calcular el valor del estadstico de prueba hay que calcular las medias muestrales utilizando las frmulas dadas en la unidad de estadstica descriptiva de Elementos de Estadstica: X 1 119 58 X 2 100 45 . Hay que tener en cuenta que la prueba se est realizando bajo la , , hiptesis nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la diferencia de las medias poblacionales es cero, es decir que 1 0 . Reemplazando estos valores y 2 el resto de la informacin en la frmula nos queda:

TH0

( X1 s12 n1

X2) 0
2 s2 n2

(119,58 100, 45) 1,1 13,1 12 10

19,13 0.091 1,31

19,13 1, 401

19,13 16,162 1,1836

Decisin: Se rechaza la hiptesis nula porque

t H0

16,162, es mayor que 1,812

Conclusin: Con un nivel de significacin de 5% tengo evidencia suficiente para rechazar la hiptesis nula ( H 0 : 1 2 ), por lo tanto la media poblacional del peso de las ratas de entre 28 y 84 das de vida que reciben la dieta alta en protenas es mayor que la media poblacional de las ratas de entre 28 y 84 das de vida que reciben la dieta baja en protenas, en estas poblaciones de ratas en estudio. b) La frmula del intervalo del 95% que se est pidiendo se despeja de la variable pivotal y es:

( X1

X 2 ) t w,1

s12 n1

2 s2 ;(X1 n2

X 2 ) t w,1

s12 n1

2 s2 n2

reemplazando se obtiene que

(119,58 100, 45) t10;0,975

1,1 13,1 1,1 13,1 ; (119,58 100, 45) t10;0,975 12 10 12 10

(19,13) 2, 228 0, 091 1,31; (19,13) 2, 228 0, 091 1,31 (19,13) 2, 228 1, 401; (19,13) 2, 228 1, 401 (19,13) 2, 637; (19,13) 2, 637 (19,13) 2, 228(1,1836); (19,13) 2, 228(1,1836)

16,493 g; 21, 767 g

TH0

( X1 s n1
2 1

X2) 0 s n2
2 2

(119,58 100, 45) 1,1 13,1 12 10

19,13 0.091 1,31

19,13 1, 401

19,13 16,162 1,1836

Conclusin: Con un nivel de confianza del 95%, se espera que el intervalo (16,493 g; 21,767 g) cubra o contenga a la diferencia entre la media poblacional del peso de la ratas de entre 28 y 84 das de vida alimentadas con la dieta alta en protenas y la media poblacional de las ratas de entre 28 y 84 das de vida alimentadas con la dieta baja en protenas, en estas poblaciones de ratas de entre 28 y 84 das de vida. La correspondiente salida de Infostat es: Prueba T para muestras Independientes Variable:peso - Clasific:Variab - prueba:Unilateral Grupo 1 Grupo 2 X1 X2 n 12 10 Media 119,59 100,45 Varianza 1,10 1,10 pHomVar T p-valor 0,0003 16,16 <0,0001

Se puede observar en la salida que se realiza la prueba de homogeneidad y se rechaza la hiptesis de igualdad de varianzas; luego se realiza la prueba de diferencia de medias unilateral izquierda suponiendo falta de homogeneidad. PROBLEMAS PROPUESTOS 1) Para comparar cinco dietas para porcinos se seleccionaron veinticinco animales al azar para ser usados en el experimento. Aleatoriamente se les asign una dieta a cada grupo, midindose sobre cada animal el peso inicial y el peso al cabo de 30 das. Responder: a) La unidad experimental es ........................................................................................................... b) Los tratamientos son ................................................................................................................... c) La observacin es ....................................................................................................................... d) El objetivo del trabajo es ............................................................................................................ ...................................................................................................................................................... 2) Para estudiar el efecto de un nuevo fertilizante sobre el rendimiento de un cultivo de oleaginosas, se sembraron 12 ha del cultivo con fertilizante y 10 ha sin fertilizante. Una vez levantada la cosecha result: X1 =1089 kg/ha y X 2 = 877 kg/ha, respectivamente. Suponiendo que 1 = 2 = 105 kg/ha, y que ambas variables tienen distribucin normal: a) a.- Es la diferencia entre los rendimientos medios con y sin fertilizante, significativa al 5%? b) b.- Considera conveniente construir un intervalo de confianza para la diferencia entre las medias? Justifique.

3) Las personas que tienen el sndrome de Raynaud sufren un sbito deterioro en la circulacin sangunea de los dedos de las manos y de los pies. Para estudiar esta enfermedad, en un experimento se midi la generacin de calor, mediante calorimetra, en cal/cm2/min, de un dedo ndice luego de haberlo sumergido en agua a 19C. En este estudio, se cont con una muestra tomada al azar de 10 individuos con el sndrome y una muestra de 10 individuos sanos. Sanos (S) Sndrome de Raynaud (E) 2,43 0,81 1,83 0,70 2,43 0,74 2,70 0,36 1,88 0,75 1,96 0,56
2 E

1,53 0,65
2 S .

2,08 1,85 2,44 0,87 0,40 0,31

Asuma que las distribuciones de ambas variables son normales, y que a) a.Definir:

Variables en estudio: ........................................................................................................................ ............................................................................................................................................................. ............................................................................................................................................................. Parmetros: ..................................................................................................................................... ............................................................................................................................................................. ............................................................................................................................................................. Poblaciones: .................................................................................................................................... ............................................................................................................................................................. ............................................................................................................................................................. b) b.- Estimar puntualmente y por intervalo de confianza la diferencia entre la generacin de calor media de los individuos enfermos ( E) y la generacin de calor media de los individuos sanos ( S) (1- = 0,95). c) c.- Se cree que la generacin de calor por parte de los afectados por este sndrome es ms homognea. Probarlo con un nivel de significacin del 5%. 4) De una poblacin de individuos afectados por una enfermedad, se tomaron dos muestras aleatorias e independientes de 100 individuos cada una. A una de las mismas (que llamaremos grupo A), se le administr un suero, al otro grupo (B, control) se le administr un placebo; en todo lo dems, los dos grupos fueron tratados idnticamente. Se encontr que en los grupos A y B, 75 y 55 individuos, respectivamente, se haban recuperado luego de un mes de observacin. Probar la hiptesis de que el suero ayuda a curar la enfermedad con un nivel de significacin del 5%. a) La hiptesis de trabajo es: ......................................................................................................... ..................................................................................................................................................... .....................................................................................................................................................

b) La regin crtica es .....................................................

c) El valor calculado del estadstico de prueba es: Frmula empleada Reemplazo numrico Resultado

d) Conclusin a la que llega luego de la prueba: ....................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... .......................................................................................................................................................

5) Un estudio llevado a cabo para probar si la aspirina afecta el tiempo de coagulacin, se tom una muestra de 12 adultos varones. El tiempo de protrombina, que mide el tiempo en segundos entre el inicio de la reaccin de coagulacin y la formacin del cogulo, fue medido en cada uno de los individuos antes y despus de 3 hs de haber ingerido dos tabletas de aspirina (500mg cada una). Antes Despus 12,3 12,0 12,0 12,3 12,0 12,5 13,0 12,0 13,0 13,0 12,5 12,5 11,3 10,3 11,8 11,3 11,5 11,5 11,0 11,5 11,0 11,0 11,3 11,5

a) Probar si existe alguna diferencia en el tiempo de protrombina con un nivel de significacin del 5%, tener en cuenta la verificacin de supuestos, sin hacer clculos y utilizando la informacin que le proporciona alguna de las salidas de InfoStat que abajo se detallan. Comente brevemente por qu eligi esa salida y a qu decisin llega a partir de la informacin. Shapiro-Wilks (modificado) Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) Variable n Media D.E. W* p (una cola) antes 12 11.89 0.71 0.89 0.2210 Dif_AD 12 0,11 0,51 0,86 0,1172 despus 12 11.79 0.75 0.97 0.9213 Prueba T para muestras Independientes Grupo1 Grupo2 n1 n2 med1 med2 LI(95%) LS(95%) T Antes Despus 12 12 11,89 11,78 -0,51 0,72 0,37 Prueba T para un parmetro Valor del parmetro probado: 0 Variable n Media DE Dif_AD 12 0,11 0,51

p prueba 0,7186 Bilat

LI(95) LS(95) T -0,21 0,43 0,74

p(Bilateral) 0,4748

....................................................................................................................................................... ....................................................................................................................................................... b) El intervalo de confianza correspondiente tiene como lmites: ......................................................... c) La conclusin para el intervalo de confianza es: ............................................................................ ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... 6) Las empresas que comercializan agua para beber, realizan controles de calidad diariamente. Una de las variables de inters es el pH, que mide el grado de acidez del agua contenida en los envases lista para su distribucin. Un pH menor a 7 es considerado cido, un pH mayor a 7 es considerado alcalino y un pH igual a 7 es considerado neutro. Un investigador sospecha que el material de los nuevos envases modifica el pH del agua. Para estimar la diferencia entre los pH medios, extrae 20 muestras de agua con el envase viejo y 15 muestras de agua con el envase nuevo. Algunos datos obtenidos son: Media Envase viejo Envase nuevo
8,366 6,318

Desvo
0,54 3,73

Shapiro-Wilks (p-valor)
0,6413 0,9609

Al hacer la prueba de homogeneidad de varianzas, result: F = 0,0209, p-value = 0 Construir un intervalo para la diferencia de medias al 95%. Qu puede concluir? 7) Alle y Bowen (1932) estudiaron el tiempo de supervivencia de la carpa dorada, en minutos, cuando se coloca en suspensiones de plata. Los investigadores realizaron varios experimentos, entre ellos el siguiente: se asignan aleatoriamente 10 carpas a cada grupo. En uno de ellos se exponen a las carpas a una concentracin baja de nitrato de plata disuelto en el agua (Conc1, 50 g/l), y el otro grupo, a una concentracin mayor (Conc2, 80g/l). Al nivel del 5%, difieren los tiempos de supervivencia?

Conc1 210 180 240 60 55 75 78 82 125 83

Conc2 81 75 156 180 102 200 135 85 78 87

Boxplot
250

200

Sobrevida

150

100

50 1 2

Concentracin

Shapiro-Wilks (modificado) Concentracin Variable 1 Sobrevida 2 Sobrevida

n 10 10

Media D.E. 118,80 67,11 117,90 46,46

W* 0,81 0,82

p (una cola) 0,0247 0,0307 p(2 colas) 0,5703

Prueba de Wilcoxon para muestras independientes (Mann Whitney) Variable Gr1 Gr2 n1 n2 Me1 Me2 R-media1 R-media2 W Sobrevida 1 2 10 10 82,50 94,50 9,75 11,25 97,50 CUESTIONARIO 1.- Cul es el objeto de un diseo experimental? Qu beneficios trae?

2.- De qu manera puede controlarse la confusin de factores en el estudio experimental? 3.- Cul/es de las siguientes preguntas corresponde hacerse en un que no corresponda. a) se aleatorizaron las asignaciones a tratamiento y control? b) qu caracterstica determin la separacin entre los grupos? c) existen factores que pueden confundirse con los tratamientos? d) si existe posibilidad de confusin, puede controlarse? estudio observacional? Tache lo S S S S NO NO NO NO

4.- En los estudios observacionales pueden establecerse asociaciones, es decir poner de manifiesto que una cosa est relacionada con otra. Pueden estos estudios establecer causalidad? 5.- Cmo diseara un experimento para estudiar si la hipertensin durante el embarazo provoca bebs nacidos con menor peso? Qu factor podra confundirse y cmo lo controlara? 6.- Segn un estudio observacional realizado en el Kaiser Permanente de Walmut Creek, California, se daba un ndice ms elevado de cncer de cuello de matriz entre mujeres que usaban anticonceptivos orales que entre las que no usaban, independientemente de su edad, educacin, estado civil, religin y hbito de fumar. Los investigadores llegaron a la conclusin de que la pldora causaba el cncer del cuello de matriz. Es correcta esta afirmacin? Por qu? 7.- Identifique en el ejemplo anterior los trminos: unidad experimental, tratamiento, factor, niveles del 8.- En qu casos debe aplicarse el test de Welch?

9.- Qu entiende por confianza en la estimacin de un intervalo? 10.- Qu ocurre con la amplitud de un intervalo de confianza para la diferencia de medias poblacionales con varianzas desconocidas pero iguales si: a.- aumenta el tamao de las muestras (mantenindose la varianza muestral constante) b.- disminuye el nivel de confianza. c.- disminuye la variabilidad de las muestras. 11.- Puede resultar negativo algn lmite de un intervalo de confianza para la diferencia de dos proporciones? Justifique su respuesta. 12- En qu casos es recomendable aplicar un test de Mann Whitney? Explicite los supuestos y las hiptesis que se corresponden con los mismos. 13.- Cundo le parece conveniente utilizar una prueba para la media de las diferencias apareadas? Cuntas son las variables en estudio? 14.- Se tiene la sospecha de que la proporcin de individuos que no tienen enfermedades cardiovasculares en la poblacin A es mayor que en la poblacin B. Para poner a prueba esta hiptesis se tom una muestra aleatoria de individuos de la poblacin A y otra de la poblacin B y se observ el nmero de individuos sin esta afeccin en cada grupo. a) La hiptesis de trabajo es: .......................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... b) Interpretacin biolgica de parmetro/s en estudio: ...................................................................... ....................................................................................................................................................... ....................................................................................................................................................... c) Las hiptesis estadsticas son: ..................................................................................................... d) Los supuestos necesarios para la validez de la prueba estadstica son: ..................................... ....................................................................................................................................................... 15.- En dos poblacin con 1 > 2 se realiz la dcima H0: 1 = 2 contra H1: 1 2 y result significativa al 1%, es decir se rechaz H0. En qu situacin de las cuatro posibles ubica este ejemplo? Cul es la probabilidad asociada a esta situacin? 16.- En qu caso o casos es conveniente utilizar una prueba de Mann Whitney? Indicar hiptesis estadsticas, variable pivotal y su distribucin.

Unidad 2: CONTRASTES de CHI-CUADRADO


Objetivos especficos Elegir las hiptesis adecuadas a cada problema planteado con datos categricos y seleccionar la prueba correspondiente. Aplicar correctamente los contrastes Chi Cuadrado para los ensayos de independencia, homogeneidad y bondad de ajuste. Contenidos temticos Bondad de ajuste. Tablas de contingencia: Ensayos de Independencia. Contrastes Ji-cuadrado para homogeneidad con varias poblaciones. Alcance de los ensayos. Glosario Datos categorizados (cualitativos o atributos). Respuestas categricas y dicotmicas. Categoras mutuamente excluyentes. Categoras independientes. Frecuencia observada. Frecuencia esperada o terica. Frecuencia total o marginal. Tablas o criterios de clasificacin. Bondad de ajuste entre frecuencias observadas y frecuencias tericas. Hiptesis de independencia. Asociacin entre atributos. Hiptesis de homogeneidad. PROBLEMAS RESUELTOS 01.- Se realiz un estudio para saber si el grado de eficacia de un medicamento contra mastitis a partir del nivel de mejora est relacionado con el nivel de gravedad del cuadro clnico. Se tom una muestra de 642 vacas lecheras con mastitis y se registr el nivel de gravedad. A todas se las trat con la misma dosis del medicamento y luego de 10 das se las clasific en funcin del nivel de mejora. Los resultados se observan en la siguiente tabla: Nivel de mejora Ninguna Leve Niveles de Infestacin Intermedio Grave 8 6 37 Ligera 7 37 148 Notable 12 36 351

Es sustentable la hiptesis de que existe relacin entre la eficacia del medicamento y el nivel de mastitis del animal al 5%? Justifique. Datos del problema: Variables en estudio: X1: Nivel de infestacin de un paciente, categorizada en leve, intermedio y grave X2: Nivel de mejora de un paciente, categorizada en ninguna, ligera y notable Cantidad y tamao de muestras: hay una nica poblacin de pacientes de la cual se extrajo una nica muestra de tamao 642 Nivel de significacin: = 0,05 Se completa la tabla de frecuencias observadas (oij) con los totales de filas y columnas (oi y oj , respectivamente) y el total general (o = n) Nivel de mejora Ninguna Ligera Notable Total Leve Niveles de Infestacin Intermedio Grave Total 8 6 37 51 7 37 148 192 12 36 351 399 27 79 536 642=n

27

Solucin: Existen dos variables en estudio X1 y X2 ambas con tres categoras y una nica poblacin de vacas. Se quiere probar si las variables, o criterios de clasificacin, nivel de infestacin y nivel de mejora, son independientes en la poblacin. Entonces nuestras hiptesis estadsticas son:

H 0 : p ij

pi * p

para i 1, 2, 3;

j 1, 2, 3

H1 : alguna de las igualdades anterioresno se cumple


En este caso H0 est expresando la independencia de las variables para todos los pares de sucesos o categoras que las componen y H1 la falta de independencia o no independencia entre ellas. Donde: pij: es la probabilidad conjunta esperada de la interseccin de la fila i-sima y la columna j-sima de la tabla. pi.: es la probabilidad total esperada de elementos de la fila i-sima. p.j: es la probabilidad total esperada de los elementos de la columna j-sima. El nivel de significacin, es la probabilidad de cometer error de tipo I, es del 5%. El estadstico de prueba a utilizar es:
f 2 i 1 j 1 c

(oij - eij ) eij

2 2 ( f -1)( c -1)

siendo f = N de filas y c = N de columnas. La regin crtica es unilateral derecha, debido a que el estadstico se construye a partir de los cuadrados de las diferencias entre observados y esperados que son valores positivos. Grandes discrepancias entre los valores observados y sus correspondientes valores esperados nos harn sospechar de la veracidad de la hiptesis planteada. El valor crtico es 24;0,95 = 9,48, quedando como regin crtica: 2 9,48. Recordemos que la regin crtica est formada por los valores del estadstico de prueba para los cuales se va a rechazar la hiptesis nula. Y la determinamos a partir de la distribucin del estadstico de prueba, el nivel de significacin, la hiptesis alternativa y, a veces, del tamao de la muestra. Grficamente:

RECHAZO H0 La regla de decisin es NO RECHAZO H0

si si

2 H0 2 H0

9,48 < 9,48

Por ser un caso de independencia, multiplicando las probabilidades esperadas ( (tamao de la nica muestra), se obtienen las frecuencias esperadas ( eij

pij

pi.

p. j ) por n

n * pij

n * pi. * p. j ).

Debido a que no tenemos las probabilidades esperadas las estimamos a partir de la muestra, es decir:

pij
28

pi * p

oi o * o o

y luego obtenemos los valores esperados estimados como:

eij

n * pij
27 *

n * pi * p j
51 = 2,1448

Por ejemplo, para el elemento ubicado en la fila 1 y la columna 1 tenemos:

e11 =642*

642 642

Si efectuamos la misma operacin para todos los elementos de la tabla de contingencia, obtenemos la tabla de frecuencias esperadas estimadas: Nivel de mejora Ninguna Leve Nivel de infestacin Intermedio Grave Total 2,145 6,276 42,579 51 Ligera 8,075 23,626 160,299 192 Notable 16,780 49,098 333,122 399 Total 27 79 536 642 = n

El valor del estadstico calculado se obtiene reemplazando estos valores ( eij ) en lugar de los ( eij ) sin
modificar la distribucin y los correspondientes valores observados llegando a:

Por lo tanto, el valor es


2 H0

= 15,982 + 0,012 + 0,731 + 0,143 + 7,571 ++0,944 + 1,36 + 3,494 + 0,959 = 31,198

Nota: Suele aportar informacin observar si las mayores magnitudes que forman este valor calculado (ej.: 15,982; 7,571 y 3,494) provienen de una misma fila o de una misma columna. Conclusin: Al nivel de significacin del 5%, hay evidencias suficientes para rechazar la hiptesis nula (donde se plantea la independencia), es decir que las variables nivel de infestacin de mastitis, categorizada en Leve, Intermedio y Grave; y nivel de mejora, con niveles Ninguna, Ligera y Notable, no son independientes, por lo tanto, a este nivel de significacin es sustentable la hiptesis de que en esta poblacin existe relacin entre la eficacia del medicamento y el nivel de gravedad de mastitis en vacas lecheras. 02.- Se espera que una determinada droga sea efectiva para la curacin del catarro comn en personas. En un experimento con 164 personas con catarro, la mitad de ellas recibi la droga y la otra mitad recibi pldoras azucaradas (grupo control). En la siguiente tabla se encuentran los resultados obtenidos luego de aplicar los tratamientos. Resultado Mejorados Efecto nulo Empeorados Droga 50 22 10 Tratamiento Pldoras azucaradas 40 28 14 Probar la hiptesis de que la droga no produce efectos, con un nivel de significacin del 1% Datos del problema: Variable en estudio: X: Resultado de un paciente luego del tratamiento, categorizado en: mejorado, efecto nulo, empeorado. Cantidad y tamao de muestras: hay dos muestras, una de 82 de pacientes que tomaron droga y otra de 82 pacientes que tomaron pldora azucarada

29

Nivel de significacin: = 0,01 Se completa la tabla de frecuencias observadas con los totales de las muestras y los totales de cada categora: Resultados Efecto Empeorados nulo (n) (e) 22 10 28 14 50 24

Tratamiento

Droga (d) Pldoras azucaradas (a) Total

Mejorados (m) 50 40 90

Total 82 82 164

Solucin: Se cuenta con dos muestras de igual tamao, proveniente de dos poblaciones, y una variable ordinal con 3 categoras. La hiptesis que interesa probar es que "la probabilidad de mejorar es la misma en las dos poblaciones de personas con catarro: la poblacin de personas con catarro tratados con droga y la poblacin de personas con catarro tratados con las pldoras azucaradas. Es decir, que hay homogeneidad en los resultados del tratamiento con droga y pldoras. Entonces las hiptesis estadsticas son: H0:

pm / dorga

pm / azuc pn/azuc
pe/azuc

pm (probabilidad de mejorar en la poblacin que recibe droga = probabilidad de


mejorar en la poblacin que recibe pldora azucarada)

pn /dorga
pe /dorga

pn (probabilidad de efecto nulo en la poblacin que recibe droga = probabilidad de


pe
efecto nulo en la poblacin que recibe pldora azucarada) (probabilidad de empeorar en la poblacin que recibe droga = probabilidad de

empeorar en la poblacin que recibe pldora azucarada) H1 : alguna igualdad de las anteriores no se cumple. Nivel de significacin = 0,01

El estadstico de prueba a utilizar es:


f 2 i 1 j c

(oij - eij ) eij 1

2 2 ( f -1)( c -1)

f = nmero de filas c = nmero de columnas

El valor crtico es

2 (3-1)(2-1);0,99
2

9, 21
9,21

Por lo tanto la regin crtica es

RECHAZO H0 si La regla de decisin es: NO RECHAZO H0 si

2 H0 2 H0

9,21 < 9,21

Informacin muestral: para calcular el valor del estadstico de prueba es necesario estimar las frecuencias esperadas, considerando que la hiptesis nula es verdadera. Previamente estimamos pm ; pn y pe .

30

En este caso las muestras estn representadas en las filas de la tabla y se estiman las proporciones correspondientes a las categoras de la variable resultados como p m

O3 O1 O2 ; pn ; pe O O O

obteniendo: p m

90 164

; pn

24 164

; pe

50 164

A partir de aqu se calculan las frecuencias esperadas estimadas en cada clase o categora:

ede

nd * pe

82 *

24 164

12 (donde nd es el tamao de la muestra de las personas tratadas con

la droga). Efectuando la operacin equivalente en todas las celdas del cuerpo de la tabla de frecuencias observadas, se obtiene la tabla de frecuencias esperadas estimadas: Resultado Mejorados (m) Droga (d) Tratamiento Pldoras (a) Total Por lo tanto el estadstico de prueba resulta
2 H0
2 H0

Efecto nulo (n) 25 25 50

Empeorados (e) 12 12 24

Total 82 82 164

45 45 90

(50 - 45)
25 45

(40 - 45)
4

(10 -12) 12
9 25

(14 -12) 12

(22 - 25) 25

(28 - 25) 25

45 25

45 4

9 25

45 12 12

1,111 0, 667 0, 720

2, 498

y como 2,498 < 9,21 se decide no rechazar H0 Conclusin: A un nivel de significacin del 1%, no hay evidencias suficientes para rechazar la hiptesis nula ( pm / droga pm / azuc pm ; pn / droga pn / azuc pn ; pe / droga pe / azuc pe ) entonces la probabilidad poblacional de personas con catarro comn mejorados sera la misma para los tratados con droga y los tratados con pldoras azucaradas. Lo mismo ocurre con las probabilidades poblacionales de empeorados y de los que tuvieron efecto nulo, o sea que la droga y la pldora azucarada produciran reacciones similares en cuanto a las proporciones poblacionales de mejorados, empeorados y de efecto nulo, con respecto a la curacin del catarro comn en personas. Por lo tanto, al 1% se puede decir que la droga no es efectiva para la curacin del catarro comn. 03.- Supongamos que cuando las palomas son desorientadas no demuestran preferencia por ninguna direccin de vuelo, de manera que la direccin debera estar distribuida uniformemente en el intervalo (0;360]. Para probar esta suposicin se desorient a 60 palomas y se estudi la direccin de vuelo de cada una de ellas dividindola en 4 categoras (como se indica en la tabla siguiente), obtenindose los siguientes resultados: Direccin Frecuencia (0;90] 12 (90;180] 16 (180;270] 17 (270;360] 15

Son compatibles estos resultados con la suposicin planteada? ( =0,05). Datos del problema Variable en estudio: X: Direccin de vuelo de una paloma, categorizada en (0 ; 90 ], (90 ; 180 ]; (180 ; 270 ] y (270 ; 360 ] Cantidad y tamao de muestras: hay una nica muestra de palomas de tamao 60, obtenida de la poblacin de palomas desorientadas.

31

Nivel de significacin: = 0,05 Solucin Aqu tenemos una nica muestra (como en el primer ejemplo) pero slo se registra una variable de 4 categoras, que es la direccin de vuelo. Es de inters ver si dicha variable tiene en la poblacin una distribucin determinada. De esto, se puede deducir que la hiptesis que nos interesa docimar es que la variable responde a una distribucin terica y por lo tanto se trata de un caso de bondad de ajuste. Las hiptesis estadsticas son:

H0 : p1 = p2 = p3 = p4 = 1/4 H1 : alguna igualdad de las anteriores no se cumple


Donde:

p1: probabilidad esperada de elegir la direccin (0;90] p2: probabilidad esperada de elegir la direccin (90;180] p3: probabilidad esperada de elegir la direccin (180;270] p4: probabilidad esperada de elegir la direccin (270;360]
El nivel de significacin es del 5%
k

El estadstico de prueba a utilizar es:

2 k 1

(o i - e i ) ei

2 2 ( k -1)

k = Nclases
2 (4-1);0,95

La regin crtica es unilateral derecha, siendo el valor crtico: crtica los valores de Grficamente:
2

7, 81

, resultando como regin

7,81

RECHAZO H0 La regla de decisin es: NO RECHAZO H0

si si

2 H0 2 H0

7,81 < 7,81

Informacin: Dado que pi = 1/4 para i = 1, 2, 3, 4; resulta que ei= n*pi = 60*1/4 = 15 para i = 1, 2, 3, 4. Por lo tanto el clculo del estadstico es:

Conclusin: Con un nivel de significacin del 5%, no existen evidencias suficientes para rechazar H0 (p1 = p2 = p3 = p4 = 0,25), o sea que en la poblacin se puede decir que se cumple el modelo terico de que las cuatro direcciones de vuelo (0; 90]; (90; 180];(180; 270] y (270;360] son igualmente probables. Por lo tanto, la direccin de vuelo de las palomas estara distribuida uniformemente en la poblacin de palomas que han sido desorientadas. PROBLEMAS PROPUESTOS 01.- En la localidad A se realiz una colecta de la especie S. Un examen de los 167 machos adultos recogidos revel que 35 de ellos tienen bandas color plido alrededor del cuello. De la localidad B, situada a 90 Km, se obtiene una muestra de 27 machos adultos de la misma especie, de los que 6 tienen bandas y en la localidad C, situada a 150 Km, en una muestra de 79 machos adultos de la misma especie, 17

32

tienen bandas. Pertenecen las muestras a la misma poblacin? Justifique estadsticamente su respuesta ( =0,01). 02.- En un estudio anatmico de ulceraciones gstricas benignas y malignas, se analizaron los antecedentes de todos los pacientes con tales ulceraciones que fueron autopsiados entre 1975 y 1985. Solamente se examinaron pacientes con 50 aos o ms de edad, pues es en estos individuos en quienes el diagnstico diferencial ofrece mayores dificultades, resultando: Clasificacin de pacientes con ulceracin gstrica de acuerdo con el lugar de la lcera y el estado de malignidad. ESTADO DE MALIGNIDAD LUGAR DE LA LCERA Prepilrica Cuerpo Cardias Total Benigna 87 52 11 150 Maligna 34 19 8 61 Total 121 71 19 211

Realizar con estos datos la prueba de asociacin entre el lugar de la lcera y el estado de malignidad, a un nivel de significacin del 5%. 03.- Se desea analizar si el tenor de la fosfatasa alcalina en casos de hepatitis humana vara segn la edad. Se tomaron enfermos de distintas edades que se agruparon en tres clases, y se midi el tenor de fosfatasa alcalina. Los resultados fueron: Niveles de Fosfatasa Edad Menos de 20 aos 20 a 40 aos Menos de 20 UI 11 15 20 UI o ms 49 45 40

Ms de 40 aos 20 Influye la edad sobre el tenor de fosfatasa alcalina? Concluir al nivel del 5%

04.- Se realiza un experimento entre dos cobayos heterocigotas (AaBb) en los cuales A determina el pelaje negro y a determina el pelaje blanco, mientras que B determina el pelo corto y b el pelo largo. Se obtuvieron las siguientes frecuencias fenotpicas: Pelaje negro y corto 85 Pelaje negro y largo 28 Pelaje blanco y corto 35 Pelaje blanco y largo 12 Puede considerarse que la segregacin de la descendencia est en una proporcin de 9:3:3:1, a un nivel del 5%? 05.- Se arroja 48 veces un dado con los siguientes resultados: Resultado 1 2 3 4 5 Frecuencia 11 5 8 15 1 Puede considerarse el dado equilibrado con un nivel de significacin del 5%? 6 8

06.- Para investigar si el dosaje de transaminasa en casos de hepatitis de tipo A est asociado con la edad, se tomaron sesenta y dos historias clnicas de pacientes registrados en un hospital en un perodo determinado y se las clasific por grupo de edad y por dosaje de transaminasa, obtenindose la siguiente tabla: EDAD (AOS) Menos de 18 18 a 35 aos Ms de 35 aos 15 - 30 10 8 9 DOSAJE DE TRANSAMINASA 30 45 ms de 45 6 5 7 5 7 5

33

a) Plantear las hiptesis nula y alternativa b) Indicar la zona crtica (Use =0,05) c) Detallar los pasos a seguir para calcular el valor esperado de la celda (2;3) bajo la hiptesis nula. d) Si = 0,475, cul es la decisin? Concluir en trminos del problema. Ho

07.- Suponga que para comparar tres mtodos de enseanza se realizan pruebas en tres cursos de 30; 43 y 50 alumnos respectivamente, impartiendo un mtodo a cada curso. Al cabo de la experiencia se toma una prueba escrita individual y se clasifica a los alumnos segn el grado de comprensin del tema. Los resultados se muestran en el siguiente cuadro: Grado de comprensin Alta Media Baja Curso 1: Simulacin 16 9 5 Mtodo de enseanza Curso 2: Estudio de casos 25 11 7 Curso 3: Exposicin 12 28 10

A un nivel de significacin del 5%, cree que la respuesta de los alumnos resulta similar bajo los tres mtodos de enseanza? Corresponde a un problema que se resuelve realizando una prueba de Independencia? Justifique. 08.- Un criador de perros de raza desea determinar si han cambiado las preferencias de la gente en relacin a las razas de perros a la hora de comprar una mascota. Se sabe que las preferencias por razas de perros en el pasado sigue los siguientes porcentajes: 35% del pblico prefera la raza A; 21% la raza B; el 16% la raza C y el resto la raza D; mientras que en el ltimo ao entre 250 individuos que compraron como mascota un perro de raza result que optaron: 63 por raza A, 32 por raza B, 38 por raza C y el resto prefiri la D. A un nivel de significacin del 5%, se puede decir que la preferencia del pblico se ha modificado? a. Indicar Hiptesis estadsticas b. Seleccione una categora, simbolice el correspondiente valor observado e indique como obtiene el correspondiente valor esperado. CUESTIONARIO 1.- Cul es la utilidad de las pruebas de Bondad de Ajuste? 2.- Cundo aplica una prueba de Independencia y cundo una de Homogeneidad? Seale similitudes y diferencias entre ambas pruebas. 3.- Por qu la regin crtica es unilateral derecha en las pruebas de hiptesis de Chi Cuadrado? 4.- Dada la siguiente tabla: B1 B2 B3 Total A1 10 15 25 50 A2 15 30 40 85 Total 25 45 65 135

Responda las siguientes consignas suponiendo que es una prueba para: A- Independencia B- Homogeneidad a) Definir las variables A (con 2 niveles) y B (con 3 niveles) de modo que tenga sentido realizar la dcima. b) Indicar el modo en que se seleccionara/n la/s muestra/s. c) Proponer las hiptesis correspondientes. d) Suponiendo que se rechaza la hiptesis nula, redactar la conclusin.

34

5.- Seleccionar una alternativa en cada caso y justificar claramente: En una prueba de INDEPENDENCIA a.- La/s variables en estudio debe/n ser:

a.1.- ambas cuantitativas continuas a.2.- ambas cuantitativas discretas a.3.- ambas cualitativas a.4.- al menos una cualitativa a.5.- ninguna de las situaciones anteriores b.- La regin crtica es: b.1.- unilateral derecha b.2.- unilateral izquierda b.3.- bilateral c.- El valor esperado de la celda que se encuentra en la interseccin de la primera fila con la segunda columna se calcula como:

e12 c.2. - e12 c.3. - e12


c.1.

p 2 * n1 p1 * n 2 p1 * p 2 * n

c.4. - Ninguna de las situaciones anteriores En una prueba de HOMOGENEIDAD

El valor esperado de la celda que se encuentra en la interseccin de la primera fila con la segunda columna se calcula, si las poblaciones estn ordenadas por columnas, como:

e12 a.2. - e12 a.3. - e12


a.1. -

p 2 * n1 p1 * n 2 p1 * p 2 * n

a.4. - Ninguna de las situaciones anteriores 6.- Para una dcima de bondad de ajuste se concluy de la siguiente forma: Con un nivel de significacin del 1% se tiene evidencia suficiente para rechazar H0, por lo tanto la poblacin de vacas Shorthorn se puede suponer que sigue una distribucin segn el modelo terico 1:2:3, en la poblacin bajo estudio. Seleccionar el tem correcto y justificar su respuesta. a.- la conclusin es correcta b.- la conclusin esta incompleta ya que le falta detallar las categoras del modelo c.- la conclusin esta incompleta ya que le falta detallar la variable en estudio d.- b y c son correctas e.- ninguna de las anteriores 7.- Seleccionar la respuesta correcta, el estadstico de prueba en la dcima de Chi-cuadrado siempre toma valores a.- no negativos b.- entre 0 y 1 c.- mayores o iguales al valor crtico d.- menores o iguales al valor crtico 8.- Escribir para cada situacin: H0, variable pivotal y regin crtica Las calificaciones categorizadas en libres, regulares y promociones no estn balanceadas en la poblacin correspondiente a los alumnos de estadstica. H0: .................................................................................................................................................. Variable pivotal: ............................................................................................................................... Regin crtica: ................................................................................................................................. Aprobar o desaprobar un examen final no est asociado a s el presidente de mesa es el titular, el adjunto o el jefe de trabajos prcticos en la poblacin correspondiente a los alumnos de estadstica.

35

H0: .................................................................................................................................................. Variable pivotal: ............................................................................................................................... Regin crtica: ................................................................................................................................. 9.- Completar a) En una prueba de Homogeneidad se trabaja con la cantidad de .......... poblacin/es y se registra la cantidad de ........................ variable/es. b) En una prueba de Bondad de Ajuste se quiere probar si una................................... se comporta como .................. respecto a una variable aleatoria de inters. c) Las pruebas de independencia slo se pueden aplicar cuando al muestrear se toma la/las .................... en forma aleatoria . 10.- Se tom aleatoriamente una muestra y se registr presin diastlica y colesterol ambas variables con niveles: normal y alto resultando: Presin Diastlica Normal Colesterol Normal Alto 716 207 Alta 79 25

Completar: a.- Poblacin o poblaciones:.............................................................................................................. b.- El valor esperado de la segunda celda de la primera fila se obtiene ............................................... 11.- Cual/es deberan ser la/s condicin/es para aplicar un test de diferencia de proporciones en lugar de una prueba de homogeneidad? 12.- Plantear las hiptesis para una prueba de bondad de ajuste para el siguiente modelo: en una poblacin de caballos la proporcin de Pura Sangre de Carrera es el triple de la proporcin de Criollos. La proporcin de rabes es la mitad de la proporcin de los Pura Sangre. Si se han observado 117 caballos estimar la frecuencia esperada de cada categora.

36

UNIDAD 3: Regresin Lineal Simple y Mltiple.


Objetivos especficos Comprender el sentido de las tcnicas de regresin lineal as como su importancia en el marco de la Inferencia Estadstica para dos o ms variables conjuntamente distribuidas. Conocer las ventajas y limitaciones de esta tcnica as como los procedimientos de diagnstico para evaluar la calidad de los resultados obtenidos en la estimacin. Distinguir claramente entre casos de relacin funcional entre variables respecto a independencia de variables aleatorias. Contenidos temticos Concepto de regresin. Caso particular: regresin lineal simple. Diagrama de dispersin. Variable dependiente. Modelo, supuestos. Mtodo de mnimos cuadrados. Coeficiente de regresin: clculo e interpretacin. Varianza del error. Prueba de hiptesis e intervalo de confianza para . Banda de confianza para la recta de regresin. Intervalo de prediccin. Coeficiente de determinacin. Aplicaciones. Regresin mltiple: Conceptos y aplicaciones. Interpretacin de anlisis realizados mediante procesadores estadsticos. Glosario Modelo estadstico funcional de relacin entre variables. Concepto de funcin. Variables dependiente e independiente. Diagrama de dispersin. Curva aproximada de ajuste. La funcin lineal simple. Criterio de los mnimos cuadrados. Conceptos de error y de residuo. Las ecuaciones normales. Parmetros del modelo. Pendiente de la recta ( , coeficiente de regresin lineal). Ordenada al origen ( ). Contrastes e intervalo para . Varianza del error. Varianza explicada (coeficiente de determinacin). Particin de la varianza total. Coeficientes de regresin parcial. PROBLEMAS RESUELTOS 1) La siguiente tabla da los resultados del estudio de la energa metabolizada por el gorrin Passer domesticus, bajo diversas condiciones de temperatura seleccionadas por el experimentador y un fotoperodo de 10 hs. Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis Temperatura (C) Energa metabolizada (cal) 10 24 12 23 14 22 16 24 18 20 20 18 22 18 24 15 26 16 28 13

a) Dibujar el diagrama de dispersin. b) Estimar la funcin lineal de regresin y graficarla en el diagrama anterior. c) Probar estadsticamente que el aumento de la temperatura genera una disminucin de la energa metabolizable ( = 0,05). d) Calcular el intervalo de confianza del 95% para . e) Particionar la suma de cuadrados total mostrando la proporcin explicada por el modelo y la no explicada o residual. f) Calcular el R2 e interpretar el resultado. g) Qu porcentaje de la variabilidad de la variable respuesta no es explicada por el modelo escogido? h) Cul es la estimacin, por intervalo, de la energa media metabolizada (en caloras) a los 25C, con un nivel de confianza del 95%? i) Construir un intervalo de prediccin para la energa metabolizada por un gorrin que es sometido a una temperatura de 21 C El objetivo del estudio de regresin es investigar si se puede explicar la relacin entre dos variables cuantitativas por una relacin funcional con el propsito de estimar o predecir valores de una de ellas a partir de la otra. Datos del problema Variables en estudio: X: Temperatura ambiente donde habita un gorrin Passer domesticus, medida en C; variable explicatoria, independiente (no aleatoria)

Y: Energa metabolizada por un gorrin Passer domesticus, medida en caloras (cal); variable respuesta, dependiente (aleatoria) Supuestos tericos Antes de comenzar el estudio, deberamos verificar si se cumplen los supuestos requeridos: i) Para cada valor de temperatura, existe una subpoblacin de valores de energa metabolizada por el gorrin, con distribucin normal (al tener un solo valor de esta subpoblacin no podemos verificarlo y suponemos que se cumple) ii) Los valores de energa metabolizada son independientes dentro de cada temperatura. Para garantizar este supuesto, se toman 10 gorriones y cada uno de ellos es sometido a una de las temperaturas ambientales iii) Las varianzas de los valores de energa metabolizada para cada temperatura deben ser iguales (al tener un solo valor de esta subpoblacin no podemos verificarlo y suponemos que se cumple) Solucin a) El diagrama de dispersin es recomendable como primer paso del estudio de regresin, ya que nos permite apreciar visualmente la existencia o no de una tendencia lineal, tener una idea sobre el tipo de relacin entre las variables, y sobre su grado de dispersin. Se grafican los puntos (pares (xi;yj)) representando la variable independiente sobre el eje X (horizontal) y la variable dependiente sobre el eje Y (vertical). Es importante elegir escalas adecuadas, ya que de lo contrario se pierde la apreciacin grafica de la adecuacin del modelo lineal para explicar la relacin entre las variables consideradas.. En este caso parecera haber una relacin lineal inversa entre la energa metabolizada y la temperatura ambiente, de modo tal que al aumentar la temperatura del ambiente donde se encuentra el gorrin, disminuye la energa metabolizada por el mismo en forma lineal. b) Modelo poblacional propuesto es: Yi = + Xi + i
2

25 20

Energa metabolizada

15 10

5 0 10 15 20 25 30

Temperatura

donde

i~

N(0;

) y son independientes entre s

Y que aplicando el operador esperanza en ambos miembros conduce a la siguiente expresin del modelo. E(Y) = + X

Es importante observar que este modelo tiene tres parmetros o constantes desconocidas, que deben estimarse a partir de la muestra de pares ordenados observados y disponibles. Dichos parmetros son: la pendiente de la recta( ), la ordenada al origen de la recta( ) y la variabilidad de los errores( ). Los estimadores de mnimos cuadrados de los parmetros (son los que se obtienen al hacer mnima
2 i

= ( Yi -

- Xi )

son:

Por lo tanto

Yi

a bxi es la recta estimada

Informacin muestral: xi = 190; xi2 = 3940; yi =193; yi2 = 3863; xi yi = 3464 Reemplazando en las frmulas correspondientes se obtienen las estimaciones de los parmetros:

XY - ( X )( Y ) / n 2 x2 - ( X ) / n

3464 - (190)(193) /10 3940 - 36100 /10

-203 330

- 0, 62

a Y -b X

193 10

- -0.62

190 10

19, 3 0, 62 *19, 0 31, 08

La expresin de la recta estimada con los datos disponibles de la muestra que tenemos resulta:

31, 08 0, 62 xi Grfico
25 20

Yi

Energa metabolizada

15 10

5 0 10 15 20 25 30

Temperatura

c) Lo planteado en esta parte se responde resolviendo una prueba cuyas hiptesis son: H0: H1: 0 <0

Para encontrar el estadstico de prueba adecuado, tenemos en cuenta que el parmetro en estudio es , y que su estimador es b, cuya expresin se obtiene por el mtodo de mnimos cuadrados. Resulta que: E(b) = por lo que b es estimador insesgado de , y adems b N ( , 2), lo cual puede verse intuitivamente observando la frmula de b, dado que los xi son valores constantes y que los yi tienen distribucin normal. Por lo tanto, estandarizando a b, obtenemos Z=bN (0; 1)

Considerando que desconocemos la varianza poblacional, y el caso general en que la variable respuesta sea aproximadamente normal, tenemos como estadstico de prueba:

t
El nivel de significacin es = 0,05

bSb

~t

( n -2)

La regin crtica (RC) es unilateral izquierda: t8

-1,86

(Valor crtico: -t(8;0,95) = -1,86)

La regla de decisin (RD) es:

RECHAZO HO si tHo - 1,86 NO RECHAZO HO si tHo > - 1,86

La varianza muestral de b es:

2 b

Se2 X2 X n
2

Siendo la varianza muestral del error:

2 Se

1 n-2

2 2 - ( Y ) - b2 Y n

2 2- ( X) X n

Luego, tomando la informacin muestral:

2 Se
1 8 3863 3724, 9

1 10 - 2

3863 -

(193) 2 10

- (-0, 62) 2 3940 -

(190) 2 10

0, 3844 330

1 8

138,10 126,85

1, 405

sb2 = 1,405/330 = 0,0043 ;


t Ho = -0, 62

sb =0,0653 0,07

= - 9, 4946 0, 0653 Conclusin: A un nivel de significacin del 5%, hay evidencias suficientes para rechazar H0 (H0: 0), es decir < 0. Se puede concluir que por cada aumento de temperatura ambiente en 1C hay una disminucin de la energa media poblacional metabolizada por los gorriones, en caloras, en esta poblacin de gorriones Passer domesticus.

d) Para el clculo del intervalo de confianza para , se toma como variable pivotal el estadstico de prueba que se utiliz en la dcima para ese parmetro, y su construccin es similar al de todos los intervalos simtricos. En este caso, calculamos el intervalo de confianza del 95% para : L.I. = b - t8; 0,975 . Sb = -0,62 - (2,306 0,07) = - 0,78 L.S. = b + t8; 0,975 . Sb = -0,62 + (2,306 0,07) = - 0,46 Conclusin: Con una confianza del 95%, se espera que el intervalo [- 0,78 cal/C; - 0,46 cal/C] cubra al verdadero valor del coeficiente de regresin, en este caso la modificacin o cambio de la energa media metabolizada (cal) por los gorriones al aumentar en 1 C la temperatura ambiente, en la poblacin de gorriones Passer domesticus. e) Sean: yi un valor observado de la variable respuesta y i el valor estimado correspondiente, para el mismo xi y segn la recta estimada.

y el promedio de todos los valores observados de la variable respuesta.


yi - y : desvo total

y i - y : desvo debido a la regresin yi - y i : desvo debido al error muestral o residuo

(ei = yi - y

error muestral)

Observacin: tanto los residuos como los errores aleatorios son variables aleatorias, pero solo podemos observar los residuos y con ellos pretendemos tener una idea del valor de los errores. Se verifica que:

yi - y = ( y i - y ) + (yi - y i)

(Por ejemplo: en

x4 = 16 el valor observado es y4 = 24, el valor estimado es y 4 = 21,16 ; y = 19,3


desvo total correspondiente al punto 4 desvo debido a la regresin del punto 4 desvo debido al error o residuo del punto 4

24 19,3 = 4,7 21,16 19,3 = 1,86 24 21,16 = 2,84

Luego, la igualdad se verifica para el punto 4, ya que 4,7 = 1,86 + 2,84 Elevando al cuadrado cada uno de los miembros de la igualdad, sumando y operando algebraicamente se obtiene la particin de la suma de cuadrados total

(yi - y )2 = ( y i - y )2 + (yi - y i)2 SCtotal = SCregresin + SCresidual


En este caso: SCtotal = (yi - y )2 = y2 ( yi )2 /n = 3863 (193)2 /10 = 138,10
n

SCregresin = ( y i - y )2 =

b2
i 1

(Xi

X )2 = (-0,62)2 330 = 126,85

SCresidual = SCtotal - SCregresin = 138,10 126,85 = 11,25 Luego:


SCregresin SCtotal = 126, 85 138,10 = 0, 91 es la proporcin explicada por el modelo estimado.

SCresidual SCtotal

11, 25 138,10

= 0,09 es la proporcin no explicada por el modelo estimado.


SCregresin

f) Se define:

SCtotal Como se vio en el punto anterior, expresa la proporcin de la suma de cuadrados total explicada por la regresin. Es una medida muestral. En este caso: R2 = 0,91

R2 =

Interpretacin: El 91% de la variabilidad total de la variable respuesta es explicada por la regresin en la variable explicatoria, en la relacin dada por el modelo estimado. En este caso, el 91% de la variabilidad de la energa metabolizada (cal) es explicada por la temperatura (C) a la que estn sometidos los gorriones Passer domesticus, segn el modelo estimado: y 31,08 0,62 x g) Si R = 0,91 es una medida de la variabilidad de la variable respuesta que es explicada por el modelo estimado, teniendo en cuenta que 0 R2 1, su complemento, 1 R2, es una medida de la variabilidad de y no explicada por el modelo estimado. En este caso: 1- 0,91 = 0,09, y por lo tanto el porcentaje que no es explicado por el modelo estimado es el 9%, como ya se haba visto en el punto e). h) La estimacin puntual de E(Y) para X = 25C es:

Y( X

25)

31, 08 - 0, 62(25) 15, 58 cal, (teniendo en

cuenta el modelo estimado en el punto b). La estimacin mediante un intervalo de confianza se realiza empleando la frmula:
1 n ( X - X )2 ( X - X )2 1 n ( X - X )2 X2( X )2 n

bX

t n - 2;1

/ 2 Se

bX

t n - 2;1

/ 2 Se

donde X' es el valor de la variable X de nuestro inters, en este caso X' = 25C.

31, 08 - (0, 62) 25 2, 306 1, 405

(25 -19) 2 330

= 15,58

En consecuencia:

10 L.I. = 15,58 - 1,25 = 14,33 cal L.S. = 15,58 + 1,25 = 16,83 cal

2,306 * 0,54

Conclusin: Con una confianza del 95%, se espera que el intervalo (14,33 cal; 16,83 cal) contenga al verdadero valor medio de la energa metabolizada por la poblacin de gorriones Passer domesticus cuando la temperatura ambiente es de 25C. i) La estimacin puntual es

Y( X

21)

31, 08 - 0, 62(21) 18, 06

La estimacin mediante un intervalo de prediccin se realiza empleando la frmula:

a bX

tn-2;1

/2

Se 1

1 n

( X - X )2 X2( X )2 n

donde X' es el valor de la variable X de nuestro inters, en este caso X' = 21C.
31, 08 - (0, 62) 21 2, 306 1, 405 1 1 (21-19) 2 330

= 18,06

En consecuencia:

10 L.I. = 18,06 - 2,88 = 15,18 cal L.S. = 18,06 + 2,88 = 20,94 cal

2,306 * 1,25

Es decir el intervalo de prediccin del 95% para el valor de la energa metabolizada por un gorrin Passer domesticus sometido a una temperatura ambiente de 21C se espera que se encuentre en el intervalo (15,18 cal; 20,94 cal). 2) Con el objeto de estudiar el efecto del tratamiento con estrona sobre el peso uterino de ratas hembra, un conjunto de ratas se dividi aleatoriamente en grupos y a cada grupo se le administr una dosis diferente de estrona. Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis Despus de cierto tiempo se observ el peso del tero de una rata, tomada al azar, para cada una de las dosis, expresado en mg. Dosis ( g) Peso (mg) 4 12,4 6 14,8 8 15,2 10 16,9 12 19,1 14 19,9 16 20,2 18 21,0 20 18,7 22 20,9

Analizar la siguiente salida de computadora generada al realizar el anlisis estadstico mediante el programa InfoStat: a) Estimacin de los parmetros del modelo. b) Dcima para , utilizando la Tabla de Anlisis de Varianza. ( = 0,05) c) Intervalo de confianza del 95% para d) Intervalo de confianza del 95% para e) Valor del coeficiente de determinacin. Anlisis de regresin lineal Variable N R Peso 10 0.80

R Aj ECMP 0.77 3.28

Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) Const 12.26 1.10 9.73 14.79 Dosis 0.43 0.08 0.26 0.61

T p-valor 11.17 <0.0001 5.63 0.0005

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 62.40 1 62.40 31.74 0.0005 Dosis 62.40 1 62.40 31.74 0.0005 Error Total 15.73 78.13 8 9 1.97

Datos del problema Variables en estudio: X: dosis de estrona administrada a una rata hembra (en g) Y: peso del tero de una rata hembra despus de cierto tiempo de haberle administrado una dosis de estrona (en mg) Solucin a) Modelo terico propuesto: E(Y) = + X Los valores correspondientes a los estimadores de los parmetros del modelo pueden extraerse de la tabla: Coeficientes de regresin y estadsticos asociados, columna Est. El valor de a es el que corresponde a const (constante), en este caso es de 12,26, y el valor de b es el que corresponde al nombre de la variable independiente (por ser el coeficiente que la multiplica), en este caso es Dosis, y su valor es de 0,43. Por lo que el modelo estimado es: Interpretacin: a = 12,26 mg, por lo tanto, el peso medio estimado del tero de las ratas con dosis 0 g, es decir sin haber recibido tratamiento con estrona es 12,26 mg. b = 0,43 mg/ g, indica que al aumentar la dosis de estrona en un g, el peso medio estimado del tero de las ratas aumenta en 0,43 mg. s =1,97 mg/ g varianza muestral que estima la variabilidad de los errores del modelo b) La tabla de Anlisis de la Varianza fue construida basndose en la descomposicin de la Suma de Cuadrados Total. Hay dos fuentes de variacin que la afectan: una debida a la regresin, simbolizada por el nombre de la variable explicatoria, en este caso Dosis; y otra debida al residuo o error muestral, simbolizada por Error. La tercera columna de la tabla, es la de Cuadrados Medios: C.M. = con ellos se construye el estadstico de prueba. Con los datos de la Tabla de Anlisis de Varianza, las nicas hiptesis que se plantean son: H0: = 0 H1: 0 La variable pivotal a usar es F de Snedecor, que, bajo la hiptesis nula, es el cociente de dos varianzas que provienen de variables independientes, cada una con distribucin 2: F=
Suma de Cuadrados

yi

12, 26 0, 43 xi .

grados de libertad

. Son varianzas y

CMregresin CMresidual

F1, n-2 ;

en este caso

CM DOSIS ~ F1,8 CM ERROR

Si F es grande (F>1), esto equivale a que CMregresin > CMresidual entonces es mayor la variabilidad debida a la regresin que la debida a los residuos, por lo tanto se rechaza la hiptesis nula y la regresin es significativa ( 0).

Si F es chico (F 1), esto equivale a que CMregresin CMresidual entonces es mayor o igual la variabilidad debida al residuo que la debida a la regresin, por lo tanto no se rechaza la hiptesis nula y la regresin es no significativa ( =0). Por lo tanto la regin crtica es siempre unilateral derecha. En este caso, = 0,05; el valor crtico es: F1, 8; 0,95 = 5,32 RC: F 1, 8 5,32

La regla de decisin es: RECHAZO HO si FHo 5,32 NO RECHAZO HO si FHo < 5,32 Segn la tabla de Anlisis de Varianza, el valor de FHo = 31,74 es mayor que 5,32, entonces RECHAZO H0. Conclusin: A un nivel de significacin del 5%, hay evidencias suficientes para rechazar H0 (H0: =0), por lo tanto se puede concluir que por cada aumento de la dosis de estrona en 1 g hay una modificacin del peso medio poblacional del tero de las ratas, en mg, en la poblacin de ratas hembra. Esta decisin se confirma cuando observamos el p-valor que aparece en la tabla de Anlisis de Varianza. En este caso, p-valor=0,0005<0,05, por lo que RECHAZO H0 y concluimos que hay diferencias significativas que nos permiten rechazar a la hiptesis nula. Otra forma de expresarlo es: p<0,05, que corresponde a la comparacin con el valor que toma el nivel de significacin en este problema. Esta ltima expresin se utiliza en las conclusiones de trabajos de investigacin, y generalmente figura entre parntesis. Sin embargo, en esta asignatura que es de formacin, se espera que las decisiones se basen en el estadistico de contraste o variable pivotal, su distribucion, el nivel de significacion elegido para la prueba y la consecuente regin critica. Con el programa estadstico utilizado tambin se puede realizar el diagrama de dispersin, en donde los datos aparecen expresados como crculos pequeos, junto a la recta muestral, y a la banda de confianza de nivel 1- .

25.0 20.0

25.0 22.0

Peso

Peso

15.0 10.0

19.0 16.0

5.0 0.0 0 5 10 15 20 25

13.0 10.0 0 5 10 15 20 25

Dosis

Dosis

Estos grficos fueron hechos con distintas escalas para el eje Y. Al respecto debemos hacer notar que: la recta solamente est graficada para los valores de X que consideramos en el problema, o sea en el intervalo [4; 22]. se ve modificada (falsamente) la pendiente, ya que por clculos b=0,43, sea cual sea el grfico. R2 = 0,80 se ve mejor reflejado en el primer grfico que en el segundo.

c) Este intervalo de confianza tambin puede leerse de la tabla Coeficientes de regresin y estadsticos asociados, donde figuran LI (lmite inferior) y LS (lmite superior), en este caso los correspondientes a Dosis, valores calculados para un nivel de confianza del 95%. Luego: 0,26 mg/ g ; 0,61 mg/ g es el IC del 95% para . Con un nivel de confianza del 95%, espero que el intervalo 0,26mg/ g ; 0,61 mg/ g contenga al cambio del verdadero valor del peso medio del tero de las ratas hembra al aumentar la dosis de estrona en un g, en la poblacin de ratas hembra. d) Este intervalo se lee en la misma tabla que el anterior, en la fila correspondiente a const. Luego: 9,73 mg ; 14,79 mg es el IC del 95% para . Con un nivel de confianza del 95%, espero que el intervalo 9,73 mg ; 14,79 mg contenga al verdadero valor del peso medio del tero de las ratas hembra que no recibieron tratamiento con estrona. e) En la salida de computadora tenemos tambin informacin sobre el valor de R2, calculado con los datos de la muestra. El que nos interesa es el primero, por lo tanto es 0,80. La interpretacin correspondiente es: El 80% de la variabilidad del peso del tero es explicada por la dosis de estrona aplicada a las ratas hembra, segn el modelo estimado: yi 12, 26 0, 43 xi .

Regresin Lineal Mltiple 3) En un estudio sobre la duracin de la hospitalizacin para pacientes de un hospital de enfermedades crnicas, un grupo de investigadores deseaba poder predecir la duracin de la internacin (Y, en das), dadas las variables independientes: nmero de admisiones previas (X1) y edad (X2, en aos). Se obtuvieron datos de una muestra de 15 pacientes. Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis es decir que: i. Para cada combinacin de un valor de nmero de admisiones previas y edad, existe una subpoblacin de valores de la duracin de la internacin, con distribucin normal (al tener un solo valor de esta subpoblacin no podemos verificarlo y suponemos que se cumple) ii. Los valores de la duracin de la internacin son independientes entre s. iii. Las varianzas de los valores de la duracin de la internacin para cada combinacin de un valor de nmero de admisiones previas y edad deben ser iguales.

a) Indicar e interpretar la expresin del plano estimado b) Analizar la significacin de la regresin ( = 0,05) c) Analizar el ajuste a nivel muestral.

Y 15 15 21 28 30
Anlisis de regresin lineal Variable N R Y 15 0.85

X1 X2 0 0 0 1 1 21 18 22 24 25

Y 35 40 35 30 45

X1 X2 1 1 2 2 2 25 26 34 25 38

Y 50 60 45 60 50

X1 X2 3 3 4 4 5 44 51 39 54 55

R Aj 0.83

ECMP 59.81

Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) const 2.09 6.74 -12.60 16.77 X1 0.06 2.61 -5.64 5.75 X2 1.05 0.33 0.34 1.76

T 0.31 0.02 3.22

p-valor 0.7623 0.9830 0.0074

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 2502.39 2 1251.20 34.08 <0.0001 X1 0.02 1 0.02 4.8E-04 0.9830 X2 380.37 1 380.37 10.36 0.0074 Error 440.54 12 36.71 Total 2942.93 14

Datos del problema: Variables en estudio: X1: Nmero de admisiones previas de un paciente de un hospital de enfermedades crnicas X2: Edad de un paciente, en aos, de un hospital de enfermedades crnicas Y: Duracin de la internacin de un paciente, en das, de un hospital de enfermedades crnicas Solucin: Modelo terico: Yi =
2

+ 1 X1i + 2 X2i +

donde

i~

N(0;

) y son independientes entre s.


2

Este modelo tiene cuatro parmetros: ; 1; 2; Aplicando el operador esperanza en ambos miembros de la expresin: E(Y) = + 1 X1 + 2 X2

Ecuacin del plano estimado:

y = 2,09 + 0,06 x1 + 1,05 x 2 , extrada de la salida de computadora

Interpretaciones de los estimadores de los parmetros del modelo. b1 = 0,06 das/nmero de admisiones previas. Indica que para cada edad fija, al aumentar en 1 el nmero de hospitalizaciones previas, el tiempo medio estimado de hospitalizacin aumenta 0,06 das ( 1 hora) en los pacientes de enfermedades crnicas de un hospital b2 = 1,05 das/ao de edad. Indica que para un nmero de admisiones previas fijo, al aumentar en 1 ao la edad del paciente, el tiempo medio estimado de hospitalizacin aumenta 1,05 das ( 1 da) en los pacientes de enfermedades crnicas de un hospital a = 2,09 das. Indicara el tiempo medio estimado de internacin en un hospital para enfermedades crnicas para pacientes recin nacidos (edad cero) y sin internaciones previas, sin sentido biolgico. s = 36,71 dias estima la variabilidad de los errores del modelo. b) Anlisis de Regresin Hiptesis conjunta

H0 :

=0
i

H1 : algn

0 con i = 1, 2

F = CMREGRESION / CMRESIDUAL ~ F2, n-3 Regla de decisin ( = 0.05) Rechazo H0 si No rechazo H0 si Rechazo H0 si No rechazo H0 si

FHo 3.89 FHo < 3.89 p-valor 0.05 p-valor > 0.05

(F 2, 12; 0.95 = 3,89)

donde P = P( F >FHo)

Decisin: p < 0.0001 (o F=34.08) por lo tanto se rechaza H 0, el resultado es significativo. Conclusin: Con un nivel de significacin del 5% se tienen evidencias suficientes para rechazar H 0 (H0: 1= 2=0), por lo tanto algn i 0, la regresin conjunta con las variables explicatorias nmero de admisiones previas y edad del paciente es significativa; o sea que al aumentar conjuntamente, en una unidad, el nmero de admisiones previas y la edad, se modifica el tiempo medio poblacional de

hospitalizacin de los pacientes en este hospital de enfermedades crnicas. El modelo propuesto parece aceptable para explicar la duracin de la internacin en pacientes crnicos en este hospital. Hiptesis individuales Para X1 Hiptesis estadstica

H0: H1 : H0: H1:

1 1

=0 0
2 2

t = b1 / s b1 ~ t n-3

Para X2 Hiptesis estadsticas

=0 0

t = b2 / s b2 ~ t n-3

Regla de decisin ( =0,05) Rechazo H0 No rechazo H0 o

si si

tHo 2,179 tHo -2,179 (t12,0.975 = 2,179) -2,179 < tHo < 2,179

Rechazo H0 si p-valor 0,05 [donde p-valor = P( t >tHo) = P(t>tHo)+P(t<-tHo)] No rechazo H0 si p-valor > 0,05 Decisin 1: p=0,9830 (o t=0,02) por lo tanto no se rechaza H 0, el resultado es no significativo. Conclusin 1: Con un nivel de significacin del 5%, no se tienen evidencias suficientes para rechazar H 0: 1=0, por lo tanto se supone que al aumentar en uno el nmero de admisiones previas y manteniendo fija la edad, no se modifica el tiempo medio poblacional de internacin en pacientes crnicos en este hospital en estudio. Decisin 2: p=0,0074 (o t=3,22) por lo tanto se rechaza H 0, el resultado es significativo. Conclusin 2: Con un nivel de significacin del 5%, se tienen evidencias suficientes para rechazar H0: 2=0, por lo tanto 2 0, lo que significa que podemos suponer que al aumentar la edad en un ao y manteniendo fijo el nmero de internaciones previas, se modifica el tiempo medio poblacional de internacin en pacientes crnicos en este hospital en estudio. Conclusin final: Si bien el modelo propuesto para la duracin de las internaciones en pacientes crnicos en funcin del nmero de internaciones previas y de la edad del paciente result adecuado, parecera que el tiempo de internacin est afectado en forma significativa por la edad y no por la cantidad de internaciones previas en los pacientes de este hospital de enfermedades crnicas.

c) Coeficiente de determinacin: R2 = 0,85 El 85% de la variabilidad total del tiempo de internacin en los pacientes de un hospital de enfermedades crnicas est explicada por el nmero de internaciones previas (X 1) y la edad del paciente (X2) con juntamente, segn la relacin dada por el modelo estimado y i = 2,09 + 0,06 x1i + 1,05 x 2i . PROBLEMAS PROPUESTOS 04.- Para analizar el rendimiento (en toneladas) de una pastura en funcin de la cantidad de agua aplicada (riego artificial en mm) se realiz un experimento con 10 parcelas. Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis. Los resultados se muestran en la tabla siguiente:

Agua Rendimiento

12 5

18 6

24 6

30 7

36 8

42 9

48 8

54 8

60 9

66 9

a) Graficar e interpretar el diagrama de dispersin. b) Estimar la ecuacin de regresin y graficarla en el diagrama anterior c) Docimar el coeficiente de regresin al 5%

d) Para el supuesto de que al aumentar el riego en 1mm, el rendimiento de la pastura aumenta ms de 0,01tn i) Las hiptesis estadsticas son: H0: ............................... ii) El valor crtico es ( =0,05): .......................... iii) La regla de decisin es: .............................................................................................. e) Calcular el R2 e interpretarlo. f) Estimar el rendimiento medio de la pastura sin riego artificial con una confianza del 95%. Seleccione la opcin correcta para concluir: Con un nivel de confianza del 95% i) se espera que el intervalo ; contenga al rendimiento medio de la pastura sin riego artificial en la poblacin en estudio ii) el intervalo ; cubre al verdadero valor del rendimiento medio de la pastura sin riego artificial en la poblacin en estudio iii) se espera que el intervalo ; cubra al valor medio poblacional del rendimiento de la pastura sin riego artificial iv) se espera que el intervalo ; cubra al valor medio poblacional del rendimiento de la pastura sin riego artificial en la poblacin en estudio g) Predecir el rendimiento de la pastura con un riego artificial de 50 mm con una confianza del 95%. El resultado obtenido es: .................................................... Informacin adicional: Anlisis de regresin lineal Variable N R R Aj Rendimiento 10 0,83 0,80 Coeficientes Coef Est. const 4,70 Agua 0,07 H1: .................................

ECMP 0,59 p-valor <0,0001 0,0003

de regresin y estadsticos asociados E.E. LI(95%) LS(95%) T 0,50 3,56 5,85 9,47 0,01 0,04 0,10 6,16

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 15,28 1 15,28 37,90 0,0003 Agua 15,28 1 15,28 37,90 0,0003 Error 3,22 8 0,40 Total 18,50 9 05. La siguiente tabla registra datos correspondientes a concentraciones conocidas de -eritroidina (C, en mg/ml) en una solucin acuosa, y la lectura de la turbidez de la solucin correspondiente (L) registrada en un colormetro. ci li 40 69 45 72 50 175 55 180 60 272 65 265 70 335 75 340 80 490 85 492

Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis a) Interpretar los coeficientes en trminos del problema. b) Estimar la lectura media de una solucin cuya concentracin de -eritroidina es de 72 mg/ml, con un nivel de confianza del 95%. Datos:

ci

625;

c2 i

41125;

li

2690;

li2

927168;

2 cili 188165; Se 1105,26

Anlisis de regresin lineal

Variable Lectura

N 10

R 0,96

R Aj 0,95

ECMP 1740,07 T -7,21 13,27 p-valor 0,0001 <0,0001

Coeficientes de regresin y estadsticos asociados Coef Est. E.E. LI(95%) LS(95%) const -338,27 46,94 -446,53 -230,02 Concent 9,72 0,73 8,03 11,40 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 194715,93 1 194715,93 Concent 194715,93 1 194715,93 Error 8842,07 8 1105,26 Total 203558,00 9

F p-valor 176,17 <0,0001 176,17 <0,0001

06.- Se realiz una experiencia para analizar la influencia de la anestesia en la presin intraocular. A 10 perros que haban recibido pentobarbital como induccin anestsica, se les aplic adems, como refuerzo, metoxifluorano por inhalacin. Se control la presin intraocular media (pi, en unidades de presin), cada cinco minutos una vez comenzada la inhalacin (ti, en minutos). Tiempo Presin 5 25,1 10 29,2 15 27,7 20 24,9 25 22,1 30 19,6 35 19,1 40 18,8 45 17,9 50 17,7

Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis a) Indicar e interpretar el modelo lineal que se propone b) Estimar los coeficientes para el modelo propuesto y expresar dicho modelo c) Indicar los supuestos que deben tenerse en cuenta, en este caso, para poder hacer inferencia a la poblacin en estudio d) Estimar el coeficiente de regresin puntualmente y con una confianza del 95% Informacin adicional: Anlisis de regresin lineal Variable N R R Aj Presin 10 0,83 0,81 Coeficientes Coef Est. const 29,21 Tiempo -0,25 ECMP 6,23 p-valor <0,0001 0,0003

de regresin y estadsticos asociados E.E. LI(95%) LS(95%) T 1,27 26,27 32,15 22,91 0,04 -0,35 -0,16 -6,20 III) p-valor 0,0003 0,0003

Cuadro de Anlisis de la Varianza (SC tipo F.V. SC gl CM F Modelo 133,76 1 133,76 38,40 Tiempo 133,76 1 133,76 38,40 Error 27,87 8 3,48 Total 161,63 9

Cuestionario 1.- Dadas las variables X1: longitud y X2: peso, dentro del contexto de un anlisis de Regresin proponga: a.- hiptesis de trabajo b.- experimento (sea claro al comentar las acciones que realiza) c.- supuestos tericos en este caso (No en forma genrica) d.- significado biolgico de el o los parmetros poblacionales en estudio.

2.- Si en un anlisis de regresin lineal simple al estimar se obtiene que b = 2, puede afirmar que la regresin es significativa? por qu? Explique de qu depende que se concluya "es significativo". 3.- Si debe elegir entre dos variables independientes o explicatorias (X 1 o X2) para predecir la variable aleatoria Y, y mediante dos muestras independientes estima ambas regresiones. En qu se basa para seleccionar la mejor variable explicatoria? Por qu? 4.- En un modelo de regresin lineal, mediante qu mtodo obtiene los estimadores de los parmetros poblacionales? Explique brevemente el mtodo, NO LAS FRMULAS. 5.- En un Anlisis de Regresin Lineal Simple considerando un valor de Y por cada valor de X: a) Cul es el parmetro que nos permite decidir si la regresin es significativa?? Qu significa? Exprselo en trminos de un problema propuesto por Ud. b) Cul es la descomposicin de la suma de cuadrados (SC) que se puede realizar a partir de una observacin? Indicar grficamente dicha particin sealando a qu parte de la suma de cuadrados da origen cada una de ellas. c) Por qu en el Anlisis de Varianza para la Regresin Lineal la regin crtica es unilateral derecha? d) El estadstico al que se hace referencia, qu relacin tiene con la distribucin t-Student? 6.- Relacione los siguientes grficos con posibles valores de R 2, suponiendo que el grfico representa la situacin promedio de los desvos presentados.

A)

Y Y

B)

Y Y Y

C)

Y Y

Y
7.- Elija la opcin correcta:

En una prueba de hiptesis para en regresin lineal simple, los supuestos son: a) X e Y son independientes, Y N ( Y , 2) b) X prefijada, X e Y son independientes, Y N ( Y, 2) c) X prefijada, los valores de Y son independientes entre si, Y 8.- Seleccionar V (verdadero) o F (falso), segn corresponda: V F a) Si el coeficiente de determinacin es igual a 1, entonces la recta poblacional pasa exactamente por los valores (Xi , Yi ) V F b) En un anlisis de RLS, el mtodo de mnimos cuadrados consiste en minimizar la SC de la regresin V F c) En un anlisis de regresin lineal multiple puede ocurrir que uno de los coeficientes i resulte significativo y sin embargo el modelo resulte no significativo. 9.- Completar para obtener una expresin verdadera: a) En un anlisis de RLS, bajo el modelo E(Yi)= + N(
2 Y,

Xi,

representa el ...............................en el valor

medio ............................ de la variable Y cuando la variable regresora ................................en una unidad. b) En una prueba F de Snedecor para , se pone a prueba .....................................de la regresin c) En una prueba F de Snedecor para , el p-valor representa el rea ubicada ........................... de los valores mayores o iguales a FHo d) En un anlisis de regresin mltiple, bajo el modelo E(Y i)= ................................en una unidad y ..constante. + 1 X1i+ 2 X2i,
1

representa el

...............................en el valor medio ............................ de la variable Y cuando la variable regresora

UNIDAD 4: Diseo Completamente Aleatorizado (DCA) Anlisis de la Varianza (ADEVA)


Objetivos especficos Comprender la importancia de las aplicaciones del anlisis de la varianza. Adquirir vocabulario especfico y manejar algunos mtodos del Diseo Experimental. Aplicar anlisis de la varianza paramtrico y no paramtrico, segn corresponda, en casos relativos al campo profesional del veterinario. Contenidos temticos Concepto de Modelo. Supuestos. Mtodo de mnimos cuadrados. ADEVA para DCA. Prueba de hiptesis para comparar valores medios de ms de dos tratamientos. Anlisis de varianza de una clasificacin por rangos de Kruskal-Wallis. Aplicaciones. Interpretacin de anlisis realizados mediante programas de computacin. Glosario Diseo completamente aleatorizado (DCA). Modelo estadstico. Anlisis de la varianza (ADEVA) para un DCA, Modelo I. Pruebas de Hiptesis. Suma de cuadrados. Cuadrado medio. Varianza. Anlisis de varianza Kruskal-Wallis. Rango. Variables al menos ordinales. Mediana.

PROBLEMAS RESUELTOS 1) Para comparar cuatro suplementos de engorde en bovinos para carne, se seleccionaron, al azar, cuarenta animales Hereford de iguales edad y sexo, y de pesos homogneos para ser usados en un experimento. Los suplementos a comparar se definieron sobre la base de las caractersticas del grano de maz empleado (entero o partido) y la fuente comercial de vitaminas y minerales (A y B). Entonces el suplemento 1 (S1) estuvo constituido por grano partido y fuente A, mientras que el suplemento 2 (S2) por grano partido y fuente B, el suplemento 3 (S3) por grano entero y fuente A, y el suplemento 4 (S4) por grano entero y fuente B. Se asignaron aleatoriamente 10 animales por suplemento, los que fueron alimentados individualmente con una dieta estndar ms el correspondiente suplemento durante 80 das. La variable en estudio (o respuesta) fue la eficiencia de conversin (EfCon) individual (kg Materia Seca/ kg Ganancia de Peso) cuyos registros se presentan en la siguiente tabla: S1 3,3 4,4 4,9 4,9 3,9 4,2 4,7 5,1 4,6 4,5 S2 4,6 4,5 5,0 4,0 4,5 5,2 4,9 5,5 4,8 5,3 S3 6,7 5,8 5,0 4,8 5,3 6,2 5,0 6,4 5,9 5,4 S4 6,3 6,0 6,7 5,5 6,6 6,1 5,3 6,5 6,3 6,8

a) a.- Cul es el objetivo del experimento? b) b.- Cul fue la unidad experimental? En qu condiciones se desarrolla el experimento? Qu se registra? c) c.-Qu diseo se emple? Por qu? qu se asumi? d) d.- Qu puede decir con respecto a la validez del DCA paramtrico? e) e.- Escriba las hiptesis de inters, y teniendo en cuenta la salida de computadora concluya al 5%. Solucin a) Cul es el objetivo del experimento? Objetivo: comparar la efectividad de cuatro suplementos diferentes para engorde.

Los suplementos se definieron sobre la base de las caractersticas del grano de maz empleado (entero o partido) y la fuente comercial de vitaminas y minerales (A y B) quedando constituidos por: Suplemento 1 (S1): grano partido y fuente A Suplemento 2 (S2): grano partido y fuente B Suplemento 3 (S3): grano entero y fuente A Suplemento 4 (S4): grano entero y fuente B. b) Cul fue la unidad experimental? En qu condiciones se desarrolla el experimento? Qu se registra? Unidad experimental: un bovino raza Hereford. Condiciones en que se desarrolla el experimento: 40 bovinos de raza Hereford de iguales edad y sexo, y de pesos homogneos, alimentados individualmente con una dieta estndar ms el correspondiente suplemento durante 80 das. Se asigna al azar igual cantidad de bovinos a cada dieta. Variable respuesta: Eficiencia de conversin (EfCon) de un bovino (kg Materia Seca/ kg Ganancia de Peso). c) Qu diseo se emple? Por qu? Qu se asumi? Se aplic un diseo completamente aleatorizado debido a que los animales se asignaron sin restricciones a los tratamientos. Se asumi que: 1. los factores raza, peso y sexo podan influir en los resultados por lo cual fueron controlados por el experimentador. 2. No hay otros factores que influyan en los resultados del experimento. d) qu puede decir con respecto a la validez del DCA paramtrico? Supuestos tericos Antes de realizar el estudio, deberamos verificar si se cumplen los supuestos requeridos: i) Las observaciones de eficiencia de conversin son independientes por como se ha diseado el experimento. ii) Para cada tratamiento existe una subpoblacin de valores de Eficiencia de conversin por los bovinos Hereford de sexo, edad y peso inicial semejantes con distribucin normal e igual varianza. Este supuesto se puede probar y/o observar a partir de: a) la variable respuesta Shapiro-Wilks (modificado) EfCon por tratam iento Variable n Media D.E. W* p (una cola) S1 10 4,45 0,54 0,92 0,5174 6,97 S2 10 4,83 0,45 0,97 0,9167 S3 10 5,65 0,65 0,92 0,4806 6,01 S4 10 6,21 0,50 0,90 0,3451 Observando los pvalores se puede decir que en las cuatro poblaciones ocurre que, al 10%, no se rechaza la hiptesis de normalidad de Eficiencia de conversin. En el grfico de puntos de la derecha del cuadro se observa que las varianzas de las cuatro poblaciones, en cuanto a la variable eficiencia de conversin, son similares.
EfC o n

5,05 4,09 3,13 S1 S2 S3 S4

Tratam

b) los residuos (diferencia entre valor observado y valore esperado bajo el modelo propuesto) Cuando se tienen pocas observaciones por tratamiento es mejor probar el supuesto de normalidad a partir de los residuos, pues si el modelo es: Yij = i + ij para i=1, 2, 3, 4; j=1, 2, , 10 Donde: Yij es Eficiencia de conversin registrada en el j-simo individuo que recibi la i-sima dieta. i : Eficiencia de conversin media de la i-sima dieta en bovinos de raza Hereford ij: variable aleatoria no observable correspondiente a la respuesta propia del j-simo bovino de raza 2 Hereford que recibi la dieta i-sima.( ~ N(0, ).

Dado que los parmetros son informacin fija ( i, i=1, 2, 3, 4) suponer que la variable respuesta se distribuye normalmente es equivalente a suponer normalidad para los errores. Dado que los errores son no observables el supuesto se verifica utilizando sus equivalentes a nivel muestral llamados residuos. i) Los errores son independientes por como se ha diseado el experimento. ii) Hiptesis estadsticas: H0: se distribuye N(0, 2) H1: no se distribuye N(0, 2) Shapiro-Wilks (modificado) Variable n Media D.E. W* p(una cola) RE_EfCon 40 0,00 1,01 0,96 0,4386 Con un nivel de significacin del 10% no tengo evidencia suficiente para rechazar H0, es decir que los errores provenientes del modelo propuesto (DCA Modelo fijo) se distribuyen normalmente. Por lo tanto la Eficiencia de conversin en la poblacin de bovinos Hereford de iguales edad y sexo se distribuye normalmente, teniendo en cuenta los 4 suplementos diferentes (S1, S2, S3 y S4 ya especificados).

Q Q plot

Cuantiles obs(RE_EfCon)

2,18

n= 40 r= 0,989 (RE_Ef Con)

1,08

-0,02

-1,12

-2,22 -2,22

-1,12

-0,02

1,08

2,18

Cuantiles de la Norm al(-5,55E-016,1,026)

En el grfico no se observan puntos (residuos) con gran alejamiento de los valores normales tericos, por lo que se puede suponer que la distribucin que siguen los errores es normal.

iii) Para observar si se puede suponer homogeneidad de varianzas


D ia g r a m a d e D is p e r s i n
2 ,2 4

Box plot por tra ta m ie nto


6,97 6,01
E fC o n

R E _ E fC o n

1 ,0 7

- 0 ,1 0

5,05 4,09 3,13

- 1 ,2 6

- 2 ,4 3 4 ,3 6 4 ,8 6 5 ,3 6 5 ,8 5 6 ,3 5

S1

S2

S3

S4

P R E D _ E fC o n

Tra ta m

En el diagrama de dispersin de residuos vs valores predichos no se observan diferencias notorias entre las varianzas de la Eficiencia de conversin en bovinos Hereford de iguales edad y sexo para cada suplemento de engorde en bovinos para carne. Prueba de Levene

En este grfico se observa asimetra en algunos casos y alguna varianza sensiblemente menor que las otras. Se debe recordar que este grfico puede ser engaoso cuando las muestras son muy pequeas.

Es una prueba que tiene la ventaja de no ser tan exigente respecto a la distribucin normal de la variable respuesta. H0 :
2 1 2 2 2 i 2 3 2 2 4 2

H1 : algn

i=1, 2, 3, 4

Se calcula para cada observacin (repeticin j-sima del i-simo tratamiento)) la diferencia en valor absoluta entre su puntuacin (Yij) y la mediana del grupo o nivel del factor al que pertenece (Mediana i) obteniendo as una nueva variable.

dif ij

yij

Mnai

Con sta variable (dif) se realiza un ANOVA. Anlisis de la varianza Test de Levene Variable N R R Aj dif_abs(efcon-mna) 40 0,07 0,00

CV 75,24

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,25 3 0,08 0,86 0,4716 Tratam 0,25 3 0,08 0,86 0,4716 Error 3,51 36 0,10 Total 3,76 39 Como el pvalor es 0,4716 no se rechaza la hiptesis nula y se puede considerar que las varianzas poblacionales de la Eficiencia de conversin de las cuatro poblaciones (las poblaciones que reciben S1, S2, S3 y S4 previamente definidas) de bovinos Hereford de iguales edad y sexo son iguales (homoscedasticidad). e) Escriba las hiptesis de inters, y teniendo en cuenta la salida de computadora concluya al 5%. Debido a los supuestos realizados en los puntos anteriores, seleccionamos el ANOVA (o ADEVA) paramtrico, i) Anlisis de la varianza Variable N R R Aj CV EfCon 40 0,65 0,62 10,32 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 19,87 3 6,62 22,18 <0,0001 Tratam 19,87 3 6,62 22,18 <0,0001 Significativo Error 10,76 36 0,30 Total 30,63 39 Las hiptesis estadsticas son: H0:
i

i=

para i=1, 2, 3, 4 vs H1: algn

Como se rechaza H0 (p-valor<0,0001) se concluye: Con un nivel de significaron del 5% existe evidencia suficiente para rechazar H 0, por lo tanto al menos un valor medio poblacional de Eficiencia de conversin en bovinos Hereford, de iguales edad y sexo, difiere de los restantes, es decir, que la eficiencia de conversin media poblacional en bovinos alimentados con Suplemento 1 (grano partido y fuente A), Suplemento 2 (grano partido y fuente B), Suplemento 3 (grano entero y fuente A) o Suplemento 4 (grano entero y fuente B) no es la misma. (p-valor<0,05) Nota: Cuando se rechaza la hiptesis nula, es decir todos los valores medios no son iguales, es interesante comparar los valores medios poblacionales para ver cul o cuales son diferentes. Existen diferentes mtodos de comparaciones mltiples pero esta parte del estudio escapa de los alcances de esta materia. 2) El esculeno es un hidrocarburo insaturado que se encuentra en aceites vegetales. En una experiencia se desea comparar cuantitativamente el contenido de esta sustancia entre 4 aceites vegetales: man, maz, soja y girasol. Para ello se tomaron 8 muestras para cada tipo de aceite determinndose el contenido de esculeno en mg/100 g de aceite. a) Cul es el objetivo del experimento? b) Cul fue la unidad experimental? Qu se registra? c) Qu puede decir con respecto a la validez del DCA paramtrico? d) Escriba las hiptesis de inters, y teniendo en cuenta la salida de computadora concluya al 5%.

Aceite

Man Maz Soja Girasol

Contenido de esculeno (mg/100 g de aceite) 21 22 38 13 23 25 33 18 14 27 21 17 8 12 21 9 16 7 5 12 10 13 9 10

14 15 6 15

16 23 11 6

Solucin a) Cul es el objetivo del experimento? Objetivo: comparar el contenido medio de esculeno en aceites vegetales provenientes de maz, man, girasol y soja. b) Cul fue la unidad experimental? Qu se registra? La unidad experimental es una muestra de aceite, a la que se le observa la concentracin de esculeno, medida en mg/100 g de aceite. c) qu puede decir con respecto a la validez del DCA paramtrico? Se propone en ese caso el modelo:

Yij=

ij

para

i=1, 2, 3, 4

j= 1, 2, ....., 8

Donde los ij son independientes y se distribuyen normalmente, ij ~N(0; ) Observemos que este modelo tiene dos parmetros, constantes poblacionales habitualmente desconocidas, y . i) Los errores son independientes dado que en cada poblacin (Vegetal) las muestras de aceite fueron seleccionadas al azar, ii)
Cuantiles obs(RE_Esculeno)

Hiptesis estadsticas: H0: H1: ~N(0, 2) no tiene distribucin N(0,


2

2,95

n= 32 r= 0,967 (RE_Esculeno)

1,69

Shapiro-Wilks (modificado) Variable n Media D.E. W* p(unacola) RE_Esculeno 32 -0,02 0,95 0,90 0,0180 Con un nivel de significacin del 10% tengo evidencia suficiente para rechazar H0, es decir que los errores provenientes del modelo propuesto (DCA Modelo fijo) no se distribuyen normalmente, Por lo tanto la variable concentracin de esculeno en aceite vegetal no se distribuye normalmente, teniendo en cuenta los 4 vegetales (maz, man, girasol y soja).

0,43

-0,84

-2,10 -2,10

-0,84

0,43

1,69

2,95

Cuantiles de una Normal(3,47E-016,1,03)

Se observan varios residuos que son ms grandes que los restantes y se alejan de los valores normales tericos lo que pone en duda el supuesto de que la distribucin que siguen los errores, segn el modelo propuesto, es normal,

iii) Para observar si se puede suponer homogeneidad de varianzas, se realiza el Test de Levene H0 :
2 1 2 2 2 i 2 3 2 2 4 2

H1 : algn

i=1, 2, 3, 4

Anlisis de la varianza Test de Levene Variable N R R Aj CV abs dif 32 0,09 0,00 93,09

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 43,38 3 14,46 0,95 0,4292 Aceite 43,38 3 14,46 0,95 0,4292 Error 425,50 28 15,20 Total 468,88 31 Como p-valor=0,4292, no rechazo H0, y se puede considerar que las varianzas poblacionales de la concentracin de esculeno en los aceites vegetales de maz, man, girasol y soja son iguales (supuesto de homoscedasticidad). d) Escriba las hiptesis de inters, y teniendo en cuenta la salida de computadora concluya al 5%, Por todo el anlisis anterior no es vlido utilizar un DCA Modelo 1 o fijo Paramtrico, Por otro lado, los cuatro vegetales son independientes y la variable concentracin de esculeno en aceite es al menos de escala ordinal, por lo que selecciono la salida correspondiente a la Prueba de Kruskal Wallis. Prueba de Kruskal Wallis Variable Aceite Esculeno Girasol Esculeno Maz Esculeno Man Esculeno Soja Si simbolizamos con

N 8 8 8 8

Medias 10,00 21,00 21,50 11,25

D.E. 3,38 6,48 7,98 5,06

Medianas 10,00 19,50 21,50 10,00

H 17,79

p 0,0005

a la mediana poblacional para la concentracin de esculeno en aceite.

Estamos suponiendo en este caso el modelo: Yij = i + ij Donde: i es el nivel del factor grupo y j es el nmero de observacin dentro del grupo; i es la mediana del i-simo grupo y la distribucin de ij no se conoce. Los parmetros de este modelo son los i. Hiptesis estadsticas H0 : 1= 2= 3= 4= H1 : algn i i=1, 2, 3, 4

Es decir que se quiere probar si la variable concentracin de esculeno en aceite tiene la misma posicin para los cuatro vegetales: maz, man, girasol y soja. Conclusin: A un nivel de significacin del 5%, hay evidencias suficientes para rechazar H0 por lo que se puede suponer que al menos alguna de las medianas poblacionales de los cuatro vegetales (maz, man, girasol y soja), difiere de las restantes para la variable concentracin de esculeno, en esta poblacin de aceites vegetales en estudio. Nota: La potencia-eficiencia de la prueba de Kruskal Wallis comparada con el ANOVA de un factor modelo 1 es de 3/ = 95,5%, Algunos experimentadores para trabajar con el ANOVA paramtrico ante sta situacin aplican alguna transformacin a la variable respuesta (por ejemplo: ytranf = ln(y), ytranf = y0,5, ytranf = 1/y, etc,) para lograr que se cumplan los supuestos con respecto a al variable transformada. Nosotros no veremos transformaciones pues escapa de los alcances de esta materia.

PROBLEMAS PROPUESTOS 3) Se realiz un ensayo para estudiar el efecto de 5 raciones sobre la ganancia de peso de novillos. Para ello se emplearon 5 lotes de 6 animales cada uno, de la misma raza y edad. El diseo experimental fue un DCA. Los datos corresponden a la ganancia de peso por animal expresada en kg, para el perodo total del ensayo.

1 43 49 39 41 43 46 Estadstica descriptiva Tratamientos Variable 1 Ganancia 2 Ganancia 3 Ganancia 4 Ganancia 5 Ganancia

2 54 54 50 48 51 55

Tratamientos 3 62 55 59 57 60 56

4 61 66 62 64 68 62

5 85 83 89 91 89 82

n 6 6 6 6 6

Media 43.50 52.00 58.17 63.83 86.50

D.E. 3.56 2.76 2.64 2,71 3.67

Mn 39.00 48.00 55.00 61.00 82.00

Mx 49.00 55.00 62.00 68.00 91.00

Mediana 43.00 52.50 58.00 63.00 87.00

A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad .................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ....................................................................................................................................... Las hiptesis planteadas son: ........................................................................................................................ Como p-valor es .......................... la decisin es ......................................, por lo que la conclusin es ......................................................................................................................................................................... ......................................................................................................................................................................... SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media REGanancia 30 0.00

D.E. 2,88

W* 0.92

p (una cola) 0.1103

Tabla 2 Anlisis de la varianza Test de Levene Variable N R abs dif 30 0,06

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 4,03 4 1,01 0,41 0,8031 Tratamientos 4,03 4 1,01 0,41 0,8031 Error 62,21 25 2,49 Total 66,24 29
6,00
Cuantiles obs(RDUO_Ganancia)
5,88 n= 30 r= 0,983 (RDUO_Columna2)

RDUO_Ganancia

3,25

2,94

0,50

0,00

-2,25

-2,94

-5,00 41,35 53,18 65,00 76,83 88,65

-5,88 -5,88

-2,94

0,00

2,94

5,88

PRED_Ganancia

Cuantiles Normal(6,09E-015,8,29)

Anlisis de la varianza Variable N R Ganancia 30 0,96

R Aj 0,96

CV 5,10

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 6320,13 4 1580,03 Tratamientos 6320,13 4 1580,03 Error 240,67 25 9,63 Total 6560,80 29 Tabla 4 Prueba de Kruskal Wallis Variable Tratamientos Ganancia 1 Ganancia 2 Ganancia 3 Ganancia 4 Ganancia 5

F 164,13 164,13

p-valor <0,0001 <0,0001

N 6 6 6 6 6

Medianas 43,00 52,50 58,00 63,00 87,00

H 27,35

p <0,0001

4) Un fisilogo estudi la funcin pituitaria de las gallinas ponedoras asociada a cada etapa del rgimen estndar para muda forzada de plumas que usan los productores de huevos con el fin de mantener a las aves en produccin. Las etapas de la dieta son cinco: (A) premuda, previa al inicio del rgimen; (B) ayuno de 8 das; (C) 60 gr de salvado durante 10 das; (D) 80 gr de salvado durante 10 das; y (E) mezcla de malta durante 42 das. En el estudio se utilizaron 25 gallinas elegidas aleatoriamente de la poblacin. Todas fueron puestas bajo la misma dieta en jaulas. Despus de cada etapa, se seleccionaban aleatoriamente grupos de cinco y se las sacrificaba. Entre los compuestos medidos, el fisilogo estaba interesado en saber si las distintas etapas afectaban la concentracin de T3 en suero (medida en ng/dl). Se obtuvo como resultado el siguiente conjunto de observaciones: Etapas de Dieta Premuda (A) Ayuno (B) 60 g de Salvado (C) 94.09 117.9 197.18 Concentracin de T3 (ng/dl) en suero 90.45 99.38 91 115 115.23 129.06 207.31 194 192.50 98.00 117.61 202.25

80 g de Salvado (D) Mezcla de malta (E) Estadstica descriptiva Etapas Variable n a T3 5 b T3 5 c T3 5 d T3 5 e T3 5

112.47 83.14 Media 94,58 118,96 198,65 114,38 84,53 D.E. 4,03 5,80 6,11 4,15 4,15

117.51 89.59 Mn 90,45 115,00 192,50 110,00 79,21 Mx 99,38 129,06 207,31 119,92 89,59

119.92 87.76

112.01 82.94 Q3 98,00 117,90 202,25 117,51 87,76

110 79.21

Mediana Q1 94,09 91,00 117,61 115,23 197,18 194,00 112,47 112,01 83,14 82,94

A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad .................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................................ Las hiptesis planteadas son: ........................................................................................................................ Como p-valor es .......................... la decisin es ......................................, por lo que la conclusin es ......................................................................................................................................................................... .........................................................................................................................................................................

SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media RE_T3 25 -4,5E-03

D.E. 1,03

W* p (una cola) 0,90 0,0469

Tabla 2 Anlisis de la varianza Test de Levene Variable N R R Aj CV abs dif 25 0,04 0,00 97,95 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 8,66 4 2,17 0,19 0,9412 Etapas 8,66 4 2,17 0,19 0,9412 Error 228,87 20 11,44 Total 237,53 24 Tabla 3 Anlisis de la varianza Variable N R R Aj T3 25 0,99 0,99

CV 4,04

Cuadro de Anlisis de la Varianza (SC tipo III) F,V, SC gl CM F Modelo 40488,68 4 10122,17 415,95 Etapas 40488,68 4 10122,17 415,95 Error 486,70 20 24,33 Total 40975,38 24 Tabla 4 Prueba de Kruskal Wallis Variable Etapas N T3 a 5 T3 b 5 T3 c 5 T3 d 5 T3 e 5

p-valor <0,0001 <0,0001

Medias 94,58 118,96 198,65 114,38 84,53

D,E, 4,03 5,80 6,11 4,15 4,15

Medianas 94,09 117,61 197,18 112,47 83,14

H 22,24

p 0,0002

Grfico de densidad de puntos


2,47
2,29

QQ-plot

Cuantiles observados(RE_T3)

1,45

1,21

RE_T3

0,42

0,13

-0,95

-0,60

-1,63 a b c d e

-2,02 -2,02

-0,95

0,13

1,21

2,29

Cuantiles de una Normal(-0,0045184,1,0556)

Etapas

5) (Un experimento ilegal). Es un hecho muy conocido que casi todos los caballos que corren carreras cuadreras o extraoficiales, reciben tratamientos medicamentosos que en las carreras oficiales no estn permitidos. Todos los cuidadores afirman que de otro modo no es posible competir, pero la efectividad de esos tratamientos suele ser objeto de polmicas. A tal efecto se dise un experimento para comparar a tres de tales tratamientos, con 5 caballos cada uno y un grupo testigo, sin medicar. Se utilizaron, en consecuencia, 20 caballos de caractersticas lo ms similares posibles (en velocidad, edad, sanidad). Se registraron en cada caso los tiempos (en segundos) empleados en una corrida a fondo sobre la distancia clsica cuadrera de 300 metros en pista normal, con los siguientes resultados: Trat 1 17,96 17,62 17,90 17,70 17,70 Trat 2 17,80 17,90 17,68 17,72 18,00 Trat 3 18,30 18,50 18,40 18,22 18,30 Trat 4 (control) 18,60 18,80 18,60 18,90 18,80

Estadstica descriptiva Tratamiento Variable n Media D.E. Mn Mx Mediana 1 Tiempo 5 17.78 0.15 17.62 17.96 17.70 2 Tiempo 5 17.82 0.13 17.68 18.00 17.80 3 Tiempo 5 18.34 0.11 18.22 18.50 18.30 4 Tiempo 5 18.74 0.13 18.60 18.90 18.80 A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)

Normalidad ................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ........................................................................................................................................................................ Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ............................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ............................................................................................................................. Las hiptesis planteadas son: .............................................................................................................. Como p-valor es .......................... la decisin es ......................................, por lo que la conclusin es ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. RE_Tiempo 20 0.01 1.06 Tabla 2 Anlisis de la varianza Variable N R R Aj abs dif 20 0,02 0,00

W* 0.87

p (una cola) 0.0201

CV 98,82

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 2,9E-03 3 9,6E-04 Trat 2,9E-03 3 9,6E-04 Error 0,14 16 0,01 Total 0,15 19 Tabla 3 Anlisis de la varianza Variable N R Tiempo 20 0,92

F 0,11 0,11

p-valor 0,9550 0,9550

R Aj 0,91

CV 0,72

Cuadro de Anlisis de la Varianza (SC tipo III) F,V, SC gl CM F p-valor Modelo 3,16 3 1,05 61,90 <0,0001 Tratamiento 3,16 3 1,05 61,90 <0,0001 Error 0,27 16 0,02 Total 3,44 19 Tabla 4 Prueba de Kruskal Wallis Variable Tratamiento N Tiempo 1 5 Tiempo 2 5 Tiempo 3 5 Tiempo 4 5

Medianas 17,70 17,80 18,30 18,80

H 16,17

p 0,0010

Grfico de densidad de puntos


QQ-plot
2,00

19,00

Cuantiles observados(RE_Tiempo)

18,50
1,01

Tiempo

18,00

0,01

17,50
-0,98

17,00
-1,97 -1,97

1
-0,98 0,01 1,01 2,00

Tratamiento

Cuantiles de una Normal(0,014126,1,1307)

6) Interesa determinar si existen diferencias significativas entre las concentraciones medias de glucosa registradas despus de aplicar diferentes drogas a conejos de cierta raza. Para ello se emple un conjunto de 18 conejos de esa raza y se lo dividi aleatoriamente en tres grupos. Cada grupo recibi una droga diferente. Al cabo de cierto tiempo se midi la concentracin de glucosa en plasma, en mg/100 ml, y se obtuvieron los siguientes datos: Droga A: 94 97 84 92 95 107 Droga B: 82 73 77 81 84 73 Droga C: 91 106 102 104 107 92 Estadstica descriptiva Droga Variable A Concentracin B Concentracin C Concentracin n 6 6 6 Media 94.83 78.33 100.33 D.E. 7.47 4.72 7.06 Mn 84.00 73.00 91.00 Mx Mediana 107.00 94.50 84.00 79.00 107.00 103.00

A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad .................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ............................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ...................................................................................................................................... Las hiptesis planteadas son: ....................................................................................................................... Como p-valor es .......................... la decisin es ......................................, por lo que la conclusin es ......................................................................................................................................................................... ......................................................................................................................................................................... .........................................................................................................................................................................

SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n RE_Concentracin 18

Media D.E. 0,00 1,03

W* 0,96

p (una cola) 0,7830

Tabla 2 Anlisis de la varianza Test de Levene Variable N R R Aj CV abs dif 18 0,02 0,00 91,27 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 5,44 2 2,72 0,15 Droga 5,44 2 2,72 0,15 Error 278,67 15 18,58 Total 284,11 17 Tabla 3 Anlisis de la varianza Variable N Concentracin 18

p-valor 0,8649 0,8649

R 0,71

R Aj 0,67

CV 7,16 F 18,45 18,45 p-valor 0,0001 0,0001

Cuadro de Anlisis de la Varianza (SC tipo III) F,V, SC gl CM Modelo 1573,00 2 786,50 Droga 1573,00 2 786,50 Error 639,50 15 42,63 Total 2212,50 17 Tabla 4 Prueba de Kruskal Wallis Variable Droga Concentracin A Concentracin B Concentracin C

N 6 6 6

Medianas 94,50 79,00 103,00

H 11,38

p 0,0033

QQ-plot
Cuantiles observados(RE_Concentracin)
2,08

Grfico de densidad de puntos


110,00

1,08

100,00

Concentracin

0,07

90,00

-0,93

80,00

-1,93 -1,93

70,00
-0,93 0,07 1,08 2,08

Cuantiles de una Normal(-0,0027137,1,1226)

Droga

CUESTIONARIO 1.- Cules son los supuestos del D.C.A. paramtrico? Cmo puede verificarlos y/o garantizarlos? 2.- Cules son los supuestos del D.C.A. no paramtrico? Cmo puede verificarlos y/o garantizarlos? 3.- En los problemas propuestos 3) y 4) indique: Para el problema propuesto 3: a) Factor en estudio: .......................................................................................................................... b) Tratamientos: ................................................................................................................................ c) Unidad experimental: ..................................................................................................................... d) Observacin: ................................................................................................................................. Para el problema propuesto 4: a) Factor en estudio: .......................................................................................................................... b) Tratamientos: ................................................................................................................................ c) Unidad experimental: ..................................................................................................................... d) Observacin: ................................................................................................................................. 4.- En los problemas propuestos 5) y 6) indique los supuestos que tuvo en cuenta para elegir el tipo de anlisis adecuado. 5.- En un Anlisis de la Varianza paramtrico, por qu la regin crtica es unilateral derecha? 6.- Indique los modelos tericos que se utilizan para el anlisis de la varianza paramtrico y no paramtrico. Seale en cada caso los parmetros del modelo y sus estimadores.

Unidad 5 CORRELACIN LINEAL (Pearson) Y NO PARAMTRICA (Spearman)


Objetivos especficos Destacar la necesidad y utilidad del anlisis de correlacin. Diferenciar el anlisis de correlacin del anlisis de regresin. Analizar resultados y casos especficos y sus aplicaciones en el campo de los procesos biolgicos. Contenidos temticos Concepto de correlacin. Diagrama de dispersin. Coeficiente de correlacin: clculo e interpretacin. Prueba de hiptesis para = 0. Correlacin no paramtrica. Actividad globalizante de los conocimientos adquiridos basndose en el estudio de casos que se presentan en la experimentacin o investigacin biolgica. Glosario Distribucin bivariada (dos variables aleatorias conjuntamente distribuidas). Distribucin normal bivariada. Parmetros de esta distribucin. Elipse de concentracin. Asociacin entre variables aleatorias normales y no normales. Coeficiente de correlacin lineal y no lineal. Aplicaciones a inferencia estadstica: Estimacin y contraste. PROBLEMAS RESUELTOS 01.- Los siguientes datos corresponden al peso vivo (PV, en Kg) y al espesor de grasa dorsal (EGD, en mm) de 30 lechones elegidos al azar de una poblacin de porcinos Duroc Jersey del Oeste de la provincia de Buenos Aires: Obs 1 2 3 4 5 6 7 8 9 10 PV 56,81 70,40 71,73 75,10 79,65 51,43 52,10 69,10 35,70 76,44 EGD 16,19 22,00 19,52 31,00 23,58 16,58 17,20 26,70 21,60 24,51 Obs 11 12 13 14 15 16 17 18 19 20 PV 27,51 67,90 51,61 69,40 48,93 55,02 62,70 84,00 67,50 58,62 EGD 16,21 13,80 16,43 33,60 25,07 20,52 26,20 11,50 21,50 27,26 Obs 21 22 23 24 25 26 27 28 29 30 PV 68,58 67,10 49,10 73,80 61,40 63,44 93,00 58,90 58,70 66,45 EGD 12,60 23,30 32,46 19,90 20,48 7,29 40,90 9,21 27,60 23,27 a.- Dibujar el diagrama de dispersin e interpretarlo. b.- Calcular el coeficiente de correlacin muestral. c.- Hay suficiente evidencia para admitir asociacin entre el peso y el espesor de grasa? ( = 0,05) Datos del problema: Variables en estudio: X1: peso vivo de un lechn, en kg; X2: espesor de grasa dorsal de un lechn, en mm; Tamao de muestra: n = 30 Solucin a) En el eje de la abscisas est graficado el peso vivo (PV), y en el eje de las ordenadas, el espesor de grasa dorsal (EGD). Se podra haber graficado al revs, ya que en el anlisis de correlacin no hay una variable que explica a la otra, sino que se estudia el comportamiento de ambas variables conjuntamente. En este grfico se puede observar una asociacin directa suave entre ambas variables, es decir que a valores grandes de peso vivo corresponden valores grandes de espesor de grasa dorsal. (Se denomina directa porque al aumentar los valores de una de las
45.0

Diagrama de dispersin

35.0

EGD

25.0

15.0

5.0 25.0 35.0 45.0 55.0 65.0 75.0 85.0 95.0

PV

variables aumentan los valores de la otra, y viceversa). b) Existen dos coeficientes de correlacin muestral: el de Pearson y el de Spearman. Las variables en estudio en este caso cumplen, en principio, con el supuesto terico de Spearman, ya que ambas variables (Peso vivo y espesor de grasa dorsal) son al menos ordinales, es decir que tienen un orden natural porque son nmeros. Sin embargo podramos docimar la hiptesis de normalidad, para ver si se cumple el supuesto de Pearson Dcima de normalidad para X1 al 10%

Salida del programa InfoStat para X1 Shapiro-Wilks (modificado) Variable n Media D.E. PV 30 63.07 13.54

W* 0.98

p (una cola) 0.9463

Como el p-valor = 0,9463>0,10 no se rechaza la hiptesis nula. Por lo tanto al 10% se puede suponer que la variable el peso vivo de los porcinos Duroc Jersey del Oeste de la provincia de Buenos Aires se distribuye normalmente. Dcima de normalidad para X2 al 10%

Salida del programa InfoStat para X2 Shapiro-Wilks (modificado) Variable n Media D.E. EGD 30 21.59 7.44

W* 0.98

p (una cola) 0.9485

Como el p-valor = 0,2501>0,10 no se rechaza la hiptesis nula. Por lo tanto al 10% se puede suponer que el espesor de la grasa dorsal de los porcinos Duroc Jersey del Oeste de la provincia de Buenos Aires se distribuye normalmente. Por lo tanto ambas variables se distribuyen normalmente y es mejor utilizar el coeficiente de Pearson, ya que utiliza la informacin que proporciona la normalidad de la variable y, por esto, es un estimador ms eficiente y la prueba es ms potente. Es decir que, en los casos en los cuales las variables se distribuyen normalmente, aunque se pudiera usar el coeficiente Spearman, es mejor utilizar el coeficiente de Pearson. Entonces para calcular el coeficiente de correlacin lineal muestral, que estima a (Rho).

r=
2 1i

x1i x 2i x x1i n
2

x1i n

x 2i x 2i n
2

x -

2 2i

41604, 3 -

1892,1 * 647, 7 30 2

r=
124659 1892,1 30

= 0.2572

15597, 3 -

647, 7 30

Sabemos que el estimador del coeficiente de correlacin debe ser un nmero entre 1 y 1, por lo tanto este valor est en el rango apropiado de valores.

c) Para responder a esta pregunta debemos realizar la dcima correspondiente cuyas hiptesis son:

Hiptesis estadsticas:

H0 : H1:

= 0 (no hay correlacin lineal) 0 (hay correlacin lineal)

Como no nos dice asociacin positiva o asociacin negativa, se plantea igual versus distinto. Nivel de significacin: = 0,05

Estadstico de prueba: t =

r n-2 1-r 2

~ t n-2

Regin crtica: Para este punto vamos a necesitar los valores crticos, son dos por que la regin crtica es bilateral, y van a estar determinados por tn 2, / 2 y tn 2,1 /2 . En este caso, t28;0,025 y t28;0,975 . Valores Crticos:

t28;0,025 = -2,048 y t28;0,975 = 2,048. Regin Crtica: t -2,048 conjuntamente t 2,048


Regla de decisin: RECHAZO HO si tH0 - 2,048 o tH0 2,048 NO RECHAZO HO si -2,048 < tH0 < 2,048

Clculo: Reemplazando los datos muestrales en el estadstico

Ho

0,2572 28 1 - (0,2572)
2

1,3606 = 1, 408 0,9663

Decisin: Como 1,5746<2,048 y 1,5746>-2,048 no se rechaza la hiptesis nula al 5% Conclusin: Al nivel de significacin del 5%, no hay evidencias suficientes para rechazar H0 (H0: =0), por lo tanto no existira asociacin lineal poblacional entre el peso vivo y el espesor de grasa dorsal en la poblacin de lechones Duroc Jersey del Oeste de la provincia de Buenos Aires. Cuando se procesa con infoStat se obtiene: Coeficientes de correlacin Correlacin de Pearson: coeficientes\probabilidades PV 1,00 0,25 EGD 0,17 1,00

PV EGD

p valor

Valor de r 02.- Al finalizar el primer ao de un programa de promocin de la salud aplicado a los habitantes de la ciudad de Crdoba se tomaron mediciones de algunas variables de inters en una muestra aleatoria de 10 (diez) hombres de dicha ciudad. Se quiere saber si la concentracin de colesterol (X1) y la concentracin de cido rico (X2), ambas medidas en sangre, estn correlacionadas en forma inversa al 5%. Los datos obtenidos se muestran en la siguiente tabla: X1 269 279 248 318 318 254 263 320 251 300 X2 43 65 78 73 71 69 67 45 81 62

Datos del problema: Variables en estudio

X1: concentracin de colesterol en un hombre X2: concentracin de cido rico en un hombre. Tamao de muestra: n = 10 Solucin: Para poder resolver esta situacin hay dos posibilidades, utilizar el coeficiente de correlacin de Pearson o el de Spearman. Las variable en estudio, en este caso, cumplen con el supuesto terico de Spearman, ya que ambas variables (concentracin de colesterol y concentracin de cido rico) son al menos ordinales (es decir que tienen un orden natural porque son nmeros). Sin embargo podramos docimar la hiptesis de normalidad, para ver si se cumple el supuesto de Pearson Dcima de normalidad para X1 al 10%

Salida del programa InfoStat para X1 Shapiro-Wilks (modificado) Variable n Media X1 10 282,00

D.E. W* 29,44 0,82

p (una cola) 0,0341

Como el p-valor = 0,0341<0,10 se rechaza la hiptesis nula. Por lo tanto al 10% la concentracin de colesterol en la poblacin de hombres que habitan la ciudad de Crdoba no se puede suponer que se distribuye normalmente. Dcima de normalidad para X2 al 10%

Salida del programa InfoStat para X2 Shapiro-Wilks (modificado) Variable n Media X2 10 65,40

D.E. 12,63

W* 0,88

p (una cola) 0,1975

Como el p-valor = 0,1975>0,10 no se rechaza la hiptesis nula. Por lo tanto al 10% la concentracin de cido rico en la poblacin de hombres que habitan la ciudad de Crdoba se puede suponer distribuida normalmente. Como estas variables no cumplen con el supuesto para utilizar Pearson vamos a utilizar Spearman.

Hiptesis estadsticas:

H0 : X1 y X 2 no estn asociadas inversamente H1: X1 y X 2 estn asociadas inversamente


= 0,05
6di2 , (esta frmula est en la Gua de Frmulas y Tablas) n-1 n n+1

Nivel de significacin:

Estadstico de prueba: rS = 1 -

Regin crtica: Para este punto vamos a necesitar el valor crtico ya que es una regin critica unilateral izquierda, determinada por rn; 1- = -rn; , en este caso: r10;0.95 =-r10;0.05 . Buscando en la tabla de la distribucin Spearman observamos que la probabilidad considerada es la de la cola derecha. Valores Crticos: r r10;0.05 0, 5515 10;0.95 Regin Crtica: r
0.5515

Regla de decisin:

RECHAZO H0 si rS NO RECHAZO H0 si

-0,5515

rS > -0,5515

Clculo: Para calcular el valor del estadstico se utilizarn los rdenes o rangos de los datos muestrales sabiendo que: ui: rango correspondiente a la observacin i de la variable X1. vi: rango correspondiente a la observacin i de la variable X2. di: diferencia entre ui y vi;

di : cuadrado de la diferencia entre ui y vi. Se obtiene la tabla:


x1i 269 279 248 318 318 254 263 320 251 300 x2i 43 65 78 73 71 69 67 45 81 62 ui 5 6 1 8,5 8,5 3 4 10 2 7 vi 1 4 9 8 7 6 5 2 10 3 di 4 2 -8 0,5 1,5 -3 -1 8 -8 4 di2 16 4 64 0,25 2,25 9 1 64 64 16 240,5

La estimacin del coeficiente de correlacin de Spearman es: 6*240,5 1443 1443 rS 1119*10*11 990 10-1 *10* 10 1

1-1, 4575

- 0, 4575

Decisin: Como -0,4575>-0.5515 no se rechaza la hiptesis nula al 5% Conclusin: Con un nivel de significacin del 5%, no se tienen evidencias suficientes para rechazar H0 (H0: X1 y X2 no estn asociadas inversamente), por lo tanto se puede concluir que la concentracin de colesterol y la concentracin de cido rico en sangre no estaran asociadas inversamente la poblacin de hombres de la ciudad de Crdoba. Salida del programa InfoStat Coeficientes de correlacin Correlacin de Spearman: coeficientes\probabilidades X1 X2 X1 1,00 0,17 X2 -0,46 1,00

PROBLEMAS PROPUESTOS 03.- Se registra la temperatura (T) y el pulso (P) en forma simultnea a un grupo de 10 pacientes. ti pi 39,0 100 39,9 90 39,5 80 39,0 70 38,7 65 38,4 64 38,0 62 37,5 62 36,9 60 36,7 59

a.- Dibujar el diagrama de dispersin. b.- Teniendo en cuenta la siguiente salida decidir cual de los estimadores es el adecuado para estimar el coeficiente de correlacin

Shapiro-Wilks (modificado) Variable n Media D.E. T 10 38.36 1.07 P 10 71.20 14.12

W* 0.93 0.80

p (una cola) 0.5915 0.0190

c.- Comprobar estadsticamente si existe asociacin positiva entre la temperatura y el pulso, usando un nivel de significacin del 5%. 04.- Considerando que la estimacin del coeficiente de correlacin entre el peso al nacer y al destete en una especie fue igual a 0,40 (r=0,40) a partir de una muestra de 20 individuos. Podra afirmar que el peso al nacer y el peso al destete estn significativamente asociados? ( =0,05). Suponer que ambas variables tienen distribucin normal. 05.- Sabiendo que el contenido de celulosa, hemicelulosa, y lignina se estudian a travs de la fibra detergente neutro (FDN) de la dieta, se quiere analizar su relacin con el pH ruminal generado. Se tomaron 11 bovinos y se midieron ambas variables: FDN (D) 37,9 39,2 41,2 43,1 44,6 45,8 46,2 55,8 57,0 59,0 47,1 pH (P) 6,35 5,92 6,01 6,10 5,92 6,56 5,93 6,20 6,30 6,57 6,90 Suponiendo que ambas variables se distribuyen normalmente, y que = 0,05, responder: Hiptesis estadsticas:................................................................................................................................... Regin crtica:.............................................................................................................................................. Valor de la variable pivotal:.......................................................................................................................... Poblacin:.................................................................................................................................................... Datos:
2 2

dpi = 3239,38; i

di = 24811,39;

pi = 430,85 ;

di = 516,9;

pi = 68,76

06.- El director de un centro de internacin veterinaria les pide a dos enfermeros que califiquen de 1 a 100 los pacientes internados de acuerdo a la dificultad de cuidados mdicos que los mismos requieren. La siguiente tabla tiene la respuesta de los enfermeros. Paciente Enfermero 1 Enfermero 2 A 9 25 B 3 10 C 15 35 D 6 5 E 100 50 F 12 15 G 18 28 H 80 100 I 21 40 J 95 70 K 76 32 L 81 39

Se puede afirmar que la opinin de estos enfermeros est asociada? Qu supuesto debe hacer para poder contestar la pregunta anterior? Shapiro-Wilks (modificado) Variable n Media D.E. W* p(Unilateral D) Enfermero 1 12 38,92 37,31 0,77 0,0037 Enfermero 2 12 41,50 29,23 0,92 0,4150 Verifique el resultado obtenido con el que se obtiene con InfoStat. Coeficientes de correlacin Correlacin de Pearson: Coeficientes\probabilidades Enfermero1 Enfermero2 Enfermero1 1,00 7,4E-04 Enfermero2 0,83 1,00 Coeficientes de correlacin Correlacin de Spearman: Coeficientes\probabilidades Enfermero1 Enfermero2 Enfermero1 1,00 2,6E-03 Enfermero2 0,91 1,00

07.-Se quiere analizar si existe asociacin negativa entre el numero de hijos de un matrimonio (X1) y su ingreso anual (X2 ). Se muestrearon 10 matrimonios y se obtuvieron los siguientes datos:

X1 X2

1 13005

8 11096

3 8720 = 0,05.

2 9166

6 10111

2 12937

0 13734

4 8861

5 9747

6 9568

Responder, sabiendo que

Hiptesis estadsticas:........................................................................................................................... Regla de decisin................................................................................................................................. Decisin:.............................................................................................................................................. Conclusin: ......................................................................................................................................... ........................................................................................................................................................... ...........................................................................................................................................................

CUESTIONARIO 1.- Suponer que las variables en estudio son A: peso y B: longitud. a.- Explicar cmo seleccionara las unidades experimentales y qu observara en cada una para que se pueda realizar un anlisis de correlacin entre ambas variables. b.- Modificar el enunciado para que corresponda a un estudio de regresin. 2.-Indicar verdadero o falso segn corresponda. a) V F Spearman se aplica solamente a variable con distribucin no normal. b) V F En un anlisis de correlacin de Spearman se estudia la diferencia entre los valores de las variables. c) V F es un parmetro que toma valores entre 0 y 1. d) V F Si e) V F

X1 ~ N ( ,

) y X2 es una variable aleatoria ordinal entonces no se puede utilizar Pearson.

El estimador r se distribuye normalmente.

3.-Indicar qu mtodo o mtodos se puede/n utilizar para analizar la asociacin entre cada par de variables (S: Spearman, P: Pearson, N: ninguno) a) X1:Peso de un lechn al nacer; X2: Peso de la madre al momento del parto. ................................ b) X1:Longitud del fmur de un animal; X2:Peso de un animal. ........................................................ c) X1:Concentracin de glbulos rojos en sangre en un individuo; X 2:Consumo de carne de un individuo (categorizado en: alto, medio, bajo)....................................................................................... d) X1:Nota de un alumno en elementos de estadstica; X2:Nota de un alumno en Estadstica analtica. ........................................................................................................................................................... e) X1:Cantidad de cachorros nacidos por camada; X2:Peso de una madre. ........................................ f) X1:Ubicacin de un caballo en una carrera; X2:Ritmo cardiaco de un caballo al finalizar una carrera. ........................................................................................................................................................... g) X1:Color del pelaje de un animal; X2:Color de ojos de un animal. ................................................. h) X1:Color de la herida de un animal; X2:Nivel de glbulos rojos de un animal. ................................ i) X1:Estado civil de una persona; X2:Cantidad de hijos de una persona. ..........................................

4.- Qu indica el coeficiente de correlacin lineal? Cul es su rango de valores posibles? Proponer un ejemplo donde sospeche que existe correlacin negativa. Indicar cmo selecciona los individuos en estudio, qu registra en cada uno de ellos y cmo se interpreta en caso de rechazar la hiptesis nula a un cierto nivel. 5.- En un anlisis de correlacin lineal simple: a.- Cul es la distribucin en que se basa el estudio?

b.- Cuntos y cules son los parmetros de la distribucin? c.- Proponga un ejemplo donde identifique los parmetros e indique su significado biolgico. 6.-Elegir la opcin correcta: a.- Si (X1,X2) se distribuyen normal bivariada y son independientes entre si, entonces:

1) 2) 3) 4)

1 0 0 1

b.- Si dos variables no estn correlacionadas linealmente, para estimar la correlacin se emplea: 1) El coeficiente de Spearman 2) El coeficiente de Pearson 3) No se puede estimar la correlacin 4) No tienen sentido estimar la correlacin. c.- El supuesto terico para emplear el coeficiente de correlacin de Spearman es 1) Ambas variables no se distribuyan normalmente 2) Ambas variable se distribuyan normalmente 3) Ambas variable al menos ordinales 4) Una de las variable no se distribuye normalmente 7.- Cundo se utiliza el anlisis de correlacin no paramtrico? Proponer un ejemplo donde se especifique: cmo se hizo el muestreo, algunos valores de la muestra, las variables y supuestos tericos que deben cumplirse para realizar dicho estudio.

PROBLEMAS COMPLEMENTARIOS UNIDADES TEMTICAS 1 y 2


01.- Dos analistas, X e Y, midieron la dureza del agua en una ciudad. Se desea comparar si los resultados de X e Y son similares, por lo cual se toma una muestra, de tamao 10, de agua de distintas regiones de la Ciudad de Buenos Aires. Cada analista midi las 10 muestras. Estime un intervalo de confianza del 95% para la media de las diferencias entre estos dos analistas. Qu supuesto debe hacer para poder realizar el intervalo?

xi yi

0,46 0,72

0,62 0,61

0,37 0,73

0,40 0,51

0,44 0,33

0,58 0,48

0,48 0,43

0,53 0,35

0,59 0,67

0,68 0,78

02.- En un estudio sobre llamadas de apareamiento, realizado en el sapo arbreo (Hyla ewingi), se estim en Tasmania, en una muestra de 29 observaciones, que la duracin de las llamadas tena una media de 189 ms (milisegundos) y un desvo estndar de 32 ms; y en Bristbane, en una muestra de 31 observaciones, una media de 216 ms (milisegundos) y un desvo estndar de 28 ms. a) Estime un intervalo de confianza del 95% para el cociente de varianzas. b) Asumiendo igualdad de varianzas, pruebe la hiptesis: el tiempo de llamada del sapo arbreo es mayor en Britsbane que en Tasmania. 03.- A 300 pacientes que sufran una enfermedad se los dividi al azar en tres grupos iguales de 100 pacientes cada uno. A cada grupo se le asign, al azar, uno de los siguientes tratamientos: a) estndar, b) nuevo, y c) placebo. Durante la primera semana de tratamiento, en el primer grupo se recuperaron 78 pacientes; en el segundo grupo se recuperaron 90; y en el grupo placebo, se recuperaron 55. Probar si existen diferencias significativas entre tratamientos al 5% 04.- En un experimento, se compararon las propiedades hipnticas de dos drogas A y B. Para ello se midi, con cada una de las drogas, la cantidad de horas ganadas en sueo por cada sujeto. La aparente superioridad de la droga B, puede ser atribuida a las diferencias entre los sujetos? (=0,05) SUJETO DROGA A DROGA B 1 2,2 5,3 2 3,5 4,8 3 1,7 5,9 4 4,4 2,3 5 2,8 6,7 6 1,6 5,0 7 2,5 6,1 8 2,0 4,3 9 2,4 4,9 10 2,9 6,0

Realizar el anlisis estadstico suponiendo que las drogas se aplicaron: a) a dos grupos diferentes de sujetos (asumir homogeneidad de varianzas). b) a los mismos sujetos (en orden aleatorio y dejando transcurrir un tiempo prudencial). 05.- Hay dos formas de abordar el abdomen al realizar castraciones en gatas, por el flanco y por lnea media. Para saber si hay alguna preferencia por una de estas entre los Veterinarios de la Ciudad Autnoma de Buenos Aires, se realiz una muestra de 200 profesionales y se les pregunt que abordaje prefieren. Result que 113 de los encuestados prefieren por el flanco mientras que los restantes prefieren por lnea media. Provee la informacin recogida evidencia suficiente que indique diferencias en la preferencia de estos abordajes? ( =0,05). 06.- Un experimentador quiere probar si un nuevo probitico reduce la mortandad en pollitos parrilleros. Para esto, de manera experimental, mantiene a 200 pollitos en jaulas individuales y les asigna aleatoriamente a la mitad el probitico estndar y a la otra mitad el nuevo. A los 20 das, cuenta 85 sobrevivientes con el probitico estndar y 93 con el nuevo. Pruebe si el nuevo probitico reduce la mortandad ( =0,05), y estime un intervalo de confianza del 95% para la diferencia de proporciones poblacionales de sobrevivientes de ambos grupos. 07.- Se desea saber si existe relacin entre el tipo de tenencia de tierra de los agricultores de la Pcia. de Crdoba y la participacin, o no, de los mismos en una cooperativa. El investigador obtiene una muestra aleatoria de 360 agricultores de esta regin y organiza la informacin en la siguiente tabla de contingencia:

Tipo de tenencia de tierra Propietarios Aparceros Arrendatarios

Forman parte de una cooperativa SI 52 25 43


2

NO 68 65 107 y un nivel de significacin del 5%, se rechaza H0?

Cul es la H0 a contrastar? Usando un estadstico Dar conclusiones.

08.- Se realiz un ensayo sobre el rendimiento de cultivares de papa utilizando diez parcelas con plantas sanas y nueve con plantas enfermas por el mosaico deformante. El rendimiento promedio en plantas sanas fue de 16.042 kg/ha con un desvo de 35,21 kg/ha y en plantas enfermas se obtuvo un promedio de 12.027 kg/ha y un desvo de 42,43 kg/ha. Estimar, con una confianza del 90%, la diferencia de los rendimientos medios poblacionales. En qu supuestos tericos se basa para realizar esta estimacin? 09.- Con el objeto de orientar su propaganda a fin de neutralizar el efecto de la competencia, una empresa productora de artculos de consumo realiz una encuesta piloto sobre la preferencia del pblico a personas de cada una de las cuatro regiones del pas. Los resultados son los siguientes: Zona Preferencia Empresa Competencia Norte 35 45 Sur 22 28 Este 28 12 Oeste 33 17

Es la preferencia del pblico la misma en las distintas zonas geogrficas, al nivel del 5%? 10.- Se quiere comparar la eficiencia de dos test para detectar cierto tipo de enfermedad. Para ello se seleccionaron 200 pacientes con esa enfermedad, a 100 de ellos se les aplic el test 1 y a los otros 100 el test 2. En el primer caso el test dio positivo en 65 pacientes y en el segundo en 83. Construir un intervalo de 95% de confianza para la diferencia de proporciones poblacionales de positivos. 11.- Se hizo un cruzamiento de prueba entre un conejo de Viena y una hembra blanca Neocelandesa, se obtuvieron las siguientes frecuencias genotpicas en la descendencia: A Pelo negro, ojos rojos B Pelo negro, ojos negros C Pelo blanco, ojos negros D Pelo blanco, ojos rojos 108 46 32 14

Se puede considerar que la segregacin de la descendencia en este tipo cruzamiento sigue una distribucin 9:3:3:1 para A:B:C:D, respectivamente, con un nivel de significacin del 5%? 12.- Una muestra de 150 compradores tomada en forma aleatoria en un comercio tena un 96% de mujeres y una muestra de 100 compradores tomada en el local de su mejor competidor result contener 88% de mujeres. Construir un intervalo de confianza del 90% para la diferencia de las proporciones de compradores femeninos. 13.- Se hicieron anlisis para determinar el porcentaje de gas amonaco en un laboratorio durante 9 das consecutivos mediante dos mtodos diferentes. La composicin del gas vara notablemente de un da para otro. Los datos obtenidos son:

Mtodo A Mtodo B

14 18

37 37

35 38

43 36

34 47

36 38

48 57

33 28

33 42

Determinar si hay diferencias entre los dos mtodos al nivel del 5% 14.- Se ha demostrado que un alto contenido de nitrato en la composicin de los alimentos da origen a numerosos efectos nocivos. En un experimento se tomaron 16 ratas al azar de una lnea, las mismas fueron alimentadas con una dieta estndar. A 9 de ellas, elegidas al azar, se les dio de beber agua con 2000 ppm de nitrato. Luego se midi la ganancia de peso y se expres en porcentaje: A B 12,7 18,2 19,3 22,9 20,5 10,1 10,5 14,3 14,0 10,2 10,8 17,1 16,6 15,7 14,0 17,2

Se puede concluir que la dosis de nitrato disminuye la ganancia de peso de las ratas? Justifique estadsticamente su respuesta ( = 0,05). En qu supuestos se basa para realizar el test de hiptesis? 15.- Un Veterinario sabe, por archivo de datos histricos, que en su clnica durante el mes de diciembre los casos se distribuyen as: infecciones 50%, vacunaciones 35%, cirugas 10% y otros 5%. Durante diciembre de 2003 se encontr con las siguientes distribucin de casos: infecciones 90, vacunaciones 80, cirugas 30 y otros 20. Con un nivel de significacin de 5%, cree Ud. que estos datos confirman la distribucin histrica de los casos en la poblacin durante el mes de Diciembre? 16.- Un tambero con 279 vacas en ordee prob un nuevo producto para prevenir problemas de pezones. Para esto, el veterinario asign al azar 139 vacas al producto nuevo y 140 al usado anteriormente. Luego de las lactancias de estas vacas se comprob que 31 de las ltimas presentaron problemas de pezones, mientras que slo 17 de las primeras dichos presentaron problemas. Qu puede concluir con respecto a la distribucin de los problemas de pezn entre estos dos tratamientos? Concluya con un nivel de significacin del 5%. Si deseara saber cual de estos dos tratamientos es mejor, qu le dira al tambero? En qu basara su respuesta? 17.- En un experimento que incluye un cruzamiento entre dos variedades de porotos (Phaseolus vulgaris), se obtuvieron los siguientes resultados: Fenotipos Prpura Rojo Ante Testceo Frecuencias 103 46 40 12

Cree que estos resultados, con un nivel de significacin del 5%, soportan el modelo gentico 9:3:3:1? Justifique estadsticamente su respuesta. 18.- Se estudi la influencia de un nuevo fertilizante sobre el rendimiento de una oleaginosa. Como se desea estudiar el comportamiento del fertilizante bajo distintas condiciones climticas, se eligieron 8 estaciones experimentales ubicadas estratgicamente en una regin y en cada estacin se tom una parcela. En una mitad, elegida aleatoriamente, se adicion fertilizante y la otra mitad de la parcela no recibi fertilizante. Se han obtenido los siguientes resultados expresados en kg de produccin por ha: Estacin nmero: Con fertilizante 1 810 2 540 3 930 4 690 5 710 6 720 7 840 8 740

Control

610

405

805

560

570

620

730

620

En funcin del costo del fertilizante, los productores no estaran dispuestos a invertir en fertilizante si el aumento debido al uso es de a lo sumo 140 kg/ha. Con un nivel de significacin del 10%, cree que los productores invertirn en fertilizante? 19.- Los siguientes datos indican el aumento de peso, en g, de 20 ratas elegidas al azar de las cuales la mitad recibi protena de man crudo y la otra mitad de man tostado. Probar si el tostado del man ha tenido efecto sobre su valor proteico ( =0,05). Suponga homogeneidad de varianzas, y tenga presente que se sospecha que el tostado aumenta el valor proteico del man, y que, obviamente, a mayor nivel proteico mayor aumento de peso. Crudo Tostado 61 55 61 54 56 47 63 59 56 51 63 61 59 57 56 54 44 62 61 58

20.- La desviacin estndar de la concentracin de sodio en la sangre de una muestra de 10 anguilas marinas, tomada al azar, fue de 40,5 mg%; mientras que para una muestra de 10 anguilas de agua dulce, tambin tomada al azar, result 32,1 mg%. Se puede concluir estadsticamente que la varianza de la concentracin de sodio en las anguilas marinas es superior a la de agua dulce? ( =0,01). En qu supuestos se debe basar para realizar la prueba de hiptesis sugerida? 21.- Un grupo de investigacin estudia la relacin entre el tipo de sangre y el grado de cierta afeccin en una poblacin. Se toma una muestra aleatoria de 1200 individuos, y se los clasifica segn grado de afeccin y tipo de sangre en la siguiente tabla de contingencia: TIPO DE SANGRE GRADOS DE AFECCIN Ninguno Leve Severo A 243 44 28 B 211 22 9 AB 90 8 7 0 476 31 31

Los investigadores desean saber si estos datos sustentan la hiptesis de que el grado de afeccin y el tipo de sangre son independientes en la poblacin al nivel del 1%. 22.- Con el fin de probar si un tratamiento especial sobre tubos de ensayo modifica la resistencia al calor, se realiz un pequeo experimento. De un lote de tubos se tomaron dos muestras y a una se le aplic el tratamiento. Luego fueron probados y registradas las resistencias al calor, obtenindose: NO TRATADOS TRATADOS X = 81,4 X = 91,8 S = 37,3 S = 40,7 n = 15 n = 15 Estimar la diferencia entre las medias poblacionales de los tubos tratados y no tratados mediante un intervalo de confianza del 95%. Qu supuestos debe realizar para la estimacin anterior? 23.- En un experimento se cruzaron conejos gigantes polacos y conejos flamencos en dos criaderos obtenindose 10 conejos de esa cruza en el criadero 1, y 61 en el criadero 2. Los siguientes datos corresponden a longitudes del fmur (en mm) de los conejos resultantes de la cruza. n Criadero 1 Criadero 2 10 61
X

S 1,65 3,81

83,30 80,50

Es significativamente mayor la varianza de las longitudes del fmur entre conejos del criadero 2 con respecto a los del criadero 1? Justifique estadsticamente su respuesta ( = 0,05). En qu supuestos se basa para realizar la prueba de hiptesis?

24.- Dos establecimientos dedicados al cultivo de maz hbrido siembran en quince parcelas diferentes, obteniendo los siguientes rendimientos (en Kg/parcela): ESTABLECIMIENTO 1: 114 - 86 - 93 - 75 - 102 - 89 - 83 - 89 - 92 - 96 100 - 98 - 87 - 80 - 86 ESTABLECIMIENTO 2: 107 - 94 - 86 - 70 - 78 - 90 - 82 - 77 - 95 - 84 - 100 - 89 - 92 - 99 - 85 Construir un intervalo del 99% de confianza para el cociente de las varianzas de los rendimientos de maz hbrido entre los establecimientos. En qu supuestos se basa para realizar el intervalo de confianza? 25.- Dos tratamientos A y B fueron asignados al azar a cada uno de dos lotes de animales tomados aleatoriamente de una poblacin. La respuesta registrada fue el aumento de peso, en kg, durante el perodo experimental. Datos: X A =1,57g ; XB =1,89g ; nA=11 ; nB=10 ; S2A=0,15g2; S2B=0,12g2. Calcular un intervalo de confianza para el cociente de las varianzas (A/B) de los tratamientos, con un coeficiente de confianza del 95%. Qu conclusiones puede extraer del experimento? 26.- En un rea de 30 m x 10 m sembrada con plantas de una determinada especie, se observaron 296 plantas con flor y 987 sin flor. En otra rea del mismo tamao sembrada con 1000 plantas de la misma especie se observaron slo 200 con flor. Puede suponerse a un nivel del 1% que la proporcin de plantas florecidas es la misma en ambas reas? 27.- Se sabe que la alta presin sangunea es un factor que aumenta el riesgo de padecer una enfermedad coronaria. Para estudiar la relacin entre las presiones sanguneas de padres e hijos se tom una muestra aleatoria de 184 pares de padres e hijos. Se les midi la presin sangunea y se los ubic en las categoras baja, media, y alta; los resultados se observan en la siguiente tabla.
Presin sangunea de los hijos

Presin sangunea de los padres

Alta Media Baja

Alta 28 22 12

Media 22 22 20

Baja 16 18 24 =0,05.

Existe relacin entre la presin de los padres con la de los hijos? Use un valor de

28.- Al finalizar un curso de asistencia no obligatoria, un profesor realiz la siguiente agrupacin basada en la aprobacin o no del curso y la asistencia al mismo. Usando un =0,05 a que conclusin puede llegar.
Nmero de das ausente Resultados del Curso Aprobado Reprobado

0-3 4-6

84 60

5 8

Ms de 6 10 25 29.- Si las frecuencias esperadas de genotipos en una determinada experiencia de cruzamiento son 9:3:3:1 segn una hiptesis del rea de gentica. Cree que los siguientes datos: 190, 85, 80 y 35 soportan la hiptesis? Use un =0,05. 30.- Una medicacin nueva para tratar resfriados se compar con la medicacin de ms uso. Para esto se tom al azar un grupo de 300 individuos que padecan resfriado; a la mitad de estos, tomados al azar, se los trat con la nueva medicacin y a los otros 150 con la medicacin tradicional. La opinin de los pacientes se resume a continuacin. Opinin de los pacientes Tratamiento Nuevo Tradicional Totales Empeor 16 20 36 Sin efecto 30 42 72 Mejor 104 88 192 Totales 150 150 300

Considera que estos medicamentos se comportan de manera similar, use un =0,05? 31.- Se consider una muestra de 97 nios escolarizados de 10 aos que fueron clasificados segn las siguientes variables: La Conducta en Clase, que fue clasificada por los maestros en Buena (B) y No Buena (NB) y la Adversidad Escolar en baja (b), media (m) o alta (a). Adversidad Escolar b Conducta en clase B NB 20 5 m 49 11 a 8 4

Indicar: a. Posible Hiptesis de trabajo: ................................................................................................. ................................................................................................................................................... b. Hiptesis estadstica: ............................................................................................................. c. Frmula y reemplazo para obtener el valor esperado de la celda (2;1). Frmula Reemplazo numrico Resultado

d. Si se trabaja a un nivel del 5% la decisin es ............................................................................... 32.- Con el fin de comparar la efectividad de tres frmacos se seleccionaron al azar doce peces con cierta infeccin viral de una poblacin, y se los dividi aleatoriamente en tres grupos, a cada grupo se lo medic con un frmaco diferente y se midi la carga viral al principio y al final del tratamiento para cada animal. Responder: a- La unidad experimental es ................................................................................................... b- Los tratamientos son ........................................................................................................... c- La observacin es ................................................................................................................ d- El objetivo del trabajo es ..................................................................................................... ................................................................................................................................................... 33.- Se realiza un experimento para comparar la absorcin media de garrapaticida por unidad de tejido muscular, registrndose la concentracin sangunea del principio activo. Para ello se seleccionan al azar diecisis perros y se los subdivide en cuatro grupos aleatoriamente. A cada uno de los subgrupos se le asigna un producto diferente: A, B, C y D. Responder: a- La unidad experimental es .................................................................................................. bcdLos tratamientos son .......................................................................................................... La observacin es ............................................................................................................... El objetivo del trabajo es ....................................................................................................

.................................................................................................................................................. 34.- La columnista Ann Landers se pregunt si tener hijos vala la pena considerando los problemas que acarrean. Le pregunt a los lectores: Si pudiera volver a empezar, valdra la pena tener hijos? Unas semanas despus el titular de su columna era: El 70% de los padres afirman que tener hijos no vale la pena, ya que el 70% de los padres norteamericanos que le escribi opinaron que si pudieran volver a elegir no tendran hijos. Es esta conclusin vlida? Justificar. ....................................................................................................................................................................

.................................................................................................................................................................... .................................................................................................................................................................... ...... 35.- Con el objeto de medir el efecto del ejercicio en enfermedades coronarias, un grupo de investigadores decidi comparar el ndice de enfermedad en dos grandes grupos de personas que trabajan en los colectivos de Buenos Aires: choferes e inspectores. Los inspectores realizan ms ejercicio, ya que su actividad requiere que estn caminando gran parte del da, mientras que la tarea de los choferes es ms sedentaria. Se consideraron aquellas personas que vinieran realizando el mismo trabajo durante los ltimos 8 aos y adems la distribucin de las edades en ambos grupos es similar. Se observ que el ndice de enfermedades coronarias entre los conductores era sustancialmente mayor. a) Este experimento es observacional o experimental? Justificar. .................................................................................................................................................................... .................................................................................................................................................................... .................................................................................................................................................................... ......
b)

Por qu cree usted que los investigadores le dan importancia a la distribucin de las edades? .................................................................................................................................................................... .................................................................................................................................................................... .................................................................................................................................................................... .....
c)

Cree que puede haber efectos confundidos no mencionados en el experimento que expliquen el resultado obtenido? .................................................................................................................................................................... .................................................................................................................................................................... .................................................................................................................................................................... ...... 36.- Los registros de 3000 historias clnicas muestran que los fumadores estn ms propensos a deprimirse que los no fumadores. a) De qu tipo de estudio se trata? .........................................................................................
b) Considera que estn controlados todos los factores? .........................................................

37.- Estudios realizados en el perodo 1850-1900 en Estados Unidos, muestran que el promedio de duracin de los matrimonios era de 12 aos.
a) De qu tipo de estudio se trata? ......................................................................................... b) Mencione posibles factores de confusin.

.........................................................................................................................................................
c)

Usted est interesado en disear un experimento para analizar el mismo objetivo, qu factores tendra en cuenta? .................................................................................................................................................................... ..........................................................................................................................................................
d) Muestran estas observaciones que la proporcin de divorcios era alta en ese periodo?

................................................................................................................................................... 38.- La flebitis es una inflamacin de las venas que altera el equilibrio hemodinmico en el individuo que la padece, que generalmente presenta otros signos cardiolgicos. Se puede producir por causas naturales o artificiales como, por ejemplo, la aplicacin endovenosa de ciertas drogas, ya sea por la droga en s misma (principio activo), o por el excipiente (vehculo).

El problema de detectar la aparicin de flebitis es de particular importancia para los investigadores, ya que se pueden prevenir complicaciones cardacas. Este estudio se dise con la finalidad primordial de buscar mecanismos para la deteccin temprana de la misma. Para ello se trabaj con conejos del bioterio y se eligi como droga a la amiodarona (antiarrtmico), para ser aplicada por va endovenosa, ya que como efecto colateral se observa la aparicin de flebitis en el lugar de la aplicacin. Se sospecha que un aumento en la temperatura de los tejidos cercanos al lugar de la administracin intravenosa seran seal de una inflamacin inminente. Se administraron tres tratamientos intravenosos en conejos. Estos fueron: amiodarona en una solucin excipiente slo una solucin excipiente una solucin salina (control) Los conejos utilizados como animales de prueba se asignaron al azar a los tres grupos de tratamientos y se les insert una aguja en la vena de una de las orejas, por donde les fueron suministradas las soluciones. Un incremento en la temperatura de la oreja tratada se consider como posible indicador temprano de flebitis. La diferencia en la temperatura de las orejas (tratada menos no tratada) se us como variable respuesta. El incremento medio estimado en la temperatura de las orejas de conejos tratados con amiodarona ms excipiente fue de 1,20C, que es un valor con significado clnico, mientras que las estimaciones medias respectivas para las soluciones excipiente y salina fueron de 0,13C y 0,000C, que no son significativas en el sentido clnico. Si la amiodarona incrementa la temperatura ms que la solucin excipiente, entonces se presumira que contribuye a la inflamacin de los tejidos. De la misma manera, la comparacin de la solucin excipiente con la salina proporcionara informacin sobre la contribucin del excipiente a la infl amacin de los tejidos. Identificar en este diseo:
a) Cul es la variable respuesta a analizar? .............................................................................

...................................................................................................................................................
b) Qu factores se controlaron mediante el diseo experimental? ..........................................

...................................................................................................................................................
c)

Qu hiptesis se plante el investigador? ...........................................................................

...................................................................................................................................................
d) Qu conclusiones podran resultar del experimento? .........................................................

...................................................................................................................................................
e) Considera que se han respetado los principios bsicos del diseo experimental (repeticin, alea-

torizacin y control local)? .......................................................................................... 39.- La vida til de las carnes refrigeradas sin coccin es el tiempo en que un corte previamente empaquetado es sano, nutritivo y vendible. Un paquete de estos expuesto al aire ambiental tiene una vida til aproximada de 48 hs, despus de la cual la carne comienza a deteriorarse por contaminacin de microbios, degradacin del color y encogimiento. El empaque al vaco es efectivo para suprimir el desarrollo de microbios; sin embargo, continan siendo un problema los otros aspectos. Algunos estudios recientes sugieren las atmsferas controladas de gas, como alternativa a los empaques actuales. Dos atmsferas que prometen combinar la capacidad de suprimir el desarrollo de microbios con la conservacin de las cualidades de la carne son: 1) dixido de carbono puro (CO2) y 2) mezclas de monxido de carbono(CO), oxgeno (O 2) y nitrgeno (N2). Se cree que alguna forma de atmsfera controlada proporcionar un entorno ms efectivo de empaque para el almacenamiento de carne. En base a las siguientes preguntas previas: a. Para reducir el desarrollo de bacterias, es ms efectiva la creacin de una atmsfera

artificial que el aire ambiental del empaque comercial? b. Son ms efectivos los gases que el vaco total? c. Es ms efectivo el CO2 que una mezcla de CO, O2 y N2? El investigador disea un experimento a fin de responderlas, incluyendo carne envasada, con un empaque comercial de plstico, con: 1) aire del ambiente 2) al vaco 3) una mezcla de gases con 1% de CO, 40% de O 2 y 59% de N2 4) 100% de CO2 Los empaques con aire del ambiente y al vaco sirven como tratamientos de control, ya que ambos son estndares, con cuya efectividad se puede comparar la de los nuevos empaques. A cada conjunto de empaque se le asignaron al azar tres cortes del mismo tamao (75 g). Cada corte se empac por separado en las condiciones asignadas. Se desea, en este caso, estudiar la efectividad de cada tratamiento para suprimir el desarrollo bacterial. Despus de nueve das de almacenamiento a 4C en una instalacin normal, se midi el nmero de bacterias sicotrpicas en la carne. Las bacterias sicotrpicas se encuentran en la superficie de la carne y se asocian con el deterioro de la carne. Se pide: a) Sealar el tratamiento o factor que se analiza con sus niveles. .................................................................................................................................................................... ..................................................................................................................................
b) La hiptesis del investigador es: ..........................................................................................

.................................................................................................................................................................... ..................................................................................................................................
c)

Explicar si es un diseo experimental o cuasiexperimental, justificando adecuadamente.

.................................................................................................................................................................... ..................................................................................................................................
d) Cules podran ser las conclusiones de este experimento?

................................................................................................................................................................................ .................................................................................................................................. 40.- En un estudio se analiza la hiptesis de que el ancho del escudo, o placa dorsal, medida en m, de ninfas de garrapata del conejo, Haemaphysalis leporispalustris, es mayor en regiones clidas que en templadas. Para poner a prueba esta suposicin se toma una muestra aleatoria de 10 conejos infestados por la garrapata que pertenecen a granjas de clima clido (Regin 1), y lo mismo se hace en granjas de clima templado (Regin 2), seleccionndose, tambin 10 conejos infestados. Los datos obtenidos son: Regin 1 225 220 240 145 260 255 270 185 130 165 Regin 2 220 190 250 80 100 95 200 215 225 198
Boxplot
300,00

250,00

200,00

Ancho
150,00 100,00 50,00 1 2

Regin

Shapiro-Wilks (modificado) Regin Variable 1 Ancho 2 Ancho

n 10 10

Media D.E. 209,50 50,14 177,30 61,58

W* 0,89 0,81

p (una cola) 0,2657 0,0290

Prueba de Wilcoxon para muestras independientes (Mann Whitney) Desvo Media del Grupos Media Mediana estndar rango Regin 1 209,50 50,14 222,50 12,20 Regin 2 117,30 61,58 199,00 8,80 Realizar la prueba de inters al 10%.

Estadstico 122,00

p-valor 0,1984

41.- En un estudio farmacolgico se compararon los tiempos de recuperacin, en das, de pacientes que fueron tratados con un principio activo, y los tiempos de recuperacin de los que fueron considerados como grupo control, a los que se les aplic un placebo. Para el primer grupo se seleccionaron aleatoriamente 20 pacientes que recibieron el principio activo. El segundo grupo, formado por 20 pacientes, tambin seleccionados de manera aleatoria, recibi un placebo. Se puede suponer, al 5%, que los tiempos de recuperacin son diferentes? Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) Principio activo 20 10.864 2.162543 0.964 0.6262 Placebo 20 12.300 3.537248 0.9697 0.7482 Al realizar la Prueba de homogeneidad de varianzas se obtuvo que F=0.3738, p-valor=0.0378 UNIDADES TEMTICAS 3, 4 y 5 01.- Se midi la produccin de leche y el porcentaje de grasa en la misma, en 10 vacas elegidas al azar: Produccin (kg) Grasa (%) 18 5,2 10 6,0 11 5,8 12 5,7 12 5,4 19 5,1 15 5,4 17 5,0 14 5,3 16 5,4

Puede afirmarse que la produccin de leche y el porcentaje de grasa estn correlacionados? Justificar la respuesta con = 0,05. Shapiro-Wilks (modificado) Variable n Media D.E. Produccin 10 14,40 3,10 Grasa 10 5,43 0,32 W* 0,92 0,93 p(Unilateral D) 0,5157 0,6032 Coeficientes de correlacin Correlacin de Pearson: Coeficientes\probabilidades Produccin Grasa Produccin 1,00 6,4E-04 Grasa -0,89 1,00

Coeficientes de correlacin Correlacin de Spearman: Coeficientes\probabilidades Produccin Grasa Produccin 1,00 5,2E-04 Grasa -0,89 1,00

02.- Los siguientes valores corresponden a la edad (ei, en semanas) y la concentracin de cierto mineral encontrado en el tejido (ci, en ppm), en 10 animales. c1 e1 70 82 49 85 41 83 64 64 Media D.E. 36.60 19.07 60.80 21.49 34 82 W* 0.89 0.86 25 53 26 26 24 47 14 37 19 49

Shapiro-Wilks (modificado) Variable n concent 10 edad 10

p (una cola) 0.2537 0.1320

De acuerdo con los resultados anteriores, plantear al 5% y resolver el anlisis de correlacin que considere adecuado. Datos auxiliares: Coeficientes de correlacin Correlacin de Spearman: Correlacin de Pearson: Coeficientes\probabilidades Coeficientes\probabilidades c1 e1 c1 e1 c1 1,00 0,02 c1 1,00 0,03 e1 0,71 1,00 e1 0,68 1,00 03.- Se desea estudiar la relacin entre el tiempo (ti) despus de administrar 5 mg de xilocana (anestesia local) por kilo de peso vivo, medido en minutos, y la presin venosa (pi), en mm de mercurio, en una muestra de 9 perros. Para ello se fijaron (determinaron) los tiempos y se observ la presin venosa. ti pi 0 9,41 10 9,07 20 8,81 30 8,40 40 7,93 50 7,38 60 7,36 70 7,21 80 7,01

Qu porcentaje de la variacin total de la presin venosa es explicada por el tiempo transcurrido despus de aplicar la anestesia local? Interpretar. 04.- Los siguientes datos corresponden al peso branquial (bi, en mg) y al peso corporal (ci, en g), en una muestra de 8 individuos de la poblacin de cangrejos de mar Pachygrapsus crassipes: bi ci 159 14,4 179 15,2 100 11,3 384 22,7 230 14,9 320 15,8 220 15,4 210 9,5

Probar la hiptesis de que los pesos branquial y corporal estn asociados, sabiendo que ambas variables tiene distribucin normal. Justificar estadsticamente la respuesta ( = 0,01). 05.- Un estudio realizado sobre dos tipos distintos de bacterias produjo la siguiente informacin: Cultivo A Cultivo B

Y= 200 + 0,8 x
2

Y= 50 + 1,2 x

R = 0,49 R = 0,81 donde Y es el nmero de colonias cada 0,1 ml y X es la cantidad de nutrientes en el caldo de cultivo, medidos en moles/litro. a) Cul de los dos tipos de bacteria aumenta ms por incremento de la cantidad de nutrientes introducido? Fundamentar brevemente la respuesta. b) Le resulta til para obtener alguna conclusin el clculo de los respectivos coeficientes de determinacin? Qu indican en este caso? 06.- Diez nuevas pinturas fueron puestas en exhibicin, y dos expertos en arte las ordenaron de mejor a peor segn sus criterios. Existe asociacin entre los puntos de vista de estos dos expertos? Use un alfa de 0,05. Pintura Experto 1 Experto 2 1 4 5 2 1 2 3 9 10 4 5 6 5 2 1 6 10 9 7 7 7 8 3 3 9 6 4 10 8 8

07.- La siguiente tabla muestra el nmero de bacterias (bi) presentes en un cultivo despus de un cierto nmero controlado de horas (ti): ti bi 1 35 2 40 3 41 4 47 5 54 6 62 7 63 8 70 9 72 10 78

Estimar puntualmente y con un nivel de confianza del 95%, el aumento de bacterias en funcin del tiempo. a) Estimacin puntual e Interpretacin b) Estimacin con un nivel del 95% 08.- Para estudiar la influencia de la temperatura (ti, en C) en el ritmo cardaco (ri, en latidos/min), en sapos, se observaron 10 animales sometidos a temperaturas determinadas, obtenindose los siguientes resultados: ti ri 2 5 4 6 6 11 8 14 10 22 12 30 14 32 16 30 18 32 20 30

a) Representar grficamente. b) Estimar e interpretar la recta de regresin. c) Indicar los supuestos necesarios, en este caso, para poder inferir a la poblacin d) Analizar a un nivel del 5%, si los latidos aumentan significativamente con la temperatura, planteando: Hiptesis estadsticas .............................................................................................................................. Regin crtica .......................................................................................................................................... Valor calculado del estadstico de prueba ................................................................................................. Decisin ................................................................................................................................................. Interpretacin biolgica del parmetro en estudio .................................................................................... .............................................................................................................................................................. Poblacin .............................................................................................................................................. Resultados: Anlisis de regresin lineal Variable N R R Aj R 10 0,86 0,85 Coeficientes de regresin y estadsticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const 2,40 2,97 -4,46 9,26 0,81 0,4431 T 1,71 0,24 1,16 2,26 7,13 0,0001 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 963,93 1 963,93 50,84 0,0001 T 963,93 1 963,93 50,84 0,0001 Error 151,67 8 18,96 Total 1115,60 9 09.- Se toma una muestra aleatoria de tamao n = 17 y se calcula el coeficiente de correlacin muestral =0,75. Es significativo al 5%? En qu supuestos se basa? r

10.- Los siguientes datos corresponden al tiempo de la cada del cordn umbilical (Ci, en das), con respecto al aumento de peso del lactante (Ai, en g): Ai 510 400 600 550 660 480 575 700 780

Ci 13 17 10 12 8 15 11 6 7 Podra afirmar, a un nivel del 5%, que ambas variables estn correlacionadas? Las variables tienen distribucin normal. Plantear: Hiptesis estadsticas............................................................................................................................... Valor calculado de la variable pivotal: ....................................................................................................... Decisin .................................................................................................................................................

11.- Para estudiar la relacin entre la edad y presin sangunea entre bovinos, se seleccionaron 40 animales de distintas edades. Se les midi la presin sangunea, obtenindose los siguientes resultados: X = edad en meses Y = presin sangunea X = 2000; Y = 480; X = 104000; XY = 24400; Se = 1000 a) Definir en forma completa las variables en estudio b) Indicar el modelo propuesto e interpretar los coeficientes c) Estimar el modelo e interpretar lo obtenido. d) Hay evidencia estadstica suficiente para decir que la edad influye sobre la presin sangunea? ( =0,01). 12.- Para estudiar la relacin entre el nmero de cigarrillos fumado por da durante el embarazo y el peso del recin nacido se tom una muestra al azar de 15 madres que fumaron durante el embarazo. Los datos se muestran a continuacin: Madre Cigarrillos/da 1 12 2 15 3,7 3 35 3,1 4 21 3,7 5 20 3,9 6 17 3,8 7 19 4,3 8 46 2,9 9 20 3,8 10 25 2,4 11 39 2,7 12 25 3,6 13 30 3,6 14 27 2,8 15 29 3,4

Peso al Nacer (Kg) 3,5

Usando un alfa de 5%, responda: Hiptesis estadsticas......................................................................................................................... Regla de decisin............................................................................................................................... Poblacin en estudio.......................................................................................................................... 13.- Los siguientes datos corresponden al peso de la cresta (X2) y al peso del cuerpo (X1) de 10 pollos parrilleros: X1 = 740 ; X2 = 544; X1 = 61790 ; X2 = 39718; X1 X2 = 42062 Puede afirmar, a un nivel del 5% que el peso de la cresta est asociado al peso del cuerpo? Las variables se distribuyen normalmente. 14.- Los datos de la siguiente tabla corresponden a la edad (E, en meses), prefijada por el investigador, y a la concentracin de hemoglobina en sangre (H, en %), de un grupo de perros normales: ei hi 10 93 11 96 12 98 13 100 14 103 15 110 16 111 17 115 18 117 19 120

a.- Dibujar el diagrama de dispersin. b.- Estimar e interpretar la funcin que mejor ajuste los datos. c.- Se pusieron a prueba las hiptesis estadsticas H0: =0 versus H1: 0 c1) La hiptesis de trabajo correspondiente es ................................................................................... ............................................................................................................................................................ c2) La regin crtica es ( =0,05) ..................................................................................................... c3) La decisin es ............................................................................................................................ c4) El parmetro en estudio es ........................................................................................................ c5) La poblacin es ................................................................................................. ....................... Resultados: Anlisis de regresin lineal Variable N R R Aj ECMP

AIC

BIC

10

0,98

0,98 2,10

36,52 37,43

Coeficientes de regresin y estadsticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const 61,04 2,03 56,37 65,71 30,14 <0,0001 E 3,12 0,14 2,81 3,44 22,78 <0,0001 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 803,71 1 803,71 519,03 <0,0001 E 803,71 1 803,71 519,03 <0,0001 Error 12,39 8 1,55 Total 816,10 9 15.- En un laboratorio se realiz un estudio para analizar si la tasa de conversin alimenticia est relacionada con el peso de los animales. Se seleccionaron al azar 6 pollos de pesos determinados obtenindose los siguientes datos: Peso Tasa Conversin 35 3,8 40 3,4 45 3,2 50 2,8 55 2,5 60 2,2

Datos: pi = 285; pi2 = 13975; ti = 17,9; ti2 = 55,17; piti = 822,5 a) Establecer la relacin funcional entre las variables. b) Obtener un intervalo de confianza del 95% para la tasa de conversin media esperada correspondiente a un peso de 42 g. Interpretar en trminos del problema. 16.- A continuacin se dan el peso, en kg, y el dimetro torcico, en cm, de 10 perros de una determinada raza a los 10 meses de edad. Estos datos corresponden a un estudio en el que se quiere probar si existe asociacin entre estas variables. Peso (p) Dimetro (d) 23,0 22,0 22,7 21,5 21,2 20,5 21,5 20,0 17,0 21,0 28,4 25,0 19,0 21,0 14,5 20,0 19,0 19,0 19,5 19,0

Shapiro-Wilks (modificado) Variable n Peso 10 Dimetro 10

Media D.E. 20,58 3,78 20,90 1,74

W* 0,97 0,88

p (una cola) 0,9373 0,2174

a) Efectuar el grfico correspondiente. b) Realizar el anlisis estadstico que considere adecuado respecto de la informacin suministrada ( =0,01). c) Concluir. 17.- A un qumico le interesa encontrar un mtodo rpido de determinacin del contenido de alfa-resina en el lpulo. Para ello realiza un experimento que evidencia la relacin funcional existente entre las lecturas de un colormetro (L), para ciertas cubetas tipo, y sus respectivas concentraciones conocidas de alfa-resina (C). Los datos obtenidos fueron: L C 8 0,20 50 0,71 81 1,09 102 1,38 140 1,95 181 2,50 199 2,78 223 3,08 254 3,57

Qu conclusiones podra extraer acerca de la relacin mencionada? ( = 0,05) 18.- Se ha determinado el volumen de plasma (V), en cm3, y la cantidad de albmina circulante (A), en g, de 8 hombres normales. Estas determinaciones se dan a continuacin: V A 2,5 119 2,8 133 2,4 123 2,5 129 3,2 146 2,9 146 3,6 182 3,14 145

Hay evidencia de alguna relacin entre albmina circulante y volumen de plasma? Justifique estadsticamente su respuesta, planteando Hiptesis estadstica, valor calculado de la variable pivotal, decisin y poblacin en estudio. ( = 0,01). Las variables se distribuyen normalmente. 19.- Una gran empresa quiere determinar si existe una relacin negativa entre las horas perdidas por empleado por ao y la ganancia anual por empleado. Una muestra aleatoria de 16 empleados se expone a continuacin: Empleado Horas de Trabajo Perdidas Ganancia Anual (en 1000$) Empleado Horas de Trabajo Perdidas Ganancia Anual (en 1000$) 1 2 3 4 5 6 7 8 49 36 127 91 72 34 155 11 15,8 17,5 11,3 13,2 13,0 14,5 11,8 20,2 9 10 11 12 13 14 15 16 191 6 63 79 43 57 82 24 10,8 18,8 13,8 12,7 15,1 24,2 13,9 15,1

Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) h 16 70.00 51.20 0.90 0.2020 g 16 15.11 3.56 0.90 0.1618 Cree Ud., usando un alfa del 1%, que la empresa tiene razn? 20.- Para el estudio del crecimiento del hongo de la papa se inocularon tubos con medio de cultivo. El crecimiento (C), en mm, se midi en determinados tiempos (T), en das, fijados por el experimentador. Se obtuvieron los siguientes resultados: T C 2 10 3 15 5 27 7 35 9 42 10 50 12 51 13 66 15 68 17 72

a.- Graficar e interpretar los datos. b.- Establecer la relacin funcional entre el crecimiento y el tiempo. c.- Es significativo el crecimiento diario a nivel del 5%? 21.- Una compaa de productos qumicos desea estudiar los efectos que tiene el tiempo (t), en minutos, en la eficiencia de una operacin de extraccin (e), en %, obteniendo los datos que aparecen en la siguiente tabla: ei ti 19 46 19 52 15 57 27 59 35 62 45 64 31 68 39 72 49 77 41 80

Datos: ei = 320;

ei2 = 11490; ti = 637; eiti = 21329; ti2 = 41627

a) Estimar la ecuacin de regresin lineal y graficar. b) Estimar la eficiencia media de extraccin que puede esperarse cuando el tiempo de extraccin es de 50 minutos, con una confianza del 99% 22.- Para estudiar si existe relacin funcional entre la estatura (E, en cm) y la longitud del radio (L, en cm), en jvenes varones con edades entre 12 y 18 aos, se tom una muestra de 12 de ellos, tomando valores determinados de estatura y observando la longitud del radio. Los valores correspondientes se ordenaron en la siguiente tabla: E L 149,0 21,0 152,0 21,79 155,7 22,4 159,0 23,0 163,3 23,7 166,0 24,3 169,0 24,92 172,0 25,5 174,5 25,8 176,1 26,01 176,5 26,15 179,0 26,3

a.- Estimar la relacin funcional existente entre ambas variables. b.- Completar los datos de la tabla de ADEVA y realizar la dcima de inters, con un nivel del 5%.

c.- Utilizando la tabla de ADEVA, calcular el coeficiente de determinacin e interpretar el resultado. FUENTE DE VARIACION REGRESION RESIDUAL TOTAL G.L. SC 37,05 0,018 11 37,23 CM F P < 0,0001

Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) const -5.61 0.66 -7.07 -4.15 E 0.18 3.9E-03 0.17 0.19

T -8.55 45.58

p-valor <0.0001 <0.0001

23.- En un estudio se sospecha que la cantidad de folculos ovulados (fi) est asociado positivamente con la cantidad de huevos puestos (hi), por las hembras de faisn de cuello anidado. En la siguiente tabla se presentan los datos obtenidos de 10 hembras cautivas: hi fi 39 37 29 34 46 52 28 26 31 32 25 25 49 55 57 65 51 44 21 25

Calcular el coeficiente de correlacin de Spearman. Poner a prueba la hiptesis de los investigadores al nivel del 5%. 24.- Como parte de un estudio acerca del efecto de las presiones del grupo sobre un individuo con respecto a una situacin que involucraba riesgo monetario, los investigadores asignaron una escala para medir el autoritarismo (ai) y otra para medir el esfuerzo por alcanzar posicin social (pi), en cada uno de 6 estudiantes universitarios. Se buscaba informacin acerca de la correlacin entre los puntajes de autoritarismo y los del esfuerzo por alcanzar posicin social: ai pi 82 42 98 46 87 39 40 37 116 65 113 88

Indicar si existe correlacin significativa entre las variables al 5%. 25.- Para realizar un experimento sobre engorde intensivo de novillos una estacin experimental somete a 24 novillos cruza de la misma edad al siguiente experimento: los individuos son asignados aleatoriamente a 3 grupos (1, 2 y 3) y antes de llevarlos a la pastura son inoculados con tres dosis de un novedoso anablico no esteroide. Luego de 45 das se pesan los animales obteniendo para cada uno de ellos el aumento promedio diario de peso (en kg). Los resultados son los siguientes: Grupo 1 0,4 0,5 0,4 0,2 0,4 0,6 0,5 0,5 Estadstica descriptiva Dosis Variable 1 AumPeso 2 AumPeso 3 AumPeso n 8 8 8 Media 0,44 0,68 0,74 Grupo 2 0,7 0,7 0,8 0,6 0,5 0,7 0,7 0,7 D.E. 0,12 0,09 0,11 Grupo 3 0,7 0,8 0,8 0,9 0,6 0,8 0,6 0,7 Mn 0,20 0,50 0,60 Mx 0,60 0,80 0,90 Mediana 0,45 0,70 0,75

A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hiptesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable RDUO_AumPeso

n 24

Media D.E. 0,00 0,10

W* 0,93

p (una cola) 0,2558

Tabla 2 Anlisis de la varianza Test de Levene Variable N R R Aj CV abs dif 24 0,07 0,00 90,85 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,01 2 3,8E-03 0,81 0,4593 Dosis 0,01 2 3,8E-03 0,81 0,4593 Error 0,10 21 4,6E-03 Total 0,11 23 Tabla 3 Anlisis de la varianza Variable N AumPeso 24

R 0,63

R Aj 0,60

CV 17,06

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,40 2 0,20 18,10 <0,0001 Dosis 0,40 2 0,20 18,10 <0,0001 Error 0,23 21 0,01 Total 0,63 23 Tabla 4 Prueba de Kruskal Wallis Variable Dosis AumPeso 1 AumPeso 2 AumPeso 3

N 8 8 8

Medias 0,44 0,68 0,74

D.E. 0,12 0,09 0,11

Medianas 0,45 0,70 0,75

H 14,16

p 0,0006

QQ-plot
2,04
Grfico de densidad de puntos
0,94

Cuantiles observados(RE_Peso)

0,91
0,74

AumPeso
-1,35 -0,22 0,91 2,04

-0,22

0,55

-1,35
0,36

-2,47 -2,47

0,17 1 2 3

Cuantiles de una Normal(1,0547E-015,1,0957)

Dos is

26.- En un estudio realizado sobre pacientes hipertensos con el propsito de investigar la relacin del nivel de presin arterial tomado como la presin media en un determinado perodo (Y, medida en mm de Hg) con la edad (X1, en aos) y el peso (X2, en kg), se obtuvieron datos de una muestra aleatoria de 20 pacientes. Y 105 115 116 117 112 121 121 110 110 114 X1 47 49 49 50 51 48 49 47 49 48 X2 85,4 94,.2 95,3 94,7 89,4 99,5 99,8 90,9 89,2 92,7 Y 114 115 114 106 125 114 106 113 110 122 X1 47 49 50 45 52 46 46 46 48 56 X2 94,4 94,1 91,6 87,1 101,3 94,5 87,0 94,5 90,5 95,7

Estimar la ecuacin de regresin mltiple, analizar la significacin de la regresin al nivel del 1%, y el ajuste. Anlisis de regresin lineal Variable N Y 20 R 0.99 R Aj 0.99 ECMP 0.37 p-valor <0.0001 <0.0001 <0.0001 p-valor <0.0001 <0.0001 <0.0001

Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T const -16.58 3.01 -22.92 -10.23 -5.51 X1 0.71 0.05 0.60 0.82 13.23 X2 1.03 0.03 0.97 1.10 33.15 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 555.18 2 277.59 X1 49.70 1 49.70 X2 311.91 1 311.91 Error 4.82 17 0.28 Total 560.00 19

F 978.25 175.16 1099.20

27.- En un estudio realizado en nios sobre la relacin entre la excrecin de creatinina (en mg/da, tomada como variable dependiente), el peso (en kg) y la estatura (en cm), se obtuvieron 20 datos de nios del sexo masculino. Y 100 115 52 85 135 58 90 60 45 125 Peso 9 10 6 8 10 5 8 7 4 11 Estatura 72 76 59 68 60 58 70 65 54 83 Y 86 80 65 95 25 125 40 95 70 120 Peso 7 7 6 8 5 11 5 9 6 10 Estatura 64 66 61 66 57 81 59 71 72 75

a.- Estimar la ecuacin de regresin mltiple que describe la relacin entre estas variables b.- Analizar la significacin de la regresin al nivel del 5% c.- Interpretar el R2 d.- Explicitar el modelo terico supuesto e interpretar los parmetros

Anlisis de regresin lineal Variable N Y 20

R 0.90

R Aj 0.89

ECMP 196.69

Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor const 1.38 23.96 -49.18 51.94 0.06 0.9547 Peso 15.58 1.98 11.40 19.77 7.86 <0.0001 Estatura -0.55 0.52 -1.65 0.56 -1.04 0.3107 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 16769.73 2 8384.86 80.69 Peso 6412.62 1 6412.62 61.71 Estatura 113.44 1 113.44 1.09 Error 1766.47 17 103.91 Total 18536.20 19 p-valor <0.0001 <0.0001 0.3107

28.- Como parte de un estudio para investigar la relacin entre la tensin nerviosa y otras variables, se reunieron datos a partir de una muestra aleatoria de 15 ejecutivos medios de una corporacin. Las variables observadas fueron: Y: medicin del estrs X1: salario anual (x 1000) X2: edad (aos) Y 101 60 10 27 89 60 16 X1 30 20 20 54 52 27 26 X2 38 52 27 36 34 45 50 Y 184 34 17 78 141 11 104 76 X1 52 34 28 42 84 31 38 41 X2 60 44 39 41 58 51 63 30

a.- Estimar la ecuacin de regresin mltiple que describe la relacin entre estas variables tomadas b.- Analizar la significacin de la regresin al nivel del 5% c.- Interpretar el R2 d.- Explicitar el modelo terico supuesto e interpretar los parmetros Anlisis de regresin lineal Variable N Y 15

R 0.49

R Aj 0.41

ECMP 2437.79

Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor const -67.13 46.10 -167.58 33.32 -1.46 0.1710 X1 1.60 0.65 0.18 3.02 2.46 0.0303 X2 1.63 1.00 -0.54 3.80 1.63 0.1282 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 17995.73 2 8997.87 5.79 X1 9368.94 1 9368.94 6.03 X2 4150.88 1 4150.88 2.67 Error 18652.67 12 1554.39 Total 36648.40 14

p-valor 0.0174 0.0303 0.1282

29.- Se desea saber si cuatro tratamientos antiinflamatorios utilizados en patologas articulares difi eren en cuanto a su efectividad. Se eligieron al azar 24 caballos con dicho signo clnico y se los reparti en 4 grupos de igual tamao y a cada uno se le asigna un tratamiento distinto. Al final de un per odo determinado, cada grupo es revisado clnicamente para cuantificar la efectividad del tratamiento y el puntaje asignado corresponde a la reduccin del rea inflamada y va de 0 a 100. Se obtuvieron los siguientes puntajes: 1 64 75 72 80 79 71 Estadstica descriptiva Trat Variable 1 Puntaje 2 Puntaje 3 Puntaje 4 Puntaje n 6 6 6 6 Tratamiento 2 3 76 58 81 74 90 76 80 60 89 75 85 69 Media 73,50 83,50 68,67 87,67 D.E. 5,89 5,47 7,89 5,05 Mn 64,00 76,00 58,00 80,00 4 95 90 80 87 85 89 Mx 80,00 90,00 76,00 95,00 Mediana 73,50 83,00 71,50 88,00

A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hiptesis planteadas son: ............................................................................................................

c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. W* RE_Puntaje 24 0.02 1.05 0.88 Tabla 2 Anlisis de la varianza Test de Levene Variable N R R Aj CV abs dif 24 0,08 0,00 74,08

p (una cola) 0.0224

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 22,83 3 7,61 0,61 Trat 22,83 3 7,61 0,61 Error 247,67 20 12,38 Total 270,50 23 Tabla 3 Anlisis de la varianza Variable N R Puntaje 24 0.64

p-valor 0,6135 0,6135

R Aj 0.59

CV 7.88

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 1383.67 3 461.22 12.11 Trat 1383.67 3 461.22 12.11 Error 761.67 20 38.08 Total 2145.33 23 Tabla 4 Prueba de Kruskal Wallis Variable Tratamientos Puntaje 1 Puntaje 2 Puntaje 3 Puntaje 4

p-valor 0.0001 0.0001

N 6 6 6 6

Medianas 73.50 83.00 71.50 88.00

H 16.50

p 0.0009

QQ-plot
1,99

Grfico de densidad de puntos


100,00

Cuantiles observados(RE_Efectividad)

0,99

87,50

0,00

Efectividad
-0,99 0,00 0,99 1,99

75,00

-0,99

62,50

-1,99 -1,99

50,00 1 2 3 4

Cuantiles de una Normal(3,7007E-017,1,0435)

Tratamientos

30.- De cierto producto se tomaron 25 muestras, lo ms parecidas posibles y se almacenaron bajo diferentes condiciones (mtodos). Se trata de ver con los datos de hidratacin del cuadro adjunto si hay diferencias significativas entre los mtodos de almacenamiento en cuanto al contenido de agua (en %). A 8,30 8,10 8,40 8,30 8,40 B 7,90 7,10 7,90 7,80 7,68 Mtodo C 8,10 8,50 7,82 8,30 8,15 D 7,40 8,50 8,50 8,50 8,22 E 7,60 7,70 7,90 7,98 8,10

Estadstica descriptiva Mtodo Variable n Media D.E. Mn Mx Mediana A Hidratacin 5 8.30 0.12 8.10 8.40 8.30 B Hidratacin 5 7.68 0.33 7.10 7.90 7.80 C Hidratacin 5 8.17 0.25 7.82 8.50 8.15 D Hidratacin 5 8.22 0.48 7.40 8.50 8.50 E Hidratacin 5 7.86 0.20 7.60 8.10 7.90 A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hiptesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) RE_Hidratacin 25 0,00 1,02 0,87 0,0078 Tabla 2 Anlisis de la varianza Test de Levene

Variable N R R Aj CV abs dif 25 0,07 0,00 148,73 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,10 4 0,03 0,36 0,8329 Mtodo 0,10 4 0,03 0,36 0,8329 Error 1,41 20 0,07 Total 1,51 24 Tabla 3 Anlisis de la varianza Variable N R R Aj CV Hidratacin 25 0,44 0,33 3,76 Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 1,43 4 0,36 3,89 0,0170 Mtodo 1,43 4 0,36 3,89 0,0170 Error 1,84 20 0,09 Total 3,26 24 Tabla 4 Prueba de Kruskal Wallis Variable Mtodo N Medianas H p Hidratacin A 5 8,30 11,75 0,0185 Hidratacin B 5 7,80 Hidratacin C 5 8,15 Hidratacin D 5 8,50 Hidratacin E 5 7,90
QQ-plot
Cuantiles observados(RE_Hidratacin)
2,00
9,00

Grfico de densidad de puntos

0,74

8,50

Hidratacin

-0,52

8,00

-1,78

7,50

-3,04 -3,04

7,00

-1,78

-0,52

0,74

2,00

Cuantiles de una Normal(3,5527E-017,1,0417)

Mtodo

31.- Para realizar un ensayo sobre la actividad estrognica se compararon varias soluciones que haban sido sometidas a una tcnica de inactivacin in vitro. Se inyectaron ratones hembra y como medida de la actividad estrognica se utiliz el peso del tero. Los siguientes datos de los pesos de teros, en mg, de diez ratones hembra para cada uno de los tratamientos: control y dos soluciones diferentes son: Control 89,8 93,8 112,6 101,6 97,2 106,5 Solucin 1 64,4 79,8 69,4 76,3 67,1 71,5 Solucin 2 75,2 62,4 73,8 71,8 65,1 74,6

98,1 94,4 105,3 95,7 Estadstica descriptiva Soluciones Variable 0 Peso 1 Peso 2 Peso n 10 10 10 Media 99.50 71.76 69.38

78,2 68,6 70,4 71,9 D.E. 6.94 4.95 4.50 Mn 89.80 64.40 62.40

66,8 70,1 64,7 69,3 Mx Mediana 112.60 97.65 79.80 70.95 75.20 69.70

A partir de los grficos y las salidas correspondientes, responda los siguientes tems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hiptesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) RE_Peso 30 0.00 1.06 0.96 0.6534 Tabla 2 Anlisis de la varianza Test de Levene Variable N R R Aj abs dif 30 0,05 0,00

CV 79,70

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 16,45 2 8,23 0,71 Trat 16,45 2 8,23 0,71 Error 313,20 27 11,60 Total 329,65 29 Tabla 3 Anlisis de la varianza Variable N Peso 30

p-valor 0,5010 0,5010

R 0.87

R Aj 0.86

CV 6.94

Cuadro de Anlisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 5607.95 2 2803.98 Soluciones 5607.95 2 2803.98 Error 835.68 27 30.95 Total 6443.63 29 Tabla 4 Prueba de Kruskal Wallis Variable Soluciones N Peso 0 10

p-valor 90.59 <0.0001 90.59 <0.0001

Medianas 97.65

H 19.79

p 0.0001

Peso Peso

1 2

10 10
QQ-plot

70.95 69.70
Grfico de densidad de puntos

2,58

120,00

Cuantiles observados(RE_Peso)

1,40

105,00

Peso

0,21

90,00

-0,97

75,00

-2,16 -2,16

60,00
-0,97 0,21 1,40 2,58

Cuantiles de una Normal(2,0724E-016,1,1172)

Soluciones

Вам также может понравиться