Вы находитесь на странице: 1из 9

Prcticas con STATISTICA

pgina 63

Tema 7: Cmo realizar un contraste de hiptesis


En este tema vamos a estudiar tanto los contrastes paramtricos como los no paramtricos (slo algunos de los vistos en teora). El anlisis vamos a verlo sobre el siguiente ejemplo: Un hospital quiere contrastar la eficacia sobre algunas caractersticas de un nuevo tratamiento que se est aplicando a todos sus pacientes con problemas de corazn. Para ello, toma una muestra aleatoria simple de 50 pacientes y estudia sus niveles de glucosa y colesterol antes del tratamiento y despus de un mes de aplicacin del mismo. Los datos de la muestra se encuentran en el archivo: pacientes.sta NOTA: recuerda que en cualquier contraste, se acepta la hiptesis nula si el p-valor es mayor que el nivel de significacin considerado. (Se acepta H0 si p-valor > ) IMPORTANTE: Para realizar cualquier tipo de contraste siempre debemos manejar una muestra aleatoria. Esta caracterstica depende de cmo se haya llevado a cabo la recogida de los datos, pero no debemos olvidar que es una condicin imprescindible para poder llevar a cabo cualquier contraste, por lo que el primer paso, antes de cualquier otro tipo de anlisis, siempre debera ser: comprobar que nuestros datos constituyen una muestra aleatoria simple*.

CONTRASTES NO PARAMTRICOS

Al estimar los parmetros de un modelo, estamos suponiendo que los datos constituyen una muestra aleatoria de una distribucin que, salvo por sus parmetros es conocida. La primera fase del estudio consiste, por lo tanto, en contrastar si nuestras hiptesis bsicas no estn en contradiccin con la muestra. En este sentido, realizaremos las que se conocen como pruebas de bondad de ajuste, que nos permiten contrastar si la distribucin supuesta es consistente con los datos. Contrastaremos la normalidad mediante los test de la 2, Kolmogorov-Smirnov y de Shapiro-Wilk. Es importante hacer hincapi en que la utilizacin de un modelo falso nos puede llevar a conclusiones no vlidas o que an siendo vlidas no sean ptimas. Por ejemplo, los procedimientos que suponen normalidad lleva a estimaciones poco precisas cuando esta hiptesis no es vlida lo que se traduce en intervalos innecesariamente grandes o contraste poco potentes. En estos casos debemos utilizar procedimientos alternativos que no requieran suposiciones sobre la variable salvo, en algunos casos, la de que sea continua. Comenzaremos con los contrastes de bondad de ajuste: Contrastes de Normalidad: Dada una muestra aleatoria, queremos contrastar, para un determinado nivel de confianza, la hiptesis nula de que los datos proceden de una poblacin con distribucin Normal.
*

En prcticas no vamos a ver el test de Rachas, pero no olviden que s lo han visto en teora.

Prcticas con STATISTICA

pgina 64

Para ello, debemos utilizar los contrastes de normalidad (Kolmogorov-Smirnov con correccin de Lilliefors , Shapiro Wilk y/o 2, dependiendo del tamao de la muestra). En general: Tamao de la muestra < 25 25<n<50 >50 Kolmogorov-Smirnov Kolmogorov-Smirnov Kolmogorov-Smirnov Contrastes Shapiro-Wilk Shapiro-Wilk 2 2 No utilizaremos el de Kolmogorov-Smirnov sin la correccin de Lilliefors por resultar muy conservador (en casi todas las ocasiones se acepta H0) Nuestra muestra aleatoria tiene 50 observaciones, por lo que podemos utilizar, en principio, los 3 contrastes. Contrastes de Kolmogorov-Smirnov y Shapiro-Wilk Cuando obtenamos las estadsticas descriptivas, ya vimos que nos aparecan, junto al histograma de la variable, los resultados de unos contrastes que en ese momento no interpretamos pero que ahora s que podemos. Si queremos obtener los contrastes de Normalidad, dentro de las estadsticas descriptivas accedemos a la pestaa de Normalidad y podemos seleccionar: Kolmogorov-Smirnov (con y sin correccin de Lilliefors) y el test de Shapiro-Wilk. El resultado de estos contrastes nos aparece, tanto cuando realizamos el histograma (as tambin podemos visualizar el parecido de nuestra distribucin con la Normal), como con las tablas de frecuencias de las variables continuas.

Ejercicio 1: Contrasta si los datos del colesterol antes del tratamiento provienen de una variable con distribucin Normal, para un nivel significacin del 5%.

Prcticas con STATISTICA

pgina 65

Como el p-valor es mayor que 005, aceptamos la hiptesis nula. Es decir: Para un nivel de significacin del 5%, podemos aceptar que los datos provienen de una poblacin cuyo nivel de colesterol antes del tratamiento sigue una distribucin Normal.

Cuando tenemos muestra grandes, el test de Shapiro-Wilk no se puede aplicar, aunque s el de Kolmorogov-Smirnov. En estos casos, podemos utilizar tambin el test de la 2. Contraste de la 2. Este contraste lo encontramos en Estadsticas / Ajuste de distribucin. Elegimos la distribucin Normal (que es la que queremos contrastar). Ejercicio 2: Contrasta, con un nivel de confianza del 90%, si los datos de la glucosa antes del tratamiento, provienen de una variable con distribucin Normal para esta poblacin. Si no decimos nada slo realiza el contraste de la ji-cuadrado, pero podemos pedirle que realice simultneamente el de Kolmogorov-Smirnov:

La opcin resumen nos da el siguiente resultado:

que podemos visualizar mejor con el diagrama de distribucin observada y esperada:

Prcticas con STATISTICA

pgina 66

Aunque la prueba de la Ji-cuadrado, nos da un p-valor grande: p=0,45237l, el de Kolmogorov-Smirnov (con correccin de Lilliefors) nos da un p-valor es p < 0,05 < 0,1 = , por lo tanto: NO aceptamos la hiptesis nula (la normalidad). Es decir que: NO podemos aceptar con un nivel de confianza del 90% que los datos provienen de una poblacin en la que la distribucin de la glucosa antes del tratamiento sigue una distribucin Normal.

Cuando no se cumplen las hiptesis de normalidad, no se pueden llevar a cabo los contrastes paramtricos con varianza desconocida. Es decir, que no podemos contrastar valores concretos de los parmetros de la poblacin (como la media o la varianza). En estos casos, slo podemos contrastar por dnde se encuentran situados los valores observados, es decir: contrastes de localizacin. Contrastes de localizacin: Dada una muestra aleatoria, queremos contrastar, para un determinado nivel de confianza, la hiptesis nula de que la mediana de la variable para la poblacin toma un valor concreto m. Es decir, que aproximadamente la mitad de los elementos de la poblacin estn por encima de ese valor y por lo tanto, la otra mitad estar por debajo del mismo. Para ello utilizaremos los contrastes de localizacin de Wilcoxon y de los Signos. Compararemos 2 variables relacionadas: una es la variable objeto de estudio y la otra es una variable que tenemos que crear con el valor de la mediana que queremos contrastar. NOTA: que las muestras estn relacionadas significa, por ejemplo, que en cada caso tenemos datos de un mismo individuo (colesterol antes y despus de un tratamiento).

Adems, en todas las ventanas de contrastes nos aparece la opcin: , con la que podemos establecer el nivel de significacin de nuestro contraste, de modo que los resultados nos aparecern de diferente color si se acepta o se rechaza la hiptesis nula (por defecto: negro si se acepta y rojo si se rechaza). Lo que nos facilita la interpretacin de los resultados. Ejercicio 3: Podemos aceptar, con un nivel de confianza del 90%, que la mitad de los pacientes tenan un nivel de glucosa antes del tratamiento superior a 120? 1) creamos una variable con valor 120 en todos los casos (glucosa-120)

Prcticas con STATISTICA

pgina 67

2) Realizamos los dos contrastes (Wilcoxon y Signos); hay que hacerlos por separado. Nota: es mejor el test de Wilcoxon porque tiene en cuenta la magnitud de las diferencias respecto a la mediana, y no solo el signo. Los resultados son los siguientes:

Como el p-valor es mayor que 01 en ambos tests, aceptamos la hiptesis nula. Es decir: Para un nivel de confianza del 90%, podemos aceptar que la mediana es 120 y por lo tanto, la mitad de los pacientes tenan un nivel de glucosa antes del tratamiento superior a 120 (y la otra mitad, inferior a 120).

Contraste no paramtrico para dos muestras relacionadas: Este test se aplica para comparar el comportamiento de dos variables relacionadas. Dadas dos muestras aleatorias queremos contrastar, para un determinado nivel de confianza, la hiptesis nula de que los datos de las dos muestras proceden de poblaciones con la misma mediana. Para ello utilizaremos los mismos contrastes que en el caso anterior (contrastes de Wilcoxon y Signos). Ejercicio 4: Contrasta, para un nivel significacin del 5%, si existen diferencias significativas en los niveles de colesterol antes y despus de un mes de tratamiento. Como no sabemos nada de las distribuciones de las muestras, haremos un contraste sobre la igualdad de las medianas, aunque, siempre que se pueda, es preferible hacer un test sobre la igualdad de medias (contraste paramtrico). Los resultados que obtenemos son:

Prcticas con STATISTICA

pgina 68

Como podemos comprobar, el p-valor es muy pequeo (casi cero), es decir que RECHAZAMOS la hiptesis nula de que las medianas son iguales para cualquier nivel de significacin. Es decir, que para un nivel de significacin del 5%, aceptamos que existen diferencias estadsticamente significativas entre ambas variables. O lo que es lo mismo: la diferencia del nivel de colesterol por efecto del tratamiento es estadsticamente significativo. CONTRASTES PARAMTRICOS: Los contrastes paramtricos tienen unas condiciones de validez muy estrictas y que en muchas ocasiones no se cumplen. En el caso de que se cumplan, estudiaremos cmo se realizan los contrastes para el valor de la media poblacional y para contrastar si dos muestras relacionadas provienen de poblaciones con la misma media. Contraste para la media con una muestra: Suponiendo que tenemos una muestra aleatoria de una variable que, en esta poblacin, sigue una distribucin Normal, queremos contrastar, para un determinado nivel de confianza, la hiptesis nula de que la media para toda la poblacin toma un valor concreto 0.

debemos indicar la variable o variables cuya media queremos contrastar y el valor de contraste. Cuando seleccionamos varias variables, podemos considerar un nico valor de contraste para todas ellas o bien especificar el valor de contraste para cada una de ellas: o bien:

y especificar los valores Tambin, en la pestaa de Opciones, tenemos la posibilidad de pedir el intervalo de confianza para la media con el nivel de confianza que indiquemos (si no decimos nada ser del 95%):

Prcticas con STATISTICA

pgina 69

NOTA: estadstico de contraste


S n

tn 1 (S es la cuasi-DT)

Ejercicio 5: Podemos aceptar, con un nivel de confianza del 95%, que el nivel medio de colesterol de los pacientes antes del tratamiento era de 230?. Obtn tambin el intervalo de confianza para media al 90%. Estamos suponiendo que los datos de la variable colesterol_antes constituyen una muestra aleatoria, y como hemos aceptado previamente que proviene de una distribucin Normal, podemos aplicar este test; y el resultado es:

Como el p-valor es 0086888>005, aceptamos la hiptesis nula , es decir, aceptamos que el nivel medio de colesterol antes del tratamiento era de 230 con un nivel de confianza del 95%. NOTA: estamos cerca del lmite (el p-valor est prximo al valor crtico) Por otra parte tambin hemos obtenido el intervalo de confianza al 90% para la media: (2302535 , 2423065) NOTA: para un nivel de confianza del 90% no aceptaramos la hiptesis nula

Contraste de la igualdad de medias de dos muestras relacionadas: Suponiendo que tenemos dos muestras aleatorias de poblaciones Normales, queremos contrastar, para un determinado nivel de confianza, la hiptesis nula de que las medias poblacionales son iguales

debemos indicar las parejas de variables cuyas medias queremos comparar. Comparar cada variable de la primera lista con todas y cada una de las variables de la segunda lista.

Prcticas con STATISTICA

pgina 70

Ejercicio 6: Podemos aceptar, con un nivel de confianza del 90% que existen diferencias significativas entre el nivel de colesterol antes del tratamiento y el nivel de colesterol despus del tratamiento?. Obtn tambin el grfico de cajas con bigotes que nos permite comparar las dos distribuciones. Nuestras muestras son muestras aleatorias, y ya vimos en el ejercicio 4 (mediante un anlisis no paramtrico) que podemos aceptar que existen diferencias estadsticamente significativas. Sin embargo, siempre que sea posible es mejor realizar un contraste paramtrico, as que vamos a ver si ste es posible y realizarlo: Como queremos realizar un contraste paramtrico, el primer paso es comprobar que las muestras aleatorias provienen de distribuciones Normales. * Normalidad:

En ambos contrates vemos que no hay duda (p-valor grande), por lo tanto, aceptamos que las muestras provienen de una poblacin en la que los niveles de colesterol antes y despus del tratamiento siguen una distribucin Normal. Por lo tanto, para responder a la pregunta lo que haremos ser contrastar si los niveles medio de colesterol antes y despus de un mes de tratamiento son iguales. Test de igualdad de medias (ahora ya sabemos que se cumplen las condiciones de validez)

Se RECHAZA la igualdad de medias para cualquier nivel de significacin. Esto significa que el tratamiento afecta al valor del colesterol. La diferencia media es positiva, lo que significa que el tratamiento baja significativamente el nivel de colesterol. Dicho de otro modo: la reduccin del nivel de colesterol por efecto del tratamiento es estadsticamente significativo.

Grficamente:

Prcticas con STATISTICA

pgina 71

Ejercicios: Con los datos del fichero, responde a las siguientes preguntas:
1) Podemos aceptar, con un nivel de confianza del 90%, que el nivel de glucosa despus del tratamiento sigue una distribucin Normal? Si/No ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 2) Para los hombres del fichero: Se puede aceptar, para un nivel de significacin del 5%, que el nivel medio de colesterol antes del tratamiento es igual al nivel medio de colesterol despus del tratamiento? Si/No ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 3) Para las mujeres del fichero: Se puede aceptar, para un nivel de significacin del 5%, que el nivel medio de colesterol antes del tratamiento es igual al nivel medio de colesterol despus del tratamiento? Si/No ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 4) Se puede aceptar, para un nivel de significacin del 5%, que el nivel de glucosa de los pacientes no vara al aplicarles el tratamiento? Si/No ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 5) Para qu niveles de significacin podemos aceptar que la mediana del colesterol despus del tratamiento es de 190? Niveles: ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 6) Para qu niveles de confianza aceptaramos que el nivel de glucosa antes del tratamiento sigue una distribucin Normal? Niveles ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 7) Para los hombres del fichero: Se puede aceptar, para un nivel de significacin del 5%, que los niveles de glucosa son similares antes y despus del tratamiento? Si/No ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................ 8) Para las mujeres del fichero: Se puede aceptar, para un nivel de significacin del 5%, que los niveles de glucosa son similares antes y despus del tratamiento? Si/No ........................ Por qu ........................................................... Pruebas realizadas: ........................................................................................

Вам также может понравиться