Вы находитесь на странице: 1из 24

ESTADSTICA INFERENCIAL

INTERVALOS DE CONFIANZA(ESTIMACIN) Y TEST


DE HIPTESIS
Introduccin .......................................................................................................... 2
Repasando!! .......................................................................................................... 2
Estimacin ............................................................................................................ 3
Distribucin de muestreo ...................................................................................... 3
Concepto de error estndar ................................................................................... 5
Nuestra muestra y la distribucin de muestreo......................................................... 6
Teorema del Lmite Central ................................................................................... 6
Del Teorema del Lmite Central a la inferencia con mi muestra! ................................. 7
Intervalo de confianza .......................................................................................... 8
Qu es lo que NO significa el intervalo de confianza!...............................................11
Ahora otro concepto importante: ..........................................................................11
Test de Hiptesis ...................................................................................................13
Pasos en el desarrollo de un Test de hiptesis .........................................................14
Cmo interpretamos el p-valor? ..........................................................................17
Tipos de error en el test de hiptesis .....................................................................18
Poder o potencia de una prueba estadstica ............................................................20
Interpretacin de la significacin estadstica ...........................................................20
Relacin entre el p valor y los intervalos de confianza ..............................................21
Dos colas o a una sola cola? ...............................................................................21
Respuestas a los ejercicios......................................................................................23

INTRODUCCIN
Los objetivos de esta unidad son:

Conocer la distribucin de probabilidad terica de muestreo.


Entender el Teorema del Lmite Central y su utilidad.
Interpretar qu es el error estndar y cmo se calcula a partir de los datos de una
muestra.
Conocer cmo utilizamos la curva de distribucin normal en la distribucin de muestreo.
Entender qu es el intervalo de confianza y cmo lo utilizamos para inferir cuan bien
representa nuestra muestra a la poblacin.

REPASANDO!!
Ac retomaremos algunas de los conceptos que vimos en la unidad de Azar. Eventualmente
les podra ser til releerla!!!
En nuestras investigaciones siempre trabajamos con muestras. Sin
embargo el propsito de nuestra investigacin no es saber qu pasa en la
muestra, si no extrapolar esos hallazgos a toda la poblacin de individuos
similares a la muestra.

Uno de los principales propsitos del anlisis estadstico es usar la informacin obtenida de
una muestra de individuos para realizar inferencias de lo que ocurre en la poblacin.
En otros casos, lo que se pretende es tomar decisiones, y aqu tambin la estadstica
inferencial nos lo permite, siempre con un margen controlado de error.

A pesar del enorme numero de problemas mdicos que se intentan


investigar y del gran nmero de soluciones estadsticas, hay dos formas
bsicas de realizar anlisis estadstico: La inferencia o estimacin y el
testeo de hiptesis o test de hiptesis.

Recordemos lo que resumimos en la unidad de azar:


Las investigaciones trabajan con muestras.

Resumen la experiencia con algunos individuos con la intencin de generalizar las


conclusiones.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

En la mayora de los casos no se conocen los parmetros reales de la poblacin.


Intentamos describir sus caractersticas utilizando la informacin de una muestra.

El conjunto de mtodos que nos permiten cuantificar la incertidumbre en cuanto a


las conclusiones acerca de la poblacin de la que se extrajo la muestra, forman la
inferencia estadstica, que tiene dos partes: Estimacin y el Test de hiptesis.

Recordemos el ejercicio que hicieron en la unidad de Azar. Tomaron diferentes muestras de


una poblacin y calcularon la media y el desvo estndar de cada una de las muestras. Fue el
resultado de cada una de las muestras igual a las otras? Fue el resultado de alguna de las
muestras igual a la media y DS de la poblacin? La respuesta seguramente es NO!!!.
Recordemos tambin de la clase de distribucin normal lo que es una distribucin de
probabilidades.
Una distribucin de probabilidades grafica las frecuencias relativas de cada uno de los
valores posibles de la variable.
Por lo tanto, se puede construir una distribucin de probabilidad de todas las medias
posibles de las muestras de una poblacin. Los estadsticos la conocen como distribucin de
muestreo de la media.
La distribucin de muestreo que obtendramos al tomar todas las muestras de un tamao
dado, constituye una distribucin terica de muestreo. En casi todos los casos, slo tomamos
una muestra de la poblacin, y calculamos estadsticas para esa muestra y de esas estadsticas
inferimos algo sobre los parmetros de toda la poblacin.

ESTIMACIN
Comenzaremos con los conceptos de estimacin e intervalos de confianza, para ello
repasaremos primero la distribucin de muestreo

Distribucin de muestreo
Recordemos tambin que una distribucin de probabilidad (y, por tanto, cualquier
distribucin de muestreo) poda ser descripta parcialmente por dos parmetros: su media y
desviacin estndar o desvo estndar o desvo tpico.
Veamos todo esto con un ejemplo:
Recuerdan el ejercicio de la unidad de azar, donde seleccionaron 10 muestras de n= 10 y
calcularon las medias? Bueno utilizaremos todas esas muestras para este ejemplo.
Obtuvimos en total 340 medias (es decir 340 muestras de tamao 10). Tomaremos esas
medias como si fueran valores y calcularemos la media de esas medias, y el desvo estndar de
las medias conocido como.... ERROR ESTANDARD

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

Observaciones

MEDIA

Total

16822.2000 49.4771

340

Mnimo

25%

Mediana 75%

Varianza

Desviacin tpica
o desvo
estndar

10.0436

3.1692

Mximo Moda

40.7000 47.4000 49.3000 51.5000 57.4000 51.5000


Podemos ver cmo es su distribucin: A continuacin estn los grficos de su distribucin
(Uno realizado con EpiInfo y el otro con otro programa que dibuja por arriba la curva de
probabilidad normal estndar sobre los datos, las curvas no son idnticas por que como pueden

10

Frequency
20

30

40

ver en el eje de las x los intervalos de edad que tomo cada programa son diferentes)

40

45

Qu distribucin tiene esta curva???

50
Media

55

60

S, correcto! Es una distribucin (bastante!!)

normal!!

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

Como dijimos, a esta curva de distribucin la definen dos parmetros que son:
la media y
el desvo estndar.
En este caso la media ser la media de medias (recordemos que cada una era una media
de una muestra de tamao 10!!!) y el DS es el DS de la media de medias: cmo lo llamaremos??
Correcto!! Lo llamaremos: Error estndar.
Los resultados de estos dos estadsticos son:

MEDIA

Desviacin tpica

49.4771

3.1692

Recuerdan cules eran los parmetros de la poblacin?:

Media

49.42

Desvo Estndar

10.10

Concepto de error estndar


En lugar de decir "el desviacin estndar de la distribucin de las medias de la muestra" para
describir la dispersin de una distribucin de medias muestrales, decimos error estndar de la media.

La realidad es que la desviacin estndar de la media de muestras es un valor hipottico,


ya que en la prctica nosotros tomamos una sola muestra, por eso le damos un nombre diferente:
Error estndar de la media. El trmino error estndar se utiliza porque da a entender un
significado especfico. La variabilidad en las estadsticas de muestras proviene de un error de
muestreo debido al azar. Es decir, hay diferencias entre cada muestra y la poblacin, y entre las
diversas muestras, debido nicamente a los elementos que decidimos escoger para las muestras.
El error estndar indica no slo el tamao del error de azar que se ha cometido, sino tambin la
probable precisin que obtendremos si utilizamos un estadstico de una muestra para estimar un
parmetro de poblacin.

Recuerden la formula del error estndar:


Donde: es el desvo estndar de los datos de mi muestra
n es el tamao de mi muestra
Esto quiere decir que cuanto mayor sea el tamao de la muestra ms chico ser el error
estndar (dividimos un por un nmero ms grande!!).

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

Nuestra muestra y la distribucin de muestreo


En la terminologa estadstica, la distribucin de muestreo que obtendramos al tomar todas
las muestras de un tamao dado constituye una distribucin terica de muestreo. En la
prctica cotidiana nunca seleccionamos muchas muestras de tamao dado de una poblacin, sin
embargo, al entender las propiedades de la distribucin terica de medias de muestreo, nos
permitir hacer inferencias basados en una SOLA muestra de tamao n.
Estas propiedades son conocidas como Teorema del Lmite Central!!!

Teorema del Lmite Central


La distribucin terica de medias de muestreo de tamao n tiene las siguientes tres
propiedades:

1- La media de medias es igual a la media de la poblacin (en nuestro ejemplo:


media de medias =49,47 y media de la poblacin 49,42).

2- La desviacin estndar de la media de medias es igual a DS/ n. Este valor es


conocido como el error estndar de la media (luego veremos los ejemplos).

3- Si la distribucin de la variable en estudio es normal, la distribucin de

muestreo ser normal, pero mas aun!!! aunque la distribucin de la variable


en estudio no sea normal, si la muestra es suficientemente grande la
distribucin de muestreo ser normal. En otras palabras: Al incrementarse el
tamao de la muestra, la distribucin de muestreo de la media se acercar a
la normalidad, sin importar la forma de la distribucin de la poblacin.

El teorema del lmite central es tal vez el ms importante de toda la inferencia estadstica.
Nos asegura que la distribucin de muestreo de la media se aproxima a la normal al
incrementarse el tamao de la muestra.
Una muestra no tiene que ser muy grande para que la distribucin de muestreo de la
media se acerque a la normal. Los estadsticos utilizan la distribucin normal como una
aproximacin a la distribucin de muestreo siempre que el tamao de la muestra sea al menos de
30, pero la distribucin de muestreo de la media puede ser casi normal con muestras incluso de la
mitad de ese tamao.

La importancia del teorema del lmite central es que nos permite usar
estadsticas de nuestra muestra para hacer inferencias con respecto a los
parmetros de poblacin sin saber nada sobre la forma de la distribucin
de frecuencias de esa poblacin ms que lo que podamos obtener de la
muestra.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

El teorema del lmite central nos permite utilizar las propiedades de la


distribucin normal. El hecho de que la distribucin de muestreo sea
aproximadamente normal es la base de una amplia variedad de pruebas
estadsticas diferentes.

Del Teorema del Lmite Central a la inferencia con mi muestra!


Como en un proceso de inferencia es un parmetro desconocido, al extraer una muestra
en particular y calcular la media, este es el mejor estimador que tenemos de ese parmetro. El
desvo estndar de la media de nuestra muestra es el mejor estimador que tenemos del desvo
estndar de la media de la poblacin.
Ahora utilizaremos todo lo que hemos aprendido:

1- de la curva de distribucin normal, y


2- de la distribucin terica de muestreo.
Entonces podemos, utilizando el desvo estndar de nuestra muestra, calcular el error
estndar.
Volvamos por un minuto a nuestro ejemplo.
En la tabla siguiente vern 100 de las medias y DS de las muestras de tamao 10 que
ustedes obtuvieron de la poblacin de 600 personas en el ejercicio de azar. Vamos a elegir para
este ejemplo slo una de esas muestras: Por qu no la nmero 5 (por no decir la 1!!!):
Muestra

Media

46.9

DS

Error
estndar

10.8058626 3.41711379

Calculemos el error estndar:

Utilizando la curva normal estndar, ya que sabemos que la


distribucin de muestreo es normal.
Podemos saber qu porcentaje de la poblacin es encuentra entre + 1DS, 2DS, etc.
Veamos las curvas.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

43,5

46,9 50,3

Entonces sabemos que entre 43,5 y 50,3 estarn el 68,26% de la poblacin, entre 40,6 y
53,7 estarn el 95,44 % de la poblacin.
PERO CUIDADO AC: DE QU POBLACIN ESTAMOS HABLANDO?

1- De la poblacin de 600 personas de donde sali la muestra?


2- De la poblacin de posibles medias de muestras de esa poblacin de 600
personas?

Respuesta 1:__________________________________
Este es un buen momento para introducir el concepto de intervalo de confianza!

Intervalo de confianza
Se llama as a un intervalo en el que sabemos que est un parmetro, con un nivel de
confianza especfico.
Pero qu es un NIVEL DE CONFIANZA especfico?
Es la probabilidad de que el parmetro a estimar se encuentre en el intervalo de
confianza. Los mas utilizados son el 95% o en 99%.
El concepto es que el intervalo de confianza cubre una amplia proporcin de la
distribucin de muestreo del estadstico que estamos investigando.

Volvamos a nuestro ejemplo.


Si yo quisiera tener en la curva de distribucin normal el 95% de la poblacin.
(Recordemos aqu que la poblacin de la que hablamos es la de posibles medias de tamao 10
del total de personas!)

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

Cuntos DS para arriba y cuantos para debajo de la media debo ir?


S: correcto!! 1,96 (es una regla de 3 simple!).
Si:
95,44% = 2
95 = x.
Entonces: x = 95 x 2/95,44=1,96
(La diferencia est por los decimales)

Por lo tanto, sabemos que 1,96 DS por arriba y por abajo esta el 95% de la poblacin.

Ahora recordemos que cuando hablamos de distribucin


de muestreo el DS de la media de medias lo llambamos error
estndar. Tambin recordemos que habamos dicho que no
sabiendo la media, ni el DS de la poblacin utilizamos como sus
mejores estimadores el DS de la muestra, y entonces calculamos
el error estndar utilizando el DS de nuestra muestra como
hicimos con la muestra 5.
Recuerdan?
Volvamos a ese ejemplo:

Muestra

Media

46.9

DS

Error
estndar

10.8058626 3.41711379

Queremos entonces saber entre qu valores estar el 95% de las medias si tomamos
muestras de tamao 10 de esa poblacin.
La formula nuevamente es muy sencilla y la pueden deducir ustedes!
Claro no hay ms que sumarle 1,96 DS para arriba y 1,96 DS para debajo de la media.
Entonces sera:
Limite inferior = X (1,96 x ES)
= 46,9 (1,96 x 3,42) = 40,20
Limite superior= X + (1,96 x ES)
= 46,9 + (1,96 x 3,42) = 53,6
Esto quiere decir que yo tengo un 95% de confianza que el valor real (parmetro) de la
media de edad de esta poblacin est entre 40,2 y 53,6 aos. O dicho de otro modo: si
seleccionamos 100 muestras (en este caso de tamao 10) al azar de la poblacin y usamos esas
muestra para calcular 100 diferentes intervalos de confianza para u (media de la poblacin:

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

parmetro) 95 de esos intervalos cubrirn el valor verdadero de la media de la poblacin (5 no lo


harn).
El intervalo de confianza tiene una probabilidad del 95 % de incluir u antes de tomar la
muestra.
Veamos si esto se cumple en nuestro ejercicio.
En el archivo: base de datos de medias de las muestras enviadas ejercicio azar (ver archivo subido al
campus debajo de la clase) encontrarn la tabla con las 10 muestras que eligi al azar cada uno de los alumnos
del curso.
Son capaces de descubrir cuntas muestras de las 100 no han incluido en sus IC del 95%
el valor de la media (parmetro) de la poblacin?
Respuesta 2:________________

30

40

Media
50

60

70

Podemos ver que cada una de estas muestras no contiene el 49,42 que es el valor de la
media de la poblacin, en su intervalo de confianza del 95%. Sin embargo, las otras 95
muestras s lo contienen!
Veamos esto en un grafico:

20

40

60

80

100

Muestra

Se animan a encontrar las muestras cuyos Intervalos de confianza no contienen el valor real de la
media de la poblacin??
Respuesta 3:___
Confirmamos lo que venamos diciendo!!

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

10

Qu es lo que NO significa el intervalo de confianza!

No significa que u sea una variable aleatoria que asume un valor dentro del intervalo
95 % de las veces.

No significa que el 95 % de los valores de la poblacin estn dentro de esos lmites.


Ahora otro concepto importante:
Como tiene un valor real, una vez que la muestra fue tomada y los
intervalos calculados est dentro del intervalo o no lo est (Nunca lo sabremos!). En
este caso, si justo nuestra muestra era la nmero 7 por ejemplo, (en lugar de la 5 que
utilizamos inicialmente), el valor real de la media de la poblacin no hubiera estado en
nuestro intervalo de confianza del 95% (y nosotros no lo sabramos). Pero lo que s
sabemos es que esto puede estar ocurriendo! Y que realmente ocurre en el 5% de los
casos!

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

11

Resumiendo lo aprendido sobre estimacin.

Hemos aprendido la distribucin de probabilidad terica de muestreo.


El Teorema Central del Lmite.
Qu es el error estndar y cmo se calcula a partir de los datos de una muestra.
Cmo utilizamos la curva de distribucin normal en la distribucin de muestreo.
Qu es el intervalo de confianza y cmo lo utilizamos para inferir cuan bien
representa nuestra muestra a la poblacin.

Prcticamente, qu es lo que sabemos?

Trabajamos con muestras: no conocemos los valores reales (parmetros de la


poblacin).
Nuestros mejores estimadores de la media y DS de la poblacin son la media y
DS de nuestra muestra.
Utilizamos el DS de nuestra muestra para calcular el error estndar (es decir,
como estimador del DS de la media de medias).
Utilizando el error estndar calculado a partir de nuestra muestra, calculamos el
intervalo de confianza del 95% de nuestra muestra.
Ese intervalo de confianza del 95% nos est diciendo que existe un 95% de
probabilidad, -y un 5% que NO-, que el valor real de la media de la poblacin se
encuentre entre esos valores!
Nunca sabremos si eso es verdad o no, a menos que conozcamos el parmetro
de la poblacin!

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

12

TEST DE HIPTESIS
Recordemos que habamos dicho que las dos grandes formas de realizar estadstica
inferencial eran:

la estimacin y
el test de hiptesis o testeo de hiptesis o contraste de hiptesis.

Ahora nos dedicaremos a este ltimo mtodo.


Con frecuencia, los problemas a los que se enfrenta el cientfico o el experimentador no se
refieren slo a la estimacin de un parmetro poblacional como se indic en lo que vimos hasta
ahora, sino, (y muchas veces es an ms frecuente) que se tenga que tomar una decisin basada
en los datos que conduzcan a una conclusin acerca de algn planteamiento cientfico. Es decir,
involucra la comparacin entre dos o ms grupos.
Por ejemplo: Es la droga A ms efectiva que la droga B para bajar la presin en los
hipertensos? Es la frecuencia de eventos coronarios mayor en los pacientes con artritis
reumatoidea que en la poblacin general? El valor numrico correspondiente a esa comparacin
que nos interesa es habitualmente conocido como el efecto, esto lo utilizaremos ms adelante.
Podemos entonces definir un contraste o test de hiptesis como una tcnica de
inferencia estadstica que permite comprobar si la informacin que proporciona una muestra
observada concuerda (o no) con la hiptesis formulada sobre el modelo de probabilidad en estudio
y, por tanto, se puede aceptar (o no) la hiptesis formulada.
Una hiptesis es una suposicin sobre la naturaleza de una poblacin. Las hiptesis
generalmente estn expresadas en trminos de parmetros poblacionales.

Podemos definir test de hiptesis como:

Operacin de decidir si los datos tomados de una muestra apoyan o no apoyan


una determinada hiptesis.
El resultado de testear una hiptesis es determinar si los datos apoyan o no
apoyan esa hiptesis.

La hiptesis que se va a testear o contrastar se conoce como hiptesis nula y se escribe


Ho. Esta es la hiptesis de no diferencia (nula), y suele ser la hiptesis contraria a lo que nosotros
nos estamos planteando como investigadores. El contrario de la hiptesis nula es la hiptesis
alternativa que se escribe: HA. Es generalmente la hiptesis que nosotros estamos, como
investigadores, persiguiendo, la hiptesis de nuestra investigacin!
Volviendo a los ejemplos anteriores:
La hiptesis nula seria que la droga A es igual de efectiva que la droga B (efecto=0), o que
hay igual frecuencia de eventos coronarios en la poblacin de pacientes con AR que en la
poblacin general (efecto=0), las hiptesis alternativas seran que la droga A es ms efectiva y
que hay ms eventos coronarios en los pacientes con AR que en la poblacin general
respectivamente.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

13

La pregunta del milln es: Por qu si nosotros queremos comprobar una hiptesis (como
dijimos generalmente la hiptesis de diferencia), lo que contrastamos o testeamos es la hiptesis
nula (hiptesis de no diferencia)?
Para testear o contrastar una hiptesis estadsticamente debemos conocer el valor del
efecto (lo mencionamos ms arriba). Cuando testeamos la hiptesis nula, cul es el valor del
efecto? S, correcto: es 0!
Sin embargo, si quisiramos testear la hiptesis alternativa, qu valor de efecto
pondramos? Tendramos que realizar un clculo estadstico para cada valor de efecto que
quisiramos contrastar, y esto sera muy poco prctico!!
Volveremos sobre esto, no desesperen!

Pasos en el desarrollo de un Test de hiptesis


Los pasos a seguir en el desarrollo de un Test de hiptesis son los siguientes:
1) Definir la hiptesis nula y la alternativa: Debo definir la hiptesis nula: Ho y la
hiptesis alternativa: HA. Ambas hiptesis deben ser excluyentes entre s.
Veamos algunos ejemplos:
Queremos realizar una investigacin para determinar si un determinado modelo de taller de
educacin (enpowerment) para enfermedades crnicas es superior a un modelo clsico de
educacin en la reduccin de la TA (Effect of Education on Blood Pressure Control in Elderly
Persons, A Randomized Controlled Trial. S Figar, C Galarza, E Petrlik, L Hornstein, G Rodrguez
Loria, Gl Waisman, M Rada, E R Soriano, and F Gonzlez Bernaldo de Quirs. AJH 2006; 19:737
743)

Hiptesis nula Ho: (TA taller A) (TA taller B) = 0


Hiptesis alternativa HA: (TA taller A) (TA taller B) 0.

Intenten ustedes desarrollar las hiptesis nulas y alternativas


de los siguientes ejemplos!

Ejemplo 1
Un fabricante de lmparas elctricas sostiene que la duracin media de las
mismas (horas) es en promedio de 1.300 h. Se toma una muestra de 17 lmparas
siendo el resultado de la media de 1100 h.
Cul es la hiptesis nula y cul la alternativa?
Respuesta 4:_____

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

14

Ejemplo 2
Un semillero publicita que el peso promedio de una espiga de una cierta variedad es de
180 gramos con un desvo estndar de 30 gramos. Un productor de avanzada sospecha que el
peso es distinto de 180 gramos, decide por lo tanto conducir un experimento. El propsito del
mismo es ver si el peso de 180 gramos es incorrecto. Por lo tanto
Cul es la hiptesis nula de inters?
Cul es la hiptesis alternativa?
Cul es la hiptesis nula y cul la alternativa?
Respuesta 5:_____

2) Clculo del estadstico. Luego de enunciar las hiptesis, sigue el clculo de un


nmero llamado estadstico del test. Este nmero refleja la diferencia entre los datos de la
muestra y la hiptesis nula. Este es el dato que compararemos con el valor esperado si la
hiptesis nula fuera verdadera. La forma general de este estadstico puede expresarse en relacin
al valor observado en la muestra de la variable de inters y el valor que esperaramos si la
hiptesis nula fuera verdadera.
Estadstico del test =

valor observado

valor esperado

Error estndar del valor observado

Obviamente, esta es una formula general que tiene variaciones en cada estadstico que
veamos, pero conceptualmente ayuda mucho a comprender qu es lo que hacemos cuando
hacemos los clculos para el test de hiptesis.

Veamos un ejemplo.
Supongamos que sabemos que el colesterol promedio de la poblacin entre 20 y 74
aos es de 211 mg %. Queremos saber si los pacientes hombres hipertensos tienen el mismo
colesterol. Seleccionamos una muestra al azar de 12 hombres de esta poblacin y les
medimos su colesterol. Encontramos que el valor promedio es de 217 mg % y DS: 46 mg %
Cul es la hiptesis nula? Cul la hiptesis alternativa?
Respuesta 6:_____

Cmo sera la frmula??


Respuesta 7:_____
3) Hallar el p-valor Lo que este estadstico nos dir es que probabilidad hay de haber
encontrado ese valor (o esa diferencia) o un valor an mas extremo si la hiptesis nula es
correcta. Cuanto mayor sea el estadstico, ms alejadas estn nuestros resultados de la hiptesis
nula.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

15

Los estadsticos tienen una distribucin de probabilidades conocida, segn vimos en la


parte anterior de esta unidad.
Recuerdan el ejercicio con nuestras muestras al azar? Volvamos por un minuto a ellas.
Qu probabilidad tenemos de sacar de esa poblacin, una muestra de tamao 10 cuya
media sea de 56,4 y su DS: 9,13?
Veamos:

Si buscan en la tabla de probabilidades de la clase de curva normal: Cul es el valor que


encuentran?
Respuesta 8:_____
A la derecha de ese valor solo queda 1 0,9980 = 0,002 = 0,2 % de probabilidad de
obtener ese valor o un valor mayor por azar tomando muestras de tamao 10 de esa poblacin!!!.
(sin embargo alguno de Uds. lo obtuvo!!!).

Adivinen qu?
Esta probabilidad es el famoso valor de p!!!
0

p-valor!!

4) Decidir el nivel de significancia: se establece el nivel de significacin que es la


probabilidad de que rechacemos la hiptesis nula, siendo en realidad cierta. Utilizaremos la letra
para denominarlo. Este nivel de significacin es la cantidad de error que nos podemos permitir,
y su eleccin depende en cada caso de la persona que realiza el test. Los ms usuales son 5% y a
veces 1 %.
Ya hemos establecido nuestra hiptesis. Tenemos que decidir con qu valor de p
rechazaremos la hiptesis nula y con qu valor la aceptaremos. Luego realizaremos los clculos
para obtener el valor de p, que nos est indicando qu probabilidad hay de haber obtenido ese
valor (o uno ms extremo), por azar del muestreo.
Esto lo pusimos como ltimo punto para que se entienda, pero se debe establecer antes de
realizar los clculos, no despus!
En realidad, si esto lo llevamos a la curva de distribucin normal, lo que estamos
estableciendo es qu rea de la curva aceptaremos como compatible con la hiptesis nula y en
qu reas (si el valor cae ah), rechazaremos la hiptesis nula.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

16

Veamos el grfico:

Este nivel de significancia es la probabilidad de rechazar la hiptesis nula


cuando la hiptesis nula es verdadera. Este valor es independiente del valor de p
obtenido y lo fija el investigador, as como el valor de corte de la glucemia para
determinar hiperglucemia es independiente del valor de la glucemia.

Podemos obtener un valor de p=0,0025; p= 0,015; p=0,0000001, etc, y en todos los


casos el valor de estar fijado por ejemplo en 0,05.
Es lo que nos ocurri con nuestras 5 muestras del ejercicio anterior, recuerdan? Si
hubiramos hecho un test de hiptesis y establecido la significancia o en el 5%, hubiramos
concluido que esas muestras no pertenecan a la poblacin de 600 personas de donde, en
realidad, salieron y nos hubiramos equivocado!

Cmo interpretamos el p-valor?


El p valor es la probabilidad de obtener datos iguales o ms extremos a los nuestros si la
hiptesis nula es verdadera.
El p valor es la probabilidad de obtener datos iguales o ms extremos a los
nuestros si la hiptesis nula es verdadera.

Qu pasa si el p valor es bajo?


El p-valor hallado en la muestra 12 fue de: 0,002 (2 por mil).
Esto indica que la probabilidad de encontrar valores como los de nuestra muestra, si la
hiptesis nula es cierta, es baja.
Si es verdad que las personas de la poblacin tienen un valor promedio de edad de 49,42
aos, de cada 1000 muestras que hubiera podido elegir, 2 hubieran arrojado mis resultados o
mayores. Es decir, es muy poco probable que mis pacientes tengan la misma edad que la
poblacin general (H0) a la luz de los hallazgos de mi muestra.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

17

Esto dicho de otra manera sera: la probabilidad de que mis pacientes tengan la misma
edad que la poblacin general a la luz de lo que encontr en mi muestra, es muy baja.
Si digo que mis pacientes son ms viejos que la poblacin general, tengo muy poca
probabilidad de equivocarme. Puedo equivocarme, pero la probabilidad de error es de 2 por 1000.
Qu pasa si el p valor es alto?
Supongamos que en nuestro ejemplo obtengamos un p valor de 0,5 (50%).
La probabilidad de encontrar valores como los de nuestra muestra, si la hiptesis nula es
cierta, es alta. La hiptesis nula es bastante probable a la luz de los hallazgos de mi muestra.
Esto dicho de otra manera sera: la probabilidad de que mis pacientes tengan la misma
edad a la luz de lo que med en la muestra es alta. Si digo que mis pacientes son ms viejos,
tengo mucha probabilidad de equivocarme.

Tipos de error en el test de hiptesis


Cuando nosotros realizamos un test de hiptesis hay dos tipos de errores que podemos
cometer:

1 Error de tipo I: que es rechazar la hiptesis nula cuando la hiptesis nula es verdadera:

la probabilidad de cometer este tipo de error es justamente . Por eso, a este error se lo
denomina muchas veces error . y

2- rror de tipo II: conocido como error de aceptacin o error : aceptar la hiptesis nula
cuando la hiptesis nula es falsa. es la probabilidad de cometer un error de tipo II.

Veamos esto con un ejemplo ms grfico!!!. Supongamos que nosotros somos miembros
de un jurado, donde se presenta un acusado por asesinato. Hay una sola verdad: el sujeto es
culpable o es inocente: cometi o no cometi el asesinato.
El jurado llega a un veredicto: y pueden ocurrir cuatro cosas que se grafican en el siguiente
cuadro:

1- El acusado era inocente y el jurado lo declaro inocente: OK esta todo bien: buen
trabajo: el tipo sale libre y no hay problema.

2- El acusado era culpable (el muy desgraciado la mat!!), y el jurado (muy astutos
ellos!!), lo declaran culpable: cadena perpetua: y todo OK (merecido se lo tena!!).

Pero el jurado puede cometer dos tipos de errores:

3- Que declare al acusado culpable y el pobre tipo era inocente!!!: Error de tipo I,
4- Que el jurado declare al acusado inocente y el muy desgraciado era culpable: Error de
tipo II

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

18

Veredicto del

Acusado

Jurado

Inocente

Culpable

Inocente

O.K

Error tipo II

Culpable

Error tipo I

O.K

Volviendo a la estadstica, ocurre lo mismo:

Si el valor de p nos da que la probabilidad de haber encontrado ese valor por azar es
muy baja (ms baja que el valor de corte . que nos habamos impuesto):
rechazaremos la hiptesis nula: diremos que la diferencia es estadsticamente
significativa: si nos equivocamos estaremos cometiendo un error de tipo I.
Si el valor de p nos da alto: diremos que la probabilidad de haber encontrado ese valor
por azar es alta. Por lo tanto, aceptaremos la hiptesis nula: diremos que las
diferencias encontradas no eran estadsticamente significativas: si nos equivocamos (y
SI haba diferencias): estaremos cometiendo un error de tipo II.

Verdad de la naturaleza
Resultado del
test

Hiptesis nula
verdadera

Acepta Ho

O.K

Hiptesis nula
falsa (hiptesis
alternativa
verdadera)
Error tipo II

Rechaza Ho

Error tipo I

O.K

El error de tipo I slo puede cometerse cuando se rechaza la hiptesis nula,


es decir, cuando se concluye que las diferencias son estadsticamente significativas.
Es obvio que si aceptamos Ho no podemos cometer el error de rechazarla.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

19

El error de tipo II slo puede cometerse cuando se acepta Ho, es decir, cuando
se concluye que las diferencias son estadsticamente no significativas. Es obvio que si
rechazamos Ho el error de aceptarla no se puede cometer.

Poder o potencia de una prueba estadstica


El poder es igual a 1- y es la probabilidad de rechazar la hiptesis nula (Ho) cuando la
hiptesis nula es falsa. En otras palabras es la probabilidad de evitar un error de tipo b.
Dicho de una forma que se entienda: es la probabilidad de que un determinado estudio con
un valor de a y un n determinado sea capaz de encontrar una diferencia estadsticamente
significativa, SI la diferencia realmente existe.
Hay dos formas de aumentar el poder de un estudio:
1) Aumentar el tamao de la muestra.
2) Aumentar el valor de significancia de . Al aumentar a dejamos fuera de la curva de
distribucin una porcin ms grande, por lo tanto b se vuelve ms pequea, y 1- ms grande,
por lo que el poder aumenta. Sin embargo, al hacer ms grande aumentamos las probabilidades
de cometer un error de tipo I.
El balance entre los dos tipos de errores vara segn el estudio, la moda, los tiempos.
Benjamn Franklin deca:
Es preferible que 100 personas culpables queden sueltas a que una
persona inocente sufra en prisin!

Qu tipo de error estaba favoreciendo?


Qu valor estara probablemente ponindole a ?
Respuesta 9:_____

Resumiendo:

= P rechazarH 0 H 0verdadera
= P norechazarH 0 H 0 falsa
Poder = P rechazarH 0 H 0 falsa

Interpretacin de la significacin estadstica


Significacin estadstica y verdad:
Es imprescindible tener siempre en cuenta el principio de incertidumbre: probabilidad
implica incertidumbre. Por ms pequeo que sea el valor de p: nunca podemos estar seguros de
contar con la verdad. La estadstica es solamente un instrumento de anlisis de los datos aplicada
a un trabajo de investigacin. Haber obtenido p< 0,000001 solamente nos indica que la

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

20

probabilidad de que Ho sea cierta es mnima, pero jams ser nula! Cul es la probabilidad de
sacarse la lotera? Sin embargo, muchas veces alguien la saca!!

Significacin estadstica y relevancia clnica:


Estadsticamente significativo no es sinnimo de clnicamente importante. Se
pueden encontrar cuatro situaciones:

Resultado estadsticamente
significativo y clnicamente
relevante.

Esta es la situacin ideal!

Resultado estadsticamente
no significativo pero
clnicamente relevante.

En este caso probablemente el poder ha sido


insuficiente: es necesario repetir el estudio con una
muestra mayor, ya que si bien los resultados
obtenidos parecen importantes desde el punto de
vista clnico, no puedo descartar que hayan
ocurrido por azar de muestreo.

Resultado estadsticamente
significativo pero sin
relevancia clnica.

Esto generalmente ocurre con los megatrials,


donde pequeas diferencias a las que en la clnica
no les daramos ninguna importancia resultan
estadsticamente significativas. Se debe dar
prioridad a la valoracin clnica.

Resultado estadsticamente
no significativo y sin
relevancia clnica.

Habr que revisar el poder del estudio para decidir


si vale la pena repetirlo.

Relacin entre el p valor y los intervalos de confianza


Como vimos en la primera parte de esta clase, el intervalo de confianza del 95 % es que
tengo una probabilidad del 95% que el valor real (parmetro) de la poblacin esta entre los
valores obtenidos. Cuando yo elijo un valor de a del 0,05 (5%), si encuentro un valor que est por
fuera del Intervalo de confianza obtenido, estoy seguro que tiene una probabilidad de pertenecer
a la poblacin < al 0,05, y por lo tanto, la p ser significativa para ese valor de corte.

Dos colas o a una sola cola?


Si bien esto no lo dijimos expresamente, el valor de p es la probabilidad de obtener un
resultado igual a ms extremo al obtenido si la hiptesis nula es verdadera. Los resultados
extremos pueden ocurrir por azar en una u otra direccin.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

21

Volvamos a nuestro ejemplo de muestras al azar y vemos que las muestras 7, 21 y 92


estn a la izquierda del parmetro de la poblacin (49,42), y que las muestras 12 y 82 estn a la
derecha del parmetro de la poblacin.
Como no sabemos de qu lado puede ser la diferencia, es que en general calculamos
valores de p a dos colas, considerando como significativo tanto si queda por arriba como por
debajo del valor de a determinado.
En algunas raras ocasiones, puede calcularse el valor de p a una sola cola. Esto debe
decidirse antes del anlisis, no debe depender de nuestros resultados!
Muestra

Media

DS

Error estndar

Mnimo IC 95% Mximo IC 95%

41.8

8.47

2.68

36.55

47.05

12

56.4

9.13

2.89

50.74

62.06

21

44.2

7.04

2.23

39.84

48.56

82

56.4

9.13

2.89

50.74

62.06

92

42.4

8.44

2.67

37.17

47.63

Resumiendo lo aprendido sobre test de hiptesis:


En todos los trabajos leemos que el resultado fue positivo o que el efecto es real porque el
valor de p es menor a 0,05 y por lo tanto es estadsticamente significativo. Sabemos ahora que
es lo que esto quiere decir. No es nada ms ni nada menos que concluir que la probabilidad de
que esa diferencia haya sido por azar de muestreo es muy baja, y por lo tanto rechazamos la
hiptesis nula de no diferencia y concluimos que hay un efecto.
Se puede cometer errores tanto al aceptar la hiptesis nula como al rechazarla. El gran
problema es que nunca sabremos la verdad!!!

La estadstica es una ciencia que demuestra que


si mi vecino tiene dos coches y yo ninguno, los
dos tenemos uno
George Bernard Shaw (1856-1950)
Escritor irlands.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

22

RESPUESTAS A LOS EJERCICIOS


Respuesta 1:
S, efectivamente!!
Lo que estamos diciendo es que entre 40,6 y 53,7 van a estar el 95,44% de las medias
de todas las muestras de tamao 10 que podamos sacar de esa poblacin!!
Respuesta 2:________________
S! Las muestras:
Muestra Media

DS

Error
estndar

Mnimo IC
95%

Mximo IC
95%

41.8

8.47

2.68

36.55

47.05

12

56.4

9.13

2.89

50.74

62.06

21

44.2

7.04

2.23

39.84

48.56

82

56.4

9.13

2.89

50.74

62.06

92

42.4

8.44

2.67

37.17

47.63

30

40

Media
50

60

70

Respuesta 3:

20

40

60

80

100

Muestra

Respuesta 4: Ho: media de la muestra media del fabricante= 0


HA: media de la muestra media del fabricante 0

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

23

Respuesta 5: Ho: peso de la muestra 180 g = 0


HA: peso de la muestra 180 g 0
B

Respuesta 6: Hiptesis nula: Ho= media de la poblacin = media de hombres


hipertensos= 211 mg %, o puesto de otro modo: 217 211 = 0.
La hiptesis alternativa: HA: media de la poblacin media hombres hipertensos; o
220 211 0.
B

Respuesta 7:

Respuesta 8: S, correcto: 0,9980.


Respuesta 9: Si, correcto: favorece cometer un error de tipo II: declarar inocente a un
culpable, es decir, aceptar la hiptesis nula cuando la hiptesis nula es falsa. Probablemente
elegira un valor muy alto de (tal vez 0,001), de forma tal que slo rechazara la hiptesis nula
(declarara a alguien culpable), cuando la probabilidad de que ese valor no pertenezca a la
poblacin sea muy baja.

MDULO: ESTADSTICA INFERENCIAL UNIDAD TEMTICA: INTERVALOS DE CONFIANZA (ESTIMACIN) Y TEST DE HIPTESIS

24

Вам также может понравиться