Вы находитесь на странице: 1из 44

6.

Inferencia estadstica: Pruebas de


significancia
Objetivo: Usar mtodos estadsticos para
verificar hiptesis tales como
Salud mental tiende a ser mejor para
niveles ms altos de status
socioeconmico (SES) (un efecto)
Para tratar anorexia, terapias de
comportamiento cognitivo y familiar
tienen el mismo efecto (no efecto)
1

INTEGRA

METODO DE
MUESTREO

GENERA

DATOS

INTEGRAN

METODOLOGIA

ESTUDIA

SELECCION

DE

MUESTRA
REPRESEMTATIVA

OFICINA DE
ADMINISTRACION

INFORMACION
SISTEMA DE
VALORES
PARA

INFERENCIA

REGLAS &
PROCEDIMIENTOS

Hiptesis: Predicciones sobre la poblacin


expresadas en trminos de parmetros para
ciertas variables.
Una prueba de significancia usa datos para
resumir evidencia sobre una hiptesis
comparando estimaciones muestrales de
parmetros con valores predichos por las
hiptesis.
Respondemos a preguntas como, Si la hiptesis
fuera verdad, sera improbable obtener
estimaciones como las que obtuvimos?
3

Cinco partes de una prueba de significancia


1. Supuestos

sobre los tipos de datos (cuantitativos,


categricos),
mtodos de muestreo (aleatorio),
distribucin de la poblacin (binaria, normal),
tamao de muestra (grande?)

2. Hiptesis
Hiptesis nula (H0): Afirmacin que parmetro(s)
toma(n) valor(es) determinado(s) (Generalmente:
no efecto)
Hiptesis alternativa (Ha): establece que valores del
parmetro caen en algn rango alternativo de
valores (un efecto)

p.1 ejemplos?

3. Prueba estadstica: Compara datos con lo


que la hip. Nula H0 predice, a menudo
encontrando el nmero de errores estndar
entre la estimacin muestral y el valor del
parmetro en H0
4. Valor-p (P): Una medida de probabilidad de
evidencia sobre H0, dando la probabilidad
(bajo el supuesto de que H0 es verdadera) que
la estadstica de prueba sea igual al valor
observado o uno incluso un valor ms extremo
en la direccin predicha por Ha.

Entre ms pequeo el valor-p, ms fuerte la


evidencia contra H0.

5. Conclusin:

Si no se necesita una decisin, reportar e

5. Conclusin (continuacin)
El nivel mnimo ms comnmente aceptado es
0.05, y se dice que la prueba es significativa a
un nivel de 0.05 si el valor-p 0.05.
Si el valor-p no es lo suficientemente pequeo,
no rechazamos H0 (entonces, H0 es no
necesariamente verdardera, pero s plausible)
Proceso es anlago al sistema judicial
Americano
H0: Acusado es inocente
Ha: Acusado es culpable

Prueba de significancia para la media


1. Supuestos: Aleatorizacin, variable
cuantitativa, distribucin de la poblacin
normal
2. Hiptesis nula: H0: = 0 donde 0 es un
valor determinado para la media poblacional
(tpicamente no efecto o sin cambios del
estndar)
Hiptesis alternativa: Ha: 0
(alternativa de dos-lados incluye ambos > y
< valores de la nula)
y prueba:
0
3. Estadsticat de
de
where seEl nmero
s/ n
errores estndarse que la media muestral cae
7
del valor de H0

Cuando H0 es verdadera, la dist. muestral de la


estadstica de prueba-t tiene una distribucin t
con df = n - 1.
4. Valor-p: Bajo el supuesto que H0 es verdadera, la
probabilidad que la prueba estadstica sea igual al
valor observado o incluso un valor ms extremo
(es decir, ms grande en valor absoluto), provee
ms fuerza en la evidencia contra H0
Esta es una probabilidad de dos-colas, para una
Ha de dos-lados

5. Conclusin: Reportar e interpretar valor-p. Si es


necesario, tomar una decisin sobre H0.
8

Ejemplo: Estudio de anorexia (anteriormente visto)

Peso medido antes y despus del periodo de


tratamiento
y = peso al final peso al inicio
En captulos anteriores, encontramos IC para
la media poblacional de y con base en n=17
nias recibiendo terapia familiar, con los
datos

y = 11.4, 11.0, 5.5, 9.4, 13.6, -2.9, -0.1, 7.4,


21.5, -5.3,
-3.8, 13.4, 13.1, 9.0, 3.9, 5.7, 10.7
9

Hay evidencia de que la terapia familiar tenga un efecto?

Sea = media del cambio en peso


poblacional
Probar H0: = 0 (no efecto) contra Ha: 0.
Datos tienen
-------------------------------------------------------------------------------------Variable
N
Mean
Std.Dev.
Std.
Error Mean
weight_change 17
7.265
7.157
1.736
---------------------------------------------------------------------------se s / n 7.157 / 17 1.736
-----------10

Prueba estadstica (df = 16):


y 0 7.265 0
t

4.2
se
1.736
Valor-p: P = 2P(t > 4.2) = 0.0007
Nota que tabla t (Tabla B, p. 593) nos dice que P(t
> 3.686) = 0.001, entonces la prueba
estadstica t = 3.686 ( -3.686) tendra valor-p =
0.002
Interpretacin: Si H0 fuera verdadera, habra una
probabilidad = 0.0007 de obtener una media
muestral de al menos 4.2 errores estndar del
valor 0 de la nula.
Conclusin: Evidencia muy fuerte que la media
poblacin difere de 0. (Especficamente, parece
que > 0, como fue sugerido por el IC del 95% CI
11
(3.6, 10.9) que econtramos en las notas del Cap. 5)

Resultados de SPSS
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
weight_change
17 7.265
7.1574
1.7359

One-Sample Test
Test Value = 0
t

df

Sig. (2-tailed) Mean

95%

Confidence
diff. Interval of
the Difference
weight_change 4.185 16
10.945

LowerUpper
.001
7.2647

3.58
12

Equivalencia entre los resultados de


la prueba de significancia y el intervalo de
confianza
Cuando el valor-p 0.05 en una prueba de
dos-lados, un intervalo de confianza del 95%
para no contiene el valor de H0 de (tal
como 0)
Cuando valor-p > 0.05 en una prueba de doslados, un intervalo de confianza del 95%
necesariamente contiene el valor de H0 de
(Esto es cierto para pruebas de dos-lados)
Un intervalo de confianza tiene ms
informacin acerca del valore real de
13

Ejemplo
Asume media muestral = 7.265, s = 7.16,
basado en n = 4 (en lugar de n = 17)
Entonces, se s / n 7.16 / 4 3.58
and t (7.265 0) / 3.58 2.0
con df = 3, tiene valor-p dos-lados = 0.14.
Evidencia no muy fuerte contral la hiptesis
nula.
Es plausible que = 0.
Margen de error = 3.182(3.58) = 11.4, y un
intervalo de confianza del 95% es (-4.1,
18.7), el que contiene 0 (de acuerdo con los
14
resultados de la prueba)

Prueba de un-lado para la media


Ejemplo: Si el estudio predice que la terapia
familiar tiene un efecto positivo, podemos usar Ha:
>0
Datos apoyan esta hiptesis si t est lejos de la cola
derecha, entonces valor-p = probabilidad coladerecha.
valor-p: P = P(t > 2.0) = 0.07 (para el caso n = 4)
Para Ha: < 0, valor-p = probabilidad cola-izquiera
valor-p: P = P(t < 2.0) = 0.93
En la prctica, pruebas de dos-colas son ms
comunes
15

Tomando una decisin


El nivel- es un nmero fijo, tambin
llamado nivel de significancia, como
Si valor-p , se rechaza H0
Si valor-p > , no se rechaza H0
Nota: Decimos No se rechaza H0 en
lugar de Aceptar H0 porque el valor de
H0 uno de todos los valores plausibles.
Ejemplo (n = 4, dos-colas): Asume =
0.05. Ya que el valor-p = 0.14, no se
rechaza H0 . Pero 0 es slo un valor en el
rangos de valores posibles en el intervalo de16

Efecto del tamao de muestra en las pruebas


Con n grande (digamos, n > 30), no es importante el
supuesto de distribucin normal de la poblacin por el
Teorema Central del Lmite.
Para n pequea, las pruebas-t de dos-lados son robustas
contra violaciones de este supuesto. Pruebas de un-lado no
son robustas.
Para una media y desviacin estndar muestrales
observados, a mayor tamao de muesta n, ms grande la
prueba estadstica (porque el error estndar en el
denominador es ms pequeo) y ms pequeo el valor-p.
(es decir, con ms datos tenemos ms evidencia)
Estamos ms propensos a rechazar una H0 falsa cuando
tenemos un tamao de muestra ms grande (entonces a
prueba tiene ms poder)
Con un tamao de muestra grande n, significancia
estadtica no es igual a significancia prctica.

17

Ejemplo
Asume el estudio de anorexia tiene un
cambio de peso con
y 1.0, s 2.0, for n 400
Prueba

Then se 2.0 / 400 0.1,


t (1.0 0) / 0.1 10.0,
P value = 0.000000.......

IC del 95% es 1.0 1.96(0.1), (0.8, 1.2).

Esto muestra que el efecto es positivo, pero


que es muy pequeo para trminos
18
prcticos.

Prueba de significancia para una proporcin


Supuestos:
Variable categrica
Aleatorizacin
Muesta grande (pero dos-lados ok para
casi toda n)
Hiptesis:
Hiptesis nula: H0: 0
Hiptesis alternativa : Ha: 0 (doslados)
Ha: 0 (un-lado)
Ha: 0
Establecer las hiptesis antes de obtener

19

Prueba estadstica:

Nota

0
0

0 (1 0 ) / n

se0 0 (1 0 ) / n , not se (1 ) / n as in a CI

Como en la prueba para la media, la prueba


estadstica tiene la forma
(estimacin del parmetro valor H0)/(error
estndar)
= nm. de errores estndar del estimador del
valor de H0
Valor-p:
Ha: 0 valor-p = prob. 2-colas de la dist. normal
estndar
Ha: 0 valor-p = prob. cola-derecha de la dist.
normal est.
20
Ha: 0 valor-p = prob. cola-izquierda de la dist.

Ejemplo: Pueden los perros oler cncer?


(British Medical Journal, Sept. 25, 2004)

En cada ensayo, una muestra de orina del cncer


de vejiga colocada entre seis muestras de control
de la orina
Los perros hacen una seleccin correcta, mejor
que si adivinaran al azar?
En 54 ensayos, los perros hace una seleccin
correcta 22 veces.
Sea = probabilidad de acierto, para un
determinado ensayo
H0: = 1/7 (= 0.143, no efecto),
Ha: > 1/7
Proporcin muestral = 22/54 = 0.407
21

Error estndar
se0 0 (1 0 ) / n (1/ 7)(6 / 7) / 54 0.0476
Prueba estadstica
z = (muesta nula)/se0 = [0.407 (1/7)]/0.0476
= 5.6
Valor-p = prob. cola derecha de la normal
estndar
= 0.00000001
Esta es evidencia extremadamente fuerte que la
seleccin de los perros es mejor que adivinar
aleatoriamente (para la poblacin conceptual
que representa esta muestra
Para un punto de corte estndar de 0.05,
rechazamos H0 y concluimos que > 1/7.
22

Advertencia: como en la mayora de los


estudios mdicos, los sujetos fueron una
muestra de conveniencia. No es realista buscar
una muestra aleatoria de pacientes de cncer
de vejiga o de perros para el experimento.
A pesar de que las muestras no son aleatorias,
es importante emplear la aleatorizacin en el
experimento, en la colocacin de la muestra de
orina de pacientes de cncer de vejiga entre las
6 muestras de control.

23

Decisiones en pruebas
Nivel- (nivel de significancia): Pre-especificado
punto de corte para rechazar H0 si el valor-p es
menor a este valor (tpicamente 0.05 0.01)
P-Value
.05
> .05

H0 Conclusion
Reject
Do not Reject

Ha Conclusion
Accept
Do not Accept

Regin de rechazo: Valores de la estadstica de


prueba para los que rechazamos la hiptesis
nula
Para pruebas de dos-lados con = 0.05,
rechazamos H0 si |z| 1.96
24

Tipos de errores
Error Tipo I: Rechazar H0 cuando es
verdadera
Error Tipo II: No rechazar H0 cuando es falsa

25

P(Error Tipo I)
Asume nivel- = 0.05. P(Error Tipo I) =
P(rechazar nula, dado que es verdadera) = P(|z|
> 1.96) = 0.05
Es decir, nivel- es la P(Error Tipo I).
Dado que le damos es beneficio de la duda a
la nula al hacer esta prueba, por lo general se
escoge pequea, usualmente 0.05, se
considera 0.01 es muy cauteloso para no
rechazar la nula cuando sea cierta.
Como en los ICs, no usamos demasiado
pequea, ya que a medida que disminuye,
= P(Type II error) aumenta (Piensa en la
analoga a un juicio)
Es mejor reportar el valor-p que simplemente
26
decir que rechazamos H

P(Error Tipo II)


P(Error tipo II) = depende del verdadero valor
del parmetro (del rango de valores en Ha ).
Entre ms lejos el valor verdadero del parmetro
del valor de la nula, ms fcil es rechazar la
nula, y P(Error tipo II) disminuye. (ver grfica de
dist. nula y alternativa)

Poder de la prueba= 1 - = P(rechazar nula,


dado que es falsa)
En la prctica, queremos una n lo
suficientemente grande tal que P(Error tipo II) es
pequea para el tamao del efecto que
esperamos.
27

Ejemplo: Probando nuevo tratamiento para anorexia

Para un nuevo tratamiento , esperamos el cambio en


peso = alrededor a 10 libras, con desv. est. de
alrededor a 10. Si nuestro estudio tendr n = 20,
cul es P(Error tipo II) si planeamos probar H0: = 0
contra Ha: > 0, usando = 0.05?
No rechazamos H0: = 0 si obtenemos valor-p >
0.05
Obtenemos valor-p = 0.05 si la prueba estadstica t
= 1.729
(es decir, con df = 19, 0.05 es la prob. de la coladerecha arriba de 1.729, entonces la regin de
rechazo incluye valores de t > 1.729)
Con n = 20, esperamos un error estndar de

se 10 / 20 2.24

28

Obtenemos t = 1.729 si la media muestral


es
1.729(2.24) = 3.87. Es decir, t = (3.87
0)/2.24 = 1.729.
As, obtenemos t < 1.729 y valor-p > 0.05 (y
cometemos un error Tipo II) si la media
muestral < 3.87.
Pero, si en realidad = 10, una media
muestral de 3.87 est (3.87 10)/2.24 =
-2.74 errores estndar de
(es decir, 2.74 errores estndar abajo
de = 10)
Cuando df = 19, la probabilidad de caer al
menos 2.74 errores estndar abajo de la
29
media es de 0.007. As, existen muy poca

Limitaciones de pruebas de significancia


Significancia estadstica no implica
significancia prctica (Recuerda ejemplo en p.
17 de estas notas)

Pruebas de significancia no nos dan


informacin sobre el tamao del efecto
(como lo hace el IC)
Algunas pruebas puede resultar ser
estadsticamente significativas slo por
casualidad
(y algunas revistas slo reporta resultados
significativos!)
30

Ejemplo: Son muchos de los descubrimientos mdicos, en realidad


errores Tipo I?

Realidad: La mayora de estudios mdicos son


no-significativos, no se encuentra un efecto.
En investigacin mdica, cuando un efecto existe
pero no es fuerte, puede no ser detectado con los
tamaos de muestra prcticos para el estudio.
(Un artculo de British Medical Journal en 2001
estimat que cuando un efecto realmente existe,
P(Error tipo I) = 0.50!)
En estudios mdicos, asume que un efecto
realmente existe 8% de las veces. Podra un
porcentaje substancial de descubrimientos
mdicos (es decir, resultados significativos) en
realidad ser errores tipo I?
31

Solucin simple
Dibuja un diagrama de rbol para morstrar que esperararamos
que pasara con muchos estudios (digamos, 1000)
Verdadero
efecto?

Decisin
Rechazar nula?
S (40)

S (80) --------------|
No (40)
1000 estudios---|
S (46 = .05 x 920)
No (920) -----------|
No (874)
De los estudios con hiptesis nula rechazada, la tasa de error
Tipo I = 46/(46+40) = 0.53
32

Moraleja: S escptico cuando oirgas reportes


de nuevos avances mdicos.
Puede no ser un efecto real
(es decir, todo el estudio puede ser de tipo I!)
Si un efecto real existe, podemos estar viendo
el resultado en la cola-derecha de la
distribucin muestral de los posibles efectos
de la muestra, y el efecto real puede ser
mucho ms dbil que el reportado.
(dibujo de lo que quiero decir con esto)
33

Caso real: Un estudio en 1993 estim que las


inyecciones de magnesio podran duplicar la
posibilidad de sobrevivir un ataque al
corazn.
Un estudio ms grande de 58,000 pacientes
de ataque cardiaco no encontr ningn
efecto en absoluto.

34

Imagen de Agresti and Franklin, Statistics: The Art and Science of


Learning from Data (p. 468)

35

La distribucin binomial
Si
Cada observacin es binaria (una de dos categoras)
Probabilidades para cada observ.: para categora 1
1 - para
categora 2
Las observaciones son independientes, entonces para n
observaciones, el nmero x en la categora 1 tiene

n!
P( x)
x (1 ) n x , x 0,1,..., n
x !(n x)!

Esta puede ser usada para llevar a cabo pruebas sobre


cuando n es demasiado pequea para contar con
mtodos para muestras grandes (p.ej., cuando se
espera que el nmero de observaciones en cada
36
categora < alrededor de 10)

Ejemplo: Ejercicio 6.33 (Percepcin extrasensorial)

Persona dice ser capaz de adivinar con frecuencia


el resultado de cara o cruz en la otra habitacin
correctamente
= probabilidad de adivinar correctamence (en
cualquier lanzamiento)
H0: = 0.50 (adivinando al azar)
Ha: 0.50 (mejor que adivinar al azar)
Experimento: n = 5 lanzamientos, x = 4 correctos.
Encuentre el valor-p, e interprtelo. (No se puede
asumir que esta propocin muestral tiene una
dist. normal. Los conteos esperados son 5(0.50) =
2.5 correctos, 2.5 incorrectos, que son menos de
10; se necesita n 20 para usar TCL)
37

La distribucin binomial para n = 5, = 0.50


P(0)

n!
5!
x (1 ) n x
(0.50) 0 (0.50)5 (0.50) 5 1/ 32
x !(n x)!
0!5!

P(1)

n!
5!
x (1 ) n x
(0.50)1 (0.50) 4 5(0.50) 5 5 / 32
x !( n x)!
1!4!

P (2)

n!
5!
x (1 ) n x
(0.50) 2 (0.50)3 10(0.50) 5 10 / 32
x !(n x )!
2!3!

5!
P (3)
0.53 (1 0.5) 2 10 / 32
3!2!
5!
P (4)
0.54 (1 0.5)1 5 / 32
4!1!
5!
P (5)
0.55 (1 0.5) 0 1/ 32
5!0!
38

Para Ha : 0.50,
valor-p es la probabilidad del resultado
observado o uno incluso ms extremo en la
cola-derecha
= P(4) + P(5) = 6/32 = 0.19
No hay mucha evidencia que apoye esta
afirmacin
Necesitaramos observar x = 5 en n = 5
ensayos para rechazar la nula a un nivel de
0.05
(Entonces, valor-p = 1/32 < 0.05)
39

Notas sobre la distribucin binomial


La binomial es la distribucin de probabilidad ms
importante para datos categricos
Se puede usar la binomial para encontrar prob.
para ejemplos en el Cap. 4 donde construimos
dist. muestrales para el nmero (o proporcin)
que apoyan al nuevo plan de sistema de salud con
n = 4 personas
Dist. binomial para x = nmero en la categora 1
tiene

E ( x) n , n (1 )

mientras que la proporcin muestral


tiene

E ( ) , (1 ) / n

= x/n
40

Ejemplo
Resultados de una proporcin con n = 1000,
= 0.50
en 500,
la categora
tiene 15.8
Ex
( x)=
nnmero
1000(0.50)
n (1 de
) inters
1000(0.50)(0.50)

) 0.50, en
la )categora
de inters
E (proporcin

(1

/
n

(0.50)(0.50)
/1000 0.0158

tiene

El efecto de n? A medida que n aumenta, la


dispersin de la distribucin aumenta para
el nmero, disminuye para la proporcin. Se
vuelve ms con forma de campana a medida
41
que n aumenta. Ver grficas en p. 171 .

Revisin de preguntas de pruebas de significancia

Una minora de Americanos cree que el


matrimonio entre personas del mismo sexo
debe ser legal? Cul es la hiptesis
alternativa apropiada?
a. Ha: 0.50
b. Ha :

0.50

c. Ha : 0.00
0.50
d. Ha :

e. Ha : 0.50
42

Qu le pasa a la P(Error tipo II)


1. Cuando se disminuye la P(Error tipo I) de
0.05 a 0.01 para tomar una decisin?
2. Cuando la proporcin poblacional real se
acerca al valor de la hiptesis nula?
a. Disminuye
b. Aumenta
c. Permanece igual

43

Practiquemos con otro ejercicio (tarea opcional ej. 6.21)

Pregunta de opcin mltiple, 4 opciones. Prueba


si la probabilidad de una respuesta correcta
es ms alta que la que uno esperara si se
adivinaran aleatoriamente las respuestas.
a. Establece las hiptesis
b. Para 400 estudientes, 125 obtienen
respuestas correctas. Encuentra valor-p e
interprtalo.

(respuesta: valor-p = 0.002)


44

Вам также может понравиться