Вы находитесь на странице: 1из 31

Estadsticos

demuestreo

X 1, , X n

Sean

variables aleatorias independientes n, cada una con la

misma distribucin de probabilidad

f (x) . Se define

muestra aleatoria de tamao n de la poblacin

X 1, , X n

como una

x
f ) y su distribucin de

probabilidad conjunta se describe como

f ( x 1 , x 2 , , x n )=f ( x 1 ) f ( x 2) f ( x n)
Cualquier funcin de las variables aleatorias que forman una muestra
aleatoria se llama estadstico

X 1, , X n

Def: Si

representan una muestra aleatoria de tamao n,

entonces la media de la muestra se define mediante el estadstico


n

1
X = X i
n i=1
Def: Si

X 1, , X n

respresentan una muestra aleatoria de tamao n,

entonces la varianza de la muestra se define mediante el estadstico

S 2=

Si

1
( X X )2
n1 i=1 i
2

es la varianza de una muestra de tamao n, podemos escribir:

( ) ]

1
S=
n X i2
n(n1) i=1
2

Xi

i =1

La desviacin estndar de la muestra se denota con

S , la raz cuadrada

positiva de la varianza de la muestra.

Distribuciones muestrales
La distribucin de probabilidad de un estadstico se llama distribucin
muestral

Teorema del lmite central: Si

es la media de una muestra

aleatoria de tamao n tomada de una poblacin con media


varianaza finita

X
/n ,

es la distribucin normal estndar

Def: Si se extraen al azar muestras independientes de tamaos


dos poblaciones, discretas o continuas, con medias

21

22

, entonces la forma lmite de la distribucin de


Z=

Conforme

n1 y n 2 de
y varianzas

respectivamente, entonces la distribucin muestral de las

diferencias de las medias,

2
X 1 X
, est distribuida aproximadamente de

forma normal con media y varianza dadas por:

x x = 12
1

2
x 1x 2

21 22
= +
n1 n2

De aqu

Z=

( X 1 X 2) ( 1 2 )

1 2
+
n1 n2

Es aproximadamente una variable normal estndar


Teo: Si

S2

es la varianza de una muestra aleatoria de tamao

toma de una poblacin normal que tiene la varianza


estadstico

que se

2 , entonces el

2
( n1 ) S2 n ( X i X )
=
=
2
2
i=1
2

Tiene una distribucin chi cuadrada con

v =n1

grados de libertad.

Teo: Sea Z una variable aleatoria normal estndar y V una variable aleatoria
chi cuadrada con

v grados de libertad. Si

Z y

entonces, la distribucin de la variable aleatoria

T=

son independientes,

T , donde

Z
V / v

Est dada por la funcin de densidad

h (t)=

(v+1 )/ 2

[ ( v +1 ) /2 ]
t2
1+
v
( v /2 ) v

( )

,<t<

Esta se conoce como la distribucin t con


Sean

grados de libertad.

X 1 , X 2 , , X n variables aleatorias independientes que son todas

normales con media

y desviacin estndar

. Sea

1
X = X i
n i=1

S 2=

2
1
X i X )
(

n1 i=1

Entonces la variable aleatoria

T=

X
S /n

tiene una distribucin t con v =

n-1 grados de libertad.

Intervalodeconfianza

Muchas veces no se quiere dar un estimador puntual, sino un rango de


valores o un intervalo dentro del cual se encuentra el valor estimado. Se
trata de la estimacin por intervalos de confianza.

Generalmente hablamos de un intervalo de confianza a un cierto nivel de


confianza:

P [ I ( X ) ] 1 .

Cuando un intervalo aleatorio I(X) tiene una probabilidad menor del 100*%
de que el parmetro no est en el intervalo decimos que el intervalo es de
confianza 1-, o de significacin .
Esto significa que en el 95% de los casos los intervalos de confianza dieron
una respuesta correcta. En el 5% restante se obtuvo una respuesta
incorrecta. No se trata de una probabilidad, ya que fijada la muestra, el
intervalo slo puede estar o no estar en este intervalo. Significa ms bien
que si hubiramos tomado una gran cantidad de muestras, se el parmetro
se encuentra 1- de las veces en ese rango.
Intervalos de confianza para la media
En la distribucin normal de medias se puede calcular el intervalo de
confianza donde se encuentra la media poblacional con una confianza
determinada como se muestra en la Ilustracin par aun intervalo de 1-.

Ilustracin: Distribucin normal indicando el rea bajo la curva


correspondiente a un intervalo de confianza de 1-.

Para esto se necesitan calcular los puntos X-/2 y X/2. Estos dos puntos
indican de dnde a dnde va el intervalo. Usando una muestra
estandarizada se conocen los valores Z-/2 y Z/2 al 95% y al 99% de la
distribucin normal. Sus aproximaciones son: 1.96 y 2.576.

El resultado del intervalo de confianza es:

Z
2

es el valor z que deja un rea de

, x + Z
2 n
2 n ).

x Z

/2

a la derecha.

Gradosdelibertad

Es el nmero de valores de un estadstico que se pueden variar libremente.


Las estimaciones de parmetros estadsticos pueden estar basadas en
diferentes informaciones o datos. El nmero de informaciones distintas que
se usan para estimar un parmetro se llama los grados de libertad. En
general, los grados de libertad es el nmero de valores que se usan para la
estimacin menos el nmero de parmetros intermedios estimados para
llegar a la estimacin del parmetro en s.
Es la geometra de los estimadores la que define los grados de libertad.
Ejemplos:
Si buscamos dos nmeros cuya suma sea 12, X + Y = 12, X puede ser
elegido arbitrariamente, por ejemplo, puede ser 11. En ese caso Y
obligatoriamente debe ser 1. Hay dos variables aleatorias, pero un solo
grado de libertad.
Si estamos calculando en promedio de tres valores. Tericamente podemos
cambiar dos de los 3, de tal forma que el tercero siga dando lo mismo. Por
ejemplo: 2;3;4 El promedio es 3. Podemos darle a las primeras dos los
valores 10;1; para que el promedio siga siendo el mismo, el tercer valor
tiene que ser -2. Si a los dos primeras valores son 0; 1, el tercero debe ser
8. No tenemos libertad de escoger cualquier nmero.

Pruebassobreunasolamedia(varianzadesconocida)

Ladistribucint

La mayora de las veces no se conoce la varianza de la poblacin de la cual


se seleccionan las muestras aleatorias. Para muestras de tamao n>30, se
proporciona una buena estimacin de 2 al calcular S2. Si el tamao
muestral es pequeo, los valores de S2fluctan considerablemente de

muestra a muestra y la distribucin de la variable aleatoria

n
S /
( X )

se

desvan en forma apreciable de una distribucin normal estndar. En ese


caso se trata con una distribucin T, donde:

T=

X
S /n .

n
/

, donde Z tiene una


(X )/
T =

La relacin entre T y Z es la siguiente:

distribucin normal estndar y V tiene una distribucin chi2 con n-1 grados
de libertad.
La distribucin de probabilidad T se public por primera vez en 1908 en un
trabajo de S. Gosset. Gosset era empleado de una cervecera irlandesa que
desaprobaba la publicacin de trabajos de investigacin. Por esta razn
Gosset public el trabajo con el seudnimo de Student.
La distribucin T al igual que la distribucin normal es simtrica alrededor
de una media 0
Ambas tienen forma de campana, pero la T vara ms, debido a que
depende de dos cantidades, media y varianza, mientras que Z slo depende
de la media. Cuando n tiende hacia infinito las dos distribuciones son
iguales.
Si se hacen tablas para todos los n<30, stas seran muy grandes. Por eso
la tabla que se usa slo contiene los valores para especficos (0.1, 0.05,
0.025,0.01,0.005). En esta tabla, al revs de la tabla para la distribucin
normal, ya que las reas son los encabezados de las columnas y adentro
estn los valores t. A la izquierda estn los grados de libertad.
Ya que T es simtrica

t 0.95=t 0.05

Ejemplo: Calcular

t 0.99=t 0.01

P(t 0.95 <T <t 0.05)

Lo ms fcil es pensar en restar el rea de

t 0.05 a la derecha y el rea de

t 0.25 a la izquierda de 1 para obtener el rea entre las dos. rea de


a la derecha =0.05, rea de

t 0.25 a la izquierda =0.025, por lo tanto

P=10.050.025=0.925 .
Intervalo de confianza de

; con

desconocida

t 0.05

Si

y s son la media y la desviacin estndar de una muestra aleatoria

de una poblacin con varianza


de

( 1 ) 100

para

es

x t
2

Donde

/2

t
2

desconocida, un intervalo de confianza

s
s
< < x +t
n
2 n

es el valor t con v=n-1 grados de libertad que deja una rea de

a la derecha.

Pruebasdehiptesis
Con frecuencia, los problemas a los que se enfrentan los cientficos no se
refieren solamente a la estimacin de un parmetro poblacional, sino a la
toma de una decisin basada en datos que puedan permitir llegar a una
conclusin acerca de algn sistema. Por ejemplo, un investigador puede
decidir exponer las plantas a un abono, aumenta o no el crecimiento.
El problema que se estudia y la decisin que se quiere tomar se pueden
postular bajo la forma de una hiptesis estadstica.

Hiptesisestadstica
Es una afirmacin acerca de una o ms poblaciones. Nunca se sabe con
absoluta certeza la verdad de una hiptesis estadstica, a no ser que se
examine la poblacin entera. Esto, por supuesto, es imposible en la mayora
de las situaciones. Por esta razn, lo que se hace es tomar una muestra
aleatoria de la poblacin de inters y usar los datos que contiene tal
muestra para proporcionar evidencias que confirmen o no la hiptesis.
Al momento de disear un proceso de decisin es importante tener en
cuenta que hay una probabilidad de que la conclusin sea equivocada. Un
ingeniero, por ejemplo, puede plantear la hiptesis de que la fraccin de
artculos defectuosos en un cierto proceso es de 0.1. El experimento
consiste en observar una muestra aleatoria del proceso en cuestin. Se
verifican 100 y se encuentra que 12 son defectuosos. Es de sentido comn
concluir que este resultado no rechaza la hiptesis de que se esperaban 10

artculos defectuosos. Sin embargo, es posible que p=12 o incluso p=15. Por
esta razn es importante dejar bien claro que simplemente los datos no
permiten rechazar la hiptesis, no se trata de aceptar esa hiptesis. Si, por
el contrario se muestrean 20 objetos defectuosos, se debe rechazar la
hiptesis de p=10, aunque haya una pequea probabilidad de que esta
conclusin sea equivocada y de que la hiptesis de 10 defectuosos sea
correcta.
El planteamiento de una hiptesis se hace generalmente de forma que no
se pueda rechazar lo que se quiere demostrar como verdadero. Esta es la
mejor forma de respaldar con fuerza un argumento. Por ejemplo, si un
investigador desea mostrar evidencia contundente a favor del argumento de
que el caf aumenta el riesgo de cncer, la hiptesis que probar ser: No
hay aumento de riesgo de cncer debido a la ingestin de caf. Es decir,
que el argumento se alcanza a travs de un rechazo. Si se rechaza esa
hiptesis, significa que los datos no permiten rechazar la hiptesis de que
no hace dao, as que se acepta la hiptesis alternativa de que s hace
dao.

Ejemplos de hiptesis estadstica:

Tabla: Ejemplos de hiptesis estadsticas.

Loquesequiereprobar
Tomarcafdacncer
Unmedidoresmsprecisoqueotro
Unapoblacinesmsgrandequela
otra
Lamediaesmenorque0.5
Losamuletostraensuerte

Lahiptesisnula
Elriesgodecnceresigualsisetoma
caf
Ambossonigualesencuantoala
precisin
Lasdospoblacionessoniguales
Lamediaiguala0.5
Losamuletosnotraensuerte

ErrortipoI
Concluirqueshayaumentod
riesgoaunquenolohaya
Concluirqueshaydiferencia
aunquenolahaya
Concluirquelaspoblacioness
distintasaunqueseaniguales
Concluirquelamediaesmeno
siendoqueesigualomayora0
Concluirquetraensuerte,cuan
realidadnolatraen.

Lahiptesisnulaylahiptesisalternativa
La estructura de la prueba de hiptesis se formular utilizando el trmino
hiptesis nula. Esto se refiere a la hiptesis que se desee probar (rechazar)
y se representa por H0. El rechazo de H0 da como resultado la aceptacin de
una hiptesis alternativa, que se representa por H1. Una hiptesis nula
referente a un parmetro poblacional siempre ser establecida en forma tal

que especifique un valor exacto del parmetro, mientras que la hiptesis


alternativa admite la posibilidad de varios valores. Por ejemplo, para un
experimento binomial, H0: p=0.5, entonces H1: p>0.5, p<0.5 p0.5.

Pruebadeunahiptesisestadstica

Un tipo de vacuna es slo eficaz en un 25% despus de un perodo definido.


Para determinar si una vacuna nueva y ms cara es mejor para proporcionar
proteccin contra el mismo virus, se seleccionan 20 personas al azar y se
les aplica. Si ms de 8 supera el perodo definido sin contraer el virus, la
nueva vacuna se considerar superior a la anterior. El nmero 8 es
arbitrario, simplemente parece lo razonable, ya que en el otro caso se
espera que la vacuna proteja a 5 personas.
La hiptesis nula que se prueba es que la nueva vacuna es igualmente
eficaz que la anterior. Esto equivale a probar la hiptesis de que el
parmetro binomial para la probabilidad de un xito en un intento dado es
de p=1/4 contra la alternativa de que p>1/4 :
H 0 : p=
H 1 : p>
El estadstico de prueba sobre el cual se basa la decisin es la cantidad de
individuos en el grupo de prueba que son protegidos por la vacuna para un
perodo de al menos 2 aos. Los posibles valores de X, de 0 a 20, se dividen
en dos grupos aquellos nmeros menores o iguales a 8 y aquellos mayores
a 8. Todos los posibles nmeros mayores a 8 constituyen la regin crtica, y
todos aquellos menores o iguales a 8 determinan la regin de no rechazo. El
ltimo nmero que se tiene en la regin de no rechazo antes de pasar a la
regin crtica recibe el nombre de valor crtico. Para el ejemplo, si x>8, se
rechaza H0 y por lo tanto se acepta H1. Si x 8, no se rechaza H0.
El procedimiento podra llevar a conclusiones errneas de dos tipos. Se
concluye que la vacuna es mejor, aunque puede no serlo, pero en este
grupo de individuos ms de 8 superan el perodo definido sin contraer el
virus. Se cometera un error al rechazar H0 siendo correcta. Tal error recibe
el nombre de error tipo I. Se comete una segunda clase de error si 8 o
menos individuos son protegidos y se concluye que la nueva vacuna no es
mejor, es decir que no se rechaza H0, siendo falsa. Este error se llama error
de tipo II (Error: Reference source not found).

Nueva vacuna no es mejor


Nueva vacuna es mejor

1 2

Al probar cualquier hiptesis estadstica, se tienen cuatro posibles


situaciones que determinan si la decisin es correcta o equivocada. Estas
cuatro situaciones se resumen a continuacin:

H0 es verdadera

H0 es falsa

No rechazar H0

Decisin
correcta

Error tipo II

Rechazar H0

Error tipo I

Decisin
correcta

La probabilidad de cometer un error tipo I, el que ms se quiere evitar, se


llama nivel de significancia y se representa por . En el ejemplo se presenta
un error tipo I cuando ms de 8 individuos sobrepasan el perodo sin
contraer el virus utilizando una nueva vacuna que en realidad no es mejor a
la actual. Si X es el nmero de individuos que no contraen el virus por 2
aos:

=P ( error tipo I )=P X >8 cuando p=

20

1
1
1
= b x ; 20, =1 b x ; 20, =10.9591=0.0409
4 x=9
4
4
x=0

Se dice entonces que la hiptesis nula, p=1/4 se est probando con el nivel
de significancia =0.0409. Tambin se puede ver el nivel de significancia
como el tamao de la regin crtica. Una regin crtica de tamao 0.0409 es
muy pequea y, por lo tanto, es poco probable que se cometa un error tipo
I.
La probabilidad de cometer un error tipo II, representado por es imposible
de calcular, a menos de que la hiptesis alternativa tenga valores muy
precisos. En lo ideal el procedimiento debera tener ambos tipos de error
pequeos. Para evitar disminuir un tipo de error a expensas del otro, lo ideal
es aumentar el tamao de la muestra. De esta forma se asegura que se
disminuyen ambos tipos de error.
Si ahora utilizamos una muestra de 100 individuos y ms de 36 sobrepasan
el perodo de 2 aos sin virus, se rechaza la hiptesis de que p=1/4 y se
acepta la alternativa de p>1/4. El valor crtico ahora es 36. Los valores
arriba de 36 caen en la regin crtica y todos los posibles valores menores o
iguales a 36 caen en la regin de no rechazo.

=36
=25

Ilustracin: distribucin de probabilidad aproximada a la normal indicando la


zona de rechazo en amarillo.

Para determinar la probabilidad de cometer un error tipo I, se utiliza la


aproximacin a la curva normal (Ilustracin) con:

=np=

1001
=25
4

1001
3
4
= npq=
=4.33
4
La probabilidad est dada por el rea bajo la curva a la derecha del valor
crtico 36, es decir a partir de 36.5. Lo que se hace es encontrar el rea bajo
la curva de una distribucin normal estandarizada (normalizada). Estos
valores estn tabulados y no es necesario calcularlos cada vez. El valor de la
curva normal estandarizada correspondiente se calcula restando la media y
dividiendo por la desviacin estndar as:

z=

36.525
=2.66 . El rea para
4.33

ese valor se consulta en la tabla de reas bajo la curva normal y es de


0.996, se trata del rea bajo la curva a la izquierda del valor z : P(Zz). Si se
quiere saber al valor a la derecha hay que calcular 1- P (Zz).
Vamos a la tabla a buscar 2.6 en los valores de z y como la segunda cifra
decimal es 6, 2.66, ubicamos el valor 0.9961.

= p ( error tipo I )=P X >36 cuando p=

1
P ( Z> 2.66 )=10.9961=0.0039
4

El ejemplo anterior subraya la estrategia del cientfico en cuanto a la prueba


de hiptesis nula o alternativa.

Estos mismos conceptos se pueden aplicar para una poblacin continua.


Existe la hiptesis nula de que el peso promedio de estudiantes hombres en
una institucin es de 68 kg y una hiptesis alternativa de que es diferente
de 68. Se desea probar que:

H 0 : =68
H 1 : 68
La hiptesis alternativa incluye la posibilidad de que

x < 67 y x >69 . La

media muestral es el estadstico de prueba. La regin de no rechazo es

67 x 69 (Ilustracin 1).

Se rechaza H0
68

Ilustracin 1: muestra grfica de la zonas de rechazo segn el valor de la


media.

Se asume que la desviacin estndar es =3.6 y que la distribucin


muestral de X es aproximadamente normal con desviacin estndar x=0.6.
La distribucin se muestra en la Ilustracin.

=P ( X <67 cuando =68 )=P ( X >69 cuando =68)


Los valores correspondientes para una distribucin estandarizada son :

z 1=

6768
=1.67 ,
0.6

z 2=

6968
=1.67
0.6

67 69
Ilustracin: distribucin de probabilidad aproximada a la normal indicando las
zonas de rechazo en amarillo

Por lo tanto

=P ( Z <1.67 ) + P ( Z >1.67 )= ( 1P ( Z <1.67 ) ) + ( 1P ( Z <1.67 ) ) =

2( 1P ( Z <1.67 ) ) =2 ( 10,9525 )=0.0950

Ahora podemos volver a la Tabla, la cual nos muestra en qu consistira el


error tipo I, en los ejemplos de hiptesis estadsticas mencionados antes.

Ejercicio:

Plantear la hiptesis nula y el error tipo I que se puede cometer para probar
las siguientes afirmaciones:
Se quiere probar que la vacuna 1 es mejor que la 2
La altura sobre el nivel del mar influye en el nmero de infartos
Dos poblaciones son diferentes genticamente
Dos dietas distintas influyen sobre el peso

Pruebasdeunacolaydedoscolas
Una prueba de cualquier hiptesis estadstica, donde la alternativa es
unilateral tal como

H 0 :=0 ,

H 1 :> 0

recibe el nombre de prueba de

una cola. Generalmente la regin crtica para esta hiptesis alternativa cae
en la cola derecha de la distribucin normal.
Una prueba de hiptesis estadstica donde la alternativa es bilateral

H 0 :=0 ,

H 1 : 0

recibe el nombre de prueba de dos colas.

Losvaloresp

Se ha establecido por costumbre que el valor de es de 0.05 0.01. El


rechazo o el no rechazo de la hiptesis nula dependen entonces de la regin
crtica que corresponde a este valor de . En la curva normal estndar, para
una prueba de dos colas se reparte 0.05 entre las dos y segn lo observado
en la tabla (buscando el valor de z con respecto al rea) esto significa

z> 1.96; z <1.96 . Un valor de z que caiga en la regin crtica sugiere que
el valor del estadstico de prueba es significativo.
Lo que se hace es fijar para controlar al mximo el riesgo de cometer un
error tipo I. Para los valores que estn cerca del rea bajo la curva, es decir,
la probabilidad de cometer un error tipo I, no aumenta mucho. Por ejemplo,
si el valor de z es 1.87, la probabilidad de cometer el error tipo I es 0.0614.
Sin embargo, se ha establecido que se evala la significancia de una prueba
con niveles de 0.05 y de 0.01.
La definicin formal de valor P es:
Un valor P es el nivel ms bajo (de significancia) en el cual el valor
observado del estadstico de prueba es significativo. En otras palabras, es la
probabilidad obtener un resultado igual o ms extremo que el observado. Si
es poco extremo, es posible que el resultado se deba al azar nicamente.

El valor p no es la probabilidad de que la hiptesis nula sea cierta.


Recordemos que no existen las pruebas para probar una hiptesis.

ElvalorE(Evalue)

Muchos de ustedes han realizado una bsqueda de similaridad de


secuencias en el NCBI y se han topado con el E-value.
Este indica el nmero de alineamientos distintos al alineamiento en cuestin
equivalentes o mejores que se puede esperar obtener por simple azar. Entre
ms bajo el E-value, ms significativo el alineamiento que se encontr.
Ya que la cantidad de alineamientos que pueden ocurrir al azar depende de
las posibilidades existentes en la base de datos, el E-value obtenido para un
alineamiento puede cambiar a medida que crezca la base de datos.
Ms informacin en: http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul1.html#head2

Resumendelospasospararealizarunapruebadehiptesis:
Establecer la hiptesis H 0 :

= 0

Seleccionar una hiptesis alternativa apropiada H 1


Seleccionar el nivel de significancia de tamao
Seleccionar el estadstico de prueba apropiado y establecer la
regin crtica o decidir si la decisin se va a basar en el valor P.
Calcular el valor estadstico de prueba de los datos muestrales
Decidir: rechazar H 0 si el estadstico de prueba tiene un valor en
la regin crtica o si el valor P es menor o igual que el nivel de
significancia deseado . En caso contrario no rechazar H 0.

Repasodedefiniciones

En este punto es importante verificar si se tienen claras las siguientes


definiciones:
Hiptesis nula
Hiptesis alternativa
Estadstico de prueba
Distribucin de probabilidad del estadstico de prueba
Regin de rechazo o regin crtica
Regin de no rechazo
Valor crtico
Error tipo I
Error tipo II
Valor P

Pruebasrelacionadasconunasolamedia
La prueba que hemos realizado entra dentro de esta categora. Aqu
hablaremos para el caso de una sola media poblacional y varianza conocida
de la poblacin (es decir, el parmetro) y con distribucin normal. Este tipo
de pruebas sirven para experimentos con un X1,X2,,Xn que representan una
muestra aleatoria de una distribucin con media y varianza

2 >0 . Se

aplica para la hiptesis de que la media tiene un cierto valor:

H 0 : =0
H 1: 0

El estadstico de prueba apropiado deber basarse en la variable aleatoria

X . El teorema del lmite central establece que variable aleatoria

X , es

decir la media de medias, tiene una distribucin aproximadamente normal


2

/n . Puede entonces determinarse una regin

con media y varianza

crtica con base en el promedio muestral calculado,

x .

Se calcula el estadstico de prueba restando a la media y dividiendo por la


desviacin estndar y por raz de n. Se sabe que bajo

X
0
/ n

= 0 ,

H 0 , es decir cuando

tiene una distribucin normal N(0,1) y de ah se puede

deducir que

P z a <
2

X 0
< z a =1

2
n

Esta propiedad puede utilizarse para escoger una regin crtica


apropiada. Se trata de una prueba de dos colas. Dado un valor

x , la prueba formal implica no rechazar

calculado de
entre

z a

za
2

z a < z < z a
2

si z est

. En ese caso se acepta la hiptesis

alternativa de que la media es distinta de

H 1: 0

H0

0 :

Es ms fcil de entender la regin crtica cuando se escribe en trminos del


promedio calculado:

H0

Se rechaza

b= 0 + z a/ 2

/2

si

x < a , donde

a= 0z a /2

(Ilustracin).

1-

x > b o

/2

Ilustracin: distribucin de probabilidad normal indicando la zona de rechazo


en amarillo.

Esta prueba se puede convertir igualmente en una prueba de una sola cola
si se quiere probar:

H 0 : =0
H 1 : > 0

Ejemplo:
Una muestra aleatoria de 100 muertes registradas en USA durante el ao
pasado mostr una vida promedio de 71.8 aos. Suponiendo que la
desviacin estndar poblacional es de 8.9 aos. Esto indica que la vida
promedio es mayor de 70 aos?

H 0 : =70 aos
H 1 : >70 a os
=0.05
Regin crtica: z>1.64 por el nivel de significancia (Ilustracin)

z=

x 0
/n

71.870
=2.02
8.9/ 100

2.02
Ilustracin: distribucin de probabilidad indicando la zona de rechazo en
amarillo

Se rechaza

H0

y se concluye que la vida promedio hoy en da es mayor

P=P ( Z >2.02 ) =0.0217 .

que 70 aos. Al utilizar la tabla se tiene

Ejemplo:
Un fabricante de equipos deportivos ha desarrollado un nuevo sedal
sinttico para pesca que se considera tiene una resistencia de ruptura de 8
kg con una desviacin estndar de 0.5 kg. Queremos probar la hiptesis de
que

H 0 : =8 en contraposicin a H 1 : 8

con un nivel de significancia del

0.01. Se tiene a disposicin una muestral aleatoria de 50 sedales y se


encuentra una resistencia promedio de ruptura de 7.8 kg.
La regin crtica es z< -2.575 y z>2.575

x 0 7.88
z= / n = 0.5/ 50 =2.83

Se rechaza

H0

z=

x 0
/n

7.88
=2.83
0.5/ 50

y se concluye que la resistencia promedio a la ruptura no

es igual a 8, pero es, sino menor que 8 kg.


Dado que la prueba es de dos colas, el valor P es dos veces el rea bajo la
curva en la zona crtica. Por lo tanto al usar la tabla, encontramos

P=P (|Z|>2.83 )=2 P ( Z <2.83 )=0.0046 .

Ejercicio:

Se conocen las alturas de 25 individuos, las cuales tienen un promedio de


170 cm y pertenecen a una poblacin con una desviacin estndar de
10cm. Se desea saber si esta poblacin es diferente de la referencia que
indica 174cm. Plantee la hiptesis y realice la prueba con =0.05.
Luego realice la misma prueba para probar que 170cm es menor que 174.
La conclusin cambia?

Ejercicio:

Un fabricante asegura que sus bombillos duran 800 horas en promedio con
una desviacin estndar de 40 horas. Para probar una nueva produccin
realiza un experimento con 30 bombillos y obtiene una media de 788 horas
de duracin. Plantee la hiptesis y realice la prueba comparando el valor p
del estadstico de prueba con =0.04. Le sorprende la conclusin? A qu se
debe?

Ejercicio:

Pruebe la hiptesis de que la media de referencia =47.4 es igual a la


media de la muestra x=52.8 que se obtuvo para 100 individuos. Se conoce
la desviacin estndar, la cual es 24,7. Utilice un de 0.05. Compare
estadstico de prueba con valor crtico y con valor p.

Relacinconlaestimacindelintervalodeconfianza

La estimacin del intervalo de confianza implica el clculo de lmites para


los cuales es razonable que el parmetro en cuestin est dentro de ellos.
Para el caso de una media poblacional conociendo 2, la estructura de
ambas pruebas se basan en la variable aleatoria
prueba de

H 0 : =0

H 1: 0

Z=

x 0
/ n . Resulta que la

en un nivel de significancia es

equivalente a calcular un intervalo de confianza 100(1- )% de y rechazar


la hiptesis nula si no est dentro del intervalo.

Laprueba

Las variables aleatorias X1, X2,...,Xn representan una muestra aleatoria de


una distribucin normal con y 2 desconocidas. En este caso la variable

n( X )/S

aleatoria

tiene una distribucin t-student con t-1 grados de

libertad. La estructura de la prueba es idntica como para el caso de


varianza conocida con la excepcin de que se reemplaza por S y la
distribucin normal estndar se reemplaza por la distribucin T.
Para las hiptesis

H 0 : =0

H 1 : 0 , el rechazo de

nivel de significancia resulta cuando

t=

x 0
s / n

H0

con un

excede t/2,n-1 o es menor

que t/2,n-1.

Ejemplo:
Se afirma que el consumo de alimento semanal en biomasa del tapir andino
es de 46 kg. Se realiz un estudio observacional de 12 tapires en cautiverio
y se determin un consumo promedio de 42 kg con desviacin estndar de
11.9 kg. Sugiere el estudio que el consumo es menor de 46 kg en promedio
con un nivel de significancia de 0.05?

H 0 : =46

H 1 : < 46

Regin crtica: t<-1.796 (sale da la tabla para 11 grados de libertad y


=0.05)

t=

x 0
s / n

4246
=1.16
11.9 / 12

Como el valor calculado no cae en la regin crtica, no se rechaza

H0

y se

concluye que la cantidad promedio consumida no es significativamente


menor que 46.

Pruebaparalasignificanciadeuncoeficientecorrelacin
Volvemos al coeficiente de correlacin y suponemos que queremos probar si
un coeficiente dado es significativamente diferente de cero. El coeficiente
de correlacin transformado se puede aproximar a la distribucin T:

t=

rs

(1r

2
s

)/( n2) . La hiptesis nula es que la correlacin es cero.

Comparando el estadstico de prueba con el valor crtico podemos as


rechazar o no la hiptesis nula.

1.1

Pruebassobredosmedias
El procedimiento experimental es parecido al descrito en la seccin
anterior. Dos muestras aleatorias independientes de tamaos n 1 y n 2
provienen de dos poblaciones con medias 1 y 2 y varianzas

Z=

21 y

21

( X 1 X 2) ( 12)

. Se sabe que la variable aleatoria

1 2
+
n1 n2

tiene una

distribucin normal estndar. Simplificando la ecuacin y asumiendo que

z=

( X 1 X 2 )( 12 )

las varianzas de ambas poblaciones son iguales:

1 1
+
n1 n 2

Este estadstico sirve como base para el desarrollo de los procedimientos de


prueba sobre dos medias. La hiptesis bilateral sobre dos medias puede
escribirse como

H 1 : 1 2 d 0

H 0 : 12=d 0 . Se rechaza

H0

en favor de

si z>z/2 o z<-z/2.

Varianzasdesconocidas
t=

( X 1 X 2 )d0

En este caso se puede usar la distribucin T:

sp

1 1
+
n1 n2

, donde

s1 ( n11 ) + s 2 ( n2 1 )
s =
n1+ n22
2
p

La hiptesis no se rechaza cuando

t
2

,n1+ n22

<t <t
2

, n1+n22

La prueba de dos medias puede realizarse cuando se tienen datos pareados.


El clculo de la diferencia entre las dos medias se basa en la variable

aleatoria:

t=

dd
0
S d / n , donde

Sd

son variables aleatorias que

representan la media y las desviaciones estndar de las diferencias entre


los datos pareados. La hiptesis se reduce a

calculado es entonces

t=

H 0 : D =d 0 . El estadstico

dd
0

sd/ n .

Ejemplo:
Se realiz un estudio en el cual se examin la influencia de la succinilcolina
sobre los niveles de andrgenos en la sangre. Se obtuvieron muestras de
sangre de 15 ciervos al momento de la inyeccin y 30 minutos despus (
). Se midieron los niveles de andrgenos en ng/ml. Pruebe si hay alguna
diferencia en los niveles antes y despus de las inyecciones con un nivel de
significancia de 0.05.

Tabla: Niveles de andrgenos en la sangre al momento de la inyeccin y 30


minutos despus en 15 ciervos.

Ciervo

Inyeccin

30 minutos

Diferencia

2.76

7.02

-4.26

5.18

3.10

2.08

2.68

5.44

-2.76

3.05

3.99

-0.94

4.10

5.21

-1.11

7.05

10.26

-3.21

6.60

13.91

-7.31

4.79

18.53

-13.74

7.39

7.91

-0.52

10

7.30

4.85

2.45

11

11.78

11.10

0.68

12

3.90

3.74

0.16

13

26.00

94.03

-68.03

14

67.48

94.03

-26.55

15

17.04

41.70

-24.66

H 0 : 1=2 o D =12 =0
H 1 : 1 2 o D = 12 0

Regin crtica: t<-2.145 y t>2.145, ya que =0.025 y 14 gdl.

d=9.848
t=

s d =18.474

dd
9.8480
0
=
=2.06
s d / n 18.474/ 15

El valor calculado no cae en la zona de rechazo, as que no se rechaza

H 0 : 1=2 .

Ejemplo:
Una empresa envi a una parte de sus empleados a realizar un curso en Cali
y a otros en Bogot. El curso en Bogot cuesta ms y los directivos quieren
saber si este esfuerzo vale la pena. Para comprobarlo realizaron un examen
a los empleados. Las calificaciones fueron las siguientes:
Cali
98
99
99
97
90
85
84
82
81
79
68
61
60

Bogota
98
96
96
95
85
80
79
78
75
73
72
69
67

56

62
60

t=0.45

Pruebasparaproporciones
H 0 : p= p0
H 1 : p< p0
Se utiliza la distribucin binomial para calcular el valor P. El valor x es el
nmero de xitos en la muestra de tamao n. Para este caso unilateral:
P=P(Xx cuando p=p0)Para

H 1 : p p 0 se trata de una prueba bilateral, es

decir, P=2P(Xx cuando p=p0)


Ejemplo:
Un constructor afirma que se instalan bombas de calefaccin en el 70% de
todos los hogares actualmente en construccin en la ciudad. Est de
acuerdo si una investigacin aleatoria de nuevas casa indica que cada 8 de
15 tiene instaladas bombas de calefaccin? Probarlo con un nivel de
significancia de 0.01.

H 0 : p=0.7

Recordando que

H 1 : p<0.7

()

b ( x ; n , p )= n p x q nx
x
8

P=2 P ( X 8 cuando p=0.07 )=2 b ( x ; 15,0.7 ) =0.2622>0.10


x=0

Se puede igualmente aproximar a la distribucin normal y en ese caso


el estadstico de prueba es

z=

xn p0
n p0 q 0 .

Para probar la diferencia entre dos proporciones el estadstico de prueba es

z=

^p1 ^p2

1
1
^p q [
+
] , donde
n1
n2

( )( )

Ejemplo:

^p=

x 1+ x 2
n 1+ n2 .

Existe un medicamento para aliviar la tensin nerviosa, el cual es efectivo


en el 60% de los casos. Se han realizado experimentos con un nuevo
medicamento en 100 sujetos, que sufren tensin nerviosa y el medicamento
ha proporcionado alivio en un 70% de los casos. Es esto suficiente evidencia
para concluir que el nuevo medicamento es mejor?
H0:

p=0.6

H1:

p>0.6

=0.05
x=70
n=100

np 0=1000.6=60

z=

xn p0
7060
=
=2.04
n p0 q 0 1000.60.4

Como 2.04>1.645 se rechaza la hiptesis nula

Ejemplo de comparacin de dos proporciones:


El ao pasado un candidato a la alcalda obtuvo el 55% de los votos y este
ao el 48%. Se puede decir que el comportamiento de su electorado
cambi.

p A =0.55
H0:

p A =p B

H1:

pA pB

pB =0.48

=0.05

z=

pA pB

p Aq A pBq B
+
nA
nB

=1.86

Como 1.86<1.94 no se rechaza la hiptesis nula

Pruebadebondaddeajuste

Estas pruebas sirven para determinar si una poblacin tiene una distribucin
terica especfica. La prueba se basa en qu tan buen ajuste se tiene entre
la distribucin terica y la distribucin de las observaciones.

H 0 :las observaiones hacen parte de la distribuci nte ricao esperada


Si se considera el lanzamiento de un dado y se formula la hiptesis de que
el dado no est truqueado, se espera que la distribucin sea f(x)=1/6 con
x=1,2,...,6. Se lanza el dado 120 veces y se registran los resultados. Al
comparar los resultados esperados con los observados, se debe decidir si se
acepta que hacen parte de la distribucin esperada o no.
Resultado

Observada

20

22

17

18

19

24

Esperada

20

20

20

20

20

20

Ladistribucinchi2

Si S2 es la varianza de una muestra aleatorio de tamao n tomada de una


2

poblacin normal que tiene varianza , entonces

X 2=

(n1) S
2

tiene una

distribucin chi2 con n-1 grados de libertad.

El estadstico de prueba es
de libertad. Si

chi 2

( observadoi e sperado i)2


chi =
esperadoi
i=1
2

con k-1 grados

es pequeo, se indica un buen ajuste.

Para el ejemplo tenemos que

chi 2=

(2020)2 (2220)2 (1720)2 (1820)2 (1920)2 ( 2420)2


+
+
+
+
+
=1.7
20
20
20
20
20
20

Utilizando la tabla encontramos que el valor de

chi 2

para un nivel de

significancia de 0.05 y 5 grados de libertad es: 11.070. En este caso no se


rechaza la hiptesis nula, es decir que se acepta que las observaciones
hacen parte de la distribucin esperada.

1.2

Tablasdecontingenciaypruebasdeindependencia
La prueba

chi 2

se puede utilizar tambin para probar la hiptesis de

independencia de dos variables de clasificacin.


Supngase que se quiere saber si el sexo de las tortugas depende de la
temperatura. Una muestra de 1000 huevos de tortuga se expone a 3 niveles
distintos de temperatura y se evala el sexo de las tortugas nacidas. Los
resultados se presentan en una tabla de contingencia. Una tabla con r
renglones y c columnas se llama tabla

r c . A los totales se les denomina

valores marginales.
La hiptesis nula

H 0 : hay independencia

se basa en qu tan bien se ajustan

las frecuencias observadas en cada una de las 6 celdas a las frecuencias


que se esperaran si hubiera independencia (entre la temperatura y el sexo).
Temperatura

TOTAL

Baja

Medi
a

Alta

Masculino

182

213

203

598

Femenino

154

138

110

402

TOTAL

336

351

313

1000

Para encontrar las frecuencias esperadas se calculan as:

Frecuencia esperada=

total colmnatotal fila


gran total

Temperatura

TOTAL

Baja

Media

Alta

Masculino

182 (200.9)

213(209.9)

203(187.
2)

598(187.
2)

Femenino

154(135.1)

138(141.1)

110(125.
8)

402(125.
8)

TOTAL

336

351

313

1000

Los grados de libertad aqu son 2 y se pueden calcular como (r-1)(c-1).

Igual que en la prueba de bondad de ajuste se utiliza el estadstico:

(observadoi esperado i)
chi =
esperado i
i=1
2

Para este Ejemplo:


2

chi =

El valor de

chi 2

para 2 grados de libertad y un nivel de significancia de

0.05 es 5.991 La hiptesis de independencia se rechaza.


Es importante mencionar en este punto que el estadstico se aproxima a la
distribucin

chi 2 . Los valores calculados dependen de las frecuencias de

la tabla y por lo tanto son discretos. La distribucin discreta se aproxima


bastante bien a la continua cuando el nmero de grados de libertad es
mayor que 1. En una tabla de contingencia

2 2 , cuando se tiene un slo

grado de libertad se debe aplicar la correccin de Yates:


2

(|observado iesperado i|0.5)

i=1

esperado i

chi =

Ejemplo:
Se pusieron 50 degustadores a escoger entre 5 vinos el mejor. Se trataba
del mismo vino servido en copas de color distinto. La pregunta a responder
es si hay influencia del color del vaso sobre el sabor del vino.
H0: el color no influencia el vino que se escoge como el mejor
H1: el color s influencia el vino que se escoge como el mejor
Vino
#devecesquefue
escogidocomoel
mejor
#devecesquefue
seesperasinohay
influencia

(182200.9) (213209.9) (203187.2) (154135.1) (138141.1) (110125.8)


+
+
+
+
+
=7
200.9
209.9
187.2
135.1
141.1
125.8

1
6

2
12

3
9

4
10

5
13

10

10

10

10

10

chi 2=
i=1

( obsiespi )2
=3 , Tabla chi2 con 4 gdl y =0.05: 9.48, as que no se
espi

rechaza la hiptesis nula y se concluye que el color no influencia el sabor


del vino.

Temaspararevisarencasa:

Seleccin del tamao de muestra para una prueba de medias


Relacin de la estimacin del intervalo de confianza y la prueba
de medias
Caractersticas de la distribucin binomial

Tarea: Ejercicios pruebas de hiptesis Walpole & Myers (p. 315, ejercicios 1 a
3 y 338, ejercicios 1,7,22)
Walpole & Myers (1992). Pgina 315
1. Suponga que un especialista en alergias desea probar la hiptesis de
que al menos 30% del pblico es alrgico a algunos productos de
queso. Explique cmo este especialista podra cometer.
H0: al menos o ms del 30% es alrgico
H1: menos del 30% es alrgico
a) un error tipo I
b) un error tipo II
2. Un socilogo est interesado en la eficiencia de un curso de
capacitacin diseado para lograr que ms conductores se
acostumbren a utilizar cinturones de seguridad en el automvil.
a) qu hiptesis est probando esta persona so comete un error tipo
I al concluir errneamente que el curso de capacitacin no es
eficaz?
b) qu hiptesis est probando la persona si comete un error tipo II al
concluir errneamente que el curso de capacitacin es eficaz?
3. Una gran empresa manufacturera ha sido calificada como
discriminadora en sus prcticas de contratacin.
a) qu hiptesis est probndose si un jurado comete un error tipo I
al encontrar que la compaa es culpable
b) qu hiptesis est probndose si un jurado comete un error tipo II
al encontrar que la compaa es culpable
Tarea: Walpole & Myers (1992). Pgina 338
1. Una muestra aleatoria de 36 refrescos de una mquina despachadora
automtica tiene un contenido promedio de 21.9 decilitros, con una
desviacin estndar de 1.42 decilitros. Pruebe la hiptesis de que
u=22.2 decilitros en contraposicin a la hiptesis
nivel de significancia de

<22.2

con un

=0.05

7. Pruebe la hiptesis de que el contenido promedio en recipientes de un


lubricante en particular es de 10 litros si los contenidos de una
muestra aleatoria de 10 recipientes son: 10.2, 9.7, 10.1, 10.3, 10.1,
9.8, 9.9, 10.4, 10.3, 9.8 litros. Utilice un nivel de significancia de 0.01
y suponga que la distribucin de los contenidos es normal.
22. Niveles de cido ascrbico en mujeres embarazadas fumadoras y no
fumadoras. Probar si hay diferencias.
NoFumadoras
Fumadoras
0.97
0.48

0.72
1
0.81
0.62
1.32
1.24
0.99
0.90
0.74
0.88
0.94
1.16
0.86
0.85
0.58
0.57
0.64
0.98
1.09
0.92
0.78
1.24
1.18

0.71
0.98
0.68
1.18
1.36
0.78
1.64

Вам также может понравиться