You are on page 1of 54

Licenciatura em Cincias Biolgicas Universidade Federal de Gois

Bioestatstica

Prof. Thiago Rangel - Dep. Ecologia ICB rangel.ufg@gmail.com

Pgina do curso: http://www.ecologia.ufrgs.br/~adrimelo/bioestat

Distribuio Normal
distribuio de Gauss distribuio Gaussiana

Em aulas anteriores havamos visto como gerar uma distribuio de uma dada estatstica a partir de nossos prprios dados usando aleatorizao.

Entretanto, tambm possvel utilizar distribuies tericas como referncia para o clculo de probabilidades.

A Distribuio Normal
Descreve fenmenos que so determinados por mltiplas causas, que em geral interagem entre si

Distribuio da Estatura de Brasileiros


Mdia 170cm, Desvio Padro 5cm

Frequencia
150.0

160.0

170.0

180.0

190.0

Altura (cm)

Algumas caractersticas da Normal A distribuio normal possui a bem caracterstica forma de sino A distribuio normal se estende de - at + Portanto, toda populao est debaixo da curva. Assim, dizemos que a rea sob a curva 1 ou 100% A curva normal definida por dois parmetros: a mdia (l-se mi) e o desvio padro (l-se sigma) A mdia, mediana e a moda coincidem no centro da distribuio, pois a distribuio simtrica

A Distribuio Normal
Tambm podemos gerar uma distribuio normal quando tiramos mdias de nmeros sorteados de outras distribuies!

Distribuio das M dias


1500 Frequncia 0 0 500 1000

Frequncia

100

200

300

400

500

10

4 Mdias

10

runif(10000) * 10

Informaes teis podem ser extradas do grfico abaixo: Se a mdia da estatura dos brasileiros 170cm, sabemos que existe 50% de chance de que um indivduo amostrado aleatoriamente seja mais alto ou mais baixo do que 170cm
Distribuio da Estatura de Brasileiros
Mdia 170cm, Desvio Padro 5cm

Frequencia
150.0

160.0

170.0

180.0

190.0

Altura (cm)

Distribuio Normal Padronizada

Padronizar significa remover a escala da varivel original, em geral transformando-a em um ndice. ndices so teis pois permitem a comparao entre variveis. A principal transformao da curva normal a Z. Para transformar sua varivel no ndice Z utiliza-se a seguinte formula:

z=

Quando a varivel transformada em z ela passa a ter = 0 e = 1.

z=
Distribuio da Estatura de Brasileiros
Mdia 170cm, Desvio Padro 5cm

Distribuio Normal Padronizada

= 0 e = 1
Frequencia
-3

Frequencia

150.0

160.0

170.0

180.0

190.0

-2

-1

Altura (cm)

Valores Z

x = ( z ) +

Uma amostra de dados reais nunca se ajusta perfeitamente a uma distribuio normal terica, mas frequentemente ela se aproxima bem.

Quando esta aproximao for razovel, podemos fazer inferncia de probabilidades sabendo apenas as estimativas amostrais de e , pois a rea sob a curva conhecida matematicamente.

Distribuio Normal Padronizada

= 0 e = 1
01
Frequencia

34,13%

-3

-2

-1

Valores Z

Distribuio Normal Padronizada

= 0 e = 1
02
Frequencia

47,72%

-3

-2

-1

Valores Z

Distribuio Normal Padronizada

= 0 e = 1
03
Frequencia

49,87%

-3

-2

-1

Valores Z

Onde eu encontro esta estimativa da rea sob a curva?

J que a curva normal simtrica, podemos incluir no intervalo valores abaixo da mdia. Basta multiplicar o valor da rea sob a curva por 2:
Distribuio Normal Padronizada

= 0 e = 1
-2 2
Frequencia

95,44%

-3

-2

-1

Valores Z

Usando um pouco de lgica e aritmtica, podemos tambm calcular reas distantes da mdia: Se (0 1) = 34,13%
Distribuio Normal Padronizada

Ento ( > 1) = 15,87%


Distribuio Normal Padronizada

= 0 e = 1
Frequencia Frequencia

= 0 e = 1

-3

-2

-1

-3

-2

-1

Valores Z

Valores Z

50,00 34,13 = 15,87

Da mesma maneira:

Se (0 2) = 47,72%
Distribuio Normal Padronizada

Ento ( > 2) = 2,28%


Distribuio Normal Padronizada

= 0 e = 1
Frequencia Frequencia

= 0 e = 1

-3

-2

-1

-3

-2

-1

Valores Z

Valores Z

50,00 47,72 = 2,28

Utilizando a propriedade da simetria:

Se (-2 2) = 95,44%
Distribuio Normal Padronizada

Ento ( > 2) = 4,56%


Distribuio Normal Padronizada

= 0 e = 1
Frequencia Frequencia

= 0 e = 1

-3

-2

-1

-3

-2

-1

Valores Z

Valores Z

100,00 95,44 = 4,56 = [2*(50-47,72)]

Exemplo 1: A estatura de brasileiros apresenta distribuio normal, sendo = 170cm e = 5cm. Calcule a probabilidade de um homem apresentar estatura entre 165cm e 180cm.

165170 z= = 1 5

180170 z= =2 5

Portanto queremos saber a rea sob a curva que vai de z = -1 at z = 2.

Exemplo 2:

Distribuio Normal Padronizada

= 0 e = 1
Frequencia
-3

-2

-1

Valores Z

0 > > -1 = 34,13%

0 < < 2 = 47,72%

Portanto: 34,13 + 47,72 = 81,85%

Exemplo 2: A estatura de brasileiros apresenta distribuio normal, sendo = 170cm e = 5cm. Calcule a probabilidade de um homem apresentar estatura maior do que 179,8cm.

179,8 170 z= = 1,96 5


Portanto queremos saber a rea sob a curva que vai alm de z > 1,96

Exemplo 2:

Distribuio Normal Padronizada

= 0 e = 1
Frequencia
-3

-2

-1

Valores Z

0 = < 1,96 = 47,5%

50 - 47,5 = 2,5%

Portanto: 2,5%

Exerccio 1:
O tempo mdio para completar a prova de bioestatstica 58 minutos, e o desvio padro 9,5 minutos. Se o professor Adriano quiser que apenas 90% dos alunos terminem a prova, quanto tempo deve da-los? Lembrando...

z=

tal que

x = ( z ) +

Resoluo do exerccio 1:
Queremos saber a probabilidade relacionada a 90% dos alunos terminarem.

De incio j podemos incluir os 50% de alunos que terminaro at 58 minutos (mdia).

Ento precisamos saber qual o valor de z relativo aos dos demais 40% alunos mais rpidos da turma.

Resoluo do exerccio 1:

Tempo para terminar a prova

= 58 e = 9.5
a = 0,4
Frequencia

z = ???

90%
29.5 39 48.5 58 67.5 77 86.5

Minutos de prova decorridos

Resoluo do exerccio 1:
Consultando a tabela descobrimos que 39,97% da curva preenchida quando z = 1,28

Ento, como:

z=

x = ( z ) +

(1,28 9,5) + 58 = 70,16

Intervalo de Confiana

O tamanho amostral:
Trs pesquisas de opinio a respeito das eleies de 2010 foram publicadas: - O instituto DataFolha entrevistou 124 eleitores - O instituto CNT/Sensus entrevistou 584 eleitores - O instituto Ibope ouviu 3597 eleitores Assumindo que todos eles utilizaram a mesma metodologia (aleatorizao, questionrio, etc),

Em qual voc confia mais? Por qu?

O tamanho amostral: Como podemos utilizar nosso conhecimento de probabilidade para estimar a

confiana
na minha estimativa?

Estabilidade das estimativas:


Imagine que temos tempo e recursos ilimitados para repetir o processo de amostragem infinitamente. Poderamos estimar qual a estabilidade das mdias estimadas muitas amostras. Obviamente, quanto maior for as amostras, mais semelhante ser a mdia estimada entre amostras. Assim, quando as amostras forem iguais a populao todas tero mdias idnticas.

Estabilidade das estimativas:


Portanto,

estabilidade
Ou seja,

confiana

varincia da amostra

incerteza da estimativa

Estabilidade das estimativas:


Alm disto,

esforo amostral
Ou seja,

confiana

tamanho da amostra

incerteza da estimativa

Erro padro da mdia ( sx ):


Infelizmente nunca temos recursos ou tempo para fazer muitas amostras independentes. Entretanto, a varincia da mdia calculada para vrias amostras pode ser estimada pela seguinte frmula:

s s = n
2 x

Assim, o desvio padro da mdia, conhecido como erro padro da mdia dado por:

sx =

Erro padro da mdia:


Se voc queria uma medida de confiana...

sx =

varincia da amostra

esforo amostral

Contextualizando:
A mdia da altura de 20 alunos da UFG (amostra) uma estimativa da mdia de todos alunos da UFG (populao).

O erro padro estima a incerteza que temos em relao a mdia estimada pela amostra. Ou seja, qual a incerteza que tenho em afirmar que os 20 alunos na minha amostra representam todos os alunos da UFG?

Gostaramos ento de saber o intervalo que abarcaria x% das mdias estimadas por amostras independentes de uma mesma populao.

Intervalo de confiana para a mdia:

Nosso j conhecido z, da curva normal

z sx x + z sx

Intervalo de confiana para a mdia:


Qual valor de z eu devo escolher? Depende! Quo confiante voc quer estar sobre o intervalo de estimativa da sua mdia? Quanto mais confiana quiser, mais certeza ter que o parmetro populacional estar contido em intervalos de confiana calculados da mesma maneira. Por outro lado, o custo de ter mais certeza estimar um intervalo maior.

Intervalo de confiana para a mdia:


Assim,

confiana

valor de z
Distribuio Normal Padronizada

intervalo

= 0 e = 1
Frequencia
-3

-2

-1

Valores Z

Intervalo de confiana para a mdia:


Infelizmente,

intervalo

confiana

informao

Tenho certeza que todos os alunos da UFG esto dentro do intervalo!

20cm < 170cm < 320cm

Intervalo de confiana para a mdia:


Mas confiana no baseada no balano entre variabilidade e esforo amostral?

x +z

O valor z no aumenta ou diminui a confiana, apenas estima. Para aumentar a confiana voc ter que diminuir a variabilidade da amostra ou aumentar o esforo!

Exemplo 1:
Mediu-se a estatura de 40 alunos do curso de Ecologia da UFG. A mdia e desvio padro estimados foram: = 170 e = 5. Qual o intervalo de confiana da mdia a 95%?

5 sx = = = 0,79 n 40
Assim,

z sx x + z sx
Portanto:

1,96 0,79 170 1,96 0,79

168,45 - 171,55

Exemplo 2:
Em uma segunda amostra, mediu-se a estatura de 400 alunos. A mdia e desvio padro estimados foram os mesmos: = 170 e = 5. Calcule o intervalo de 95%

5 sx = = = 0,25 n 400
Assim,

z sx x + z sx
Portanto:

1,96 0,25 170 1,96 0,25

169,51 - 170,49

A questo do tamanho amostral:


A distribuio normal s pode ser utilizada para amostras grandes (>40).

Para amostras pequenas preciso utilizar a distribuio t, que leva em considerao o tamanho amostral.

Para grandes amostras a distribuio t converge para a distribuio z

D e n s i d a d e d e P r o b a b i l i d a d e 0 . 0 4 2 0 D e s v i o s 2 4 0 . 1 0 . 2 0 . 3 0 . 4

normal

t, gl=10 t, gl=2

A questo do tamanho amostral:


Para encontrarmos a rea sob a curva t precisamos saber o esforo amostral e o t-valor.

Alternativamente podemos encontrar o t-valor quando tivermos a rea sob a curva e o esforo amostral.

O esforo amostral estimado pelo tamanho amostral menos o nmero de parmetros a ser estimado. o famoso nmero de graus de liberdade!

2,145
> png('/home/aa/teste.png',width = 960, height = 960,pointsize = 24)> plot(seq(-3,3,0.1),dt(seq(3,3,0.1),14),type='l',col=2,ylab="Densidade de Probabilidade",lwd=3,cex.lab=1.4,xlab="t",main="Distribui o t com gl=14") 2,5% > dev.off()

2,5%

0,200 t0.800 d.f.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 22 24 26 30 40 80 1,37638 1,06066 0,97847 0,94096 0,91954 0,90570 0,89603 0,88889 0,88340 0,87|906 0,87553 0,87261 0,87015 0,86805 0,86624 0,86467 0,86205 0,85996 0,85827 0,85686 0,85567 0,85377 0,85070 0,84614

0,150 t0.850 1,96261 1,38621 1,24978 1,18957 1,15577 1,13416 1,11916 1,10815 1,09972 1,09306 1,08767 1,08321 1,07947 1,07628 1,07353 1,07114 1,06717 1,06402 1,06145 1,05932 1,05752 1,05466 1,05005 1,04319

0,100 t0.900 3,07768 1,88562 1,63775 1,53321 1,47588 1,43976 1,41492 1,39682 1,38303 1,37218 1,36343 1,35622 1,35017 1,34503 1,34061 1,33676 1,33039 1,32534 1,32124 1,31784 1,31497 1,31042 1,30308 1,29222

0,050 t0.950 6,31375 2,91999 2,35336 2,13185 2,01505 1,94318 1,89458 1,85955 1,83311 1,81246 1,79588 1,78229 1,77093 1,76131 1,75305 1,74588 1,73406 1,72472 1,71714 1,71088 1,70562 1,69726 1,68385 1,66413

0,025 t0.975 12,70615 4,30266 3,18245 2,77645 2,57058 2,44691 2,36462 2,30601 2,26216 2,22814 2,20099 2,17881 2,16037 2,14479 2,13145 2,11990 2,10092 2,08596 2,07388 2,06390 2,05553 2,04227 2,02107 1,99007

0,020 t0.980 15,89447 4,84873 3,48191 2,99853 2,75651 2,61224 2,51675 2,44899 2,39844 2,35931 2,32814 2,30272 2,28160 2,26378 2,24854 2,23536 2,21370 2,19666 2,18289 2,17155 2,16203 2,14697 2,12291 2,08778

0,015 t0.985 21,20505 5,64280 3,89606 3,29763 3,00288 2,82893 2,71457 2,63381 2,57381 2,52749 2,49067 2,46070 2,43585 2,41490 2,39701 2,38155 2,35618 2,33625 2,32016 2,30692 2,29581 2,27827 2,25027 2,20949

0,010 t0.990 31,82096 6,96455 4,54071 3,74694 3,36493 3,14267 2,99795 2,89647 2,82143 2,76377 2,71808 2,68099 2,65030 2,62449 2,60248 2,58349 2,55238 2,52798 2,50832 2,49216 2,47863 2,45726 2,42326 2,37387

0,005 t0.995 63,65590 9,92499 5,84085 4,60408 4,03212 3,70743 3,49948 3,35538 3,24984 3,16926 3,10582 3,05454 3,01228 2,97685 2,94673 2,92079 2,87844 2,84534 2,81876 2,79695 2,77872 2,74998 2,70446 2,63870

Exerccio 1:
A estatura de 500 goianos escolhidos ao acaso = 164 e = 3. A estatura de 21 alunos da UFG, tambm escolhidos ao acaso, = 166 e = 4. Os alunos da UFG representam uma amostra aleatria dos goianos?

Os goianos:

3 sx = = = 0,13 500 n
Assim,

t499,5% sx x +t499,5% sx

1,9749 0,13 164 +1,9749 0,13


0,25 164 +0,25
163,75 - 164,25

Os alunos da UFG:

4 sx = = = 0,56 21 n
Assim,

t20,5% sx x +t20,5% sx

2,085 0,87 166 +2,085 0,87


1,81 166 +1,81
164,19 - 167,81

Alunos da UFG = 166, ic = 164,19-167,81 Goianos = 164, ic = 163,75-164,25 160 165 170 Estatura (cm)

Apesar dos alunos da UFG serem em mdia mais altos do que a mdia dos goianos, os intervalos de confiana se sobrepe. Portanto no possvel afirmar que os alunos so significativamente diferentes dos goianos

Exerccios para casa:


Todos os exerccios propostos dos captulos 10 e 11 de: Snia Vieira. 2008. Introduo Bioestatstica. 4a ed. Elsevier.