Вы находитесь на странице: 1из 62

ROMEU MAGNANI MARISA VEIGA CAPELA

NDICE I. II. III. IV. V. VI. VII. VIII. Estatstica Descritiva.................................. Distribuio de Probabilidade................... Distribuio Amostral................................ Estimao de parmetro............................ Teste de hipteses..................................... Comparao de varias mdias................. Regresso e Correlao........................... Funes linearizveis................................ 1 13 20 23 28 36 46 58

Sugestes bibliogrficas

Bussab O.W., Morettin, P.A. Estatstica Bsica. Atual Ed., 1987 Costa Neto, P.L.O. Estatstica. Ed. Edgard Blucher, 1987 Fonseca, J.S. Curso de Estatstica. Ed. Atlas, 1998 Lapponi, J.C. Estatstica usando o Excel. Ed. Lapponi, 2000 Lopes, P.A. Probabilidade e Estatstica. Reichmann&Affonso Editores, 1999 Vieira. S., Hoffmann, R. Estatstica Experimental. Ed. Atlas, 1989

I. ESTATSTICA DESCRITIVA

1. INTRODUO A Estatstica Descritiva trata da maneira de apresentar um conjunto de dados em tabelas ou grficos e do modo de resumir as informaes contidas nesses dados, atravs de certas medidas como mdia, varincia, desvio padro, coeficiente de variao, etc. 2. TIPOS DE VARIVEIS Algumas variveis so qualitativas e outras quantitativas. Uma varivel qualitativa pode ser apenas um nome (varivel qualitativa nominal) ou estabelecer uma ordem (varivel qualitativa ordinal). As variveis quantitativas, mais importantes neste curso, so classificadas em discreta (se referem em geral a contagens) ou contnua (podem assumir qualquer valor de um intervalo de nmeros reais). Exemplo 1: Na tabela abaixo so apresentados 60 valores de cada uma de 6 variveis, que representam informaes sobre alunos do sexo masculino cursando graduao em Qumica, em determinado ano (classifique essas variveis conforme o tipo) No. do aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 No. de irmos 2 3 2 1 3 0 0 5 3 5 4 3 2 3 2 3 2 2 3 3 2 3 2 1 3 2 2 1 2 2 2 3 Altura (m) 1,71 1,72 1,69 1,62 1,77 1,55 1,66 1,63 1,73 1,70 1,82 1,73 1,80 1,77 1,73 1,71 1,74 1,71 1,74 1,71 1,88 1,76 1,62 1,67 1,64 1,77 1,73 1,80 1,73 1,66 1,79 1,80 Peso (kg) 70,9 76,2 72,6 60,0 71,3 53,6 65,8 65,0 87,8 73,8 81,3 72,2 74,7 73,4 69,1 98,1 71,2 67,3 69,0 79,7 85,7 83,4 64,0 72,1 63,5 69,2 76,8 91,2 64,8 68,2 82,5 105,7
1

Idade (anos) 18 20 18 22 19 19 20 19 19 22 20 19 24 19 21 21 18 19 21 18 18 19 20 23 19 19 23 20 21 19 20 20

Origem* AR AR OL CP CP OL AR OL OL AR OL OL AR OL OL AR OL OE AR OL OL CP OL AR CP OE OL OL OE OL OL AR

Grau de instruo do pai 2o. grau 2o. grau Superior 2o. grau 2o. grau 2o. grau 2o. grau 2o. grau Superior Superior 2o. grau Superior 2o. grau 2o. grau 2o. grau 2o. grau Superior 2o. grau Superior 2o. grau 2o. grau Superior Superior Superior Superior 1o. grau Superior 2o. grau Nenhum Superior Superior 1o. grau

1,63 1,77 1,86 1,66 1,82 1,85 1,69 1,58 1,77 1,76 1,67 1,75 1,80 1,71 1,78 1,70 1,75 1,75 1,81 1,71 1,74 1,78 1,89 1,82 1,76 1,76 1,64 1,65 *AR: Araraquara e regio (at 50km) OL: Outros Locais do Estado

No. do aluno 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

No. de irmos 3 2 1 0 1 6 2 3 3 0 4 4 1 2 3 2 1 3 1 4 2 1 5 2 0 4 2 0

Altura

Peso

Idade

Origem*

61,8 21 OL 79,4 20 OL 87,2 19 AR 59,9 25 OL 82,2 20 OL 79,2 21 AR 69,4 22 CP 62,0 22 OL 80,6 18 CP 70,4 19 OL 65,9 18 OL 74,9 21 CP 83,4 18 OL 77,4 18 OL 78,6 19 OL 78,6 24 CP 81,9 22 CP 74,0 21 AR 77,2 23 AR 70,0 22 CP 79,0 18 AR 83,4 21 OL 92,2 21 CP 94,6 20 AR 67,1 20 OL 72,0 19 CP 65,2 20 OL 71,7 18 OL CP: Capital OE: Outros Estados

Grau de instruo do pai 2o. grau 2o. grau Superior 2o. grau 2o. grau 2o. grau Superior 1o. grau Superior Superior Superior 1o. grau 2o. grau Superior Superior 2o. grau 2o. grau 2o. grau Superior 2o. grau Superior 2o. grau Superior 2o. grau 2o. grau Superior 2o. grau 1o. grau

3. DISTRIBUIO DE FREQNCIAS Muitas vezes, obtm-se informa es relevantes sobre uma varivel atravs de sua distribuio de freqncias. Esta uma tabela contendo valores distintos da varivel e as freqncias correspondentes. A freqncia pode ser absoluta (n0 de vezes que o valor aparece no conjunto de dados) ou relativa (n0 de vezes que o valor aparece dividido pelo total de valores) ou percentual (a freqncia relativa multiplicada por 100). Pode ser til tambm o grfico da distribuio. Os grficos recomendados dependem do tipo de varivel. No caso das variveis quantitativas, em especial a varivel contnua, so observadas as freqncias em intervalos de valores, em vez de freqncias individuais. Para varivel quantitativa de grande importncia a distribuio de freqncias acumuladas. Uma freqncia acumulada a soma das freqncias at determinado valor (ou intervalo de valores) Exemplo 2: Distribuies de freqncias da varivel origem do exemplo 1 e grfico em pizza. Origem AR OL OE CP Total Freqncia Freq. Relativa Freq. Percentual 15 30 3 12 60 0,25 0,50 0,05 0,20 1,00
2

25% 50% 5% 20% 100%

20% 5%

25% AR OL OE CP 50%

Exemplo 3: Distribuies de freqncias da varivel discreta nmero de irmos da tabela do exemplo 1, grfico de freqncias e grfico de freqncias acumuladas. N0 de Freqncia irmos 6 0 9 1 20 2 16 3 5 4 3 5 1 6 Total 60
20 Frequncia 15 10 5 0 0 1 2 3 4 5 6 No. de irmos Frequncia acumulada

Freqncia acumulada
6 15 35 51 56 59 60

Freqncia relativa
0,100 0,150 0,333 0,267 0,083 0,050 0,017

Freq. relativa acumulada


0,100 0,250 0,583 0,850 0,933 0,983 1,000

1,000
60 45 30 15 0 0 1 2 3 4 5 6 No. de irmos

Observao: Os grficos de freqncia absoluta, freqncia relativa e freqncia percentual tm o mesmo aspecto. Isso ocorre porque essas freqncias so proporcionais. Uma distribuio de freqncias de varivel contnua diferente. A faixa que engloba todos os valores da varivel dividida em diversos intervalos, de preferncia de mesma amplitude. A freqncia se refere ao nmero de valores da varivel em cada intervalo. Um critrio empregado aqui o de considerar os intervalos fechados direita, isto , incluem o valor da extrema direita e no incluem o valor esquerda. s vezes conveniente substituir o intervalo pelo seu ponto mdio. Exemplo 4: As alturas da tabela do exemplo 1, colocadas em ordem crescente, so: 1,55; 1,58; 1,62; 1,62; 1,63; 1,63; 1,64; 1,64; 1,65; 1,66; 1,66; 1,66; 1,67; 1,67; 1,69; 1,69; 1,70; 1,70; 1,71; 1,71; 1,71; 1,71; 1,71; 1,71; 1,72; 1,73; 1,73; 1,73; 1,73; 1,73; 1,74; 1,74; 1,74; 1,75; 1,75; 1,75; 1,76; 1,76; 1,76; 1,76; 1,77; 1,77; 1,77; 1,77; 1,77; 1,78; 1,78; 1,79; 1,80; 1,80; 1,80; 1,80; 1,81; 1,82; 1,82; 1,82; 1,85; 1,86; 1,88; 1,89; Variao total: 1,89-1,55=0,34 metros. Uma sugesto usar 60 7 ou 8 intervalos. Tomando como variao total 0,35m e adotando 7 intervalos, cada um ter amplitude 0,35/7=0,05 m. A distribuio de freqncias absolutas (simples e acumulada) e a distribuio de freqncias relativas (simples e acumulada) so dadas abaixo, assim como os grficos das distribuies de freqncias relativas. Intervalos de alturas 1,55 | 1,60 1,60 | 1,65 1,65 | 1,70 1,70 | 1,75 1,75 | 1,80 1,80 | 1,85 1,85 | 1,90 Total Ponto mdio 1,575 1,625 1,675 1,725 1,775 1,825 1,875 Freq. 2 7 9 18 16 5 3 60 Freq. acum. 2 9 18 36 52 57 60 Freq. relativa 0,033 0,117 0,150 0,300 0,267 0,083 0,050 1,000 Freq. relativa acumulada 0,033 0,150 0,300 0,600 0,867 0,950 1,000 Densidade de freq. rel. 0,667 2,333 3,000 6,000 5,333 1,667 1,000

0,30 0,20 0,10 0,00 1,575 1,625 1,675 1,725 1,775 1,825 1,875 Altura Freq. rel. acumulada
Frequncia relativa

1,00 0,80 0,60 0,40 0,20 0,00 1,575 1,625 1,675 1,725 1,775 1,825 1,875 Altura

O grfico em colunas retangulares acima chamado Histograma, enquanto que o grfico de freqncias acumuladas recebe o nome de Ogiva de Galton. No grfico de freqncias simples, as alturas dos retngulos so proporcionais as alturas dos retngulos do grfico de freqncias relativas. Portanto, eles tm o mesmo aspecto. Para as freqncias acumuladas tambm ocorre uma proporcionalidade das alturas. Na tabela de distribuies de freqncias da varivel altura foi includa uma coluna de densidade de freqncia relativa. Esta obtida pela diviso da freqncia relativa pela amplitude do intervalo de alturas correspondente. Desse modo, no histograma da densidade de freqncia, a rea de cada retngulo igual a freqncia relativa correspondente e a rea total igual a soma das freqncias relativas que 1. Em termos percentuais, a rea de cada retngulo a porcentagem de alturas no intervalo base do retngulo. Ateno: A compreenso do conceito de densidade de freqncia relativa fundamental para o entendimento de tpicos mais avanados de Estatstica. Na figura tem-se o histograma da densidade de 6,5 freqncias relativas das alturas de 6,0 um grande nmero de alunos de 5,5 graduao do sexo masculino. A 5,0 base de cada retngulo (intervalo de 4,5 alturas) igual a 0,02 m e os 4,0 nmeros indicados representam uma 3,5 parte dos pontos mdios dos 3,0 intervalos. No eixo vertical esto 2,5 representadas as densidades de 2,0 freqncias relativas, cuja unidade 1,5 1/m. Ento, a rea do retngulo de 1,0 ponto mdio 1,71 0,5 aproximadamente igual a 0,02 x 5,5= 0,0 0,11. Em outras palavras, 11% dos alunos tm alturas no intervalo de Altura 1,70 a 1,72 m. No intervalo de 1,72 a 1,78 m esto aproximadamente 35,5% das alturas. Um problema interessante determinar a altura, tal que, o conjunto de todas as alturas menores do que ela representa 2% do total. A resposta a altura de aproximadamente 1,60 m.
Densidade
1,55 1,59 1,63 1,67 1,71 1,75 1,79 1,83 1,87 1,91

4. RELAO ENTRE DUAS VARIVEIS At aqui as variveis foram analisadas individualmente. Muitas vezes interessa verificar se h alguma associao entre duas ou mais variveis. Com apenas duas variveis pode ser usado o grfico de disperso. Exemplo 5: Na figura abaixo est representado o grfico de disperso das variveis altura e peso da tabela do exemplo 1. Parece haver uma dependncia entre as variveis, pois conforme a altura aumenta, o peso tambm aumenta.

110 Peso 90 70 50 1,50

1,60

1,70 Altura

1,80

1,90

4. USANDO O EXCEL Funes CONT.SE(matriz*; valor) Conta o n0 de vezes que determinado valor (n0 ou no) aparece em uma matriz de dados. FREQNCIA(matriz; Quando o valor de referncia uma clula, d a Freqncia valores de referncia) acumulada. Para a freqncia absoluta preciso marcar primeiro o intervalo de sada, inserir a funo FREQUNCIA e pressionar ao mesmo tempo CONTROL+SHIFT+ENTER MXIMO(matriz) valor mximo de uma matriz de dados MNIMO(matriz) valor mnimo de uma matriz de dados CONT.VALORES(matriz) Total de valores numricos de uma matriz de dados
*conjunto de clulas de uma planilha dispostos s em linha, s em coluna ou tanto em linha como em coluna.

Ferramentas de anlise HISTOGRAMA

Forma a distribuio de freqncia e constri o Histograma.

PROBLEMAS: 1) Abra uma pasta no Excel e coloque a tabela do exemplo 1 em uma planilha. Em seguida, use as funes indicadas acima para resolver os exemplos de 2 a 5. 2) Resolva novamente o exemplo 4 usando a ferramenta HISTOGRAMA. 3) Estude as distribuies de freqncias das outras variveis da tabela do exemplo 1: peso, idade e grau de instruo do pai (neste caso, use o grfico de colunas agrupadas). PROBLEMA PROPOSTO PP1) Considere os dados da tabela abaixo, referentes a 50 estudantes do sexo feminino matriculadas no curso de Qumica do IQAr em 1998. Construa para cada varivel as distribuies de freqncias e os respectivos grficos. Faa o grfico de disperso para o par de variveis altura e peso. Que concluses podem ser obtidas se os resultados para as variveis da tabela do exemplo 1 forem comparados com os obtidos aqui? N0 Peso (kg) 1 55,6 2 62,0 3 61,0 4 70,0 5 67,0 6 49,0 7 70,0 Altura (m) 1,64 1,70 1,68 1,69 1,65 1,60 1,68 idade (anos) 20 22 23 21 23 22 23
5

N0 Peso (kg) 26 53,0 27 63,0 28 70,0 29 48,0 30 51,0 31 85,0 32 57,0

Altura (m) 1,65 1,72 1,78 1,59 1,59 1,73 1,65

idade (anos) 22 21 22 20 21 19 21

8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

63,0 60,0 52,0 58,0 50,0 55,0 57,0 50,0 70,0 48,0 70,0 54,0 48,5 52,0 42,0 67,0 58,0 57,0

1,64 1,71 1,65 1,70 1,62 1,65 1,67 1,56 1,59 1,60 1,70 1,61 1,55 1,70 1,58 1,62 1,68 1,66

21 22 21 20 27 21 18 21 23 19 19 25 20 22 19 19 18 18

33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

65,0 48,0 60,0 64,0 49,0 65,0 57,0 55,0 54,0 57,0 45,0 62,0 89,0 50,0 51,0 48,0 53,0 73,0

1,60 1,65 1,68 1,58 1,60 1,70 1,67 1,55 1,65 1,80 1,60 1,70 1,65 1,70 1,60 1,62 1,64 1,74

21 21 32 20 19 22 19 21 22 19 20 24 31 21 18 21 21 22

5. MEDIDAS DE POSIO As medidas de posio mais conhecidas so: mdia, mediana e moda. So valores em torno dos quais os dados se distribuem, por isso so conhecidas como medidas de tendncia central. Se uma varivel x possui os n valores: x1, x 2, ..., xn, a mdia aritmtica, que representaremos aqui por m, ou m(x) quando houver necessidade de identificar a varivel x, m( x ) = x1 + x2
+ L+

xn

1 (x 1 + x 2 n

+ L+

xn) =

1 n xi n i=1

A mediana, med, o valor que ocupa a posio central da srie de dados, quando estes so colocados em ordem crescente ou decrescente, e a moda, mo, o valor com maior freqncia. Pode haver mais de uma moda. Exemplo 6: Se uma varivel tm valores iguais a: 10, 15, 18, 22, 22, 30, a mdia m, a mediana med e a moda so, respectivamente, iguais a 10 + 15 + 18 + 22 + 22 + 30 m= = 19,5 6 18 + 22 med = = 20 (pois existem dois valores centrais) 2 moda = 22 Exemplo 7: Considerando as alturas dos alunos na tabela do exemplo 1, tem-se, em metros, 1 103,95 (171 + 1 72 + 1 69 + 162 + ... + 1 64 + 165 ) = , , , , , , 60 60 med = 1,735 moda = 1,71 m=
=

1 733 ,

Essas medidas de posio podem ser determinadas pela distribuio de freqncias do exemplo 4 tomando o ponto mdio dos intervalos. Tem-se: 1 m= (2 1 575 + 7 1 625 + 9 1,675 + 18 1725 + 16 1,775 + 5 1,825 + 3 1,875 ) , , , 60 103,80 = = 1,730 60 med = 1,725 moda = 1,725 6. MEDIDAS DE DISPERSO As medidas disperso so valores que mostram o quanto os dados esto dispersos em relao ao centro da distribuio de freqncia (em geral, a mdia). As principais medidas de disperso so: varincia e desvio padro, mas existem outras, tais como: amplitude total, desvio mdio e coeficiente de variao. Se uma varivel x possui os n valores: x1, x2, ..., xn, a varincia, indicada por Var ou Var(x), definida por Var ( x ) = 1 [( x1 m) 2 + (x 2 n
m) 2 + L+

( x n m)

1 n ( xi n i= 1

m)

Entendendo (x i - m) como o desvio de xi em relao mdia m, ento a varincia a mdia


7

desses desvios ao quadrado. O desvio padro, dp(x), a raiz quadrada da varincia, isto , dp( x ) = Var (x )

Quanto as outras medidas de disperso, a amplitude total a diferena entre o maior e o menor valor da srie de dados, o desvio mdio a mdia dos desvios tomados sempre como positivos e o coeficiente de variao, CV, o quociente entre o desvio padro e a mdia, multiplicado por 100. CV = dp( x ) 100% x

Exemplo 8: Considerando os dados do exemplo 6, tem-se Var


=

1 [(10 19,5) 2 + (15 19,5 )2 6 1 [( 9,5) 2 + ( 4,5) 2 + ( 15 )2 , 6 235,5 = 39,25 6

+ (18 19,5 )

(22 19,5) 2
2

+ (22 19,5 ) = = + ( 2,5 ) 2

+ ( 30 19,5) 2 +

+ ( 2,5 )

(10,5)2 ]

Observe que os desvios so iguais a -9,5; -4,5; -1,5; 2,5; 2,5; 10,5 e a soma desses desvios igual a zero (isso acontece sempre). O valor 235,5 a Soma de Quadrados dos Desvios. O desvio padro igual a dp = 39 ,25 = 6,2650 amplitude total = 30 - 10 = 20 9,5 + 4,5 + 1,5 + 2,5 + 2,5 + 10,5 desvio mdio = desvio mdio = = 5,1667 6 6,2650 coeficiente de variao = CV = 100 = 32,13 % 19,5 Exemplo 9: Para a distribuio de freqncias da varivel x = altura do exemplo 4, tem-se: Var Var
= =

1 [ 2 (1575 1 730 )2 , , 60 0,2935 2 = 0,0049 m 60


=

7 (1,625 1730 ) 2 ,

+ L+

3.(1 875 1,730 )2 ] ,

Desvio padro

0,0049

0,070 m

0,070 100 = 4,04 % 1730 , Amplitude Total= 1,875 1,575 = 0,030 m CV = 7. POPULAO E AMOSTRA Os mtodos estatsticos so prprios para o estudo de populaes. Populao um conjunto de dados que descreve algum fenmeno de interesse, ou seja, dados que tm, em comum, determinada caracterstica. Amostra um subconjunto de dados selecionados de uma populao. Pretende-se, a partir da amostra, estudar a populao. Portanto, uma amostra deve ter as mesmas caractersticas que a populao de onde foi retirada. Existem procedimentos adequados de amostragem.
8

Considerando uma populao formada por um conjunto muito grande de valores, fcil imaginar que o grfico da densidade de freqncia (ver exemplo 4) poderia ser representado por uma linha contnua como nas figuras abaixo. Em cada uma delas a rea abaixo da curva igual a 1. O grfico a esquerda simtrico em torno do eixo que contm a mdia e representa uma densidade de freqncia terica, chamada distribuio normal, que ser estudada adiante.

Densidade

mdia x

Densidade

As medidas de posio e de disperso, definidas nos itens 5 e 6, so vlidas tanto para populao como para amostra, mas, para a amostra, a varincia e o desvio padro tem como denominador (n1) em lugar de n. Exemplo 10: No exemplo 8, o correto seria Var =

235,5 = 47,1000 e 5

dp = 6,8629 .

Entretanto, no exemplo 9 faz pouca diferena dividir por 60 ou 60 -1=59.

8. MEDIDAS DE ASSIMETRIA E CURTOSE O coeficiente de assimetria e o coeficiente de curtose so medidas relacionadas com a forma da distribuio de freqncia ou da densidade de freqncia. A assimetria uma medida da falta de simetria da distribuio. A curtose indica o grau de achatamento de uma densidade de freqncia em relao distribuio normal citada no item anterior. Nos grficos acima, o primeiro tem coeficiente de assimetria e coeficiente de curtose iguais a zero (pois trata-se de uma distribuio normal). No outro grfico, tanto o coeficiente de assimetria como o de curtose so grandes. Para um conjunto de valores xi, com i=1,2,...,n, o coeficiente de assimetria definido por x x 2 n ( is ) (n 1)(n 2) onde s = dp(x) o desvio padro do conjunto xi considerado como amostra. O coeficiente de curtose dado por [ x x 4 n(n + 1) 3(n 1)2 ( i ) ] (n 1)(n 2 )(n 3 ) s (n 2)(n 3)

9. USANDO O EXCEL Funes: MDIA(matriz) MED(matriz) MODO(matriz) DESVQ(matriz) DESVPAD(matriz) VAR(matriz) CURT(matriz) DISTORO(matriz)

Mdia de um conjunto de dados Mediana Moda Soma de quadrados dos desvios em relao mdia Desvio padro amostral Varincia de uma amostra Coeficiente de curtose Coeficiente de assimetria

Observao: as funes a seguir se referem a populao e usam n em vez de n-1 no denominador. VARP(matriz) Varincia de uma populao DESVPADP(matriz) Desvio padro populacional Ferramentas de anlise ESTATSTICA DESCRITIVA

Fornece informaes sobre a tendncia central e disperso dos dados

PROBLEMAS: Todas as questes a seguir se referem aos dados da tabela do exemplo 1 (considerados como amostra). 4) Determine as medidas de tendncia central e de disperso para a varivel n0 de irmos. Use as funes apropriadas. 5) Repita o problema anterior para a varivel peso. 6) Use a ferramenta ESTATSTICA DESCRITIVA para resolver os problemas 4) e 5) PROBLEMAS ADICIONAIS: 7) Acione a ajuda do Excel para conhecer as funes ALEATRIO e ALEATRIOENTRE. Use essas funes para sortear 10 alunos da tabela do exemplo 1. Determine a mdia, varincia e desvio padro das idades dos alunos sorteados. Obtenha ajuda sobre a funo PROCV e verifique como us-la para copiar as idades dos alunos sorteados. PROBLEMAS PROPOSTOS PP2) Complete o problema proposto 1 com as medidas expostas aqui. Como ficam as concluses anteriores? PP3) Procure na literatura um conjunto de dados (mais de 30) de uma varivel e faa um estudo usando os procedimentos da Estatstica Descritiva. Escreva um pequeno relatrio contendo: a) Objetivo da pesquisa b) Resultado (Coloque os resultados em tabelas e grficos de acordo com as normas da ABNT - consulte a Biblioteca) c) Concluso d) Referncia bibliogrfica (fonte do conjunto de dados) Apndice: Normas da ABNT para construo de tabelas e figuras (ou grficos).

10

COMPLEMENTOS 10. TEOREMA DE CHEBYSHEV (aplicao do desvio padro) Dado um nmero k, maior do que 1, ento pelo menos (1-1/k2) dos valores de uma amostra ou populao pertencero ao intervalo de k desvios padro antes e k desvios padro alm da mdia. Este intervalo tem extremos (m k dp) e (m + k dp) . Exemplo 11: Para as alturas da tabela do exemplo 1, obteve-se no exemplos 7 e 9, a mdia 1,73 e o desvio padro 0,070, respectivamente. Seja o intervalo 1,73 k. 0,070 Pelo teorema de Chebyshev tem-se: Se k=2, pelo menos 1-1/4 = 3/4 (75%) dos valores esto no intervalo 1,732(0,070) (isto , entre 1,59 m e 1,87 m). Na realidade, este intervalo contm 93,3% das alturas, como pode ser verificado pela tabela do exemplo 1. Se k=3, pelo menos 1-1/9 = 8/9 (88,9%) das alturas esto no intervalo 1,733(0,070) (isto , entre 1,52 e 1,94). Na realidade este intervalo contm 100% das alturas. 11. MEDIDAS DE ORDENAMENTO A mediana uma medida de ordem tal que metade das observaes so menores que ela. Existem outras medidas de ordenamento que podem ser teis. Para cada uma dessas medidas, uma proporo p das observaes menor do que ela. Por exemplo, os quartis dividem uma srie de dados em quatro partes. Para cada p, entre 0 e 1, determinado um percentil. Exemplo 11: Seja a srie de valores: 45; 33; 40; 36; 31; 49; 37; 30; 48; 38; 43 Srie ordenada ordem ordem porcentual 30 31 33 36 37 38 40 43 45 48 49 1 2 3 4 5 6 7 8 9 10 11 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Tomando, por exemplo, o n 0 43, 70% dos valores da srie so menores que ele e 30% maiores. O percentil de p=0,70 (ou 70%) 43. Os quartis so : 10 quartil (ou percentil de 0,25) = 34,5 (25% dos valores so menores do que 34,5) 20 quartil (ou mediana) = 38 (50% dos valores so menores do que 38) 30 quartil (ou percentil de 0,75) = 44 (75% dos valores so menores do que 44) Funes ORDEM(n0 ; matriz; ordem*) ORDEM.PORCENTUAL(matriz; n0; decimais**) PERCENTIL(matriz; p) Posio de um n0 em uma matriz de dados Posio percentual de um n0

o percentil em matriz de dados correspondente a p (0<p<1) QUARTIL(matriz; quartil) Quartil de uma matriz de dados: 0= 100%, 1=75%; 2=50%; 3=25%; 4=0%. *vazio ou zero = ordem decrescente, outro n0 = ordem crescente ** n0 de casas decimais. Vazio = 3 casas decimais Ferramenta de anlise ORDEM E PERCENTIL

Tabela que contm a ordem percentual e ordinal de cada valor de um intervalo de dados
11

Exemplo 12: Aplicando a ferramenta ORDEM E PERCENTIL ao conjunto de dados do exemplo 11, sem classific-los, obtm-se Ponto* Dados Ordem Porcentagem 49 6 1 100 48 9 2 90 45 1 3 80 43 11 4 70 40 3 5 60 38 10 6 50 37 7 7 40 36 4 8 30 33 2 9 20 31 5 10 10 30 8 11 0 * Ponto indica a posio de cada elemento da srie inicial. PROBLEMAS: 8) Forme uma srie de valores com alguns nmeros repetidos e verifique como ficam as ordens. 9) Determine os quartis para as alturas da tabela do exemplo 1. Interprete o resultado.

12

II. DISTRIBUIO DE PROBABILIDADE 1. PROBABILIDADE Chama-se experimento aleatrio o experimento cujo resultado no pode ser previsto. Em outras palavras, um experimento aleatrio se, quando executado diversas vezes, produz resultados diferentes. Entretanto, pode-se descrever todos os resultados possveis de um experimento aleatrio. A noo de probabilidade est ligada diretamente a esse tipo de experimento. Exemplo 1: Seja o lanamento de uma moeda trs vezes. Representando por 0 o aparecimento de coroa e por 1 o aparecimento de cara, os resultados possveis deste experimento so: (0; 0; 0), (0; 0; 1), (0; 1; 0), (0; 1; 1), (1; 0; 0), (1; 0; 1), (1; 1; 0) e (1; 1; 1) O conjunto de todos esses resultados forma o espao amostral e cada um dos 8 resultados um ponto amostral. Qualquer conjunto de pontos amostrais um evento. Se o espao amostral finito, a probabilidade de ocorrer qualquer ponto amostral um nmero entre 0 e 1, de modo que a soma das probabilidades de todos os pontos amostrais seja igual a 1. Um evento qualquer conjunto de pontos amostrais. A probabilidade de ocorrer um evento a soma das probabilidades de seus pontos amostrais. O evento sem pontos amostrais tem probabilidade zero e o evento com todos os pontos amostrais (o prprio espao amostral) tem probabilidade 1. Exemplo 2: Quando uma moeda lanada parece razovel atribuir probabilidade igual a 0,5, tanto de sair cara como de sair coroa. Assim, na execuo do experimento: lanar uma moeda trs vezes, cada ponto amostral tambm deve ter a mesma probabilidade de ocorrncia. Para ilustrar, tem-se: a) O ponto amostral: coroa no 10 lanamento, cara no 20 e cara no 30, isto , o ponto (0; 1; 1), tem probabilidade 1/8 = 0,125 (ou 12,5%) de ocorrer. b) O evento: exatamente duas caras, isto , o conjunto formado pelos pontos (0; 1; 1), (1; 0; 1), (1; 1; 0), tem probabilidade 3/8 =0,375 (37,5%) de ocorrer. c) O evento menos de duas caras, isto , o conjunto dos pontos (0; 0; 0), (0; 0; 1), (0; 1; 0), (1; 0; 0), tem probabilidade 4/8=0,5 (50%) Exemplo 3: Lanando-se uma moeda um nmero grande de vezes, dever aparecer cara em metade dos lanamentos e coroa no restante. A freqncia relativa de caras se aproxima de 0,5 conforme aumentado o nmero de lanamentos da moeda (Ver Problema 1). Portanto a freqncia relativa de um ponto amostral pode ser tomada, aproximadamente, como a sua probabilidade. Se dois eventos, de um mesmo espao amostral, no tm pontos em comum, a probabilidade de ocorrer um ou o outro a soma de suas probabilidades. Se a probabilidade do primeiro no depende da probabilidade do segundo e vice-versa, a probabilidade desses dois eventos ocorrerem simultaneamente o produto de suas probabilidades individuais. Exemplo 4: No lanamento de um dado, a probabilidade de sair 2 ou 5 1/6+1/6=1/3=0,3333. No lanamento de dois dados, a probabilidade de sair 2 e 5 1/6.1/6=1/36=0,0278. 2. VARIVEL ALEATRIA DISCRETA Varivel aleatria discreta uma varivel cujos valores x1; x2; x3; ...; xn ocorrem respectivamente com probabilidades p(x1); p(x2); p(x3); ...; p(xn) de modo que a soma dessas
13

probabilidades seja igual a 1. Uma varivel aleatria discreta segue uma distribuio de probabilidade que dada por uma frmula, tabela ou grfico. Exemplo 5: No experimento do exemplo 1 a varivel x = n0 de caras no lanamento da moeda trs vezes uma varivel aleatria discreta. Pode assumir os valores 0; 1; 2 ou 3, com probabilidade respectivamente iguais a p(0)=1/8; p(1)=3/8; p(2)=3/8 e p(3)=1/8. Essa distribuio pode ser dada por
probabilidade

Frmula: p(x ) = Tabela: x p(x)

3! (x=0,1,2,3) 8(3 x )! x! 0 1/8 1 3/8 2 3/8 3 1/8

3/8 1/4 1/8 0 0 1 2 3

No. de caras

Grfico --> Uma distribuio de probabilidade tem mdia e desvio padro representados pelas letras gregas e , respectivamente. A varincia representada por 2. A mdia e a varincia da distribuio de probabilidade de uma varivel x podem ser indicadas tambm por E(x) e V(x), respectivamente. Definem-se = E(x ) =

x
i

p( x i )

2 = V( x ) =

(x
i

) 2 p( x i )

Observa-se que, se as probabilidades p(xi) forem todas iguais, essas frmulas so semelhantes as de distribuio de freqncias. Na verdade, como foi visto anteriormente, uma distribuio de probabilidade pode ser construda aproximadamente por uma distribuio de frequncias. Exemplo 6: Para a varivel do exemplo 5, a mdia, a varincia e o desvio padro so: 1 3 3 1 3 = 0. + 1. + 2. + 3 . = = 1,5 8 8 8 8 2 3 1 3 3 3 3 3 1 3 2 = ( 0 ) 2 + (1 ) 2 + (2 ) 2 + (3 ) 2 = = 0,75 2 8 2 8 2 8 2 8 4
= 0,75 = 0,8660

3. DISTRIBUIO DE BERNOULLI Uma varivel aleatria discreta tem distribuio de Bernoulli quando ela representa um experimento cujo resultado pode ser um sucesso (se ocorrer o evento de interesse) ou um insucesso (o evento de interesse no ocorre). A probabilidade de sucesso p e a probabilidade de insucesso q=p-1. Exemplo 7: No lanamento de uma moeda pode ocorrer cara (sucesso) ou coroa (insucesso). Portanto, o experimento de lanar uma moeda segue uma distribuio de Bernoulli. 4. DISTRIBUIO BINOMIAL Uma varivel aleatria tem distribuio binomial quando representa a execuo de n vezes um experimento de Bernoulli, sendo cada execuo independente da outra. Portanto, uma varivel aleatria com distribuio Binomial descreve um experimento onde interessa o
14

nmero de sucessos em n tentativas (ou provas) independentes, tendo cada prova apenas dois resultados possveis; sucesso ou insucesso. Em cada tentativa a probabilidade de sucesso p e de insucesso q=1-p. Se x uma varivel com distribuio Binomial, a probabilidade de x assumir um valor k dada por

p( x = k ) = Cn,k p k qnk
A mdia da distribuio Binomial = np e o desvio padro = npq . Exemplo 8. Seja x = n0 de caras no lanamento de uma moeda 3 vezes do exemplo 5. Os valores de x so: 0, 1, 2 e 3. Em cada lanamento a probabilidade de sucesso (cara) p=0,5 e de insucesso (coroa) q=0,5. Cada lanamento (tentativa) independente do outro. Ento, a probabilidade de x assumir um valor k (k=0,1,2,3) quando uma moeda lanada 3 vezes : 1 1 1 3! p(k ) = C 3,k ( )k ( ) 3 k = C3, k = que a mesma frmula usada no 2 2 8 8(3 k )! k! exemplo 5 e, portanto, os resultados so os mesmos Quando a distribuio binomial tem-se uma frmula simples para o clculo da mdia e do desvio padro. A mdia = 3 ( 0,5) = 1,5 caras por execuo do experimento completo (lanamento da moeda 3 vezes) e o desvio padro

= 3 (0,5) (0,5) = 0,8660 . Esses resultados j foram obtidos no exemplo 5.


Exemplo 9: Supondo que a moeda seja defeituosa, de tal forma que a probabilidade de sair cara em cada lanamento 0,2, a distribuio de probabilidade da varivel x= n0 de caras
0,6

x 0 1 2 3

Probabilidade 0,512 0,384 0,096 0,008

0,4

p
0,2 0 0 1 2 3

No. de caras

5. DISTRIBUIO DE POISSON

A distribuio de Poisson uma caso particular da distribuio binomial, quando difcil ou sem sentido calcular o nmero de insucessos ou o nmero total de tentativas (p pequeno e n muito grande). A mdia = np , que tambm igual a varincia. A probabilidade da varivel x com distribuio de Poisson assumir o valor k

p( x = k ) = e

k , k!

onde e o nmero irracional 2,71828... Exemplo 10: Seja um telefone que recebe em mdia duas chamadas por hora. Ento: a) a probabilidade deste telefone no receber nenhuma chamada em uma hora

p( x = 0) = e 2

20 = e 2 = 0,1353 0!

( = 2)

b) a probabilidade de receber no mximo 2 chamadas em 30 minutos

p( x 2) = p( x = 0) + p( x = 1) + p( x = 2)
15

( = 1)

=e

0 1 1

0!

+e

1 1 1

1 !

+e

2 1 1

2!

= 0,9197

6. USANDO O EXCEL Funes DISTRBINOM(x; n; p; acumulada) POISSON(x, mdia; acumulada) PROBLEMAS: 1) Utilizando as funes ALEATRIO ou ALEATRIOENTRE simule o lanamento de uma moeda 50, 100, 200, 500 e 1000 vezes. Determine a freqncia relativa de caras. Compare as freqncias relativa de caras obtidas com os valores tericos (probabilidades). 2) Considere o experimento de lanar uma moeda 3 vezes e observar o nmero de caras. Repita este experimento 000 vezes. Construa a distribuio de freqncia do n0 de caras, calcule a mdia e desvio padro. Compare os resultados com os valores tericos. 3) Considere o lanamento de uma moeda perfeita 30 vezes. Construa a distribuio de probabilidade e o grfico da varivel n0 de caras nos 30 lanamentos. Determine a mdia, varincia e desvio padro. Que porcentagem dos valores esto no intervalo de 2 desvios padro em torno da mdia. Compare com o valor dado pelo teorema de Chebyshev. 4) Um casal pretende ter 5 filhos e acredita que a probabilidade de ter um filho homem 0,55. Nessas condies, qual a probabilidade dos 3 filhos do casal serem: a) 3 homens e 2 mulheres? b) pelo menos uma mulher c) mais de dois homens? 5) Considere ainda a probalidade de um filho homem igual a 0,55 a) Escolhendo-se ao acaso 200 casais em uma cidade com 5 filhos, quantos devero ter exatamente 3 filhos homens? b) Qual a mdia de filhos homens de casais desta cidade? 6) Um recipiente contm 5000 bactrias. A probabilidade de que uma bactria escape do recipiente 0,0008. Qual a probabilidade de que mais de 6 bactrias escapem? 7) Estude no Excel as funes DIN.BIN.NEG e DIST.HIPERGEOM. D exemplos. 7. VARIVEL ALEATRIA CONTNUA Varivel aleatria contnua uma varivel cujos intervalos de valores ocorrem com uma certa probabilidade. Uma varivel aleatria contnua possui uma distribuio de probabilidade que dada por uma funo densidade de probabilidade f(x) ou seu grfico. As condies so
+

Ambas fornecem a probabilidade exata p(=x) se acumulada = FALSO e a probabilidade acumulada p( x) se acumulada=VERDADEIRO

que (a) f (x ) 0 e (b) f ( x )dx = 1 , isto , a rea total entre a curva f(x) e o eixo x igual a 1.

A mdia e a varincia de uma distribuio contnua so dadas por


+

x f (x)dx

=
2

( x )

f ( x )dx

16

8. DISTRIBUIO NORMAL (ou de GAUSS)

Uma varivel aleatria x tem distribuio normal se a sua funo densidade de probabilidade

f (x ) =
onde a mdia e o desvio padro.

1 2

e ( x )

/ 2 2

34,1% 34,1% 13,6% 2,1% -3 13,6% 2,1% +3

O grfico de uma distribuio normal tem a forma de sino e a rea total abaixo da curva igual a 1. Qualquer frao da rea total representa a probabilidade da varivel x assumir um valor entre os extremos que definem esta rea. Na figura, a probabilidade de um valor de x estar entre um desvio padro antes da mdia e um desvio padro depois 0,341+0,341=0,682. Em outras palavras, 68,2% dos valores de x esto entre - e +. Exemplo 8: Quanto por cento dos valores de x esto entre dois desvios padro antes da mdia e dois desvios padro depois? E entre trs desvios padro? Observando-se o grfico anterior pode-se responder facilmente s questes propostas: Esto entre 2 desvios padro em torno da mdia 2(34,1+13,6)=95,4% dos valores. Entre 3 desvios padro em torno da mdia tem-se 2(34,1+13,6+2,1)=99,6% Exemplo 9: Considerando que a distribuio normal simtrica em torno da mdia, praticamente 100% dos valores se localizam entre 3 desvios padro antes da mdia e trs desvios padro depois da mdia e quanto maior o desvio padro mais espalhados esto os valores em torno da mdia, esboce em um mesmo sistema de coordenadas os grficos de trs distribuies normais, todas de mdia 10, e desvios padro 0,5; 1,0 e 1,5. Exemplo 10: Suponha que uma populao de estudantes tenha altura mdia 1,62 m e desvio padro 0,08 m. Interprete a variao das alturas desta populao. Uma varivel z de distribuio normal de mdia 0 e desvio padro 1 chamada distribuio normal padro. Toda varivel x com distribuio normal de mdia e varincia 2 pode ser transformada para uma varivel normal padro z, definida por z =
17

x .

Existem tabelas que fornecem reas da distribuio normal padro correspondentes a diversos valores de z. Uma delas, dada no apndice, d reas da normal padro acumulada. Exemplo 11 No exemplo 10, a) qual a probabilidade de uma pessoa escolhida ao acaso da populao ter altura menor que 1,74 m? b) Quanto por cento das pessoas da populao tm altura menor do que 1,74 m? c) Quanto por cento tm alturas entre 1,58 e 1,66 m? Em que intervalo simtrico em torno da mdia esto 86% das alturas? 9. USANDO O EXCEL Funes DIST.NORM(x; ; ; acumulada) INVNORM(p; ; ) DIST.NORMP(z) INVNORMP(p) PROBLEMAS: 8) Se z uma varivel com distribuio normal padro, calcule a probabilidade de z assumir um valor a) menor do que 1,26 b) maior do que 1,26 c) maior do que -2 d) entre -0,80 e 1,78 e) entre -1,96 e 1,96 9) Se x tem distribuio normal de mdia =10 e =2, calcule a probabilidade de x assumir um valor a) menor do que 12,5 b) maior do que 6,5 c) entre 6,5 e 12,5 10) Resolva o problema 8 usando a distribuio normal padro 11) Os grficos da figura 1 so de uma varivel x com distribuio normal de mdia 320 e desvio padro 25. Calcule os valores de x.

Probabilidade acumulada F(<x) se acumulada =VERDADEIRO e Funo densidade f(x) se acumulada=FALSO Inversa da normal: d x tal que a rea at ele p Normal padro acumulada: da rea at z Inversa da normal padro: d z para rea p

90% 47,5% 20% x x -x

47,5%

12) A figura ao lado representa uma distribuio normal padro. Calcule o valor de x 13) Uma varivel x tem distribuio normal de mdia 0,6 e desvio padro 0,04. Em que intervalo simtrico em torno da mdia se encontram 95% dos valores de x? e 99%? 14) Simule valores das distribuies contnuas constantes da ferramenta de anlise GERAO DE NMEROS ALEATRIOS.
18
5% -x x 5%

PROBLEMA PROPOSTO PP4) Suponha que a taxa de glicose no sangue das pessoas normais tenha distribuio normal de mdia 90 mg/dl e desvio padro 9 mg/dl. a) Quando uma pessoa poderia ser considerada com glicemia fora dos padres normais? b) Em geral, so aceitos como referncia para uma pessoa s os limites 70 e 110 mg/dl. Que rea da distribuio normal acima abrangida por esses limites? c) Ainda considerando essa distribuio normal, 90% das pessoas deveriam ter a taxa de glicose em que intervalo simtrico em torno da mdia? d) Simule 1000 valores desta distribuio, construa uma distribuio de freqncia e, a partir desta, responda as questes a) b) e c).

19

III. DISTRIBUIO AMOSTRAL 1. AMOSTRAGEM ALEATRIA Dada uma populao, qual est associada uma varivel de interesse, pretende-se retirar uma amostra de n elementos e, a partir desta amostra, estimar valores populacionais desconhecidos, tais como a mdia, proporo, desvio padro, etc. Um modo simples de amostragem a retirada da amostra de tal forma que, durante o processo de seleo, cada elemento da populao tenha igual probabilidade de ser escolhido. Seja uma populao de mdia e varincia 2. Para uma amostra com valores x1, x2, ..., xn, a mdia e a varincia sero indicadas respectivamente por x e s2, de modo a distinguir dos valores populacionais e 2. A mdia e a varincia da amostra so definidas por: x= 1 n

s2 =

1 n 1

(x

x )2 .

Esses valores baseados na amostra so chamados de estatsticas. Antes de considerar uma amostra individual, tomar-se- para estudo todas as diferentes amostras de tamanho n que podem ser obtidas da populao. Neste curso, quando a populao for finita, a amostragem ser com reposio. Para populaes infinitas, ou muito grandes, no importa se a amostragem com ou sem reposio. 2. DISTRIBUIO AMOSTRAL DA MDIA A mdia amostral uma varivel aleatria e possui uma distribuio de probabilidades chamada distribuio amostral da mdia. O mesmo acontece para varincia, desvio padro, etc Exemplo 1: Uma caixa possui a mesma quantidade de bolas com o nmeros 10, 20, 30, 40 e 50. Seja a varivel x = n0 da bola e todos os modos possveis de serem retiradas duas bolas desta caixa (isto , amostras de tamanho n=2), com reposio da primeira.
Amostras n=2 (10 (10 (10 (10 (10 (20 (20 (20 (20 (20 (30 (30 (30 (30 (30 (40 (40 (40 Mdia amostral 10 15 20 25 30 15 20 25 30 35 20 25 30 35 40 25 30 35 40 45 Populao (varivel x): (10; 20; 30; 40; 50) Distribuio de probabilidades x 10 20 30 40 50 prob 0,2 0,2 0,2 0,2 0,2
0,2

; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ;

10) 20) 30) 40) 50) 10) 20) 30) 40) 50) 10) 20) 30) 40) 50) 10) 20) 30)

mdia =30 2 varincia = 200

0 10 20 30 40 50

Distribuio amostral de mdias (n=2) x = mdia amostral

x
prob

10 15 20 25 30 35 40 45 50 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04

mdia = ( x ) = = 30 varincia = 2 (x ) = 20

(40 ; 40) (40 ; 50)

2 200 = = 100 n 2

(50 (50 (50 (50 (50 Mdia Varincia

; ; ; ; ;

10) 20) 30) 40) 50)

30 35 40 45 50 30 100

desvio padro = (x ) =

= 10

grfico da distribuio de mdias


0,2

10 15 20 25 30 35 40 45 50

Exemplo 2: Na populao do exemplo 1, qual a probabilidade de uma amostra de tamanho 2 ter mdia menor ou igual a 40? E entre 25 e 40, inclusivos? (R: 0,88 e 0,44) TEOREMA DO LIMITE CENTRAL Para amostras aleatrias relativas a uma varivel x associada a uma populao com mdia e varincia 2, a distribuio amostral da mdia x de amostras de tamanho n tem mdia e varincia 2/n. Se x normal, ento x tambm normal. Mesmo que x no seja normal, x se aproxima da normal a partir de determinados tamanhos da amostra (n>30). O desvio padro chamado erro padro da mdia. n Exemplo 3: Na populao do exemplo 1, qual a probabilidade de uma amostra de tamanho 64 ter mdia menor ou igual a 40? E entre 25 e 40? (Resp.: 0,9772 e 0,8186) 3. DISTRIBUIO AMOSTRAL DA PROPORO (ou freqncia relativa) Exemplo 4: Uma caixa contm 1/3 de bolas amarelas e 2/3 de bolas brancas (populao). Duas bolas so retiradas, uma a uma com reposio da primeira (amostras de tamanho 2), e observada a proporo (ou frequncia relativa) de bolas brancas.
Amostras n=2 (A (A (A (B 1 (B 1 (B 1 Proporo amostral 0 0,5 0,5 0,5 1 1 0,5 1 1 2/3 1/9 populao: varivel x tal que: x=1 a bola branca x=0 a bola no branca p= proporo de bolas brancas = 2/3 x 0 1 mdia = (x) = p =2/3 = 0,6667 2 prob 1-p p varincia = =p(1-p) =2/9=0,2222 Distribuio amostral de propores (n=2) p = proporo de bolas brancas na amostra (n=2)

; ; ; ; ; ;

A) B1) B2) A) B1) B2)

(B 2 ; A) (B 2 ; B1) (B 2 ; B2) mdia varincia

p
prob

0,5 1

mdia = ( p ) = p = 2/3 varincia = ( p ) = p(1-p)/n =1/9 = 0,1111


2

1/9 4/9 4/9

PROPRIEDADE Se n>30 a distribuio amostral de p se aproxima de uma distribuio normal de mdia = p e varincia 2 = p(1-p)/n.
21

Exemplo 5: No exemplo anterior, retirando-se 200 bolas da caixa, com reposio de cada bola, qual a probabilidade da proporo de bolas brancas ser menor do que 60%? (R: 0,0228) 4. USANDO O EXCEL PROBLEMAS: 1) Uma caixa contm bolas numeradas 6 e 9, na mesma proporo. Forme a distribuio amostral de mdias de amostras aleatrias de tamanho 3. Calcule a mdia e a varincia da distribuio. 2) Qual a probabilidade da mdia de uma amostra de tamanho 100 retirada da populao do exemplo anterior estar entre 6,5 e 7,8? 3) (Amostragem normal) Com a ferramenta GERAO DE NMERO ALEATRIO obter 1000 alturas de uma distribuio normal de mdia 1,62 m e desvio padro 0,08 m. Forme a distribuio de freqncias, calcule a mdia e o desvio padro. 4) Considere as alturas do problema 3 como sendo uma populao. Com a ferramenta AMOSTRAGEM, sorteie amostras de tamanhos 5, 10, 30 e 120. Calcule a mdia e desvio padro de cada amostra. 5) Considerando o problema 1, forme a distribuio amostral de varincias. Calcule a mdia dessa distribuio amostral. Observe que a mdia das varincias amostrais igual a varincia populacional. Isso justifica a diviso por (n-1) em lugar de (n) no clculo da varincia da amostra. 6) Estude no Excel, com a Ferramenta de Anlise AMOSTRAGEM, como funciona o mtodo de amostragem peridico.

22

IV. ESTIMAO DE PARMETROS

1. INTERVALO DE CONFIANA PARA A MDIA POPULACIONAL 10 caso: A varincia populacional 2 conhecida Seja x uma varivel aleatria de mdia (desconhecida) e desvio padro (conhecido). Do captulo anterior tem-se que a distribuio amostral de mdias x de amostras de tamanho n, quando x normal ou n suficientemente grande, tambm normal de mdia e desvio padro . n Na figura ao lado apresentado um intervalo simtrico em torno da mdia , de extremos e 0 e + e 0 , de tal modo que a probabilidade de x estar neste intervalo 1 , isto ,
P( e 0 x + e 0 ) = 1
1-

Pela distribuio normal padro calcula-se e0 ( + e 0 ) = z 0 , portanto e 0 = z 0 . n n Assim P( x z 0

/2 -e 0
z0

/2
0

+e 0
-z 0

x z

x + z0 ) = 1 e fica definido um intervalo de extremos n n n

x z0

que poder conter ou no a mdia populacional . Como esta um parmetro e no uma varivel aleatria, no tem sentido dizer que "a probabilidade cair no intervalo 1-", por isso diz-se que os extremos acima definem um intervalo de confiana para a mdia . A interpretao ser reforada no exemplo a seguir. Exemplo 1: Sabe-se que uma varivel x =altura de alunos tem desvio padro = 0,09m . Se em uma amostra de 36 alunos foi encontrada a mdia x =1,70 m, qual o intervalo de 95% de confiana para a mdia de x? E o intervalo de 90%? (com uma amostra grande como esta no necessrio conhecer o desvio padro populacional, pode ser usado o desvio padro amostral s) Se 1-=0,95 =0,05, ento z0=1,96 (ver tabela no apndice) e um intervalo de 0,09 , 95% de confiana para tem extremos 1 70 196 , , = 1 70 0,029 , ou seja 36 1,670< <1,729 Isso significa que 95% dos intervalos construdos com amostras de tamanho n=36, retiradas ao acaso desta populao, iro conter a mdia . Se =0,10 obtm-se um intervalo de 90% de confiana 1,675< <1,725 20 caso: A varincia populacional 2 desconhecida Neste caso, no se conhece a varincia populacional 2. Se a amostra
23

suficientemente grande, toma-se o desvio padro da amostra como um valor aproximado do desvio padro populacional. Ento, emprega-se a metodologia anterior com s em lugar de . Entretanto, se a amostra pequena, desde que a distribuio da populao seja normal, usa-se a distribuio t de Student. O intervalo ter extremos definidos por x t0 s n

onde t0 obtido da distribuio de t com n-1 graus de liberdade (ver Tabela 2 anexa). Observao: Enquanto z0 depende apenas de x , t0 depende de x e s. A distribuio de t simtrica em torno da mdia t=0 e tem a forma de sino. Ela se aproxima da normal conforme n cresce. Exemplo 2: A cronometragem de certa operao forneceu os seguintes valores para n=6 determinaes: 4; 5; 5; 6; 8 e 8 (em minutos). Supondo a cronometragem uma varivel com distribuio aproximadamente normal, calcule intervalos de 95% e 99% de confiana para a mdia populacional ..
Normal(0;1) t (5 gl)

-5

-4

-3

-2

-1

(R: mdia x = 6 , varincia s 2 = 2,8 e erro padro Se =0,05 t0=2,4469 e 4,3<<7,7 =0,01 t0=4,0321 e 3,2<<8,8) 2. INTERVALO DE CONFIANA PARA A PROPORO

s n

2,8 = 0,6831 , com 5 G.L. 6

Para estimar a proporo de elementos da populao com uma certa caracterstica usa-se a proporo p com que essa caracterstica foi observada em uma amostra. Desde que a amostra seja grande, pode-se tomar a distribuio normal como aproximao para a binomial. Um intervalo de confiana aproximado para p, ao nvel de confiana 1-, dado por p(1 p) p z0 n Exemplo 3: Retirando-se uma amostra de 100 itens da produo de uma mquina, verificou-se que 10 eram defeituosas. Encontre um intervalo de 95% de confiana para a proporo p de peas defeituosas dessa mquina. (R: entre 4% e 16%) 3. INTERVALO DE CONFIANA PARA A VARIANCIA Seja uma populao normal de mdia e varincia 2. Considerando-se as amostras
2 de tamanho n, com varincia s 2, desta populao, prova-se que a estatstica 0 =

(n 1)s 2 2

tem

distribuio de qui-quadrado ( 2 ) com n-1 graus de liberdade Um intervalo de confiana para 2, com base em uma amostra de tamanho n e varincia
24

s 2, ao nvel confiana 1-, dado por (n 1)s 2 (n 1)s2 2 2 2 INF SUP


2 onde INF e 2 definem na limites da distribuio de qui-quadrado correspondentes SUP probabilidade 1-.

Exemplo 3: Determine um intervalo de 95% de confiana para varincia populacional da varivel cronometragem do exemplo 2.
com 5 g.l. 1=0,95 /2=0,025
0 5
2 2 2 2

/2=0,025
10
2 2

15

INF=0,83

SUP= 1 2 , 8 3

5(2,8) 5(2,8) 2 ou 1,091< 2<16,867 Tomando a raiz 12,83 0,83 quadrado dos elementos dessa desigualdade determina-se um intervalo de confiana aproximado para o desvio padro: 1,044< 2<4,107) (R: s 2=2,8, n=6 e 4. TAMANHO DAS AMOSTRAS Pode-se estabelecer o tamanho n de uma amostra para obter um intervalo de confiana com uma semi-amplitude e0 pr-fixada. Por exemplo, no caso da mdia e 0 = z0 z n = 0 e n 0
2

Em geral, desconhecido e utiliza-se o desvio padro de uma amostra piloto suficientemente grande. Exemplo 4: Em relao varivel altura do exemplo 1, qual o tamanho de uma amostra para se obter um intervalo de 95% de confiana com e0 (semi-amplitude) aproximadamente igual a 2 cm? (R: n 78) 5. INTERVALO DE CONFIANA PARA A DIFERENA ENTRE DUAS MDIAS de populaes normais. Sejam duas populaes: Populao 1: varivel x1 com distribuio normal de mdia 1 e varincia 12 . Populao 2: varivel x2 com distribuio normal de mdia 2 e varincia 22 So retiradas aleatoriamente duas amostras de tamanhos n1 e n2, uma de cada 2 populao, cuja mdias so x 1 e x 2 e cujas varincias so s1 e s 2 , respectivamente. 2 Pretende-se estabelecer um intervalo de confiana para a diferena entre as mdias populacionais, desconhecidas, 1 2 . Conforme o nvel de confiana 1- adotado, so usados
25

valores z0 da distribuio normal, quando as varincias populacionais so conhecidas, e valores t0 da distribuio de t, quando se usa as varincias das amostras 10) As varincias populacionais so conhecidas Suposio: as amostras so obtidas independentemente ( x1 x 2 ) z 0 2 2 1 + 2 n1 n 2

20) As varincias populacionais so desconhecidas Suposies: as varincias populacionais podem ser consideradas iguais, isto , 12=22=2 e as amostras so obtidas independentemente 1 1 (x 1 x 2 ) t 0 .s + n1 n 2
2 (n1 1)s 1 + (n 2 1)s 2 2 onde s = n1 + n 2 2 2

OBS: Quando no possvel assumir que 12=22=2, calculado um intervalo de confiana aproximado ao nvel de 1- de confiana: ( x1 x 2 ) t 0
2 s1 s 2 + 2 n1 n2

onde t0 tem

( s 2 n1 + s 2 n 2 ) 2 1 2
2 ( s1 n1 ) 2 (s 2 n 2 ) 2 + 2 n1 + 1 n2 + 1

graus de liberdade

7. USANDO O EXCEL Funes DIST.NORM(x; ; p; acumulada) INVNORM(; ; p) DIST.NORMP(z) INVNORMP(p) DIST.QUI(x; graus de liberdade) INV.QUI(p; graus de liberdade) PROBLEMAS: FONSECA, J.S.; MARTINS, G.A. Curso de Estatstica. 3 ed. So Paulo: Ed. Atlas, 1981. 1) Foram retiradas 25 peas da produo diria de uma mquina, encontrando-se para uma certa medida uma mdia 5,2 mm. Sabendo-se que as medidas tm distribuio normal com desvio padro 1,2 mm, construir intervalos de confiana para a mdia aos nveis de 90%, 95% e 99%. (R: 4,81 5,59; 4,73 5,67; 4,58 5,82) 2) Em uma fbrica, colhida uma amostra de certa pea, obtiveram-se as seguintes medidas para os dimetros: 10; 11; 11; 11; 12; 12; 12; 12; 13; 13; 13; 13; 13; 13; 13; 13; 13; 13; 13; 13; 14; 14; 14; 14; 14; 15; 15; 15; 16; 16. a) Estimar a mdia e varincia b) Construir um intervalo de confiana para a mdia ao nvel de 5% de significncia (R: a) x = 13,13 ; s 2 = 2,05 b) 12,60 13,66)
26

Probabilidade acumulada se acumulada =VERDADEIRO e Funo densidade se acumulada=FALSO Inversa da normal Normal padro acumulada Inversa da normal padro Qui-quadrado Inversa da Qui-quadrado

3) Uma amostra de 300 habitantes de uma cidade mostrou que 180 desejavam a gua fluorada. Encontrar os limites de confiana de 90% e 96% para a proporo da populao favorvel a fluorao. (R: 0,55 p 0,65 ; 0,54 p 0,66) 4) Uma amostra de tamanho 36 foi extrada de uma populao normal de mdia 1 e varincia 2 = 9, dando mdia x 1 = 70 . Uma outra amostra de tamanho 25 foi extrada de outra populao normal de varincia 16, dando x 2 = 60 . Determinar o intervalo para 1 2 ao nvel de 96%. (R: 8,07 1 2 11,93) 5) Supondo populaes normais, construir o intervalo de confiana para a varincia ao nvel de 90% para as amostras: a) 44,9; 44,1; 43,0; 42,9; 43,2; 44,5 b) 2; 2; 2; 3; 3; 5; 5; 5; 5; 6; 6; 7; 7; 8. (R: a) 0,32 2 3,13 b) 2,25 2 8,13) BUSSAB, O.B., MORETTIN, P.A. Estatstica bsica. So Paulo: Ed. Atual. 1987. 6) Um pesquisador est estudando a resistncia de um determinado material sob determinadas condies. Ele sabe que essa varivel normalmente distribuda com desvio padro de 2 unidades. a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confiana para a resistncia mdia com um coeficiente de confiana 0,90. (R: 5,13<mdia< 7,32) b) Qual o tamanho da amostra necessrio para que o erro cometido, ao estimarmos a resistncia mdia, no seja superior a 0,01 unidades com probabilidade 0,90? (R: n=108222) c) Suponha que no item (a) no fosse conhecido o desvio padro. Como voc procederia para determinar o intervalo de confiana? (R: 5,50<mdia< 6,94) 7) Esto sendo estudados dois processos A e B para conservar alimentos, cuja principal varivel de interesse o tempo de durao dos mesmos. Nos dois processos o tempo segue uma distribuio normal de varincia 100 e mdias, respectivamente, A e B. Sorteiam-se duas amostras independentes: a amostra de A, com 16 latas, apresentou tempo mdio de durao igual a 50, e a de B, com 25 latas, durao mdia igual a 60. a) Construa um intervalo de confiana para A e B separadamente (R: 504,9 e 603,9) b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um intervalo de confiana para a diferena A - B. Caso o zero pertena ao intervalo, podese concluir que existe evidncia de igualdade dos processos. Qual seria a sua resposta? (R: 106,3, no inclui o zero) 8) Antes de uma eleio em que existiam 2 candidatos A e B, foi feita uma pesquisa com 400 eleitores escolhidos ao acaso e verificou-se que 208 deles pretendiam votar no candidato A. Construa um intervalo de confiana, ao nvel de 95%, para a porcentagem de eleitores favorveis ao candidato A na poca das eleies. (R: 0,5200,049) COSTA NETO, P.L.O. Estatstica. So Paulo: Ed. Edfgard Blucher, 1977. 9) Uma amostra extrada de uma populao normal forneceu os seguintes valores: 3,0; 3,2; 3,4; 2,8; 3,1; 2,9; 3,0; 3,2. Construa intervalos de 95% de confiana para a a) varincia da populao (R: 2,92<mdia<3,23) b) mdia da populao (R: 0,0159<varincia<0,1509) 10) Dadas duas amostras aleatrias de tamanhos 10 e 12, extradas de duas populaes normais independentes, as quais forneceram, respectivamente, x 1 = 20 , x 2 = 24 , s1 = 5,0 e s 2 = 3,6 ; estabelea um intervalo de 95% de confiana para a diferena entre as mdias populacionais. (R: 43,9)

27

V. TESTE DE HIPTESES

1. INTRODUO Problema ilustrativo: um fabricante de fruta em conserva afirma que os pesos das latas com o seu produto tm mdia 600 g e desvio padro 30 g. Suspeita-se, entretanto, que o peso mdio menor do que o anunciado. Pretende-se decidir se a suspeita sobre a mdia tem procedncia ou no, usando-se uma amostra aleatria, por exemplo, de 36 latas (por enquanto, o desvio padro ser considerado correto). Existem duas hipteses quanto a mdia da populao de pesos: uma, chamada hiptese nula, H0, de que = 600 g (ou 600 = 0 ) e outra, mais ampla, chamada hiptese alternativa, H1, de que < 600 g. Com base na mdia de uma amostra de aleatria de n = 36 pesos de latas com fruta em conserva, ser enunciado um critrio para decidir se H0 pode ser contrariada ou no. Portanto, feita uma determinada hiptese sobre um parmetro de uma populao, pretende-se saber se os resultados de uma amostra de tamanho n contrariam ou no tal afirmao. Seja a varivel x=peso, com mdia =600g e desvio padro =30g. A varivel aleatria x , mdia de amostras de n=36 pesos, ter distribuio aproximadamente normal de mdia 600 g e desvio 30 padro = 5 g. 36 Se a hiptese nula for verdadeira, o grfico da =0,05 figura representa a distribuio amostral de mdias de 36 pesos. Por exemplo, a probabilidade da mdia de 0,0228 uma amostra ser menor do que 590 g : 590 600 P( x < 590 ) = P(z < ) = P(z < 2) = 0,0228 585 590 595 600 605 610 615 5 591,8 isto , se o fabricante estiver certo, 2,28% das amostras de 36 latas possuem peso mdio menor que 590 g. Pode-se fixar uma probabilidade e determinar um valor x c de modo (100.)% das mdias amostrais sejam menores do que ele, ou seja, tal que P( x < x c ) = . Escolhendo = 0,05 tem-se: x 600 P( x < x c ) = P( z < c ) = 0,05 5 Como P(z < 1 64) = 0,05 , ento, , x c 600 = 1 64 x c = 591,8 g , 0,6406 5 Portanto, a probabilidade de uma mdia amostral de 36 pesos ser menor que 591,8g 0,05. Desde que a hiptese nula seja verdadeira, apenas 5% das mdias 575 580 585 590 595 600 605 610 615 amostrais sero menores do que 591,8g. 591,8 Se a informao do fabricante incorreta, ento a mdia real menor do que 600g e a probabilidade de uma mdia de 36 pesos ser menor do que 591,8g superior a 5%. Por exemplo, supondo que a mdia correta seja 590g, a probabilidade de obter uma amostra de mdia menor do que 591,8 64,06% (ver figura) Concluso: Se a mdia x 0 de uma amostra de 36 pesos for menor que x c = 591,8 g, tem-se uma das duas alternativas abaixo: a) O fabricante est certo, a mdia da populao de pesos =600 g e foi obtida uma amostra com to pouca chance de ocorrer por puro acaso. b) O fabricante no diz a verdade, pois obteve-se tal mdia amostral porque a probabilidade de
28

sua acorrncia no era to pequena, ou seja, a mdia da populao menor do que 600 g (<600 g). Com qual alternativa ficar? Critrio: Observe que foi fixado um valor razoavelmente pequeno para , no caso =0,05, determinou-se x c = 591,8 , tal que a probabilidade de qualquer mdia de amostra de tamanho n=36 ser menor que x c 0,05, quando a mdia da populao =600g e o desvio padro =30g. Retirando-se uma amostra, cuja mdia x 0 , pode-se estabelecer o seguinte: Se x 0 > x c aceita-se H0 Se x 0 x c rejeita-se H0, aceitando H1 Pelo que foi discutido, rejeitando H pode-se estar cometendo um erro, chamado erro 0 do tipo I (rejeitar H0 quando ela deveria ser aceita). A probabilidade de cometer um erro do tipo I igual a . Em geral, = 0,05 ou = 0,01 e chamado nvel de significncia do teste. Aceitando-se H0, tambm pode-se estar cometendo um erro, chamado erro do tipo II (aceitar H0 quando ela deveria ser rejeitada). Para calcular a probabilidade de cometer um erro do tipo II preciso conhecer a mdia populacional, o que raramente ocorre na prtica. Portanto, em um teste de hiptese a maior preocupao com o erro do tipo I, cuja probabilidade conhecida. Tem-se uma deciso estatsticamente forte quando se rejeita H0. Observaes: 10) Em vez de verificar se x 0 < x c pode-se verificar se x 600 x 0 z0 = 0 1 64 , isto , se 0 , zc , onde 5

n
x 0 a mdia da amostra, 0 o valor hipottico da mdia e z c o valor da normal padro para o nvel de significncia . A correspondncia entre xc = 591,8 e
=0,05
591,8

600 0 605 1 610 2 615 3

585 -3

590

595

z c = 1,64 pode ser observada na figura.

-2 -1,64 -1

20) A regio em que se rejeita H , quando a mdia da amostra pertencer a ela, chamada 0 regio crtica. 30) No exemplo ilustrativo acima foi utilizado um teste uni-caudal. Em geral interessa um teste bi-caudal, isto , testar H : = 0 0 contra H1: 0. Neste caso a regio crtica como da figura, x 0 isto , rejeita-se H0 se z 0 z c ou z 0 zc onde z 0 = 0

/2 -z c 0 zc

/2

n x 0 40) Tomando-se o intervalo z c z 0 z c , tem-se z c 0 z c ou fazendo = 0 n x zc n x + zc n que o intervalo de 1- de confiana para a mdia .

50) A distribuio de x deve ser normal, ou prxima dela. As hipteses e o nvel de significncia do teste devem ser escolhidos antes das observaes serem obtidas. As hipteses sugeridas pelas observaes no tm valor cientfico.
29

2. TESTE DE UMA MDIA Os passos que compem o procedimento de um teste de mdia esto resumidos abaixo. Aqui, foi includo o caso de no se conhecer o desvio padro, o que mais comum na prtica. (I) Enunciar as hipteses H0: = 0 contra H1: 0 (ou <0, ou ainda, >0) (II) Fixar o nvel de significncia (III) Determinar a regio crtica (regio de rejeio de H ). Se for conhecido, usar a varivel 0 normal padro z e se for desconhecido usar a varivel t de Student com n-1 graus de liberdade. (IV) Calcular a estatstica do teste (t de Student ou normal padro) x 0 t0 = 0 s n onde 0 o valor hipottico da mdia , enquanto, x 0 , s e n so, respectivamente, a mdia, o desvio padro e o tamanho da amostra. (V) Se t0 pertencer regio crtica, rejeitar H0, caso contrrio, aceitar H0. Exemplo 1: Em indivduos sadios, o consumo renal de oxignio distribui-se normalmente em torno de 12 cm3/min. Deseja-se investigar, com base em 9 indivduos portadores de certa molstia, se esta tem influncia sobre o consumo renal de oxignio. O consumo mdio para os 9 pacientes foi x =12,84 cm 3/min e o desvio padro s = 0,9 cm 3/min. Qual a concluso ao nvel de 5% de significncia? E ao nvel de 1%? (R: t0=2,8. Rejeita-se H0 ao nvel de 5% mas no a 1%. O valor de tc , com 8 g.l., obtido da tabela anexa: t=2,31 para =0,05 e t=3,36 para =0,01) OBSERVAO: Devido a facilidade do uso de computadores, vem sendo adotado outro procedimento para a construo da regio crtica. Consiste em determinar o p-valor. No exemplo anterior, obteve-se a estatstica t0 igual a 2,8. Ento, o p-valor corresponde a uma regio crtica limitada por -2,8 e 2,8 (se o teste unicaudal usa-se apenas um desses valores como limite). Neste exemplo, o p-valor 0,0232 e, portanto, rejeita-se a hiptese nula ao nvel de 0,05 de significncia, mas no ao nvel de 0,01 (faa uma figura para interpretar este resultado)

3. TESTE DE UMA VARINCIA POPULACIONAL


2 2 Hipteses: H 0 : 2 = 2 contra H1 : 0 0 > <

Estatstica do teste (qui-quadrado): 2 = 0 o tamanho da amostra.


4. TESTE DA DIFERENA DE VARINCIAS

2 (n 1)s 1

2 0

com n-1 graus de liberdade, onde n

2 2 2 Hipteses: H 0 : 1 2 = 0 contra H1 : 1 2 0 2 >

<

Estatstica do teste (F de Snedcor): F0 =


30

2 s1 s2 2

com n1 1 graus de liberdade para o

numerador e n 2 1 graus de liberdade para o denominador.


2 Observao: chamamos de s 1 a maior das duas varincias amostrais

5. TESTES DA DIFERENA DE MDIAS

Pretende-se determinar se existe diferena entre as mdias 1 e 2 (desconhecidas) de


2 duas populaes de varincias 1 e 2 (conhecidas ou no). 2

hipteses: H 0 : 1 2 = 0 contra H1 : 1 2 0
>

<

So obtidas duas amostras aleatrias, uma de cada populao, de mdias x 1 e x 2 ,


2 varincias s 1 e s 2 (isto , desvios padro s 1 e s 2 ) e tamanhos n1 e n 2 . Condies: as 2 populaes tm distribuio normal ou as amostras so grandes (maiores que 30)

1) Duas amostras independentes e as varincias populacionais so conhecidas Estatstica do teste (normal padro): z 0 =
x1 x 2
2 1 2 + 2 n1 n2

2) Duas amostras independentes presumindo varincias populacionais equivalentes Estatstica do teste (t de Student):
t0 = s x1 x2 1 1 + n1 n 2
2 (n 1 1)s 1 + ( n 2 1)s 2 2 com gl = n1 + n 2 2 n1 + n 2 2

onde s 2 =

3) Duas amostras independentes presumindo varincias populacionais diferentes

Estatstica do teste (t de Student): t 0 =

x1 x2
2 s1

n1 liberdade

s2 2 n2

com

( s 2 n1 + s 2 n 2 ) 2 1 2
2 ( s1 n1 ) 2 (s 2 n 2 ) 2 + 2 n1 + 1 n2 + 1

2 graus de

4) Duas amostras (dependentes) cujos valores podem ser colocados em par. Obtm-se as diferenas dos n pares de valores d i = x i y i . Calcula-se a mdia d e o desvio padro s d .

Estatstica do teste (t de Student): t 0 =

d sd n

com n-1 graus de liberdade

31

6. USANDO O EXCEL Funes TESTEZ(matriz; 0; sigma) COMPARA UMA MDIA COM UM VALOR 0 matriz o intervalo de dados; 0 o valor do teste; sigma o desvio padro da populao (se omitido, o testez usa o desvio padro da amostra) COMPARA DUAS MDIAS (usa desvio padro da amostra) matriz1 e matriz2 so os dois conjuntos de dados; se caudas=1 retorna o t uno-caudal e se caudas=2 retorna o t bicaudal; tipo se refere ao teste de diferena de mdias a ser executado: tipo=1, par, tipo=2, varincias iguais e tipo=3, varincias desiguais COMPARA DUAS VARINCIAS matriz1 e matriz2 so os dois conjuntos de dados.

TESTET(matriz1; matriz2; caudas; tipo)

TESTEF(matriz1; matriz2)

Ferramentas TesteZ: duas amostras para mdias TesteT: duas amostras presumindo varincias equivalentes TesteT: duas amostras presumindo varincias diferentes TesteT: duas amostras em par para mdias TesteF: duas amostras para varincias PROBLEMAS: 1) Em relao ao problema apresentado na introduo, suponha que tenha sido obtida uma amostra de 36 latas com os seguintes pesos: 613,6; 581,4; 640,9; 621,8; 635,6; 580,7; 625,2; 541,0; 607,6; 557,6; 593,1; 616,1; 618,5; 591,5; 601,9; 552,9; 583,6; 595,0; 561,7; 602,0; 626,0; 597,8; 597,3; 601,9; 564,6; 561,4; 649,0; 586,6; 572,0; 573,5; 605,7; 607,7; 609,4; 593,7; 599,9; 569,9. Usando as frmulas dadas na introduo, pede-se: a) ao nvel de 1% de significncia o fabricante tem razo? b) e ao nvel de 5%? c) Tomando como base esta amostra, qual o nvel de significncia acima do qual o fabricante teria razo de afirmar que a mdia 600, isto , acima do qual a hiptese nula aceita? 2) Resolva o problema anterior usando a funo TESTEZ, Se o desvio padro populacional, =30 g no fosse conhecido, ainda assim poderia ser usada a funo TESTEZ? 3) Resolva o exemplo 1 tendo sido obtida a seguinte amostra do consumo renal de oxignio: 12,3; 13,1; 11,9; 11,2; 11,6; 11,9; 11,6; 11,0; 10,5. Observao: a amostra proveniente de uma distribuio normal. 4) Pretende-se testar hipteses, ao nvel de 5% de significncia, sobre a varincia populacional referente ao problema anterior. a) Use um teste uni-caudal para verificar se a varincia menor do que 0,6. b) Use um teste bi-caudal para verificar se a varincia diferente de 0,6. Observao: na prtica, apenas uma dessas hipteses testada 5) Uma mquina enche automaticamente latas pequenas com fermento. Em certo dia retira-se 12 latas da produo obtendo-se os seguintes pesos das latas (em gramas): 59,4; 57,4; 60,5; 62,6; 62,3; 63,5; 55,6; 59,5; 62,3; 57,8; 58,6; 56,6. No dia seguinte retira-se uma amostra de 15 latas obtendo-se os pesos: 60,5; 58,0; 61,5; 62,9; 56,7; 61,2; 62,3; 60,9; 61,3; 62,1; 63,1; 62,0; 63,7; 60,7; 59,2. a) Teste se a varincia do primeiro conjunto de dados maior do que a do segundo, ao nvel de 5% de significncia? (como a mquina a mesma, em princpio, a variabilidade deve ser
32

a mesma. Entretanto a mquina pode estar desregulada, mudando a mdia) b) Qual o p-valor e o que significa? 6) No problema anterior sabe-se que a variabilidade dos pesos , em qualquer dia, =4 g. a) H evidncia, ao nvel de 5% de significncia, de que as mdias dos pesos das latas mudaram de um dia para o outro (para mais ou para menos, no importa)? b) Com essas amostras, at que nvel significncia a hiptese nula pode ser rejeitada? Na prtica, este problema tem sentido porque a mquina pode sofrer uma desregulagem quanto ao peso de enchimento das latas. 7) Resolva o problema 6 considerando desconhecido. 8) Duas mquinas de marcas diferentes esto sendo testadas quanto ao enchimento de latas de fermento. A primeira delas encheu 10 latas dando os pesos: 54,9; 59,0; 57,9; 53,6; 57,3; 56,6; 56,3; 60,4; 57,5; 55,3. A segunda, mais moderna, encheu tambm 10 latas com os seguintes pesos: 59,0; 58,9; 58,6; 59,4; 60,6; 60,4; 59,9; 59,1; 58,8; 60,6. a) Supe-se que a preciso da mquina mais moderna maior do que a outra. Isso verdade a que nvel de significncia? b) Pode-se afirmar que os pesos mdios de enchimento da duas mquinas so significativamente diferentes, ao nvel de 5%? c) Qual o menor nvel de significncia ao qual pode ser afirmado que as mdias so diferentes. 9) Sete cobaias da mesma idade e raa foram submetidas ao tratamento com certa rao durante uma semana. Os pesos, em gramas, no incio e no fim do tratamento so dados na tabela abaixo. a) Ao nvel de 5% de significncia , pode-se concluir que houve um aumento do peso mdio das cobaias? b) E ao nvel de 1%? c) Qual o p-valor? 10) Resolver os problemas de 5 a 9 usando as ferramentas de anlise do Excel

PROBLEMAS DA LITERATURA MENDENHALL, W. Probabilidade e Estatstica. Vol 2. Rio de Janeiro: Ed. Campus, 1985. 11) Um fabricante de cigarros afirma que seu produto no contm mais que 25 miligramas de nicotina. Uma amostra de 16 cigarros dessa marca revelou uma mdia de 26,4 e desvio padro de 2,0 mg de nicotina. Estes dados indicam, com evidncia suficiente, que o fabricante est mentindo? Considere =0,05 12)* Simule uma amostra de 16 valores de nicotina em cigarros, supondo que o teor de nicotina siga uma distribuio normal de mdia 25 e desvio padro 2,0 mg. Com base nesta amostra, resolva o problema anterior. 13) Os resduos industriais jogados nos rios, muitas vezes, absorvem oxignio, reduzindo assim o contedo de oxignio necessrio respirao dos peixes e outras formas de vida aqutica. Uma lei estadual exige um mnimo de 5 partes por milho de oxignio dissolvido, a fim de que o contedo de oxignio seja suficiente para manter a vida aqutica. Seis amostras de gua retiradas de um rio de uma localidade especfica, durante a mar baixa, revelaram 4,9; 5,1; 4,9; 5,0; 5,0 e 4,7 partes por milho de oxignio dissolvido. Estes dados tm evidencia suficiente para assegurar que o contedo de oxignio dissolvido menor que
*

Problema baseado no problema 1 (no consta do livro) 33

5 partes por milho? Use o nvel de significncia 0,05. 14) Retorne ao problema anterior. Um fiscal de controle de poluio suspeitou de que esse rio estava recebendo guas semitratadas do esgoto de uma cidade situada sua margem. Para verificar suas suspeitas, recolheu 5 amostras de gua desse rio, em uma localidade situada ao norte e 5 amostras de locais ao sul dessa cidade. Obteve os seguintes dados em partes por milho (ppm): Locais ao Norte 4,8 5,2 5,0 4,9 5,1 Locais ao Sul 5,0 4,7 4,9 4,8 4,9 Esses dados indicam evidncia suficiente de que o contedo mdio de oxignio dissolvido nas guas do trecho do rio que passa nos locais situados ao norte da cidade que est sendo considerada menor que o contedo mdio de oxignio das guas de locais ao sul da cidade? Teste considerando =0,05 15) Oito pessoas obesas foram submetidas a uma dieta durante um ms, medindo-se seu peso no incio e no fim do perodo de teste. Os dados obtidos esto na tabela a seguir.
a) Estime a mdia da perda de peso dessas pessoas, quando sujeitas dieta durante um ms.

b) Determine um intervalo de 95% de confiana para a perda de peso dessas pessoas Sujeitos 1 2 3 4 5 6 7 8 Peso inicial 310 295 287 305 270 323 277 299 Peso final 263 251 249 259 233 267 242 265 16) A taxa de colesterol presente no sangue de alguns pacientes aleatoriamente selecionados foi comparada, levando-se em conta duas dietas, uma com baixo teor de gordura e outra normal. As mdias, varincias e tamanhos das amostras testadas foram, respectivamente: 170; 198 e 19 para dieta com baixo teor de gordura e 196; 435 e 24 para dieta normal. a) H, nos dados, evidncia suficiente que indique uma diferena de varincia entre populaes de pacientes de onde essas amostras foram extradas? Use =0,10 b) Porque a resposta do item anterior importante para se determinar se a dieta com baixo teor de gordura ou no mais eficiente que a dieta normal, para reduzir a taxa de colesterol no sangue? BUSSAB, O.B., MORETTIN, P.A. Estatstica bsica. So Paulo: Ed. Atual. 1987. 17) A precipitao pluviomtrica anual numa certa regio tem desvio padro =3,1 e mdia desconhecida. Para os ltimos 9 anos, foram obtidos os seguintes resultados: 30,5; 34,1; 27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8. a) Construa um teste de hipteses para saber se a mdia de precipitao pluviomtrica anual maior que 30,0 unidades. Utilize um nvel de significncia de 5%. b) Discuta o mesmo problema, considerando desconhecido c) Supondo que, na realidade, = 33,0, qual a probabilidade de tirarmos uma concluso errada? (nota: ao nvel de 5%) 18) Uma das maneiras de manter sob controle a qualidade de um produto controlar a sua varincia. Uma mquina de encher pacotes de caf est regulada para ench-los com um desvio padro de 10 g e mdia 500 g. O peso de cada pacote segue uma distribuio normal. Colheu-se uma amostra de 16 pacotes e observou-se uma varincia s2 = 169 g2. Com esse resultado, voc diria que a mquina est desregulada em relao varincia? (nvel de 5%) 19) Uma fbrica de embalagens para produtos qumicos est estudando dois processos para combater a corroso de suas latas especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos valores esto no quadro abaixo. Qual seria a concluso sobre os dois tratamentos?

34

Mtodo A B

Amostra 15 12

Mdia 48 52

Desvio padro 10 15

20) Para verificar a influncia da opo profissional sobre o salrio inicial de recm-formados, investigaram-se dois grupos de profissionais: um de liberais em geral e outro de formados em Administrao de Empresas. Com os resultados abaixo, expressos em salrios mnimos, quais seriam suas concluses? Liberais 6,6 10,3 10,8 12,9 9,2 12,3 7,0 Administradores 8,1 9,8 8,7 10,0 10,2 10,8 8,2 8,7 10,1 21) Um mdico deseja saber se uma certa droga reduz a presso arterial mdia. Para isso, mediu a presso arterial de cinco voluntrios, antes e depois da ingesto da droga, obtendo os dados do quadro abaixo. Voc acha que existe evidncia estatstica de que a droga realmente reduz a presso arterial mdia? Que suposies voc fez para resolver o problema? Voluntrio A B C D E Antes 68 80 90 72 80 Depois 60 71 88 74 76

RESPOSTAS DOS PROBLEMAS: 1) z 0 = -1,00 a) valor crtico z C =-2,33, no b) z C = -1,64, no c) 15,78% 3) t0 = 1,28 a) valor crtico tC = 2,31, aceita-se H0 b) valor crtico tC = 3,36, aceita-se H0. Obs.: pvalor = 0,2379 ou 23,79%
2 2 2 4) 0 = 7,66 a) valor crtico c = 15 ,51 , aceita-se H0 b) inf erior = 2,18 e 2 superior = 17,53 , aceitase H0. 5) F0 = 1,67 a) valor crtico Fc = 2,57, aceita-se H0 b) p-valor = 0,1802 6) z 0 = -4,52 e valor crtico z c = 1,96, sim b) 0,000006 7) t0 = 4,44 e valor crtico z c = 2,06, sim b) 0,0002 ou 0,02%) 8) F0 = 6,61. Maior que 0,0048 b) t0 = 3,90. Sim c) 0,0021, isto , 0,21%) 9) t0 = 2,81 a) t crtico: tc = 2,45, sim b) tc = 3,71, no c) 0,0308) 11) t0 = 2,80, rejeitar H0. 13) t0 = 1,195; no rejeitar H0 14) No, t0 = 1,606, no rejeitar H0 15) a) t0 = 15,86, rejeita-se H0 b) 45,13 6,28) 16) Sim, F0 = 2,197 19) p-valor 0,4146 20) p-valor 0,6421) 21) teste uni-caudal p-valor 0,0524)

PROBLEMA PROPOSTO P5) Encontre na literatura especializada problemas biolgicos aos quais podem ser empregados mtodos deste captulo.

35

VI. COMPARAO DE VRIAS MDIAS 1. ANLISE DE VARINCIA (ANOVA) 1.1. Classificao simples ou experimento de um fator Problema ilustrativo: Uma industria pode optar entre trs mquinas distintas, A, B e C para realizar a mesma tarefa e pretende escolher uma delas com base no menor tempo de execuo da tarefa. Supe-se, neste problema, que o tempo de execuo depende de um nico fator, o tipo de mquina. Este fator possui 3 nveis: mquina A, mquina B e mquina C. Para a tomada de deciso, convocaram-se 12 operrios, os quais foram divididos aleatoriamente em trs grupos de 4 operrios, sendo cada grupo designado para executar a tarefa em uma mquina. O tempo, em minutos, gasto pelos operrios na execuo da tarefa esto na tabela abaixo. Mquina B C 5,5 10,0 5,1 9,2 7,8 7,8 6,4 10,2 6,2 9,3 mdia geral

mdia

A 6,1 7,0 8,1 5,6 6,7

7,4

Considerando os resultados das mquinas A, B e C como amostras de populaes distintas de mdias desconhecidas, respectivamente iguais a A, B e C , pretende-se testar a hiptese nula de que essas mdias so iguais, contra a hiptese alternativa de que pelo menos duas mdias so diferentes entre si. Em smbolos, a hiptese nula indicada por H0 : A=B=C = De modo geral, o fator em estudo chamado tratamento, com k nveis e n repeties em cada nvel, dispostos como na tabela abaixo. repetio 1 2 ... n mdia 1 x11 x12 ... x1n
x1

tratamento 2 x21 x22 ... x2n


x2

...

k xk1 xk2 ... xkn


xk

mdia geral

Cada xij representa o valor da repetio j do tratamento i, sendo i=1,2,...,k e j=1,2,...,n. A hiptese nula a ser testada H0: 1=2= ... =k = Para o exposto a seguir deve-se ter: as repeties nos nveis dos tratamentos so amostras de populaes com distribuies normais de varincias todas iguais a 2. A base da Anlise de Varincia est no seguinte: se a hiptese nula H0 verdadeira, existem trs modos de estimar a varincia 2, comum s k=3 populaes. 10 modo) As k=3 amostras podem ser consideradas como provenientes de uma nica populao de mdia e varincia 2. Assim, os kn = 3 4 = 12 valores de tempos de execuo da tarefa podem ser reunidos para formar uma s amostra. Com base nesta amostra uma estimativa da varincia 2, indicada por s 2 , total
36

s2 = total

1 k kn 1 i=1

( xij x) 2 = 11 [(6,1 7,4)2 + (7,0 7,4) 2 + ... + (10,2 7,4) 2 ]


1
j=1

33,64 = 3,0582 11 20 modo) A varincia estimada pelas mdias x 1 = 6,7 ; x 2 = 6,2 ; x 3 = 9,3 das k=3 amostras, as quais podem ser consideradas como provenientes da mesma populao de = 2 ou n 2 = n 2 . Uma estimativa de 2, indicada por s 2 , obtida multiplicando-se n=4 entre x por uma estimativa da varincia das k=3 mdias amostrais. Obtm-se: varincia 2. Como visto anteriormente, a varincia das mdias ser 2 = x s2 entre = = n k 4 [( x i x ) 2 ] = [( 6,7 7,4 ) 2 + (6,2 7,4) 2 + (9,3 7,4 )2 ] k 1 i=1 2

22,16 = 1108 , 2 0 3 modo) Uma estimativa da varincia 2 dada pela mdia das k=3 varincias das n=4 amostras. Esta estimativa, indicada por s 2 dentro , s2 dentro = = 1 1 k n 1

( xij x i ) 2 =
i=1 j=1

1 [(6,1 6,7) 2 + ... + (5,6 6,7 )2 + (5,5 6,2) 2 + ... + (10,0 9,3) 2 + ... + (10,2 9,3 ) 2 ] 9 11,48 = = 1,2756 9 Como o mtodo s valido quando as varincias das k populaes so iguais a 2, esta ltima estimativa independe de H ser verdadeira. Quando H for falsa, s 2 0 0 entre tende a estimar 2 um valor maior que , ou seja, pelo menos uma mdia populacional deve ser diferente das
2 demais. Portanto, a hiptese original pode ser substituda pela hiptese de que s 2 entre e s dentro

estimem a mesma varincia 2. Pode-se provar que, se H0 for verdadeira, as estimativas s 2 entre e s2 dentro so independentes e, assim,. apropriado o teste F para verificar se elas diferem significativamente de 1. Tem-se um F0 amostral dado por: F0 = s2 1108 , entre = = 8,69 2 sdentro 1,2756

Ao nvel de 5% de significncia, o valor crtico Fc = 4,26 (ver tabela anexa) e, ento


2 F0>Fc . Isso quer dizer que s 2 entre significativamente maior do que s dentro e, portanto, pelo menos duas mdias diferem significativamente entre si, ou seja, rejeita-se H . Mais adiante 0 ser discutido quais mdias so diferentes.

OBSERVAES IMPORTANTES: a) Foi realizada uma comparao de varincias, mas as concluses de interesse so sobre as mdias b) As trs somas que aparecem nas expresses das estimativas das varincias so chamadas de Somas de Quadrados (SQ): SQTotal= 33,64; SQEntre= 22,16 e SQDentro= 11,48. Os denominadores so os graus de liberdade (gl) dessas somas, respectivamente, 11, 2 e 9. As estimativas das varincias, tambm chamadas de Mdias Quadrticas (MQ), representam o quociente entre as somas de quadrados e os respectivos graus de
37

c)

d) e)

f)

liberdade. vlida a seguinte relao: SQDentro = SQTotal SQEntre . Uma relao deste tipo ocorre tambm entre os graus de liberdade associados a essas somas. Portanto, basta calcular SQTotal e SQEntre e obter SQDentro por subtrao. De modo anlogo obtido o n0 de graus de liberdade associado SQDentro. Outros nomes so atribudos s somas de quadrados ou s mdias quadrticas SQEntre = SQEntre Grupos = SQTratamento = SQMquinas SQDentro = SQDentro de Grupos = SQResduo = SQErro Deve-se entender que os resultados de um experimento variam por diversos motivos, Na anlise de um fator, a variao total identificada por duas fontes (ou causas): uma devido aos tratamentos (mquinas) e outra, o resduo (ou erro) que reuni todas as fontes restantes da variao. Os valores necessrios anlise costumam ser indicados em uma tabela de Anlise de Varincia. Fonte de Variao SQ gl MQ F0 F crtico Mquina 22,16 2 11,08 8,69 4,26 Resduo 11,48 9 1,2756 Total 33,64 11

g) No utilizada a Mdia Quadrtica Total porque ela no independente das demais. 1.2. Classificao dupla ou experimento de dois fatores Problema ilustrativo: O experimento de um fator do item anterior, onde uma indstria est testando a eficincia de trs mquinas, pode ser planejado de forma a isolar, alm da variao devida s mquinas, a variao causada pela menor ou maior habilidade individual dos operrios. Supe-se, neste problema, que o tempo de execuo depende de dois fatores, o tipo de mquina e o operrio. Para a tomada de deciso, so selecionados, por exemplo, 4 operrios para atuarem em todas as mquinas. O tempo, em minutos, gasto por cada operrio na execuo da tarefa nas k=3 mquinas esto na tabela abaixo. Foram usados os mesmos dados do exemplo anterior para efeito de comparao, mas deve-se entender que o planejamento diferente e os resultados seriam outros. Mquina B C 5,5 10,0 5,1 9,2 7,8 7,8 6,4 10,2 6,2 9,3

Operrio 1 2 3 4 mdia

A 6,1 7,0 8,1 5,6 6,7

mdia 7,2 7,1 7,9 7,4 7,4

Neste caso, existem duas hipteses nulas a serem testadas, que so: igualdade dos tempos mdios de mquina H : A=B=C e igualdade de tempos mdios de operrios H : 01 02 1=2=3=4. De modo geral, se um fator possui k nveis e o outro n nveis, os resultados podem ser apresentados como na tabela abaixo. Na tabela, cada xij o resultado de um tratamento, o qual corresponde ao nvel i do fator 1 (de mdia x i ) combinado com o nvel j do fator 2 (de mdia x j ), sendo i=1,2,...,k e j=1,2,...,n. As hipteses nulas a serem testadas so H01: 1 = 2 = ... = k , referente ao fator 1 e H02 : 1 = 2 = ... = n , referente ao fator 2.
38

Fator 2 1 2 ... n mdia

1 x11 x12 ... x1n

Fator 1 2 x21 x22 ... x2n

... ... ... ... ... ...

k xk1 xk2 xkn

mdia

x 1 x2
...

xn
x

x1

x 2

xk

Sob a hiptese de que as observaes so provenientes de uma distribuio normal de varincia 2 e se as hipteses nulas forem verdadeiras, esta varincia pode ser estimada de quatro formas. Aparecem, agora, duas Somas de Quadrados Entre: a SQEntre Linhas = SQMquina e a SQEntre Colunas = SQOperrio. Assim, as estimativas da varincia comum 2 so dadas por (as duas primeiras foram calculadas anteriormente) s2 = total 1 k kn 1 i =1

( x ij x) 2 = MQTotal =
j =1
k

SQTotal 33,64 = = 3,0582 kn 1 11

2 s coluna =

n SQColunas 22,16 [(x i x ) 2 ] = = = 1108 , k 1 i= 1 k 1 2

2 s linha =

k n 1

[(x
j =1

x) 2 ] =

SQLinhas = n 1

1 1,14 = [3(7,2 7,4 )2 + 3(7,1 7,4 )2 + 3(7,9 7,4 )2 + 3(7,4 7,4) 2 ] = = 0,38 3 3 SQ Re sduo 10,34 2 s2 = = 17233 , dentro = s R = MQ Re sduo = (k 1)(n 1) 6 onde SQRe sduo = SQTotal SQColunas SQLinhas = 33,64 22,16 1,14 = 10,34 e o nmero de graus de liberdade correspondente igual a (kn 1) (k 1) (n 1) = (k 1)(n 1) . A hiptese H01: A=B=C testada por F01 = MQColuna 11 08 , = = 6,43 , MQ Resduo 17233

Ao nvel de 5% de significncia; 2 e 6 graus de liberdade para o numerador e denominador, respectivamente, o F crtico vale Fc1 = 5,14 . Como F01>Fc1, rejeita-se H01. Portanto, ao nvel de 5% de significncia, pode-se concluir que pelo menos um efeito mdio de mquina diferente dos outros. A hiptese H : 1=2=3=4, por sua vez, testada pela comparao das Mdias 02 Quadrticas Entre Linhas e do Resduo, ou seja, MQLinha 0,38 F02 = = = 0,22 , MQ Resduo 17233 Ao nvel de 5% de significncia; 3 e 6 graus de liberdade, tem-se Fc2=4,76 e no se rejeita a hiptese nula. Portanto, aceita-se que no h diferena significativa nos tempos mdios dos operrios. Se esta hiptese no for de interesse, no precisa ser testada. O quadro da anlise de varincia fica: Fonte de Variao SQ Mquina 22,16 Operrio 1,14 Resduo 10,34 Total 33,64 * significativo ao nvel de 5% gl 2 3 6 11
39

MQ 11,08 0,38 1,7233

F0 F crtico 6,43* 5,14 0,22 4,76

1.3. Classificao dupla ou experimento de dois fatores, com repetio Problema ilustrativo: O experimento, apresentado como ilustrao deste captulo, pode ser planejado de modo a medir a interao maquina x operrio. Isto , verificar se os tempos de execuo da tarefa sofrem influncia da maior ou menor dificuldade que um determinado operrio enfrenta ao lidar com alguma mquina. Por exemplo, observa-se que o operrio 4 levou 5,6 min para executar a tarefa na mquina A e um tempo maior, 6,4 min, para executar a mesma tarefa na mquina B. Os outros trs operrios, ao contrrio, levaram mais tempo na mquina A e menos na mquina B. Pode estar havendo uma interao dos operrios com o tipo de mquina. Para medir esse efeito necessrio que os operrios repitam as operaes nas mquinas. Supondo que tenham sido obtidos os resultados da tabela Mquina B 6,5 4,5 6,0 4,2 6,8 8,8 5,6 7,2

Operrio 1 2 3 4

A 6,9 5,3 6,0 8,0 9,2 7,0 6,5 4,7

6,1 7,0 8,1 5,6

5,5 5,1 7,8 6,4

C 10,9 9,1 10,2 8,2 8,6 7,0 11,1 9,3

mdia 10,0 9,2 7,8 10,2 7,2 7,1 7,9 7,4

Mdia 6,7 6,2 9,3 7,4 1 88,02 s2 = [(6,9 7,4) 2 + (5,3 7,4 )2 + (6,0 7,4) 2 + ... + (9,3 7,4) 2 ] = = 3,6675 total 24 1 23 1 44,32 2 s coluna = 8[(6,7 7,4 )2 + (6,2 7,4) 2 + ... + (9,3 7,4) 2 ] = = 22,1600 3 1 2 1 2,28 2 s linha = 6[( 7,2 7,4 ) 2 + (7,1 7,4) 2 + ... + (7,4 7,4) 2 ] = = 0,7600 4 1 3 1 2 s int erao = 2[(6,1 6,7 7,2 + 7,4 ) 2 + (7,0 6,7 7,1 + 7,4) 2 + ... + (10,2 9,3 7,4 + 7,4 )2 ] (3 1)(4 1) 20,68 = 3,4467 6 A Soma de Quadrados do Resduo e os correspondentes graus de liberdade so obtidos por subtrao da Soma de Quadrados Total. Assim, o quadro da anlise da varincia fica = Fonte de Variao SQ gl MQ F0 Fcrtico (F5%) Mquina (coluna) 44,32 2 22,1600 12,82* 3,89 Operrio (linha) 2,28 3 0,7600 0,45* 3,49 Interao 20,68 6 3,4467 1,99* 3,00 Resduo 20,74 12 1,7283 Total 88,02 23 * significativo ao nvel de 5% Portanto, h apenas efeito de mquina e a concluso deve ser a mesma obtida anteriormente. No h efeito significativo de interao e ento os resultados do operrio 4 em relao s mquinas A e B, discutido acima, foram diferentes por puro acaso. Quando a interao significativa, o comportamento de um fator depende dos nveis do outro e a anlise deve ser mudada.
40

2. COMPARAES MLTIPLAS Quando a ANOVA identifica diferenas entre mdias, pode-se determinar quais so diferentes pelo mtodo de Scheff. Duas mdias x p e x q , de duas linhas (ou colunas) p e q so consideradas distintas se sua diferena, em valor absoluto, for maior do que uma diferena mnima significativa (DMS), isto , se x p x q > DMS Para o clculo da diferena mnima significativa tem-se: a) Experimento de um fator, com k tratamentos e np e nq repeties para as mdias x p e x q , respectivamente. DMS = ( 1 1 + )(k 1).(MQ Re sduo ) F(k 1);( n k ) np nq

onde o ndice de F indica os graus de liberdade, isto , F calculado com (k-1) e (n-k) g.l. Se o n0 de repeties o mesmo (n), ento 2 (k 1).(MQ Re sduo ) F(k 1);( n k ) n b) Experimento de dois fatores (sem repetio). Sejam nA e nB os n0s de nveis dos fatores A e B. Para comparar as mdias do fator A duas a duas, tem-se DMS = DMS = 2 (n A 1).(MQ Resduo ) F(nA -1);(nA -1)(nB -1) nB Para o fator B, muda-se nA por nB e vice-versa.

c) Experimento de dois fatores (com repetio). nA e nB tm o mesmo significado anterior e r o n0 de repeties. Para mdias do fator A, tem-se DMS = 2 (n A 1).(MQ Resduo ) F(nA -1);nAnB(r -1) nB r Para o fator B, muda-se A por B e vice-versa.

No experimento de um fator que compara as mquinas, tem-se 2 (3 1)(4,26 )(1 2756 ) = 5,4341 = 2,33 . Duas mdias so significativamente , 4 distintas se a diferena entre elas (em valor absoluto) for maior do que 2,33. Ento DMS =
x A x B = 6,7 6,2 = 0,5 x A x C = 6,7 9,3 = 2,6 Significativa ao nvel de 5% x B x C = 6,2 9,3 = 3,1 Significativa ao nvel de 5%

Concluso: A mdia da mquina C significativamente distinta das demais. A mquina C a menos eficiente, porque os operrios levam, em mdia, mais tempo para executarem a tarefa com ela. 4. USANDO O EXCEL Ferramentas Anova: fator nico Anova: fator duplo sem repetio Anova: fator duplo com repetio

Obs: O nmero de repeties dos tratamentos no precisam ser iguais Neste caso os rtulos de linha e coluna so obrigatrios
41

PROBLEMAS: 1) Um experimento foi desenvolvido para testar o efeito de dois fatores sobre um produto agrcola: fertilizante (F) e irrigao (A), cada um em dois nveis (ausente e presente). As produes resultantes (em uma certa unidade) so apresentadas na tabela, onde o ndice 0 indica a ausncia do fertilizante ou irrigao e o ndice 1 indica a presena. Irrigao Fertilizante F0 A0 9 15 12 10 8 12 A1 14 18 16 27 22 23

F1

a) Considere os resultados dos quatro tratamentos A0F0, A1F0, A0F1 e A1F1 como de um delineamento de um fator e faa a anlise de varincia usando as frmulas apropriadas. b) Considere agora o delineamento como de dois fatores com repetio. Faa a anlise de varincia, tambm usando as frmulas apropriadas deste captulo (o procedimento utilizado no item a s correto se a interao no for significativa) 2) Na tabela apresentado o consumo de gasolina (km/L) de duas marcas de automveis, que em um mesmo trajeto, perfazendo a mesma quilometragem, trafegaram somente na rodovia, somente na cidade, na rodovia e cidade. Empregando as frmulas apropriadas faa anlise de varincia. automvel A 14,0 8,7 11,2 automvel B 13,8 9,7 11,0

Rodovia Cidade Rodovia/cidade

3) Resolva os problemas 1 e 2 usando as ferramentas de anlise do Excel.

42

PROBLEMAS DA LITERATURA MENDENHALL, W. Probabilidade e Estatstica. Vol 2. Rio de Janeiro: Ed. Campus, 1985. 4) Realizou-se uma experincia a fim de examinar o efeito da idade sobre o nmero de batidas do corao, quando uma pessoa submetida a certo tipo de exerccio. Dez homens foram aleatoriamente escolhidos nas faixas etrias de 10-19, 20-39, 40-50 e 60-69 anos. Cada um andou sobre uma pista fixa (comandada pelo movimento dos ps) durante 12 minutos, numa intensidade pr-determinada. O aumento das batidas do corao de cada pessoa (as diferenas entre os totais antes e depois do exerccio) foi anotado para cada homem, obtendo-se os resultados da tabela (em batidas por/minuto) Esses dados apresentam evidncia suficiente para indicar uma diferena entre o aumento mdio de batidas para os quatro grupos? Faixa etria 10-19 20-39 40-59 60-69 29 24 37 28 33 27 25 29 26 33 22 34 27 31 33 36 39 21 28 21 35 28 26 20 33 24 30 25 29 34 34 24 36 21 27 33 22 32 33 32 VIEIRA S. Bioestatstica, 1987 5) Na tabela so apresentadas as taxas de glicose, em miligramas por 100 ml de sangue, segundo o grupo, em ratos machos da raa Wistar, com 60 dias de idade. Testar a hiptese de que as mdias relativas aos trs grupos so iguais. Grupo Parotidec- Pseudo tomizado parotidectomizado Normal 96,0 90,0 86,0 95,0 93,0 85,0 100,0 89,0 105,0 108,0 88,0 105,0 120,0 87,0 90,0 110,5 92,5 100,0 97,0 87,5 95,0 92,5 85,0 95,0 6) A tabela apresenta valores de presso arterial de 6 ces decorridos 20, 40 e 60 minutos aps a administrao de 10 mg de prilocana por quilo de peso vivo. Testar a hiptese de que a presso arterial no se altera, quer decorridos 20, 40 ou 60 minutos aps a administrao de prilocana. Tempo decorrido Co 20 40 60 1 62 62 62 2 110 110 110 3 140 155 150 4 85 90 100 5 140 125 130 6 95 90 70 7) Realizou-se um experimento para investigar o efeito txico de 3 produtos qumicos, A, B e C, sobre a pele de ratos. Uma polegada quadrada da pele de cada rato foi tratada com os trs produtos, medindo-se a irritao resultante por escores de 0 a 10. Foram marcadas 3
43

reas de uma polegada quadrada em cada um de 8 ratos, aplicando-se um produto a uma rea de cada rato. Por conseguinte, a experincia foi feita em blocos, visando-se eliminar a variao da sensibilidade da pele de rato para rato. Os dados obtidos foram: R a t o 1 2 3 4 5 6 7 8 B A A C B C C B 5 9 6 6 8 5 5 7 A C B B C A B A 6 4 9 8 8 5 7 6 C B C A A B A C 3 9 3 5 7 7 6 7 Esses dados tm evidencia suficiente que garanta haver diferena entre o efeito txico desses produtos? (nvel de 5%. E a 1%)? BEIGUELMAN, B. Curso prtico de Bioestatstica. Ribeiro Preto: Revista Brasileira de Gentica, 1991. 8) Numa pesquisa para investigar os efeitos dos fatores alcoolismo e esforo fsico sobre a produo de um determinado metablito, tomaram-se duas amostras, uma de 20 alcolatras e outra de 20 abstmios, todos adultos e do sexo masculino. Em cada uma delas fez-se o sorteio de 10 indivduos mantidos em repouso e de 10 indivduos mantidos em p durante quatro horas. Os resultados da pesquisa esto apresentados na tabela

Alcolatras

Abstmicos

Repouso 4,41 3,43 3,74 0,67 3,37 2,94 0,53 3,4 0,71 4,71 6,75 3,98 6,2 2,81 5,32 5,01 2,67 4,01 2,8 6,84

Atividade 5,51 0,64 2,87 0,51 2,59 0,32 0,71 0,68 3,91 2,87 6,92 2,73 6,01 2,01 6,04 2,9 1,94 2,01 5,42 4,33

VIEIRA, S.; HOFFMANN, R. Estatstica Experimental. So Paulo: Atlas, 1989. 9) Um professor conduziu um experimento para comparar a eficincia de quatro fontes de informao: jornais, televiso, revistas e rdio. Participaram desse experimento 24 alunos. Como os alunos eram de idades diferentes, o professor separou os alunos em dois blocos, de acordo com a faixa de idade. Depois sorteou, dentro dos blocos, uma fonte de informao para cada aluno. Os alunos ento se submeteram ao experimento, isto , tomaram conhecimento sobre determinado assunto apenas pela fonte de informao que lhes havia sido sorteada. Depois, fizeram um teste de conhecimento (em uma escala de 0 a 100) e as notas esto na tabela
44

Jornal Faixa etria I 65 69 73 Faixa etria II 72 79 80

TV 56 49 54 73 77 69

Rev. 58 65 57 76 69 71

Rdio 38 30 34 71 65 62

Respostas 4) F0=0,87<Fc (5%)=2,87 e aceita-se H ao nvel de 5% de significncia No h evidncia 0 estatstica de que o aumento mdio de batidas do corao, aps o exerccio, seja diferente para os quatro grupos analisados (para qualquer nvel razovel de significncia). 5) F0=6,73>Fc =3,47 e rejeita-se H ao nvel de 5% de significncia. Pelo teste de Scheff, 0 DMS= 9,61 e apenas as mdias dos grupos parotidectomizado e pseudo-parotidectomizado so significativamente diferentes ao nvel de 5% (ou mesmo ao nvel de 1% de significncia). 6) Para o tempo decorrido, F0=0,08<Fc (5%)=4,10 e aceita-se H0 ao nvel de 5% de significncia. No h evidncia de que a presso arterial se altera, quer decorridos 20, 40 ou 60 minutos aps a administrao de prilocana. (H uma diferena significativa entre as mdias de ces, mas isso no importa) 7) F0=5,77>Fc (5%)=3,74 e F0=5,77<Fc (1%)=6,51. Rejeita-se H ao nvel de 5%, mas no a 0 1%. (se este problema fosse um trabalho de pesquisa seu, como voc escreveria a concluso?) 8) Ao nvel de 5% de significncia pode-se concluir que a produo do metablito , em mdia, maior para os abstmios. Entretanto, esta produo independe dos indivduos serem mantidos em repouso ou em p. (Como a interao no foi significativa, a concluso se baseia nas mdias dos fatores em anlise, como nos problemas em que no h repetio. Se a interao tivesse sido significativa, a interpretao poderia ser outra) 9) A interao significativa, ento a eficincia das fontes de informao depende da faixa etria e deve ser analisada dentro de cada faixa. Pelo teste de Scheff tem-se DMS=10,4 e qualquer diferena de mdias maior que este valor significativa. Na Faixa etria 1 (mais jovens), jornal, TV e revista deram resultados melhores do que rdio. Os jornais foram significativamente melhores que TV. Na faixa etria 2 (mais velhos), somente jornais deram resultados significativamente melhores que rdio. PROBLEMA PROPOSTO P6) Encontre na literatura especializada problemas biolgicos aos quais podem ser empregados mtodos deste captulo.

45

VII. REGRESSO E CORRELAO 1. REGRESSO LINEAR SIMPLES 1.1. A reta de regresso Problema ilustrativo 1: Um motorista submeteu-se a um teste onde deveria percorrer um trajeto a uma velocidade constante, durante determinado tempo. Ele no conseguiu manter exatamente uma velocidade constante, algumas vezes precisou aumentar a velocidade e outras diminuir. As distncias percorridas de acordo com o tempo, em minutos, esto na tabela abaixo. x= tempo (min) y= Distncia percorrida (km) 0 1 2 3 4 5 0 1,3 3,8 4,3 6,7 7,3

Sabe-se, da Fsica, que h uma relao linear entre a distncia y* percorrida por um carro em velocidade exatamente constante e o tempo de deslocamento, chamado movimento uniforme, dada por y* =0 + 1x onde 0 o coeficiente linear da reta, representando a distncia que o carro j havia percorrido quando x=0 , e 1 o coeficiente angular da reta, representando a velocidade constante com que o carro est se deslocando. Esta relao fornece um modelo matemtico para descrever a distancia percorrida por um carro em movimento uniforme. Neste exemplo, a velocidade no exatamente constante e pretende-se estudar o movimento a partir dos dados experimentais. Considerando-se que o modelo acima vlido para cada par de valores conhecidos (xi; yi), exceto por um erro experimental ui , tem-se: yi =0 + 1xi + ui (i=1,2,...,n)

O erros ui dependem dos valores dos parmetros 0 e 1, que no so conhecidos exatamente. Ento, com base nas observaes experimentais preciso um modo de determinar valores aproximados, chamados estimativas, de 0 e 1, indicadas respectivamente por 0 e 1 . O mtodo mais comumente empregado o mtodo dos mnimos quadrados, descrito a seguir.
8 y (km) 6 4 2 0 0 1 2 x (min) 3 4 5

yi yi
y = 0 + 1x

di yi

yi

xi
As estimativas 0 e 1 so os coeficientes de uma reta que se ajusta aos pontos experimentais, conforme a figura, tal que y i = 0 + 1 x i A diferena entre cada yi experimental e cada y i da reta chamado desvio ou resduo. Ento, cada desvio ou resduo d i dado por: y = 0 + 1 x di= yi - y i = yi - ( 0 + 1 x i ) De todas as retas que podem ser traadas entre os pontos experimentais, a reta que usa as
46

estimativas de mnimos quadrados 0 e 1 a que d a menor soma de quadrados dos resduos. Pode-se calcular 0 e 1 pelos mtodos do Clculo Diferencial e Integral, determinando o mnimo da funo Soma de Quadrados (SQ) seguinte: SQ =

i= 1 n

(y i 0 1 x i ) 2 =

(y
i= 1

yi ) 2

Obtm-se

1 =

(x
i =1 n

x )( y i y ) e
i

(x
i =1

0 = y 1 x

x) 2

onde y e x so as mdias dos n valores yi e xi, respectivamente. Exemplo 1: Na tabela esto expostos os clculos necessrios determinao da reta de mnimos quadrados para os pontos do problema ilustrativo inicial (tempo em minutos e deslocamento em km). xi 0 1 2 3 4 5 15 2,5 yi 0,0 1,3 3,8 4,3 6,7 7,3 23,4 3,9 xi - x -2,5 -1,5 -0,5 0,5 1,5 2,5 yi - y -3,9 -2,6 -0,1 0,4 2,8 3,4 (xi - x )2 6,25 2,25 0,25 0,25 2,25 6,25 17,5 (xi - x )( yi - y ) 9,75 3,90 0,05 0,20 4,20 8,50 26,6

Soma Mdia Portanto,

26,6 1 = = 152 km/min = 91,2 km/h e 0 = 3,9 (1,52)(2,5) = 0,1 km , 17,5 A equao da reta de regresso que melhor descreve a distncia percorrida em funo do tempo, tomando a velocidade como constante,
y = 0,1 + 1,52 x

A partir dessa reta pode-se predizer a distncia percorrida em qualquer tempo x. Assim, depois x= 2,5 min toma-se como distncia percorrida y = 0,1+ 152(2,5)= 3,9 km. Ou para x= 4 min tem-se: y = 4,66 km. O clculo da , distncia percorrida aps 5 min depende do modelo continuar vlido. 1.2. Suposies sobre o termo de erro Para introduzir as tcnicas estatsticas, deve-se considerar que o experimento realizado apenas uma amostra de uma populao de resultados. Essa amostra poderia ser uma entre os possveis resultados se o mesmo motorista repetisse o teste, ou poderia ser uma amostra tomada com um motorista dentre um conjunto grande de motoristas, dependendo do objetivo do experimento. Assim, adota-se o modelo yi =0 + 1xi + ui (i=1,2,...,n) onde xi representa valores estabelecidos a priori, isto , so valores fixos, e os yi so valores
47

de uma varivel aleatria. Nessas condies, supe-se que o erro uma varivel aleatria de mdia zero e varincia constante 2. Uma estimativa dessa varincia dada pelo quociente entre a soma de quadrados dos desvios (ou resduos) por (n-2) graus de liberdade (2 o nmero de parmetros) s2 =

(y
i= 1

y i )2

n2

Esta varincia residual a varincia em torno da reta de regresso. Exemplo 2: Na tabela abaixo so apresentados os valores previstos para y pela reta de regresso nos tempos de 0 a 5 minutos, os resduos (ou desvios da regresso) e os resduos padro. Tempo Distncia real Distncia prevista Resduo 0 0,0 0,10 -0,10 1 1,3 1,62 -0,32 2 3,8 3,14 0,66 3 4,3 4,66 -0,36 4 6,7 6,18 0,52 5 7,3 7,70 -0,40 A Soma de Quadrados dos Resduos (SQRes), SQRes = (-0,10)2 + (-0,32)2 + ... + (-0,40)2 = 1,1080 dividida por n-2= 4 d a Mdia Quadrtica dos Resduos (MQRes), que uma estimativa da varincia do erro experimental s 2 = MQRes = Resduo Padro -0,1900 -0,6080 1,2540 -0,6840 0,9880 -0,7600

SQ Re s 1,1080 = = 0,2770 n 2 4

A raiz quadrada da MQRes. chamada de Erro padro.


s = MQ Re s = 0,2770 = 0,5263

Os Resduos padro, tambm apresentados na tabela, so obtidos pelo quociente dos resduos pelo erro padro. uma forma de obter resduos sem uma unidade de medida. 1.3. Intervalos de confiana para os parmetros O resultado do teste realizado pelo motorista apenas uma amostra de uma infinidade de resultados possveis. Portanto, existe uma reta ideal com os parmetros 0 e 1, que seriam obtidos se a velocidade fosse exatamente constante. Como esses parmetros so desconhecidos, procura-se determinar intervalos nos quais deposita-se uma confiana de 1- de cont-los. Ou seja, o processo tal que em (1-)100% dos testes que forem realizados obtm-se intervalos que contm esses valores ideais. Os intervalos de confiana para 0 e 1 so da forma: Estimativa do parmetro tc * erro padro do parmetro onde tc o valor da distribuio t de Student com n-2 graus de liberdade e os erros padro sero definidos abaixo. Prova-se que, se o erro experimental tem distribuio normal de mdia zero e varincia
48

2, estimada pela varincia residual s 2, as estimativas dos parmetros tambm tm distribuio normal. Um intervalo de (1-) de confiana para o coeficiente linear 0
2 0 t c s( 0 ) onde s( 0 ) = s [ +

1 n

e para 1 1 t c s( 1 ) onde s( 1 ) =

x2 (x i x )2

s2 ( x i x) 2

Exemplo 3: Considerando o problema ilustrativo, tem-se 1 (2,5 ) 2 + ) = 0,1451 = 0,3809 6 17,5 Ao nvel de 5% de significncia, com n-2=4 g.l., tc = 2,7765 e um intervalo de 95% de confiana para o coeficiente linear 0 dado por: s( 0 ) = 0,2770(

0,1 2,7765(0,3809) = 0,1 1,06 , ou seja, -0,96<0<1,16 (unidade km)


Para 1 tem-se

0,277 s( 1 ) = = 0,0158 = 0,1258 17,5


e um intervalo de 95% de confiana para o coeficiente angular dado por 1,52 2,7765( 0,1258) = 1,52 0,35 , ou seja, 1,17<0<1,87 (em km/min) Em km/h tem-se 70,2<0<112,2 1.4. Testes de hipteses sobre os parmetros Pode-se testar hipteses sobre 0 e 1 usando a distribuio t de Student, com n-2 graus de liberdade, ao nvel de significncia . Para testar H0 : 0 = * , a estatstica t 0 = 0 e
* para testar H0 : 1 = 1 a estatstica t 0 = * 1 1 s( ) 1

0 * 0 s( )
0

Exemplo 4: Considerando o problema ilustrativo, pretende-se testar H 0 : 0 = 0 (se a reta passa pela origem) e H0 : 1 = 0 (se h regresso) Nos dois casos, ao nvel de 5% de signicncia, com n-2=4 g.l., tc = 2,7765 0,1 Para o coef. linear, t 0 = = 0,2625 e, portanto, aceita-se H0 0,3809 Para o coef. angular, t 0 = regresso de y sobre x. 1.5. Intervalo de confiana para 0 + 1 x 0 e intervalo de previso A um valor x0 de x corresponde na reta de regresso o valor
49

152 , = 120816 e rejeita-se H0, comprovando que h , 0,1258

y 0 = 0 + 1 x 0 sendo y 0 uma estimativa de y = 0 + 1 x 0 da reta verdadeira. Um intervalo de confiana para 0

y dado por 0

( x 0 x) 2 1 s( y 0 ) = s 2 [ + ] y 0 t c s( y 0 ) com n ( x i x) 2

onde tc o valor da distribuio t de Student com n-2 g.l., ao nvel de significnca . Um intervalo de previso um intervalo que, com uma confiana (1-), contem um prximo valor experimental y0 correspondente a x 0. dado por y 0 t c s 2 [1 + 1 (x 0 x ) 2 + ] n ( x i x) 2

Exemplo 5: Considerando o problema ilustrativo, pretende-se calcular um intervalo de confiana para o valor na reta verdadeira e um intervalo de previso para um valor experimental correspondentes a x0 = 2, ao nvel de 95%. Para x0=2, y 0 = 0,1 + 1,52 (2 ) = 3,14 e considerando os valores calculados anteriormente tc =2,7765; x = 2,5 ; s 2 = 0,2770 e ( x i x )2 = 17,5 , tem-se Intervalo de 95% de confiana para o valor na reta (em km) 1 (2 2,5) 2 3,14 2,7765 0,2770 [ + ] = 3,14 0,18 6 17,5 intervalo de previso (em km) 3,14 2,7765 0,2770[1 + 1 ( 2 2,5 ) 2 + ] = 3,14 1 59 , 6 17,5

1.6. Anlise de varincia aplicada regresso

variao no explicada
y
i i

y = 0 + 1x

y y

variao explicada

xi

Ajustada a reta de regresso, definem-se: Variao total de y, independente de x: Variao explicada pela regresso SQTotal = SQRegr =

(y
i= 1 n i

y) 2 y) 2

(y
i= 1 n

Variao residual (variao no explicada pela regresso) SQRes =


50

(y
i= 1

y) 2

Pode-se provar que SQTotal = SQRegr + SQRes, ou seja, a variao total pode ser dividida em duas parcelas, uma correspondente variao explicada pela reta de mnimos quadrados e outra residual, devida variao do acaso. De acordo com esta expresso, no havendo regresso, a variao total praticamente igual a variao residual e, ento, a varincia do erro experimental pode ser estimada tanto pela variao total (y i y i ) 2 SQTotal s2 = = Total n1 n1 como pela variao residual, vista anteriormente e que independe de haver regresso,

s =s
2

2 Re s

(y =

y i )2

n 2

SQ Re s = MQ Re s n 2

Se a hiptese nula falsa, ( yi y i ) 2 2 s Re gr = = MQ Re gr 2 1 2 tende a crescer e prova-se que o quociente de s 2 por s Re s tem distribuio F. Ento a regr estatstica do teste :

F0 =

2 s Re gr

2 Re s

MQ Re gr MQ Re s

Este teste equivalente ao teste de hiptese para o coeficiente angular dado em 1.4. Exemplo 6: Considerando o problema ilustrativo, pretende-se efetuar a ANOVA. Aproveitando resultados das pginas 48 e 49, tem-se SQTotal = (3,9) 2 + (2,6) 2 + ... + (3,4) 2 = 41,5400 SQRes = 1,1080 e, portanto, SQRegr = 41,5400 1,1080 = 40,4320 O quadro da anlise de varincia fica Fonte de Variao Regresso Resduo Total SQ 40,4320 1,1080 41,5400 gl 1 4 5 MQ 40,4320 0,2770 F0 145,96 F5% 7,71

Conclui-se que, ao nvel de 5% de significncia, existe regresso de y sobre x. 2. CORRELAO LINEAR E COEFICIENTE DE DETERMINAO Dadas duas variveis x e y, das quais se conhecem n valores, tem-se:

1 n (x i x) 2 ==> desvio padro de x sx n 1 i =1 1 n Varincia de y: s 2 = y ( y i y )2 ==> desvio padro de y sy n 1 i =1 1 n Covarincia de x e y: s xy = (x i x )( y i y ) n 1 i =1


Varincia de x: s 2 = x Uma medida do grau de associao linear entre as duas variveis, que independe das
51

unidades de medidas de x e y, o coeficiente de correlao, r, dado por

r=

s xy sx sy

O coeficiente de correlao r varia de 1 a 1 e quanto mais prximo de 1 ou 1, maior ser a associao linear entre x e y Nas figuras abaixo so apresentados alguns conjuntos de pontos experimentais e o coeficiente de correlao linear
16 16

r=0,98
12 8 4 0 2 3 4 5 6 7 8 12 8 4 0 2 3 4 5 6 7 8

r = - 0,98

16

r = 0,10
12

16 12

r = -0,32

8
4 0 2 3 4 5 6 7 8

4 0 2 3 4 5 6 7 8

Define-se o coeficiente de determinao r2 por r2 = var iao exp licada var iao total (y
n i

y) 2 = y) 2

r2 =

(y
i =1

i =1 n

SQRe gresso SQTotal

O coeficiente de determinao pode ser interpretado como a proporo da variao total na varivel y que explicada pela reta de regresso. Ele o quadrado do coeficiente de correlao r. O coeficiente de correlao indicado para medir o grau de associao linear entre duas variveis, enquanto o coeficiente de determinao mais apropriado para definir quanto a reta de regresso explica o ajuste da reta. Exemplo 7: Considerando o problema ilustrativo, aproveitando os clculos anteriores, tem-se 26,6 17,5 = 5,32 e s 2 = 41,54 = 8,308 s2 = = 3,5 ; s xy = x y 5 5 5 Portanto, o coeficiente de correlao entre x e y

r=

5,32 3,5 8,308

= 0,9866

o coeficiente de determinao r 2 = (0,9866 ) 2 = 0,9734 , ou usando os resultados do quadro da anlise de varincia


52

40,4320 = 0,9754 41,5400 Isso significa que 97,54% da variao total explicada pela regresso. r2 = 3. REGRESSO MLTIPLA O modelo de regresso mltipla envolve mais do que uma varivel independente x. da forma
y = 0 + 1x 1 + 2 x 2 + ... + k x k + erro

onde os parmetros so estimados pelo mtodo dos mnimos quadrados, isto , as estimativas minimizam a soma de quadrados dos resduos SQRe s =

(y
i =1

0 1x 1i 2 x 2i ... ki )2

Problema ilustrativo 2: (apresentado no Excel) Suponha que um empresrio esteja pensando em comprar um grupo de prdios de salas comerciais em um bairro comercial. O empresrio pode usar a anlise de regresso linear mltipla para fazer uma estimativa do valor de um prdio em uma determinada rea, de acordo com as variveis a seguir Varivel y x2 x3 x4 x5 refere-se a valor estimado do prdio rea til em metros quadrados nmero de salas nmero de entradas idade do prdio em anos

Este exemplo considera que existe uma relao de linha reta entre cada uma das variveis independentes (x1, x2 , x3 e x4) e a varivel dependente (y), o valor dos prdios comerciais no bairro. O empresrio escolhe aleatoriamente uma amostra de 11 prdios a partir de um conjunto de 1500 prdios possveis e obtm os seguintes dados ("Meia entrada" significa que o prdio s dispe de uma entrada para entregas): rea 2310 2333 2356 2379 2402 2525 2448 2471 2494 2517 2540 salas 2 2 3 3 2 4 2 2 3 4 2 entradas 2 2 1,5 2 3 2 1,5 2 3 4 3 idade 20 12 33 43 53 23 99 34 23 55 22 valor(R$ 1000) 142 144 151 150 139 169 126 142 163 169 149

Exemplo 8: Considerando o problema ilustrativo 2, obtm-se pelo Excel y = 27,64*x1 + 12.530*x2 + 2.553*x3 - 234,24*x4 + 52.318 Agora, o empresrio poder fazer uma estimativa do valor de um prdio na mesma rea com 272 metros quadrados, trs salas e duas entradas, e que tem 25 anos de idade, usando a seguinte equao:
53

y = 27,64 *272 + 12.530*3 + 2.553*2 - 234,24*25 + 52.318 = $158.261 Exemplo 9: Fazendo a anlise de varincia obtm-se os resultados apresentados no quadro abaixo. O n0 de graus de liberdade para a regresso igual a p-1, onde p o n0 de parmetros e para a regresso, n-p. Neste exemplo n = 11 e p = 5. Fonte de Variao Regresso Resduo Total SQ 1741,863 8,8640 1750,727 gl 4 6 10 MQ 435,4658 1,4773 F0 F5% 294,76 4,53

A regresso altamente significativa. 4. CORRELAO LINEAR MLTIPLA Para calcular o coeficiente de correlao mltipla de y sobre x1 , x2, ..., xk usa-se o coeficiente de determinao: var iao explicada r (mltiplo) = = r2 variao total O coeficiente de determinao recebe um ajuste quando s emprega a regresso e mltipla. O coeficiente de determinao ajustado dado por k r 2 ( ajust) = r 2 (1 r 2 ) n k 1 onde n o nmero de observaes e k o nmero de variveis independentes. Exemplo 10: No problema ilustrativo 2, o coeficiente de correlao linear mltipla de y em relao a x1, x 2, x3 e x4 1741,863 = 0,9949 e 1750,727 4 r 2 (ajustado ) = 0,9949 (1 0,9949 ) = 0,9916 6 Portanto, a equao obtida explica 99,16% da variao de y. r2 =

5. USANDO O EXCEL Funes estimativa 0 do coef. linear 0 ( y = 0 + 1 x ) INCLINAO(valores y; valores x) estimativa 1 do coef. angular 1 PREVISO(x; valores y; valores x) valor de y correspondente a x CORREL(valores y; valores x) coeficiente de correlao RQUAD(valores y; valores x) coeficiente de determinao r2 PROJ.LIN(valores y; valores x; constante; constante = verdadeiro ou omitido y = 0 + 1 x estatstica) constante = falso y = 1x INTERCEPO(valores y; valores x) estatstica = falso ou omitido retorna apenas os coeficientes da reta estatstica = verdadeiro retorna dados adicionais (ver ajuda do Excel)
54

Ferramenta REGRESSO CORRELAO PROBLEMAS: 1) Considere o problema ilustrativo 1 onde foi dada a tabela da distncia percorrida pelo motorista, aps cada minuto, em funo do tempo: x= tempo (min) 0 1 2 3 4 5 y= Distncia percorrida (km) 0 1,3 3,8 4,3 6,7 7,3 a) Use as funes do Excel, I CLINAO e INTERCEPO, para calcular o coeficiente N linear e o coeficiente angular da reta de regresso. b) Use a funo PREVISO para calcular valores de distncia percorrida quando x=1,3; x=4,7; x=6, de acordo com a reta de regresso. c) Forme no Excel uma tabela de valores previstos, resduos e resduos padro. Calcule a soma de quadrados dos resduos. d) Calcule intervalos de 90% de confiana para 0 e 1. Interprete. e) Teste a hiptese de que 1 = 1,5. Interprete 2) Use a Ferramenta de anlise Regresso do Excel para estudar o problema da introduo. Na caixa de dilogo Regresso considere: Intervalo y de entrada: Indique coluna dos valores de y Intervalo x de entrada: Indique coluna de valores de x Rtulos: optativo Nvel de confiana: 95% Constante zero: NO ATIVE (no prximo problema ser ativado) Intervalo de sada: Escolha uma clula Resduos: ATIVE Resduos padronizados: ATIVE Plotar resduos: ATIVE Plotar ajuste de linha: ATIVE Plotagem de probabilidade normal: NO ATIVE 3) Repetir o problema anterior considerando a constante igual a zero. Faa uma interpretao cuidadosa deste problema. 4) Considere o problema ilustrativo 2 do item 3 (regresso linear mltipla). Use a ferramenta Regresso para resolv-lo. Interprete cada resultado. 5) Ajuste aos dados abaixo uma reta e, depois, uma parbola (considere um modelo de regresso mltipla com x 1 = x e x 2 = x ). Use o coeficiente de determinao para decidir pelo melhor ajuste. x 1,2 1,2 2,4 2,4 3,6 3,6 4,8 4,8 6,0 6,0 y 5,2 6,0 2,0 3,2 2,5 3,1 5,2 5,6 12,1 10,8
2

55

PROBLEMAS DA LITERATURA COSTA NETO, P.L.O. Estatstica. So Paulo: Ed. Edgard Blucher Ltda, 1978 6) O faturamento de uma loja durante seus primeiros oito meses de atividades dado a seguir, em milhares de reais. Meses Faturamento Maro 20 Abril 22 Maio 22 Junho 25 Julho 10 Agosto 40 Setembro 45 Outubro 60 a) Ajuste uma reta de regresso e tire concluses do ponto de vista estatstico. b) Elimine o dado referente ao ms de julho, considerando que foi anormalmente baixo devido a uma brusca, porm passageira, recesso de mercado e, com base nos demais pontos, equacione a reta de regresso que melhor se adapte aos dados. 7) Ajustar uma parbola de mnimos quadrados aos dados do problema anterior 8) Oito alunos sorteados entre os da segunda srie de um curso de Engenharia obtiveram as seguintes notas nos exames de Clculo e Fsica: Aluno 1 2 3 4 5 6 7 8 Clculo 4,5 6,0 3,0 2,5 5,0 5,5 1,5 7,0 Fisica 3,5 4,5 3,0 2,0 5,5 5,0 1,5 6,0 Com base nesses dados, pode-se ter praticamente 99% de certeza de que os alunos mais bem preparados em Clculo tambm o sejam em Fsica? OBS: A estatstica do teste t 0 = r n 2 com n-2 g.l. Este teste de correlao 1 r2 equivalente ao teste do coeficiente angular da regresso igual a zero.

9) Obter a equao da reta de mnimos quadrados para os seguintes pontos experimentais: x 1 2 3 4 5 6 7 8 y 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2,0 Traar a reta no digrama de disperso. Calcular o coeficiente de correlao linear. 10) Uma reao qumica foi realizada sob seis pares de diferentes condies de presso e temperatura. Em cada caso, foi medido o tempo necessrio para que a reao se completasse. Os resultados obtidos so os que seguem: Condio Temperatura (C) Presso (atm) Tempo (s) 1 20 1,5 9,4 2 30 1,5 8,2 3 30 1,2 9,7 4 40 1,0 9,5 5 60 1,0 6,9 6 80 0,8 6,5 Obter a equao da funo de regresso linear do tempo (y) em relao temperatura (x1) e presso (x2). LAPPONI, J.C. Estatstica Usando o Excel 5 e 7. So Paulo: Lapponi Ed., 1997 11) Os dados abaixo se referem aos 10 maiores e melhores grupos de supermercados de acordo com o Censo 1990/1991 Estrutura do Varejo Brasileiro-Nielsen
56

Carrefour Cia Bras. de Distribuio Paes Mendona Casas Sendas Bompreo Casas da Banha Eldorado Cia Real de Distribuio Comercial Gentil Moreira Rede Barateiro

Vendas $bilhes 164,1 154,5 116,2 63,9 61,3 43,8 35,9 25,8 24,6 21,8

N0 de caixas 1669 4670 2968 1327 1648 1910 451 1183 492 505

rea 1000m 2 207,6 458,1 314,3 149,6 155,9 192,0 100,5 93,0 48,3 51,3

N0 de lojas 22 416 132 53 103 175 7 62 36 25

Funcionrios 1000 11,2 26,9 20,6 13,4 11,3 14,2 9,5 7,5 4,4 5,1

Use a ferramenta Correlao. Interprete a maior correlao e tambm a menor. PROBLEMA PROPOSTO P7) Encontre na literatura especializada problemas biolgicos aos quais podem ser empregados mtodos deste captulo.

57

VIII. MODELOS LINEARIZVEIS 1. MODELO EXPONENCIAL Nos modelos de regresso do captulo anterior os parmetros aparecem linearmente em suas expresses. Em alguns modelos onde isso no ocorre, um transformao pode tornar o modelo linear. Algum cuidado deve ser tomado com o termo do erro nessas transformaes, como ser visto a seguir. Problema ilustrativo 1: Seja o modelo de regresso no-linear, com varivel independente z, varivel dependente x, parmetros 0 e 1 e erro multiplicativo wi z i = 0 ( 1 ) x i w i onde i=1,2,...n

Aplicando logaritmo em ambos os membros da igualdade, obtm-se


log( z i ) = log( 0 ) + log( 1 ) x i + log( w i )

que uma reta em um sistema de coordenadas log(y) contra x. Ou seja, o modelo da forma
y i = 0 + 1 x i + erro

onde y i = log( z i ); 0 = log( 0 ) ; 1 = log( 1 ) e erro = ui = log(wi) Os valores numricos para ilustrar este problema foram simulados. Primeiro sups-se que 0 = 8 e 1 = 0,5 . Em seguida fixou-se 10 valores de x: 0; 0; 1; 1; 2; 2; 3; 3; 4 4; 5 e 5 obteve-se os valores z = 8(0,5) x i (valores da varivel independente isentas de erro). Em i seguida foram criados os erros ui = log(wi) com distribuio normal de mdia zero e desvio padro 0,1. Finalmente, obteve-se z i multiplicando z pelo erro ui. i xi 0 0 1 1 2 2 3 3 4 4 5 5 z i 8 8 4 4 2 2 1 1 0,5 0,5 0,25 0,25 ui=log(wi) wi=10ui -0,09 0,08 0,10 -0,13 0,24 -0,02 0,15 -0,18 0,11 -0,17 -0,19 -0,07 0,82 1,21 1,26 0,75 1,74 0,96 1,41 0,66 1,28 0,68 0,65 0,86 zi
6

6,6 9,7 5,0 3,0 3,5 1,9 1,4 0,7 0,6 0,3 0,2 0,2

x
0 0 1 2 3 4 5

Supe-se ento que os pontos experimentais so os abaixo (ver figura acima) xi 0 0 1 1 2 2 3 3 4 4 5 5 z i 6,6 9,7 5,0 3,0 3,5 1,9 1,0 0,7 0,6 0,3 0,2 0,2 Pretende-se ajustar o modelo linearizvel, z i = 0 (1 ) x i w i (observe pela figura o que significa erro multiplicativo). Aplicando logaritmos o modelo fica: y i = 0 + 1 x i + u i com os parmetros j definidos acima.
58

A metodologia de regresso linear pode ser aplicada e obtm-se para o modelo transformado:

95% de Coeficientes Erro padro Intervalo de confiana Lim. Inferior Lim. Superior 0 0,9412 0,7872 1,0951 1 -0,3261 -0,3769 -0,2753 com s 2 = 0,01822 . Para os parmetros originais basta considerar que 0 = log( 0 ) e, portanto,
0 = 10 0 e analogamente para o outro parmetro. Os resultados esto no quadro abaixo.

95% de Coeficientes Estimativa Intervalo de confiana Lim. Lim. Superior Inferior 0 8,734 6,126 12,448 1 0,472 0,420 0,531 OBSERVAO: Se o erro fosse aditivo, no teria sentido aplicar logaritmo. O modelo seria considerado intrinsecamente no-linear e seria adotada uma metodologia prpria desses modelos. 2. USANDO O EXCEL O Excel ajusta, no mdulo grfico, linhas de tendncia a um conjunto de dados, com as seguintes funes: Linear simples Polinomial Logartmica Potncia Exponencial
y = b 0 + b1x

y = b 0 + b 1 x + b 2 x 2 + ... + b k x k , para k 2
y = 0 + 1Ln ( x )

y = 0 x 1 y = 0 e 1x onde e=2,7182...

PROBLEMAS: 1) Estude o ajuste do modelo y = a +


x y 0,2 6,2

b + erro aos dados abaixo x


0,4 3,3 0,5 3,0 0,6 2,3 0,8 2,0 1 1,7

0,3 4,1

Determine intervalos de confiana para os parmetros a e b. 2) Seja a funo y = e (a b / x ) . a) Que transformao deve ser feita para que as frmulas de regresso linear simples possam ser usadas para ajustar essa funo. b) Simule uma amostra aleatria de uma distribuio normal e estude o ajuste desse modelo
59

com erro multiplicativo. 3) Simule um experimento anlogo ao do problema introdutrio com a funo potncia. Considere trs repeties para cada valor da varivel independente. PROBLEMAS DA LITERATURA COSTA NETO, P.L.O. Estatstica. So Paulo: Ed. Edgard Blucher Ltda, 1978 4) Uma Teoria fsica faz prever que y depender de x segundo a expresso y + C = x2 , onde 2p C e p so duas constantes numricas. Sabendo-se que x medido sem erro e que a preciso da medida de y no intervalo experimental aqui considerado constante, estime os melhores valores de C e p a partir dos seguintes dados: x y 1 0,2 2 0,6 3 0,8 4 1,4 5 2,6 6 3,2 7 5,0

5) Um certo fenmeno fsico segue a lei x( y + ) = C (x e y variveis; C e constantes). Sabendo-se que a determinao experimental de x muito mais precisa do que a de y, estime o melhor valor para a constante C a partir dos pares de valores experimentais dados a seguir. Com base nesses dados, ao nvel 5% de significncia, existe evidncia de que a constante seja realmente diferente de zero? x 1 2 5 10 20 50 y 27,0 12,0 10,0 6,0 6,3 4,8 6) Estabelea a equao da regresso para os dados que seguem, sabendo que a equao terica da forma z = ay bx + c x 1 1 2 3 y 2 3 2 1 z 4,0 7,5 16,0 1,8

PROBLEMA PROPOSTO P8) Faa um estudo estatstico para os problemas de 4 a 6, determinando intervalos de confiana para os parmetros, verificando se a regresso significativa pelo teste t e pela anlise de varincia, calculando o coeficiente de determinao e construindo grficos de resduos. Para um valor arbitrrio da varivel independente (dentro do intervalo experimental) estime a resposta experimental correspondente e determine um intervalo de confiana.

60

Вам также может понравиться