Вы находитесь на странице: 1из 9

59

Captulo 6 Inferncia Estatstica 6.1 - Introduo A busca de informaes a respeito de um fenmeno qualquer necessria para dar suporte tomada de decises que envolvem este fenmeno em particular. Quando este fenmeno aleatrio, a busca de informaes direcionada para estabelecer a forma da distribuio da varivel que descreve o fenmeno e os parmetros desta distribuio. Como j discutido anteriormente, h dois processos de abordagem para a soluo deste problema. O primeiro consiste em aplicar um censo, o que identifica diretamente a forma da distribuio da varivel e seus parmetros. O segundo processo, consiste em obter estas informaes indiretamente, atravs da inferncia. O objetivo da inferncia estatstica o de conhecer populaes utilizando informaes amostrais. Como as populaes so caracterizadas por medidas numricas descritivas, denominadas parmetros, a estatstica diz respeito realizao de inferncias sobre estes parmetros populacionais desconhecidos. Parmetros populacionais tpicos so a mdia () e o desvio padro (). Os mtodos para realizar inferncias a respeito dos parmetros pertencem a duas categorias: 1) Estimao: determinao de estimativas dos parmetros populacionais; 2) Testes de Hipteses: tomada de deciso relativa ao valor de um parmetro populacional. 6.2 - Estimao A estimao um processo que consiste em avaliar os parmetros de uma distribuio utilizando estimadores obtidos em uma amostra. O clculo de probabilidades o instrumento que viabiliza a avaliao dos parmetros de uma distribuio a partir dos estimadores. H inmeras aplicaes da estimao. Os polticos, por exemplo, costumam estimar propores de seus eleitores relacionando pontos de vista sociais e econmicos. As indstrias devem continuamente estimar a porcentagem de defeituosas num lote de peas. As caractersticas de bom desempenho de um produto devem ser avaliadas levando em conta consideraes como resistncia mdia, peso, vida, etc. As grandes livrarias devem prever a procura de seus produtos. A avaliao de inventrios, a estimao do custo de projetos, a avaliao de novas fontes de energia, previses sobre a realizao de empreendimentos, estimativas de tempo mdio de execuo e muitas outras. A qualidade de uma estimao depende basicamente da representatividade da amostra, que por sua vez consiste na capacidade da amostra reproduzir caractersticas importantes da populao. Populaes com pequeno grau de variabilidade de seus elementos podem ser estudadas a partir de pequenas amostras. A medida que esta variabilidade aumenta, necessrio aumentar o tamanho da amostra. O parmetro populacional (por exemplo, a mdia ) constante (embora normalmente seja desconhecido) seu valor no se altera de amostra para amostra. Contudo, o valor de urna amostra (por exemplo, a mdia x ) dependente da amostra selecionada, sendo que cada amostra revelar um valor diferente de x . Como os valores do estimador variam de amostra para amostra e a inferncia estatstica baseia-se neste estimador, necessita-se conhecer como se d a distribuio de probabilidade do estimador. Conhecida a distribuio de probabilidade do estimador, tem-se condies de avaliar o grau de incerteza das inferncias estatsticas realizadas a partir de amostras aleatrias selecionadas da populao em estudo. Assim a distribuio amostral de um estimador obtida, empiricamente, pela distribuio de freqncias dos valores de estimadores das amostras aleatrias de tamanho "n", selecionadas da populao.

60

6.2.1 - Distribuio Amostral das Mdias Considere a seguinte populao "x": {1, 2, 3, 4, 5, 6}. Esta populao apresenta os seguintes parmetros: = 3,5 (x) = 1,708 2(x) = 2,917

Selecionando todas as amostras de tamanho 2 (n = 2), que so possveis de obter com reposio: A1 = (1 , 1) A7 = (2 , 2) A12 = (3 , 3) A16 = (4 , 4) A19 = (5 , 5) A21 = (6 , 6) A2 = (1 , 2) A8 = (2 , 3) A13 = (3 , 4) A17 = (4 , 5) A20 = (5 , 6) A3 = (1 , 3) A9 = (2 , 4) A14 = (3 , 5) A18 = (4 , 6) A4 = (1 , 4) A10 = (2 , 5) A15 = (3 , 6) A5 = (1 , 5) A11 = (2 , 6) A6 = (1 , 6)

Cada uma destas amostras admite um valor mdio, que vale, respectivamente:

x1 = 1 x 2 = 1,5 x3 = 2 x 4 = 2,5 x5 = 3 x6 = 3,5 x7 = 2 x8 = 2,5 x9 = 3 x10 = 3,5 x11 = 4 x12 = 3 x13 = 3,5 x14 = 4 x15 = 4,5 x16 = 4 x17 = 4,5 x18 = 5 x19 = 5 x 20 = 5,5 x 21 = 6
Esta distribuio apresenta os seguintes parmetros:

x = 3,5

2 (x) = 1,667

(x) = 1,291

Atravs deste exemplo numrico possvel verificar que a mdia das mdias amostrais igual mdia populacional.

=x
Quando a populao muito grande ou infinita, a varincia e o desvio padro da distribuio das mdias amostrais ser:

2 (x) =

2 (x) (varincia das mdias amostrais) n

( x) =

(x) n

(desvio padro das mdias amostrais)

6.2.2 - Estimativas Pontuais e Intervalares As estatsticas amostrais so utilizadas como estimadores de parmetros populacionais. Assim, uma mdia amostral usada como estimativa de uma mdia populacional; um desvio padro amostral serve de estimativa do desvio padro da populao. Tais estimativas chamam-se estimativas pontuais, porque originam uma nica estimativa do parmetro. Mas j sabido que a amostragem aleatria apresenta tendncia a gerar amostras em que a mdia amostral, por exemplo, no igual mdia da populao, embora os dois valores em geral sejam prximos. Em virtude da variabilidade amostral, usual incluir uma "estimativa intervalar" para acompanhar a estimativa pontual. Essa nova estimativa proporciona um intervalo de possveis valores do parmetro populacional. A capacidade de estimar parmetros populacionais por meio de dados amostrais est ligada diretamente ao conhecimento da distribuio amostral do parmetro que est sendo usado como estimador. Pode-se encarar a estatstica amostral como uma observao daquela distribuio amostral. Por exemplo, ao extrair-se uma amostra de alunos graduados, observa-se que a idade mdia 24,2 anos. Sabe-se que este um dos valores da distribuio amostral, mas a questo : qual deles? Isto , quo prximo est 24,2 da mdia da populao?

61

Ao formular a resposta a esta pergunta, deve-se levar em conta as caractersticas da distribuio amostral. A distribuio das mdias amostrais normal ou aproximadamente normal em muitos casos. Sabe-se ento, que cerca de 68% da estatstica amostral est a menos de 1,00 desvio padro de cada lado da mdia da distribuio amostral (que igual mdia da populao) e 95% das mdias amostrais estaro dentro de 1,96 desvios padres a contar da mdia. Da mesma forma, sabemos que 32% das mdias amostrais possveis estaro alm de 1 desvio padro a contar da mdia (1,00-0,68) e que cerca de 5% das mdias amostrais estaro a mais de 1,96 desvios padres alm da mdia. Consequentemente, se afirma-se que a mdia de uma amostra est a menos 1,96 desvios padres a contar da mdia verdadeira, pode-se esperar estar certos 95% das vezes e errados 5% das vezes. Tal intervalo chamado "intervalo de confiana", e o "nvel de confiana" 1 - P(erro). Logo, um intervalo de confiana de 95% leva consigo um risco de 5% de erro. 6.2.3 - Intervalo de confiana para a mdia populacional quando o desvio padro conhecido Quando o desvio padro populacional conhecido as estimativas pontual e intervalar da mdia populacional so: Estimativa Pontual: x = x ; Estimativa Intervalar: x Z x < < x + Z x . em que: x =

x n

A Figura 6.1 ilustra como se constri o intervalo de confiana com a mdia amostral como ponto mdio.

Figura 6.1 - O intervalo de confiana tem centro na mdia amostral

A estimativa intervalar da mdia populacional se baseia na hiptese de que a distribuio amostral das mdias amostrais normal. Para grandes amostras isto no apresenta dificuldade especial. No entanto, para amostras menores que 30 observaes, importante saber que a populao submetida a amostragem tem distribuio normal, ou ao menos aproximadamente normal. De outra forma essas tcnicas no podem ser utilizadas. Exemplo: Construir alguns intervalos de confiana com nveis de confiana de 90%, 95% e 99%, para a idade mdia dos estudantes graduados usando a mdia amostral de 24,2 anos. Sabe-se que o tamanho da amostra 36 e o desvio padro populacional 3,0. Nvel de Confiana 90% 95% 99% Z 1,65 1,96 2,58 Frmula Clculo Intervalo de Confiana

x 1,65 x 1,96 x 2,58

x n x n x n

24,2 1,65 24,2 1,96 24,2 2,58

3 36 3 36 3 36

23,375 a 25,025 23,220 a 25,180 23,110 a 25,690

62

6.2.4 - Erro de Estimao O intervalo de confiana um intervalo real, centrado na estimativa pontual que dever conter o parmetro com determinada probabilidade. A probabilidade do intervalo conter o parmetro estimado denominado de "nvel de confiana" associado ao intervalo. A notao mais usual para o nvel de confiana associado ao intervalo (1 - ) ou (1 - P(erro)). Como diferentes amostras conduzem normalmente a valores diferentes dos estimadores, faz sentido pensar-se na diferena entre o valor do estimador e o parmetro. Essa diferena denominada "erro padro de estimativa" (e):

e = estimativa parmetro
O nvel de confiana e o erro padro de estimativa caracteriza a preciso de uma estimativa. Nas aplicaes usual fixar-se o nvel de confiana de um intervalo. Neste caso, o controle da preciso resume-se na determinao do erro padro de estimativa. Como visto anteriormente, para transformar uma distribuio normal "x" na distribuio normal padro "Z" utiliza-se a mudana de varivel:

Z=

x (x) (x)

Como no momento est-se interessado na distribuio amostral das mdias x . A transformao da distribuio x na distribuio normal padro "Z", por analogia com o caso anterior, ser:

Z=

xx (x)
(x)
, a expresso anterior fica:

Como x = e (x) =

Z=

x (x) n

O nvel de confiana a probabilidade do intervalo conter o parmetro estimado. Em termos da varivel normal padro Z, isto representa a rea central sob a curva normal entre os pontos Z e Z .
2 2

Figura 6.2 - Representao do intervalo de confiana utilizando distribuio normal.

Portanto:

P( Z < Z < Z ) = 1
2 2

63

Substituindo-se nesta expresso o valor de Z por: Z =

x (x) n

Obtm-se:

P( Z <
2

x < Z ) = 1 (x) 2 n
< x < Z
2

P( Z
2

(x) n

(x) n

) = 1

P(x Z
2

(x) n

< < x + Z
2

(x) n

) = 1

Esta a expresso final do intervalo de confiana para uma estimativa da mdia populacional. Note que esta expresso pressupe o conhecimento do desvio-padro populacional (x), e que a amostragem foi obtida com reposio. Alm disso, interessante salientar que: Z
2

(x) n

representa o erro padro de estimativa,

n ; estimativa + erro)
2

isto , e= Z

(x)

e que os limites dos intervalos so estabelecidos pelos valores: (estimativa - erro

Resumindo: O erro num intervalo de estimao diz respeito ao desvio (diferena) entre a mdia amostral e a verdadeira mdia da populao. Como o intervalo de confiana tem centro na mdia amostral, o erro mximo provvel igual metade da amplitude do intervalo. Logo, o intervalo

n pode ser escrito como: erro < x < + erro Portanto: erro = Z x n
A Figura 6.3 apresenta o intervalo de confiana em termos do erro.

x n

<x<Z

Figura 6.3 - Ilustrao do erro que metade da amplitude do intervalo de confiana.

Exerccio: 1) O departamento de recursos humanos de uma grande empresa informa que o tempo de execuo de tarefas que envolvem participao manual varia de tarefa para tarefa, mas que o desvio-padro permanece aproximadamente constante em 5 minutos. Uma nova tarefa est sendo implantada na empresa. Uma amostra aleatria do tempo de execuo de 60 destas novas tarefas forneceu o valor mdio de 18 minutos. Determine um intervalo de confiana de 93% para o tempo mdio de execuo desta nova tarefa. Resposta: P(16,832 18,168) = 0,93

64

6.2.5 - Determinao do tamanho da amostra Normalmente, quando faz-se um estudo estatstico, uma das dvidas mais freqentes qual o tamanho da amostra deve-se utilizar. Para responder esta questo utiliza-se a expresso do erro isolando a varivel "n":

erro = Z

x n

n =Z

x n = Z x erro erro

Logo, o tamanho da amostra necessria depender: (1) do nvel de confiana desejado; (2) do valor da disperso entre os valores individuais da populao; (3) do valor de erro tolervel. Exemplo: Que tamanho de amostra ser necessrio para produzir um intervalo de 90% de confiana para a verdadeira mdia populacional, com erro de 1,0 em qualquer dos sentidos, se o desvio padro da populao 10,0? Se o nvel de confiana 95%, ento Z=1,65. Desta forma:

10,0 2 n = Z x = 1,65 = (16,5) = 272,25 273 1,0 erro


Nota-se que, ao resolver em relao a "n", sempre arredonda-se a resposta para o prximo inteiro superior. At agora a investigao da estimao de mdias populacionais tem focalizado exclusivamente situaes em que o desvio padro populacional conhecido. Na prtica, mais comum encontrar situaes em que a disperso da populao no conhecida. Uma conseqncia do desconhecimento do desvio padro da populao que a distribuio normal j no a distribuio adequada. 6.2.6 - Fator de correo A expresso do intervalo de confiana para a mdia foi estabelecido, at o momento, considerando-se a obteno da amostra com reposio. Entretanto, em algumas situaes, como o caso em que a avaliao do elemento amostral um teste destrutivo, invivel a reposio deste elemento. A conseqncia da no reposio do elemento na populao, antes da seleo do prximo elemento, praticamente no altera a probabilidade da seleo deste elemento quando a populao for muito grande em relao ao tamanho da amostra. Caso contrrio, ou seja, quando a populao for finita e a amostra constituir mais que 5% da populao, a no reposio do elemento antes da seleo do prximo modificar sensivelmente as probabilidades de escolha dos elementos da amostra, modificando consequentemente sua distribuio de probabilidades. Desta forma, se o tamanho da amostra for menor que 5% do tamanho da populao, a no reposio pode ser desprezada. No entanto, se o tamanho da amostra for superior a 5% do tamanho da populao, deve-se corrigir o intervalo, para compensar os efeitos da no reposio. O fator de correo a ser utilizado ser:

Nn N 1
em que: N o tamanho da populao; n o tamanho da amostra.

65

O intervalo de confiana, neste caso, ser:

P(x Z
2

(x)

(x) Nn Nn < < x + Z ) = 1 N 1 N 1 n 2

Exerccios: 2) Sabe-se que as despesas mensais com alimentao dos 1500 alunos de uma faculdade no perodo escolar so normalmente distribudas com desvio padro de $30,00. Uma amostra, sem reposio, de 180 estudantes revelou uma despesa mensal de $115,00. Determine o intervalo de confiana de 91% para a despesa mdia com alimentao no perodo escolar dos alunos desta faculdade. Resposta: P(111,39 118,61) = 0,915 3) A durao de uma pea tal que = 8 horas. Foram tiradas amostras, aleatoriamente, com 130 dessas peas, obtendo-se vida mdia de 525 horas. Deseja-se construir um intervalo de confiana para a verdadeira vida mdia da pea com 92,5% de confiana.
Resposta: P(523,751 526,249) = 0,925

4) Admita os mesmos dados do exemplo anterior, considerando como populao a produo de 1200 peas. Resposta: P(523,820 526,180) = 0,925 6.2.7 - Estimao de mdias quando o desvio padro (x) desconhecido: Distribuio t-Student Quando o desvio padro da populao no conhecido (o que geralmente acontece), utiliza-se o desvio padro da amostra como estimativa (substitui-se "x" por "sx") nas equaes para intervalos de confiana e erros. Normalmente, razovel fazer esta hiptese pois o desvio padro amostral d uma boa aproximao do verdadeiro valor. Alm disso, sabe-se que, quando o tamanho da amostra superior a 30, a distribuio das mdias aproximadamente normal. Entretanto, para amostras de 30 ou menos observaes, a aproximao normal no adequada. Deve-se ento usar a distribuio "t de Student" ou simplesmente "t", que a distribuio correta quando se usa "sx". A forma da distribuio "t" bastante parecida com a normal. A Figura 6.4 apresenta uma comparao entre as distribuies "t" e normal. A principal diferena entre as duas distribuies que a distribuio "t" tem maior rea nas extremidades. Isto significa que, para um dado nvel de confiana, o valor "t" ser um pouco maior que o correspondente valor Z.

Figura 6.4 - Comparao entre as distribuies "t" e normal.

Mas o aspecto interessante sobre a distribuio "t" que ela no uma distribuio padronizada no mesmo sentido da distribuio normal pois existe uma distribuio "t" ligeiramente diferente para cada amostra. Assim, enquanto a distribuio normal essencialmente independente do tamanho da amostra, a distribuio "t" no tem o mesmo comportamento. Para amostras pequenas (por exemplo, menores que 30), a distribuio "t" mais sensvel em relao

66

ao tamanho da amostra, embora para amostras maiores essa sensibilidade diminua. Na verdade, a distribuio "t" sempre teoricamente correta quando no se conhece o desvio padro da populao, independentemente do tamanho da amostra. A Tabela 6.1 mostra os valores de "t" (semelhante aos valores de Z visto no captulo 5). Como existe uma distribuio para cada tamanho de amostra, no seria prtico tentar construir tabelas completas das distribuies "t". Nesse caso, tabelam-se apenas os principais valores. Para usar uma tabela "t", deve-se conhecer duas coisas: o nvel de confiana desejado, e o nmero de graus de liberdade. O nmero de graus de liberdade est relacionado com a maneira como se calcula o desvio padro:

sx =

(x x)
i =1

n 1
sx = desvio padro amostral; n -1 = graus de liberdade.

em que:

O grfico da distribuio "t" simtrico em relao sua mdia, de forma semelhante distribuio normal. A distribuio "t" mais dispersa que a normal, porm a disperso diminui medida que o nmero de graus de liberdade aumenta, sendo que para valores de (n - 1) > 30 as distribuies so praticamente iguais.

Figura 6.5 - Representao do intervalo de confiana para a distribuio t de Student.

De acordo com o grfico da Figura 6.5 tem-se que:

P(x t
2

sx n

< < x + t
2

sx n

) = 1

Exerccios: 5) O comprimento das peas produzidas por uma mquina normalmente distribudo. Uma amostra aleatria de 10 peas apresentou os seguintes valores em milmetro: 8,75 8,72 8,73 8,76 8,78 8,74 8,73 8,77 8,74 8,72

Construa um intervalo com 95% para o comprimento mdio.


Resposta: P(8,729 8,759) = 0,95

6) Um pequeno produtor de queijo utiliza processos rudimentares em sua produo. Um cliente deseja encomendar 200 peas do produto padronizadas em 1Kg. Aps a produo, para verificar se o lote produzido atende ao padro desejado, selecionou ao acaso uma amostra de 15 queijos que apresentou peso mdio de 1,03Kg com desvio padro de 0,06kg. Construa o intervalo de confiana de 98% para o peso mdio das peas produzidas neste lote.
Resposta: P(0,991 1,069) = 0,98

67

Tabela 6.1 Distribuio t Student

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 1000

0,1 3,0777 1,8856 1,6377 1,5332 1,4759 1,4396 1,4149 1,3968 1,3830 1,3722 1,3634 1,3562 1,3502 1,3450 1,3406 1,3368 1,3334 1,3304 1,3277 1,3253 1,3232 1,3212 1,3195 1,3176 1,3163 1,3150 1,3137 1,3125 1,3114 1,3104 1,3062 1,3031 1,3007 1,2987 1,2958 1,2938 1,2922 1,2910 1,2901 1,2824 0,1

0,05 6,3137 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7531 1,7459 1,7396 1,7341 1,7291 1,7247 1,7207 1,7171 1,7139 1,7109 1,7081 1,7058 1,7033 1,7011 1,6991 1,6973 1,6896 1,6839 1,6794 1,6759 1,6706 1,6689 1,6641 1,6620 1,6602 1,6464 0,05

0,025 12,7062 4,3027 3,1824 2,7765 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1765 2,1604 2,1448 2,1315 2,1199 2,1098 2,1009 2,0930 2,0860 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0301 2,0211 2,0141 2,0086 2,0033 1,9944 1,9931 1,9867 1,9840 1,9623 0,025

0,01 31,8210 6,9645 4,5407 3,7469 3,3649 3,1427 2,9979 2,8366 2,8214 2,7638 2,7181 2,6810 2,6503 2,6246 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4377 2,4233 2,4121 2,4033 2,3901 2,3809 2,3739 2,3685 2,3642 2,3301 0,01

0,005 63,6559 9,9250 5,8408 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7370 2,7874 2,7787 2,7707 2,7833 2,7564 2,7500 2,7238 2,7045 2,6896 2,6778 2,6603 2,6479 2,6387 2,6316 2,6259 2,5807 0,005

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 1000