Академический Документы
Профессиональный Документы
Культура Документы
Captulo 1
Introduo - Conceitos gerais
A estatstica uma ferramenta importante para o manejo florestal, seja pra quem est
interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar,
executar e acompanhar um projeto. Difcil separar a estatstica pra essas duas frentes. O
objetivo desta Parte da apostila aprofundar em conceitos dos indicadores estatsticos mais
freqentemente utilizados pelos florestais e ajudar na interpretao dos resultados.
Estatstica um ramo do conhecimento cientfico que consta de conjunto de processos
que tm por objeto a observao, a classificao formal e a anlise dos fenmenos coletivos
ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferncias
indutivas vlidas a partir dos dados observados e buscar mtodos capazes de permitir esta
inferncia (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo
conceito para estatstica que, segundo Edgard, "a arte de torturar os nmeros at que eles
confessem aquilo que voc quer ouvir."
Em inventrio florestal, produto sem estatstica no produto. Em inventrios, o
principal produto o intervalo de confiana para a mdia estimada. Na pesquisa cientfica, a
estatstica pode ser vista como um instrumento de comunicao e, embora o seu uso seja
absolutamente opcional, ela fornece os modelos que so necessrios para estudar as situaes
que envolvem incertezas, mas a palavra final sua.
O exerccio, a anlise e a interpretao do pensamento cientfico normalmente so
feitos por meio da linguagem operacional dos conceitos e hipteses cientficas. Isso implica
na formulao de hipteses estatsticas e estabelecimento dos procedimentos de observaes
diretas ou de medies.
Linguagem terica: quanto mais grossa a rvore, mais madeira ser oferecida
indstria de transformao. Neste caso, dois conceitos so envolvidos: espessura e madeira.
Com definir esses dois conceitos? Espessura pode ser o dimetro de uma rvore. Madeira
pode ser a quantidade de material lenhoso disponvel para a indstria.
E da? Que fazemos agora? Temos que operacionalizar as observaes e medies de
espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em
centmetros de dimetro altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por
sua vez, pode ser traduzida como volume cbico da rvore.
Agora, a hiptese cientfica pode ser enunciada, em termos de hiptese estatstica, da
seguinte maneira: Quanto maior o DAP, maior ser o volume da rvore. Dessa forma, o
pica-pau fica mais vontade.
Depois de formulada a hiptese, o passo seguinte consiste em test-la. Para se testar as
hipteses sero precisos: planejar a coleta de dados, coletar os dados, tratar os dados,
processar os dados, analisar os resultados e, finalmente, tomar decises para rejeitar ou no a
hiptese estatstica formulada (Ver figura 1.1).
O papel da estatstica na pesquisa cientfica ajudar o pesquisador pica-pau a
formular as hipteses e a fixar as regras de deciso.
Um pouco de filosofia.
- Aristteles escreveu: A verdade um alvo to grande que dificilmente algum
deixar de toc-lo, mas, ao mesmo tempo, ningum ser capaz de acert-lo em cheio, num s
tiro.
- A meta da cincia a organizao sistemtica do conhecimento sobre o universo,
baseado nos princpios explanatrios que so genuinamente testveis.
- O pesquisador tem os dons da instituio e criatividade para saber que o problema
importante e quais questes devem ser levantadas; a estatstica, por sua vez, o assistir por
meio da maximizao de output no ambguos enquanto minimiza os inputs.
- O pesquisador tem que ter em mente que a pesquisa freqentemente levanta mais
questes do que respostas. Os resultados quase sempre so meramente uma demonstrao de
nossa ignorncia e uma declarao mais clara do que no sabemos.
- O pesquisador tem que manter os olhos abertos, sua mente flexvel e estar preparado
para surpresas.
- A pesquisa est na cabea do pesquisador; o laboratrio ou o campo meramente
confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as
questes certas para fazer e no nas certas respostas.
- A aplicao indiscriminada dos mtodos quantitativos sobre inesgotveis quantidades
de dados no significa que o entendimento cientfico vai emergir s por causa disso.
erro igual a 1,8%), so praticamente iguais aos oficiais do TSE. A informao do TSE sobre
votos vlidos enquanto que os da pesquisa de opinio so de inteno de votos. Na pesquisa
de opinio do 1 turno difcil identificar o voto nulo.
Exemplo 2: Pesquisas de opinio sobre o 2 turno da eleio presidencial 2002,
realizadas pelo Datafolha. Neste caso, foi possvel estimar os percentuais sobre os votos
vlidos. No ltimo dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos vlidos
para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinmica de opinio de eleitores para
o2 turno da eleio de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7%
para o Serra Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos),
as estimativas do ltimo dia seriam 62% (para menos) para o Lula e 38% (para mais) para o
Serra.
Esta parte da estatstica de inferncia evoluiu muito no Brasil. A prova disso so os
resultados finais do primeiro e do segundo turno da eleio presidencial de 2002 que tem
muito a ver com as previses feitas pelas pesquisas de opinio dos vrios institutos. O sucesso
tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de
dados e processamento & anlise dos resultados A evoluo da informtica tambm
contribuiu muito para o sucesso das pesquisas; o rpido processamento e, conseqente,
anlise dos resultados, permitiu a repetio em intervalos de tempo menores isso
fundamental para a validao dos mtodos utilizados que, por sua vez, d a robustez
necessria para a pesquisa e a sociedade ganha com a maior preciso e confiabilidade das
pesquisas de opinio.
Exemplo 3: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com
base no intervalo de confiana (95%) da srie histrica de 1978 a 2005 Figura 1.7. Apesar
da confuso das estatsticas e de sua interpretao, com boa vontade e profissionalismo, as
causas do desmatamento poderiam ser identificadas. O desafio entender a direo que o
desmatamento pode tomar no futuro. Sem entender as causas, a direo s pode ser
estocstica. A Figura 1.7 ilustra o uso do intervalo de confiana IC (nvel de probabilidade
de 95%) para a mdia do perodo 1978-2005. De acordo com dinmica do desmatamento at
2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) so: 29%
de ficar acima da estimativa mxima provvel (maior do que 20.983 km 2), 29% abaixo da
estimativa mnima provvel (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de
confiana (entre 16.296 a 20.983 km2) com 95% de chance de acertar.
Exemplo 4: Todos os trabalhos de equaes de volume que utilizam os modelos
destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em
modelos matemticos que sero utilizados, posteriormente, para estimar o volume da rvore
em p.
Para concluir a discusso, em torno da natureza da estatstica, importante no perder
de vista que a opo por uma das duas estatsticas pode ser pessoal. Entretanto, se a escolha
recair sobre a de inferncia, o pesquisador deve se sujeitar as suas regras e condicionantes. A
estatstica de inferncia, por sua vez, deve ficar sob as condicionantes da teoria da
probabilidade, da normalidade e da independncia; a violao de uma dessas condicionantes
implica em um comprometimento muito srio de todo o seu trabalho.
(i) Erro Amostral => o erro que voc comete por no medir toda a populao. Este
parmetro mensurvel e, dependendo da escolha dos mtodos, voc tem condies de
aumentar ou diminuir este erro. De qualquer modo, trata-se de um parmetro que pode ser
controlado e avaliado por voc. o desvio padro da mdia ou, simplesmente, erro padro e
tem frmula para o seu clculo. a nica medida de preciso, por mais paradoxal que possa
parecer, em qualquer trabalho de pesquisa ou de inventrio florestal.
(ii) Erro no-amostral => o erro humano, que pode ser cometido acidental ou
deliberadamente. o tipo de erro que voc comete ao alocar uma amostra no lugar errado
ex.: no escritrio voc faz a opo pela amostragem inteiramente aleatria e sorteia as
unidades amostrais e distribui em sua rea estudo; no campo, entretanto, voc no consegue
aloc-las de acordo com as coordenadas pr-estabelecidas e aloc-as em outro lugar. Voc
tambm comete erro no-amostral quando utiliza um equipamento defeituoso ou, por
preguia, voc chuta as medidas de uma determinada varivel. O problema desse erro que
voc no consegue dimension-lo e, neste caso, no h estatstica que d jeito para consertar o
mal-feito. A estatstica e o computador s so teis na interpretao de fenmenos observados
quando os dados so de absoluta confiana e sem erros no-amostrais.
Moral: Busque sempre a melhor metodologia para conseguir a maior preciso de seu
trabalho sem, contudo, aumentar a possibilidade de cometer erros no-amostrais. BOM
PESQUISADOR aquele que no entrega sua coleta de dados para qualquer PEO.
(iii) Populaes, Parmetros e Estimativas
A noo central em qualquer problema de amostragem a existncia de uma
populao. Pense em uma populao como um agregado de valores unitrios, onde a
unidade a coisa sobre a qual a observao feita e o valor a propriedade observada
sobre aquela coisa. Populao ento o conjunto de todos os indivduos ou itens sob
considerao. Ou ainda: populao o universo de seu interesse.
Ilustrando:
- se voc est interessado em estudar o potencial quantitativo da floresta da Reserva
Ducke, a POPULAO o conjunto de todas as rvores acima de um determinado DAP,
existentes naquela rea de 10.000 hectares.
- se para voc potencial quantitativo significa volume cbico obtido de equaes
simples (DAP como varivel independente), o volume mdio (por hectare, por ex.) de todas as
rvores da Reserva Ducke o PARMETRO.
- se voc, no entanto, decidir pela avaliao por amostragem e lanar naquela rea
algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribudas), o volume mdio
dessas amostras a ESTIMATIVA.
AMOSTRA aquela parte da populao da qual a informao coletada.
(iv) Tendncia (bias), Exatido e Preciso
TENDNCIA ou VIS (bias, em ingls) uma distoro sistemtica. Ela pode ser
devido a alguma falha na medio, ou no mtodo de selecionar a amostra, ou na tcnica de
estimar o parmetro.
Se voc medir o DAP com uma fita diamtrica faltando um pedao na ponta (2 cm),
voc medir todas as rvores com 2 cm a mais, ou seja, voc superestimar esta varivel. Uma
maneira prtica de minimizar as tendncias em medies por meio de checagens peridicas
dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado
com eles.
Nmero
13
45
40
23
16
29
Candidato
Lula
Jos Serra
Garotinho
Ciro Gomes
Z Maria
Rui Pimenta
total votos
39.454.692
19.705.061
15.179.879
10.170.666
402.232
38.619
% vlidos
46,44
23,20
17,87
11,97
0,47
0,05
total votos
52.793.364
33.370.739
% vlidos
61,27
38,73
Nmero
13
45
Candidato
Lula
Jos Serra
fonte: www.inpe.br
Figura 1.2: Desmatamento anual (km2) na Amaznia.
Figura 1.5: Pesquisas de opinio realizadas pelo IBOPE para o 1 turno da eleio
presidencial de 2002.
Figura 1.6: Pesquisas de opinio realizadas pelo Datafolha para o 2 turno da eleio
presidencial de 2002.
Figura 1.7: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no
intervalo de confiana (95%) da srie histrica de 1978 a 2005.
Captulo 2
Organizao dos dados
2.1. Dados:
A informao coletada e analisada pelo estatstico chamada de DADOS. H vrios
tipos de dados e a escolha da metodologia, pelo estatstico , parcialmente, determinada pelo
tipo de dados que ele tem em mos.
Exemplo 1: No exame de seleo para turma 90/91 do Manejo Florestal, tivemos 15
candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6
candidatos, 5 homens e 1 mulher. Joo da Silva tirou o primeiro lugar com nota 6,7 e Joaquim
Moreira tirou o ltimo lugar com a nota 5,0.
No exemplo acima, ns podemos destacar os seguintes tipos de dados:
QUALITATIVO o tipo mais simples de dados, a informao que coloca cada
candidato em uma das duas categorias homem ou mulher ou tipo florestal I ou tipo II ou
estocada ou no estocada etc. Esses dados do informaes sobre um indivduo ou um item.
ORDINAL A informao sobre classificao, dados que colocam os indivduos ou
objetos em ordem, rankeados. No exemplo, as classificaes de Joo e Joaquim so dados
ordinais.
MTRICO O termo mtrico se refere aos dados mensurveis e no deve ser
confundido com os dados em unidades mtricas. No exemplo, as notas dos candidatos (6,7 e
5,0 e outras notas) so dados mtricos.
Resumindo:
Dados qualitativos: dados que se referem qualidade no numricas ou atributos, tais
como: tipo florestal, gnero ou espcie florestal, cor de alguma coisa etc.
Dados ordinais: dados sobre classificao, ordem ou rank, tais como: classificao
de toras, ordem de chegada etc.
Dados mtricos: dados obtidos de medies de certas quantidades como: tempo,
altura, DAP, volume, peso etc.
Um outro importante tipo de dados o chamado DADOS CONTVEIS. A contagem
do numero de indivduos ou itens que caem em vrias categorias, tais como homem e
mulher fornece os dados contveis. Por exemplo, a informao dada no exemplo anterior
que foram aprovados 5 homens e 1 mulher, so dados contveis.
DADOS CONTVEIS so dados sobre o nmero de indivduos ou itens que caem
em certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados
(qualitativo, ordinal ou mtrico).
Os dados QUALITATIVO e ORDINAL so referidos pelos estatsticos como dados
DISCRETOS porque eles classificam coisas em classes separadas e discretas. Na
classificao dos candidatos ao mestrado no h como colocar ningum entre o primeiro lugar
e o segundo. Tambm no h como classificar ningum entre homem e mulher. So
exemplos tpicos de dados discretos, porque no h como dizer que algum ficou em
primeiro lugar e meio ou o que fulano homem e meio. No caso de ordem de chegada ou
rank h possibilidade de empate, mas isso outra coisa e ser discutido na estatstica noparamtrica.
Por outro lado, a maioria dos dados mtricos considerada DADOS CONTNUOS
porque eles envolvem medies sobre uma escala contnua. A escala fica por conta da
preciso do aparelho de medio: na suta ou na fita diamtrica, o mximo que podemos
chegar dcimo de centmetros, ou seja, entre os DAPs 20 e 21 cm ns podemos ter DAPs
com 20.1, 20.2, ... , 20.9; nos cronmetros da Frmula 1, no entanto, o nvel de preciso
impensvel para os nossos relgios de pulso.
DAP
25.0
27.0
45.0
36.0
39.0
36.0
33.0
47.0
34.0
53.0
rv. n
11
12
13
14
15
16
17
18
19
20
DAP
33.0
38.5
31.8
52.0
37.0
27.7
35.0
33.0
47.0
33.0
rv. N
21
22
23
24
25
26
27
28
29
30
DAP
32.0
63.0
34.0
30.0
29.0
32.0
27.0
28.0
27.0
40.0
rv. n
31
32
33
34
35
36
37
38
39
40
DAP
37.0
41.0
40.0
32.0
58.0
28.0
77.0
58.0
43.0
30.0
Contagem
IIIII III
IIIII IIIII IIIII IIII
IIIII II
IIII
I
I
n de rvores (f)
8
19
7
4
1
1
40
pt mdio
25
35
45
55
65
75
Freq
8
19
7
4
1
1
freq rel
0,200
0,475
0,175
0,100
0,025
0,025
freq acum
8
27
34
38
39
40
Algumas terminologias:
Classe uma categoria para o grupamento de dados.
Freqncia o nmero de indivduos ou objetos numa classe. Por exemplo, a
freqncia da classe 30-39.9 19.
Freqncia relativa a porcentagem, expressa como um decimal, do nmero total de
indivduos de uma determinada classe. A freqncia relativa da classe 50-59.9 0.1 ou 10%.
Freqncia acumulada a soma das freqncias dos valores inferiores ou iguais a
valor dado.
Distribuio de Freqncia a listagem das classes com suas freqncias.
Limite inferior da classe o menor valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite inferior 20.
Limite superior da classe o maior valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite superior 29.9. Se a preciso fosse de duas casas decimais, o limite superior
poderia ser 29.99 e assim por diante.
Intervalo de classe a diferena entre o limite superior e o limite inferior de uma
dada classe. No nosso exemplo, o intervalo 10, ou seja, 30 20 =10.
Ponto mdio da classe a mdia aritmtica entre o limite superior e limite inferior
da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto mdio 35 e assim
por diante.
Captulo 3
Medidas descritivas
H muitos critrios, por sinal, bem avanados, para a descrio sucinta dos fenmenos
naturais. Apesar disso, a maioria das caractersticas usadas na estatstica, para descrever as
variveis aleatrias, em populaes particulares, caem em uma das trs categorias: (1)
medidas da tendncia central (alocao de um valor ordinrio); (2) medidas de disperso
(distncia relativa de valores extremos de um valor central); (3) medidas de relacionamento
entre as variveis (grau de similaridade ou dissimilaridade em magnitude).
Em geral, o volume de dados de uma pesquisa muito grande. Os mtodos de grficos
e grupamento de dados so teis no manuseio de um grande conjunto de dados. Uma outra
forma de sumarizar os dados por meio da computao de um nmero, tal como a mdia, a
qual substitui um grande volume de dados por um simples nmero.
(2)
(3)
(4)
(5)
25
27
27
27
27.7
(11)
(12)
(13)
(14)
31.8
32
32
(21)
(22)
35
(6)
(7)
(8)
(9)
(10)
28
28
29
30
30
(15)
(16)
(17)
(18)
(19)
(20)
32
33
33
33
33
34
34
(23)
(24)
(25)
(26)
(27)
(28)
(29)
(30)
36
36
37
37
38.5
39
40
40
41
(31)
(32)
(33)
(34)
(35)
(36)
(37)
(38)
(39)
(40)
43
45
47
47
52
53
58
58
63
77
Neste caso, o nmero total de observaes, n, par, a mediana ser a mdia aritmtica
dos vigsimo e vigsimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5.
Moda simplesmente o ponto mdio da classe que tem a maior freqncia, que no
nosso caso, quadro 2.2, 35, que tem a freqncia = 19.
Resumo das estimativas das medidas:
Mdia
38,225
Mediana = 34,5
Moda
35,0
Interpretao: um conjunto de dados pode ter mais de uma moda, mas sempre ter
somente uma mdia ou mediana. Como voc pode ver, de um mesmo conjunto de dados, voc
tem diferentes medidas de tendncia central. Qual delas a melhor? A deciso vai depender,
principalmente, do objetivo de sua informao. Quando a gente vende madeira em volume,
normalmente truncada a um determinado dimetro mnimo, a mdia deve prevalecer tendo em
vista a maior facilidade para os clculos posteriores. Se a rvore vendida em p, a moda
pode ser mais interessante, porque ela d uma noo tambm da distribuio de freqncia. A
utilizao da mediana mais prtica na tomada de decises quanto a tratamentos
silviculturais, desbastes etc., quando voc precisa priorizar o tamanho que precisa sofrer
intervenes.
Ecologia
aluno
idade
1
22
2
30
3
28
4
21
5
39
mdia
28
As mdias dos dois grupos so iguais. No entanto, claro que estamos nos referindo a
dois grupos diferentes em idade. D para perceber que o grupo do Manejo mais uniforme
em termos de idade. Neste caso, para ver a variao que h dentro de cada conjunto de dados,
podemos usar a amplitude total ou o desvio padro, as duas medidas de disperso mais
comuns.
AMPLITUDE TOTAL a medida da variao olhando apenas a diferena entre o
maior e o menor valor. Esta medida de fcil computao porque depende apenas do maior e
do menor valor, mas, em compensao ela no diz o que acontece entre esses dois valores.
Alm disso, considerada muito limita, sendo uma medida que depende apenas dos valores
externos, instvel, no sendo afetada pela disperso dos valores internos.
Do quadro 3.1, as amplitudes so:
-
Manejo: 30 25 = 5
Ecologia: 39 21 = 18
DESVIO PADRO nos d a disperso dos indivduos em relao mdia. Ele nos
d uma idia se os dados esto prximos da mdia ou muito longe. O desvio padro dos
indivduos de uma populao freqentemente simbolizado pela letra grega minscula ().
Dificilmente a gente trabalha com o parmetro. Entretanto, dado uma amostra de valores
individuais de uma populao, podemos fazer uma estimativa de que comumente
simbolizada por s.
n
Frmula : s
2
(x i - x)
i 1
n -1
n
ou , mais simples : s
i 1
x i - (( x i ) 2 ) / n
2
i 1
n -1
da x e os ( n-1 ) valores de xi, ento o valor do ltimo xi fixo; isto , uma informao
_
redundante. Por esta razo, ao usar a mdia amostral x em vez da mdia da populao
como um ponto central no clculo de s, voc perde um grau de liberdade (gl) e a estimativa de
dita ter ( n 1 ) gl associados com ela. O uso de (n 1) em vez de (n) no clculo de s
tambm fornece uma estimativa no-tendenciosa; isto , em uma srie infinita de amostras
aleatrias, o valor mdio do estimador igual a .
Os desvios padres dos dados do quadro 3.1 so:
-
Manejo: s = 1.87
Ecologia: s = 7.25
x = ( x i * fi ) / n
x = 38,5 e s = 11,45
3.4 Percentil:
Ns j vimos um exemplo de percentil. A mediana divide um conjunto de dados em
duas partes, 50% de um lado e 50% de outro, depois de coloc-los em ordem crescente. Por
esta razo ela se refere ao qinquagsimo percentil de um conjunto de dados. Alm dos
percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador
pode tambm querer encontrar o quartil e o decil.
Quartil a separatriz que divide a rea de uma distribuio de freqncia em
domnios de rea igual a mltiplos inteiros de um quarto da rea total.
Decil a separatriz correspondente ao valor do argumento que divide a distribuio
numa razo decimal.
Primeiro quarto
25
27
27
27
27.7
28
28
29
30
30
32
33
33
33
33
34
34
37
37
38.5
39
40
40
41
47
52
53
58
63
77
Segundo quarto
31.8
32
32
Terceiro quarto
35
36
36
Quarto quarto
43
45
47
58
Computaes:
Primeiro quartil = (30 + 31.8) / 2 = 30.9
Segundo quartil = (34 + 35) / 2 = 34.5
Terceiro quartil = (41 + 43) / 2 = 42.0
- Manejo
Frmulas teis
Mdia Aritmtica
Varincia
xi
i 1
s2
xi x
i 1
n 1
Desvio padro
Erro padro
sx s / n
s s2
SQC x xi
2
i 1
xi
SPC xy xi y i
i 1
x y
i 1
Coeficiente de correlao
SPC xy
SQC X SQCY
SQC y y i
i 1
i 1
yi
n
Captulo 4
Probabilidade
No captulo 1 ns distinguimos dois tipos de estatsticas: descritiva e de inferncia. A
estatstica descritiva envolve a organizao e a sumarizao dos dados. A estatstica de
inferncia lida com inferncias (predies educadas) sobre uma populao baseada em uma
amostra da populao.
Desde que a estatstica de inferncia envolve predies (educadas), sempre possvel
fazer uma inferncia incorreta. preciso saber o quanto a nossa inferncia est correta. Para
medir a chance de estar certo na nossa inferncia estatstica, precisamos entender a teoria de
probabilidade, que a fundamentao matemtica para a estatstica de inferncia.
Para entender os princpios da teoria de probabilidade no h como fugir dos exemplos
clssicos de cara & coroa, dos dados e do jogo de baralho. A propsito, a teoria foi
desenvolvida por causa de jogos de azar. O objetivo deste captulo dar uma base geral para
facilitar o entendimento da aplicao de testes de hipteses, paramtrica e no-paramtrica.
O processo de computao (clculo) de probabilidades depende de sua capacidade de
contar, 1, 2, 3 e assim por diante. A seguir vamos discutir alguns mtodos de contagem.
4.1. Contagem:
Primeiro vamos estabelecer as seguintes definies dentro da teoria de probabilidade.
Resultado - no caso de cara ou coroa, 2 resultados so possveis e no caso do jogo de
dados, 6 resultados.
Teste - (ou tentativa) - a ao de jogar a moeda e ver se ela cai com a cara ou
coroa.
Experimento - o conjunto de testes (tentativas); se a moeda jogada uma vez, ou
duas, ou n vezes, no interessa o procedimento deve ser considerado um experimento.
Eventos - so os possveis resultados de um teste, vrios testes ou de todo o
experimento. Exemplo de evento: uma coroa em 4 jogadas ou pelo menos um cara.
REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos
k possveis resultados, afirmamos que h kn possveis resultados de todo o experimento.
Exemplo 1: no jogo da moeda voc tem dois resultados, cara (C) ou coroa (c), k=2.
Se voc jogar apenas uma vez, n=1, voc ter 21 = 2 possveis resultados, C ou c. Se voc
jogar duas vezes, n = 2, voc ter 22 = 4 possveis resultados, CC cc Cc cC.
REGRA 2: H n! (fatorial) maneiras de arranjar n objetos distinguveis em uma seqncia.
Exemplo 2: considere o nmero de maneiras de arranjar as letras A, B e C numa
seqncia. A primeira letra pode ser qualquer uma das trs, a segunda pode ser escolhida de
duas maneiras diferentes uma vez que a primeira j foi escolhida, e a letra remanescente se
torna a ltima letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6
possveis arranjos so: ABC ACB BAC BCA CAB e CBA.
Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. H 8 maneiras de
qualquer um deles chegar em primeiro lugar, tendo nas outras colocaes qualquer outro. Se
voc quiser saber quantos arranjos so possveis tendo, no primeiro e segundo lugar, qualquer
um deles e, as demais colocaes, de qualquer jeito, voc far (8) (7) = 56 arranjos. Se voc,
no entanto, quiser saber todos os possveis arranjos do primeiro ao oitavo lugar voc far 8! =
40320 arranjos.
REGRA 3: se um grupo de n objetos composto de k objetos idnticos de um tipo e o
restante (n-k) so objetos idnticos de um segundo tipo, o nmero de arranjos distinguveis
dos n objetos numa seqncia, denotado por meio de
n n n!
da op r
k k k!(n-k)!
Ou: se um grupo de n objetos composto de n1 objetos idnticos do tipo 1, n2 objetos
idnticos do tipo 2, ..., nr objetos idnticos do tipo r, o nmero de arranjos distintos numa
seqncia ser:
3n 3! (3)2(1)3 n n!
2 2!1 (2d) 1a()op r
n i ni n1!n2!. nr!
1/ 3
2/3
1/ 2
3 6
3 maneiras e conseqentemente
2 2
P ( exatamente 2 caras) 3p 2q
Obviamente o anterior pode ser descrito simplesmente como um experimento com 3
tentativas independentes. Por extenso, podemos considerar um experimento consistindo de n
jogadas independentes. A probabilidade de obter exatamente k caras , ento, igual ao
termo pkqn - k vezes o nmero de vezes que o termo pode aparecer. Por esta razo, em n
jogadas independentes de uma moeda
n k n -k
P (exatamente k caras) p q
k
n de famlias
18
8
7
4
3
%
45,0
20,0
17,5
10,0
7,5
freq. relativa
0,450
0,200
0,175
0,100
0,075
40
100,0
1,000
O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famlias possuem 2 crianas.
Agora, suponha que uma das famlias tenha sido selecionada aleatoriamente, ou seja,
cada famlia teve igual chance de ser escolhida. Qual a probabilidade que a famlia
selecionada tenha 3 crianas? A resposta 4/40, que a mesma frequncia relativa.
Suponha que h N resultados possveis num experimento. A probabilidade que um
evento ocorra o nmero de vezes, f, que o evento pode ocorrer, dividido pelo nmero total,
N, de possveis resultados.
P(X x | Y y)
P (X x, Y y)
se P(Y y) 0
P(Y y)
Exemplo 4: Deixe X ser o nmero de meninas que se comunicam bem com suas
mes, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o nmero total de
crianas que se comunicam bem com suas mes. Por convenincia, deixe Z=Y-X, tal que Z
igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mes. Assuma que
as respostas dadas pelas crianas so independentes de cada outra e que cada criana tem a
mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua me.
Encontre a probabilidade condicional P ( X=3 | Y=7).
Primeiro, pelas suposies anteriores, X=3 e Z=4 so eventos independentes. Desde
que o evento (X=3, Y=7) o mesmo que o evento (X=3, Z=4), temos a probabilidade
P(X=3, Y=7) = P(X=3, Z=4)
= P(X=3) P(Z=4)
6 3 3 8 4 4
(2) p (1-p) p (1-p)
3 4
(3)
14 7 7
P(Y 7) p (1- p)
7
(4)
P(X 3| Y 7)
6 8
3 4
14
7
6! 8!
3!(6 - 3)! 4!(8 - 4)!
0.408
14!
7!(14 - 7)!
P(X x)
a x b
P (X x)
x par
onde o somatrio se aplica a todos os valores de x que so pares. Por causa dessa similaridade
entre o conjunto de valores possveis de X e um espao amostral, a descrio do conjunto de
probabilidades associadas com os vrios valores que X pode assumir, freqentemente
chamado de funo de probabilidade da varivel aleatria X, assim como um espao amostral
f(x) P(X x)
F(x) P (X
x)
f(t)
tx
n x n -x
(7) f(x) P(X x) p q para x 0,1,. , n
x
onde: n nmero inteiro positivo, 0 p 1 e q = 1 p. Note que usaremos a conveno usual
que 0! = 1.
A funo de distribuio ser ento
( )8
n i n-i
F(x) P(X x) p q
ix i
n x n -x
P (X x) p q
x
para x inteiro de 0 a n. Desta maneira, o experimento tem a distribuio binominal.
Definio 6: Deixe X ser uma varivel aleatria. A distribuio discreta uniforme a
distribuio de probabilidade representada pela funo de probabilidade.
(9)
6 8 7 7
( 2)1 f(3,7) P(X3,Y7) p (1-p)
3 4
e
onde
f(x | y) = P(X = x | Y = y)
f(x | y) P(X x | Y y)
P(X x, Y y)
P(Y y)
f(x, y)
f(y)
14 y 14 -y
f(y) P(Y y) p (1- p)
y
6 8
f(x,y) x y-x 0x6
( 6)1 f(x y) par
f(y) 14 0y-x8
y
onde todos os termos que envolvem o parmetro desconhecido p foram convenientemente
cancelados.
Definio 10: Considere X1, X2, ... , Xn como variveis aleatrias com as respectivas
funes de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a funo de probabilidade conjunta f
(x1, x2, ... , xn ). Ento X1, X2, ... , Xn so mutuamente independentes
(17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn)
para todas as combinaes dos valores de x1, x2, ... , xn.
Exemplo 9: Considere o experimento descrito no exemplo 8. Ento, a funo de
probabilidade de X dada por
6 x 6-x
(18) f1 (x) P (X x) p (1- p )
x
14 y 14-y
(19) f2 (y) P (Y y) p (1- p)
y
Desde que:
f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y)
O uso das equaes (16) e (19) resulta na funo de probabilidade conjunta de X e Y,
sendo dada por
6 8
x y-x 14 y 14-y
f(x,y) p (1-p)
14 y
y
6 8 y 14-y
p (1-p)
x y-x
desde que:
6 14 xy 20-xy
f1(x) f2(y) p (1-p)
x y
vemos que:
f(x, y) diferente de f1(x) f2(y)
e, por esta razo, X e Y no so independentes.
CAPTULO 5
DISTRIBUIO NORMAL
Uma funo de distribuio mostra, para uma populao, a freqncia relativa
(probabilidade) com que diferentes valores (nmeros reais) de uma varivel aleatria
ocorrem. Em geral, cada populao tende a ter a sua prpria distribuio. No entanto, a
distribuio normal a mais popular de todas por causa de sua grande aplicabilidade na
aproximao do comportamento de um grande nmero de variveis aleatrias naturais que so
contnuas. Ela conhecida como distribuio de Gauss (difusor) ou distribuio com a forma
de sino V. Figura 5.1. abaixo.
Funo:
n x; ,
0.5
x
2
Para: x
10
idade
23
25
26
28
26
24
25
27
30
26
x = ( xi ) / n
para: n = 10 e i = 1, 2, ... n
_
x = 26 anos
Se voc utilizou uma amostra representativa da populao, voc estar afirmando que
a mdia verdadeira da populao dos 200 estudantes, , deve ser em torno de 26 anos.
Diante disso, surgem algumas questes:
_
(i)
Qual a justificativa para utilizar a mdia amostral x para estimar a
mdia da populao ?
_
(ii)
Qual a confiana sobre a preciso envolvida ao usar x para estimar ?
No exemplo 1, se uma amostragem com 10 estudantes utilizada, qual a probabilidade da
_
idade mdia amostral, x , estar dentro de um intervalo (vamos dizer, 1 ano) da mdia da
populao, ?
(iii)
Qual a necessria intensidade de amostragem para assegurar uma certa
preciso com grande confiana? No exemplo 1, quo grande deveria ser uma amostragem
_
(10? 20 estudantes?) para assegurar que 95% de todos os possveis x cassem dentro de um
intervalo de 1 ano da mdia da populao, ?
Vamos responder todas estas questes nesta apostila. A primeira ser respondida,
parcialmente, neste captulo e completada no captulo 6. As outras duas (ii e iii) sero
respondidas nos captulos 6 e 7, respectivamente.
_
A lei dos grandes nmeros a nossa justificativa matemtica para usar x para
estimar ...justifica, mas no explica. Da mesma forma, ela no particularmente til para
responder questes prticas envolvendo a preciso de tais estimativas. Esta lei, por exemplo,
_
no informa sobre a probabilidade de x estar dentro do intervalo de 1 ano de . As
_
probabilidades para x podem ser obtidas aproximadamente usando reas sob certas curvas
em forma de sino.
H vrias curvas normais, que variam de acordo com a mdia e desvio padro, e .
No entanto, a curva que norteia todas as outras curvas, a curva normal padro (Figura 5.1).
Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. S existe uma
nica curva normal padro, com = 0 e = 1. Quando voc tem pela frente situaes com
mdias e desvios diferentes de 0 e 1, respectivamente ... no entre em pnico! Tudo que tem
que ser feito padronizar a sua varivel aleatria e, em seguida, usar a CNP para obteno
das probabilidades (ou reas).
A curva apresentada na Figura 5.1. foi desenhada depois de integrar a funo de
distribuio, de z = 0 a z = 3,9 para a primeira metade da curva direita de 0. Como a parte da
curva esquerda de 0 espelho da parte direita, as probabilidades da esquerda foram
calculadas de z = -3,9 a z = 0. Portanto, o trabalho braal j est feito. A Tabela 1 (anexo da
apostila) tem todas as probabilidades (reas sob a CNP) calculadas com preciso de dois
dgitos.
Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As
figuras que ilustram o uso da Tabela 1 esto no anexo deste captulo.
Exemplo 2: Achar a rea sob a curva normal padro (CNP) esquerda de z = -0,97.
A soluo grfica est na Figura 5.2-a.
Voc vai direto tabela 1 e procure z = -0,9 (sentido vertical), depois o centsimo
(7) (sentido horizontal) e no encontro dos dois nmeros (0,97), voc tem a rea (que a
probabilidade) sob a CNP.
Neste caso, a rea igual a 0,1660. Isto quer dizer que 16,6% da rea est
esquerda de z = -0,97 ou que 83,4% est direita de z = -0,97.
Tambm neste caso, h limite para a assimetria, que pode ser definido usando o teste de
assimetria.
69
70
71
72
73
74
75
76
77
78
79
freqncia (f)
13
17
20
18
12
,01
,02
,06
,13
,17
,20
,18
,12
,07
,03
,01
f relativa (prob)
antes de usar a curva normal padro (CNP). Vamos ver o significado de z e seus
desdobramentos com exemplos.
Exemplo 9: Considere o DAP de uma rvore selecionada ao acaso. Ento, DAP uma
varivel aleatria x com mdia = 100 cm e desvio padro = 10. Por meio da padronizao
da varivel x teremos
z
x 100
10
e se pegarmos, aleatoriamente, uma rvore qualquer da ZF-2, com 120 cm de DAP, por
exemplo, o que acontece?
z = (120 100) / 10 = 2
Qual o significado deste nmero, z = 2? Isto significa que a rvore selecionada,
aleatoriamente, com DAP = 120 cm est a dois desvios () da mdia da populao.
O processo pode ser tambm invertido, ou seja, temos o z e queremos encontrar o
valor da varivel aleatria x. Vamos ao exemplo.
Exemplo 10: temos z = 1,5; isto , a varivel x est 1,5 vez da mdia. Qual x?
1,5 = (x 100) / 10 = ?
x = 100 + 10(1,5) = 115
ou seja, nesta populao, uma rvore para estar 1,5 vez do desvio, tem que ter DAP igual a
115 cm.
Agora, vamos ao principal ponto desta seo. Considere x uma varivel aleatria
normalmente distribuda com mdia e desvio padro . Ento, a varivel aleatria, que
pode ser padronizada da seguinte maneira:
x
z
5
tem a distribuio normal padro. Isto quer dizer que, de acordo com as propriedades da CNP
temos
P 3 z 3 0,9973
P 2 z 2 0,9545
P 1 z 1 0,6827
= -2
=1
=3
=2
=6
=3
i 1
x
i
xi
n 1
p
xi
Vamos ver isso por meio de um exemplo meio irreal. Vamos considerar as idades
(congelada em 2003) de cada membro de minha famlia (eu, mulher e 3 filhos) como uma
populao, ou seja, N = 5. Esta situao nunca ser encontrada na vida real porque para saber
a idade mdia dessa famlia basta somar as 5 idades e dividir por 5 ... ningum vai utilizar os
recursos da amostragem. No entanto, se voc entender o significado da estimativa da mdia
da populao e o comportamento do erro padro da mdia conforme se aumenta intensidade
de amostragem, para uma pequena populao (N = 5), fica mais fcil entender essas duas
variveis aleatrias quando for trabalhar com uma populao grande ou infinita (nmero de
eleitores do Brasil, N = 115 milhes, floresta da ZF-2 etc.).
Temos 3 situaes ilustrando a utilizao de 3 intensidades diferentes de amostragem
anexos 1, 2 e 3. A situao 1 se refere a uma amostragem considerando n = 2, ou seja, escolha
aleatria de 2 pessoas para estimar a mdia da populao. Primeiro voc tem que saber
quantas combinaes so possveis ao sortear 2 (n) de um conjunto de 5 (N) pessoas. S para
lembrar: fatorial de zero (0!) igual a 1 e fatorial de nmeros negativos ou no inteiros no
existe. Isto mostrado na pgina que ilustra a situao 1. Depois disso, voc tem que estimar
_
bvio que ningum vai fazer todas as possveis combinaes. Se fizesse, a mdia da
mdia seria exatamente igual mdia da populao. Ento, o que feito? As empresas tomam
apenas uma nica combinao de 4000 eleitores para inferir sobre a populao de eleitores
pressupondo que a mdia estimada na pesquisa ser igual da populao e que n = 4000
produzir uma incerteza (erro) menor que n = 3.999.
Em uma floresta de porte mdio como a da ZF-2, por exemplo, com 21.000 hectares,
temos N = 84.000 (21000 x 4) amostras possveis de ha cada. Se a gente usar n = 50,
quantas possveis combinaes seriam possveis? Vrias. Quantas combinaes a gente faria
no caso de um inventrio florestal? Certamente, apenas uma. A nossa expectativa ter uma
mdia (volume ou outra varivel) representativa da populao com uma margem de erro
aceitvel.
A mdia importante porque sem ela no h planejamento. No entanto, mais
importante mesmo saber com que margem de erro (incerteza) a gente est trabalhando.
importante tambm no perder de vista que a intensidade de amostragem est diretamente
relacionada com os custos. No caso de inventrios, voc tem duas alternativas: (1) fixa a
incerteza e libera os custos ou (2) fixa os custos e libera a incerteza. Em geral, a segunda
alternativa a mais freqente. H meios para se prevenir de incertezas indesejadas.
Em inventrios florestais, voc pode se prevenir utilizando boas imagens, bons mapas,
bons equipamentos e mtodos adequados de amostragem, em combinao com planejamento
de coleta e processamento dos dados. Estamos falando de erros de amostragem (o erro que
voc comete por medir apenas parte da populao). No confundir com erros no-amostrais
(humanos, principalmente), que no so tratados aqui. No esquecer tambm que n
denominador.
x .
Isto quer dizer que: independentemente da forma que a distribuio de sua varivel
aleatria assumir, voc pode calcular as probabilidades usando a tabela-z, desde que n 30.
Significa tambm que para as amostras aleatrias de qualquer distribuio com mdia e
_
Anexo 1
Situao 1
Tomando uma amostragem com n = 2 de uma populao com N = 5
Quantas combinaes so possveis?
N
Populao
N!
5!
120
10
n! N n ! 2! 5 2! 12
combinaes
Amostragem
nome
idade
comb.
NH
MIGH
IGH
FGH
GGH
mdia
desvio
51
46
22
20
12
30,2
17,21
1
2
3
4
5
6
7
8
9
10
idade1 idade2
51
51
51
51
46
46
46
22
22
20
46
22
20
12
22
20
12
20
12
12
x*p
48,5
36,5
35,5
31,5
34,0
33,0
29,0
21,0
17,0
16,0
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
4,85
3,65
3,55
3,15
3,40
3,30
2,90
2,10
1,70
1,60
33,49
3,97
2,81
0,17
1,44
0,78
0,14
8,46
17,42
20,16
30,2
88,86
= 30,2
_
x = 30,2
Coincidncia? No!
9,43
Desvio
Anexo 2
Situao 2
Amostragem de n = 3 da populao com N = 5
Quantas combinaes so possveis?
N
Populao
N!
5!
120
10 combinaes
n! N n ! 3! 5 3! 12
Amostragem
_
x*p
Desvio
22
39,67
3,97
8,96
46
20
39,00
3,90
7,74
51
46
12
36,33
3,63
3,76
51
22
20
31,00
3,10
0,06
12
51
22
12
28,33
2,83
0,35
mdia
30,2
51
20
12
27,67
2,77
0,64
desvio
17,21
46
22
20
29,33
2,93
0,08
46
22
12
26,67
2,67
1,25
46
20
12
26,00
2,60
1,76
10
22
20
12
18,00
1,80
14,88
30,20
39,49
nome
idade
comb.
idade1
idade2 idade3
NH
51
51
46
MIGH
46
51
IGH
22
FGH
20
GGH
x
_
= 30,2
_
x = 30,2
Coincidncia de novo? No!
6,28
Anexo 3
Situao 3
Amostragem de n = 4 da populao de N = 5
Quantas combinaes so possveis?
N
Populao
N!
5!
120
5 combinaes
n! N n ! 4! 5 4 ! 24
Amostragem
idade3 idade4
nome
idade
idade1
idade2
NH
MIGH
IGH
FGH
GGH
51
46
22
20
12
51
51
51
51
46
46
46
46
22
22
mdia
30,2
desvio
17,21
22
22
20
20
20
20
12
12
12
12
34,75
32,75
32,25
26,25
25
0,2
0,2
0,2
0,2
0,2
x*
p
6,95
6,55
6,45
5,25
5
desvio
4,141
1,301
0,841
3,121
5,408
30,2
14,812
3,85
= 30,2
_
x = 30,2
Coincidncia? No! Por que no?
_
1) Se voc usar todas as possveis combinaes, a mdia da mdia x ser sempre igual
a mdia da populao , independentemente do tamanho da amostragem.
2) O que muda o desvio padro da mdia ou erro padro, ou seja, conforme aumenta a
intensidade de amostragem, diminui o erro, aumenta a preciso e diminui a incerteza
da sua estimativa.
CAPTULO 7
Estimando a mdia da populao
7.1. Intervalos de confiana:
_
Vimos no captulo 5 que razovel usar uma mdia amostral x para estimar a mdia
da populao ( ). A Lei dos Grandes Nmeros diz que: se uma grande amostragem
_
aleatria tomada de uma populao, a x tende a ser parecida com .
No captulo 6 discutimos o Teorema de Limite Central que diz: se uma amostragem
aleatria de tamanho n (n 30) tomada de uma populao com mdia e desvio padro ,
_
ento x (aproximadamente) normalmente distribuda e, por esta razo, podemos encontrar
_
n.
E AGORA??
_
encontrar as probabilidades para x usando as reas sob a curva normal com parmetros
(que no conhecemos) e / n = 2,5 / 30 = 0,46.
_
z x
0,46
O valor de z para x = - 1
z = [ ( - 1) - ] / 0,46 = -1 / 0,46 = -2,17
_
E o valor de z para x = + 1
z = [ ( + 1) - ] / 0,46 = 1 / 0,46 = 2,17
Da tabela 1, tiramos as reas sob a curva para z = -2,17 e z = 2,17, que so
respectivamente 0,0150 e 0,9850. A rea, ento, compreendida entre -2,17 e 2,17 :
rea = 0,9850 - 0,0150 = 0,97
Conseqentemente,
_
P( -1< x
< + 1 ) = 0,97
que o mesmo que dizer que est entre 1 de x . Isto pode ser re-escrito da seguinte
_
maneira:
_
x - 1 = 66 e
x + 1 = 68
Ele sabe que, 97% destes intervalos contero e, por esta razo, ele pode estar 97% certo de
que a estar entre 66 e 68. Desta forma, o intervalo de 66 a 68 chamado de IC 97% para
.
n 4,4
100 0,44
e
_
Concluindo que o intervalo entre 4,94 e 6,66 minutos o IC 95% para . A companhia pode
ter 95% de confiana que a durao mdia de uma chamada, , da cidade est entre 4,94 e
6,66 minutos.
x -z
/2
*(/
n ) para
x +z
/2
*(/
n )
_
/2
/2
= z 0,05 = 1,64
= 1,64, n = 30, = 10 e
x - z
/2
* /
x + z
/2
* /
30 a
37 a
40 + 1,64 * 10 /
30
43
Concluindo: o empresrio pode ter 90% de confiana que o dimetro mdio, , de sua
floresta est entre 37 a 43 cm.
At agora assumimos que o conhecido. Entretanto, na maioria dos casos, isto
no possvel. Uma maneira de lidar com isto fazer um levantamento piloto para estimar
o . Quer dizer: podemos usar o desvio padro amostral s no lugar do . Isto aceitvel
porque, para grandes amostras ( n 30 ), o valor de s extremamente parecido a ser uma
boa aproximao de . A conseqncia matemtica disso a seguinte (recorrendo tambm
aoTLC):
x
s
em vez de
plat =>
encosta =>
baixio =>
O segundo termo aps o sinal () pode ser considerado como incerteza ou margem
de erro. Assim, as incertezas para plat, encosta e baixio so, respectivamente: 0,0799,
0,0808 e 0,0785, ou seja, as incertezas (em %) so de 7,99%, 8,08% e 7,85%.
t x s
x -t
/2
*(s/
n ) para
x +t
/2
*(s/
n )
_
milhagem
43.725
40.652
37.732
41.868
44.473
43.097
37.396
42.200
Pneu
9
10
11
12
13
14
15
16
Milhagem
39.783
44.652
38.740
39.385
39.686
44.019
40.220
40.742
x - 2,13*( s /
n ) para x + 2,13*( s /
n )
x = 41.148,13
e
s = 2.360, 32
Conseqentemente
x - 2,13*( s /
x + 2,13*( s /
Isto quer dizer que o vendedor pode ter 95% de confiana que a (durabilidade mdia
da nova marca) est entre 39.891 a 42.405 milhas. Desta forma, o fabricante est correto em
afirmar que a nova marca tem = 40.000 milhas.
Quadro 7.1: Dados de rea basal (m2/ha) em dois transectos na ZF-2 distribudos em classes
topogrficas (plat, encosta e baixio).
transecto
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
mdia
desvio
IC(95%)
ua
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
plat
41,4
43,7
26,1
33,8
33,3
37,2
31,0
18,6
33,2
32,4
26,2
41,3
19,6
34,8
27,3
39,5
30,1
24,6
36,6
34,7
60,7
44,7
26,3
24,5
26,6
22,2
35,7
19,4
17,0
52,6
26,6
36,7
33,3
20,6
57,7
38,8
43,2
23,6
28,4
17,6
18,9
27,6
47,7
23,9
21,1
22,3
19,7
27,4
39,2
27,7
28,5
18,0
39,0
28,1
34,0
25,3
26,4
40,6
21,3
31,1
31,2
9,8
2,5
encosta
21,8
28,2
22,1
14,9
21,9
27,5
30,9
36,5
21,9
28,5
28,4
31,5
32,7
30,8
29,9
23,5
18,4
18,4
24,0
16,3
15,9
35,0
19,9
31,3
18,4
31,1
11,3
24,3
47,0
24,8
27,0
30,9
23,8
27,9
28,2
36,6
17,6
33,5
30,2
39,9
38,0
26,6
32,7
56,0
59,8
34,7
29,8
28,5
25,3
9,4
32,3
31,2
28,1
28,1
39,7
21,5
38,7
29,4
25,5
34,0
28,5
9,1
2,3
baixio
28,2
22,1
29,6
39,3
43,2
39,7
40,7
22,6
12,4
15,8
25,6
40,6
26,4
21,8
35,8
34,6
20,6
21,1
24,3
41,6
29,6
41,9
36,7
23,5
27,4
28,1
12,3
23,5
29,6
23,4
6,4
26,9
21,1
17,2
25,2
23,7
14,5
27,7
28,6
37,5
26,1
25,7
18,6
24,2
19,2
15,2
42,3
20,4
26,1
27,0
35,6
24,9
25,2
20,8
23,1
24,9
23,1
23,5
21,3
30,7
26,5
8,2
2,1
Captulo 8
Testes de hipteses para mdias
8.1. Introduo:
No Captulo 7 aprendemos como fazer uma predio educada 1 (inferncia) sobre
_
uma mdia da populao olhando a mdia amostral x de uma amostra aleatria da
populao. Neste captulo, vamos fazer o inverso; vamos fazer uma predio educada ou
_
levantar uma hiptese sobre a e ento vamos usar a x para fazer inferncia concernente a
_
nossa hiptese. Em outras palavras, usaremos x para decidir se a nossa hiptese concernente
correta.
Exemplo 1: O DAP mdio da floresta do Distrito Agropecurio da SUFRAMA (rea
de 600.000 ha) = 38 cm. Vamos ver neste captulo como usar o DAP mdio tomado de
_
uma amostragem aleatria (por ex., n = 30, correspondente a 30 hectares), x , para decidir se
aquilo que hipotetizamos ( = 38 cm) est correto ou no.
Dizemos ento que = 38 cm a hiptese nula (h0), que pode ser escrita da seguinte
maneira:
Hiptese nula: = 38
Que pode ser testada contra a hiptese de que a no igual a 38 cm, conhecida
como hiptese alternativa (h1), que pode ser escrita da seguinte maneira:
Hiptese alternativa: 38
(que pode ser tambm < 38 ou > 38)
_
(assumindo que h0 verdadeira), podemos esperar que a x (o DAP estimado) seja mais ou
menos igual a 38 cm. E agora? O quo prximo de 38 precisa estar o DAP mdio para ser
considerado estatisticamente igual a ? Se a gente olhar para h1, precisamos responder: o
quo distante de 38 precisa estar o DAP mdio para ser considerado diferente da ? Ou ento:
o quo menor ou o quo maior para testar as hipteses alternativas ( < 38 ou > 38)?
Matematicamente falando, precisamos encontrar um ponto para tomada de deciso, d,
_
_
_
tal que se x d ou se x < d ou se x > d, ento rejeitamos h0 ( = 38). Geralmente os
estatsticos usam 1, 5 ou 10% como limites para d antes de rejeitar h0. Os nmeros 0,01 (1%),
0,05 (5%) e 0,10(10%) so chamados de nveis de significncia do teste e so geralmente
denotados como .
Como escolher as hipteses para serem testadas??
Em geral a escolha das hipteses nula (h0) e alternativa (h1) bastante subjetiva. Como
regra bsica podemos dizer que h0 leva sempre o sinal de ( = ); exemplos: = 38, 1 = 2
(mdia da populao 1 igual a mdia da populao 2) e assim por diante.
A h1 pode ser quebrada em duas situaes:
1
predio educada pode ser traduzida como um chute certeiro de um Romrio por exemplo.
- teste uni-caudal: neste caso, ou olhamos direita de d quando temos h1: > 38, ou
esquerda de d quando temos h1: < 38. Outra situao 1 < 2 ou 1 > 2.
- teste bi-caudal: olhamos simultaneamente direita e esquerda de d e o qu
acontecer primeiro transforma-se no argumento principal para rejeitar h0 e, neste caso, em vez
de ns temos que usar /2.
Observao: Desde que o nvel de significncia seja a probabilidade de rejeitar uma h0
verdadeira, improvvel que h0 ser rejeitada quando ela for verdadeira. Conseqentemente,
se podemos rejeitar h0 num teste de hiptese, ento podemos estar razoavelmente confiantes
que h1 verdadeira. Por outro lado, se no podemos rejeitar h0, isto no prova que h0 seja
verdadeira, simplesmente quer dizer que ela razovel, nada mais.
H dois tipos de erros quando aceitamos a hiptese que no verdadeira, Tipo I e Tipo
II, que ilustramos no quadro abaixo:
hiptese que
Aceita
H0
h1
h0
OK!
erro Tipo II
h1
erro Tipo I
OK!
x
s
8.2.1. Testes de Hipteses para uma mdia simples: teste unicaudal para
grandes amostras.
(i) Olhando apenas o lado esquerdo da curva:
Procedimentos:
1. Hiptese nula: = 0
2. Hiptese alternativa: < 0
3. Condicionante: tamanho da amostragem n 30
4. Escolher o nvel de significncia2 . Normalmente = 0,01, 0,05 ou 0,10
5. O valor crtico d = - z. Usar Tabela 1 para encontrar o valor de z.
6. Calcular o valor de
2
x 0
s n
x 0
s n
8.2.2. Testes de Hipteses para uma mdia simples: teste bi-caudal para
grandes amostras.
Neste caso vamos olhar esquerda e direita da curva e, por esta razo, temos dois
nveis crticos ou pontos de deciso d.
Procedimentos:
1. Hiptese nula: = 0
2. Hiptese alternativa: 0
3. Condicionante: tamanho da amostragem n 30
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
5. Os valores crticos so d = - z/2 e d = z/2. Usar Tabela I para encontrar os valores
de z/2.
6. Calcular o valor de
z
x 0
s n
Agora, vamos usar a x de cada populao para fazer inferncia concernente a nossa
_
hiptese. Considere x 1 a mdia amostral da populao 1 tirada de uma amostra aleatria de
_
x1 x 2 1 2
z
2
s1 n1 s 22 n2
x1 x 2 1 2
z
2
s1 n1 s 22 n2
x1 x 2
s n1 s 22 n 2
2
1
x
s n
x 0
s
sp
n1 1 s12 n2 1 s 22
n1 n 2 2
x1 x2 1 2
s p 1 n1 1 n2
sp
x1 x2
1 n1 1 n2
Procedimentos:
1. Hiptese nula: 1 = 2
2, Hiptese alternativa: 1 < 2
3. Condicionantes: (i) amostras independentes; (ii) populaes normais; (iii) varincias
das populaes iguais.
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
5. O valor crtico d = - t. Usar Tabela II para encontrar o valor de t com (n1 + n2 -2)
gl.
6. Calcular o valor de
sp
x1 x2
1 n1 1 n2
sendo:
sp
n1 1 s12 n2 1 s 22
n1 n 2 2
Condicionantes
Duas Mdias
(grandes amostras)
(1) n1 30, n2 30
(2) amostras independentes
1 = 2
Mdia Simples
(Pequenas Amostras)
populao
normal
= 0
n 30
Duas Mdias
(1) amostras independentes
(Pequenas Amostras)
(2) populaes normais
(3) varincias iguais
h0
= 0
1 = 2
h1
> 0
< 0
0
1 > 2
1 < 2
1 2
> 0
< 0
0
1 > 2
1 < 2
1 2
teste estatstico
_
[ x - 0 ]
z = ------------[s / n ]
_
[x1- x2]
z = ------------------------ [ s12 / n1 ] + [ s22 / n2 ]
_
[ x - 0]
t = -----------[s / n ]
_
[x1- x2]
t = --------------------------sp (1 / n1) + (1 / n2 )
rea de rejeio
z > z
z < -z
z > z/2 ou z < -z/2
z > z
z < -z
z > z/2 ou z < -z/2
t > t
t < -t
t > t/2 ou t < -z/2
t > t
t < -t
t > t/2 ou t < -t/2
Captulo 9
Inferncias sobre as varincias
9.1. Introduo:
Neste captulo vamos ver os mtodos usados para os testes de hipteses e intervalos de
confiana para a varincia. No confundir com anlise de varincia (ANOVA), que utilizada
para teste (comparao) de mdias e ser vista no captulo 11. Vamos apresentar o teste quiquadrado ( 2) e o teste-F.
Na rea florestal, ainda no comum fazer este tipo de inferncia. Em qu situao
podemos estar interessados em controlar a variao? J vimos que a mdia muito mais
popular que a varincia; por essa razo, a maioria das inferncias feita com base nesta
varivel.
No caso de uma indstria de carro, por exemplo, temos um grande nmero de
diferentes fornecedores (parafusos, porcas, rodas, espelhos etc.). Neste caso, podemos ter um
fornecedor de rodas diferente de um fornecedor de parafuso. O encaixe da roda ao carro, no
justo e tem sempre uma certa margem de segurana tanto no comprimento como na
espessura do parafuso. Aquele que fabrica o parafuso fornece para vrios outros fabricantes e
nem sempre consegue fazer os parafusos exatamente iguais. Neste caso, o controle de
qualidade pode ser feito usando a inferncia sobre a varincia, seja do comprimento ou da
espessura.
2 = 0,01
n 1 s 2
2
podem ser encontradas usando as reas sob curvas especiais conhecidas como curvas de 2.
n 1 s 2
2
n 1 s 2
0
onde 02 o valor de 2 hipotetizada (neste caso, 02 = 0,01). Queremos saber se esta s2 est
muito longe da 02 hipotetizada ou no, ou seja, se 0,058 igual a 0,01, do ponto de vista
estatstico. Precisamos tambm escolher o nvel de significncia ().
Para 19 (20 - 1) GL, 20,05 = 30,14 (Tabela III)
Assim, se a hiptese nula verdadeira, ento a probabilidade que o nosso 2 calculado
seja maior do que 30,14 de 0,05. Em smbolos matemticos, podemos escrever P( 2tabelado >
30,14) = 0,05. Dessa maneira, se a hiptese nula verdadeira, os valores 2 podem ocorrer
apenas em 5% das vezes. Classificaremos os 2 > 30,14 como muito grandes (Figura 9.2).
Como em captulos anteriores, vamos chamar 30,14 como valor crtico do teste.
2 = 0,01
Hiptese nula:
n 1 s 2 20 1 0,058 110,20
0
0,01
Desde 2 > 30,14, temos que rejeitar a hiptese nula e concluir que 2 > 0,01 para a
linha de produo 2.
O procedimento geral para montar o teste de hiptese para uma nica varincia o
seguinte:
1. Definir as hipteses:
- Hiptese nula:
2 = 02
n 1 s 2
0
n 1 s 2
0
n 1 s 2
2 2
para
n 1 s 2
2
1 2
19 x (0,058)
-----------------
a -------------------
30,14
10,12
preciso uma tabela diferente porque so necessrios valores crticos especficos para cada
combinao de GL.
(i) Uso do teste-F para comparao de duas varincias:
Imagine duas amostras aleatrias independentes de duas populaes que so
normalmente distribudas. Vamos considerar:
n1 = tamanho da amostragem da populao 1
s12 = varincia amostral da populao 1
12 = varincia da populao 1
e n2, s22 e 22 so os valores correspondentes para a populao 2. Se 12 = 22, ento, a varivel
aleatria
F = s12 / s22
tem a distribuio-F com (n1-1, n2 - 1) GL; ou seja, as probabilidades para a varivel aleatria
F pode ser determinada usando as reas sob a curva-F com (n1-1, n2 - 1) GL.
O procedimento geral para montar um teste de hiptese usando o F o seguinte:
1. Definir as hipteses:
- Hiptese nula, H0: 12 = 22
- Hiptese alternativa, H1: 12 > 22
2. Pressupostos: (1) amostras independentes e (2) populaes normais
3. Escolher o nvel de significncia
4. O valor crtico c = F com (n1 - 1, n2 - 1) GL, onde n1 e n2 so os tamanhos
das amostragens.
5. Calcular o valor de
F = s12 / s22;
onde s12 e s22 so as varincias amostrais das populaes 1 e 2.
6. Deciso: se F > c, rejeitar a hiptese nula.
Exerccio 2: Vamos comparar as varincias das linhas de produo 1 e 2.
Hiptese nula, H0: 12 = 22
Hiptese alternativa, H1: 12 > 22
A amostragem foi feita de forma independente e os dados so oriundos de uma
populao normalmente distribuda. Dessa maneira, podemos usar o procedimento dado
anteriormente assumindo = 0,05.
Para (19, 19) GL, o valor crtico F (ou c) aproximadamente 2,16. Quando s12 > s22
recomenda-se a inverso da frmula de F-estatstico, mantendo os mesmos GL. E o Festatstico
F = s22 / s12 = 0,058 / 0,008 = 7,25
Como F > c, podemos rejeitar H0, portanto, 22 > 12.
Como sempre, o procedimento para o uso das duas caudas da curva-F basicamente o
mesmo que para uma cauda, exceto que precisamos de dois valores crticos em vez de um s.
Neste caso, precisamos olhar os dois lados da curva [/2 e (1 - /2)]. No primeiro lado, vamos
encontrar nas tabelas IV e VI, para = 0,02 e = 0,10, respectivamente, ou seja, no temos
nenhum problema. No entanto, o outro lado da curva (1 - /2), no h como tirar das tabelas.
Por exemplo, se vamos definir = 0,10, um lado da curva (/2) ser 0,05 (Tabela VI) e o outro
ser 1 - /2 = 0,95. Neste caso, o clculo do F0,95 pode ser feito da seguinte maneira:
1. Vamos considerar = 0,10 e os seguintes graus de liberdade (GL):
numerador = 9 e denominador = 8.
2. Calcular o lado direito da curva, /2, F0,05, 9, 8 na Tabela VI, que igual a
3,39.
3. Calcular, ento, o lado esquerdo da curva, 1 - /2, F0,95, 9, 8, da seguinte
maneira:
- F0,95 para GL = (9,8) a recproca do valor F 1-0,95 = F0,05 com os GL trocados
(8,9).
- Na Tabela VI, F0,95, 8, 9 igual a 3,23
- O F0,95, 9, 8 , ento igual a 1 / 3,23 = 0,31
4. Os valores de F para as duas caudas so: 0,31 e 3,39
Produo 1
9,91
9,97
9,84
9,97
10,18
10,08
10,03
10,02
9,88
10,03
10,05
10,18
10,06
9,98
9,91
10,07
9,98
10,1
9,99
9,97
10,01
0,008
Produo 2
10,48
10,07
9,89
10,38
9,5
9,95
9,81
9,87
10,13
10,03
10,26
9,73
10,29
9,97
10,38
9,94
10,14
10,17
10,17
10,09
10,06
0,058
Captulo 10
Teste de Qui-quadrado ( 2 )
10.1. Introduo:
Neste captulo vamos ver um teste estatstico baseado na distribuio de Qui-quadrado
( 2 ), conhecido como teste de qui-quadrado. Este teste pode ser usado tanto na estatstica
paramtrica como na no paramtrica. O teste estatstico 2 e a curva 2 j foram descritos no
captulo anterior (Captulo 9). Aqui, vamos enfatizar a aplicao deste teste para:
(i) Ajuste de curvas ou de distribuies:
Exemplos:
1) Distribuio de dimetro: voc desenvolve uma funo para descrever a relao
entre classes de dimetro e freqncia. Ao testar a confiabilidade dessa funo em outra rea,
voc deve coletar novos dados e produzir a nova distribuio de freqncia. O passo seguinte
confrontar a sua verdade de campo distribuio observada - com a distribuio
hipotetizada (desenvolvida em outro local, por outro pesquisador) distribuio esperada.
2) Projeo da distribuio de dimetro: voc usa a cadeia de transio probabilstica
Markov para fazer a projeo da dinmica da floresta de seu interesse. Voc usa, por exemplo,
ano 2000 como hoje e 1997 como seu passado imediato perodo de 3 anos para fazer a
projeo para um futuro imediato, 2003. Portanto, em 2003, voc tem condies de avaliar se
a Cadeia de Markov confivel para este tipo de trabalho. Basta comparar a projeo feita
(hipotetizada ou esperada) e confrontar com medies feitas em 2003 (observada). Se der no
significante, significa que a projeo , estatisticamente, igual verdade de campo (medies
realizadas em 2003) e voc pode confiar na Cadeia de Markov.
(ii) Independncia:
Exemplos:
3) Ocorrncia de espcies nas diferentes classes topogrficas: imagine que voc no
sabe nada disso, ento, voc vai hipotetizar que a distribuio seja a seguinte: 1/3 das espcies
ocorrem no plat; 1/3 na encosta e 1/3 no baixio. Faa um levantamento em algumas
toposseqncias e distribua as espcies de acordo com as classes topogrficas. Compare os
valores observados seu levantamento com os valores hipotetizados (1/3, 1/3 e 1/3). Se der
no significante, isso quer dizer a distribuio de espcies na sua rea de trabalho ocorre
independentemente das classes topogrficas.
(iii) Homogeneidade:
Exemplos:
4) Usando o exemplo (3): se voc quiser comparar uma toposseqncia da ZF-2 com
uma da Reserva Ducke pra saber se essas toposseqncias so homogneas em relao a
distribuio de nmero de espcies por classe topogrfica. Imagine que na ZF-2, a
distribuio seja 40% no plat, 30% na encosta e 30% no baixio. A, voc faz o levantamento
na Ducke e descobre que a distribuio 36% no plat, 32% na encosta e 32% no baixio.
Aplica o teste qui-quadrado pra checar se a distribuio da ZF-2 igual a da Ducke. Se der
no significante, isso quer dizer as toposseqncias so homogneas.
9.2).
10.2.1. Qui-quadrado ( 2 ) para teste de ajuste:
Passos necessrios:
Passo 1: formular as hipteses cientficas:
H0 => A populao grupada de acordo com uma determinada distribuio de probabilidade.
H1 => A populao no grupada de acordo com uma determinada distribuio de
probabilidade.
Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5
Passo 3: Definir o => 10%, 5% ou 1%.
Passo 4: Determinar o valor crtico c com (k 1) graus de liberdade, na Tabela III => k =
nmero de grupos ou nmero de classes de dimetro.
Passo 5: Calcular o 2
2
O E 2
E
freqncia
24
48
24
12
12
120
probabilidade
0,2
0,4
0,2
0,1
0,1
1
Em seguida, voc faz um levantamento usando apenas parte da populao (neste caso
40 rvores) e quer saber se a amostra representativa. A distribuio de dimetro dessa
amostragem apresentada abaixo incluindo a freqncia de acordo com a distribuio da
populao (n = 120) e o 2.
classes DAP
25
35
45
55
(OE)
(8-10) = -2
(20-20) = 0
(13-10) = 3
(5-5) = 0
(O-E)2 / E
0,4
0,0
0,9
0,0
>65
4
50
50 x 0,1 = 5
(4-5) = -1
0,2
1,5
O E 2
E
homem
40
49
18
107
mulher
5
58
13
76
total
45
107
31
183
homem
O
E
40
26,3
49
62,6
18
18,1
107
mulher
O
E
5
18,7
58
44,4
13
12,9
76
total
45
107
31
183
O E 2
E
brancos
negros
Outros
total
cidade 1
83
12
100
cidade 2
87
100
total
170
11
19
200
brancos
85
85
170
negros
5,5
5,5
11
Outros
9,5
9,5
19
total
100
100
200
Hipteses:
H0: Cidade 1 e cidade 2 tm a mesma % para cada cor de pele
H1: Cidade 1 e cidade 2 no tm a mesma % para cada cor de pele
Checando: nenhum E menor do que 1 e no tem E < 5 => OK
= 0,05
Valor crtico c (tabela III com GL=2) igual a 5,99. GL = 2 => (L-1)(C-1) = (2-1)(3-1) = 2
Calcular 2 = (83-85)2/85 + ...... + (7-9,5)2/9,5 = 1,52
Deciso: 2 < c; logo, no rejeitamos a H 0, ou seja, cidade 1 e cidade 2 tm a mesma
distribuio de cor de pele.
Captulo 11
Anlise de Varincia ANOVA
11.1. Introduo:
Apesar do nome, a anlise de varincia (ANOVA) usada para comparao de mdias.
Vimos, anteriormente, que h vrios testes usados na comparao de mdia (teste t, Tukey,
Bonferroni, Duncan etc). Por que usar a ANOVA? Usamos a ANOVA quando queremos
compreender melhor a natureza da variao natural das diferentes fontes, alm de comparar as
mdias. No fundo, ANOVA a partio (ou desdobramento) da variao total de acordo com
as fontes de variao.
A ANOVA aplicada para testar hipteses quando a pesquisa envolve mais de duas
mdias. Trata-se de uma ferramenta estatstica amplamente utilizada e com um grau de
sofisticao muito alto. Podemos, de forma muito simplista, definir os seguintes tipos de
ANOVA:
a) ANOVA de simples entrada => fontes de variao ou grupos classificados por um
simples critrio como ENTRE os transectos e DENTRO (ou resduo ou erro) dos
transectos => aplicado em experimentos inteiramente casualizados.
b) ANOVA de dupla entrada => aplicao clssica em experimentos blocos
casualizados => fontes de variao: BLOCO, TRATAMENTO e RESDUO (ou
erro).
c) ANOVA de tripla ou mltiplas entradas => aplicao clssica em experimentos
fatoriais incluindo as interaes como fontes de variao.
d) ANOVA aninhada (nested): aplicao em experimentos com parcelas subdivididas
tipo Split Plot (clssico) ou quando o adapta para anlise de parcelas repetidas.
e) ANOVA para regresso: tanto para as regresses lineares (simples e mltiplas) e
no lineares (simples e mltiplas) => para explicar o quanto da variao dos dados
explicado pelo modelo utilizado.
f) MANOVA => anlise de varincia de vrias variveis, simultaneamente.
Na verdade, voc arma a ANOVA de acordo com as fontes de variao estabelecidas,
ou seja, desmembrando a variao total; o teste aplicado para testar as suas hipteses o testeF (Captulo 9, item 9.5). Em seguida, apresentamos os quadros auxiliares usados para
ANOVA de simples entrada e para ANOVA de dupla entrada.
ANOVA de simples entrada:
Fontes de Variao
Entre
Dentro (Resduo)
Total
GL = graus de liberdade
SQ = soma dos quadrados
MQ = mdia quadrtica
F = calculado
GL
SQ
MQ
GL
SQ
MQ
No primeiro caso (de simples entrada), voc determina o valor de F dividindo MQ entre
pela MQdentro. Antigamente, muito antigamente mesmo, voc pegava o F calculado e comparava
com o Ftabela (funo dos GLs ENTRE e DENTRO e nvel de significncia ). Atualmente, os
softwares estatsticos vo te dar o valor exato da probabilidade para inferncia => ento, em
vez do valor de F no quadro auxiliar, o software vai te fornecer a probabilidade.
No segundo caso (de dupla entrada), voc quer ver, separadamente, os efeitos dos
blocos e dos tratamentos. Para isso, voc aplica o teste-F para blocos e para os tratamentos,
separadamente. O valor de F para blocos voc consegue dividindo MQ blocos pela MQresduos e
para os tratamentos dividindo MQtratamentos pela MQresduos.
SQE x media
i 1
x ij
ou
i 1 i 1
ij
SQD xij
2
i 1
i 1
i 1
ij
empreg
1
2
3
4
5
subtot
CIA1
46
53
54
29
27
209
CIA2
65
59
17
18
37
196
CIA3
37
13
65
42
33
190
CIA4
11
35
57
56
40
199
subtot
159
160
193
145
137
794
Quadro auxiliar
Fontes de Variao
Entre
Dentro (Resduo)
Total
GL
3
16
19
SQ
37,8
5486,6
5524,4
MQ
12,6
342,9
F
0,04
GL
2
177
179
SQ
659,83
14582,04
MQ
329,92
82,38
F
4,005
p
0,02
Captulo 12
Regresso e correlao
12.1 Introduo:
O objetivo da regresso obter uma expresso da dependncia de uma varivel Y
sobre uma ou mais variveis independentes X. Tal expresso , matematicamente, conhecida
como funo, logo, Y uma funo de X. Funo um relacionamento matemtico que nos
capacita predizer quais valores de uma varivel Y, para dados valores de uma varivel X.
Resumindo: Y = f (X).
A regresso define o relacionamento estatstico entre as variveis tomadas e, a
correlao, a estreiteza deste relacionamento. Na regresso estima-se o relacionamento de
uma varivel com uma outra, expressando-se em termos de uma funo linear (ou uma outra
mais complexa), enquanto que na anlise de correlao, s vezes, confundida com regresso,
estima-se o grau para o qual duas ou mais variveis variam juntas.
Os mtodos de regresso so de grande utilidade na derivao das relaes empricas
entre vrios fenmenos, sendo aplicveis para: (i) encontrar uma funo estatstica que possa
ser utilizada para descrever o relacionamento entre uma varivel dependente e uma ou mais
variveis independentes e (ii) testar hipteses sobre a relao entre uma varivel dependente e
uma ou mais variveis independentes. No manejo florestal, o uso da regresso fundamental
na derivao de modelos matemticos: (i) para explicar o comportamento de uma espcie ou
povoamento submetido a um determinado tipo de interveno; (ii) para desenvolver modelos
de crescimento; (iii) desenvolvimento de equaes de volume e de biomassa; (iv)
desenvolvimento de relaes hipsomtricas; (v) para alguns estudos da estrutura da floresta
(distribuio em dimetro, por exemplo) etc.
Ao olhar um povoamento florestal, voc pode achar que quanto maiores forem o
dimetro e altura, maior ser o volume ou peso da rvore. Entretanto, voc no poder afirmar
nada alm disso. Com o auxlio da regresso, voc ser capaz de expressar o relacionamento
entre as variveis independentes dimetro e altura e o volume (ou peso) da rvore na forma de
um modelo estatstico. Desta maneira, voc ser capaz de predizer o volume (ou peso) de uma
rvore em p tendo apenas as medies de dimetro e altura.
Dependendo do nmero de variveis independentes, a regresso pode ser simples (uma
varivel) ou mltipla (mais de duas variveis) e, dependendo da natureza da equao bsica, a
regresso pode ser linear ou no linear.
linear. Este truque utilizado para facilitar o processamento dos dados. Entretanto, quando
se tem recurso da informtica que permite trabalhar com processos iterativos para
convergncia das estimativas dos coeficientes, o truque perde o sentido.
Neste captulo, vamos demonstrar como so estimados os coeficientes de regresso e
de correlao para a regresso linear simples. Sabendo como estimar os coeficientes de
regresso e correlao da simples, voc poder, por analogia, estimar os coeficientes da
regresso mltipla. No caso de regresso no linear, h duas alternativas: (i) linearizar a
equao original e adotar os procedimentos das regresses simples ou mltipla e (ii) manter a
equao original e estimar os coeficientes de regresso e correlao utilizando um dos
seguintes mtodos: Gauss-Newton, Quasi-Newton e Simplex opes do software Systat.
Ye a bX
onde Ye o valor estimado de Y para um dado X, quando a e b so conhecidos.
A questo, agora, saber como determinar os coeficientes a e b. Como falamos
anteriormente, ser utilizado o MMQ para a determinao dos coeficientes. Vamos fazer esta
demonstrao a partir da figura 12.1.:
Vamos considerar
Yi = valor observado
Yei = valor estimado
Nesta figura temos 6 valores de X. A equao da reta ajustada passa exatamente entre
os pontos (X) observados. O desvio () a diferena entre o valor observado (Y) e o valor
estimado (Ye) pela equao da reta para o mesmo valor de X.
Vamos comear a demonstrao adiantando que vamos chamar a soma dos desvios ao
quadrado de S e S tem que ser mnimo (zero), assim
(i)2 = S = 0 => i variando de 1 a n
sem esquecer que
i = Yi - Yei
sendo:
Yei = a + b Xi
logo
i = Yi (a + b Xi)
Continuando o desenvolvimento do MMQ.
(1)2 + (2)2 + (3)2 + ... (n)2 tem que ser mnimo
logo
S = (i)2 = (Yi Yei)2 tem que ser mnimo
e
S = (Yi (a + b Xi))2
O passo seguinte derivar esta expresso S para a e b, da seguinte maneira:
S/a = 2 ( Yi a b Xi) (-1)
S/b = 2 ( Yi a b Xi) (-1Xi)
Como S tem que ser mnimo, S/a e S/b podem ser igualados a zero, tal que as estimativas
sejam dadas da seguinte maneira:
-2 ( Yi a b Xi) = 0
-2 Xi ( Yi a b Xi) = 0
e dividindo tudo por (-2) e completando as outras operaes algbricas, as expresses ficam
assim
Yi a b Xi = 0
Xi Yi a Xi b Xi2 = 0
e, finalmente, temos as seguintes equaes normais:
an
+ b Xi = Yi
a Xi + b Xi2 = XiYi
Pelo mtodo de substituio, os coeficientes sero:
a Yi b X i n
e
b SPC xy SQC x
Ento, para estimar os coeficientes de regresso a e b, voc tem que saber os seguintes
somatrios: Yi, Xi, XiYi e Xi2. Para facilitar os clculos manuais, monte a seguinte
quadro auxiliar. As frmulas de SPC e SQC so encontradas no Captulo 3.
Quadro 12.1: Quadro auxiliar para estimar os coeficientes de regresso.
obs
1
2
.
.
.
N
Y2
X2
XY
(Y-Ye)2
Y2
X2
XY
(Y-Ye)2
Comentrios:
i)
ii)
iii)
SPC xy
SQC X SQCY
SQRES
SQREG
GL
SQ
MQ
Devido regresso
c1
b * (SPCxy)
SQREG/(c-1)
nc
por subtrao
SQRES/(n-c)
Total (corrigido)
n-1
SQCY
s2
Captulo 13
Estatstica no Paramtrica
13.1. Introduo:
At o captulo 12, vimos vrias situaes da estatstica paramtrica. Basicamente, a
estatstica paramtrica foi desenvolvida sob a teoria da distribuio normal. No entanto, os
fenmenos naturais tendem a no seguir a distribuio normal padro ( = 0 e 2 = 1) e,
muitas vezes, no h nem como normalizar os dados da populao uso da padronizao da
varivel aleatria. Quando os seus dados teimam em no seguir a distribuio normal, temos
ainda o recurso do uso do teorema do limite central para driblar a condio
normalidade da maioria dos testes estatsticos.
Se voc achou que acabaram os recursos estatsticos para analisar os seus resultados,
restou o ltimo e derradeiro recurso que o uso da estatstica no paramtrica. A estatstica
no paramtrica usada quando as condies impostas ao uso da estatstica paramtrica so
muito violadas. Alm disso, quando no d para repetir a pesquisa de campo ou de
laboratrio e voc tem que analisar o material que voc em suas mos. Para alvio de sua
conscincia, existe a estatstica no paramtrica que a estatstica de distribuio livre e os
seus testes podem ser aplicados s populaes com qualquer distribuio.
Qual o preo que voc paga por usar a estatstica no paramtrica? O preo a
limitao de sua comunicao. No d pra voc ir muito longe com as decises tomadas com
base nos testes no paramtricos, alm do significante ou no significante. No entanto, a
estatstica no paramtrica requer poucos dados (portanto, a pesquisa mais barata), os
clculos so simples e voc pode trabalhar diretamente (sem transformaes) com dados
ordinais e qualitativos.
A estatstica no paramtrica assim conhecida porque no trabalha com parmetros
( e ). Este conceito, no entanto, ganhou uma certa flexibilidade com o passar do tempo.
Hoje, quando viola as condies impostas pela estatstica paramtrica, voc corre atrs de um
teste similar na no paramtrica e usa at para comparao de mdias.
2
Neste captulo vamos ver alguns testes no paramtricos, principalmente aqueles que
tm contrapartidas (correspondentes) na estatstica paramtrica.
P x k
p k 1 p n p
Exemplo 1 => Uma pessoa em uma sala tem cartes numerados de 1 a 10. Ela pega
um carto ao acaso e uma outra pessoa (em outra sala) tenta adivinhar o nmero que foi
pego. Este experimento repetido 3 vezes. A pergunta : qual a probabilidade de acertar 2
vezes.
Resolvendo => sabemos que:
n=3
p = probabilidade de sucesso = 1/10 = 0,1
q = (1 p) = probabilidade de insucesso = 9/10 = 0,9
P (x = 2) = ? => probabilidade de acertar 2 vezes
Portanto:
3
(1/10)2 (9/10)3-2 = 3 * 0,01 * 0,9 = 0,027
P (x = 2) =
2
10,4 6,2
< 14.000
n = 12
k = 10 (so 10 rendas maiores do que 14.000) => de acordo com H0, sucesso
significa que a renda tem que ser menor que 14.000; renda > 14.000 significa
insucesso.
p = 0,5 e, conseqentemente, q = 0,5
Neste caso, temos tambm que fixar (aproximadamente) o nvel crtico para
estabelecer a rea de rejeio de nossa hiptese nula.
Ento, vamos a tabela VIII
60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1
+
+
+
+
+
+
+
+
+
+
10,4
-
6,2
-
Quantos sinais (+) temos? Temos 10, ou seja, o nosso ponto de deciso 10 =>
Considerando = 0,0192, temos que rejeitar H0 porque k 10. Como o k s pode
ser inteiro, o nosso valor crtico estaria entre 0,0192 e 0,0729.
Concluso: Rejeitamos H0, a nossa mediana no igual a R$ 14.000,00 com =
0,0192.
Formular as hipteses
H0: MD = M
H1: MD < M (MD > M)
dif (x M)
|D|
rank de |D|
xn
Calcular:
para H1: MD < M => R+ = soma dos R com sinais positivos
para H1: MD > M => R- = soma dos R com sinais negativos
rank c/ sinal R
Decises:
para H1: MD < M => R+ d => rejeitar H0
para H1: MD > M => R- d => rejeitar H0
Vamos a um exemplo prtico. Tomamos o DAP de 8 rvores (isso uma coisa que
voc nunca vai fazer entrar na floresta e medir apenas 8 rvores um desperdcio
inaceitvel) e queremos saber se a mediana igual a 50 cm. O quadro seguinte apresenta os
dados observados (x) e as demais colunas necessrias para a execuo do teste.
val obs (x)
50,2
50,1
49,6
49,5
49,2
49,0
48,4
47,0
dif (x M)
+ 0,2
+ 0,1
- 0,4
- 0,5
- 0,8
- 1,0
- 1,6
- 3,0
|D|
0,2
0,1
0,4
0,5
0,8
1,0
1,6
3,0
rank de |D|
2
1
3
4
5
6
7
8
rank c/ sinal R
+2
+1
-3
-4
-5
-6
-7
-8
Soluo:
Da tabela IX, para n = 8, tiramos que o mais prximo de 0,05 0,055; portanto o
valor crtico d igual a 6 para = 0,055.
Calculamos, ento, o R+ somando os ranks com sinais positivos (+) => na ltima
coluna tem apenas 2 ranks (+), que so 2 e 1, logo R+ = 2 + 1 = 3
Deciso: Como d = 6 e R+ = 3, rejeitamos H0
Formular as hipteses:
H0: As duas populaes tm a mesma mediana => MD1 = MD2
H1: As duas populaes no tm a mesma mediana => MD1 > MD2 (ou menor)
Calcular T = S1 [ n (n+1) ] / 2
Deciso: Rejeitar H0 se T d
Exemplificando:
diferenciados:
Considere
duas
populaes
de
escolas
com
tratamentos
Hipteses:
H0: MD1 = MD2
H1: MD1 < MD2
Populao 2
tempo
rank
2,31
10
1,96
7
2,73
14
2,51
13
3,04
15
2,34
12
2,24
9
Calculamos, ento, o T
T = 40 [ 8 (8+1) ] / 2 = 4