Вы находитесь на странице: 1из 60

UNIVERSIDADE DE SÃO PAULO

Faculdade de Zootecnia e Engenharia de Alimentos


Departamento de Ciências Básicas

APOSTILA
DE
ESTATÍSTICA II

Prof. Dr. César Gonçalves de Lima


E_mail: cegdlima@usp.br

Pirassununga - SP
2004
Av. Duque de Caxias Norte, 225 – CEP: 13635-900 – Pirassununga, SP
Fone: (19) 3565-4117/4143 - Fax: (19) 3561-8606 - E-mail: zab@usp.br
1

SUMÁRIO
Página
1. Introdução à Inferência Estatística ............................................................................................................. 2
1.1. Como selecionar uma amostra ............................................................................................................... 2
1.2. Outras técnicas de Amostragem ............................................................................................................. 2
1.3. Definições iniciais .................................................................................................................................. 3
1.4. Distribuições amostrais .......................................................................................................................... 3
1.5. A distribuição amostral da média ............................................................................................................ 4
1.6. A distribuição amostral da proporção ...................................................................................................... 5
2. Algumas distribuições importantes ........................................................................................................... 6
2.1. A distribuição de Quiquadrado ............................................................................................................... 6
2.2. A distribuição t-Student .......................................................................................................................... 7
2.3. A distribuição F-Snedecor ..................................................................................................................... 8
3. Estimação ................................................................................................................................................ 9
3.1. Características de um bom estimador por ponto ...................................................................................... 9
3.2. Estimação por intervalo .......................................................................................................................... 10
3.2.1. Intervalo de confiança para a média populacional ................................................................................ 10
3.2.2. Intervalo de confiança para a proporção ............................................................................................... 12
4. Testes de hipóteses .................................................................................................................................... 13
4.1. Procedimentos básicos para a construção de um teste de hipóteses .......................................................... 16
4.2. Teste sobre a média de uma distribuição normal quando a variância é conhecida ..................................... 16
4.3. Nível descritivo do teste ......................................................................................................................... 17
4.4. Teste de hipóteses para a proporção ........................................................................................................ 17
5. Outros testes de hipóteses .......................................................................................................................... 18
5.1. Teste sobre a média de uma distribuição normal quando a variância é desconhecida ................................ 18
5.2. Teste para a variância de uma distribuição normal .................................................................................. 19
5.3. Comparação das variâncias de duas populações normais ......................................................................... 20
5.4. Comparações das médias de duas populações normais ............................................................................ 21
5.4.1. Comparações das médias de duas populações normais quando as variâncias são desconhecidas,
mas iguais .......................................................................................................................................... 22
5.4.2. Comparações das médias de duas populações normais quando as variâncias são desconhecidas e
diferentes ........................................................................................................................................... 23
5.4.3. Comparações das médias de duas populações normais quando as observações são pareadas .................. 24
6. Correlação e regressão linear simples ........................................................................................................ 25
6.1. Correlação linear de Pearson .................................................................................................................. 25
6.2. Regressão linear simples ........................................................................................................................ 28
6.2.1. O modelo para regressão linear simples ............................................................................................... 29
6.2.2. Inferência sobre os estimadores dos parâmetros da regressão ................................................................ 31
7. Testes de quiquadrado ............................................................................................................................... 32
7.1. Teste de aderência, ajustamento ou adequação de um modelo ................................................................. 32
7.2. Testes em tabelas de contingência ........................................................................................................... 34
7.2.1. Teste de homogeneidade ...................................................................................................................... 35
7.2.2. Teste de Independência ....................................................................................................................... 35

Distribuições de probabilidades ..................................................................................................................... 37


Tábua I: Normal padrão ................................................................................................................................ 38
Tábua II: Quiquadrado .................................................................................................................................. 39
Tábua III: t de Student .................................................................................................................................. 40
Tábua IV: F-Snedecor ................................................................................................................................... 41

Revisão de somatórios .................................................................................................................................. 43


Exercícios propostos ..................................................................................................................................... 45
Bibliografia recomendada ............................................................................................................................. 50
Resolução dos exercícios propostos ............................................................................................................... 51

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


2

1. INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Nas aulas anteriores (Estatística I) aprendemos como resumir descritivamente uma massa de dados
(através de medidas de tendência central, dispersão, assimetria e curtose), como apresentar esses resultados
(através de gráficos e tabelas) e conhecemos alguns modelos probabilísticos (binomial, Poisson e normal) usados
para descrever fenômenos comuns em nossa área de atuação. A partir de agora, veremos como reunir todas essas
informações com o intuito de estudar um ramo bastante importante da Estatística, conhecido como Inferência
Estatística, que estuda como fazer afirmações sobre certas características de uma população, baseando-se em
resultados obtidos em uma amostra. Neste contexto, entende-se por população qualquer conjunto de indivíduos
ou objetos que têm pelo menos uma variável comum observável e por amostra, qualquer subconjunto da
população.

Exemplo 1.1. Consideremos uma pesquisa feita para estudar o ganho de peso dos bovinos de corte de
um rebanho de 700 animais. Selecionamos uma amostra de 40 animais e anotamos os seus pesos no início e no
final de um determinado mês. A partir desses dados calculamos os ganhos de peso. Neste caso a população é
formada pelos 700 animais e a amostra pelos 40 animais selecionados. Na verdade, como estamos interessados
no ganho de peso, a população é formada pelos ganhos de peso dos 700 animais e a amostra pelos ganhos de
peso dos 40 animais selecionados. Estudando a distribuição dos ganhos de peso da amostra, esperamos que esta
reflita a distribuição dos ganhos de peso do plantel. Com os dados em mãos, podemos estar interessados,
simplesmente, em estimar o ganho de peso médio dos bovinos de corte ou então, em testar se o ganho de peso
médio desses bovinos, neste particular mês, foi superior a 10kg.
A solução desses problemas será tratada com detalhes nas próximas aulas sobre Estimação de
Parâmetros e Testes de Hipóteses, respectivamente.

1.1 COMO SELECIONAR UMA AMOSTRA

As observações colhidas numa amostra são tão mais informativas quanto mais conhecemos sobre a
população de onde a amostra foi retirada. Por exemplo, para selecionarmos 40 animais de um lote de 700, deve-
mos conhecer algumas características desses animais (raça, sexo, idade etc.) que podem influenciar nos resulta-
dos da variável em estudo.
A maneira de se obter uma amostra é tão importante e existem tantas formas de fazê-la, que esses
procedimentos constituem uma especialidade dentro da Estatística, conhecida como Técnicas de Amostragem.
Distinguiremos dois tipos de amostragem: a probabilística e a não-probabilística. A amostragem será
chamada de probabilística se todos os elementos da população tiverem probabilidades conhecidas e diferentes de
zero, de fazer parte da amostra; caso contrário, a amostragem será chamada de não-probabilística. A amostra-
gem probabilística implica um sorteio com regras bem determinadas, cuja realização somente será possível se a
população em estudo for finita e totalmente acessível.
As técnicas de Inferência Estatística pressupõem que as amostras utilizadas no estudo sejam probabilís-
ticas, o que muitas vezes não se pode conseguir. Nesses casos, o bom senso deverá indicar quando o processo de
amostragem, mesmo não sendo probabilístico, pode ser, para efeitos práticos, considerado como tal.
O caso mais simples de amostragem probabilística é chamado de Amostragem Casual Simples ou
Aleatória, onde se atribui a cada elemento da população a mesma probabilidade de seleção, ou seja, a mesma
chance de fazer parte da amostra.
Podemos obter uma amostra casual simples (a.c.s.) escrevendo o nome de cada elemento da população
num cartão, misturando-os numa urna e sorteando tantos cartões quantos forem os elementos que desejamos na
amostra. O sorteio poderá ser feito com reposição (o cartão sorteado volta à urna antes do próximo sorteio) ou
sem reposição (o cartão sorteado não volta mais à urna). Se a população for muito numerosa, podemos utilizar
uma tabela de números aleatórios para facilitar o sorteio.
Se estivermos interessados em sortear uma amostra casual simples de n elementos de uma população
n
finita de tamanho N, o número de amostras possíveis será igual a (N) se o processo de retirada for com reposi-
 N
ção, e   se o processo de retirada for sem reposição. A relação n/N é chamada fração de amostragem.
n

1.2.. OUTRAS TÉCNICAS DE AMOSTRAGEM

Amostragem Sistemática: é utilizada quando os elementos da população apresentam-se ordenados e a


retirada dos elementos da amostra é feita periodicamente. Por exemplo, de um rebanho de N = 700 bovinos de
corte, cujos dados estão registrados em fichas numeradas de 001 a 700, podemos retirar uma amostra de n = 10
animais utilizando o seguinte procedimento:
Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>
3

i) sorteamos um número de 1 a 70 (note que 700/10=70), que corresponderá ao número da ficha do primeiro
animal que fará parte da amostra;
ii) as demais fichas (animais) serão retiradas, periodicamente, de 70 em 70.

Amostragem por Conglomerados: é utilizada quando a população apresenta uma subdivisão natural
em pequenos grupos ou conglomerados. Para retirarmos uma amostra, sorteamos um número suficiente de
conglomerados e os seus elementos constituirão a amostra. Neste caso, as unidades de amostragem são os
conglomerados e não os elementos individuais da população. Este tipo de amostragem é adotado por motivos de
ordem prática e econômica.

Amostragem Estratificada: é utilizada quando a população pode ser dividida em diferentes subpopu-
lações ou estratos, sendo razoável supor que a variável de interesse apresenta um comportamento bastante
diverso de estrato para estrato e um comportamento razoavelmente homogêneo dentro de cada estrato. Neste
caso, se o sorteio dos elementos da amostra não considerar tais estratos, pode ocorrer que os diversos estratos
não sejam convenientemente representados na amostra, a qual estaria mais influenciada pelas características da
variável nos estratos mais favorecidos pelo sorteio. A amostragem estratificada consiste em especificar quantos
elementos da amostra serão retirados de cada estrato. Geralmente são considerados três tipos de amostragem
estratificada:
• uniforme: quando se sorteia igual número de elementos em cada estrato;
• proporcional: quando o número de elementos sorteados em cada estrato é proporcional ao número de ele-
mentos existentes no estrato
• ótima: quando retiramos, em cada estrato, um número de elementos proporcional ao número de elementos e à
variabilidade da variável de interesse no estrato, medida por seu desvio padrão.
Para maiores detalhes sobre estas e outras técnicas de amostragem consulte, por exemplo: COCHRAN,
W.G. Técnicas de Amostragem, Fundo de Cultura, Rio de Janeiro, 1955.

1.3. DEFINIÇÕES INICIAIS

Para facilitar a linguagem usada, iremos diferenciar as características da amostra e da população. Cha-
maremos de parâmetro qualquer medida usada para descrever uma característica da população e de estatística,
qualquer medida usada para descrever uma característica da amostra, ou seja, qualquer função dos elementos da
amostra. Geralmente, usamos letras gregas minúsculas para simbolizar os parâmetros e letras do nosso alfabeto
para as estatísticas, como por exemplo:

Parâmetro Estatística
Descrição
(população) (amostra)
Número de elementos N n
Média µ x
σ2
2
Variância s
Desvio padrão σ s
Coeficiente de correlação ρ(X,Y) r(X,Y)

1.4. DISTRIBUIÇÕES AMOSTRAIS

Já sabemos que o problema básico da Inferência Estatística consiste em se fazer uma afirmação sobre
parâmetros através de resultados obtidos na amostra. Suponhamos que o interesse esteja em fazer afirmações
sobre um parâmetro θ (média, mediana, variância ou coeficiente de correlação, por exemplo) de uma certa
população representada pela v.a. X. Desta população, sorteamos, com reposição, uma a.c.s. de n elementos e a
nossa decisão sobre θ será baseada na estatística T = f(X1, X2, ..., Xn) que é uma função dos valores amostrais
(X1,X2, ...,Xn). Colhida uma amostra particular (x1, x2, ..., xn) calculamos o valor da estatística T (t1, por exemplo)
e baseado neste valor faremos uma afirmação (ou inferência) sobre o parâmetro θ.
A afirmação sobre o parâmetro θ será mais bem compreendida se soubermos o que acontece com a
estatística T quando retiramos todas as possíveis amostras de tamanho n da população, de acordo com o plano
amostral adotado. A distribuição dos possíveis valores da estatística T é chamada de distribuição amostral ou
por amostragem da estatística T e desempenha um papel fundamental na teoria usada na Inferência Estatística.
O procedimento utilizado para a obtenção da distribuição amostral da estatística T pode ser resumido da
seguinte maneira:

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


4

i) Da população X, estamos interessados no parâmetro θ.


ii) De acordo com um certo procedimento de amostragem, retiramos todas as amostras de tamanho n da
população X.
iii) Para cada amostra (xi1, xi2, ...,xin) calculamos o valor ti da estatística T, i = 1, 2, ...
iv) Os valores ti formam uma nova população cuja distribuição de probabilidades recebe o nome de distribuição
amostral da estatística T.

1.5. A DISTRIBUIÇÃO AMOSTRAL DA MÉDIA

Para estudarmos a distribuição amostral da média, consideremos uma população identificada pela v.a.
X, cuja média µ = E(X) e variância σ = Var(X) são conhecidas.
2

Exemplo 1.2. Consideremos, sem perda de generalidade, a população X = {4, 10, 16} com N = 3 ele-
mentos, média µ = 10 e variância σ2 = 24. Para cada uma das 3 = 9 amostras de tamanho n = 2, retiradas, com
2

reposição, da população X, vamos calcular a média e a variância amostrais utilizando os seguintes estimadores:
1 n 1 n
X = ∑ Xi e S = ∑ (X i − X ) 2
2

n i =1 (n − 1) i =1
e obtemos:
2
Amostra x s
(4; 4) 4 0
(4; 10) 7 18
(4; 16) 10 72
(10; 4) 7 18
(10; 10) 10 0
(10; 16) 13 18
(16; 4) 10 72
(16; 10) 13 18
(16; 16) 16 0
Utilizando esses resultados, construímos a distribuição de probabilidades da estatística X :
x 4 7 10 13 16
P( X = x ) 1/9 2/9 3/9 2/9 1/9
e baseada nesta distribuição de probabilidades, temos que:
E( X ) = 4.(1/9) + ... + 16.(1/9) = 10 ⇒ E( X ) = 10
E( X 2 ) = 4 .(1/9) + ... + 16 .(1/9) = 112 ⇒ Var( X ) = 112 - (10) = 12 ⇒ Var( X ) = 12
2

ou seja, que
E( X ) = µ = 10 Var( X ) = σ /n = 24/2 = 12
2

Observe que as diversas amostras produzem estimativas diferentes da média e da variância populacionais. Esta
flutuação das médias amostrais ( X ) em torno da média populacional (µ) pode ser quantificada através da
variância da média amostral , Var( X ). Esses resultados numéricos obtidos independem da distribuição da v.a. X
e podem ser generalizados no seguinte teorema:

Teorema 1. Seja X uma população com média µ e variância σ e seja (X1, ..., Xn) uma a.c.s. de tamanho n
2

retirada desta população. Então, E( X ) = µ e Var( X ) = σ /n.


2

Precisamos determinar agora qual é o modelo probabilístico da curva referente à distribuição de X. A


obtenção dessa informação exige recursos matemáticos que estão fora dos objetivos deste curso. Apresenta-
remos, somente, os resultados mais importantes.
Primeiramente, se X é uma v.a. com distribuição normal de média µ e variância σ , pode-se demonstrar
2

que a distribuição da estatística X também será normal de mesma média, µ, mas com variância σ /n, isto é:
2

X ~ N(µ, σ ) ⇒ X ~ N(µ, σ /n)


2 2

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


5

No caso mais geral, onde a distribuição da v.a. X não é normal ou é desconhecida, devemos usar os
resultados do importante teorema apresentado a seguir.

Teorema 2. Para amostras casuais simples de tamanho n retiradas de qualquer população com média µ e
variância σ , a distribuição amostral da média aproxima-se de uma distribuição normal com média µ e
2

variância σ /n, quando n tende para infinito. (Teorema do Limite Central).


2

A rapidez dessa convergência depende da distribuição da população da qual a amostra é retirada: se a


distribuição for simétrica e unimodal a convergência é bastante rápida. Para amostras com mais de 30 elementos,
a aproximação pela distribuição normal pode ser considerada boa.
Um outro resultado bastante interessante e que será utilizado freqüentemente nas próximas aulas está
apresentado no seguinte corolário:

Corolário 1: Se (X1, X2, ...,Xn) é uma a.c.s. de tamanho n da população X que tem média µ e variância σ ,
2

X −µ
então a variável Z = ~ N(0, 1) quando n tende para infinito.
σ2
n

1.6 A DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO

Consideremos agora uma população em que a proporção de elementos portadores de uma certa
característica é p. Por exemplo: a proporção de funcionários da lavoura que tem curso colegial completo; a
proporção de eleitores de um determinado candidato; a proporção de animais com determinada doença etc..
Em qualquer um dos exemplos, cada elemento da população pode assumir dois valores: X = 1 se o ele-
mento apresenta a característica e X = 0, se não apresenta a característica, onde “apresentar a característica” sig-
nifica “ter o curso colegial completo”, ou “ser eleitor de um determinado candidato”, ou mesmo “ter uma deter-
minada doença”. Assumindo que P(X=1) = p e P(X=0) = 1 – p, temos:
E(X) = 1.(p) + 0.(1-p) = p ⇒ E(X) = p
E(X2) = 1.(p) + 0.(1-p) = p
Var(X) = p - (p) = p(1-p) ⇒ Var(X) = p(1-p)
2

Retirada uma a.c.s., com reposição, de n elementos da população X, indicamos por Sn o total de
indivíduos portadores da característica na amostra. Já sabemos que Sn ~ B(n; p), isto é, Sn tem distribuição
binomial de parâmetros n e p. Definindo p̂ como sendo a proporção (ou freqüência relativa) de indivíduos que
têm a característica na amostra, isto é, p̂ = Sn /n, a distribuição amostral de p̂ apresenta probabilidades iguais às
probabilidades da distribuição de Sn, embora os valores assumidos por p̂ e Sn sejam diferentes. Então:
E( p̂ ) = p e Var( p̂ ) = p(1-p)/n

(Note a analogia de p̂ com X ...)


Para n grande, usando o Teorema do Limite Central, concluímos que

p̂ − p
p̂ ~ N(p; p(1-p)/n) e Z = ~ N(0; 1)
p(1 − p)
n

Exemplo 1.3. Foi sorteada uma amostra de 500 coelhos de uma granja e os animais foram inspecio-
nados com respeito à presença de sarna de focinho e patas. Para estimar a "proporção de animais com sarna de
focinho e patas", usamos a estatística p̂ = Sn n , onde Sn corresponde ao número de animais com sarna de
focinho e patas e n ao número total de coelhos na amostra. Se Sn = 300 coelhos têm sarna de focinho e patas,
uma estimativa da proporção de coelhos portadores de sarna, nessa granja, é p̂ = 300/500 = 0,60 e uma estimati-
va da variância dessa proporção é 0,60*0,40/500 = 0,00048.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


6

Enfim, além da média X e da proporção p̂ , podemos estudar a distribuição amostral de qualquer esta-
tística T = f(X1, X2, ...,Xn), mas quanto mais complexa for esta função f(.), mais difícil será a derivação matemá-
tica das propriedades da estatística T.

2 ALGUMAS DISTRIBUIÇÕES IMPORTANTES

Agora, conheceremos outras distribuições de probabilidades que serão usadas em alguns testes de
hipóteses e na construção de alguns intervalos de confiança bastante úteis em situações práticas. De cada
distribuição serão conhecidas algumas características principais, como o gráfico, a média, a variância e os
procedimentos usados no cálculo de probabilidades usando as Tábuas apresentadas no final da apostila. Também
serão informadas as situações mais comuns onde essas distribuições são aplicadas.

χ2)
2.1 DISTRIBUIÇÃO DE QUIQUADRADO (χ

Definição 2.1 Seja {Z1, ..., Zν} uma amostra aleatória de n elementos retirada de uma distribuição
ν
normal padronizada N(0; 1). Então, a variável Q = Z12 + ... + Z ν2 = ∑ Zi2 tem distribuição
i =1

quiquadrado com ν graus de liberdade (g.l.), isto é, Q ~ χ 2(ν ) .

Pode-se provar que E(Q) = ν e Var(Q) = 2ν. O número de graus de liberdade (ν) refere-se ao número de
variáveis normais independentes Zi, ao quadrado, que compõem a variável Q. A Figura 1 apresenta o gráfico da
distribuição quiquadrado com ν = 5 g.l. é:

Figura 1 - Distribuição quiquadrado com 5 g.l.

A distribuição Quiquadrado tem diversas aplicações em Estatística e para o cálculo de probabilidades


usaremos a Tábua II, que fornece os valores críticos qc tais que P(Q > qc) = p, para alguns valores de p e de ν.
Por exemplo, se Q ~ χ (210 ) e procuramos o valor crítico, qc, tal que 0,05 = P(Q > qc), iremos encontrá-lo na inter-
seção da linha correspondente a ν = 10gl e da coluna correspondente a p = 0,05, ou seja, q = 18,307. De modo
c
análogo, se procuramos qc tal que P(Q > qc) = 0,95, iremos encontrar o valor 3,940. Esses resultados estão repre-
sentados na Figura 2.

PROBABILIDADE p
ν ... 0,100 0,05 0,04 ...
... ... ... ↓ ... ...
10 ... 15,987 → 18,307 19,021 ...
... ... ... ... ... ...

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


7

Figura 2 - Valores críticos bilaterais da distribuição χ (210) para 1-α = 90%

Uma estatística importante que será utilizada na construção de intervalos de confiança e nos testes de
hipóteses sobre a variância de uma população normal é
2
X −X
( ) (n − 1)S 2
n 1 n
∑  i  = 2 ∑ Xi − X
2
= ~ χ (2n −1)
i =1  σ  σ i =1 σ2

2.2 DISTRIBUIÇÃO t DE STUDENT

É uma das mais importantes distribuições usadas na inferência estatística sobre médias de populações
normais.

Definição 2.2 Sejam as variáveis Z ~ N(0,1) e Q ~ χ (ν


2
) , independentes. Então, a variável

Z
T= tem distribuição t de Student com ν graus de liberdade.
Q ν

Pode-se provar que E(T) = 0 e Var(T) = v/(v–2). O gráfico da distribuição t- Student é muito parecido
com o da distribuição N(0; 1), sendo o primeiro apenas um pouco mais achatado que o segundo. Quando o
número de graus de liberdade é grande, os gráficos das distribuições Normal e t-Student são praticamente iguais.
O gráfico da distribuição t-Student com ν = 12 g.l. está apresentado na Figura 3.

Figura 3 - Gráfico da distribuição t-Student com ν = 12 graus de liberdade


A Tábua III fornece valores críticos tc tais que P(T > tc) = p, para alguns valores de p e de ν. Por
exemplo, se T ~ t(12) e p = 0,025, o valor tc = 2,179 será encontrado na interseção da linha correspondente a 12
g.l. e da coluna correspondente à probabilidade p = 0,025.
PROBABILIDADE p
ν ... 0,030 0,025 0,020 ...
... ... ... ↓ ... ...
12 ... 2,076 → 2,179 2,303 ...
... ... ... ... ... ...

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


8

Quando o número de graus de liberdade da distribuição t-Student é grande, podemos usar a Tábua I da
distribuição N(0,1) para obter os valores críticos tc. Uma estatística importante que será usada na construção de
X −µ
Intervalos de Confiança e nos testes de hipóteses sobre médias de populações normais é: T = ~ t(n-1) , ou
S2
n
seja, tem distribuição t-Student com ν = n-1 graus de liberdade.

2.3 DISTRIBUIÇÃO F DE SNEDECOR

Essa distribuição é bastante usada na comparação de variâncias de duas populações com distribuição
normal.

U
ν1
Definição 2.3. Sejam as v.a. U ~ χν21 eV ~ χ 2ν 2 , independentes. Então a variável F = tem dis-
V
ν2
tribuição F de parâmetros ν1 e ν2

onde os parâmetros ν1 e ν2 correspondem, respectivamente, ao número de graus de liberdade do numerador e do


denominador da variável F. Pode-se provar que:
ν2 2ν 22 (ν1 + ν 2 − 2 )
E(F) = e Var(F) = .
ν2 − 2 ν1 (ν 2 − 2 ) (ν 2 − 4)
2

A Figura 4 apresenta o gráfico da distribuição F(ν1 = 10; ν2 = 12)

Figura 4 - Gráfico da distribuição F(10; 12).

Os valores críticos fc tais que P(F > fc) = 0,05, para alguns valores de ν1 e ν2 podem ser encontrados na
Tábua IV. Por exemplo, para uma variável com distribuição F(10,12), o valor 2,75 é encontrado na interseção
da linha correspondente a ν2=12gl (denominador) e ν1=10 g.l. (numerador):

ν1 GRAUS DE LIBERDADE DO NUMERADOR


ν2 ... 9 10 12 ...
... ... ... ↓ ... ...
12 ... 2,80 → 2,75 2,69 ...
... ... ... ... ... ...

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


9

Com a Tábua IV podemos também encontrar os valores críticos tais que P(F < fc) = 0,05 usando a
1
identidade F(ν1; ν2) = . Por exemplo, se F ~ F(10; 12) e estamos interessados no valor crítico inferior,
F(ν 2 ; ν1 )
fc, que P(F < fc) = 0,05, devemos primeiramente procurar o valor crítico na interseção da linha correspondente a
(ν2 =) 10 g.l. com a coluna correspondente a (ν1 =) 12 g.l.. A partir deste valor (2,91), obtemos o valor crítico de
interesse fazendo: fc = 1/2,91 = 0,34.

Uma estatística importante que será utilizada na construção de Intervalos de Confiança para o quociente
de duas variâncias e nos testes de hipóteses envolvendo as variâncias de duas populações normais é:
S12
F= ~ F(n1-1; n2-1)
S 22
ou seja, tem distribuição F-Snedecor com ν1 = (n1-1) e ν2 = (n2-1) graus de liberdade, onde n1 e n2 são os tama-
nhos das amostras retiradas das populações 1 e 2, respectivamente, cujos resultados são utilizados no cálculo das
estimativas das variâncias S12 e S22 .

3. ESTIMAÇÃO

Na produção de generalizações sobre a população com base em resultados obtidos de uma amostra,
estão envolvidos a estimação e o teste de hipóteses sobre parâmetros.
Basicamente, a estimação de parâmetros pode ser feita de duas maneiras: por ponto e por intervalo. Par
a obtenção de bons estimadores pontuais, existem alguns métodos como: o Método dos Mínimos Quadrados, o
Método da Máxima Verossimilhança, o Método dos Momentos etc. No entanto, estes métodos não serão apresen-
tados com detalhes nesta apostila, podendo ser encontrados em outros textos básicos de Inferência Estatística
(ver a bibliografia sugerida no final da apostila).

Exemplo 3.1 A cada eleitor de uma amostra de 500 eleitores é feita uma pergunta a respeito da eleição
de um determinado candidato. A resposta à pergunta poderá ser sim (favorável) ou não (contrário à eleição do
candidato). A estimação da proporção (p) de eleitores favoráveis à eleição do candidato é feita utilizando-se o
estimador
p̂ = (número de eleitores favoráveis à eleição)/(número de eleitores na amostra)
Deste modo, se 320 eleitores responderam sim à pergunta, uma estimativa da proporção de eleitores favoráveis à
eleição do candidato é p̂ = 320/500 = 0,64 = 64%.

Dúvidas: Será que p̂ é um bom estimador de p? Será que p̂ proporciona boas estimativas de p?
Para responder a estas (e outras) perguntas iremos conhecer as características de um bom estimador por ponto,
que serão apresentadas a seguir.

3.1 CARACTERÍSTICAS DE UM BOM ESTIMADOR POR PONTO

Os estimadores por ponto ou pontuais são assim denominados porque especificam um único valor para
o parâmetro. Em algumas situações podemos estar interessados em saber se um estimador tem boas qualidades;
já em outras, podemos ter mais de um estimador para o mesmo parâmetro e desejamos escolher o melhor deles.
Neste caso o julgamento pode ser feito analisando as seguintes propriedades desses estimadores:

i) T é um estimador justo, não viesado ou não tendencioso do parâmetro θ se E(T) = θ.

ii) T é um estimador consistente do parâmetro θ se for justo e se lim Var(T) = 0.


n→∞

iii) Se T1 e T2 são dois estimadores justos do parâmetro θ e ainda Var(T1) < Var(T2), então T1 é dito ser mais
eficiente que o estimador T2.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


10

Dos estimadores que já conhecemos, pode-se provar que X e p̂ são estimadores justos e consistentes dos parâ-
metros µ e p, respectivamente. Um estimador não viesado e consistente para a variância populacional σ é:
2

 n  
2

n ∑ i  
X
1
( ) 1 ∑ X 2 -  i =1  
n
∑ Xi − X
2 2
S = =
(n − 1) i =1 (n − 1)  i =1 
i
n
 
 

(para maiores detalhes, ver FONSECA & MARTINS, 1982, pg.155-157)

3.2 ESTIMAÇÃO POR INTERVALO

A estimativa por ponto de um parâmetro θ é bastante útil, embora não dê qualquer indicação da precisão
a ela associada. É desejável que uma estimativa por ponto esteja acompanhada por alguma medida do erro da
estimativa. Por exemplo, uma estimativa pontual pode ser acompanhada de algum intervalo a respeito dessa
estimativa, juntamente com alguma medida de segurança ou de confiança de que o verdadeiro valor do parâme-
tro caia neste intervalo. Nesta situação, estamos falando da estimação de parâmetros por intervalo.
O estimador por intervalo que tem associada uma probabilidade, recebe o nome de Intervalo de
Confiança (I.C.). Os limites inferior e superior desse intervalo são chamados de limites (inferior e superior) de
confiança. A probabilidade de que o I.C. contenha o verdadeiro valor do parâmetro θ é chamada de Coeficiente
de Confiança e é denotada pela letra grega γ (gama). A amplitude de um I.C. é calculada fazendo-se a diferença
entre os dois limites de confiança (superior e inferior).
Nosso objetivo é encontrar um estimador por intervalo que produza intervalos pequenos, se possível, e
incluam o verdadeiro valor do parâmetro θ com uma confiança (γ) alta.

3.2.1 INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL

Já sabemos que se uma variável aleatória X tem distribuição N(µ; σ ), a média X obtida a partir de uma
2

X −µ
amostra de tamanho n tem distribuição N(µ; σ /n ) e a variável Z =
2
~ N(0, 1).
σ2
n

Fixando uma probabilidade γ, iremos considerar um


intervalo simétrico em relação à origem, tal que
γ = P(-zc< Z < zc),
onde zc (ver Figura 5) pode ser obtido da Tábua I e o seu
valor depende exclusivamente da confiança (γ) que dese-
jamos na estimativa. Então

Figura 5 - Distribuição normal padrão


 
 X −µ   σ σ 
γ = P − z c ≤ ≤ z c  = P X − z c ≤ µ ≤ X + zc 
 σ2   n n
 n 
e o I.C. para a média populacional, µ, com um coeficiente de confiança γ, é

 σ σ 
I.C.(µ; 100γ%) =  X − z c ; X + zc 
 n n

e dizemos que este intervalo contem o verdadeiro valor da média populacional com uma confiança de 100γ%.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


11

Note que este I.C. é centrado na média X e tem uma amplitude igual a 2 z c . O coeficiente de confiança (γ)
n
deve ser entendido da seguinte maneira: “se a partir de k amostras independentes de tamanho n, calculamos k
intervalos de confiança (diferentes) para a média µ, pelo menos k*γ desses intervalos deverão cobrir (incluir) o
verdadeiro valor de µ”.

Exemplo 3.2. Sabemos que o peso de bovinos Nelore aos 210 dias de idade tem distribuição normal
com variância 400kg2. Baseado numa amostra de 30 animais, com peso médio de 186kg:
(a) construir um I.C. para o peso médio (populacional) desses bovinos com uma confiança γ = 0,95;
(b) idem, para γ = 0,99;
(c) calcular a confiança em afirmar que o verdadeiro peso médio desses bovinos é [180; 192] kg.
Resolução:
(a) Da Tábua I, o valor de zc, tal que 0,95 = P(-zc < Z < zc) é zc = 1,96. Com os valores amostrais e a fórmula
acima definida calcular os limites de confiança:
 20 
 ⇒ I.C.(µ; γ=95%) = [178,84; 193,16] kg, ou seja, este
20
0,95 = P186 − 1,96 ≤ µ ≤ 186 + 1,96
 30 30 
intervalo (de amplitude 14,32kg) contem o verdadeiro valor do peso médio dos bezerros com 95% de
confiança.
(b) 0,99 = P(-zc < Z < zc) ⇒ zc = 2,58. Assim, o I.C.(µ; γ=99%) = [176,58; 195,42] kg, contem o verdadeiro
valor do peso médio dos bezerros, com uma confiança de 99%.
20
(c) a amplitude do I.C.(µ) é 192 − 180 = 12kg ⇒ 12 = 2zc ⇒ zc = 1,64 ⇒ γ = P(-1,64<Z<1,64) =
30
2P(0<Z<1,64) = 2(0,4495) = 0,8990, ou seja, é de 89,9% a confiança na afirmação de que o verdadeiro
peso médio dos bezerros está contido no intervalo [180; 192]kg.

2
Geralmente não conhecemos a variância populacional (σ ) e neste caso precisamos estimá-la com base em
2
dados de uma amostra representativa da população, usando um bom estimador como S , por exemplo. Quando o
X −µ
tamanho da amostra é relativamente grande (n>30), o Teorema do Limite Central garante que a v.a. T =
S2
n
tem distribuição N(0; 1) e, neste caso, o I.C.(µ) é calculado através de:

 S S 
I.C.(µ; 100γ%) =  X − z c ; X + zc 
 n n

Quando o tamanho da amostra é pequeno, não podemos usar o Teorema do Limite Central e a estatísti-
ca T, definida anteriormente, não tem distribuição N(0; 1), mas sim, distribuição t-Student com ν = n − 1 graus
de liberdade.

Por exemplo: vamos encontrar o valor crítico


tc = 2,093, tal que γ = 0,95 = P(-tc <T< tc) e T~t ,
(19)
na interseção da linha correspondente a ν = 19g.l. e
coluna correspondente a p = 0,025 (ver Figura 6).

Verifique que na Tábua III tc = 1,729 para γ =


90% e tc = 2,861 para γ = 99%.

Figura 6 - Distribuição t(19)


Fixado um valor para o coeficiente de confiança (γ) e obtido o valor crítico, tc, na Tábua III, o I.C.(µ,
100γ%) é calculado através da fórmula:

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


12

 S S 
I.C.(µ; 100γ%) =  X − t c ; X + tc 
 n n

Exemplo 3.3. Dez animais foram alimentados com uma certa ração durante 15 dias e verificou-se que
os ganhos de peso foram: 2,71; 2,93; 3,10; 3,12; 3,23; 3,76; 3,89; 4,01; 4,16 e 4,23 kg. Construir um intervalo de
confiança para o ganho médio de peso com γ = 0,90.
Resolução:
1  (35,14) 2 
• uma estimativa da variância populacional é s2 = 126, 2546 −  = 0,3081.
(10 − 1)  10 
• da Tábua III, com γ = 0,90 e 9 g.l. obtemos tc = 1,833; da amostra temos x = 3,51 e então:
0,3081
• I.C.(µ; γ=90%) = 3,51 ± 1,833 = 3,51 ± 0,32 = [3,19; 3,83] kg, ou seja, este intervalo contem o
10
verdadeiro valor do ganho de peso médio com 90% de confiança.

3.2.2 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO

Fixando-se um coeficiente de confiança γ e obtendo-se o respectivo valor zc da Tábua I, o intervalo de


confiança para a proporção de sucessos, p, é obtido por:

[
I.C.(p; 100γ%) = p̂ − z c p(1 − p) n ; p̂ + z c p(1 − p) n ]
onde p̂ = (número de sucessos)/(número de tentativas) é uma estimativa da proporção p, calculada a partir dos n
valores amostrais.
Porém, na maioria das vezes, o valor do parâmetro p não é conhecido, impossibilitando o uso desta últi-
ma fórmula. As possíveis soluções para este problema são:
(a) no caso de grandes amostras, substituir na fórmula o valor de p pelo valor de sua estimativa p̂ , calculada a
partir dos resultados amostrais
(b) no caso de pequenas amostras, usar a fórmula do Intervalo de Confiança Conservativo para a proporção,
que está baseada no fato de que o produto p(1-p) ≤ 0,25, cuja fórmula é:

[
IC*(p; 100γ%) = p̂ − z c 0,25 / n ; p̂ + z c 0,25 / n ]

Exemplo 3.4 Construir um IC para a proporção de eleitores favoráveis ao candidato X, com um coefi-
ciente de confiança de γ = 0,99, sabendo-se que de uma pesquisa eleitoral envolvendo uma amostra de 1000 elei-
tores, somente 248 foram favoráveis à sua eleição.
Resolução:
• na amostra: p̂ = 248/1000 = 0,248 é a proporção de eleitores favoráveis ao candidato X;
• γ = 0,99 = P(-zc ≤ Z ≤ zc) ⇒ zc = 2,58
• como n = 1000 é grande, I.C.(p; 99%) = 0,248 ± 2,58 0,248(1 − 0,248) 1000 = 0,248 ± 0,035 = [0,213;
0,283], ou seja, este intervalo (amplitude 0,07) contem a verdadeira proporção de eleitores favoráveis à
eleição do candidato X com uma confiança de 99%.
• se resolvêssemos construir um I.C. Conservativo para a proporção teríamos:
IC*(p; 99%) = 0,248 ± 2,58 0,25 1000 = 0,248 ± 0,041 = [0,207; 0,289], que tem uma amplitude de 0,082
unidades.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


13

4. TESTES DE HIPÓTESES

Outro problema fundamental da Inferência Estatística envolve a execução de testes de hipóteses sobre o
valor de parâmetros de interesse de uma população de estudo. Se conhecermos todos os elementos da população
(o que é bem pouco provável...) também deveremos conhecer o verdadeiro valor de um particular parâmetro de
interesse e não precisaremos estimá-lo nem testar hipóteses sobre o seu valor. Porém, na maioria das vezes, não
teremos acesso a todos os elementos da população e as nossas conclusões deverão ser baseadas em resultados
obtidos de uma amostra representativa da população. Para resolver este problema, buscaremos definir algumas
ferramentas estatísticas que permitam validar ou refutar uma hipótese sobre algum parâmetro (desconhecido) de
interesse.
O procedimento básico para a execução de um teste de hipótese sobre a média (µ) de uma população
normal cuja variância (σ2) é conhecida, será introduzido através do Exemplo 3.1.

Exemplo 4.1. Está sendo realizado um leilão de bezerros Nelore com idade de 210 dias, aproximada-
mente. Os bezerros são procedentes de duas grandes fazendas: FAZ-1 e FAZ-2. Sabe-se que os animais da FAZ-
1 têm peso médio de 145kg e desvio padrão de 12kg, enquanto os animais da FAZ-2 têm peso médio de 155kg e
desvio padrão de 20kg. Um lote desses animais, de procedência ignorada, vai para leilão a um preço convidativo
e um comprador leigo, para fazer ou não uma oferta, precisa conhecer a procedência dos animais. O edital do
leiloeiro informa que um pouco antes do leilão será divulgado o peso médio ( x ) de um lote de 25 animais. Com
base neste valor, que regra de decisão o comprador deve usar para saber se o lote de animais que vai para leilão é
da FAZ-1 ou da FAZ-2 ?

Uma resposta imediata é a de considerar que os animais são da FAZ-1 se o valor de x estiver
“próximo” de 145, e da FAZ-2 se o valor de x estiver “próximo” de 155. Podemos definir a seguinte regra de
decisão:

Se x < 150, os animais são da FAZ-1 e se x ≥ 150, os animais são da FAZ-2

Suponhamos que o comprador seja informado que x = 148kg. Então, de acordo com a regra de
decisão adotada, ele conclui que o lote de animais é procedente da FAZ-1. Porém, ficam algumas dúvidas sobre
esta decisão:
• Será que o comprador pode estar enganado quanto à procedência dos animais?
• É possível que o peso médio de um lote de 25 animais da FAZ-2 seja igual a 148kg?
• É possível que o peso médio de um lote de 25 animais da FAZ-1 seja superior a 150kg?
Note que estas dúvidas sobre a real procedência dos animais continuariam existindo mesmo se o peso
médio da amostra de 25 animais fosse igual a 154kg, ao invés de 148kg... Estudemos os dois tipos de erro que o
comprador pode cometer ao tomar uma decisão numerando-os para facilitar a linguagem:
Erro tipo I: concluir que os animais são da FAZ-1, quando na verdade são da FAZ-2. Isto acontece quando a
amostra de 25 animais da FAZ-2 apresenta x < 150.
Erro tipo II: concluir que os animais são da FAZ-2, quando na verdade são da FAZ-1. Isto acontece quando a
amostra de 25 animais da FAZ-1 apresenta x ≥ 150.
De forma análoga, vamos definir também duas hipóteses numeradas:
H0: os animais são da FAZ-2, ou seja, o peso dos animais tem uma distribuição com média µ2 = 155kg e
desvio padrão σ2 = 20kg.
H1: os animais são da FAZ-1, ou seja, o peso dos animais tem uma distribuição com média µ1 = 145kg e
desvio padrão σ1 = 12kg.
Indiquemos por R.C. (Região Crítica) a região correspondente aos valores de X iguais ou inferiores a
150, que nos levam a rejeitar a hipótese H0, ou seja, RC = { X ∈ R: X < 150}. Com esta notação, a probabili-
dade de cometer cada um dos erros pode ser escrita como:

P(Erro tipo I) = P( X ∈ RC | H0 é verdadeira) = α


P(Erro tipo II) = P( X ∉ RC | H1 é verdadeira) = β

Supondo que o peso dos bezerros Nelore tem distribuição normal e que a hipótese H0 é verdadeira (os
animais são da FAZ-2), X ~ N(155; 16). Assim, a probabilidade de cometer o erro do tipo I é igual a:
 150 − 155 
( )
α = P(Erro tipo I) = P X < 150 | X ~ N(155,16) = P  Z <  = P(Z < -1,25) = 0,10565
 16 

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


14

Assumindo que a hipótese H1 é verdadeira, X ~ N(145; 5,76) e a probabilidade de cometer o erro do


tipo II é igual a:
β = P(Erro II) = P (X ≥ 150 | X ~ N(145; 5,76) )
 150 − 145 
= PZ ≥ = P(Z ≥ 2,08) = 0,01876
 5,76 

Resumindo, temos:

ORIGEM REAL DOS ANIMAIS


DECISÃO
FAZ-1 FAZ-2
Erro tipo I
os animais são da FAZ-1 sem erro (α = 10,56%)
Erro tipo II
os animais são da FAZ-2 sem erro
(β = 1,88%)

De acordo com a regra de decisão adotada o comprador estará cometendo o Erro tipo I com maior probabilidade
(α = 10,56%) que o Erro tipo II (β = 1,88%). De certo modo, a regra de decisão estipulada parece privilegiar a
afirmação de que os animais são originários da FAZ-1.

Em relação ao mecanismo dos erros, vale observar que:


i) o tamanho dos erros tipo I e II depende exclusivamente da regra de decisão adotada, que por sua vez está
diretamente relacionada com a região crítica do teste;
ii) para cada regra de decisão adotada, teremos outros valores de α e β; se escolhermos um valor para X <150,
o valor de α diminuirá, enquanto que o valor de β aumentará. Se, ao contrário, escolheremos um valor para
X > 150, a probabilidade β diminuirá mas α aumentará.
iii) existe um ponto X em que os valores de α e β são iguais. Com os dados deste exemplo, este ponto é X =
148,75 e os valores de α e β são iguais a 5,94% (Verifique este resultado, como exercício!!).
iv) no caso geral, onde a hipótese alternativa H1 corresponde a uma desigualdade, o valor de β não pode ser
calculado porque não temos um único valor alternativo para µ.
v) os erros envolvidos num teste de hipótese podem ser generalizados como:

Erro tipo I: consiste em rejeitar H0 quando H0 é verdadeira


Erro tipo II: consiste em aceitar H0 quando H1 é verdadeira

Para testarmos uma hipótese qualquer, é mais comum fixarmos um valor para α (nível de significância
do teste) e encontrarmos a regra de decisão que irá corresponder a P(Erro I) = α. Por exemplo, fixando-se α =
5% (o que é bastante comum!) tem-se:
x − 155
( )
α = 0,05 = P X < x c: X~ N(155,16) = P(Z < -1,645) ⇒ -1,645 = c ⇒ x c = 148,42kg
16
onde x c é o valor médio crítico, ao nível de 5% de significância. Neste caso, a regra de decisão pode ser escrita
como:
"Se X < 148,42 kg concluímos que os animais são da FAZ-1 e
se X ≥ 148,42 kg, concluímos que os animais são da FAZ-2"

( )
Fixando-se α = 5%, β = P(Erro do tipo II) = P X ≥ 148,42 : X ~ N(145; 5,76) = P(Z ≥ 1,425) = 0,0793. Na Fi-
gura 7 estão apresentados os valores das probabilidades de ocorrência dos erros dos tipos I e II.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


15

Figura 7 - Identificação das probabilidades α e β.

A especificação da hipótese alternativa H1 depende do grau de informação que temos sobre o problema.
A seguir serão apresentadas duas outras situações que ocorrem freqüentemente na prática e as respectivas
hipóteses alternativas e regiões críticas associadas.
Situação 1: suponhamos que os animais possam vir de muitas outras fazendas alem da FAZ-2 e que o
interesse do comprador continua sendo por animais da FAZ-2, porque aos 210 dias esses animais têm um peso
médio nunca inferior ao dos animais das outras fazendas. Neste caso, só iremos desconfiar que os animais não
são da FAZ-2 se o peso médio dos animais for bem inferior a 155 kg. Neste caso as hipóteses nula e alternativa
são, respectivamente:
H0: os animais são da FAZ-2, ou µ = 155kg;
H1: os animais não são da FAZ-2, ou µ < 155kg
e a regra de decisão, pode ser escrita como:
"Se X ≥ x c concluímos que os animais são da FAZ-2,
mas se X < x c concluímos que os animais não são da FAZ-2."

Se, por exemplo, fixarmos α = 5%, o valor crítico xc é obtido fazendo-se:


x c − 155
0,05 = P( X < x c | X ~ N(155; 16) = P(Z < -1,65) ⇒ -1,65 = ⇒ x c = 148,40 kg
16
a região crítica fica: RC = { x ∈R: x <148,40} e concluiremos que os animais são da FAZ-2, ao nível de
significância de 5%, somente se x ≥ 148,40kg.

Situação 2: suponhamos agora que não exista razão para o comprador acreditar que a FAZ-2 é melhor,
ou seja, existem algumas fazendas melhores e outras piores que a FAZ-2. Porém, o comprador continua
interessado nos animais desta fazenda. Neste caso, somente iremos desconfiar que os animais não são da FAZ-2,
quando o peso médio deles for muito diferente (muito abaixo ou muito acima) de 155 kg. Neste caso, as
hipóteses são escritas como:
H0: os animais são da FAZ-2, ou µ = 155kg;
H1: os animais não são da FAZ-2, ou µ ≠ 155kg
e a regra de decisão, pode ser escrita como:
"Se x c1 ≤ X ≤ x c2 concluímos que os animais são da FAZ-2,
mas, se X < x c1 ou X > x c2 concluímos que os animais não são da FAZ-2."

Se fixarmos α = 5%, existirão muitos valores críticos, x c1 e x c 2 , que satisfazem a condição acima, mas dare-
mos preferência aos valores críticos que são simétricos à média X . Então:
0,05 = P( X < x c1 ou X > x c2 | ~ X ~ N(155,16) = P(Z < -1,96 ou Z > 1,96)
x c1 − 155 x c2 − 155
-1,96 = ⇒ x c1 = 147,16kg 1,96 = ⇒ x c2 = 162,84kg
16 16
e a região crítica fica: RC = { x ∈ R | x < 147,16 ou x >162,84} e concluiremos que os animais são da FAZ-2,
ao nível de significância de α = 5%, somente se 147,16 ≤ x ≤ 162,84kg.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


16

4.1 PROCEDIMENTOS BÁSICOS PARA A CONSTRUÇÃO DE UM TESTE DE HIPÓTESE

Os procedimentos básicos para a construção de um teste de hipótese sobre o valor de um parâmetro


genérico θ podem ser enumerados da seguinte maneira:
i) Fixe a hipótese que será colocada à prova, H0: θ = θ0 (hipótese da nulidade), bem como a hipótese
alternativa, H1, que será considerada verdadeira se H0 for rejeitada:
H1: θ ≠ θ0 (hipótese bilateral ou bicaudal), ou
H1: θ > θ0 (hipótese unilateral à direita), ou
H1: θ < θ0 (hipótese unilateral à esquerda).
Quanto à escolha das hipóteses, FONSECA & MARTINS (1982) afirmaram que “a hipótese H1 geralmente
representa a suposição que o pesquisador quer provar, sendo H0 formulada com o expresso propósito de
ser rejeitada. Esse procedimento é conveniente, pois o equívoco de erroneamente rejeitar H0 é considerado
mais sério do que o equívoco de erroneamente aceitar H1”
ii) Use a teoria estatística e as informações disponíveis, para decidir qual o estimador de θ será usado para jul-
gar H0. Por exemplo, se o parâmetro em estudo for µ, o estimador a ser usado é X .
iii) Fixe α = P(Erro tipo I) e, assumindo que a hipótese H0 é verdadeira, construa a região crítica (R.C.) do
teste.
iv) Use as informações fornecidas pela amostra, para encontrar o valor da estatística θ̂ que definirá a decisão.
v) Se o valor da estatística calculada na amostra pertencer à R.C. rejeite a hipótese H0 ao nível de significância
fixado e aceite a hipótese H1 como verdadeira; se o valor da estatística não pertencer à R.C., aceite a hipó-
tese H0 como verdadeira.

4.2 TESTE SOBRE A MÉDIA DE UMA POPULAÇÃO NORMAL QUANDO A VARIÂNCIA É


CONHECIDA

Usando os procedimentos apresentados na seção 4.1, vamos formalizar o teste sobre a média µ de uma
população normal cuja variância σ é conhecida (situação que na prática é uma situação pouco comum!!).
2

Exemplo 4.2 O peso ao desmame de bezerros Nelore do Campus tem um desvio padrão de 12 kg. Com
o objetivo de testar a hipótese de que o peso médio dos bezerros é igual a 220 kg, sorteou-se uma amostra de 80
animais obtendo-se x = 216kg. Ao nível de significância de 5%, podemos confirmar a hipótese feita?
Resolução:
• X = "peso ao desmame de bezerros Nelore", X ~ N(220,144)
Obs: como não temos qualquer informação sobre o "sinal" da hipótese alternativa, optamos pela hipótese
bilateral. O resultado x = 216kg, que é ocasionalmente menor que 220kg, não deve influenciar a escolha da
hipótese alternativa.
H0: µ = 220 (o peso médio ao desmame é 220 kg)
H1: µ ≠ 220 (o peso médio ao desmame não é 220 kg)
• estimador: X , que sob H0, tem distribuição N(220; 144/80), ou seja, X ~ N(220; 1,80)

x c1 − 220
⇒ -1,96 = ⇒ x c1 = 217,37kg
1,80

x c2 − 220
⇒ 1,96 = ⇒ x c1 = 222,63 kg
1,80

Figura 8. Valores críticos da distribuição normal reduzida


( )
• α = 0,05 = P X < x c1 ou X > x c2 |X~N(220; 1,80) ⇒ R.C. = { x ∈ R: x < 217,37 ou x > 222,63}

• como x = 216 kg ∈ R.C., rejeitamos a hipótese H0 ao nível de significância de 5% e concluímos que o peso
médio ao desmame dos bezerros Nelore não é igual a 220kg.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


17

Uma maneira alternativa de realizar este teste de hipótese consiste em escrever a região crítica em
função da v.a. padronizada Z e calcular, com base na média amostral e supondo que a hipótese H0 é verdadeira,
um valor zcalc. Posteriormente, verificamos se este valor pertence ou não à R.C. e tiramos a conclusão sobre o
teste de hipótese. Com os dados do Exemplo 3.2, ficaríamos com
216 − 220
RC = {z ∈ R: |z| > 1,96} e zcalc = = –2,98
1,80
concluindo (mais uma vez, é claro!) que a hipótese H0 deve ser rejeitada, pois zcalc ∈ R.C. ao nível de 5% de sig-
nificância.

4.3. NÍVEL DESCRITIVO DO TESTE

O procedimento usual de teste de hipóteses é baseado na adoção de um critério ou regra de decisão, de


tal modo que α = P(Erro tipo I) não exceda um valor pré-fixado. Porem, na maioria das vezes, a escolha de α é
arbitrária. Um procedimento alternativo consiste em calcular o “menor nível de significância para o qual a
hipótese H0 é rejeitada, baseado nos resultados amostrais”. Este valor é chamado nível descritivo do teste e
será denotado por α̂ (ou “p-value”).
Os passos usados neste procedimento alternativo são bastante parecidos com os do procedimento
clássico, sendo que a principal diferença consiste em não construir uma região crítica para o teste. Ao invés
disto, calculamos a probabilidade de ocorrerem valores da estatística mais favoráveis à rejeição da hipótese H0
que o valor observado. Agindo dessa maneira, se α for um valor pequeno, rejeitamos a hipótese H0 a este nível


de significância (no mínimo) e assumimos que a hipótese H1 é verdadeira; caso contrário, aceitamos que a
hipótese H0 é verdadeira. Podemos considerar como pequeno um nível descritivo de até 5%.

Exemplo 4.3. Sabe-se através de pesquisas, que o desvio padrão da produção leiteira de uma certa raça,
no Brasil, é 2,3 kg/vaca/dia. Desejando-se testar a afirmação que a produção média do rebanho leiteiro de um
certo pecuarista é superior a 6,0 kg/vaca/dia, foi sorteada uma amostra de 36 vacas, que forneceu uma média de
6,7 kg/vaca/dia. Com base neste resultado, pede-se:
a) calcular o nível descritivo do teste e concluir se a afirmação do pecuarista está correta;
b) usando o procedimento clássico, testar se a afirmação do pecuarista está correta, para α = 5% e 1%.
Resolução:
• as hipóteses envolvidas no teste são:
H0: µ = 6,0 (a afirmação do pecuarista não está confirmada)
H1: µ > 6,0 (a afirmação do pecuarista está confirmada)
• informações: x = 6,7, σ = 2,3 e n = 36
• o cálculo de α envolve o cálculo da probabilidade de ocorrerem valores de X favoráveis ao pecuarista, ou


seja, valores que nos levem a rejeitar H0, baseado na informação da amostra:
 
 6,7 − 6 
α̂ = P( X > 6,7) = P  Z >  = P(Z >1,83) = 0,0336
 2,3 
 36 
e concluímos que a afirmação do pecuarista somente estará correta se assumirmos um nível de significância
igual ou superior a 3,36%.
• para α = 5%, a RC(5%) = {z ∈ R: z > 1,65} e para α = 1%, a RC(1%) = {z ∈ R: z > 2,33}. Como o valor
zcalc = 1,83 pertence à RC(5%), mas não pertence à RC(1%), a hipótese H0 deverá ser rejeitada se assumirmos
α = 5%, mas deverá ser aceita se assumirmos α = 1%.

4.4. TESTE DE HIPÓTESE PARA A PROPORÇÃO

A seguir, apresentaremos, através de um exemplo, a construção de um teste de hipótese para a


proporção de sucessos, baseada no roteiro descrito na seção 3.1.

Exemplo 4.4. O consumidor de uma certa vacina acusou o laboratório fabricante, dizendo que "mais de
3% das suas vacinas estão vencidas". Para confirmar (ou não) sua acusação, ele usou uma amostra de n = 80
vacinas, das quais k = 4 estavam vencidas. Com base nestes resultados, pede-se:
a) O que podemos concluir sobre a acusação do consumidor, ao nível α = 0,06?
b) Calcular o nível descritivo do teste e concluir sobre a rejeição da hipótese H0.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


18

Resolução:
(a)
• H0: p = 0,03 (hipótese do fabricante)
H1: p > 0,03 (hipótese do consumidor)
 0,03(1 − 0,03) 
• sob H0, p̂ = k ~ N  0,03;  ou p̂ ~ N(0,03; 0,000364)
n  80 
• fixando α = 0,06 e assumindo H0 verdadeira, obtemos RC = {z ∈ R | z > 1,560}
0,05 − 0,03
• da amostra: p̂ = 4/80 = 0,05 ⇒ sob H0: zcalc = = 1,05
0,000364
• como zcalc ∉ RC, não rejeitamos H0 e concluímos que o consumidor não pôde confirmar a sua acusação, ao
nível de significância α = 0,06.
(b)
• α̂ = P(p > 0,05) = P(Z > zcalc) = P(Z >1,05) = 0,5 - 0,35314 = 0,147 = 14,7%, ou seja, o consumidor somente
conseguirá confirmar sua acusação, usando os resultados dessa amostra, se assumir um nível de significância
α ≥ 14,7% (que é um valor muito alto...).

5. OUTROS TESTES DE HIPÓTESES

Baseados nas distribuições de probabilidades Quiquadrado, t-Student e F-Snedecor nós definiremos


alguns testes de hipóteses envolvendo média e variância de uma ou duas populações normais.

5.1. TESTE SOBRE A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL QUANDO A VARIÂNCIA POPU-
LACIONAL É DESCONHECIDA

Quando a variância σ2 de uma população X ~ N(µ; σ2) é desconhecida, podemos estimá-la através do
estimador S2, já definido anteriormente. Porém, quando a estimativa está baseada numa amostra de tamanho
x − µ0
“pequeno”, a estatística T = não tem distribuição N(0; 1), mas sim t(n-1). Baseado no roteiro apresentado
S2 n
na seção 3.1 e nesta estatística T iremos apresentar o teste para a média de uma população normal, quando a
variância é desconhecida, através do Exemplo 5.1.

Exemplo 5.1. As mudanças observadas no teor de colesterol do sangue de coelhos após o tratamento
com um novo produto, foram medidas em 15 coelhos, cujos resultados foram: 17; 18; 22; 20; 23; 22; 21; 19; 21;
24; 22; 17; 19; 19 e 20 mg/100ml. Podemos afirmar que a mudança média no teor de colesterol foi inferior a 21
mg/100ml, ao nível de significância α = 0,05?
Resolução:
• X: "mudança no teor de colesterol no sangue de coelhos", X ~ N(µ; σ2).
• hipóteses: H0 : µ = 21 vs. H1 : µ < 21
X − 21
• estatística do teste: T = , que sob H0, tem distribuição t(14)
S2
15

• fixado α = 0,05 e assumindo H0 como


verdadeira, obtemos a região crítica do
teste fazendo:
( )
0,05 = P( X < x c = P (T < t c )
⇒ tc = -1,761 (Tábua III)
⇒ RC = {t ∈ R: t < -1,761}

Figura 9 - Valor crítico da distribuição t(14) e α = 5%

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


19

• com os dados da amostra de n = 15 animais obtemos:


∑ x i = 304 / 15 = 20,27 mg/100ml e s = ∑ (x i − 20,27 ) = 4,4952
1 15 2 1 15 2
x =
15 i=1 14 i=1
20,27 − 21
• calculamos tcalc = = -1,33 e verificamos se este valor pertence ou não à RC;
4, 4952
15
• como tcalc = -1,33 ∉ RC, não rejeitamos H0 e concluímos, ao nível α = 5%, que a mudança no teor de
colesterol do sangue de coelhos não foi inferior a 21 mg/100ml.
• um intervalo de confiança para a média com γ = 95% de confiança é obtido fazendo:
 2,1202 2,1202 
I.C.(µ; 100γ%) = 20,27 − 2,14 ; 20,27 + 2,14  = [19,10; 21,44] mg/100ml.
 15 15 

5.2 TESTE PARA A VARIÂNCIA DE UMA DISTRIBUIÇÃO NORMAL

Agora estamos interessados em testar hipóteses sobre a variância (σ2) de uma população normal que,
como sabemos, mede a dispersão dos dados em relação à média populacional. O teste é baseado na distribuição
de quiquadrado. Resumidamente temos:

1) Hipóteses: H0 : σ2 = σ 20
H1 : σ2 ≠ σ 20 (ou H1 : σ2 < σ 20 ou H1: σ2 > σ 20 )
(n − 1)S 2
2) Estatística do teste: Q = , que sob H0, tem distribuição χ (2n −1)
σ02

3) Fixado um nível de significância, α, a


região crítica para o teste bilateral é:
{
R.C. = Q < 12 ou Q > 22
 

}
onde χ e χ são os valores críticos ob-
2
1
2
2
tidos da Tábua II, tais que:

1-α = P( χ12 < Q < χ 22 ).

Figura 10 - Valores críticos do teste bilateral ao nível α.

4) Com os dados da amostra e assumindo que a hipótese H0 é verdadeira, calculamos S2 e o valor da estatística:
(n − 1)S 2
Qcalc = .
σ 20
5) Se Qcalc ∈ R.C. rejeitamos a hipótese H0 e concluímos que a hipótese H1 é verdadeira, ao nível de
significância α; se Qcalc ∉ R.C., a hipótese H0 não deverá ser rejeitada.
6) Para calcularmos um intervalo de confiança para a variância populacional de tamanho γ = 1-α usamos a
expressão:
 (n − 1)S 2 (n − 1)S2 
I.C.(σ2; 100γ%) =  ; 
 χ2 χ12 
2

Exemplo 5.2. Um fabricante de um tipo de aço especial afirma que seu produto tem um severo controle
de qualidade, traduzido pelo desvio padrão da resistência à tensão não superior a 5 kg/cm. Um comprador
querendo testar essa informação, tomou uma amostra de 11 cabos e submeteu-os a um teste de tensão, obtendo
x = 263 e s2 = 30. Esses resultados trazem alguma evidência contrária à afirmação do fabricante, ao nível de
significância α = 0,10?

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


20

Resolução:
• hipóteses: H0 : σ2 = 25 (hipótese do fabricante)
H1 : σ2 > 25 (hipótese do comprador)
(11 − 1)S 2
• estatística do teste: Q = , que sob H0 tem distribuição χ (210 ) .
25
• da Tábua II, com α = 0,10 e ν = 10 g.l. obtemos: qc = 15,987 ⇒ RC= {χ2 ∈ R: χ2 > 15,987}
(11 − 1)30
• da amostra temos que s2 = 30 e Qcalc = = 12.
25
• conclusão: como Qcalc = 12 ∉ RC, não rejeitamos H0 e concluímos, ao nível α = 0,10, que o desvio padrão da
resistência à tensão não é superior a 5 kg/cm, não trazendo evidência contrária à afirmação do fabricante.
 (11 − 1)30 (11 − 1)30 
• I.C.(σ2; γ = 90%) =   = [16,39; 76,14] (kg/cm) ou seja, este intervalo contem o verdadei-
2
;
 18 ,307 3,940 
ro valor da variância da resistência à tensão, com 90% de confiança.

5.3. COMPARAÇÃO DAS VARIÂNCIAS DE DUAS POPULAÇÕES NORMAIS

Agora, o nosso problema envolve duas populações normais e independentes: X1 ~ N(µ1; σ12 ) e X2 ~
N(µ2; σ 22 ), das quais retiramos amostras de tamanhos n1 e n2, respectivamente, com o objetivo de comparar suas
variâncias. Como o teste é baseado na distribuição F-Snedecor, temos uma restrição na escolha do nível de
significância para o teste: somente encontraremos valores críticos tabelados (Tábua IV) para testes unilaterais
com α = 0,05 ou bilaterais com α = 0,10.
O procedimento básico para a execução do teste de hipóteses comparando variâncias de duas popula-
ções normais envolve:

1) Hipóteses: H0: σ12 = σ 22 = σ2


H1: σ12 ≠ σ 22 ou H1: σ12 > σ 22 ou H1: σ12 < σ 22
2
2) Estatística do teste: F = S1 que, sob H0, tem distribuição F(n1-1,n2-1), onde S12 e S 22 são as variâncias das
S22
amostras de tamanho n1 e n2, retiradas das populações X1 e X2, respectivamente.
3) Para facilitar a construção da região crítica para o teste bilateral (α = 0,10) ou para o teste unilateral (α =
0,05) tomaremos o cuidado de colocar no numerador da estatística F a maior das duas variâncias amostrais.
Na Tábua IV obtemos o valor crítico fc, com ν1 = (n1 -1) e ν2 = (n2 -1) graus de liberdade, tal que 0,05 =
P(F > fc) e então escrevemos R.C. = {F ∈ R: F > fc}, mesmo se a hipótese alternativa for bilateral.
s12
4) Com as variâncias amostrais, s12 e s 22 , calculamos Fcalc = (por conveniência, colocamos no numerador a
s 22
maior das variâncias amostrais, ou seja, s12 > s 22 ).
5) Conclusão: se Fcalc ∈ RC rejeitamos H0 (ao nível de significância α) e aceitamos H1 como verdadeira; se Fcalc
∉ RC, aceitamos H0 como verdadeira.

Realizado o teste e não rejeitada a hipótese de igualdade das variâncias, podemos calcular uma estima-
tiva para a variância comum às duas populações, combinando as duas estimativas através da fórmula:

(n 1 − 1)S12 + (n 2 − 1)S 22
S2comum =
(n 1 + n 2 − 2)

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


21

Exemplo 5.3. Num experimento com frangos de corte alojados em boxes com 10 aves foram compa-
radas duas rações (A e B). Avaliou-se o peso médio (em kg) das aves aos 49 dias de idade. Os resultados encon-
trados foram os seguintes:
Ração A 2,10 2,34 2,24 2,07 2,10 2,03 2,20
Ração B 1,89 1,92 1,85 1,82 1,96 1,94
Baseado nesses dados podemos afirmar, ao nível de significância α = 10%, que os pesos dos dois
grupos de aves são igualmente homogêneos? Ou seja, que têm variâncias iguais ?
Resolução:
• hipóteses: H0: σ12 = σ 22 = σ2 vs. H1: σ12 ≠ σ 22
S2
• estatística do teste: F = 1 , que sob H0, tem distribuição F(6; 5).
S22
• fixando α = 0,10, da Tábua IV temos fc = 4,95 ⇒ RC = {F ∈ R: F > 4,95}
• s12 = 0,0121 e s 22 = 0,0029 ⇒ Fcalc = 0,0121/0,0029 = 4,17 e como Fcalc = 4,17 ∉ RC, não rejeitamos H0 e
concluímos, ao nível α = 10%, que as variâncias dos pesos dos dois grupos de frangos de corte são iguais.
• uma estimativa da variância (comum) dos pesos dos dois grupos de frangos de corte é:
(7 − 1) ∗ 0,0121 + (6 − 1) ∗ 0,0029
s 2comum = = 0,0079 kg2
(7 + 6 − 2)

5.4 COMPARAÇÕES DAS MÉDIAS DE DUAS POPULAÇÕES NORMAIS

Desejamos comparar as médias de duas populações: X1 ~ N(µ1; σ12 ) e X2 ~ N(µ2; σ 22 ), cujas variâncias
podem ser conhecidas ou não. As hipóteses envolvidas nas comparações entre as médias podem ser escritas:
H0: µ1 = µ2 (ou H0: µ1 - µ2 = 0)
H1: µ1 ≠ µ2 (ou H0: µ1 - µ2 ≠ 0) (hipótese bilateral)
ou H1: µ1 > µ2 (ou H0: µ1 - µ2 > 0) (hipótese unilateral à direita)
ou H1: µ1 < µ2 (ou H0: µ1 - µ2 < 0) (hipótese unilateral à esquerda)

A partir de amostras independentes de n1 elementos da população X1 e de n2 elementos da população X2


podemos estimar a média e a variância (se esta for desconhecida) de cada população usando os estimadores X e
S 2 , já conhecidos. De estudos anteriores, também já sabemos que:
a) E(X1 − X 2 ) = E (X1 ) - E (X 2 ) = µ1 - µ2
b) Var (X1 − X 2 ) = Var (X1 ) + Var (X 2 ) - 2∗Cov (X1 ; X 2 )
σ12 σ2
= + 2 - 2∗Cov (X1 ; X 2 )
n1 n2
Quando as populações X1 e X2 são independentes (Cov ( X1 ; X 2 ) = 0 ) e as variâncias σ12 e σ 22 são conhecidas, a
estatística definida por

Z =
(X 1 − X 2 ) − (µ1 − µ 2 )
σ12 σ 22
+
n1 n 2

tem distribuição N(0; 1) e deve ser utilizada nas comparações envolvendo as médias de duas populações nor-
mais. Um intervalo de confiança para a diferença entre as médias pode ser obtido através da expressão:

 σ12 σ 22 σ12 σ 22 
I.C.( µ1 - µ2; 100∗γ%) = (X1 − X 2 ) − z c + ; (X1 − X 2 )+ z c + 
 n1 n 2 n1 n 2 

onde zc é o valor crítico obtido na Tábua I, tal que γ = P(-zc < Z < zc).

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


22

Porém, é mais comum desconhecermos tanto as médias quanto as variâncias populacionais e antes de
compararmos as médias, precisamos saber se as variâncias das duas populações podem ser consideradas iguais
ou não. Se ainda não temos esta informação, podemos obtê-la através do teste apresentado na seção 5.3. Em uma
outra situação bastante comum, precisaremos comparar as médias de duas populações que não são indepen-
dentes, caso em que são feitas observações de uma variável resposta nos mesmos indivíduos ou em pares deles,
em duas situações diferentes.

5.4.1 COMPARAÇÕES ENTRE AS MÉDIAS DE DUAS POPULAÇÕES NORMAIS QUANDO AS


VARIÂNCIAS SÃO DESCONHECIDAS, MAS IGUAIS

Caso a hipótese de igualdade das variâncias seja aceita, a estatística do teste usado para comparar as
médias de duas populações normais é:

T =
(X 1 )
− X 2 − (µ1 − µ 2 )
 1 1 
S 2comum  + 

 n1 n 2 

onde S2comum é a estimativa da variância comum das duas populações. Sob H0: µ1 = µ2, a estatística T tem distri-
buição t-Student com (n1 + n2 - 2) graus de liberdade.

Um intervalo de confiança para a diferença entre as médias, µ1 e µ2, pode ser obtido por:

  1 1   1 1 
I.C.( µ1 - µ2; 100∗γ%) = (X1 − X 2 ) − t c Scomum
2
 +  ; (X1 − X 2 )+ t c Scomum
2
 +  
  n1 n 2   n 1 n 2  

onde tc é o valor crítico obtido na Tábua I, tal que γ = P(-tc < T < tc).

Exemplo 5.4 Duas soluções químicas, Q1 e Q2, vão ser avaliadas quanto ao valor do pH. A análise de
21 amostras da solução Q1 acusou um pH médio de 7,68 e desvio padrão 0,016, enquanto que a análise de 31
amostras de Q2 acusou pH médio de 7,23 e desvio padrão 0,022. Ao nível α = 1% de significância, podemos
afirmar que as duas soluções têm pH médios iguais?
Resolução:
(a) comparação das variâncias:
• hipóteses: H0: σ12 = σ 22 = σ2 vs. H1: σ12 ≠ σ 22
2
• estatística do teste: F = S2 , que sob H0, tem distribuição F com ν1 = 31-1 = 30 e ν2 = 21-1 = 20 g.l.
S12
• fixando alfa = 0,10, da Tábua IV, fc = 2,04 ⇒ RC = {F ∈ R: F > 2,04}
• das amostras: Fcalc = (0,022)2/(0,016)2 = 1,89 e como Fcalc = 1,89 ∉ RC, não rejeitamos H0 e concluímos, α =
10%, que as variâncias dos pH’s das duas soluções podem ser considerados iguais.
• uma estimativa da variância comum do pH das duas soluções é:
(31 − 1)(0,022) + (21 − 1)(0,016)
2 2
s 2comum = = 0,00039
(31 + 21 − 2)
(b) comparação das médias:
• hipóteses: H0: µ1 = µ2 vs. H1: µ1 ≠ µ2

• estatística T =
(X 1 − X 2 )− 0
, que sob H0, tem distribuição t(50).
1 1
2
S comum  + 
 21 31 
• fixando α = 0,01, da Tábua III, obtemos tc = 2,678 ⇒ R.C. = {t ∈ R: t < -2,678 ou t > 2,678}

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


23

• das amostras: Tcalc =


(7,68 − 7,23)− 0 =
0,45
= 80,645
 1 1 0,00558
0,00039 + 
 21 31 
• como Tcalc = 80,645 ∈ R.C., rejeitamos a hipótese de igualdade dos pH’s médios e concluímos, ao nível α =
1%, que os pH’s médios das duas soluções são diferentes.
 1 1
• o intervalo: I.C.(µ1-µ2; 99%) = (7,68 - 7,23) ± 2,678∗ 0,00039 +  = [0,435; 0,465] , contem a real
 21 31 
diferença entre os pH' s médios das duas soluções, com uma confiança de 99%.

5.4.2 COMPARAÇÕES ENTRE AS MÉDIAS DE DUAS POPULAÇÕES NORMAIS QUANDO AS


VARIÂNCIAS SÃO DESCONHECIDAS E DIFERENTES

Caso a hipótese de igualdade das variâncias seja rejeitada, não existe um teste exato para comparar as
médias das populações normais, mas de variâncias diferentes e desconhecidas. Este problema pode ser contorna-
do utilizando-se a estatística

T* =
(X 1 )
− X 2 − (µ1 − µ 2 )
que tem distribuição aproximada t-Student com ν graus de liberdade,
 S12 S 22 
 +  onde ν é calculado por:
n 
 1 n2 
2
 s12 s 22 
 + 
n n 2 
ν=  1
(Fórmula de Sattertweit)
2 2
 s12   s 22 
   
n   
 1  +  n2 
n1 − 1 n 2 − 1

Um intervalo de confiança aproximado para a diferença entre as médias, µ1 e µ2, pode ser obtido através
da expressão:

 S2 S 2 
I.C.*( µ1 -µ2; 100∗γ%) = (X1 − X 2 )− t ∗c 1 + 2 ; (X1 − X 2 )+ t ∗c 1 + 2 
S2 S2
 n1 n 2 n1 n 2 

onde t ∗c é o valor crítico obtido na Tábua III, tal que γ = P(- t ∗c < T*< t ∗c ), com T* ~ t(ν) e ν é calculado usando-
se a Fórmula de Sattertweit.

Exemplo 5.5. Queremos testar se os dois tipos de vigas de aço, A e B, têm a mesma resistência média
(em t/cm2), ao nível α = 5% de significância. Avaliando-se 15 vigas do tipo A e 20 vigas do tipo B, os resultados
foram:
Viga amostra média variância
A 15 70,5 81,6
B 20 84,3 246,3
Resolução:
(a) comparação das variâncias: H0: σ12 = σ 22 = σ2 vs. H1: σ12 ≠ σ 22
2
• F = SB , que sob H0, tem distribuição F(19; 14) ⇒ fixando alfa = 0,10, da Tábua IV, fc = 2,40 ⇒ RC =
S 2A
{F ∈ R: F > 2,40}
• das amostras: Fcalc = 246,3/81,6 = 3,02 ∈ RC, rejeitamos H0 e concluímos, ao nível α = 10%, que as variân-
cias das resistências dos dois tipos de vigas são diferentes.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


24

(b) comparação das médias: H0: µ1 = µ2 vs. H1: µ1 ≠ µ2


• como as variâncias populacionais foram consideradas diferentes, a estatística do teste (aproximado) é T* =
(X1 − X 2 )− 0 , que sob H0 tem distribuição t(ν), onde ν = 315,240025 ≅ 31 g.l ⇒ da Tábua III t∗ = 2,042
c
 S12 S 22  10,095893
 + 
 15 20 
 
⇒ RC = { T*∈ R: T* > 2,042}
∗ (70,5 − 84,3) − 0 −13,8
• Tcalc = = = -3,28 ∈ RC ⇒ rejeitamos a hipótese de igualdade resistências médias
 81,6 246,3  4,2137
 + 
 15 20 
e concluímos, α = 5% que as resistências médias das vigas A e B são diferentes.

 81,6 246,3 
• I.C.(µ1-µ2; 95%) = (70,5 - 84,3) ± 2,042  +  = -13,8 ± 8,60 = [− 22,4; − 5,2]t/cm2.
 15 20 

5.4.3 COMPARAÇÕES ENTRE AS MÉDIAS DE DUAS POPULAÇÕES NORMAIS QUANDO AS


OBSERVAÇÕES SÃO PAREADAS

Muitas vezes a comparação de médias de duas populações normais pode ser prejudicada pela ação de
fatores externos que não podem ser controlados. Por exemplo, um tratamento com suplementação de alfafa
(Trat-A) usado na alimentação de coelhos pode ser considerado melhor que um tratamento sem suplementação
(Trat-B), somente porque os animais escolhidos para receber o Trat-A têm maior facilidade em ganhar peso
que os animais escolhidos para receber o Trat-B e não porque a suplementação melhora o desempenho. Este
problema pode ser contornado utilizando-se um artifício que consiste em coletar as observações da variável
resposta em pares de indivíduos que sejam bastante homogêneos em todos os sentidos, exceto no que diz
respeito àquele fator (ou tratamento) que desejamos comparar. No exemplo da suplementação de alfafa em
coelhos, nós podemos utilizar pares de coelhos semelhantes quanto à raça, filiação, peso inicial, sexo e idade.
Um dos coelhos de cada par recebe o Trat-A e o outro recebe o Trat-B. Com isso, conseguimos um maior
controle de fatores secundários que podem influenciar os resultados da comparação das médias. Um outro
artifício utilizado nessas situações consiste em fazer observações da variável antes e depois da aplicação do
tratamento, nos mesmos indivíduos.
Para a comparação das médias das duas populações X ~ N(µX; σ 2X ) e Y ~ N(µY; σ 2Y ), serão utilizados n
pares de valores (Xi; Yi), para i = 1, 2, 3, ..., n. Definimos uma nova variável D = X – Y e, conseqüentemente,
teremos uma amostra de n diferenças D1, D2 , ..., Dn que serão utilizadas na comparação das médias das duas
populações. Supondo que a variável D = X − Y tenha distribuição N(µD; σ 2D ), segue que D ~ N µ D ; σ 2D n , ( )
∑ (D i − D ) .
1 2
onde σ 2D pode ser estimada utilizando-se o estimador justo S2D =
n −1
Como µD = E(X − Y) = E(X) − E(Y) = µX − µY, qualquer hipótese feita sobre o parâmetro µD correspon-
de a uma hipótese feita sobre as médias das populações X e Y. Por exemplo, as hipóteses Ho: µX = µY e H1: µX >
µY correspondem às hipóteses H0: µD = 0 e H1: µD > 0, respectivamente. Deste modo, as hipóteses a serem tes-
tadas podem ser escritas como
H0: µD = µ* (onde µ* é um valor qualquer)
H1: µD ≠ µ* ou H1: µD > µ* ou H1: µD < µ*
D − µD
e a estatística do teste é T = , que sob Ho: µD = µ*, tem distribuição t(n-1).
S 2D
n

Um intervalo de confiança para a diferença de médias µD = µX − µY, com uma confiança γ pode ser obtido
através de:
 2 2 
I.C.(µd; 100∗γ%) =  D − t c S D ; D + t c SD 
n n
 

onde tc é o valor crítico obtido da Tabela III, tal que P(-tc < T < tc) = γ, com T ~ t(n-1).

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


25

Exemplo 5.6. Com o objetivo de testar (α = 5%) se a suplementação de alfafa aumenta o ganho médio
de peso de coelhos em mais de 0,10kg, foram utilizados 8 pares de coelhos, cujos resultados foram:
Par no 1 2 3 4 5 6 7 8
X (com) 0,72 0,90 0,67 0,83 0,67 0,93 0,80 0,75
Y (sem) 0,32 0,49 0,51 0,45 0,70 0,52 0,35 0,60
D=X−Y 0,40 0,41 0,16 0,38 -0,03 0,41 0,45 0,15

Resolução:
• hipóteses: H0: µD = 0,10 vs. H1: µD > 0,10, com D = X – Y.
D − 0,10
• estatística: T = , que sob H0, tem distribuição t(7).
S 2D
8
• da Tábua III, para α = 5% = P(T > tc), tc = 1,895 ⇒ R.C. = {t ∈ R: t > 1,895}.
0,29 − 0,10
• das amostras: d = 0,29 e s 2D = 0,0305 ⇒ tcalc = = 3,08 ∈ R.C.⇒ rejeitamos a hipótese H0 e con-
0,0305
8
cluímos, ao nível de 5% de significância, que a suplementação de alfafa aumenta o ganho médio de peso de
coelhos em mais de 0,10kg.
 
• I.C.(µD; 90%) = 0,19 − 1,895 0,0305 ; 0,19 + 1,895 0,0305  = [0,073; 0,307] kg, ou seja, este intervalo
 8 8 
contem o verdadeiro aumento de ganho médio de peso de coelhos resultante da suplementação com alfafa,
com uma confiança de 90%.

6 CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES


Um problema freqüentemente encontrado na prática é o da determinação do valor de uma grandeza,
partindo do conhecimento do valor de outras, ou porque estas últimas são de mais fácil medida, ou porque estas
antecedem no tempo à primeira. Em qualquer dos casos, são utilizadas fórmulas (ou modelos) para relacionar os
valores desconhecidos e conhecidos das diversas grandezas.
Algumas destas fórmulas resultam do emprego do método dedutivo a uma série de postulados e
definições, como por exemplo, as de geometria ou da mecânica racional. Outras resultam apenas da observação.
Por exemplo: a partir de vários valores simultâneos da altura pluviométrica de um rio e sua vazão, estabelecemos
uma expressão (um modelo), relacionando as duas grandezas. As fórmulas obtidas dedutivamente são ditas
teóricas e as que resultam indutivamente das observações são ditas empíricas. A Análise de Regressão é um
metodo para o estabelecimento de fórmulas empíricas.
Um outro problema bastante freqüente é simplesmente verificarmos se duas grandezas se relacionam
entre si. Ao invés de procurarmos estabelecer modelos, buscamos quantificar o grau de relacionamento entre as
grandezas.
Na solução dos dois problemas expostos acima podemos utilizar uma ferramenta preciosa que deve nos
auxiliar a entender melhor "o que está acontecendo": o Gráfico de Dispersão. Neste tipo de gráfico plotamos os
valores das variáveis envolvidas no estudo e procuramos visualizar uma relação funcional entre elas.

6.1 CORRELAÇÃO LINEAR

Um problema de correlação surge quando queremos saber se existe alguma relação (de dependência)
entre um par de variáveis quantitativas e ao invés de procurarmos um modelo que as relacionam, buscamos
quantificar o possível relacionamento entre elas. Por exemplo, quantificar a relação entre o consumo de fumo e
incidência de doenças do coração, ou entre o peso do animal ao nascer e o seu peso ao abate.
Uma medida do grau de relacionamento entre duas variáveis quantitativas X e Y é obtida através do
Coeficiente de Correlação Linear de Pearson, que é definido por:
cov( X, Y)
ρ(X,Y) =
Var(X) ∗ Var(Y)

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


26

e pode assumir valores entre -1 e 1, isto é -1 ≤ ρ(X,Y) ≤ 1. O sinal de ρ(X,Y) indica o sentido da dependência
entre as variáveis X e Y: o sinal positivo indica que os valores de X e Y crescem no mesmo sentido, enquanto
que o sinal negativo indica que os valores de Y decrescem com o crescimento de X (ou vice-versa). Um valor de
ρ(X,Y) próximo a zero indica que não existe qualquer relação linear entre estas variáveis. Nos gráficos de
dispersão apresentados a seguir (Figura 11), idealizamos essas situações extremas e relativamente freqüentes:

ρ(X,Y) ≅ +1 ρ(X,Y) ≅ -1 ρ(X,Y) ≅ 0

Figura 11. Gráficos de dispersão e coeficientes de correlação.

Como geralmente não temos acesso a todos os resultados possíveis das duas variáveis X e Y, podemos
sortear uma amostra de n pares de valores (x, y) e estimar o coeficiente de correlação linear de Pearson através
da fórmula:

n  n 
 ∑ X i  ∑ Yi 
∑ (X i − X )(Yi − Y ) ∑ X i Yi − 
n n
i =1  i=1 
r(X,Y) = i =1
= i =1 n

∑ (X − X ) ∑ (Yi − Y )
n 2 n 2   n

2
  n  
2
i n ∑ i    n
X ∑ i  
Y
∑ X 2 −  i=1   ∑ Y 2 −  i=1  
i =1 i =1

 i=1 i
n   i=1 i
n 
  
  

Nos testes de hipóteses sobre o parâmetro ρ(X,Y) usamos o valor de r(X,Y), como sua melhor estimativa. Os
testes mais comuns são:

Teste de independência das variáveis X e Y:


• hipóteses: H0: ρ(X,Y) = 0 vs. H1: ρ(X,Y) ≠ 0

r(X, Y ) ∗ (n − 2)
• estatística: t = , que sob H0, tem distribuição t(n-2).
(1 − r 2
( X, Y) )
Teste H0: ρ(X,Y) = ρ0 (onde -1< ρ0 < 1 e ρ0 ≠ 0, é um número real):
• hipóteses: H0: ρ(X,Y) = ρ0 vs. H1: ρ(X,Y) ≠ ρ0 (H1: ρ(X,Y) > ρ0, ou H1: ρ(X,Y) < ρ0)
z − µz
• estatística: Z = (transformada Z de Fisher), que sob H0, tem distribuição N(0; 1) e
σz
1  1 + r (X, y)  1  1 + ρ0  1
z= Ln  , µ = Ln  e σ =
2  1 − r ( X, Y)  Z 2  1 − ρ0 
Z
(n − 3)

Exemplo 6.1 Com o objetivo de estudar a relação entre o peso médio de coelhos ao abate (Y), em
quilogramas, e o tamanho de ninhada (X), foram coletados na granja do Campus os dados apresentados a seguir.
X 4 8 6 1 7 3 7 5
Y 2,125 1,980 2,270 2,300 1,880 2,320 1,860 2,050
Com base nesses dados, pede-se:
(a) calcular o coeficiente de correlação;
(b) testar a independência entre as variáveis X e Y, ao nível de significância de 5%.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


27

Resolução:
(a)
2,40

2,30

Peso médio ao abate (kg)


2,20

2,10

2,00

1,90

1,80
0 1 2 3 4 5 6 7 8 9

Tamanho da ninhada

Figura 12 Gráfico de dispersão do peso médio de coelhos ao abate e tamanho de ninhada.

• Uma dependência linear negativa entre o tamanho da ninhada e o peso médio de coelhos ao abate pode ser
visualizado na Figura 12. Para estimar o coeficiente de correlação, usaremos
8 8 8 8 8
∑ X i = 41; ∑ X i = 249; ∑ Yi = 16,785; ∑ Yi = 35,458 e ∑ X i Yi = 83,650
2 2

i =1 i =1 i =1 i =1 i =1

(41)(16,785)
83,650 −
8 −2,373
⇒ r(X,Y) = = = -0,775
 (41)   (16,785)  2 2 3,061
249 −  35,458 − 
 8  8 
confirmando a existência da dependência linear negativa e relativamente alta entre o peso médio de coelhos
ao abate e o tamanho de ninhada, significando que quanto maior ninhada, menor é o peso médio ao abate.

(b)
• hipótese: H0: ρ(X,Y) = 0 (independência)
H1: ρ(X,Y) ≠ 0
r ( X, Y) 8 − 2
• sob H0, a estatística t = tem distribuição t(6).
[1 − r 2 (X, Y)]
• da Tábua III, tc = 2,45 ⇒ R.C. = {t ∈ R: t > 2,45}
− 0,775 6
• com os dados amostrais, calculamos tcalc = = -3,00 ∈ RC ⇒ rejeitamos a hipótese H0 e con-
1 − (−0,775) 2
cluímos, ao nível de significância de 5%, que as variáveis X e Y não são independentes, ou ainda, que existe
uma dependência linear negativa entre o peso médio de coelhos ao abate e o tamanho da ninhada.

Exemplo 6.2 Com o intuito de testar a hipótese de que a correlação entre o ganho de peso e a quanti-
dade de matéria seca ingerida por bovinos da raça Nelore é superior a 0,70, foram utilizados os dados de um
experimento com 18 desses animais, resultando em r(X,Y) = 0,81. O que podemos concluir ao nível de signifi-
cância de α = 1%?
Resolução:
• hipóteses: H0: ρ(X,Y) = 0,70 vs. H1: ρ(X,Y) > 0,70
z − µz 1  1 + 0,70  1
• sob H0, a estatística Z = ~ N(0; 1), com µZ = Ln  = 0,8673 e σZ = = 0,2582.
σz 2  1 − 0,70  (18 − 3)
• da Tábua I, para α = 1%, zt = 2,33 ⇒ R.C. = {Z ∈ R: Z > 2,33}

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


28

1  1 + 0,81  1,1270 − 0,8673


• da amostra: z = Ln  = 1,1270 e Zcalc = = 1,01 ∉ RC ⇒ não rejeitamos H0 e con-
2  1 − 0,81  0,2582
cluímos (α=1%) que a correlação entre o ganho de peso e a quantidade de matéria seca ingerida por bovinos
da raça Nelore não é superior a 0,70.

6.2 REGRESSÃO LINEAR SIMPLES

Existem situações em que desejamos estudar o comportamento conjunto de duas ou mais variáveis,
como por exemplo: relacionar o peso do animal com sua idade, a quantidade de adubo com a produção de
matéria seca, etc. Quando o interesse está em procurar expressar essa relação sob a forma de uma equação
matemática, estamos fazendo uma Análise de Regressão. Essa equação de regressão pode ser um polinômio
(uma reta, parábola ou um polinômio de grau mais elevado), uma função do tipo exponencial (curva logística, de
Gompertz ou von Bertalanfy) etc.
Nesta aula estudaremos o ajuste de uma reta em problemas envolvendo somente duas variáveis: Y,
denominada variável dependente e X, denominada variável independente ou covariada. Para visualizar a relação
funcional entre essas variáveis construímos um Gráfico de Dispersão. A distribuição dos pontos no gráfico pode
sugerir qual função explica bem o comportamento dos dados.

Exemplo 6.3 Determinar a reta que relaciona a Absorbância (Y) com a concentração de nitrito (X, em
mg/100ml) em amostras de mortadela. Os dados experimentais são:
X: nitrito 0,5 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Y: Absorbância 0,040 0,078 0,145 0,215 0,300 0,340 0,395 0,460 0,560 0,715

.
0,8

0,7

0,6

0,5
Absorbância

0,4

0,3

0,2

0,1

0,0
0 1 2 3 4 5 6 7 8 9 10

Quantidade de nitrito (mg/100ml)

Figura 13 Gráfico de dispersão dos dados de Absorbância e quantidade de nitrito.

Analisando a Figura 13, podemos concluir que a relação entre X e Y pode ser explicada por uma reta
(função linear), cuja equação é Y = a + bX. Teoricamente, esta reta deve passar pela origem significando que
para uma quantidade de nitrito na solução nula, a absorbância também será nula.
Tendo decidido que uma reta explica bem a relação funcional entre X e Y‚ precisamos calcular os
valores dos seus coeficientes linear e angular. Isso pode ser feito, por exemplo, à mão livre, traçando-se uma reta
que "passe pelo meio dos pontos", e a partir desta reta obter um valor para o coeficiente "a", que é o intercepto
do eixo das ordenadas (que esperamos, seja nulo) e outro valor para o coeficiente "b" = ∆y/∆x, que é o coefici-
ente angular da reta. Porem, este método tem o inconveniente de observadores diferentes obterem valores dife-
rentes para os coeficientes...
A seguir, definiremos um método de estimação que independe do usuário e sempre fornece as melhores
estimativas dos coeficientes de uma reta de regressão.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


29

6.2.1 O MODELO PARA REGRESSÃO LINEAR SIMPLES

Dados n pares de valores: (X1, Y1), (X2, Y2), ...,(Xn, Yn) podemos estabelecer uma regressão linear
simples através do modelo:
Yi = a + bXi + ei

onde a e b são os parâmetros da reta e ei é o erro associado à Yi. Ao estabelecer este modelo, pressupomos que:
(a) a relação entre X e Y é linear;
(b) os valores da variável X não são sujeitos a erros (são fixos);
(c) a média dos erros é nula, isto é, E(ei) = 0;
(d) para um dado valor Xi, a variância do erro é constante e igual a σ2, denominada variância residual, isto é,
Var(ei) = σ2;
(e) a correlação entre os erros de duas observações é nula, isto é, Corr(ei,ej) = 0, para i ≠ j;
(f) os erros têm distribuição normal, isto é, ei ~ N(0, σ2).

As estimativas dos parâmetros da reta são obtidas através do Método dos Mínimos Quadrados (MMQ),
que consiste em "obter estimativas de a e de b, que minimizam a soma dos quadrados dos erros", ou seja, que
minimizam a função
SQE = ∑ (Yi − a − bX i )
n
2

i =1
Para obtermos o mínimo desta função derivamos parcialmente SQE em relação aos parâmetros a e b:
∂SQE
= ∑ (Yi − a − bX i )(−2)
n

∂a i =1

∂SQE
= ∑ (Yi − a − bX i )(−2X i )
n

∂b i =1
Igualando essas derivadas a zero (para calcular os pontos críticos!), vamos procurar os estimadores de a
e b que satisfazem o seguinte Sistema de Equações Normais:

 n n

 ∑ Yi = nâ + b̂∑ X i
n =
i 1 i =1
n n
∑ X i Yi = â ∑ X i + b̂∑ X i2
 i=1 i =1 i =1

Resolvendo o sistema (duas equações e duas incógnitas), obtemos os seguintes estimadores de mínimos
quadrados dos parâmetros do modelo:

n n

n n ∑ X i ∑ Yi
∑ (X i − X )(Yi − Y ) ∑ X i Yi − i =1 i =1

b̂ = i =1
= i =1 n
n 2
∑ (X i − X )
2 n 
 ∑ Xi 
∑ X 2i − 
i =1 n
i =1 
i =1 n

â = Y − b̂X

Com os valores de â e b̂ , a observação Yi pode ser estimada por: Ŷi = â + b̂X i e o resíduo de regressão pode
ser calculado por: ê i = Yi − Ŷi = Yi − ( â + b̂X i ).
10 10 10 10 10
Do Exemplo 6.3, temos: ∑ X i = 45,5; ∑ X 2i = 285,25; ∑ Yi = 3,240; ∑ Yi2 = 1,473 e ∑ X i Yi =
i =1 i =1 i =1 i =1 i =1
20,438. Com esses valores calculamos as estimativas dos parâmetros da reta de regressão:
(45,5 ∗ 3,248)
20,438 −
10 5,6596 3,248
b̂ = = = 0,07235 e â = - (0,0724)(4,55) = −0,0044
(45,5) 2 78,2250 10
285,25 −
10
Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>
30

⇒ a reta que melhor se ajusta aos dados é: Ŷi = −0,0046 + 0,07235Xi.

O coeficiente angular da reta (0,07235) pode ser entendido como o número de unidades que será acrescido a Y,
quando X sofrer um acréscimo de 1 mg/100ml; já o intercepto (-0,0044) pode ser entendido como a absorbância
de uma concentração nula de nitrito.

A qualidade do ajuste de uma regressão pode ser avaliada através de gráficos de resíduos e do
coeficiente de determinação. O Coeficiente de Determinação pode ser calculado através da fórmula:
n
∑ ( X i − X)
2

2
R = b̂ ()
2
i =1
n
, com 0 ≤ R2 ≤ 1
∑ (Yi − Y )
2

i =1

e quanto mais próximo de 1 (um) estiver o valor de R2, melhor é a qualidade do ajuste.


Pelas pressuposições do modelo, esperamos que os pontos (Xi; e i ) estejam distribuídos aleatoriamente
em relação à reta X = 0, sem apresentar qualquer tendência. Porém, se os resíduos apresentarem alguma tendên-
cia, quadrática, por exemplo, deveremos propor um novo modelo que inclua um componente quadrático, do tipo
c X 2i , ajustar este novo modelo e estudar a qualidade do ajuste deste novo modelo.
O gráfico de dispersão dos resíduos também serve para evidenciar a presença de pontos discrepantes
(resultantes de grandes erros de medidas, de digitação etc.) que, após um estudo mais detalhado, poderão até ser
excluídos do conjunto de dados originais.

78,2250
No Exemplo 6.3, o valor de R2 = (0,07235) 2 = 0,97 (verifique!) indica que a relação entre a
0,42324
concentração de nitrito e a absorbância está muito bem explicada pela reta. Para construir o gráfico de dispersão
(Xi; ê i ), calculamos os valores ajustados Ŷi = −0,0044 + 0,07235 X i e os resíduos do ajuste, ê i = Yi − Ŷi :

Xi 0,5 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

Yi 0,0400 0,0780 0,1450 0,2150 0,3000 0,3400 0,3950 0,4600 0,5600 0,7150

Ŷi 0,0318 0,0680 0,1403 0,2127 0,2850 0,3574 0,4297 0,5021 0,5744 0,6468
ê i 0,0082 0,0100 0,0047 0,0023 0,0150 -0,0174 -0,0347 -0,0421 -0,0144 0,0682

0,08

0,06
ponto
0,04 discrepante (?)

0,02
Resíduo

0,00

-0,02

-0,04

-0,06

-0,08
0 1 2 3 4 5 6 7 8 9 10

Quantidade de nitrito (mg/100ml)

Figura 14 - Gráfico dos resíduos vs. quantidade de nitrito.

Através do gráfico de dispersão dos resíduos (Figura 14) podemos perceber que o comportamento dos
resíduos não é “bem” aleatório e que ponto (9,0; 0,715) tem um resíduo grande, sendo um candidato a ponto
discrepante. Como alternativas para continuar a análise podemos:
(i) excluir o ponto (9,0; 0,715) e ajusta novamente uma reta aos dados (fica como exercício), ou
(ii) manter este ponto e incluir algum termo quadrático no modelo (o que é mais trabalhoso!).

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


31

6.2.2. INFERÊNCIA SOBRE OS ESTIMADORES DOS PARÂMETROS DA RETA DE RE-


GRESSÃO

Quanto aos estimadores dos parâmetros da regressão, pode-se provar que:

(i) â e b̂ são estimadores justos ou não viesados dos parâmetros a e b, respectivamente, o que quer dizer:
E( â ) = a e E( b̂ )= b.

(ii) as variâncias e covariâncias dos estimadores são:

 
 
1 X2 σ2 −X
Var( â ) = σ  + n
2  , Var( b̂ ) = e Cov( â , b̂ ) =
n 
 ∑ (X i − X ) 2 ∑ (X i − X ) 2
∑ (X i − X )
2

 i =1 
1 n
que podem ser estimadas, substituindo-se σ2 por S2 = ∑ (Yi − Ŷi ) 2
(n − 2) i=1
(iii) Intervalos de Confiança para os parâmetros da reta:

 
 
1 X2
I.C.(a; 100∗γ%) = â ± tc S  + n
2 
n 
 ∑ (X i − X ) 2 
 i =1 

S2
I.C.(b; 100∗γ%) = b̂ ± tc n
,
∑ (X i − X ) 2

i =1

onde tc é o valor crítico obtido da Tábua III, tal que γ = P(-tc ≤ T ≤ tc) e T ~ t(n-2).

(iv) Intervalo de Predição: Para um valor Xp, que pertence ao domínio da variável X mas não foi usado na esti-
mação de â e b̂ podemos calcular Ŷp = â + b̂ Xp e um intervalo de confiança para Yp, chamado Intervalo de
Predição, utilizando:

 

1 Xp − X(2
) 
I.C.( Yp; 100∗γ%) = Ŷp ± tc S  + n
2 
n 
 ∑ (X i − X ) 2 
 i =1 

(v) Teste de hipótese para os parâmetros da reta de regressão.

Intercepto: H0: a = a0 vs. H1: a ≠ a0 (ou H1: a < a0 ou H1: a > a0)
â − a 0
• Estatística do teste: T = , que sob H0, tem distribuição t(n-2).
 
 
1 X2
S2  + n 
n 2 
 ∑ (X i − X ) 
 i =1 

Coeficiente angular: H0: b = b0 vs. H1: b ≠ b0 (ou H1: b < b0 ou H1: b > b0)
b̂ − b 0
• Estatística do teste: T = , que sob H0, tem distribuição t(n-2).
S2
n
∑ ( X i − X) 2
i =1

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


32

Aproveitando os dados do Exemplo 6.3, vamos estimar a variância, calcular um intervalo de confiança
para a inclinação da reta (γ = 95%) , um intervalo de predição para Xp = 9,5 mg/100ml e testar a hipótese de que
o intercepto da reta é nulo, ao nível de 5% de significância.
Resolução:
1
• s2 = 0,00856 = 0,0011
10 − 2

= 0,07235 ± 0,00865 = [0,0637; 0,0810] , ou seja, este intervalo


0,0011
• I.C.(b; 95%) = 0,07235 ± 2,306
78,2250
contem o verdadeiro valor da inclinação da reta, com uma confiança de 95%.

 1 (9,5 − 4,55) 2 
• Para Xp = 9,5, I.C.(Yp; 95%) = 0,6832 ± 2,306  +  ∗ 0,0011 = 0,6834 ± 0,0492
10 78,2250 
⇒ I.C.(Yp; 95%) = [0,6342; 0,7326]

• Hipóteses: H0: a = 0 vs. H1: a ≠ 0


â − 0
Estatística do teste: T = , que sob H0, tem distribuição t(8).
 
 
1 + X2  ∗ S2
 n 10 
∑ (X i − X )
2
 
 i =1 
Para α = 5%, tc = 2,306 ⇒ R.C. = {T ∈ R: T > 2,306}
−0,0044 − 0 −0,0044
Da amostra: Tcalc = = = -0,22 ∉ R.C. ⇒ não rejeitamos H0 ao nível α
 1 (4,55) 2  0,0200
 +  ∗ 0,0011
 10 78,2250 
= 5% e concluímos que o intercepto da reta pode ser considerado nulo.

7. TESTES DE QUI-QUADRADO
Até a aula anterior, vimos como testar hipóteses sobre um parâmetro (populacional) ou mesmo sobre a
comparação de parâmetros de duas populações normais. Vamos agora, estudar alguns testes que não dependem
dos parâmetros nem de suas respectivas estimativas.

7.1 TESTE DE ADERÊNCIA, AJUSTAMENTO OU ADEQUAÇÃO DE UM MODELO

Como já foi evidenciado anteriormente, os resultados amostrais nem sempre concordam exatamente
com os resultados teóricos esperados, o que é parcialmente justificado pelas leis probabilísticas.
Suponhamos uma amostra de n elementos de uma determinada população. Seja E1, E2, ..., Ek um
conjunto de eventos e Fo1, Fo2, ..., Fok suas respectivas freqüências observadas na amostra. Podemos estabelecer
algumas hipóteses sobre as freqüências observadas e as freqüências esperadas ou teóricas Fe1, Fe2, ..., Fek e
verificar se essas freqüências (observadas e esperadas) diferem significativamente entre si através de um teste de
hipótese. Neste caso, iremos efetuar um teste de aderência, adequação ou ajustamento de um modelo teórico. As
hipóteses a serem testadas podem ser escritas como:
H0: o modelo teórico se adeqüa bem aos dados.
H1: o modelo teórico não se adeqüa bem aos dados.
Uma medida de discrepância entre as freqüências Foi e Fi é proporcionada pela estatística

Q= ∑
k (Foi − Fei )2 =
(Fo1 − Fe1 )2 +
(Fe 2 − Fe 2 )2 + ... +
(Fok − Fek )2
i =1 Fei Fe1 Fe 2 Fek

que, sob H0, tem distribuição quiquadrado com ν graus de liberdade, onde
Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>
33

i) ν = k −1, se as freqüências esperadas puderem ser calculadas sem que sejam feitas estimativas de parâmetros.
ii) ν = (k − 1) −m, se para a determinação das freqüências esperadas for necessário estimar m parâmetros a
partir das distribuições amostrais.
Note que valores pequenos da estatística Q ocorrerão sempre que as discrepâncias entre Foi e Fei forem
pequenas, indicando uma boa adequação do modelo proposto. O teste de hipóteses é feito de maneira tradicional
e a decisão será tomada com base no valor da estatística Q, calculada a partir dos valores observados. Assim, a
rejeição da hipótese H0 ocorrerá quando o valor Qcalc > Qc, onde Qc é um valor crítico encontrado na Tábua II. As
limitações impostas ao uso dos testes de Quiquadrado são:
i) Só deve ser usado quando o tamanho da amostra n > 20;
ii) A menor das freqüências esperadas Fei não pode ser inferior a 1 (um);
iii) Se alguma classe apresentar Fei < 5, esta deve ser agrupada à classe mais próxima.

Exemplo 7.1 Na descendência obtida de cruzamentos entre plantas com sementes amarelas lisas e outras
sementes verdes rugosas, obtemos na primeira geração (F1) ervilhas amarelas lisas. Estas ervilhas cruzadas entre
si, dão uma geração F2 com ervilhas de 4 tipos. Pela teoria mendeliana, esses tipos de ervilhas deverão aparecer
nas proporções 9:3:3:1, respectivamente. Ao nível de 5% de significância, podemos afirmar que as freqüências
observadas apresentadas na tabela a seguir estão de acordo com essa teoria?
Amarela Verde
lisa rugosa lisa rugosa
315 101 108 32
Resolução:
• Hipóteses: H0: os tipos de ervilhas aparecem na proporção 9:3:3:1,
H1: os tipos de ervilhas não aparecem na proporção 9:3:3:1
• com base no modelo teórico calculamos as freqüências esperadas:
9 3 1
Fe1 = 556 = 312,75; Fe2 = Fe3 = 556 = 104,25 e Fe4 = 556 = 34,75
16 16 16
(315 − 312,75) 2 (101 − 104,25) 2 (108 − 104,25) 2 (32 − 34,75) 2
⇒ Qcalc = + + + = 0,48
312,75 104,25 104,25 34,75
• para α = 5% e ν = 4-1 = 3 g.l. ⇒ R.C. = {Q ∈ R: Q > 7,82}
• como Qcalc < 7,82, não rejeitamos H0 ao nível α = 5% e concluímos que os dados concordam com a hipótese
de que os tipos de ervilhas ocorrem na proporção 9:3:3:1.

Exemplo 7.2 Verificar se podemos assumir que a altura dos alunos do curso de Zootecnia (variável X) tem dis-
tribuição normal (com α = 5%), a partir dos dados amostrais apresentados na tabela a seguir:
Altura (cm) Foi
150  156

4
156  162

12
162  168

22
168 
174

40
174  180

20
180  186

2
Total 100
Resolução:
• Hipóteses: H0: X ~ N(µ; σ2)
H1: X não tem distribuição N(µ; σ2)
• Como não conhecemos os valores dos parâmetros da distribuição normal, devemos estimá-los a partir dos
dados amostrais: x = 168,96 e s2 = 44,5236 (verifique!).

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


34

• Para obtermos o valor das freqüências esperadas, Fei, primeiramente, calculamos a probabilidade de ocorrên-
cia de um aluno com altura (X) em cada uma das 6 classes de freqüência. Para tanto, padronizamos os limites
inferior e superior das k = 6 classes e usamos a Tábua I para calcular as probabilidades. Por exemplo, para a
primeira classe:
P(X <156) = P(Z < -1,94) = 0,0260 ⇒ Fe1 = 100(0,0260) = 2,60.
Como Fe1 < 5, iremos agrupar as duas primeiras classes de freqüências, ficando com 5 classes e a “nova” pri-
meira classe (150 162) com Fo1 = 16 e P(X < 162) = 0,1484 ⇒ Fe1 = 14,8 (verificar!). As probabilidades e


freqüências esperadas estão apresentadas na tabela a seguir:

Altura (cm) Foi P(li < X < ls) Fei


150  162

16 0,1484 14,8
162  168

22 0,2944 29,4
168  174

40 0,3323 33,2
174  180

20 0,1760 17,6
180 186
2 0,0489 4,9
Total 100 1,0000 100,00
Vale observar que para a última classe, foi calculado P(X>180) e que, apesar de Fe5 ≅ 5, os dados desta classe
não foram agrupados com os da classe anterior.
(16 − 14,8) 2 (22 − 29,4) 2 (2 − 4,9) 2
• Qcalc = + + ... + = 5,40
14,8 29,4 4,9
• para α = 5% e ν = (5 - 1) - 2 = 2 g.l. ⇒ R.C. = {Q ∈ R: Q > 5,99}
• como Qcalc ∉ R.C., não rejeitamos a hipótese H0 ao nível de significância de 5% e podemos concluir que a
altura dos alunos de Zootecnia tem distribuição normal.

7.2. TESTES EM TABELAS DE CONTINGÊNCIA

Uma importante aplicação do teste de Quiquadrado ocorre quando queremos estudar a relação entre
duas ou mais variáveis de classificação. Neste caso, a representação das freqüências observadas pode ser feita
utilizando-se uma tabela de contingência. Considerando-se dois critérios de classificação teremos tabelas de
dupla entrada e, genericamente, tabelas de classificação LxC, onde L = número de linhas e C = número de
colunas.
A cada freqüência observada em uma tabela de contingência teremos uma freqüência esperada, que será
calculada com base na hipótese H0 e de acordo com as regras das distribuições conjuntas de probabilidades.
Para investigar a concordância entre as freqüências observadas (Foij) e as esperadas (Feij) utilizamos a
estatística,

L C (F − Feij )
2

Q = ∑∑
oij

i =1 j=1 Feij

que sob a hipótese H0, Q ~ χ ν2 , isto é, tem distribuição quiquadrado com ν graus de liberdade, onde
i) ν = (L−−1)(C−
−1) se as freqüências esperadas forem calculadas sem a necessidade de estimar qualquer parâ-
metro;
ii) ν = (L−
−1)(C−
−1) − m se as freqüências esperadas só puderem ser calculadas estimando-se m parâmetros.

Vale observar que os testes de hipóteses associados às tabelas de contingências estão sujeitos às mesmas
limitações de aplicação de um teste de aderência, já definido anteriormente.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


35

7.2.1 TESTE DE HOMOGENEIDADE

O teste de homogeneidade é usado quando pretendemos saber se os dados associados aos atributos de
uma das variáveis se comporta de modo homogêneo ou similar nas diversas classes ou subpopulações definidas
pelos atributos da outra variável classificatória.

Exemplo 7.3 Testar se a proporção de vacas fecundas é igual nos quatro grupos raciais, ao nível de
significância de 5%, utilizando os dados apresentados a seguir.
Acasalamentos
Natureza das vacas Totais
fecundos infecundos
Charolesa 515 1287 1802
Indubrasil 506 665 1171
Nelore 58 70 128
1/2Charoles-Zebú 205 93 298
Totais 1284 2115 3399

Resolução:
• Hipóteses: H0: existe homogeneidade de fecundidade entre os grupos
H1: não existe homogeneidade de fecundidade entre os grupos
• Assumindo que o número de vacas fecundas é igual nos quatro grupos raciais, esperamos obter 1284/3399 =
37,78% de acasalamentos fecundos. Neste caso, 37,78% do total dos acasalamentos (1802 com vacas
Charoles, 1171 com vacas Indubrasil, 128 com vacas Nelore e 298 com vacas 1/2Charoles-Zebú) devem ser
fecundos. Conseqüentemente, esperamos também obter 62,22% de acasalamentos infecundos.
• A freqüência esperada referente a i-ésima linha (Natureza das vacas) e j-ésima coluna (Tipo de
Acasalamento) pode ser calculada de uma maneira mais simples, através de:
(Foi • )(Fo• j )
Feij = , para i = 1, 2, 3, 4 e j = 1, 2
Fo••
onde Foi• é o total das freqüências observadas na i-ésima linha; Fo•j é o total das freqüências observadas na j-
ésima coluna e Fo•• é o total das freqüências observadas. A partir dessa fórmula, calculamos as Feij que estão
(1284,1)(1802)
apresentadas na tabela a seguir. Note, por exemplo, que 680,8 = = (0,3778)(1802) e que
3398,9
(2114,8)(1802)
1121,2 = = (0,6222)(1802)
3398,9

Acasalamentos
Natureza das vacas fecundos infecundos Totais
Charolesa 680,8 1121,2 1802,0
Indubrasil 442,4 728,6 1171,0
Nelore 48,3 79,6 128,9
1/2Charoles-Zebú 112,6 185,4 298,0
Totais 1284,1 2114,8 3398,9

(515 − 680,8) 2 (1287 − 1121,2) 2 (93 − 185,4) 2


• Q calc = + + ... + = 204,57
680,8 1121,2 185,4
• como α = 5% e sob H0, Q ~ χ ν2 onde ν = (4-1)(2-1) = 3 g.l., R.C. = {Q ∈ R: Q > 7,82}
• como Q calc > 7,82, rejeitamos a hipótese H0 (α = 5%) e concluímos que a fecundidade não é homogênea nos
grupos raciais estudados. Ou ainda, que as proporções de acasalamentos fecundos e infecundos são diferentes
entre estes grupos raciais.

7.2.2 TESTE DE INDEPENDÊNCIA

O teste de independência é usado quando o pesquisador está interessado em testar o grau de dependên-
cia ou de associação entre as variáveis classificatórias, cujos atributos, neste caso, não identificam, necessária-

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


36

mente diferentes classes ou subpopulações. Uma medida do grau de associação ou de dependência entre as
variáveis classificatórias em uma tabela de contingência é dada pelo Coeficiente de Contingência, calculado
através da fórmula:

Q calc
C= , com 0 ≤ C ≤ 1 e quanto mais próximo de 1 (um) estiver o valor de C, maior será
Q calc + n o grau de associação entre as variáveis.
Exemplo 7.4 Baseado nos conceitos finais obtidos por 435 alunos nas disciplinas de Estatística e
Cálculo Diferencial e Integral, apresentados na tabela a seguir, testar a hipótese de que os resultados obtidos em
Estatística independem dos resultados obtidos em Cálculo, ao nível de significância de 2,5%.

Estatística
Cálculo A B C Total
A 75 (33,7) 35 (63,6) 13 (25,7) 123
B 29 (49,5) 120 (93,6) 32 (37,9) 181
C 15 (35,8) 70 (67,8) 46 (27,4) 131
Total 119 225 91 435

Resolução:
• Hipóteses: H0: os conceitos finais em Estatística independem dos conceitos em Cálculo
H1: existe dependência entre os dois conceitos
• Assumindo independência entre os conceitos, a freqüência esperada referente a i-ésima linha (conceito em
Cálculo) e j-ésima coluna (conceito em Estatística) é calculada por:
(Foi • )(Fo• j )
Feij = , para i = 1, 2, 3 e j = 1, 2, 3
Fo••
onde Foi• é o total das freqüências observadas na i-ésima linha; Fo•j é o total das freqüências observadas na j-
ésima coluna e Fo•• é o total das freqüências observadas. A partir dessa fórmula, calculamos as Feij que estão
apresentadas entre parêntesis na Tabela n3.
(75 − 33,7) 2 (35 − 63,6) 2 46 − 27,4) 2
• Q calc = + + ... + = 111,39
33,7 63,6 27,4
• como α = 2,5% e sob H0, Q ~ χ ν2 onde ν = (3-1)(3-1) = 4 g.l. ⇒ R.C. = {Q ∈ R: Q > 11,144}
• como Q calc > 11,144, rejeitamos H0 (α = 2,5%) e concluímos que existe uma dependência entre os conceitos
finais de Cálculo e de Estatística.
111,39
• uma medida do grau de dependência entre os dois conceitos é estimada por: C = = 0,50, que
111,39 + 435
não é um valor numericamente muito alto.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


37

DISTRIBUIÇÕES DE PROBABILIDADES

TÁBUA I. NORMAL PADRÃO

TÁBUA II. QUI-QUADRADO

TÁBUA III. t DE STUDENT

TÁBUA IV. F-SNEDECOR

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


38

TÁBUA I: DISTRIBUIÇÃO NORMAL REDUZIDA- N(0; 1)

Probabilidades p tais que p = P(0 < Z < Zc)

SEGUNDA DECIMAL DE Zc
Zc 0 1 2 3 4 5 6 7 8 9 Zc
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,0
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,1
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,2
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,3
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,4
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,5
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,6
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,7
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3079 0,3106 0,3133 0,8
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 0,9
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,0
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,1
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,2
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,3
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,4
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,5
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,6
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,7
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,8
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 1,9
2,0 0,4773 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,0
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,1
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,2
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,3
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,4
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,5
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,6
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,7
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,8
2,9 0,4981 0,4982 0,4983 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 2,9
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,0
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 3,1
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,2
3,3 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,3
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 3,4
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,5
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,6
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,7
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,5000 3,8
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 3,9
4,0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 4,0

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


39
TÁBUA II: DISTRIBUIÇÃO QUI-QUADRADO COM ν GRAUS DE LIBERDADE

Valores qc tais que p = P(Q > qc)

PROBABILIDADES p
ν 0,990 0,980 0,975 0,950 0,900 0,800 0,700 0,500 0,300 0,200 0,100 0,050 0,040 0,030 0,025 0,020 0,010 0,005 0,001
1 0,000 0,001 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,706 3,841 4,218 4,709 5,024 5,412 6,635 7,879 10,828
2 0,020 0,040 0,051 0,103 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 6,438 7,013 7,378 7,824 9,210 10,597 13,816
3 0,115 0,185 0,216 0,352 0,584 1,005 1,424 2,366 3,665 4,642 6,251 7,815 8,311 8,947 9,348 9,837 11,345 12,838 16,266
4 0,297 0,429 0,484 0,711 1,064 1,649 2,195 3,357 4,878 5,989 7,779 9,488 10,026 10,712 11,143 11,668 13,277 14,860 18,467
5 0,554 0,752 0,831 1,145 1,610 2,343 3,000 4,351 6,064 7,289 9,236 11,070 11,644 12,375 12,833 13,388 15,086 16,750 20,515
6 0,872 1,134 1,237 1,635 2,204 3,070 3,828 5,348 7,231 8,558 10,645 12,592 13,198 13,968 14,449 15,033 16,812 18,548 22,458
7 1,239 1,564 1,690 2,167 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,067 14,703 15,509 16,013 16,622 18,475 20,278 24,322
8 1,646 2,032 2,180 2,733 3,490 4,594 5,527 7,344 9,524 11,030 13,362 15,507 16,171 17,010 17,535 18,168 20,090 21,955 26,125
9 2,088 2,532 2,700 3,325 4,168 5,380 6,393 8,343 10,656 12,242 14,684 16,919 17,608 18,480 19,023 19,679 21,666 23,589 27,877
10 2,558 3,059 3,247 3,940 4,865 6,179 7,267 9,342 11,781 13,442 15,987 18,307 19,021 19,922 20,483 21,161 23,209 25,188 29,588
11 3,053 3,609 3,816 4,575 5,578 6,989 8,148 10,341 12,899 14,631 17,275 19,675 20,412 21,342 21,920 22,618 24,725 26,757 31,264
12 3,571 4,178 4,404 5,226 6,304 7,807 9,034 11,340 14,011 15,812 18,549 21,026 21,785 22,742 23,337 24,054 26,217 28,300 32,910
13 4,107 4,765 5,009 5,892 7,042 8,634 9,926 12,340 15,119 16,985 19,812 22,362 23,142 24,125 24,736 25,471 27,688 29,819 34,528
14 4,660 5,368 5,629 6,571 7,790 9,467 10,821 13,339 16,222 18,151 21,064 23,685 24,485 25,493 26,119 26,873 29,141 31,319 36,124
15 5,229 5,985 6,262 7,261 8,547 10,307 11,721 14,339 17,322 19,311 22,307 24,996 25,816 26,848 27,488 28,259 30,578 32,801 37,697
16 5,812 6,614 6,908 7,962 9,312 11,152 12,624 15,339 18,418 20,465 23,542 26,296 27,136 28,191 28,845 29,633 32,000 34,267 39,254
17 6,408 7,255 7,564 8,672 10,085 12,002 13,531 16,338 19,511 21,615 24,769 27,587 28,445 29,523 30,191 30,995 33,409 35,718 40,789
18 7,015 7,906 8,231 9,390 10,865 12,857 14,440 17,338 20,601 22,760 25,989 28,869 29,745 30,845 31,526 32,346 34,805 37,156 42,312
19 7,633 8,567 8,907 10,117 11,651 13,716 15,352 18,338 21,689 23,900 27,204 30,143 31,037 32,158 32,852 33,687 36,191 38,582 43,819
20 8,260 9,237 9,591 10,851 12,443 14,578 16,266 19,337 22,775 25,038 28,412 31,410 32,321 33,462 34,170 35,020 37,566 39,997 45,315
21 8,897 9,915 10,283 11,591 13,240 15,445 17,182 20,337 23,858 26,171 29,615 32,671 33,597 34,759 35,479 36,343 38,932 41,401 46,797
22 9,542 10,600 10,982 12,338 14,041 16,314 18,101 21,337 24,939 27,301 30,813 33,924 34,867 36,049 36,781 37,660 40,290 42,796 48,270
23 10,196 11,293 11,689 13,091 14,848 17,187 19,021 22,337 26,018 28,429 32,007 35,172 36,131 37,332 38,076 38,968 41,638 44,181 49,726
24 10,856 11,992 12,401 13,848 15,659 18,062 19,943 23,337 27,096 29,553 33,196 36,415 37,389 38,609 39,364 40,270 42,980 45,559 51,179
25 11,524 12,697 13,120 14,611 16,473 18,940 20,867 24,337 28,172 30,675 34,382 37,653 38,642 39,881 40,647 41,566 44,314 46,928 52,622
26 12,198 13,409 13,844 15,379 17,292 19,820 21,792 25,336 29,246 31,795 35,563 38,885 39,889 41,146 41,923 42,856 45,642 48,290 54,054
27 12,879 14,125 14,573 16,151 18,114 20,703 22,719 26,336 30,319 32,912 36,741 40,113 41,132 42,407 43,195 44,140 46,963 49,645 55,477
28 13,565 14,847 15,308 16,928 18,939 21,588 23,647 27,336 31,391 34,027 37,916 41,337 42,370 43,662 44,461 45,419 48,278 50,994 56,893
29 14,256 15,574 16,047 17,708 19,768 22,475 24,577 28,336 32,461 35,139 39,087 42,557 43,604 44,913 45,722 46,693 49,588 52,336 58,303
30 14,953 16,306 16,791 18,493 20,599 23,364 25,508 29,336 33,530 36,250 40,256 43,773 44,834 46,160 46,979 47,962 50,892 53,672 59,703

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


40
TÁBUA III:DISTRIBUIÇÃO t-STUDENT COM ν GRAUS DE LIBERDADE

Valores tc tais que P(T > tc) = p

PROBABILIDADES p
ν 0,400 0,300 0,250 0,200 0,150 0,100 0,050 0,040 0,030 0,025 0,020 0,015 0,010 0,005 0,002 0,001 0,0005
1 0,325 0,727 1,000 1,376 1,963 3,078 6,314 7,916 10,579 12,706 15,895 21,205 31,821 63,657 127,322 318,317 636,607
2 0,289 0,617 0,816 1,061 1,386 1,886 2,920 3,320 3,896 4,303 4,849 5,643 6,965 9,925 14,089 22,327 31,598
3 0,277 0,584 0,765 0,978 1,250 1,638 2,353 2,605 2,951 3,182 3,482 3,896 4,541 5,841 7,453 10,215 12,924
4 0,271 0,569 0,741 0,941 1,190 1,533 2,132 2,333 2,601 2,776 2,999 3,298 3,747 4,604 5,598 7,173 8,610
5 0,267 0,559 0,727 0,920 1,156 1,476 2,015 2,191 2,422 2,571 2,757 3,003 3,365 4,032 4,773 5,893 6,869
6 0,265 0,553 0,718 0,906 1,134 1,440 1,943 2,104 2,313 2,447 2,612 2,829 3,143 3,707 4,317 5,208 5,959
7 0,263 0,549 0,711 0,896 1,119 1,415 1,895 2,046 2,241 2,365 2,517 2,715 2,998 3,499 4,029 4,785 5,408
8 0,262 0,546 0,706 0,889 1,108 1,397 1,860 2,004 2,189 2,306 2,449 2,634 2,896 3,355 3,833 4,501 5,041
9 0,261 0,543 0,703 0,883 1,100 1,383 1,833 1,973 2,150 2,262 2,398 2,574 2,821 3,250 3,690 4,297 4,781
10 0,260 0,542 0,700 0,879 1,093 1,372 1,812 1,948 2,120 2,228 2,359 2,527 2,764 3,169 3,581 4,144 4,587
11 0,260 0,540 0,697 0,876 1,088 1,363 1,796 1,928 2,096 2,201 2,328 2,491 2,718 3,106 3,497 4,025 4,437
12 0,259 0,539 0,695 0,873 1,083 1,356 1,782 1,912 2,076 2,179 2,303 2,461 2,681 3,055 3,428 3,930 4,318
13 0,259 0,538 0,694 0,870 1,079 1,350 1,771 1,899 2,060 2,160 2,282 2,436 2,650 3,012 3,372 3,852 4,221
14 0,258 0,537 0,692 0,868 1,076 1,345 1,761 1,888 2,046 2,145 2,264 2,415 2,624 2,977 3,326 3,787 4,140
15 0,258 0,536 0,691 0,866 1,074 1,341 1,753 1,878 2,034 2,131 2,249 2,397 2,602 2,947 3,286 3,733 4,073
16 0,258 0,535 0,690 0,865 1,071 1,337 1,746 1,869 2,024 2,120 2,235 2,382 2,583 2,921 3,252 3,686 4,015
17 0,257 0,534 0,689 0,863 1,069 1,333 1,740 1,862 2,015 2,110 2,224 2,368 2,567 2,898 3,222 3,646 3,965
18 0,257 0,534 0,688 0,862 1,067 1,330 1,734 1,855 2,007 2,101 2,214 2,356 2,552 2,878 3,197 3,611 3,922
19 0,257 0,533 0,688 0,861 1,066 1,328 1,729 1,850 2,000 2,093 2,205 2,346 2,539 2,861 3,174 3,579 3,883
20 0,257 0,533 0,687 0,860 1,064 1,325 1,725 1,844 1,994 2,086 2,197 2,336 2,528 2,845 3,153 3,552 3,850
21 0,257 0,532 0,686 0,859 1,063 1,323 1,721 1,840 1,988 2,080 2,189 2,328 2,518 2,831 3,135 3,527 3,819
22 0,256 0,532 0,686 0,858 1,061 1,321 1,717 1,835 1,983 2,074 2,183 2,320 2,508 2,819 3,119 3,505 3,792
23 0,256 0,532 0,685 0,858 1,060 1,319 1,714 1,832 1,978 2,069 2,177 2,313 2,500 2,807 3,104 3,485 3,768
24 0,256 0,531 0,685 0,857 1,059 1,318 1,711 1,828 1,974 2,064 2,172 2,307 2,492 2,797 3,091 3,467 3,745
25 0,256 0,531 0,684 0,856 1,058 1,316 1,708 1,825 1,970 2,060 2,167 2,301 2,485 2,787 3,078 3,450 3,725
26 0,256 0,531 0,684 0,856 1,058 1,315 1,706 1,822 1,967 2,056 2,162 2,296 2,479 2,779 3,067 3,435 3,707
27 0,256 0,531 0,684 0,855 1,057 1,314 1,703 1,819 1,963 2,052 2,158 2,291 2,473 2,771 3,057 3,421 3,690
28 0,256 0,530 0,683 0,855 1,056 1,313 1,701 1,817 1,960 2,048 2,154 2,286 2,467 2,763 3,047 3,408 3,674
29 0,256 0,530 0,683 0,854 1,055 1,311 1,699 1,814 1,957 2,045 2,150 2,282 2,462 2,756 3,038 3,396 3,659
30 0,256 0,530 0,683 0,854 1,055 1,310 1,697 1,812 1,955 2,042 2,147 2,278 2,457 2,750 3,030 3,385 3,646
35 0,255 0,529 0,682 0,852 1,052 1,306 1,690 1,803 1,944 2,030 2,133 2,262 2,438 2,724 2,996 3,340 3,591
40 0,255 0,529 0,681 0,851 1,050 1,303 1,684 1,796 1,936 2,021 2,123 2,250 2,423 2,704 2,971 3,307 3,551
50 0,255 0,528 0,679 0,849 1,047 1,299 1,676 1,787 1,924 2,009 2,109 2,234 2,403 2,678 2,937 3,261 3,496
60 0,254 0,527 0,679 0,848 1,045 1,296 1,671 1,781 1,917 2,000 2,099 2,223 2,390 2,660 2,915 3,232 3,460
70 0,254 0,527 0,678 0,847 1,044 1,294 1,667 1,776 1,912 1,994 2,093 2,215 2,381 2,648 2,899 3,211 3,435
100 0,254 0,526 0,677 0,845 1,042 1,290 1,660 1,769 1,902 1,984 2,081 2,202 2,364 2,626 2,871 3,174 3,391

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


41
TÁBUA IV: DISTRIBUIÇÃO F-SNEDECOR COM (ν
ν1;ν
ν2) GRAUS DE LIBERDADE

ν1 = número de graus de liberdade do numerador


ν2 = número de graus de liberdade do denominador

Valores fc tais que P(F > fc) = 0,05

ν1 GRAUS DE LIBERDADE DO NUMERADOR


ν2 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 30 50 70 100
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 243,90 245,36 246,46 247,32 248,01 250,09 251,77 252,49 253,04
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,42 19,43 19,44 19,45 19,46 19,48 19,48 19,49
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,71 8,69 8,67 8,66 8,62 8,58 8,57 8,55
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,87 5,84 5,82 5,80 5,75 5,70 5,68 5,66
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,64 4,60 4,58 4,56 4,50 4,44 4,42 4,41
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,96 3,92 3,90 3,87 3,81 3,75 3,73 3,71
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,53 3,49 3,47 3,44 3,38 3,32 3,29 3,27
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,24 3,20 3,17 3,15 3,08 3,02 2,99 2,97
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,03 2,99 2,96 2,94 2,86 2,80 2,78 2,76
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,86 2,83 2,80 2,77 2,70 2,64 2,61 2,59
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,74 2,70 2,67 2,65 2,57 2,51 2,48 2,46
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,64 2,60 2,57 2,54 2,47 2,40 2,37 2,35
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,55 2,51 2,48 2,46 2,38 2,31 2,28 2,26
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,48 2,44 2,41 2,39 2,31 2,24 2,21 2,19
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,42 2,38 2,35 2,33 2,25 2,18 2,15 2,12
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,37 2,33 2,30 2,28 2,19 2,12 2,09 2,07
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,33 2,29 2,26 2,23 2,15 2,08 2,05 2,02
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,29 2,25 2,22 2,19 2,11 2,04 2,00 1,98
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,26 2,21 2,18 2,16 2,07 2,00 1,97 1,94
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,22 2,18 2,15 2,12 2,04 1,97 1,93 1,91
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,20 2,16 2,12 2,10 2,01 1,94 1,90 1,88
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,17 2,13 2,10 2,07 1,98 1,91 1,88 1,85
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,15 2,11 2,08 2,05 1,96 1,88 1,85 1,82
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,13 2,09 2,05 2,03 1,94 1,86 1,83 1,80
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,11 2,07 2,04 2,01 1,92 1,84 1,81 1,78
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,09 2,05 2,02 1,99 1,90 1,82 1,79 1,76
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,08 2,04 2,00 1,97 1,88 1,81 1,77 1,74
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,06 2,02 1,99 1,96 1,87 1,79 1,75 1,73
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,05 2,01 1,97 1,94 1,85 1,77 1,74 1,71
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,04 1,99 1,96 1,93 1,84 1,76 1,72 1,70
35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,16 2,11 2,04 1,99 1,94 1,91 1,88 1,79 1,70 1,66 1,63
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,95 1,90 1,87 1,84 1,74 1,66 1,62 1,59
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,86 1,82 1,78 1,75 1,65 1,56 1,52 1,48
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,82 1,77 1,73 1,70 1,60 1,51 1,46 1,43
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,79 1,75 1,71 1,68 1,57 1,48 1,43 1,39
Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>
42

REVISÃO DE SOMATÓRIOS

Define-se a soma dos n valores x1, x2, ..., xn da variável quantitativa X por:
n
x• = ∑ x i = x1 + x2 + ... + xn
i =1

e lê-se: “somatório de x índice i, para i = 1 até n”. Quando estivermos acostumados com a notação do somatório,
n
poderemos simplificá-la (se não houver chance de confusão!) utilizando somente ∑ x , ao invés de ∑ x i .
i =1

Exemplo 1. Seja a variável X que descreve o peso corporal, em gramas de frangos de corte aos 42 dias
de vida e está assumindo os seguintes valores:
X = {1900, 2050, 1950, 2100, 1950, 2050}
Então:
6
• ∑ x i = 1900 + 2050 + ... + 2050 = 12000 gramas é o peso total dos n = 6 frangos.
i =1
6
∑ xi 12000
• x = i =1
= = 2000 gramas é o peso médio dos n = 6 frangos.
6 6

ALGUMAS PROPRIEDADES IMPORTANTES DO SOMATÓRIO:

n
P.1) Se k ∈ R ( k é uma constante real) então ∑ k = nk
i =1
n n
P.2) ∑ kX i = k ∑ x i
i =1 i =1

P.3) ∑ (x i − k ) = (x1 - k) + (x2 - k) + ... + (xn - k) = ∑ x i − nk


n n

i =1 i =1
n
P.4) ∑ x i2 = x 12 + x 22 + ... + x 2n (soma de quadrados)
i =1
2
n 
P.5)  ∑ x i  = (x1 + x2 + ... + xn)2 = (x•)2 (quadrado da soma)
 i =1 
2
n 
P.6)  ∑ (x i − k ) = (x1 − k) 2 + (x 2 − k)2 + ... + (x n − k) 2 = ∑ x i2 - 2k ∑ x i + nk2
n n

 i=1  i =1 i =1

(soma dos quadrados dos desvios em relação à constante k)


n
P.7) ∑ x i y i = x1y1 + x2y2 + ... + xnyn (soma de duplos produtos)
i =1

Exercício Os resultados experimentais apresentados na tabela a seguir, foram obtidos de um ensaio de irrigação
onde se estudou a produção de alfafa (t/ha) como uma função da quantidade de água aplicada (ml/cm2).
X: Água 12 18 24 30 36 42 48
Y: Produção 5,27 5,68 6,25 7,21 8,02 8,71 8,42

Com base nestes dados, pede-se:

1) Desenhe um gráfico de dispersão Y vs. X e tente visualizar que o relacionamento entre as variáveis pode ser
bem explicado por uma reta.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


43

2) Calcule:
7 7 7
(a) ∑ x i = x• (b) ∑ yi = y• (c) ∑ x i2
i =1 i =1 i =1

(f) ∑ (2x i − 3y i )
7 7 7
(d) ∑ yi2 (e) ∑ x i y i
i =1 i =1 i =1

7 7
∑ xi ∑ yi
i =1 i =1
(g) x = (h) y =
7 7
1  7 2 (x ) 
2
1 7
(i) s 2x = ∑ ( x i − x ) = ∑ x i − •
2

7 i =1 6  i=1 7 

1  7 2 (y • ) 
2
1 7
s 2y = ∑ i − ∑ i −
2
(j) ( y y ) = y 
7 i =1 6  i=1 7 

 7 X  7 Y 
 ∑ i  ∑ i 
∑ (X i − X )(Yi − Y ) ∑ X i Yi − 
7 7
i =1  i=1 
(k) r(X,Y) = i =1
= i =1 7

∑ (X i − X ) ∑ (Yi − Y )
7 2 7 2  7  
2
7  
2

7 ∑ i    7
X ∑ i  
Y
∑ X 2i −  i=1   ∑ Yi2 −  i=1  
i =1 i =1

 i=1 7   i=1 7 
  
  
7 7

7 7 ∑ X i ∑ Yi
∑ (X i − X )(Yi − Y ) ∑ X i Yi − i =1 i =1

(l) b̂ = i =1
= i =1 7
7 2
∑ (X i − X )
2 7 
 ∑ Xi 
i =1 7
 i =1 
∑ Xi −
2

i =1 7
(m) â = Y − b̂ ∗ X

3) Para perceber para que serve a maioria dos cálculos feitos no item 2, desenhe no gráfico pedido no item 1, a
reta Y = â + b̂ X (reta “ajustada’) e atente para o fato de que ela passa pelo “meio” dos pontos. Utilizando
esta reta você pode obter estimativas da produção de alfafa (Y) para diversas quantidades de água aplicada
(X). Por exemplo: calcule a produção (estimada) de alfafa para X = 20, 25 e 40 ml/cm2.

Respostas do item 2:
(a) 210 (b) 49,56 (c) 7308 (d) 362,1630 (e) 1590,58 (f) 271,32 (g) 30 (h) 7,08 (i) 168
(j) 1,8797 (k) 0,9724 (l) 0,1029 (m) 3,9943

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


44

EXERCÍCIOS PROPOSTOS

1. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma certa população X de média µ e variância σ2. Foram
propostos três estimadores para a média:
n

X1 + X 2 ∑ Xi
X* = , X** = (2X1−X3) e X = i =1
2 n
Mostrar que:
(a) os três estimadores são imparciais ou não viesados;
(b) X é o estimador mais eficiente.

2. Seja X uma população com variância unitária e de onde foram extraídas todas as amostras possíveis de
tamanho n = 3. Dos estimadores definidos a seguir:
1 1 1 1 1 1 1 1 1
ˆ 1 = X1 + X 2 + X 3 , ˆ 2 = X1 + X 2 + X 3 e ˆ 3 = X 1 + X 2 + X 3

6 3 2 3 3 3 4 6 3
(a) qual ou quais deles são estimadores não viesados de µ? Por quê?
(b) qual é o estimador de variância mínima?

3. De estudos anteriores, sabe-se que a altura de crianças de 6a série tem distribuição normal com desvio padrão
igual a σ = 5cm.
(a) Calcule o I.C.(µ; γ=0,95) sabendo-se que a altura média de uma amostra de 36 crianças foi 150cm.
(b) Quantas crianças devem fazer parte de uma amostra para que seja de 95% a confiança na estimativa: 150
± 0,98cm?

4. O peso de suínos da raça Landrace tem distribuição aproximadamente normal com desvio padrão de 10kg, na
fase de acabamento. Que tamanho deve ter uma amostra desses suínos para que, com probabilidade 8%, o
erro em estimar o peso médio (populacional) seja, em módulo, superior a 1kg?

5. Um criador de frangos de corte tem disponível um lote de 1000 aves e deseja testar uma nova ração. Supondo
que o desvio padrão do ganho de peso (GP) mensal seja σ = 0,3kg, qual deve ser o tamanho da amostra a ser
usada para fins experimentais, de tal modo que a estimativa do GP médio não esteja errada em mais de 0,15
kg, com uma probabilidade de (a) 95% ? (b) 90% ?

6. Um lote de 12 bovinos Nelore do Campus forneceu os seguintes pesos: 250; 265; 267; 269; 271; 275; 277;
281; 283; 284; 287 e 289 kg. Com base nestes dados, pede-se:
(a) construir um intervalo de confiança para o peso médio dos bovinos com um coeficiente de confiança de
95% e apresentar o resultado “por extenso”;
(b) conclua, baseado no IC(µ) obtido acima, se podemos afirmar que “o peso médio dos bovinos Nelore do
Campus é igual a 281 kg”.

7. Dos bovinos de corte do Campus foi sorteada uma amostra de 64 animais obtendo-se um peso médio ( x ) de
260 kg e um desvio padrão (S) de 16 kg. Com base nestes dados, pede-se:
(a) quais os limites de confiança para o peso médio dos bovinos de corte do Campus, para um coeficiente de
confiança de 95% ?
(b) qual a confiança (aproximada) que se tem na afirmação que “o peso médio dos bovinos de corte é 260 ±
0,834 kg “ ?
(c) resolva os itens anteriores considerando que o desvio padrão populacional (σ) é igual a 16 kg.

8. Com o objetivo de verificar o desempenho de suínos, foram consideradas duas amostras desses animais. De
uma amostra de 16 suínos da raça Duroc obteve-se xD = 72kg e s D = 3,10kg e de uma amostra de 25 suínos
da raça Landrace obteve-se xL = 61kg e s L = 3,80kg. Com base nesses resulta-dos pede-se:
(a) construir um I.C. para o peso médio de cada raça, com γ = 95% de confiança;
(b) concluir sobre o desempenho dos dois grupos, comparando os I.C.(µ) obtidos no item (a).

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


45

9. Numa amostra de 86 bezerros da raça Nelore foram encontrados 22 com baixo peso. Baseado nesta amostra,
calcular um I.C. para a proporção de bezerros com baixo peso, com coeficiente de confiança igual a (i) 90%
e (ii) 95%. Compare a amplitude dos intervalos obtidos.
10. Foi feita uma pesquisa eleitoral entre os alunos do curso de Zootecnia, tendo em vista a eleição do próximo
prefeito do Campus. Dos 80 alunos entrevistados, somente 36 foram favoráveis à reeleição do atual prefeito.
Conclua sobre a reeleição do atual prefeito, baseando-se em um I.C. para a proporção (p) de alunos
favoráveis à reeleição, com γ = 99%
i) substituindo na fórmula apropriada o valor do parâmetro p pelo valor da estatística p̂ ;
ii) usando a fórmula do I.C. conservativo;

11. Utilizando os dados do Exemplo 3.1 da Apostila de Estatística II, pede-se:


(a) fixando α = 1%, calcular o valor de β = P(Erro II);
(b) sugerir (inventar!) uma nova regra de decisão (diferente das apresentadas no texto), escrever a Região
Crítica correspondente e calcular as probabilidades α e β;
(c) para esta nova regra de decisão, calcule o valor crítico (zc ou x c ) tal que α = β.

12. No ano de 1993, a produção mensal de ração da Fábrica de Ração da escola tinha distribuição normal com
média de 8000kg e variância de 300kg2. Nos nove primeiros meses de 1994, após a adoção de uma nova
filosofia de trabalho, a produção de ração foi de: 8200; 9100; 8430; 8540; 8050; 8350; 8560; 8390 e 8180kg.
Com base nestes resultados, pede-se:
(a) podemos admitir, ao nível de significância α = 1%, que houve um aumento na produção média mensal
de ração?
(b) calcular o nível descritivo do teste acima e concluir sobre a rejeição da hipótese da nulidade H0: µ =
8000kg.

13. Sabe-se que o consumo anual per capita de um determinado produto tem distribuição aproximada-mente
normal com desvio padrão σ = 2kg e média desconhecida. A diretoria da indústria que fabrica tal produto
resolveu retirá-lo da linha de produção se o seu consumo médio per capita for inferior a 8kg. Foi feita uma
pesquisa de opinião numa amostra de 80 indivíduos, obtendo-se um consumo total de 620kg.
(a) construa um teste de hipótese adequado usando α = 5% e determine qual a decisão que a diretoria deve
tomar;
(b) se o teste fosse feito usando-se α = 1%, a decisão seria a mesma?
(c) se o desvio padrão populacional fosse σ = 4kg, qual deve ser a decisão da diretoria, ao nível de
significância α = 5%?
(d) calcule o nível descritivo do teste apresentado nos itens (a) e (c).

14. A precipitação pluviométrica anual da região de Pirassununga tem distribuição normal com desvio padrão σ
= 2,7mm e média desconhecida. Nos últimos 12 anos, ocorreram as seguintes precipitações: 31,3; 30,6; 35,2;
33,4; 30,2; 28,7; 30,0; 32,7; 33,4; 29,1; 32,5 e 34,6mm. Pede-se:
(a) testar a hipótese de que a precipitação anual, em média, é superior a 31,4mm, ao nível de significância
de 5%;
(b) calcular o nível descritivo do teste e conclua sobre a rejeição da hipótese H0.

15. O período de prenhez de vacas Holandesas tem distribuição aproximadamente normal com desvio padrão σ
= 19 dias. Para testar se o período médio de prenhez é de exatamente 260 dias, de uma amostra de n vacas
obteve-se x = 264 dias. Qual deve ser o tamanho da amostra para que a afirmação feita (µ = 260 dias) seja
rejeitada ao nível α = 5%? E ao nível α = 1%?

16. Baseados na tabela apresentada a seguir, testar as seguintes hipóteses:


Cigarros Cigarros Não Total
sem filtro com filtro fumantes
Homens 12 64 14 90
Mulheres 8 26 16 50
Total 20 90 30 140
(a) A proporção de fumantes é superior a 80% (α = 0,04).
(b) A proporção de fumantes que fumam cigarros com filtro é igual a 70%.
(c) Dentre as mulheres, a proporção de fumantes é superior a 40%.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


46

17. Um fabricante garante que mais de 90% dos equipamentos que fornece a uma indústria estão de acordo com
as especificações exigidas. O exame de uma amostra de 200 peças desse equipamento revelou 25 defeituo-
sas. Testar a afirmativa do fabricante, aos níveis de 5% e 1% (se achar conveniente, calcule antes o nível
descritivo do teste).
18. Use a Tábua II para obter o valor crítico (qc) da distribuição quiquadrado com ν graus de liberdade, tal que
P(Q>qc) = p.
(a) ν = 10, p = 50% (b) ν = 19, p = 1% (c) ν = 21, p = 10%
(d) ν = 30, p = 0,1% (e) ν = 1, p = 2% (f) ν = 8, p = 30%

19. Use a Tábua III para obter o valor crítico (tc) da distribuição t-Student com ν graus de liberdade, tal que
P(T>tc) = p.
(a) ν = 1, p = 5% (b) ν = 6, p = 10% (c) ν = 10, p = 95%
(d) ν = 15, p = 2,5% (e) ν = 20, p = 80% (f) ν = 120, p = 0,1%

20. Use a Tábua IV para obter o valor crítico (Fc) da distribuição F-Snedecor com ν1 e ν2 graus de liberdade, tal
que P(F>Fc) = p.
(a) ν1=1; ν2=3; p = 5% (b) ν1=3; ν2=2; p = 95% (c) ν1=1; ν2=∞; p = 5%
(d) ν1=120; ν2=120; p=5% (e) ν1=15; ν2=15; p = 95% (f) ν1; ν2=35; p = 5%

21. Dez animais foram alimentados com uma nova ração durante quinze dias, conseguindo neste período os
seguintes ganhos de peso: 2,71; 2,93; 3,10; 3,12; 3,23; 3,76; 3,89; 4,01; 4,16 e 4,23 kg. Concluir se o ganho
médio de peso foi superior a 3,10kg usando:
(a) α = 5% (b) α = 1% (c) α = 10%.

22. A precipitação pluviométrica anual da região de Pirassununga tem distribuição normal. Nos últimos 12 anos,
ocorreram as seguintes precipitações: 31,3; 30,6; 35,2; 33,4; 30,2; 28,7; 30,0; 32,7; 33,4; 29,1; 32,5 e
34,6mm. Pede-se:
(a) testar a hipótese de que a precipitação anual, em média, é superior a 32mm, ao nível de significância de
5%;
(b) calcular o nível descritivo do teste;
(c) testar se a variância da precipitação pluviométrica anual é igual a 7 mm2 (α=5%).

23. Um lote de 12 bovinos forneceu os seguintes pesos: 250; 265; 267; 269; 271; 275; 277; 281; 283; 284; 287 e
289 kg. Baseado nestes dados pede-se:
(a) construir um I.C.(µ, γ = 95%);
(b) testar a hipótese de que o peso médio dos animais é igual a 281kg, ao nível de confiança de 5% (escreva
a região crítica, RC, em função dos pesos médios x );
(c) compare a região de aceitação do teste feito em (b) com o I.C.(µ) obtido em (a).
24. Testar se o desempenho em peso (kg) dos suínos da raça Duroc é melhor que os da raça Landrace (α = 2%)
admitindo que as variâncias dos pesos dos dois grupos são iguais.
RAÇA n Média Desvio Padrão
Duroc 16 72,0 3,1
Landrace 25 61,0 3,8

25. Os pesos (em kg) de vinte suínos que foram separados em dois grupos e alimentados com rações diferentes
são apresentados a seguir. Concluir se existem evidências de que as rações propiciaram ganhos de peso
médios diferentes, usando α = 2% e α = 5%.
Ração A 6,5 - 5,8 - 5,3 - 5,9 - 6,7 - 7,0 - 7,2 - 6,8 - 6,8 - 6,9
Ração B 5,0 - 6,0 - 7,3 - 7,5 - 8,9 - 9,0 - 9,6 - 8,9 - 9,9 - 6,2

26. Dois fertilizantes (A e B) usados na cultura de uma certa variedade de tomates precisam ser comparados.
Utilizando os dados de produção (kg) de 10 pés de tomate tratados com o fertilizante A e de 12 pés tratados
com o fertilizante B, podemos concluir que o último (B) é melhor que o primeiro (A), ao nível α = 5%? E
para α = 1%?
A 1,6 - 1,7 - 1,8 - 1,4 - 1,5 - 1,9 - 2,3 - 2,1 - 1,9 - 1,7
B 2,0 - 2,1 - 1,8 - 1,9 - 1,9 - 2,3 - 1,8 - 1,9 - 2,1 - 2,4 - 2,5 - 2,7

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


47

27. Um certo estimulante deve ser testado através de seu efeito na pressão sanguínea. Nove suínos Wessex
tiveram as suas pressões arteriais medidas antes e depois da ingestão do estimulante. Os resultados (mm Hg)
foram os seguintes:
Antes 106 105 103 110 100 101 100 104 102
Depois 109 112 107 109 111 115 107 109 101

Pergunta-se:
(a) Podemos acreditar que, ao nível α = 5%, o estimulante aumenta a pressão sanguínea média em mais de
4 mm Hg?
(b) A conclusão será a mesma se adotarmos α = 1% ou α = 10%?

28. Os pesos de 10 pintinhas Hyline White foram observados nas 1a e 2a semanas de vida. Testar se o ganho
médio de peso (em gramas) dessas aves foi superior a 30g, ao nível: (a) α = 1% (b) α = 5% (c) α = 10%
1a semana 56 75 71 65 67 66 73 71 65 56
2a semana 85 111 122 99 104 102 116 100 93 78

29. Os dados a seguir representam a quantidade de água aplicada (ml/cm2) e a produção de alfafa (t/ha), obtidos
em uma fazenda experimental:
X (água) 12 18 24 30 36 42 48
Y (produção) 5,27 5,68 6,25 7,11 8,02 8,71 8,42
Baseados nesses resultados pede-se:
(a) esboçar o diagrama de dispersão;
(b) supondo que a relação funcional entre X e Y seja linear, estime os parâmetros da reta de regressão;
(c) qual o significado prático da estimativa do coeficiente angular?
(d) calcule o coeficiente de determinação e comente sobre a qualidade do ajuste da reta;
(e) esboce o gráfico dos resíduos e comente sobre a qualidade do ajuste da reta;
(f) testar a hipótese H0: b = 0, ao nível de significância de 5%;
(g) que quantidade de água deve ser aplicada para obtermos uma produção de 7,5t/ha de alfafa?

30. A tabela abaixo apresenta os teores de fosfato (mg) de 7 soluções padrão e as respectivas densidades óticas
(D.O.), que foram medidas em um colorímetro:
X (teor) 2,28 6,84 11,4 15,96 18,24 22,80 27,86
Y (densidade) 0,056 0,174 0,268 0,387 0,432 0,523 0,638
Com base nesses dados, pede-se:
(a) esboçar o diagrama de dispersão;
(b) estimar os parâmetros da reta de regressão da densidade ótica em função do teor de fosfato;
(c) obter o intervalo de confiança para o coeficiente angular da reta, com uma confiança de 95%;
(d) testar a hipótese de que o coeficiente angular da reta é igual a 0,02 (α = 2%);
(e) calcular o coeficiente de determinação, desenhar o gráfico de resíduos e comentar sobre a qualidade do
ajuste;
(f) estimar o teor de fosfato para as soluções com D.O. de 0,35; 0,40 e 0,50.

31. Considere os seguintes dados referentes às temperaturas ambiente (X) e do abdome (Y) de insetos (°C):
X 25,5 25,0 27,3 25,7 26,1 23,0 24,6 25,8 24,5 22,0 24,0 27,3 25,0 25,7 24,4
Y 25,4 24,8 27,1 25,6 25,9 22,7 24,5 25,7 24,4 21,7 23,9 27,0 24,9 25,5 24,4
Com base nestes dados, pede-se
(a) desenhar o diagrama de dispersão;
(b) estimar o coeficiente de correlação entre X e Y e interpretar o resultado;
(c) testar se existe independência entre X e Y (α=1%);
(d) testar se podemos afirmar que a correlação entre as duas temperaturas é superior a 0,70, ao nível α = 1%.

32. Verifique se os dados abaixo, referentes à ocorrência de acidentes de trabalho no Campus, se ajustam a uma
distribuição de Poisson de média λ = 1,4 acidentes/dia (usar α=5%).
Número de acidentes (xi) 0 1 2 3 4 5
Número de dias (fi) 25 19 10 9 4 3

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


48

33. Num experimento com ervilhas foram observadas 1600 plantas e classificadas segundo os fatores: aspecto e
cor das sementes. A partir dos resultados apresentados a seguir, verifique se a hipótese de que a classificação
ocorre na proporção 9 : 3 : 3 : 1, ao nível α.
Amarela Verde
lisa rugosa lisa rugosa
890 280 320 110

34. Testar a hipótese de que o peso final de frangos de corte aos 49 dias de idade tem distribuição normal de
média µ = 1,90 e variância σ2 = 0,0150, a partir dos dados tabelados a seguir:
Peso (kg) Foi
1,60 1,70

2
1,70

1,80 8
1,80

1,90 15
1,90

2,00 14
2,00

2,10 8
2,10 2,20


3
Total 50

35. A partir dos dados apresentados na tabela a seguir, testar (α = 5%) a hipótese de que as proporções de
estudantes aprovados e reprovados pelos professores de Química, Física e Biologia são iguais.
Professor
Química Física Biologia Total
Aprovados 45 55 60 160
Reprovados 15 10 15 40
Total 60 65 75 200

36. Duzentos e quinze bovinos de três raças foram avaliados quanto ao desempenho. Baseado nos resultados
apresentados abaixo, testar a hipótese que o desempenho independe das raças, ao nível α = 5%.
Desempenho
Raça Bom Regular Péssimo
Gir 30 35 8
Nelore 32 30 12
Guzerá 28 30 10

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


49

REFERÊNCIAS BIBLIOGRÁFICAS IMPORTANTES

BERQUÓ, E. S. Bioestatística. São Paulo, Editora Pedagógica e Universitária, 1980.

CENTENO, A. J. Curso de Estatística aplicada à Biologia. Goiânia, Editora da Universidade Federal de Goiás,
1981.

COCHRAN, W.G. Técnicas de Amostragem. Rio de Janeiro, Fundo de Cultura, 1955.

FONSECA, J.S. & MARTINS, G.A. Curso de Estatística. São Paulo, Atlas, 3.ed., 1982.

HOEL, P.G. Estatística Elementar. São Paulo, Atlas. 1977.

HOFFMAN, R. & VIEIRA, S. Análise de Regressão - uma Introdução à Econometria. São Paulo, Hucitec.
1977.

MAGALHÃES, M. N. & PEDROSO DE LIMA, A. C. Noções de Probabilidade e Estatística. 4 ed. São Paulo:
EDUSP, 2002.

MEYER, P.L. Probabilidade: Aplicações à Estatística. Rio de Janeiro, Ao Livro Técnico, 1970.

MORETTIN,P.A. & BUSSAB, W.O. Métodos Quantitativos para Economistas e Administradores -


Estatística Básica. São Paulo, Atual. 1981.

SOUNIS, E. Bioestatística: princípios fundamentais, metodologia estatística, aplicação às ciências


biológicas. São Paulo, McGraw-Hill do Brasil, 2 ed. rev., 1976.

SPIEGEL, M. R. Estatística. São Paulo, McGraw-Hill do Brasil, 1977.

TRIOLA, M. F. Introdução à Estatística. [Tradução: FARIAS, A. A. et al.], 7 ed., Rio de Janeiro: LTC, 1998

VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro, Campus, 2.ed., 1983.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


50

RESOLUÇÃO DOS EXERCÍCIOS PROPOSTOS

Exercício 1
(a) os três estimadores são imparciais ou não viesados
 X + X2  1 1 1
• E(X*) = E  1  = E(X1+X2) = [E(X1) + E(X2)] = (µ + µ) = µ
 2  2 2 2
• E(X**) = E(2X1 –X3) = 2 E(X1) –E(X3) = 2µ - µ = µ
1 n  1 1 1
• E( X ) = E  ∑ X i  = E(X1+ X2+ ...+ Xn) = [E(X1) +...+ E(Xn)] = (nµ ) = µ
 n i =1  n n n
(b) X é o estimador mais eficiente
 X + X2   1 
2
1 1 2 2 σ2
• Var(X*) = Var  1  =   Var(X1 +X2 ) = [Var(X1 ) + Var(X2 )] = (σ + σ ) =
 2  2 4 4 2
• Var(X**) = Var(2X1 –X3) = (2)2 Var(X1) + Var(X3) = 4σ2 + σ2 = 5σ2
2
1 n  1 1 1 σ2
• Var( X ) = Var  ∑ X i  =   Var(X1+ X2+ ...+ Xn) = 2 [Var(X1) +...+ Var(Xn)] = 2 (nσ2 ) =
 n i =1   n  n n n
• Para n > 2, Var( X ) < Var(X*) < Var(X**) ⇒ X é o estimador mais eficiente.

Exercícios 2. (Vamos assumir que E(Xi) = µ e Var(Xi) = σ2)


(a) qual ou quais deles são estimadores não viesados de µ? Por quê?
1 1 1  1 1 1  1 1 1
• E( µ̂1 ) = E  X 1 + X 2 + X 3  = E(X1) + E(X2) + E(X3) =  + + µ = µ
6 3 2  6 3 2 6 3 2
1 1 1  1 1 1 1 1 1
• E( µ̂ 2 ) = E  X 1 + X 2 + X 3  = E(X1) + E(X2) + E(X3) =  + + µ=µ
 3 3 3  3 3 3  3 3 3
1 1 1  1 1 1  1 1 1 3
• E( µ̂ 3 ) = E  X 1 + X 2 + X 3  = E(X1) + E(X2) + E(X3) =  + + µ= µ
 4 6 3  4 6 3  4 6 3  4
∴ Somente µ̂1 e µ̂ 2 são estimadores não viesados da médias µ, porque E( µ̂1 ) = E( µ̂ 2 ) = µ.
(b) qual é o estimador de variância mínima?
1 1 1  1 1 1
• Var( µ̂1 ) = Var  X 1 + X 2 + X 3  = Var(X1) + Var(X2) + Var(X3)
 6 3 2  36 9 4
 1 1 1  2 14 2
⇒ Var( µ̂1 ) =  + + σ = σ
 36 9 4  36

1 1 1  1 σ2
• Var( µ̂2 ) = Var  X 1 + X 2 + X 3  = [Var(X1) +Var(X2) +Var(X3)] = < Var( µ̂1 ) ⇒ dentre
3 3 3  9 3
os estimadores justos, µ̂2 é o de menor variância.

Exercício 3. X = altura dos alunos da 6a série, X ~ N(µ; σ = 5 cm)


a) I.C. (µ; γ = 95%) = [148,37; 151,63] cm, ou seja, este intervalo contem a altura média dos alunos da 6a série
com 95% de confiança.
5
b) I.C. (µ; γ = 95%) = 150 ± 0,98 = [149,02; 150,98] cm ⇒ 0,98 = 1,96 = n = 10 ⇒ n = 100 crianças
n

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


51

Exercício 4. X = peso de suínos Landrace, X ~ N(µ; σ = 10 kg)


 X−µ 1   1   n 
0,08 = P(| X - µ | > 1) = P 
n
> = P Z > = P Z > ⇒ = 1,75
 10 n 10 n     10  10
   10 n  
⇒ n ≅ 307 suínos

Exercício 5. X = ganho de peso mensal de aves, X ~ N(µ; σ = 0,3 kg)


 X−µ 
a) 95% = 0,95 = P(| X - µ | < 0,15) = P  >
0,15  = P  Z > 0,15 
 ⇒ z0,475 = 1,96 = 0,15
 0,3 n   
 0,3 n   0,3 n  0,3 n
⇒ n ≅ 16 frangos
 X−µ 
b) 90% = 0,90 = P(| X - µ | < 0,15) = P  >
0,15  = P  Z > 0,15 
 ⇒ z0,450 = 1,65 = 0,15
 0,3 n   
 0,3 n   0,3 n  0,3 n
⇒ n ≅ 11 frangos

Exercício 6. X = peso de bovinos Nelore do Campus; X ~ N(µ; σ)


Da amostra: n = 12 bovinos, x = 274,83, s = 11,14
a) I.C.(µ; γ=95%) = [267,75; 281,91] kg, ou seja, este intervalo contem o verdadeiro valo do peso médio dos
bovinos Nelore do Campus, com 95% de confiança.
b) Como o valor 281 kg é um elemento do (ou pertence ao) I.C. obtido em (a), podemos afirmar que existe
muita chance de que este seja o verdadeiro valor do peso médio dos animais.

Exercício 7. X = peso de bovinos de corte do Campus ⇒ amostra: n = 64 animais, x = 260, s = 16


a) usando a distribuição t-Student: I.C. (µ; γ = 95%) = 260 ± 2,00 16 = [ 256,0; 264,0] kg
64
b) I.C.(µ; γ = ?) = 260,0 ± 0,834 kg ⇒ 0,834 = tc 16 ⇒ tc = 0,4174 ⇒ γ ≅ 40%
64
c) usando a distribuição normal: I.C. (µ; γ = 95%) = 260 ± 1,96 16 = [256,08; 263.92] kg
64
d) I.C.(µ; γ = ?) = 260,0 ± 0,834 kg ⇒ 0,834 = Zc 16 ⇒ zc = 0,4174 ⇒ γ ≅ 32%
64

Exercício 8.
XD : peso de suínos Duroc , nD = 16, x D = 72 kg, sD = 3,10 kg
XL: peso de suínos Landrace, nL = 25, x L = 61 kg, sL = 3,80 kg
a) I.C.(µD, 95%) = [ 70,34; 73,66 ] kg e I.C.(µL, 95%) = [ 59,43; 62,57 ] kg
b) como os dois intervalos de confiança calculados em (a) não se sobrepõem, existem pouquíssimas chances do
desempenho dos suínos Landrace ser melhor que os Duroc.

Exercício 9.
X = número de bovinos da raça Nelore com baixo peso
amostra: n = 86, k = 22 com baixo peso ⇒ p̂ = 22/86 = 0,2558

0,2558(0,7442)
a) I.C.(p, 90%) = 0,2558 ± 1,65 = [ 0,1784, 0,3332], ou seja, este intervalo contem o verda-
86
deiro valor da proporção de bovinos Nelore com baixo peso, com 90% de confiança
0,2558(0,7442)
b) I.C.(p, 95%) = 0,2558 ± 1,96 = [0,1636; 0,3480], ou seja, este intervalo contem o verda-
86
deiro valor da proporção de bovinos Nelore com baixo peso, com 95% de confiança

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


52

Exercício 10. X = número de alunos do curso de Zootecnia favoráveis à reeleição do atual prefeito do Campus.
⇒ amostra: n = 80 alunos, k = 36 favoráveis ⇒ p̂ = 36/80 = 0,45

0,45(0,55)
a) I.C.(p; 99%) = 0,45 ± 2,57 = [0,3071; 0,5929] ≅ [0,31; 0,59]
80
∴ se a reeleição depender exclusivamente da opinião dos alunos, existe alguma chance do atual diretor do
Campus ser reeleito, já que pode receber mais da metade dos votos dos alunos.
0,25
b) I.C.(p; 99%) = 0,45 ± 2,57 = [0,3063; 0,5937] ≅ [0,31; 0,59] (intervalo conservativo)
80
∴ se a reeleição depender exclusivamente da opinião dos alunos, existe alguma chance do atual diretor do
Campus ser reeleito, já que pode receber mais da metade dos votos dos alunos.

Exercício 11.
H0: os animais são da Faz-2 (µ2 = 155 kg; σ2 = 20 kg)
H1: os animais são da Faz-1 (µ1 = 145 kg; σ1 = 12 kg)
x c − 155
a) 0,01 = α = P( X ≤ x c | X ~ N(155; 16) = P(Z ≤ zc) onde -zc = -2,33 = ⇒ x c = 145,68
16
⇒ R.C. = { X ∈ R: X ≤ 145,68 }
β = P(Erro tipo II) = P( X > 145,68 | X ~ 145; 5,76) = P(Z > 0,28) = 0,3897 ≅ 39%
b) R.C. = { X ∈ R: X ≤ 152}
α = P(Erro tipo I) = P( X ≤ 152| X ~ N(155; 16) = 0.2266 ≅ 23%
β = P(Erro tipo II) = P( X > 152 | X ~ 145; 5,76) = 1 - 0.9982 = 0,0018 ≅ 0,2%
x c − 155 x − 145
c) P( X ≤ x c | X ~ N(155; 16) = P( X > x c | X ~ 145; 5,76) ⇒ − = c ⇒ x c = 148,75
4 2,4
ou zc = 1,56 (Note que α = β = 1−0.9406 = 0,0594 ≅ 6%)

Exercício 12. X: produção mensal de ração, em kg. X ~ N(µ = 8000; σ2 = 300)


Amostra: n = 9, x = 8422,22 kg
8422,22 − 8000
a) H0: µ = 8000 vs. H1: µ > 8000 α = 1% ⇒ RC = {z > 2,326} z calc = = 73,13
300
9
Como z calc ∈ RC, rejeitamos H0 ao nível α = 1% e concluímos que houve um aumento significativo da
produção de ração.
b) Nível descritivo do teste: α̂ = P(Z > 73,13) ≅ zero, ou seja, corremos um risco muito pequeno de cometer o
erro do tipo I (concluir que houve aumento de produção quando, na verdade, não houve aumento...)

Exercício 13. X: consumo anual per capita, em kg, de um determinado produto. X ~ N(µ; σ2 = 4)
Amostra: n = 80, x = 620/80 = 7,75 kg
a) H0: µ = 8,0 (não retira o produto da linha de produção)
H1: µ < 8,0 (retira o produto da linha de produção)
7,75 − 8,00
α = 5% ⇒ RC = (z < −1,65) z calc = = −1,12
4
80
Como z calc ∉ RC(5%), não rejeitamos H0 ao nível α = 5% e concluímos que a diretoria não deve retirar o
produto da linha de produção.
b) Se α = 1%, RC(1%) = { z < −2,326}, a conclusão do teste seria exatamente a mesma.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


53

7,75 − 8,00
c) Se σ = 4kg e α = 5% ⇒ RC = (z < −1,65) e z calc = = −0,56, a hipótese H0 não deve ser
16
80
rejeitada e a conclusão não se altera: a diretoria não deve retirar o produto da linha de produção.
d) no item (a): α̂ = P(Z < −1,12) = 0,1314, ou seja, para rejeitarmos H0, devemos assumir um nível de signi-
ficância de, no mínimo, 13,14%
no item (c): α̂ = P(Z < −0,56) = 0,2877, ou seja, para rejeitarmos H0, devemos assumir um nível de signifi`-
cância de, no mínimo, 28,77%

Exercício 14. X: precipitação pluviométrica anual, em mm, na região de Pirassununga, X ~ N[µ, σ2 = (2,7)2]
Amostra: n = 12, x = 31,808mm
31,808 − 31,4
a) H0: µ = 31,4 vs. H1: µ > 31,4 α = 5% ⇒ RC = {z > 1,65} z calc = = 0,52
7,29
12
Como zcalc ∉ RC(5%), não rejeitamos H0 ao nível α = 5% e concluímos que a precipitação anual média na
região de Pirassununga não é superior a 31,4mm.
b) α̂ =P(Z > 0,52) = 0,50 − 0,1985 = 0,3015 ≅ 30%

Exercício 15. X: período de prenhez, em dias, de vacas Holandesas. X ~ N[µ = ?, σ2 = 192]


Amostra: n = ?, x = 264 dias H0: µ = 260 vs. H1: µ ≠ 260 (hipótese bilateral !! )
264 − 260
Para rejeitarmos H0, com essa amostra, z calc = > z tab
361
n
264 − 260
• α = 5% ⇒ RC(5%) = {z < −1,96 ou z > 1,96} ⇒ = 1,96 ⇒ n = (9,31) 2 = 86,68 ⇒ a amostra
361
n
deveria ter, pelo menos, 87 vacas
264 − 260
• α = 1% ⇒ RC(1%) = {z < −2,58 ou z > 2,58} ⇒ = 2,58 ⇒ n = (12, 26) 2 = 150,31 ⇒ a
361
n
amostra deveria ter, pelo menos, 151 vacas.

Exercício 16.
a) H0: p = 0,80 vs. H1: p > 0,80 , onde p = proporção de fumantes
Da amostra: p̂ = 110/140 = 0,7857 (observe que n = 140 indivíduos)
0,7857 − 0,80
α = 0,04 ⇒ RC = {z > 1,7507} z calc = = −0,42
0,80(1 − 0,80)
140
Como zcalc ∉ RC(4%) não rejeitamos H0 ao nível α = 4% e concluímos que a proporção de fumantes não é
superior a 0,80.
b) H0: p = 0,70 vs. H1: p ≠ 0,70 , onde p = proporção de fumantes que fumam cigarros com filtro
Da amostra: p̂ = 90/110 = 0,8182 (observe que n = 110 fumantes)
0,8182 − 0,70
α = 0,04 ⇒ RC = {z > 2,05} z calc = = 2,70
0,70(1 − 0,70)
110
Como zcalc ∈ RC(4%) rejeitamos H0 ao nível α = 4% e concluímos que dentre os fumantes, a proporção
dos que usam cigarros com filtro não é igual a 0,70.
Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>
54

c) H0: p = 0,40 vs. H1: p > 0,40 , onde p = proporção de fumantes na população feminina.
Da amostra: p̂ = 34/50 = 0,68 (observe que n = 50 mulheres)
0,68 − 0,40
α = 0,04 ⇒ RC = {z > 1,7507} z calc = = 4,04
0,40(1 − 0,40)
50
Como z calc ∈ RC(4%) rejeitamos H0 ao nível α = 4% e concluímos que dentre as mulheres, a proporção de
fumantes é superior a 0,40.

Exercício 17. p = proporção de peças não defeituosas (estão de acordo com as especificações!)
H0: p = 0,90 vs. H1: p > 0,90 (afirmação do fabricante)
0,8750 − 0,90
Amostra: p̂ = 175/200 = 0,8750 ⇒ z calc = = −1,18
0,90(1 − 0,90)
200
Como RC(5%) = {z > 1,65} e RC(1%) = {z > 2,33}, com os dados dessa amostra, não rejeitaremos H0 nem
para α = 5%, nem para α = 1%.
Para rejeitarmos H0, precisamos assumir um nível de significância igual ou superior a α̂ = P(Z > −1,18) =
0,881 = 88,1%

Exercício 18. Use a Tábua II para obter o valor crítico (qc) da distribuição quiquadrado com ν graus de liberda-
de, tal que P(Q>qc) = p.
a) ν = 10, p = 50% ⇒ qc = 9,3418 b) ν = 19, p = 1% ⇒ qc = 36,1907
c) ν = 21, p = 10% ⇒ qc = 29,6151 d) ν = 30, p = 0,1% ⇒ qc = 59,703
e) ν = 1, p = 2% ⇒ qc = 5,4119 f) ν = 8, p = 30% ⇒ qc = 9,5245

Exercício 19. Use a Tábua III para obter o valor crítico (tc) da distribuição t-Student com ν graus de liberdade,
tal que P(T>tc) = p.
a) ν = 1, p = 5% ⇒ tc = 6,3138 b) ν = 6, p = 10% ⇒ tc = 1,4398
c) ν = 10, p = 95% ⇒ tc = −1,8125 d) ν = 15, p = 2,5% ⇒ tc = 2,1315
e) ν = 20, p = 80% ⇒ tc = −0,86 f) ν = 120, p = 0,1% ⇒ tc = 3,1596

Exercício 20. Use a Tábua IV para obter o valor crítico (Fc) da distribuição F-Snedecor com ν1 e ν2 graus de
liberdade, tal que P(F>Fc) = p.
a) ν1=1; ν2=3; p = 5% ⇒ Fc = 10,1280 b) ν1=3; ν2=2; p = 95% ⇒ Fc = 0,1047
c) ν1=1; ν2=∞; p = 5% ⇒ Fc = 3,9361 d) ν1=120; ν2=120; p=5% ⇒ Fc = 1,3519
e) ν1=15; ν2=15; p = 95% ⇒ Fc = 0,4161 f) ν1 = 28; ν2=35; p = 5% ⇒ Fc = 1,7995

Exercício 21. X = ganho de peso de animais alimentados com uma nova ração durante 15 dias
H0: µ = 3,10 vs. H1: µ > 3,10 RC(5%) = {t > 1,833} e RC(1%) = {t > 2,821}
3,514 − 3,10
Amostra: n = 15; x = 3,514 e s2 = 0,3081 ⇒ t calc = = 2,36
0,3081
10
⇒ Rejeitamos H0 ao nível de 5%, mas não a rejeitamos ao nível de 1%.
Nível descritivo: α̂ = P(t > 2,36) ≅ 0,02, ou seja, rejeitamos H0 e concluímos que o ganho de peso dos ani-
mais foi superior a 3,10kg, a um nível igual ou superior a 2%

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


55

Exercício 22. X = precipitação pluviométrica anual da região de Pirassununga


a) H0: µ = 32 vs. H1: µ > 32 α = 5% ⇒ RC = {t > 1,796}
31,808 − 32
Amostra: n = 12, x = 31,808 e s 2 = 4,5645 ⇒ t calc = = −0,31
4,5645
12
⇒ Não rejeitamos H0 ao nível α = 5% e concluímos que a precipitação média anual em Pirassununga não é
superior a 32mm
b) nível descritivo = α̂ = P(t > −0,31) ≅ (0,50 − 0,40) + 0,50 ≅ 0,60
c) H0: σ 2 = 7 mm2 vs. H1: σ 2 ≠ 7 mm2 RC(5%) = {q ∈ R: q < 3,816 ou q > 21,920}
(12 − 1)4,5645
q calc = = 7,17 ⇒ não rejeitamos H0 ao nível α = 5% e podemos concluir que a variância
7
da precipitação em Pirassununga não é diferente de 7 mm2.

Exercício 23. X = peso de bovinos


Amostra: n = 12 x = 274,83 e s 2 = 124,1515
124,1515
a) I.C.(µ, γ = 95%) = 274,83 ± 2,201 = [267,75; 281,91] kg
12
b) H0: µ = 281 vs. H1: µ ≠ 281
Região crítica: RC(5%) = { t < −2,201 ou t > 2,201} = { x ∈ R: x <273,92 ou x > 288,08}
Região de aceitação: RA(5%) = { x ∈ R: 273,92 < x < 288,08}
c) As amplitudes da região de aceitação (RA) do teste feito em (b) e do I.C.(µ) obtido em (a) são exata-
mente iguais

Exercício 24. X: peso de suínos da raça Duroc e Y: peso de suínos da raça Landrace
H0: µX − µY = 0
H1: µX − µY > 0
Das amostras: Duroc: n x = 16, x = 72,0 e s 2x = 9,61 Landrace: n Y = 25, y = 61,0 e s 2Y = 14,44
(16 − 1)9,61 + (25 − 1)14,44
Assumindo que as variâncias são iguais: s 2comum = = 12,5823
16 + 25 − 2
A estatística do teste é t-Student com 16+25-2 = 39 gl ⇒ RC(2%) = { t > 2,123 }
(72 − 61) − 0
⇒ t calc = = 9,69
1 1 
12,5823  + 
 16 25 
∴ rejeitamos H0 ao nível α = 2 % e concluímos que o desempenho em peso dos suínos da raça Duroc é
superior ao dos suínos da raça Landrace.

Exercício 25. X: ganho de peso dos animais que receberam a ração A; Y: ganho de peso dos animais que
receberam a ração B.
Ração A: n x = 10, x = 6,49 e s 2x = 0,3788 Ração B: n Y =10, y = 7,83 e s 2Y = 2,8312

Parte 1. Comparação das variâncias: H0: σ X2 = σ Y2 vs. H1: σ2X ≠ σ2Y


2,8312
α = 10% ⇒ RC(10%) = {F ∈ R: F > 3,18} Fcalc = = 7,47 ⇒ rejeitamos H0 ao nível α = 10% e
0,3788
concluímos que as variâncias populacionais dos dois grupos são diferentes
Parte 2. Comparação das médias: H0: µX − µY = 0 vs. H1: µX − µY ≠ 0
ν = 11 (Fórmula de Sattertwaite) RC(2%) = { | t | > 2,718 } RC(5%) = { | t | > 2,201}

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


56

(6,49 − 7,83) − 0
t calc = = −2,37 ⇒ a hipótese H0 (igualdade das médias) é rejeitada ao nível α = 5% mas
0,3788 2,8312
+
10 10
não é rejeitada ao nível α = 2%. Ou seja, podemos concluir que os ganhos médios de peso dos dois grupos
são diferentes ao nível α = 5%, mas iguais, ao nível α = 2%.

Exercício 26. X: produção de tomates (em kg) tratados com dois fertilizantes (A e B) diferentes
A: n A = 10, x A = 1,790 e s 2A = 0,0743 B: n B = 12, x B = 2,117 e s 2B = 0,0870

Parte1: H0: σ A2 = σ B2 vs. H1: σ A2 ≠ σ B2 RC = { F(11,9) > 3,10}


0,0870
Fcalc = = 1,17 ⇒ não rejeitamos H0 ao nível α = 10% e podemos admitir que as variâncias dos
0,0743
(10 − 1) 0,0743 + (12 − 1) 0,0870
dados de produção dos dois grupos de são iguais ⇒ s 2comum = = 0,0813
10 + 12 − 2
Parte 2: H0: µA − µB = 0 vs. H1: µB − µA > 0 RC(5%) = { t > 1,725} RC(1%) = { t > 2,528}
(2,117 − 1,790) − 0
t calc = = 2,68 ⇒ rejeitamos H0 ao nível de 5% e de 1% e concluímos que o fertilizante B
1 1
0,0813  + 
 10 12 
é melhor que o fertilizante A.

Exercício 27.
D = Depois − Antes (diferença de pressão arterial medida antes e depois da ingestão de um estimulante)
n = 9, D = 5,44 e s 2D = 25.0278
5,44 − 4
a) H0: µD = 4 vs. H1: µD > 4 RC(5%) = { t > 1.8595 } t calc = = 0,87
25,0278
9
⇒ não rejeitamos H0 ao nível α = 5% e concluímos que o estimulante não aumenta a pressão arterial em
mais de 4 mm Hg.
b) RC(1%) = {t > 2,896 } e RC(10%) = {t > 1,397 } ⇒ a conclusão obtida em (a) seria a mesma se admitis-
semos α = 1% ou α = 10%

Exercício 28.
D = ganho de peso de pintinhas Hyline White entre a 1a e 2a semana de vida
n = 10, D = 34,50 e s 2D = 68,2778
34,50 − 30
H0: µD = 30 vs. H1: µD > 30 t calc = = 1,72 α̂ = P( t > 1,72) = 0,060
68,2778
10
⇒ o menor nível de significância para o qual a hipótese H0 será rejeitada é α = 0,060, ou seja, concluímos
que o ganho médio de peso das pintinhas é superior a 30g para α = 10% e que o ganho médio de peso
das pintinhas não é superior a 30g, para α = 1% e α = 5%.

Exercício 29.
X = quantidade de água aplicada (ml/cm2) e Y = produção de alfafa (t/ha)
b) Equação da reta: Ŷi = 3,9800 + 0,10286 X i
c) o coeficiente angular (0,10286) indica o acréscimo na produção de produção correspondente ao acréscimo
de 1 ml//cm2 de água aplicada
d) R 2 = 0,947 e indica uma boa qualidade do ajuste, ou seja, a reta parece explicar bem o comporta-mento
da produção de alfafa em função da quantidade de água aplicada.
f) H0: b = 0 vs. H1: b ≠ 0 RC(5%) = { | t | > 2.5706 }

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


57

0,10286 − 0
s 2 = 0,1193 ⇒ t calc =
= 9,46 ⇒ rejeitamos H0 ao nível α = 5% e concluímos que o coefi-
0,1193
7308
ciente angular da reta não é nulo.
g) para obtermos uma produção Y = 7,5 t/ha de alfafa deveremos aplicar X = 34,22 ml/cm2 de água
9 0.6

0.4
8
0.2
Y: produção (t/ha)

Resíduos
7 0.0

-0.2
6
-0.4

5 -0.6
10 20 30 40 50 10 20 30 40 50
X: quantidade de água (ml/cm2) X

a) gráfico de dispersão e) gráfico dos resíduos

Exercício 30.
X = teor de fosfato (mg) e Y = densidade ótica
0.7 0.03

0.6 0.02

0.5
0.01
Y: Densidade ótica

0.4
Resíduo

0.00
0.3

-0.01
0.2

-0.02
0.1

0.0 -0.03
0 6 12 18 24 30 0 6 12 18 24 30
X: teor de fosfato (mg) X: teor de fosfato (mg)

a) gráfico de dispersão e) gráfico dos resíduos

b) Equação da reta: Ŷi = 0,0138 + 0,0226 Xi s 2 = 0,000078


 0,000078 0,000078 
c) IC(b; 95%) = 0,0226 − 2,571 ; 0,0226 + 2,571  = [0,0216; 0,0236]
 478,96 478,96 

d) H0: b = 0,02 vs. H1: b ≠ 0,02 RC(2%) = { | t | > 3,365}


0,0226 − 0,02
t calc = = 6,44 ⇒ rejeitamos H0 ao nível α = 2% e concluímos que o coeficiente angular da
0,000078
478,96
reta não é igual a 0,02.
e) Baseado no valor do coeficiente de determinação (R2 = 0,998) e no gráfico dos resíduos, podemos admitir
que a reta explica muito bem o comportamento da D.O. em função do teor de fosfato.
f) teor de fosfato
D.O.
(estimado)
0,35 14,88
0,40 17,09
0,50 21,51

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


58

Exercício 31. X : temperatura ambiente e Y: temperatura do abdome de insetos (°C):


a) diagrama de dispersão
28

27
Y (Temperatura do abdome)

26

25

24

23

22

21
21 22 23 24 25 26 27 28
X (Temperatura ambiente)

b) r(X, Y) = 0,998, ou seja, existe uma alta correlação linear positiva entre as temperaturas ambiente e do
abdome de insetos, quando a temperatura ambiente aumenta, a temperatura do abdome também aumenta,
quase que na mesma proporção.
0,998 15 − 2
c) H0: ρ (X, Y) = 0 vs. H1: ρ (X, Y) ≠ 0 = 56,92 ⇒
RC(1%) = {| t | > 3,012} t calc =
1 − (0,998) 2
rejeitamos H0: ρ (X, Y) = 0 ao nível α = 1% e concluímos que a temperatura ambiente e a temperatura do
abdome dos insetos não são independentes.

d) H0: ρ (X, Y) = 0,70 vs. H1: ρ (X, Y) > 0,70 RC(1%) = {Z > 2,33}
1  1 + 0,998  1  1 + 0,7  1
z= ln   = 3,4534 µZ = ln  = 0,8673 σZ = = 0,2887
2  1 − 0,998  2  1 − 0,7  15 − 3
3,4534 − 0,8673
⇒ Z calc = = 8,96 ⇒ rejeitamos H0: ρ (X, Y) = 0,70 ao nível α = 1% e concluímos que o
0,2887
coeficiente de correlação entre as temperaturas ambiente e do abdome de insetos é superior a 0,70.

Exercício 32. X: número de acidentes de trabalho, por dia, no Campus


H0: X ~ Poisson(λ = 1,4 acidentes/dia) vs. H1: X tem outra distribuição
e −1, 4 (1,4) k
P(X = k) = , para k = 0, 1, 2, ... ⇒ Fek = 70P(X=k)
k!
k 0 1 2 3 ou + Total Obs: as categorias 3, 4 e 5 foram agrupadas
Fo 25 19 10 16 70 porque as Fe’s das duas últimas categorias
resultaram inferiores a 5.
P(X=k) 0,2466 0,3452 0,2417 0,1665 1
Fe 17,3 24,2 16,9 11,6 ν = 4−1 = 3 g.l. ⇒ RC(5%) = {Q > 7,815}

Q calc = 9,03 ⇒ rejeitamos H0 e concluímos que o número de acidentes de trabalho no Campus não tem
distribuição de Poisson de média λ = 1,4 acidentes/dia.

Exercício 33.
H0: classificação ocorre na proporção 9 : 3 : 3 : 1 vs. H1: não ocorre nessa proporção
AL AR VL VR
ν = 4−1 = 3 g.l. ⇒ RC(5%) = {Q > 7,815}
Fo 890 280 320 110
Qcalc = 3,778
Fe 900 300 300 100

⇒ não rejeitamos H0 ao nível α = 5% e concluímos que a classificação das sementes de ervilha segundo os
fatores aspecto e cor das sementes, ocorre na proporção 9 : 3 : 3 : 1

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>


59

Exercício 34. X: peso final de frangos de corte aos 49 dias de idade


H0: X ~ N(µ = 1,90; σ2 = 0,0150) vs. H1: outra distribuição
OBS: como a média (µ) e a variância (σ2) já são conhecidas, não precisam ser estimadas ⇒ m = 0.
Peso (kg) Foi P(x inf < X < x sup ) Fei Classe Foi Fei
1,60 1,70

2 0,0512 2,6 - - -
1,70 1,80

8 0,1559 7,8 1 10 10,4
1,80 1,90

15 0,2929 14,6 2 15 14,6
1,90 2,00

14 0,2929 14,6 3 14 14,6
2,00 2,10

8 0,1559 7,8 4 11 10,4
2,10 2,20

3 0,0512 2,6 - - -
Total 50 - - - - -

ν = 4−1 = 3 g.l. ⇒ RC(5%) = {Q > 7,815} Q calc = 0,053 ⇒ não rejeitamos H0 ao nível α = 5% e con-
cluímos que o peso final de frangos de corte aos 49 dias de idade X ~ N(µ = 1,90; σ2 = 0,0150).

Exercício 35.
H0: as proporções de estudantes aprovados e reprovados em Química, Física e Biologia são iguais.
H1: as proporções não são iguais
Professor
Química Física Biologia Total
Aprovados 45 (48) 55 (52) 60 (60) 160
Reprovados 15 (12) 10 (13) 15 (15) 40
Total 60 65 75 200

ν = (2−1)(3−1) = 2 g.l. ⇒ RC(5%) = 5,991 Q calc = 1,80 ⇒ não rejeitamos H0 ao nível α = 5% e con-
cluímos que as proporções de estudantes aprovados e reprovados em Química, Física e Biologia são as mês-
mas.

Exercício 36.
H0: o desempenho dos bovinos independe das raças
H1: o desempenho dos bovinos depende das raças
Desempenho
Raça Total
Bom Regular Péssimo
Gir 30 (30,6) 35 (32,3) 8 (10,2) 73
Nelore 32 (31,0) 30 (32,7) 12 (10,3) 74
Guzerá 28 (28,4) 30 (30,0) 10 (9,5) 68
Total 90 95 30 215

ν = (3−1)(3−1) = 4 g.l. ⇒ RC(5%) = 9,488 Q calc = 1,276 ⇒ não rejeitamos H0 ao nível α = 5% e con-
cluímos que o desempenho dos bovinos independe das raças.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima <cegdlima@usp.br>