Вы находитесь на странице: 1из 45

11 Testes não

paramétricos
Em um ano

Guy Shapira/Shutterstock
11.1 Teste dos sinais recente, a forma
mais comum de
11.2 Testes de Wilcoxon roubo de identidade
•• Estudo de caso relatada foi fraude
de documentos/
benefícios do
11.3 Teste de Kruskal-Wallis governo, que
representou 46%
11.4 Correlação de postos dos casos. A
segunda forma
mais comum foi
11.5 Teste de corridas fraude de cartão
•• Usos e abusos de crédito, que
•• Estatística real – Decisões reais respondeu por
•• Tecnologia 13% dos casos.

Onde estamos
Até este ponto no livro, você estudou dezenas de fór- ro de vítimas de roubo de identidade também aumen-
mulas e testes estatísticos diferentes que podem ajudar ta. Essa crença pode ser confirmada por dados reais?
em um processo de tomada de decisão. Condições es- A Tabela 11.1 mostra os números de reclamações de
pecíficas tinham de ser satisfeitas a fim de usar essas fraude e vítimas de roubo de identidade para 25 estados
fórmulas e testes. selecionados aleatoriamente em um ano recente. (Fonte:
Suponha que se acredite que, conforme o número de Federal Trade Commission.)
reclamações de fraude em um estado aumenta, o núme-

Tabela 11.1
Reclamações de fraude 19.470 33.434 28.285 15.906 5.165 58.543 5.973 6.693
Vítimas de roubo de identidade 5.060 7.032 4.864 2.915 902 19.232 658 905

Reclamações de fraude 10.644 5.224 33.199 49.501 3.729 15.446 6.600 82.289
Vítimas de roubo de identidade 2.077 666 6.178 12.075 501 3.032 782 21.538

Reclamações de fraude 50.128 13.173 18.399 4.549 2.427 28.091 9.907 33.720 6.204
Vítimas de roubo de identidade 8.891 2.586 2.467 963 330 5.690 1.586 5.373 1.002

Para onde vamos


Neste capítulo você estudará testes estatísticos adi- Com os dados acima, o número de reclamações de
cionais que não necessitam que a distribuição da popula- fraude F e o número de vítimas de roubo de identidade V
ção satisfaça quaisquer condições específicas. Cada um podem ser relacionados pela equação de regressão V =
desses testes pode ser útil em aplicações da vida real. 0,264F – 1.080,306. O coeficiente de correlação é aproxi-
2  Estatística aplicada

madamente 0,965, então há uma correlação positiva for- podem-se questionar os resultados porque os dados não
te. Você pode determinar que a correlação é significativa se encaixam nos requisitos para o teste. Você estudará
usando a Tabela B.11 no Apêndice B. Uma análise mais testes similares neste capítulo, como o teste de correla-
profunda dos dados, contudo, pode mostrar que as vari- ção de postos de Spearman, que lhe darão informações
áveis não parecem ter uma distribuição normal bivariada, adicionais. O coeficiente de correlação de postos de
o que é um dos requisitos para usar o coeficiente de cor- Spearman para esses dados é aproximadamente 0,965.
relação de Pearson. Com a = 0,01, há de fato uma correlação significativa
Assim, embora um simples teste de correlação pos- entre o número de reclamações de fraude e o número
sa indicar uma relação entre o número de reclamações de vítimas de roubo de identidade para cada estado (veja
de fraude e o número de vítimas de roubo de identidade, a Figura 11.1).

Figura 11.1  Número de reclamações de fraude e vítimas de roubo de identidade para 25 estados.
y
Vítimas de roubo de identidade

25.000

20.000

15.000

10.000

5.000

x
20.000 40.000 60.000 80.000 100.000
Reclamações de fraude

O que você deve aprender 11.1  Teste dos sinais


•• Como usar o teste dos sinais O teste dos sinais para uma mediana populacional • O teste dos sinais usando
para testar uma mediana amostras pareadas
populacional.
•• Como aplicar o teste dos
sinais usando amostras O teste dos sinais para uma mediana
pareadas para testar a
diferença entre duas medianas populacional
populacionais (amostras
Muitos dos testes de hipótese estudados até aqui impuseram um ou
dependentes).
mais requisitos para uma distribuição populacional. Por exemplo, alguns
testes requerem que uma população tenha uma distribuição normal e ou-
tros testes requerem que as variâncias populacionais sejam iguais. O que
você deve fazer quando tais requisitos não podem ser satisfeitos? Para esses
casos, os estatísticos desenvolveram testes de hipóteses usados para dados
com “distribuição livre”.  Tais testes são chamados testes não paramétricos.

Definição
Um teste não paramétrico é um teste de hipótese que não requer quaisquer
condições específicas acerca das formas das distribuições populacionais ou
dos valores de parâmetros populacionais.

Testes não paramétricos geralmente são mais fáceis de realizar do que


os testes paramétricos correspondentes. No entanto, eles são, em geral, me-
nos eficientes que testes paramétricos. Evidências mais fortes são necessá-
rias para rejeitar uma hipótese nula usando os resultados de um teste não
Capítulo 11  Testes não paramétricos  3

paramétrico. Consequentemente, sempre que possível, você deve usar um


teste paramétrico. Um dos testes não paramétricos mais fáceis de realizar é
o teste dos sinais. A única condição necessária para usar um teste dos sinais
é que a amostra seja selecionada aleatoriamente.

Definição
O teste dos sinais é um teste não paramétrico que pode ser usado para testar
uma mediana populacional contra um valor hipotético k.

O teste dos sinais para uma mediana populacional pode ser unilateral
à esquerda, unilateral à direita ou bilateral. As hipóteses nula e alternativa Entenda
para cada tipo de teste são as seguintes: Para testes não paramétricos, os
Teste unilateral à esquerda: estatísticos testam a mediana
H0: mediana ≥ k e Ha: mediana < k em vez
da média.
Teste unilateral à direita:
H0: mediana ≤ k e Ha: mediana > k
Teste bilateral:
H0: mediana = k e Ha: mediana ≠ k.
Para usar o teste de sinais, primeiro compare cada valor na amostra
com a mediana hipotética k. Quando o valor estiver abaixo da media-
na, atribua-lhe um sinal –; quando o valor estiver acima da mediana,
atribua-lhe um sinal + e, quando o valor for igual à mediana, atribua-lhe
um 0. Então, compare o número de sinais + e – (os zeros são ignorados).
Quando houver uma grande diferença entre o número de sinais + e o
número de sinais –, é provável que a mediana seja diferente do valor
hipotético e você deve rejeitar a hipótese nula.
A Tabela B.8 no Apêndice B lista os valores críticos para o teste dos
sinais para níveis de significância selecionados e tamanhos de amostras.
Quando o teste de sinais é usado, o tamanho da amostra n é o número total
de sinais + e –. Quando o tamanho da amostra é maior que 25, você pode
usar a distribuição normal padrão para encontrar os valores críticos.
Entenda
Estatística de teste para o teste dos sinais Já que os zeros são ignorados, há
dois resultados possíveis quando
Quando n ≤ 25, a estatística de teste para o teste dos sinais é x, o menor comparamos uma entrada
número dos sinais + ou –. de dados com uma mediana
Quando n > 25, a estatística de teste para o teste de sinais é: hipotética: um sinal + ou um –. Se
1x + 0,52 - 0,5n a mediana for k, então cerca da
z= metade dos valores estará acima
1n
2 de k e metade estará abaixo.
Como tal, a probabilidade para
em que x é o menor número de sinais + ou – e n é o tamanho da amostra, isto cada sinal é 0,5. A Tabela B.8 no
é, o número total dos sinais + e –. Apêndice B é construída usando
a distribuição binomial em que p
= 0,5.
Uma vez que x é definido como o menor número dos sinais + ou –, a
Quando n > 25, você pode usar
região de rejeição está sempre na lateral esquerda. Consequentemente,
a aproximação normal (com uma
o teste dos sinais para uma mediana populacional é sempre um teste
correção de continuidade) para a
unilateral à esquerda ou um teste bilateral. Quando o teste for bilateral,
binomial. Neste caso, use m = np
use apenas o valor crítico da lateral à esquerda. (Quando x é definido
= 0,5n e
como o maior número dos sinais + ou –, a região de rejeição está sempre
1n
na lateral direita. Testes dos sinais unilaterais à direita são apresentados s = 1npq = .
nos exercícios.) 2
4  Estatística aplicada

Instruções
Realizando um teste dos sinais para uma mediana populacional
EM PALAVRAS EM SÍMBOLOS
1. Verifique se a amostra é aleatória.
2. Identifique a afirmação. Declare as Formule H0 e Ha.
hipóteses nula e alternativa.
3. Especifique o nível de Identifique a.
significância.
4. Determine o tamanho da amostra n = número total de sinais + e –
n, atribuindo sinais +, sinais – e
zeros aos dados da amostra.
5. Determine o valor crítico. Quando n ≤ 25, use a Tabela B.8
no Apêndice B. Quando n > 25,
use a Tabela B.4 no Apêndice B.
6. Encontre a estatística de teste. Quando n ≤ 25, use x = o menor
número dos sinais + ou –. Quando
1x + 0,52 - 0,5n
n > 25, use z =
1n
2
7. Tome uma decisão para rejeitar ou Se a estatística de teste é menor
não rejeitar a hipótese nula. ou igual ao valor crítico, então
rejeite H0. Caso contrário, não
rejeite H0.
8. Interprete a decisão no contexto
da afirmação original.

Exemplo 1

Usando o teste dos sinais


O administrador do site de uma empresa afirma que o número me-
diano de visitantes, por dia, do site da empresa é de não mais de 1.500.
Um funcionário duvida da precisão dessa afirmação. Os números de
visitantes por dia, para 20 dias selecionados aleatoriamente, estão lis-
tados a seguir. Com a = 0,05, o funcionário pode rejeitar a afirmação
do administrador?
1.469 1.462 1.634 1.602 1.500
1.463 1.476 1.570 1.544 1.452
1.487 1.523 1.525 1.548 1.511
1.579 1.620 1.568 1.492 1.649

Solução
A afirmação é “o número mediano de visitantes, por dia, do site da
empresa é de não mais de 1.500”.Então, as hipóteses nula e alternativa são:
H0: mediana ≤ 1.500 (Afirmação) e Ha: mediana > 1.500.
Os resultados da comparação de cada dado com a mediana hipotéti-
ca 1.500 são mostrados a seguir:
– – + + 0
– – + + –
– + + + +
+ + + – +
Capítulo 11  Testes não paramétricos  5

Você pode perceber que há 7 sinais – e 12 sinais +. Então, n = 12 +


7 = 19. Como n ≤ 25, use a Tabela B.8 no Apêndice B para encontrar o
valor crítico. O teste é unilateral com a = 0,05 e n = 19. Logo, o valor
crítico é 5. Como n ≤ 25, a estatística de teste x é o menor número dos
sinais + ou –. Assim, x = 7. Uma vez que x = 7 é maior que o valor crítico,
o funcionário não deve rejeitar a hipótese nula.
Interpretação  Não há evidência suficiente, ao nível de significância
de 5%, para o funcionário rejeitar a afirmação do administrador do site
de que o número mediano de visitantes por dia do site da empresa é de
não mais de 1.500.

Tente você mesmo 1


Uma agência imobiliária afirma que o número mediano de dias que
uma casa fica no mercado, em sua cidade, é superior a 120. Um proprietá-
rio quer verificar a exatidão dessa afirmação. Os números de dias no mer-
cado para 24 casas selecionadas aleatoriamente são mostrados a seguir.
Com a = 0,025, o proprietário pode confirmar a afirmação da agência?
118 167 72 79 76 106 102 113
73 119 162 114 120 93 135 147
77 157 115 88 152 70 65 91

a. Identifique a afirmação e declare H0 e Ha.


b. Identifique o nível de significância a.
c. Determine o tamanho da amostra n.
d. Encontre o valor crítico.
e. Encontre a estatística de teste x.
f. Decida se rejeita a hipótese nula.
g. Interprete a decisão no contexto da afirmação original.

Exemplo 2

Usando o teste dos sinais


Uma organização afirma que a frequência mediana anual dos
museus dos Estados Unidos é de pelo menos 39.000 visitantes. Uma
amostra aleatória de 125 museus revela que as frequências anuais de
79 museus foram inferiores a 39.000, as frequências anuais de 42 mu-
seus foram superiores a 39.000 e, as frequências anuais de 4 museus
foram de 39.000 visitantes. Com a = 0,01, há evidência suficiente para
rejeitar a afirmação da organização? (Adaptado de American Associa-
tion of Museums.)

Solução
A afirmação é “a frequência mediana anual dos museus dos Estados
Unidos é de pelo menos 39.000 visitantes”. Então, as hipóteses nula e
alternativa são:
H0: mediana ≥ 39.000 (Afirmação) e Ha: mediana < 39.000.
Como n > 25, use a Tabela B.4 no Apêndice B, a Tabela Normal Pa-
drão, para encontrar o valor crítico. Uma vez que o teste é unilateral à
esquerda com a = 0,01, o valor crítico é z0 = –2,33. Dos 125 museus, há
79 com sinal – e 42 com sinal +. Uma vez que os zeros são ignorados, o
tamanho da amostra é:
n = 79 + 42 = 121 e x = 42.
6  Estatística aplicada

Com esses valores, a estatística de teste x é:


Retratando o mundo
142 + 0,52 - 0,5 11212
Em 2010, as pessoas nos Estados z=
Unidos gastaram um total de
2121 N 2
aproximadamente US$ 16,6 - 18
=
bilhões em doces. 5,5
O Departamento de Comércio
≈ - 3,27.
dos Estados Unidos informou
que, em 2010, uma pessoa A Figura 11.2 mostra a localização da região de rejeição e a estatís-
comum no país comeu cerca de tica de teste z. Como z é menor que o valor crítico, ele encontra-se na
23,4 libras de doces. região de rejeição. Logo, você rejeita a hipótese nula.

Consumo de doces Figura 11.2  Distribuição normal, região de rejeição e estatística de teste.
Consumo (em libras por pessoa)

26

25

24

23
a = 0,01
22

21
z ≈ − 3,27
1998 2002 2006 2010
z
Ano -4 -3 -2 -1 0 1 2 3 4

z0 = -2,33
Você usaria um teste paramétrico
ou um teste não paramétrico
para testar a afirmação do Interpretação  Há evidência suficiente, ao nível de significância de
Departamento de Comércio dos 1%, para rejeitar a afirmação da organização de que a frequência mediana
EUA a respeito do consumo de anual para museus nos Estados Unidos é de pelo menos 39.000 visitantes.
doces? Que fatores devem ser
considerados?
Tente você mesmo 2
Uma organização afirma que a idade mediana dos funcionários de
museus nos Estados Unidos é 40 anos. Uma amostra aleatória de 95 fun-
cionários de museus revela que 46 deles têm menos de 40 anos, 45 têm
mais de 40 anos e 4 têm 40 anos. Com a = 0,10, você pode rejeitar a afirma-
Dica de estudo ção da organização? (Adaptado de American Association of Museums.)
Quando realizar um teste dos a. Identifique a afirmação e declare H0 e Ha.
sinais bilateral, lembre-se de usar b. Identifique o nível de significância a.
apenas o valor crítico da lateral à c. Determine o tamanho da amostra n.
esquerda.
d. Encontre o valor crítico.
e. Encontre a estatística de teste z.
f. Decida se rejeita a hipótese nula.
g. Interprete a decisão no contexto da afirmação original.

O teste dos sinais usando amostras pareadas


Na Seção 8.3 você aprendeu a aplicar um teste t para a diferença en-
tre médias usando amostras dependentes. Esse teste exigia que ambas as
Capítulo 11  Testes não paramétricos  7

populações fossem normalmente distribuídas. Quando a condição para-


métrica de normalidade não pode ser satisfeita, você pode usar o teste dos
sinais para amostras pareadas para testar a diferença entre duas medianas
populacionais. Para realizar o teste dos sinais usando amostras pareadas
para a diferença entre duas medianas populacionais, as condições a seguir
devem ser atendidas:
1. Uma amostra de cada população deve ser aleatoriamente selecionada.
2. As amostras devem ser dependentes (pareadas).
O teste dos sinais usando amostras pareadas pode ser unilateral à
esquerda, unilateral à direita ou bilateral. Esse teste é similar ao teste
dos sinais para uma mediana populacional única. No entanto, em vez de
comparar cada valor com uma mediana hipotética e registrar +, – ou 0,
você encontra a diferença entre valores correspondentes e registra o seu
sinal. Geralmente, para encontrar a diferença, subtraia o valor repre-
sentando a segunda variável do valor representando a primeira variá-
vel. Então, compare o número de sinais + e – (os zeros são ignorados).
Quando o número de sinais + é aproximadamente igual ao número de
sinais –, provavelmente, em função do teste você não rejeitará a hipó-
tese nula. Quando há uma “grande “diferença entre o número de sinais
+ e o número de sinais –, provavelmente você rejeitará a hipótese nula.

Instruções
Realizando um teste dos sinais para amostras pareadas
EM PALAVRAS EM SÍMBOLOS
1. Verifique se as amostras são aleató-
rias e dependentes.
2. Identifique a afirmação. Declare as Formule H0 e Ha.
hipóteses nula e alternativa.
3. Especifique o nível de significância. Identifique a.
4. Determine o tamanho da amostra n n = número total de sinais + e –
encontrando a diferença para cada
par de dados. Atribua um sinal + a
uma diferença positiva, um sinal – a
uma diferença negativa e 0 a nenhu-
ma diferença.
5. Determine o valor crítico. Use a Tabela B.8 no Apêndice B.
6. Encontre a estatística de teste. x = o menor número dos sinais
+ ou –
7. Decida se rejeita ou não rejeita a hi- Se a estatística de teste é menor
pótese nula. ou igual ao valor crítico, então
rejeite H0. Caso contrário, não
rejeite H0.
8. Interprete a decisão no contexto da
afirmação original.

Exemplo 3

Usando o teste dos sinais com amostras pareadas


Um psicólogo afirma que o número de infratores reincidentes dimi-
nuirá quando infratores primários completarem um curso especial de rea-
bilitação. Você seleciona aleatoriamente 10 presídios e registra o número
8  Estatística aplicada

de infratores reincidentes durante um período de dois anos. Então, depois


de infratores primários completarem o curso, você registra o número de
infratores reincidentes em cada presídio por um outro período de dois
anos. Os resultados são mostrados na Tabela 11.2. Para o nível de sign-
ficância a = 0,025, você pode concordar com a afirmação do psicólogo?

Tabela 11.2  Distribuição dos números de infratores antes e depois do curso.

Presídio 1 2 3 4 5 6 7 8 9 10

Antes 21 34 9 45 30 54 37 36 33 40

Depois 19 22 16 31 21 30 22 18 17 21

Solução
Para testar a afirmação do psicólogo, use as hipóteses nula e alter-
nativa a seguir:
H0: O número de infratores reincidentes não diminuirá.
Ha: O número de infratores reincidentes diminuirá. (Afirmação)
A Tabela 11.3 mostra o sinal das diferenças entre os dados “antes”
e “depois”.

Tabela 11.3  Distribuição dos sinais relativos aos pares.

Presídio 1 2 3 4 5 6 7 8 9 10

Antes 21 34 9 45 30 54 37 36 33 40

Depois 19 22 16 31 21 30 22 18 17 21

Sinal + + – + + + + + + +

Você pode ver que há 1 sinal – e 9 sinais +. Então, n = 1 + 9 = 10.


Como o teste é unilateral com a = 0,025 e n = 10, o valor crítico é 1. A
estatística de teste x é o menor número de sinais + ou –. Logo, x = 1. Já
que x é igual ao valor crítico, você rejeita a hipótese nula.
Interpretação  Há evidência suficiente, ao nível de significância
Tabela 11.4 2,5%, para concordar com a afirmação do psicólogo de que o número
Adulto Antes da Depois da de infratores reincidentes diminuirá após o curso.
vacina vacina
Tente você mesmo 3
1 3 2
Um pesquisador da área médica afirma que uma nova vacina di-
2 4 1
minuirá o número de resfriados em adultos. Você seleciona aleatoria-
3 2 0 mente 14 adultos e registra o número de resfriados que cada um teve
4 1 1 durante um ano. Após dar a vacina a cada adulto, você registra nova-
5 3 1 mente o número de resfriados que cada um teve no período de um ano.
Os resultados são mostrados na Tabela 11.4. Com a = 0,05, você pode
6 6 3
concordar com a afirmação do pesquisador?
7 4 3
a. Identifique a afirmação e declare H0 e Ha.
8 5 2
b. Identifique o nível de significância a.
9 2 2
c. Determine o tamanho da amostra n.
10 0 2
d. Encontre o valor crítico.
11 2 3
e. Encontre a estatística de teste x.
12 5 4
f. Decida se rejeita a hipótese nula.
13 3 3
g. Interprete a decisão no contexto da afirmação original.
14 3 2
Capítulo 11  Testes não paramétricos  9

11.1  Exercícios
Construindo habilidades básicas e vocabulário ou menos. Os preços de venda (em dólares) de 10 ca-
sas selecionadas aleatoriamente estão listados a seguir.
1. O que é um teste não paramétrico? Como um teste Para um nível de significância a = 0,05, há evidência sufi-
não paramétrico difere de um teste paramétrico? Quais ciente para rejeitar a afirmação do corretor? (Adaptado
são as vantagens e desvantagens de usar um teste não de National Association of Realtors.)
paramétrico?
200.800 229.500 205.900 190.700 140.200
2. Quando o teste dos sinais é usado, qual parâmetro po- 193.900 249.000 170.900 184.500 207.500
pulacional está sendo testado?
10. Temperatura  Durante uma previsão do tempo, um
3. Descreva a estatística de teste para o teste dos sinais
meteorologista afirma que a temperatura mediana má-
quando o tamanho da amostra n é inferior ou igual a 25
xima diária para o mês de janeiro em San Diego é de
e quando n é superior a 25.
66º Fahrenheit. As temperaturas máximas (em graus
4. Com suas palavras, explique por que o teste de hipótese
Fahrenheit) para 16 dias de janeiro selecionados aleato-
discutido nesta seção é chamado de teste dos sinais.
riamente em San Diego estão listadas a seguir. Com a =
5. Explique como usar o teste dos sinais para testar uma 0,01, você pode rejeitar a afirmação do meteorologista?
mediana populacional. (Adaptado de U.S. National Oceanic and Atmospheric
6. Liste as duas condições que devem ser atendidas de Administration.)
modo a usar o teste dos sinais com amostras pareadas. 78 74 72 72 70 70 72 78 74 71 72 74 77 79 75 73

11. Dívida de cartão de crédito  Uma instituição de servi-


Usando e interpretando conceitos ços financeiros afirma que o valor mediano de dívidas
de cartão de crédito para famílias que possuem tais
Realizando um teste dos sinais  Nos exercícios 7 a dívidas é de pelo menos US$ 2.600. Em uma amos-
22, (a) identifique a afirmação e declare H0 e Ha, (b) en- tra aleatória de 104 famílias com dívidas de cartão
contre o valor crítico, (c) encontre a estatística de teste, de crédito, as dívidas de 60 delas eram inferiores a
(d) decida se rejeita ou não a hipótese nula e (e) inter- US$ 2.600 e as dívidas de 44 eram superiores a US$
prete a decisão no contexto da afirmação original. 2.600. Com a = 0,02, você pode rejeitar a afirmação da
instituição? (Adaptado de Board of Governors of the
7. Despesas de cartão de crédito  Um contador de servi-
Federal Reserve System.)
ço financeiro afirma que a quantia mediana de novas
despesas de cartão de crédito para o mês anterior foi 12. Dívida financeira  Um contador de serviços financei-
de mais de US$ 300. Você seleciona aleatoriamente ros afirma que o valor mediano de dívidas financei-
12 contas de cartão de crédito e registra a quantia de ras para famílias que possuem tal dívida é inferior a
novas despesas de cada uma para o mês anterior. As US$ 71.000. Em uma amostra aleatória de 70 famílias
quantias (em dólares) estão listadas a seguir. Com a com dívida financeira, as dívidas de 24 famílias eram in-
= 0,01, você pode aceitar a afirmação do contador? feriores a US$ 71.000 e as dívidas de 46 famílias eram
(Adaptado de Board of Governors of the Federal Re- superiores a US$ 71.000. Para um nível de significância
serve System.) a = 0,025, você pode concordar com a afirmação do con-
tador? (Adaptado de Board of Governors of the Federal
346,71 382,59 255,03 202,17 309,80 265,88
Reserve System.)
299,41 270,38 296,54 318,46 245,92 309,47
13. Usuários do Twitter®  Um grupo de pesquisa afirma
8. Temperatura  Um meteorologista afirma que a tempe- que a idade mediana de usuários do Twitter® é superior
ratura mediana máxima diária para o mês de julho em a 30 anos. Em uma amostra aleatória de 24 usuários do
Pittsburgh é de 83º Fahrenheit. As temperaturas máxi- Twitter®, 11 têm menos de 30 anos, 10 têm mais de 30
mas (em graus Fahrenheit) para 15 dias de julho sele- anos e 3 têm 30 anos. Com a = 0,01, você pode concor-
cionados aleatoriamente em Pittsburgh estão listadas a dar com a afirmação do grupo de pesquisa? (Adaptado
seguir. Com a = 0,01, há evidência suficiente para rejei- de Pew Research Center.)
tar a afirmação do meteorologista? (Adaptado de U.S. 14. Usuários do Facebook®  Um grupo de pesquisa afirma
National Oceanic and Atmospheric Administration.) que a idade mediana de usuários do Facebook® é infe-
74 79 81 86 90 79 81 83 81 74 78 76 84 82 85 rior a 32 anos. Em uma amostra aleatória de 20 usuários
do Facebook®, 5 têm menos de 32 anos, 13 têm mais de
9. Preços de venda de casas  Um corretor de imóveis afir-
32 anos e 2 têm 32 anos. Com a = 0,05, você pode con-
ma que o preço mediano de venda de novas casas resi-
cordar com a afirmação do grupo de pesquisa? (Adap-
denciais vendidas em um mês recente é de US$ 193.000
tado de Pew Research Center.)
10  Estatística aplicada

15. Tamanho da unidade  Uma organização de locatários 20. Dor nas costas  Um médico afirma que as pontua-
afirma que o número mediano de cômodos em unidades ções da intensidade de dor nas costas diminuirão após
alugadas é quatro. Você seleciona aleatoriamente 120 tomar medicamentos anti-inflamatórios. A tabela a
unidades alugadas e obtém os resultados mostrados a seguir mostra as pontuações da intensidade de dor nas
seguir. Para o nível de significância a = 0,05, você pode costas para 12 pacientes antes e depois de tomarem
rejeitar a afirmação da organização? (Adaptado de U.S. medicamentos anti-inflamatórios por 8 semanas. Com
a = 0,05, há evidência suficiente para concordar com a
Census Bureau.)
afirmação do médico? (Adaptado de Archives of Inter-
Tamanho da unidade Número de unidades nal Medicine.)

Menos de 4 cômodos 29 Paciente 1 2 3 4 5 6


4 cômodos 38 Pontuação da
71,0 42,1 79,1 57,5 64,0 60,4
Mais de 4 cômodos 53 intensidade (antes)
Pontuação da
60,1 23,4 86,2 62,1 44,2 49,7
16. Área quadrada  Uma organização de locatários afirma intensidade (depois)
que a área mediana quadrada de unidades alugadas é
de 1.300 pés quadrados. Você seleciona aleatoriamente Paciente 7 8 9 10 11 12
22 unidades alugadas e obtém os resultados mostrados a Pontuação da
seguir. Com a = 0,10, você pode rejeitar a afirmação da 68,3 95,2 48,1 78,6 65,4 59,9
intensidade (antes)
organização? (Adaptado de U.S. Census Bureau.)
Pontuação da
58,3 72,6 51,8 82,5 63,2 47,9
Área quadrada Número de unidades intensidade (depois)

Menos de 1.300 8 21. Melhorando as notas no SAT  Uma agência de pro-


1.300 2 fessores particulares afirma que, completando um cur-
Mais de 1.300 12 so especial, os estudantes melhorarão suas notas de
compreensão de texto no SAT. Em parte de um estudo,
12 estudantes fazem a parte de compreensão de texto
17. Salário por hora  Uma organização trabalhista afirma do SAT, completam o curso especial e, então, fazem a
que o salário mediano por hora de analistas de sistemas parte de compreensão de texto do SAT novamente. As
de computador é de US$ 38,31. Em uma amostra alea- notas dos estudantes são mostradas na tabela a seguir.
tória de 45 analistas de sistemas, 18 ganham menos de Com nível de significância a = 0,05, há evidência sufi-
US$ 38,31 por hora, 25 ganham mais de US$ 38,31 por ciente para aceitar a afirmação da agência?
hora e 2 ganham US$ 38,31 por hora. Com um nível de
Estudante 1 2 3 4 5 6
significância a = 0,01, você pode rejeitar a afirmação da
organização trabalhista? (Adaptado de U.S. Bureau of Nota no primeiro SAT 300 450 350 430 300 470
Labor Statistics.) Nota no segundo SAT 300 520 400 410 300 480
18. Salário por hora  Uma organização trabalhista afirma
que o salário mediano por hora de pedicuros é de US$ Estudante 7 8 9 10 11 12
55,98. Em uma amostra aleatória de 23 pedicuros, 17 ga- Nota no primeiro SAT 530 200 200 350 360 250
nham menos de US$ 55,98 por hora, 5 ganham mais de Nota no segundo SAT 700 250 390 350 480 300
US$ 55,98 por hora e 1 ganha US$ 55,98 por hora. Com
a = 0,05, você pode rejeitar a afirmação da organização 22. Notas no SAT  Um conselheiro de orientação
trabalhista? (Adaptado de U.S. Bureau of Labor Statistics.) educacional afirma que os estudantes que fazem o
19. Dor nas costas  Um médico afirma que as pontuações SAT duas vezes melhoram suas notas no segundo
da intensidade de dor nas costas diminuirão após um exame. A tabela a seguir mostra as notas de com-
tratamento de acupuntura. A tabela a seguir mostra as preensão de texto no SAT para 12 estudantes que
fizeram o exame duas vezes. Com nível de signifi-
pontuações da intensidade de dor nas costas para oito
cância a = 0,01, você pode aceitar a afirmação do
pacientes antes e depois de receberem acupuntura por conselheiro de orientação educacional?
oito semanas. Com a = 0,05, há evidência suficiente para
concordar com a afirmação do médico? (Adaptado de Estudante 1 2 3 4 5 6
Archives of Internal Medicine.) Nota no primeiro SAT 440 510 420 450 620 450
Paciente 1 2 3 4 5 6 7 8 Nota no segundo SAT 440 570 510 470 610 450
Pontuação da
59,2 46,3 65,4 74,0 79,3 81,6 44,4 59,1 Estudante 7 8 9 10 11 12
intensidade (antes)
Pontuação da Nota no primeiro SAT 350 470 320 510 630 570
12,4 22,5 18,6 59,3 70,1 70,2 13,2 25,9
intensidade (depois) Nota no segundo SAT 370 530 290 500 640 600
Capítulo 11  Testes não paramétricos  11

23. Sentindo sua idade Uma empresa de pesquisa conduz é menor ou igual ao valor crítico da lateral à esquerda,
um levantamento selecionando aleatoriamente adultos em que x é o menor número de sinais + ou –. Para um
e perguntando a cada um: “Como você se sente em re- teste unilateral à direita, você pode rejeitar a hipótese
lação à sua idade?” Os resultados são apresentados na nula quando a estatística de teste
figura a seguir: (Adaptado de Pew Research Center.) 1x - 0,52 - 0,5n
z=
Minha idade 1n
Mais novo
2
9
11 é maior ou igual ao valor crítico da lateral à direita,
3 em que x é o maior número de sinais + ou –.
Mais velho
Nos exercícios 25 a 28, use um teste unilateral à direita e

(a) Use um teste dos sinais para testar a hipótese nula
(a) identifique a afirmação e declare H0 e Ha, (b) encon-
de que a proporção de adultos que se sentem mais
tre o valor crítico, (c) encontre a estatística de teste, (d)
velhos é igual à proporção de adultos que se sen-
decida se rejeita ou não a hipótese nula e (e) interprete
tem mais novos. Atribua um sinal + a cada adulto
a decisão no contexto da afirmação original.
que respondeu “mais velho”, atribua um sinal – a 25. Salário semanal  Uma organização trabalhista afirma
cada adulto que respondeu “mais novo” e atribua que o salário mediano semanal de trabalhadores do sexo
um 0 a cada adulto que respondeu “minha idade”. feminino é inferior ou igual a US$ 704. Para testar essa
Use a = 0,05. afirmação, você seleciona aleatoriamente 50 trabalhado-

(b) O que você pode concluir? ras e pede que cada uma forneça seu salário semanal. A
tabela a seguir mostra os resultados. Com nível de signi-
24. Contatando os pais  Uma empresa de pesquisa conduz
ficância a = 0,01, você pode rejeitar a afirmação da orga-
uma pesquisa selecionando aleatoriamente adultos e
nização? (Adaptado de U.S. Bureau of Labor Statistics.)
perguntando a cada um: “com que frequência você en-
tra em contato com seus pais por telefone?” Os resulta- Salário semanal Número de trabalhadoras
dos são mostrados na figura a seguir. (Adaptado de Pew
Menos de US$ 704 18
Research Center.)
US$ 704 3
Outro Semanalmente Mais de US$ 704 29

6 26. Salário semanal  Uma organização trabalhista afirma


12 que o salário mediano semanal de trabalhadores do sexo
masculino é de mais de US$ 867. Para testar essa afirma-
Diariamente 8 ção, você seleciona aleatoriamente 70 trabalhadores e
pede que cada um forneça seu salário semanal. A tabela
a seguir mostra os resultados. Com a = 0,01, você pode

(a) Use um teste dos sinais para testar a hipótese
suportar a afirmação da organização? (Adaptado de U.S.
nula de que a proporção de adultos que entram
Bureau of Labor Statistics.)
em contato com seus pais por telefone semanal-
mente é igual à proporção de adultos o fazem dia- Salário semanal Número de trabalhadores
riamente. Atribua um sinal + a cada adulto que
Menos de US$ 867 23
respondeu “semanalmente”, atribua um sinal – a
cada adulto que respondeu “diariamente” e atri- US$ 867 2
bua um 0 a cada adulto que respondeu “outro”. Mais de US$ 867 45
Use a = 0,05.
27. Idade das noivas  Um conselheiro matrimonial afir-

(b) O que você pode concluir? ma que a idade mediana das noivas na época do seu
primeiro casamento é inferior ou igual a 27 anos. Em
Expandindo conceitos uma amostra aleatória de 65 noivas, 24 têm menos de
27 anos, 35 têm mais de 27 anos e 6 têm 27 anos. Com a
Mais sobre testes dos sinais  Quando você está = 0,05, você pode rejeitar a afirmação do conselheiro?
aplicando um teste dos sinais para n > 25 e o teste é (Adaptado de U.S. Census Bureau.)
unilateral à esquerda, você sabe que pode rejeitar a hi- 28. Idade dos noivos Um conselheiro matrimonial afirma que
pótese nula quando a estatística de teste a idade mediana dos noivos na época do seu primeiro ca-
samento é superior a 28 anos. Em uma amostra aleatória
1x + 0,52 - 0,5n
z= de 56 noivos, 33 têm menos de 28 anos e 23 têm mais de 28
1n anos. Com a = 0,05, você pode concordar com a afirmação
2 do conselheiro? (Adaptado de U.S. Census Bureau.)
12  Estatística aplicada

O que você deve aprender 11.2  Testes de Wilcoxon


•• Como usar o teste dos postos O teste dos postos sinalizados de Wilcoxon • O teste da soma dos postos de Wilcoxon
sinalizados de Wilcoxon para
determinar se duas amostras
dependentes são selecionadas
de populações que possuem a
O teste dos postos sinalizados de Wilcoxon
mesma distribuição. Nesta seção você estudará o teste dos postos sinalizados de Wilcoxon
•• Como usar o teste da soma e o teste da soma dos postos de Wilcoxon. Ao contrário do teste dos sinais
dos postos de Wilcoxon da Seção 11.1, a força desses dois testes não paramétricos é que cada um
para determinar se duas considera a magnitude, ou tamanho, dos dados.
amostras independentes são Na Seção 8.3 você usou um teste t junto com amostras dependentes
selecionadas de populações para determinar se havia uma diferença entre duas populações. Para
que possuem a mesma usar o teste t e testar tal diferença, você deve supor (ou saber) que as
distribuição. amostras dependentes são selecionadas aleatoriamente de populações
que possuem uma distribuição normal. Mas o que você deve fazer quan-
do a suposição de normalidade não pode ser feita? Em vez de aplicar
o teste t usando duas amostras, você pode utilizar o teste dos postos
sinalizados de Wilcoxon.

Definição
O teste dos postos sinalizados de Wilcoxon é um teste não paramétrico
que pode ser usado para determinar se duas amostras dependentes foram
selecionadas de populações que possuem a mesma distribuição.

Instruções
Realizando um teste dos postos sinalizados de Wilcoxon
EM PALAVRAS EM SÍMBOLOS
1. Verifique se as amostras são aleató-
rias e dependentes.
2. Identifique a afirmação. Declare as hi- Formule H0 e Ha.
póteses nula e alternativa.
3. Especifique o nível de significância. Identifique a.
4. Determine o tamanho da amostra n,
que é o número de pares de dados
cuja diferença não é 0.
5. Determine o valor crítico. Use a Tabela B.9 no Apêndice B.
6. Encontre a estatística de teste ws. Cabeçalhos: Amostra 1,
a.  Complete uma tabela usando os Amostra 2, Diferença, Valor
cabeçalhos listados à direita. absoluto, Posto e Posto
sinalizado. Posto sinalizado
b. Encontre a soma dos postos positi-
adota o mesmo sinal de sua
vos e a soma dos postos negativos.
diferença correspondente.
Dica de estudo c. Selecione o menor valor absoluto
Lembre-se de que o valor absoluto das somas.
de um número é o seu valor, 7. Decida se rejeita ou não a hipótese Se ws é menor ou igual ao valor
desconsiderando seu sinal. Um nula. crítico, então rejeite H0. Caso
par de barras verticais, | |, é usado contrário, não rejeite H0.
para denotar o valor absoluto. Por 8. Interprete a decisão no contexto da
exemplo, |3| = 3 e |–7| = 7. afirmação original.
Capítulo 11  Testes não paramétricos  13

Exemplo 1

Realizando um teste dos postos sinalizados de Wilcoxon


Um fabricante de tacos de golfe afirma que os jogadores podem di-
minuir suas pontuações (números de tacadas) usando seus tacos de gol-
fe recém-projetados. A Tabela 11.5 mostra as pontuações de 10 golfistas
enquanto usam o modelo antigo e o modelo novo no mesmo campo de
golfe. Com a = 0,05, você aceita a afirmação do fabricante?

Tabela 11.5  Distribuição das pontuações dos golfistas.


Golfista 1 2 3 4 5 6 7 8 9 10
Pontuação (modelo antigo) 89 84 96 74 91 85 95 82 92 81
Pontuação (modelo novo) 83 83 92 76 91 80 87 85 90 77

Solução
A afirmação é “os jogadores podem diminuir suas pontuações”. Para
testar essa afirmação, use as seguintes hipóteses nula e alternativa:
H0: O novo modelo não diminui as pontuações.
Ha: O novo modelo diminui as pontuações. (Afirmação)
Esse teste dos postos sinalizados de Wilcoxon é um teste unilateral
com a = 0,05 e, como um par de dados tem uma diferença 0, n = 9 em vez
de 10. Da Tabela B.9 no Apêndice B, o valor crítico é 8. Para encontrar a
estatística de teste ws, complete conforme mostra a Tabela 11.6.

Tabela 11.6  Operações para o cálculo da estatística de teste.


Pontuação Pontuação
Valor Posto
(modelo (modelo Diferença Posto
absoluto sinalizado
antigo) novo)
89 83 6 6 8 8
84 83 1 1 1 1
96 92 4 4 5,5 5,5
74 76 –2 2 2,5 – 2,5
91 91 0 0 — —
85 80 5 5 7 7 Dica de estudo
95 87 8 8 9 9 Não atribua um posto para
qualquer diferença 0. No caso de
82 85 –3 3 4 – 4
um empate entre os valores dos
92 90 2 2 2,5 2,5 dados, use a média dos postos
81 77 4 4 5,5 5,5 correspondentes. Por exemplo,
quando dois valores de dados
A soma dos postos negativos é estão empatados para o 5º posto,
−2,5 + (−4) = −6,5. use a média de 5 e 6, que é 5,5,
A soma dos postos positivos é como o posto para ambos os
8 + 1 + 5,5 + 7 + 9 + 2,5 + 5,5 = 38,5. valores. Ao próximo valor será
atribuído um posto de 7, e não 6.
A estatística de teste é o menor valor absoluto dessas duas somas.
Quando três valores estão
Como |−6,5| < |38,5|, a estatística de teste é ws = 6,5. Uma vez que a es-
empatados para o 5º posto, use a
tatística de teste é menor que o valor crítico, isto é, 6,5 < 8, você rejeita
média de 5, 6 e 7, que é 6, como
a hipótese nula.
o posto para os três valores. Ao
Interpretação Há evidência suficiente, ao nível de significância de
próximo valor será atribuído um
5%, para concordar com a afirmação de que os golfistas podem diminuir
posto de 8.
suas pontuações (números de tacadas) usando os tacos recém-projetados.
14  Estatística aplicada

Retratando o mundo Tente você mesmo 1


Um inspetor de controle de qualidade quer testar a afirmação de
Para ajudar a determinar quando que um impermeabilizante em spray é eficaz. Para testar essa afirmação,
pacientes com artroscopia no ele seleciona 12 pedaços de tecido, borrifa água em cada um e mede a
joelho podem voltar a dirigir após quantidade de água repelida (em mililitros). Ele, então, aplica o imper-
a cirurgia, os tempos de reação meabilizante e repete o experimento. A Tabela 11.7 mostra os resulta-
na direção (em milissegundos) de dos. Com a = 0,01, ele pode concluir que o impermeabilizante é eficaz?
10 pacientes com artroscopia no
joelho direito foram medidos antes Tabela 11.7  Quantidade de água repelida.
da cirurgia e 4 semanas após a
cirurgia, usando um simulador de Tecido 1 2 3 4 5 6 7 8 9 10 11 12
carro ligado a um computador. Sem impermeabilizante 8 7 7 4 6 10 9 5 9 11 8 4
A tabela a seguir mostra os Com impermeabilizante 15 12 11 6 6 8 8 6 12 8 14 8
resultados. (Adaptado de Knee
Surgery, Sports Traumatology,
a. Identifique a afirmação e declare H0 e Ha.
Arthroscopy Journal.)
b. Identifique o nível de significância a.
c. Determine o tamanho da amostra n.
Paciente Tempo Tempo
de de d. Encontre o valor crítico.
reação reação 4 e. Encontre a estatística de teste ws montando uma tabela, encontran-
antes da semanas do a soma dos postos positivos e negativos e o valor absoluto de
cirurgia após a cada soma.
cirurgia f. Decida se rejeita a hipótese nula.
1 720 730 g. Interprete a decisão no contexto da afirmação original.
2 750 645
3 735 745
4 730 640 O teste da soma dos postos de Wilcoxon
5 755 660
Nas Seções 8.1 e 8.2 você usou um teste z (s1 e s2 conhecidos) ou um
6 745 670 teste t (s1 e s2 desconhecidos) junto de amostras independentes para de-
7 730 650 terminar se havia uma diferença entre duas populações. Para usar um teste
8 725 730 z ou um teste t para confirmar tal diferença, você deve supor (ou saber) que
as amostras são aleatórias e independentes e/ou as populações são normal-
9 770 675
mente distribuídas ou cada tamanho de amostra é pelo menos 30. Mas o
10 700 705 que você dever fazer quando as suposições de normalidade e tamanho da
amostra não puderem ser feitas? Você ainda pode comparar as populações
Com a = 0,05, você pode concluir usando o teste da soma dos postos de Wilcoxon.
que os tempos de reação
mudaram significativamente
Definição
quatro semanas após a cirurgia?
O teste da soma dos postos de Wilcoxon é um teste não paramétrico que
pode ser usado para determinar se duas amostras independentes foram sele-
cionadas de uma mesma população.

Um requisito para o teste da soma dos postos de Wilcoxon é que o ta-


manho de ambas as amostras deve ser pelo menos 10 (aproximar pela dis-
tribuição normal). Ao calcular a estatística de teste para o teste da soma
dos postos de Wilcoxon, faça n1 representar o tamanho da amostra menor
e n2 representar o tamanho da maior amostra. Quando as duas amostras
tiverem o mesmo tamanho, não importa qual é n1 ou n2.
Para calcular a soma dos postos R, combinar ambas as amostras e clas-
sificar os dados combinados. Então, somar os postos para a menor das duas
amostras. Quando as duas amostras têm o mesmo tamanho, você pode usar
os postos de qualquer uma, mas deve usar os postos da amostra que você
associa com n1.
Capítulo 11  Testes não paramétricos  15

Estatística de teste para o teste da soma dos postos de Wilcoxon Dica de estudo
Use o teste dos postos
Para duas amostras independentes, a estatística de teste z para o teste de
sinalizados de Wilcoxon para
soma dos postos de Wilcoxon é:
amostras dependentes e o teste
R - mR da soma dos postos de Wilcoxon
z=
sR para amostras independentes.
em que
R = soma dos postos para a menor amostra,
n1 1n1 + n2 + 12
mR = ,
2
e
n1 n2 1n1 + n2 + 12
sR = .
B 12

Instruções
Realizando um teste dos postos sinalizados de Wilcoxon
EM PALAVRAS EM SÍMBOLOS
1. Verifique que as amostras são aleató-
rias e independentes.
2. Identifique a afirmação. Declare as hi- Formule H0 e Ha.
póteses nula e alternativa.
3. Especifique o nível de significância. Identifique a.
4. Determine o(s) valor(es) crítico(s) e a(s) Use a Tabela B.4 no Apêndice B.
região(ões) de rejeição.
5. Determine os tamanhos das amostras. n1 ≤ n2
6. Encontre a soma dos postos para a me- R
nor amostra.
a.  Liste os dados combinados em or-
dem crescente.
b. Classifique os dados combinados.
c.  Adicione a soma dos postos para a
menor amostra, n1.
7. Encontre a estatística de teste e esbo- R - mR
ce a distribuição amostral. z=
sR
8. Decida se rejeita ou não a hipótese nula. Se z está na região de rejeição,
então rejeite H0.
Caso contrário, não rejeite H0.
9. Interprete a decisão no contexto da
afirmação original.

Exemplo 2

Realizando um teste da soma dos postos de Wilcoxon


A Tabela 11.8 mostra os salários (em milhares de dólares) de uma
amostra aleatória de 10 homens e 12 mulheres, representantes de ven-
das de produtos farmacêuticos. Com a = 0,10, você pode concluir que há
diferença entre o salário dos homens e das mulheres?
16  Estatística aplicada

Tabela 11.8  Salários.


Salários homens 78 93 114 101 98 94 86 95 117 99
Salários mulheres 86 77 101 93 85 98 91 87 84 97 100 90

Solução
A afirmação é “há diferença entre o salário dos homens e das mulhe-
res”.Para testar essa afirmação, use as hipóteses nula e alternativa a seguir:
H0: Não há diferença entre o salário de homens e mulheres.
Dica de estudo Ha: Há diferença entre o salário de homens e mulheres. (Afirmação)
Lembre-se, no caso de um Como o teste é bilateral com a = 0,10, os valores críticos são –z0 =
empate entre os valores dos –1,645 e z0 = 1,645. As regiões de rejeição são z < –1,645 e z > 1,645.
dados, use a média dos postos O tamanho da amostra para os homens é 10 e para as mulheres é 12.
correspondentes. Uma vez que 10 < 12, n1 = 10 e n2 = 12. Antes de calcular a estatística de
teste, você deve encontrar os valores de R, mR e sR. A Tabela 11.9 mostra
os dados combinados em ordem crescente e os postos correspondentes.

Tabela 11.9  Ordenando e classificando os valores.


Dados Dados
Amostra Posto Amostra Posto
ordenados ordenados
77 F 1 94 M 12
78 M 2 95 M 13
84 F 3 97 F 14
85 F 4 98 M 15,5
86 M 5,5 98 F 15,5
86 F 5,5 99 M 17
87 F 7 100 F 18
90 F 8 101 M 19,5
91 F 9 101 F 19,5
93 M 10,5 114 M 21
93 F 10,5 117 M 22

Como a menor amostra é a dos homens, R é a soma de seus postos.


R = 2 + 5,5 + 10,5 + 12 + 13 + 15,5 + 17 + 19,5 + 21 + 22 = 138
Usando n1 = 10 e n2 = 12, você pode encontrar mR e sR, conforme a
seguir.
n1 1n1 + n2 + 12 10 110 + 12 + 12 230
mR = = = = 115
2 2 2
n1 n2 1n1 + n2 + 12
sR =
B 12
1102 1122 110 + 12 + 12
=
B 12
2760
=
A 12
= 2230

≈ 15,17
Capítulo 11  Testes não paramétricos  17

Se R = 138, mR = 115 e sR ≈ 15,17, a estatística de teste é


R - mR
z=
sR
138 - 115

15,17

≈ 1,52.

A Figura 11.3 mostra a localização das regiões de rejeição e a estatís-


tica de teste z. Como z não está na região de rejeição, você não rejeita
a hipótese nula.

Figura 11.3  Distribuição normal, regiões de rejeição e estatística de teste.

1 − a = 0,90

1 1
a = 0,05 a = 0,05
2 2

z
-3 -1 0 1 2 3
-z0 = -1,645 z0 = 1,645
z ≈ 1,52

Interpretação  Não há evidência suficiente, ao nível de significân-


cia de 10%, para concluir que há diferença entre o salário de homens e
mulheres.

Tente você mesmo 2


Você está investigando as indenizações de seguro de automóvel pa-
gas (em milhares de dólares) por duas companhias de seguros. A Tabela
11.10 apresenta uma amostra aleatória de 12 indenizações pagas pelas
duas companhias seguradoras. Com a = 0,05, você pode concluir que há
uma diferença nas indenizações pagas pelas companhias?

Tabela 11.10  Indenizações de seguro.


Companhia A 6,2 10,6 2,5 4,5 6,5 7,4
Companhia B 7,3 5,6 3,4 1,8 2,2 4,7
Companhia A 9,9 3,0 5,8 3,9 6,0 6,3
Companhia B 10,8 4,1 1,7 3,0 4,4 5,3

a. Identifique a afirmação e declare H0 e Ha.


b. Identifique o nível de significância a.
c. Encontre o(s) valor(es) crítico(s) e identifique a(s) região(ões) de
rejeição.
d. Determine o tamanho das amostras n1 e n2.
e. Liste os dados combinados em ordem crescente, classifique os dados
e encontre a soma dos postos da menor amostra.
f. Encontre a estatística de teste z. Esboce um gráfico.
g. Decida se rejeita a hipótese nula.
h. Interprete a decisão no contexto da afirmação original.
18  Estatística aplicada

11.2  Exercícios
Construindo habilidades básicas e vocabulário res) de uma amostra aleatória de 10 trabalhadores
do mercado atacadista e 10 trabalhadores da indús-
1. Como você sabe se deve usar um teste dos postos sina- tria. Com a = 0,10, você pode rejeitar a afirmação
lizados de Wilcoxon ou um teste da soma dos postos de do analista? (Adaptado de U.S. Bureau of Econo-
mic Analysis.)
Wilcoxon?
2. Qual é a condição para o tamanho de cada amostra ao Mercado atacadista 69 62 63 77 60
usar o teste da soma dos postos de Wilcoxon? Fabricação 69 65 54 72 52

Mercado atacadista 66 71 74 72 69
Usando e interpretando conceitos
Fabricação 63 74 56 62 50

Realizando um teste de Wilcoxon  Nos exercícios 3 a 8, 5. Salário por grau  Um administrador de faculdade
afirma que há uma diferença no salário de pessoas
(a) identifique a afirmação e declare H0 e Ha. com grau de bacharel e aquelas com grau de pós-gra-
duação. A tabela a seguir mostra os salários (em mi-
(b) decida se deve usar um teste dos postos sinalizados
lhares de dólares) de uma amostra aleatória de 11
de Wilcoxon ou um teste da soma dos postos de bacharéis e 10 pessoas pós-graduadas. Com a = 0,05,
Wilcoxon. há evidência suficiente para confirmar a afirmação do
(c) encontre o(s) valor(es) crítico(s). administrador? (Adaptado de U.S. Census Bureau.)

(d) encontre a estatística de teste. Bacharel 56 52 65 78 72 52

(e) decida se rejeita ou não a hipótese nula. Pós-graduação 84 87 95 81 86 86

(f) 
interprete a decisão no contexto da afirmação Bacharel 46 58 62 54 56
original. Pós-graduação 93 93 90 82
3. Suplementos de cálcio e pressão sanguínea  Em um
estudo testando os efeitos de suplementos de cálcio 6. Dores de cabeça  Um médico pesquisador quer determi-
na pressão sanguínea masculina, 12 homens foram es- nar se um novo remédio afeta o número de horas de dor
colhidos aleatoriamente e receberam um suplemento de cabeça pelas quais passam pessoas que sofrem desse
de cálcio por 12 semanas. A tabela a seguir mostra as mal. Para tanto, o pesquisador seleciona aleatoriamente
medições da pressão sanguínea diastólica, para cada sete pacientes e pede que cada um informe o número de
indivíduo, tirada antes e depois do período de 12 se- horas de dor de cabeça (por dia) que cada um sente antes
manas de tratamento. Com a = 0,01, você pode rejei-
e depois de tomar o remédio. A tabela a seguir mostra os
tar a afirmação de que não houve redução na pressão
sanguínea diastólica? (Adaptado de The Journal of resultados. Com nível de significância a = 0,05, o pesqui-
American Medical Association.) sador pode concluir que o novo remédio afeta o número
de horas de dor de cabeça?
Paciente 1 2 3 4
Paciente 1 2 3 4
Antes do tratamento 108 109 120 129
Horas de dor de cabeça (antes) 0,8 2,4 2,8 2,6
Depois do tratamento 99 115 105 116
Horas de dor de cabeça (depois) 1,6 1,3 1,6 1,4
Paciente 5 6 7 8
Paciente 5 6 7
Antes do tratamento 112 111 117 135
Horas de dor de cabeça (antes) 2,7 0,9 1,2
Depois do tratamento 115 117 108 122
Horas de dor de cabeça (depois) 1,5 1,6 1,7
Paciente 9 10 11 12
7. Salários de professores  Um representante do sindi-
Antes do tratamento 124 118 130 115
cato de professores afirma que há uma diferença nos
Depois do tratamento 120 126 128 106 salários recebidos por professores em Wisconsin e Mi-
chigan. A tabela a seguir mostra os salários (em milha-
4. Comércio atacadista e fabricação  Um analista de res de dólares) de uma amostra aleatória de 11 profes-
indústria privada afirma que não há diferença nos sores em Wisconsin e 12 professores em Michigan.
salários recebidos por trabalhadores do comércio Com a = 0,05, há evidência suficiente para aceitar a
atacadista e das indústrias manufatureiras. A tabe- afirmação do representante? (Adaptado de National
la a seguir mostra os salários (em milhares de dóla- Education Association.)
Capítulo 11  Testes não paramétricos  19

vo de combustível. A tabela a seguir mostra os resulta-


Wisconsin 55 59 49 56 51 61
dos. Com a = 0,10, o engenheiro pode concluir que o
Michigan 64 68 58 65 60 70 desempenho melhorou?

Wisconsin 55 61 53 47 52 Carro 1 2 3 4 5 6
Michigan 64 70 62 56 61 79 Sem aditivo 36,4 36,4 36,6 36,6 36,8 36,9
Com aditivo 36,7 36,9 37,0 37,5 38,0 38,1
8. Frequência cardíaca  Um médico quer determinar se
uma medicação experimental afeta a frequência cardí- Carro 7 8 9 10 11 12
aca de um indivíduo. O médico seleciona aleatoriamen-
te 15 pacientes e mede a frequência cardíaca de cada Sem aditivo 37,0 37,1 37,2 37,2 36,7 37,5
um. Os indivíduos tomam, então, o medicamento e têm Com aditivo 38,4 38,7 38,8 38,9 36,3 38,9
suas frequências cardíacas medidas novamente após
uma hora. A tabela a seguir mostra os resultados. Para Carro 13 14 15 16 17 18
um nível de significância a = 0,05, o médico pode con-
Sem aditivo 37,6 37,8 37,9 37,9 38,1 38,4
cluir que a medicação experimental afeta a frequência
cardíaca de um indivíduo? Com aditivo 39,0 39,1 39,4 39,4 39,5 39,8

Paciente 1 2 3 4 5 Carro 19 20 21 22 23 24
Frequência cardíaca (antes) 72 81 75 76 79 Sem aditivo 40,2 40,5 40,9 35,0 32,7 33,6
Frequência cardíaca (depois) 73 80 75 79 74 Com aditivo 40,0 40,0 40,1 36,3 32,8 34,2

Paciente 6 7 8 9 10 Carro 25 26 27 28 29 30
Frequência cardíaca (antes) 74 65 67 76 83 Sem aditivo 34,2 35,1 35,2 35,3 35,5 35,9
Frequência cardíaca (depois) 76 73 67 74 77 Com aditivo 34,7 34,9 34,9 35,3 35,9 36,4

Paciente 11 12 13 14 15 Carro 31 32 33
Frequência cardíaca (antes) 66 75 76 78 68 Sem aditivo 36,0 36,1 37,2
Frequência cardíaca (depois) 70 77 76 75 74 Com aditivo 36,6 36,6 38,3

10. Aditivo de combustível  Um engenheiro de petróleo


Expandindo conceitos afirma que um aditivo de combustível melhora o de-
sempenho. A tabela a seguir mostra o desempenho (em
milhas por galão) de 32 carros selecionados aleatoria-
Teste dos postos sinalizados de Wilcoxon para mente, medido com e sem o aditivo de combustível. Tes-
n > 30  Quando você está realizando um teste dos pos- te a afirmação do engenheiro de petróleo com a = 0,05.
tos sinalizados de Wilcoxon e o tamanho da amostra n é
maior que 30, você pode usar a Tabela Normal Padrão Carro 1 2 3 4 5 6 7 8
e a fórmula a seguir para encontrar a estatística de teste. Sem aditivo 34,0 34,2 34,4 34,4 34,6 34,8 35,6 35,7
Com aditivo 36,6 36,7 37,2 37,2 37,3 37,4 37,6 37,7
n 1n + 12
ws - Carro 9 10 11 12 13 14 15 16
4
z=
n 1n + 12 12n + 12 Sem aditivo 30,2 31,6 32,3 33,0 33,1 33,7 33,7 33,8

B 24 Com aditivo 34,2 34,9 34,9 34,9 35,7 36,0 36,2 36,5

Carro 17 18 19 20 21 22 23 24
Nos exercícios 9 e 10, realize o teste dos postos sinaliza- Sem aditivo 35,7 36,1 36,1 36,6 36,6 36,8 37,1 37,1
dos de Wilcoxon indicado usando a estatística de teste
Com aditivo 37,8 38,1 38,2 38,3 38,3 38,7 38,8 38,9
para n > 30.
9. Aditivo de combustível  Um engenheiro de petróleo Carro 25 26 27 28 29 30 31 32
quer saber se certo aditivo de combustível melhora o
Sem aditivo 37,2 37,9 37,9 38,0 38,0 38,4 38,8 42,1
desempenho de um carro. Para decidir, o engenheiro
registra o desempenho (em milhas por galão) de 33 Com aditivo 39,1 39,1 39,2 39,4 39,8 40,3 40,8 43,2
carros selecionados aleatoriamente com e sem o aditi-
20  Estatística aplicada

Estudo de caso
Classificação das faculdades
A cada ano, a Forbes e o Center for College Affordability and Productivi-
ty lançam uma lista das melhores instituições de ensino superior nos Estados
Unidos. Seiscentas e cinquenta instituições de ensino superior são classificadas
de acordo com a qualidade da educação, proporção de graduação em 4 anos,
resultados da pós-graduação, dívida média do estudante após 4 anos e número
de estudantes que ganharam prêmios competitivos, tais como bolsas de estudos.
A tabela a seguir mostra o total de estudantes de instituições de ensino supe-
rior selecionadas aleatoriamente, por região, na lista de 2012.
Total de estudantes em cada uma das 40 instituições
Nordeste Centro-Oeste Sul Oeste
1.778 14.399 6.224 1.474
14.754 14.697 13.893 1.041
8.768 3.547 29.617 30.467
2.632 2.231 16.198 72.254
21.067 5.324 2.454 18.004
1.619 12.554 27.386 33.395
4.991 11.528 811 1.596
822 23.863 4.188 1.859
15.128 3.082 24.753 12.925
18.055 1.407 44.616 7.155

Exercícios
1. Construa um boxplot lado a lado para as quatro 4. A população total mediana de estudantes em ins-
regiões. Apenas observando o gráfico, é possível tituições no Sul é 10.000.
perceber duas ou mais medianas “próximas” ? Al- 5. A população total mediana de estudantes em ins-
guma parece ser diferente? tituições no Oeste é diferente de 8.000.
Nos exercícios 2 a 5, use o teste dos sinais para testar Nos exercícios 6 e 7, use o teste da soma dos postos
a afirmação. O que você pode concluir? Use a = 0,05. de Wilcoxon para testar a afirmação. Use a = 0,01.
2. A população total mediana de estudantes em ins- 6. Não há diferença entre a população total de estudan-
tituições no Nordeste é menor ou igual a 7.000. tes para as instituições no Centro-Oeste e no Oeste.
3. A população total mediana de estudantes em insti- 7. Há diferença entre a população total de estudan-
tuições no Centro-Oeste é maior ou igual a 8.000. tes para as instituições no Nordeste e no Sul.

O que você deve aprender 11.3  Teste de Kruskal-Wallis


•• Como usar o teste de O teste de Kruskal-Wallis
Kruskal-Wallis para determinar
se três ou mais amostras
foram selecionadas de O teste de Kruskal-Wallis
populações que apresentam
Na Seção 10.4 você aprendeu como usar técnicas da ANOVA com um fa-
a mesma distribuição.
tor para comparar as médias de três ou mais populações. Ao usar a ANOVA
com um fator, você deve verificar se cada amostra independente é sele-
Capítulo 11  Testes não paramétricos  21

cionada de uma população com distribuição normal, ou aproximadamente


normal. Quando você não pode concluir que as populações são normais,
você ainda pode comparar as distribuições de três ou mais populações.
Para tanto, você pode usar o teste de Kruskal-Wallis.

Definição
O teste de Kruskal-Wallis é um teste não paramétrico que pode ser usado
para determinar se três ou mais amostras independentes foram selecionadas
de populações que possuem a mesma distribuição.

Para um teste de Kruskal-Wallis, as hipóteses nula e alternativa são


sempre semelhantes às seguintes afirmações:
H0: Todas as populações possuem a mesma distribuição.
Ha: Pelo menos uma população possui uma distribuição que é diferen-
te das demais.
As condições para usar o teste de Kruskal-Wallis são que as amostras
devem ser aleatórias e independentes, e o tamanho de cada amostra deve
ser pelo menos 5. Se essas condições são satisfeitas, então a distribuição
amostral para o teste de Kruskal-Wallis é aproximada por uma distribuição
qui-quadrado com k – 1 graus de liberdade, em que k é o número de amos-
tras. Você pode calcular a estatística de teste de Kruskal-Wallis usando a
fórmula descrita a seguir.

Estatística de teste para o teste de Kruskal-Wallis


Para três ou mais amostras independentes, a estatística de teste para o teste
de Kruskal-Wallis é:

12 R12 R22 R2k


H= a + + c+ b - 3 1N + 12
N 1N + 12 n1 n2 nk

em que
k é o número de amostras,
ni é o tamanho da i-ésima amostra,
N é a soma dos tamanhos das amostras,
e
Ri é a soma dos postos da i-ésima amostra.

Realizar um teste de Kruskal-Wallis consiste em combinar e classi-


ficar em ordem crescente os dados amostrais. Após, os postos são então
separados de acordo com a amostra e a soma dos postos de cada amostra
é calculada.
Essas somas são então usadas para calcular a estatística de teste H, que
é uma aproximação da variância das somas dos postos. Quando as amostras
são selecionadas de populações que possuem a mesma distribuição, as so-
mas dos postos serão, em geral, aproximadamente iguais, H será pequeno,
e você provavelmente não deve rejeitar a hipótese nula.
Quando as amostras são selecionadas de populações que não possuem
a mesma distribuição, as somas dos postos poderão ser muito diferentes, H
será grande e você provavelmente deve rejeitar a hipótese nula.
Como só se rejeita a hipótese nula quando H é significativamente gran-
de, o teste de Kruskal-Wallis é sempre um teste unilateral à direita.
22  Estatística aplicada

Instruções
Realizando um teste de Kruskal-Wallis
EM PALAVRAS EM SÍMBOLOS
1. Verifique se as amostras são aleatórias
e independentes, e cada tamanho de
amostra é pelo menos 5.
2. Identifique a afirmação. Declare as hi- Formule H0 e Ha.
póteses nula e alternativa.
3. Especifique o nível de significância. Identifique a.
4. Identifique os graus de liberdade g.l. = k – 1
5. Determine o valor crítico e a região de Use a Tabela B.6 no Apêndice B.
rejeição.
6. Encontre a soma dos postos para cada
amostra.
a. Liste os dados combinados em or-
dem crescente.
b. Classifique os dados combinados.
7. Encontre a estatística de teste e esbo- 12
H= #
ce a distribuição amostral. N 1N + 12
R12 R22 R2k
a + + c+ b
n1 n2 nk
- 3 1N + 12
8. Decida se rejeita ou não rejeita a hipó- Se H está na região de
tese nula. rejeição, então rejeite H0.
Caso contrário, não rejeite H0.
9. Interprete a decisão no contexto da
afirmação original.

Exemplo 1

Realizando um teste de Kruskal-Wallis


Tabela 11.11  N
 úmero de crimes Você quer comparar o número de crimes denunciados em três dele-
denunciados por gacias policiais em uma cidade. Para tal, você seleciona aleatoriamente
semana. 10 semanas para cada delegacia e registra o número de crimes denun-
ciados. A Tabela 11.11 mostra os resultados. Com a = 0,01, você pode
101ª 106ª 113ª
concluir que a distribuição do número de crimes denunciados em pelo
delegacia delegacia delegacia
menos uma delegacia é diferente das demais?
(Amostra (Amostra (Amostra
1) 2) 3)
Solução
60 65 69
Você quer testar a afirmação de que a distribuição do número de cri-
52 55 51 mes denunciados em pelo menos uma delegacia é diferente das demais.
49 64 70 As hipóteses nula e alternativa são as seguintes:
52 66 61 
H0: A distribuição do número de crimes denunciados é a mesma
50 53 67 nas três delegacias.
48 58 65 
Ha: A distribuição do número de crimes denunciados em pelo me-
57 50 62 nos uma delegacia é diferente das demais. (Afirmação)
45 54 59 O teste é unilateral à direita com a = 0,01 e g.l. = k – 1 = 3 –
44 70 60
1 = 2. Da Tabela B.6 no Apêndice B, o valor crítico é x02 = 9,210.
A região de rejeição é x2 > 9,210. Para calcular a estatística de
56 62 63
teste, você deve encontrar a soma dos postos para cada amostra.
Capítulo 11  Testes não paramétricos  23

A Tabela 11.12 mostra os dados combinados listados em ordem cres-


cente e os correspondentes postos.

Tabela 11.12  Ordenação dos dados e respectivos postos.


Dados Dados Dados
Amostra Posto Amostra Posto Amostra Posto
ordenados ordenados ordenados
44 101a 1 54 106a 11 62 113a 20,5
45 101 a
2 55 106a
12 63 113 a
22
48 101 a
3 56 101 a
13 64 106 a
23
49 101a 4 57 101a 14 65 106a 24,5
50 101a 5,5 58 106a 15 65 113a 24,5
50 106a
5,5 59 113a
16 66 106 a
26
51 113a
7 60 101 a
17,5 67 113 a
27
52 101a 8,5 60 113a 17,5 69 113a 28
52 101 a
8,5 61 113a
19 70 106 a
29,5
53 106a
10 62 106a
20,5 70 113 a
29,5

A soma dos postos para cada amostra é:


R1 = 1 + 2 + 3 + 4 + 5,5 + 8,5 + 8,5 + 13 + 14 + 17,5 = 77
R2 = 5,5 + 10 + 11 + 12 + 15 + 20,5 + 23 + 24,5 + 26 + 29,5 = 177
R3 = 7 + 16 + 17,5 + 19 + 20,5 + 22 + 24,5 + 27 + 28 + 29,5 = 211
Usando essas somas e os valores n1 = 10, n2 = 10, n3 = 10 e N = 30, a
estatística de teste é:
12 772 1772 2112
H= a + + b - 3 130 + 12 ≈ 12,521.
30 130 + 12 10 10 10

A Figura 11.4 mostra a localização da região de rejeição e a estatística


de teste H. Como H está na região de rejeição, você rejeita a hipótese nula.
Interpretação  Há evidência suficiente, ao nível de significância de
1%, para aceitar a afirmação de que a distribuição do número de crimes
denunciados em pelo menos uma delegacia é diferente das demais.

Figura 11.4  D
 istribuição qui-quadrado, região de rejeição e estatística
de teste.

a = 0,01

x2
2 4 6 8 10 12 14

H ≈ 12,521
x2 = 9,210
0
24  Estatística aplicada

Retratando o mundo Tente você mesmo 1


Você quer comparar os salários de veterinários que trabalham no
As informações a seguir, Texas, na Flórida e em Ohio. Para compará-los, você seleciona aleato-
coletadas aleatoriamente, riamente diversos veterinários em cada estado e registra seus salários.
foram usadas para comparar A Tabela 11.13 mostra os salários (em milhares de dólares). Com a =
as temperaturas da água (em 0,05, você pode concluir que a distribuição dos salários dos veterinários
graus Fahrenheit) de cidades em pelo menos um estado é diferente das demais? (Adaptado de U.S.
na fronteira com o Golfo do Bureau of Labor Statistics.)
México. (Adaptado de National
Oceanographic Data Center.) Tabela 11.13  Salários de veterinários.

Cedar Eugene Dauphin TX (Amostra 1) FL (Amostra 2) OH (Amostra 3)


Key Island, Island, 99,6 95,2 94,9
FL LA AL 97,2 100,6 99,4
(Amostra (Amostra (Amostra
98,5 98,3 106,2
1) 2) 3)
100,4 102,8 90,9
62 51 63
100,9 93,9 84,5
69 55 51
95,9 103,2 95,7
77 57 54
99,4 98,7 96,3
59 63 60
87,9 93,3 93,0
60 74 75
113,6 102,4 93,2
75 82 80
102,9
83 85 70
65 60 78
a. Identifique a afirmação e declare H0 e Ha.
79 64 82
b. Identifique o nível de significância a.
86 76 84
c. Identifique os graus de liberdade.
82 83
d. Encontre o valor crítico e identifique a região de rejeição.
86
e. Liste os dados combinados em ordem crescente, classifique-os e en-
Com a = 0,05, você pode concluir contre a soma dos postos de cada amostra.
que pelo menos uma distribuição f. Encontre a estatística de teste H. Esboce um gráfico.
de temperatura é diferente das g. Decida se rejeita a hipótese nula.
demais?
h. Interprete a decisão no contexto da afirmação original.

11.3  Exercícios
Construindo habilidades básicas e vocabulário 3. Seguro residencial  A tabela a seguir mostra os prê-
mios anuais para uma amostra aleatória de apólices de
1. Quais são as condições para usar um teste de seguro residencial em Connecticut, Massachusetts e Vir-
Kruskal-Wallis? ginia. Para um nível de significância a = 0,05, você pode
concluir que a distribuição dos prêmios anuais em pelo
2. Explique por que o teste de Kruskal-Wallis é sempre menos um estado é diferente das demais? (Adaptado de
um teste unilateral à direita. National Association of Insurance Commissioners.)

Estado Prêmio anual (em dólares)


Usando e interpretando conceitos Connecticut 1.053 848 1.013 1.163
Massachusetts 1.132 1.052 1.007 1.322
Realizando um teste de Kruskal-Wallis  Nos exer-
Virginia 885 800 616 695
cícios 3 a 6, (a) identifique a afirmação e declareH0 e Ha,
(b) encontre o valor crítico e identifique a região de re- Connecticut 1.288 929 1.070
jeição, (c) encontre a estatística de teste, (d) decida entre
Massachusetts 1.137 916 784
rejeitar ou não a hipótese nula e (e) interprete a decisão
no contexto da afirmação original. Virginia 982 688 605
Capítulo 11  Testes não paramétricos  25

4. Remuneração por hora  Um pesquisador quer deter- Quantidade de cafeína


minar se há diferença nas taxas de remuneração por Bebida em porções de 16 onças
hora para enfermeiras registradas em Indiana, Kentu- (em miligramas)
cky e Ohio. O pesquisador seleciona aleatoriamente
Cafés 266
diversas enfermeiras registradas em cada estado e ano-
ta a variação da remuneração por hora de cada uma. A Refrigerantes 71 72 47
tabela a seguir mostra os resultados. Com a = 0,05, o Energéticos 154 166
pesquisador pode concluir que a distribuição das taxas Chás 32 10
de remuneração por hora das enfermeiras registradas
em pelo menos um estado é diferente das demais?
(Adaptado de U.S. Bureau of Labor Statistics.)
Expandindo conceitos
Taxa de remuneração Comparando dois testes  Nos exercícios 7 e 8,
Estado
horária (em dólares) (a) realize um teste de Kruskal-Wallis.
Indiana 27,61 28,06 26,46 27,21 (b) realize um teste ANOVA com um fator, supondo
Kentucky 26,66 25,29 27,81 29,91 que cada população é normalmente distribuída e as
Ohio 26,94 31,34 32,74 33,01 variâncias populacionais são iguais. Se for conveniente,
use tecnologia.
Indiana 30,05 24,91 29,25 (c) compare os resultados.
Kentucky 28,26 31,31 24,31 7. Estadia de pacientes em hospitais  Um agente de segu-
Ohio 26,44 28,99 ros afirma que o número de dias que pacientes passam
no hospital é diferente em pelo menos uma região dos
5. Salários anuais  A tabela a seguir mostra os salários Estados Unidos. A tabela a seguir mostra o número de
anuais para uma amostra aleatória de trabalhadores da dias que pacientes selecionados aleatoriamente passa-
indústria privada em Kentucky, Carolina do Norte, Ca- ram no hospital em quatro regiões dos Estados Unidos.
rolina do Sul e West Virginia. Com a = 0,10, você pode Para o nível de significância a = 0,01, você pode concor-
concluir que a distribuição dos salários anuais dos tra- dar com a afirmação do agente de seguros? (Adaptado
balhadores da indústria privada em pelo menos um de U.S. National Center for Health Statistics.)
estado é diferente das demais? (Adaptado de U.S. Bu-
reau of Labor Statistics.) Região Número de dias
Nordeste 8 6 6 3 5
Salário anual Centro-Oeste 5 4 3 9 1
Estado
(em milhares de dólares)
Sul 5 8 1 5 8
Kentucky 35,3 37,0 45,9 57,5 Oeste 2 3 6 6 5
Carolina do Norte 43,5 41,9 36,6 54,3
Nordeste 11 3 8 1 6
Carolina do Sul 29,8 37,4 43,5 42,9
Centro-Oeste 4 6 3 4 7
West Virginia 31,6 42,7 33,4 41,9 Sul 7 5 1
Kentucky 33,7 28,3 35,3 Oeste 4 3 6 5
Carolina do Norte 35,5 39,6 43,5 8. Consumo de energia  A tabela a seguir mostra a
Carolina do Sul 34,7 36,1 29,8 energia consumida (em milhões de Btus) em um ano
para uma amostra aleatória de domicílios de quatro
West Virginia 47,1 34,9 31,6
regiões dos Estados Unidos. Com a = 0,01, você pode
concluir que a energia consumida é diferente em pelo
6. Teor de cafeína  A tabela a seguir mostra as quantidades
menos uma região? (Adaptado de U.S. Energy Infor-
de cafeína (em miligramas) em porções de 16 onças para
mation Administration.)
uma amostra aleatória de bebidas. Com a = 0,01, você pode
concluir que a distribuição das quantidades de cafeína em Energia consumida
pelo menos uma bebida é diferente das demais? (Adapta- Região
(em milhões de Btus)
do de Center for Science in the Public Interest.)
Nordeste 61 95 140 127 93 97
Quantidade de cafeína Centro-Oeste 59 158 169 140 95 187
Bebida em porções de 16 onças Sul 86 35 67 86 142 69
(em miligramas) Oeste 81 39 85 35 113 46
Cafés 320 300 206 150
Nordeste 84 123 89 163
Refrigerantes 95 96 56 51
Centro-Oeste 123 104 88 37 72
Energéticos 200 141 160 152 Sul 65 62
Chás 100 106 42 15 Oeste 125 70 77 63
26  Estatística aplicada

O que você deve aprender 11.4  Correlação de postos


•• Como usar o coeficiente O coeficiente de correlação de postos de Spearman
de correlação de postos de
Spearman para determinar
se a correlação entre duas
variáveis é significativa.
O coeficiente de correlação de postos de Spearman
Na Seção 9.1 você aprendeu como medir a força da relação entre duas
variáveis usando o coeficiente de correlação de Pearson r. Dois requisitos
para o coeficiente de correlação de Pearson são que as variáveis sejam li-
nearmente relacionadas e que tenham uma distribuição normal bivariada.
Quando esses requisitos não podem ser satisfeitos, você pode examinar a
relação entre duas variáveis usando o equivalente não paramétrico para
o coeficiente de correlação de Pearson — o coeficiente de correlação de
postos de Spearman.
O coeficiente de correlação de postos de Spearman tem várias vanta-
gens em relação ao coeficiente de correlação de Pearson. Por exemplo,
o coeficiente de correlação de postos de Spearman pode ser usado para
descrever a relação entre dados lineares e não lineares. Também pode ser
usado para dados no nível ordinal. Sem o auxílio de “tecnologia”, o coefi-
ciente de Spearman é mais fácil de ser calculado.

Definição
O coeficiente de correlação de postos de Spearman rs é uma medida da
força da relação entre duas variáveis. O coeficiente de correlação de postos de
Spearman é calculado usando-se os postos dos valores de amostras pareadas.
Se não houver empates nos postos de ambas as variáveis, a fórmula para o
coeficiente de correlação de postos de Spearman será:
6Σd 2
rs = 1 -
n (n 2 - 1)

em que n é o número de pares de valores e d é a diferença entre os postos


de cada par. Se houver poucos empates nos postos, em relação ao número
de pares de dados, então a fórmula ainda poderá ser usada para aproximar rs.

Os valores de rs variam de –1 a 1, inclusive. Quando os postos em cada


par de dados correspondentes são exatamente idênticos, rs é igual a 1. Quan-
do os postos estão em ordem “inversa”(em cada par a soma dos postos é
n + 1), rs é igual a –1. Quando os postos de pares de dados correspondentes
não têm relação, rs é igual a 0.
Após calcular o coeficiente de correlação de postos de Spearman, você
pode verificar se a correlação entre as variáveis é significativa. Pode fazer
essa determinação realizando um teste de hipótese para o coeficiente de
correlação da população rs. As hipóteses nula e alternativa para esse teste
são as seguintes:
H0: rs = 0 (Não há correlação entre as variáveis.)

Ha: rs ≠ 0 (Há correlação significativa entre as variáveis.)


A Tabela B.10 no Apêndice B lista os valores críticos para o coeficiente
de correlação de postos de Spearman para níveis de significância e tama-
nhos de amostra selecionados. A estatística de teste para o teste de hipóte-
se é o coeficiente de correlação de postos de Spearman rs.
Capítulo 11  Testes não paramétricos  27

Instruções
Testando a significância do coeficiente de correlação de postos de
Spearman
EM PALAVRAS EM SÍMBOLOS
1. Identifique a afirmação. Declare as
Formule H0 e Ha.
hipóteses nula e alternativa.
2. Especifique o nível de significância. Identifique a.
3. Determine o valor crítico. Use a Tabela B.10 no Apêndice B.
4. Encontre a estatística de teste. 6Σd 2
rs = 1 -
n (n 2 - 1)
5. Tome uma decisão para rejeitar ou não Se |rs| é maior que o valor crítico,
rejeitar a hipótese nula. então rejeite H0. Caso contrário,
não rejeite H0.
6. Interprete a decisão no contexto da
afirmação original.

Exemplo 1

Coeficiente de correlação de postos de Spearman


A Tabela 11.14 mostra as matrículas de homens e mulheres para uma
amostra aleatória de 10 faculdades. Com a = 0,05, você pode concluir
que há correlação significativa entre o número de homens e o número
de mulheres matriculados em uma faculdade?

Tabela 11.14  N
 úmeros de homens e de mulheres matriculados
em 10 faculdades.
Homem Mulher
1.786 2.182
4.246 4.415
1.419 1.537
1.188 1.236
2.394 2.182
1.079 919
4.049 4.209
3.595 3.741
1.102 1.086
1.345 1.282

Solução
A afirmação é “há uma correlação significativa entre o número de
homens e o número de mulheres matriculados em uma faculdade”. As
hipóteses nula e alternativa estão listadas a seguir.
H0: rs = 0 (Não há correlação entre o número de homens e o número
de mulheres matriculados em uma faculdade.)
Ha: rs ≠ 0 (Há correlação significativa entre o número de homens e
o número de mulheres matriculados em uma faculdade.)
(Afirmação)
28  Estatística aplicada

Cada conjunto de dados tem 10 valores. Como a = 0,05 e n = 10, o


valor crítico é 0,648. Para calcular a estatística de teste, você deve en-
contrar Σd2, a soma dos quadrados das diferenças dos postos dos con-
juntos de dados. Você pode usar uma tabela para calcular Σd2, conforme
mostrado na Tabela 11.15.

Tabela 11.15  Operações para o cálculo do coeficiente de correlação rs.


Homem Posto Mulher Posto d d2
1.786 6 2.182 6,5 –0,5 0,25
4.246 10 4.415 10 0 0
1.419 5 1.537 5 0 0
1.188 3 1.236 3 0 0
2.394 7 2.182 6,5 0,5 0,25
1.079 1 919 1 0 0
4.049 9 4.209 9 0 0
Dica de estudo 3.595 8 3.741 8 0 0
Lembre-se, no caso 1.102 2 1.086 2 0 0
de empate entre os valores 1.345 4 1.282 4 0 0
do par, use a média dos
Σd 2 = 0,5
postos correspondentes.
Uma vez que n = 10 e Σd2 = 0,5, a estatística de teste é:
6Σd 2
rs = 1 -
n (n2 - 1)
6 10,52
= 1-
Retratando o mundo 10 (102 - 1)

A tabela a seguir mostra os preços ≈ 0,997.


de varejo (em dólares por libra)
Como |rs| ≈ 0,997 > 0,648, você rejeita a hipótese nula.
para 100% carne moída e frango
Interpretação  Há evidência suficiente, ao nível de significância de
inteiro fresco para uma amostra
5%, para concluir que há correlação significativa entre o número de
aleatória de nove mercearias nos
homens e o número de mulheres matriculados em uma faculdade.
EUA. (Adaptado de U.S. Bureau of
Labor Statistics.) Tente você mesmo 1
A Tabela 11.16 mostra os preços (em dólares por alqueire) recebidos
Carne Frango para aveia e trigo em uma amostra de sete agricultores americanos. Com
2,38 1,28 a = 0,10, você pode concluir que há uma correlação significativa entre os
2,36 1,25 preços da aveia e do trigo? (Adaptado de U.S. Department of Agriculture.)
2,19 1,23 Tabela 11.16  Preços relativos a aveia e trigo.
2,29 1,25 Aveia 4,04 4,38 4,03 4,05 4,21 4,02 4,04
2,39 1,28 Trigo 7,96 8,13 7,72 7,97 8,01 7,75 7,98
2,20 1,22
2,38 1,27 a. Identifique a afirmação e declare H0 e Ha.
2,38 1,26 b. Identifique o nível de significância a.
2,38 1,26
c. Encontre o valor crítico.
d. Use uma tabela para calcular Σd2.
Existe correlação significativa e. Encontre a estatística de teste rs.
entre os preços da carne moída f. Decida se rejeita a hipótese nula.
e do frango nas mercearias dos g. Interprete a decisão no contexto da afirmação original.
EUA? Use a = 0,10.
Capítulo 11  Testes não paramétricos  29

11.4  Exercícios
Construindo habilidades básicas e vocabulário 0,05, você pode concluir que há uma correlação signifi-
cativa entre a pontuação geral e o preço? (Fonte: Con-
1. Cite algumas vantagens do coeficiente de correlação de sumer Report.)
postos de Spearman sobre o coeficiente de correlação
de Pearson. Pontuação geral 77 75 73
2. Descreva os limites do coeficiente de correlação de postos Preço (em dólares) 3.700 1.700 1.300
de Spearman e do coeficiente de correlação de Pearson.
Pontuação geral 71 66 66
3. O que significa quando rs é igual a 1? O que significa quan-
do rs é igual a –1? O que significa quando rs é igual a 0? Preço (em dólares) 900 1.000 1.400
4. Explique, com suas palavras, o que rs e rs representam
Pontuação geral 64 62 58
no Exemplo 1.
Preço (em dólares) 1.800 1.000 700

Usando e interpretando conceitos 7. Preços de colheita  A tabela a seguir mostra os preços


(em dólares por alqueire) recebidos para cevada e milho
Testando uma afirmação  Nos exercícios 5 a 8, (a) em uma amostra aleatória de nove agricultores ameri-
identifique a afirmação e declare H0 e Ha, (b) encontre canos. Com a = 0,05, você pode concluir que há uma
o valor crítico, (c) encontre a estatística de teste rs, (d) correlação significativa entre os preços da cevada e do
decida se rejeita ou não a hipótese nula e (e) interprete milho? (Adaptado de U.S. Department of Agriculture.)
a decisão no contexto da afirmação original.
Cevada 5,42 5,40 5,35 5,70 5,72
5. Despesas agrícolas  Em um relatório agrícola, um
Milho 6,05 6,28 6,34 6,36 6,36
analista de commodities afirma que há uma correlação
significativa entre despesas com compra de sementes e
Cevada 5,48 6,33 6,45 6,46
despesas com fertilizantes e cal nos negócios agrícolas.
A tabela a seguir mostra as despesas totais com compra Milho 6,35 7,16 7,65 6,90
de sementes e despesas com fertilizantes e cal para fa-
8. Aspiradores de pó  A tabela a seguir mostra as pontua-
zendas em oito estados selecionados aleatoriamente,
ções gerais e os preços para uma amostra aleatória de 12
para um ano recente. Para o nível a = 0,05, há evidência
modelos diferentes de aspiradores de pó. A pontuação
suficiente para aceitar a afirmação do analista? (Adap- geral representa limpeza de carpete e piso, fluxo de ar,
tado de U.S. Department of Agriculture.) manuseio, barulho e emissões. Com a = 0,10, você pode
concluir que há uma correlação significativa entre a pon-
Despesas com Despesas com tuação geral e o preço? (Fonte: Consumer Report.)
compra de fertilizantes
Estado sementes (em e cal (em Pontuação geral 73 65 60 71
milhões de milhões de Preço (em dólares) 230 400 600 350
dólares) dólares)
Arkansas 430 490 Pontuação geral 62 39 67 64
Califórnia 1.070 1.640 Preço (em dólares) 100 300 600 700
Flórida 330 520
Pontuação geral 68 60 70 55
Kentucky 164 360
Preço (em dólares) 140 200 80 300
Michigan 610 557
Carolina do Norte 340 460
Notas de teste e RNB  Nos exercícios 9 a 12,
Ohio 710 893 use a tabela a seguir, que mostra as notas médias
Washington 250 380 alcançadas em ciências e matemática por pessoas
de 15 anos de idade, juntamente com as Rendas
6. Aparelhos de exercício  A tabela a seguir mostra as Nacionais Brutas (RNB) de nove países selecio-
pontuações gerais e os preços para uma amostra alea- nados aleatoriamente para um ano recente. (A
tória de nove modelos diferentes de equipamentos de RNB é uma medida do valor total dos bens e ser-
exercício elíptico. A pontuação geral representa a ergo- viços produzidos pela economia de um país.)
nomia, amplitude do exercício, facilidade de uso, cons- (Fonte: Organization for Economic Cooperation
trução, monitoramento cardíaco e segurança. Com a = and Development; The World Bank.)
30  Estatística aplicada

RNB (em 13. Acidentes de trabalho  A tabela a seguir mostra a


Média de Média de média de horas trabalhadas por semana e o número
País bilhões de
ciências matemática de acidentes no local de trabalho para uma amostra
dólares)
aleatória de empresas dos Estados Unidos em um ano
Canadá 527 529 1.317 recente. Com a = 0,10, você pode concluir que há uma
França 497 498 2.668 correlação significativa entre a média de horas traba-
lhadas e o número de acidentes no local de trabalho?
Alemanha 513 520 3.379
Itália 483 489 2.101 Horas trabalhadas 46 43 41 40 41 42 45
Japão 529 539 5.170 Acidentes 22 25 18 17 20 22 28
México 419 416 866 Horas trabalhadas 45 42 45 44 44 45 46
Espanha 483 488 1.429 Acidentes 29 24 26 26 25 27 29
Suécia 494 495 414
Horas trabalhadas 47 47 46 46 49 50 50
Estados
487 502 13.924 Acidentes 29 30 29 29 30 30 30
Unidos

Horas trabalhadas 42 41 42 41 41 41 41
9. Ciências e RNB Com a = 0,10, você pode concluir que
há uma correlação significativa entre as notas alcança- Acidentes 23 22 23 21 19 18 18
das em ciências e a RNB?
Horas trabalhadas 40 39 38 39 39
10. Matemática e RNB Com a = 0,10, você pode concluir
Acidentes 17 16 16 16 16
que há uma correlação significativa entre as notas alcan-
çadas em matemática e a RNB?
14. Acidentes de trabalho na construção  A tabela a se-
11. Ciências e matemática Com a = 0,10, você pode con- guir mostra a média de horas trabalhadas por semana
cluir que há uma correlação significativa entre as notas e o número de acidentes no local de trabalho para
alcançadas em ciências e matemática? uma amostra aleatória de empresas de construção dos
Estados Unidos em um ano recente. Com a = 0,05,
12. Escrevendo um resumo  Use os resultados dos exercí-
você pode concluir que há uma correlação significati-
cios 9 a 11 para escrever um resumo sobre a correlação va entre a média de horas trabalhadas e o número de
(ou falta de correlação) entre as notas dos testes e a RNB. acidentes no local de trabalho?

Horas trabalhadas 38 38 37 38 38 40 39
Expandindo conceitos
Acidentes 11 11 9 10 10 17 15

Testando o coeficiente de correlação de postos de Horas trabalhadas 39 39 40 39 41 41 42


Spearman para n > 30  Quando você está testando Acidentes 14 14 16 15 17 17 21
a significância do coeficiente de correlação de postos de
Spearman e o tamanho da amostra n é maior que 30, você Horas trabalhadas 41 41 41 42 42 42 42
pode usar a seguinte expressão para encontrar o valor crítico. Acidentes 18 18 18 22 21 19 21
{z Horas trabalhadas 41 41 39 38 38 39 39
, z (variável normal padronizada)
2n - 1 correspondente ao nível de significância Acidentes 18 17 12 12 11 13 12

Nos exercícios 13 e 14, teste o coeficiente de correlação Horas trabalhadas 36 37 36 37 37 37 37


de postos de Spearman. Acidentes 6 6 6 6 7 8 7

O que você deve aprender 11.5  Teste de corridas


•• Como usar o teste de corridas O teste de corridas para aleatoriedade
para determinar se um
conjunto de dados é aleatório. O teste de corridas para aleatoriedade
Ao obter uma amostra de dados, é importante que eles sejam selecio-
nados aleatoriamente. Mas como você sabe se os dados amostrais são real-
mente aleatórios? Um modo de testar a aleatoriedade em um conjunto de
dados é usar um teste de corridas para aleatoriedade.
Capítulo 11  Testes não paramétricos  31

Antes de usar o teste de corridas para aleatoriedade, você deve saber


como determinar o número de corridas em um conjunto de dados.

Definição
Uma corrida é uma série de dados que possuem a mesma característica.
Cada corrida é precedida e seguida por dados com uma característica diferen-
te ou por nenhum dado. O número de dados em uma corrida é chamado de
extensão da corrida.

Exemplo 1

Encontrando o número de corridas


Uma máquina de distribuição de líquidos foi projetada para encher
garrafas de um litro. Um inspetor de controle de qualidade decide se
cada garrafa é enchida até um nível aceitável: se passa na inspeção (P)
ou se falha na inspeção (F). Determine o número de corridas para cada
série e encontre a extensão de cada corrida.
1. P P P P P P P P F F F F F F F F
2. P F P F P F P F P F P F P F P F
3. P P F F F F P F F F P P P P P P

Solução
1. Há duas corridas. Os primeiros 8 Ps formam uma corrida de exten-
são 8 e os primeiros 8 Fs formam outra corrida de extensão 8, con-
forme mostrado a seguir:
P P P P P P P P FFFFFFFF
1ª corrida 2ª corrida
2. Há 16 corridas, cada uma com extensão 1, conforme mostrado a seguir:

P F P F P F P F P F P F P F P F
1ª 2ª 16ª
3. Há 5 corridas, a primeira de extensão 2, a segunda de extensão 4, a
terceira de extensão 1, a quarta de extensão 3 e a quinta de extensão
6, conforme mostrado a seguir:
P P F F F F P F F F P P P P P P
1ª corrida 2ª corrida 3ª corrida 4ª corrida 4ª corrida

Tente você mesmo 1


Uma máquina produz um tipo de peça de motor. Um inspetor mede
o diâmetro de cada peça e determina se a peça passa na inspeção (P) ou
se falha na inspeção (F). Os resultados são mostrados a seguir. Determi-
ne o número de corridas na série e encontre a extensão de cada corrida.
P P P F P F P P P P F F P F P P F F F P P P F P P P
a. Separe os dados cada vez que houver uma mudança na característica
da informação.
b. Conte o número de grupos para determinar o número de corridas.
c. Conte o número de dados dentro de cada corrida para determinar a
extensão.
32  Estatística aplicada

Quando cada valor em um conjunto de dados pode ser categorizado em


uma de duas categorias separadas, você pode usar o teste de corridas para
aleatoriedade para determinar se os dados são aleatórios.

Definição
O teste de corridas para aleatoriedade é um teste não paramétrico que pode
ser usado para determinar se uma sequência de dados amostrais é aleatória.

O teste de corridas para aleatoriedade considera o número de corridas


em uma série de dados amostrais a fim de testar se a sequência é aleatória.
Quando uma sequência tem muito poucas corridas ou corridas demais, ge-
ralmente ela não é aleatória. Por exemplo, a série:
P P P P P P P P F F F F F F F F
do Exemplo 1, parte 1, tem muito poucas corridas (apenas 2). A série:
P F P F P F P F P F P F P F P F
do Exemplo 1, parte 2, tem corridas demais (16). Então, esses dados amos-
trais provavelmente não são aleatórios.
Você pode usar um teste de hipótese para determinar se o número de cor-
ridas em uma série de dados amostrais é muito alto ou muito baixo. O teste de
corridas é um teste bilateral, e as hipóteses nula e alternativa são apresentadas:
H0: A sequência de dados é aleatória.

Ha: A sequência de dados não é aleatória.


Ao usar o teste de corridas, faça n1 representar o número de dados que
possui uma característica e n2 o número de dados que possui a segunda
característica. Não importa qual característica você escolhe para ser repre-
sentada por n1. Faça G representar o número de corridas.
n1 = número de dados com uma característica.
n2 = número de dados com outra característica.
G = número de corridas.
A Tabela B.12 no Apêndice B lista os valores críticos para o teste de
corridas para valores selecionados de n1 e n2 para o nível de significân-
cia a = 0,05. (Neste texto, você usará apenas o nível de significância a =
0,05 quando realizar testes de corridas.) Quando n1 ou n2 são maiores
que 20, você pode usar a distribuição normal padrão para encontrar os
valores críticos.
Você pode calcular a estatística de teste para o teste de corridas con-
forme segue.

Estatística de teste para o teste de corridas


Quando n1 ≤ 20 e n2 ≤ 20, a estatística de teste para o teste de corridas é G,
o número de corridas.
Quando n1 > 20 ou n2 > 20, a estatística de teste para o teste de corridas é:
G - mG
z=
sG

em que

2n1n2 2n1n2 12n1n2 - n1 - n22


mG = + 1 e sG = .
n1 + n2 B 1n1 + n222 1n1 + n2 - 12
Capítulo 11  Testes não paramétricos  33

Instruções
Testando a significância do coeficiente de correlação de postos de
Spearman
EM PALAVRAS EM SÍMBOLOS
1. Identifique a afirmação. Declare as Formule H0 e Ha.
hipóteses nula e alternativa.
2. Especifique o nível de significância. Identifique a.
(Use a = 0,05 para o teste de corridas.)
3. Determine o número de dados que Determine n1, n2 e G.
possui cada característica e o número
de corridas.
4. Determine os valores críticos. Quando n1 ≤ 20 e n2 ≤ 20,
use a Tabela B.12 no Apêndice B.
Quando n1 > 20 ou n2 > 20, use
a Tabela B.4 no Apêndice B.
5. Encontre a estatística de teste. Quando n1 ≤ 20 e n2 ≤ 20, use G.
Quando n1 > 20 ou n2 > 20, use
G - mG
z= s
G .

6. Tome uma decisão para rejeitar ou não Se G é menor ou igual ao valor


rejeitar a hipótese nula. crítico inferior ou maior igual
ao valor crítico superior, então
rejeite H0. Caso contrário, não
rejeite H0. Ou, se z está na
região de rejeição, então
rejeite H0. Caso contrário,
não rejeite H0.
7. Interprete a decisão no contexto da
afirmação original.

Exemplo 2

Usando o teste de corridas


À medida que as pessoas entram em um concerto, um funcionário
registra onde elas se sentam. Os resultados para 13 pessoas são mostra-
dos a seguir, em que I representa os assentos na parte inferior e S repre-
senta os assentos na parte superior. Com a = 0,05, você pode concluir
que a sequência de locais de assento não é aleatória?
I I I S S I S S S I I S I

Solução
A afirmação é “a sequência de locais de assento não é aleatória”.
Para testar essa afirmação, use as hipóteses nula e alternativa.
H0: A sequência de locais de assento é aleatória.

Ha: A sequência de locais de assento não é aleatória. (Afirmação)


Para encontrar os valores críticos, primeiro determine n1, o número
de Is; n2, o número de Ss; e G, o número de corridas.
34  Estatística aplicada

I I I S S I S S S I I S I


1ª corrida 2ª corrida 3ª corrida 4ª corrida 5ª corrida 6ª corrida 7ª corrida
n1 = número de Is = 7
n2 = número de Ss = 6
G = número de corridas = 7
Como n1 ≤ 20, n2 ≤ 20 e a = 0,05, use a Tabela B.12 para encontrar o
valor crítico inferior 3 e o valor crítico superior 12. A estatística de teste
é o número de corridas G = 7. Uma vez que a estatística de teste G está
entre os valores críticos 3 e 12, você não rejeita a hipótese nula.
Interpretação  Não há evidência suficiente, ao nível de significân-
cia de 5%, para concordar com a afirmação de que a corrida de locais
de assento não é aleatória. Então, aceita-se que a corrida de locais de
assento é aleatória.

Tente você mesmo 2


Os gêneros de 15 estudantes ao entrarem em uma sala de aula são
mostrados a seguir, em que F representa o sexo feminino e M represen-
ta o sexo masculino. Com a = 0,05, você pode concluir que a série de
gêneros não é aleatória?
M F F F M M F F M F M M F F F

a. Identifique a afirmação e declare H0 e Ha.


b. Identifique o nível de significância a.
c. Determine n1, n2, e G.
d. Encontre os valores críticos.
e. Encontre a estatística de teste G.
f. Decida se rejeita a hipótese nula.
g. Interprete a decisão no contexto da afirmação original.

Exemplo 3

Usando o teste de corridas


Você quer determinar se a seleção de funcionários recentemente
contratados em uma grande empresa é aleatória em relação ao gênero.
Os gêneros de 36 funcionários recém-contratados são mostrados a se-
guir: F representa o sexo feminino e M o sexo masculino. Com a = 0,05,
você pode concluir que a sequência de funcionários não é aleatória?
M M F F F F M M M M M M F F F F F M M

M M M M M F F F M M M M F M M F M

Solução
A afirmação é: “a sequência de funcionários não é aleatória”. Para
testar essa afirmação, use as hipóteses nula e alternativa.
H0: A sequência de funcionários é aleatória.

Ha: A sequência de funcionários não é aleatória. (Afirmação)


Para encontrar os valores críticos, primeiro determine n1, o número
de Fs; n2, o número de Ms; e G, o número de corridas.
Capítulo 11  Testes não paramétricos  35

M M F F F F M M M M M M


1ª corrida 2ª corrida 3ª corrida
F F F F F M M M M M M M
4ª corrida 5ª corrida Retratando o mundo
F F F M M M M F M M F M
A tabela a seguir mostra a confe-
6ª corrida 7ª corrida 8ª corrida 9ª corrida 10ª corrida 11ª corrida rência da Liga Nacional de Futebol
Americano (NFL) de cada time
n1 = número de Fs = 14
vencedor do Super Bowl I ao Su-
n2 = número de Ms = 22 per Bowl XLVII, em que A repre-
G = número de corridas = 11 senta a Conferência Americana de
Como n2 > 20, use a Tabela B.4 no Apêndice B para encontrar os Futebol e N representa a Confe-
valores críticos. Uma vez que o teste é bilateral com a = 0,05, os valores rência Nacional de Futebol. (Fonte:
críticos são: National Football League.)
–z0 = –1,96
e

Conferência

Conferência
z0 = 1,96.

Ano

Ano
Antes de calcular a estatística de teste, encontre os valores de mG e
sG, como a seguir:
2n1 n2 1967 N 1991 N
mG = +1
n1 + n2 1968 N 1992 N
2 1142 1222 1969 A 1993 N
= +1
14 + 22 1970 A 1994 N

616 1971 A 1995 N


= +1 1972 N 1996 N
36
1973 A 1997 N
≈ 18,11.
1974 A 1998 A
2n1n2 12n1n2 - n1 - n22 1975 A 1999 A
sG =
B 1n1 + n22 1n1 + n2 - 12
2
1976 A 2000 N
1977 A 2001 A
21142 1222 [21142 1222 - 14 - 22]
= 1978 N 2002 A
B 114 + 2222 114 + 22 - 12
1979 A 2003 N
≈ 2,81. 1980 A 2004 A
Você pode encontrar a estatística de teste como a seguir: 1981 A 2005 A
G - mG 1982 N 2006 A
z=
sG 1983 N 2007 A

11 - 18,11 1984 A 2008 N


≈ 1985 N 2009 A
2,81
1986 N 2010 N
≈ - 2,53.
1987 N 2011 N
A Figura 11.5 mostra a localização das regiões de rejeição e a estatísti- 1988 N 2012 N
ca de teste z. Como z está na área de rejeição, você rejeita a hipótese nula.
1989 N 2013 A
Interpretação  Há evidência suficiente, ao nível de significância
5%, para aceitar a afirmação de que a sequência de funcionários em 1990 N
relação ao gênero não é aleatória.
Com a = 0,05, você pode concluir
Tente você mesmo 3 que a sequência de conferências
dos times vencedores do Super
Seja S um dia com neve em uma cidade pequena e N um dia sem
Bowl é aleatória?
neve na mesma cidade. Os resultados para a nevada para o mês inteiro
36  Estatística aplicada

Figura 11.5  Distribuição normal, de janeiro são mostrados a seguir. Com a = 0,05, você pode concluir que
regiões de rejeição a série não é aleatória?
e estatística de teste.
N N N S S N N S N S N N N N N S
1 - a = 0,95
N S N S N N S N S S N N N N N
1
a = 0,025 1
a = 0,025 a. Identifique a afirmação e declare H0 e Ha.
2 2
b. Identifique o nível de significância a.
c. Determine n1, n2, e G.
z
−3 −2 −1 0 1 2 3 d. Encontre os valores críticos.
z ≈ -2,53 − z0 = -1,96 z0 = 1,96 e. Encontre a estatística de teste z.
f. Decida se rejeita a hipótese nula.
g. Interprete a decisão no contexto da afirmação original.

Quando n1 ou n2 é maior que 20, você também pode usar o valor p para
concluir um teste de hipótese para a aleatoriedade dos dados. No Exemplo
3, você pode calcular o valor p como 0,0114. Já que p < a, você rejeita a
hipótese nula.

11.5  Exercícios
Construindo habilidades básicas e vocabulário 11. T F T F T F T F T F T F
12. M F M M M M M M F F M M
1. Com suas palavras, explique por que o teste de hipótese
13. N S S S N N N N N S N S N S S N N N
discutido nesta seção é chamado de teste de corridas.
2. Descreva a estatística de teste para o teste de corridas 14. X X X X X X X Y Y Y Y Y Y Y Y Y Y Y Y Y Y
quando os tamanhos de amostra n1 e n2 são menores ou Realizando um teste de corridas  Nos exercícios 15
iguais a 20 e quando ou n1 ou n2 são maiores que 20. a 20, (a) identifique a afirmação e declare H0 e Ha, (b)
encontre os valores, (c) encontre a estatística de teste, (d)
Usando e interpretando conceitos decida se rejeita ou não a hipótese nula e (e) interprete a
decisão no contexto da afirmação original. Use a = 0,05.
Encontrando o número de corridas  Nos exercícios 15. Lançamento de moeda Um treinador registra os resul-
3 a 6, determine o número de corridas na série dada. tados do lançamento de moeda no início de cada jogo
Então encontre a extensão de cada corrida. de futebol em uma temporada. Os resultados estão a
seguir: H representa cara e T representa coroa. O trei-
3. T F T F T T T F F F T F
nador afirmou que os lançamentos não eram aleatórios.
4. U U D D U D U U D D U D U U Teste a afirmação do treinador.
5. M F M F M F F F F F F M M M F F M M 
H T T T H T H H T T T T H T H H
M M
16. Senado  A sequência mostra o partido majoritário do
6. A A A B B B A B B A A A A A A B A A  Senado americano após cada eleição para um grupo
B A B B de anos recente, R representa o partido Republicano e
7. Encontre os valores de n1 e n2 no Exercício 3. D representa o partido Democrata. Você pode con-
8. Encontre os valores de n1 e n2 no Exercício 4. cluir que a série não é aleatória? (Fonte: U.S. Senate.)
R D D D R R R R R R R D D D D D D D
9. Encontre os valores de n1 e n2 no Exercício 5.
R D D R D D D D D D D D D D D D D
10. Encontre os valores de n1 e n2 no Exercício 6. R R R D D D D R R R D R R D D D D
17. Beisebol  A sequência mostra o time vencedor de
Encontrando os valores críticos  Nos exercícios 11
cada Série Mundial da Liga Principal de Beisebol, de
a 14, use a série e a Tabela B.12 no Apêndice B para de- 1969 a 2012, N representa a Liga Nacional e A repre-
terminar o número de corridas consideradas muito altas senta a Liga Americana. Você pode concluir que a sé-
e o daquelas consideradas muito baixas para os dados rie de times vencedores da Série Mundial não é alea-
estarem em ordem aleatória. tória? (Fonte: Major League Baseball.)
Capítulo 11  Testes não paramétricos  37

N A N A A A N N A A N N N N A Expandindo conceitos


A A N A N A N A A A N A N A A
A N A N A A N A N A N N N Teste de corridas com dados quantitativos  Nos
18. Gerador de números  Um gerador de números exercícios 21 a 23, use a seguinte informação para reali-
produz a série de dígitos mostrada a seguir, O repre- zar um teste de corridas. Você também pode usar o teste
senta um dígito ímpar e E representa um dígito par. de corridas para aleatoriedade com dados quantitativos.
Teste a afirmação de que os dígitos não foram gera- Primeiro, calcule a mediana. Então atribua um sinal de
dos aleatoriamente. + aos valores acima da mediana e um sinal – aos valo-
O O O E E E E O O O O O E E E E res abaixo da mediana. Ignore quaisquer valores que
O O E E E E O O O O E E E E O O sejam iguais à mediana. Use a = 0,05.
19. Identificação canina  Uma equipe de veterinários re-
gistra, em ordem, o sexo de cada cachorro que recebe 21. Temperaturas máximas diárias  A sequência mostra
um microchip em seu hospital veterinário, em um mês. as temperaturas máximas diárias (em graus Fahre-
O sexo dos cachorros que recentemente receberam o nheit) de uma cidade durante o mês de julho. Teste a
microchip são mostrados a seguir, F representa o sexo afirmação de que as temperaturas máximas diárias
feminino e M representa o sexo masculino. Um veteri- não ocorrem aleatoriamente.
nário afirma que os microchips são aleatórios por 84 87 92 93 95 84 82 83 81 87 92 98 99 93 84 85
sexo. Você tem evidência suficiente para rejeitar a afir- 86 92 91 95 84 92 83 81 87 92 98 89 93 84 85
mação do veterinário?
22. Notas das provas  A sequência mostra as notas das
M M F M F F F F F M M M F F
provas de uma turma, baseada na ordem em que os
F M F F F F F M F F F M F F F alunos terminaram o exame. Teste a afirmação de que
20. Torneio de golfe  Um representante de torneio de as notas ocorrem aleatoriamente.
golfe registra se cada vencedor nasceu nos Estados
Unidos (A) ou em outro país (F). Os resultados são 83 94 80 76 92 89 65 75 82 87 90 91 81 99 97 72
mostrados para cada ano que o torneio existiu. Você 72 89 90 92 87 76 74 66 88 81 90 92 89 76 80
pode concluir que a sequência não é aleatória?
F F A F F A F F A F F A F F A F F A F F 23. Use uma ferramenta tecnológica para gerar uma sequên-
F F F F A F F A F F A F F A F F A F A F cia de 30 números entre 1 e 99, inclusive. Teste a afir-
F A F F F F F A F F F F F A F F F A mação de que a sequência de números não é aleatória.

Usos e abusos – Estatística no mundo real


Usos
Testes não paramétricos  Antes de poder realizar não exigem qualquer informação em particular sobre
vários dos testes de hipótese que você aprendeu nos a população ou populações sendo testadas. Outra van-
capítulos anteriores, você tinha que garantir que certas tagem dos testes não paramétricos é que eles são mais
condições sobre a população eram satisfeitas. Por exem- fáceis de ser realizados do que seus equivalentes pa-
plo, antes de poder executar um teste t, você tinha que ramétricos. Isso significa que eles são mais fáceis de en-
verificar se a população era normalmente distribuída, tender e mais rápidos de usar. Testes não paramétricos
ou o tamanho da amostra era de pelo menos 30. Uma podem ser usados frequentemente quando os dados
vantagem dos testes não paramétricos mostrada neste estão no nível nominal ou ordinal.
capítulo é que eles são de distribuição livre. Isto é, eles

Abusos
Evidência insuficiente  É necessária evidência mais zada. Pode ser que uma amostra maior produza resul-
forte para rejeitar a hipótese nula em um teste não tados diferentes.
paramétrico do que em um correspondente teste pa- Usando um teste inapropriado  Em geral, quando
ramétrico. Isto é, quando você está tentando apoiar informações sobre a população (tais como a condição
uma afirmação representada pela hipótese alternativa, de normalidade) são conhecidas, é mais eficiente usar
você pode precisar de uma amostra maior ao realizar um teste paramétrico. Quando informações sobre a
um teste não paramétrico. Quando o resultado de um população não são conhecidas, no entanto, os testes
teste não paramétrico leva à não rejeição da hipótese não paramétricos podem ser úteis.
nula, você deve investigar o tamanho da amostra utili-
38  Estatística aplicada

Exercícios
1. Evidência insuficiente  Dê um exemplo de um teste não paramétrico
no qual não há evidência suficiente para rejeitar a hipótese nula.
2. Usando um teste inapropriado  Discuta os testes não paramétricos
descritos neste capítulo e relacione cada teste com seu correspondente
paramétrico, que você estudou em capítulos anteriores.

  Resumo do capítulo
Exercícios
O que você aprendeu Exemplo(s) de revisão

Seção 11.1
•• Como usar o teste dos sinais para testar uma mediana populacional
1x + 0,52 - 0,5n
z= 1e2 1–3 e 6
1n
2
•• Como usar o teste dos sinais para amostras pareadas para testar a dife-
3 4e5
rença entre duas medianas populacionais (amostras dependentes)
Seção 11.2
•• Como usar o teste dos postos sinalizados de Wilcoxon e o teste da soma
dos postos de Wilcoxon para determinar se duas amostras são seleciona-
das de populações que possuem a mesma distribuição
1e2 7e8
R - mR n1 1n1 + n2 + 12 n1n2 1n1 + n2 + 12
z= , mR = , sR =
sR 2 B 12

Seção 11.3
•• Como usar o teste de Kruskal-Wallis para determinar se três ou mais
amostras foram selecionadas de populações que apresentam a mesma
distribuição
1 9 e 10
12 R21 R22 R2k
H= a + + c+ b - 3 1N + 12
N 1N + 12 n1 n2 nk

Seção 11.4
•• Como usar o coeficiente de correlação de postos de Spearman para de-
terminar se a correlação entre duas variáveis é significativa
1 11 e 12
6Σd 2
rs = 1 -
n (n2 - 1)

Seção 11.5
•• Como usar o teste de corridas para determinar se uma sequência de da-
1e3 13 e 14
dos é aleatória

G - mG 2n1n2 2n1n2 12n1n2 - n1 - n22


G = número de corridas, z = , mG = + 1, sG =
sG n1 + n2 B 1n1 + n222 1n1 + n2 - 12
Capítulo 11  Testes não paramétricos  39

A Tabela 11.17 resume os testes paramétricos e não paramétricos. Sem-


pre use o teste paramétrico quando as condições para tal são satisfeitas.

Tabela 11.17  Resumo.


Aplicação do teste Teste paramétrico Teste não paramétrico
Teste z para uma média populacional Teste dos sinais para uma mediana
Testes para uma amostra
Teste t para uma média populacional populacional

Teste dos sinais para amostras


Testes para duas amostras
Teste t para a diferença entre médias pareadas
Amostras dependentes
Teste dos postos sinalizados de Wilcoxon

Teste z para a diferença entre médias


Amostras independentes Teste da soma dos postos de Wilcoxon
Teste t para a diferença entre médias
Testes envolvendo três ou mais
ANOVA com um fator Teste de Kruskal-Wallis
amostras
Coeficiente de correlação de postos de
Correlação Coeficiente de correlação de Pearson
Spearman
Aleatoriedade (Sem teste paramétrico) Teste de corridas

  Exercícios de revisão
Seção 11.1 3. Uma agência governamental afirma que a duração me-
diana da sentença para todos os prisioneiros federais é
Nos exercícios 1 a 6, use um teste dos sinais para testar de 2 anos. Em uma amostra aleatória de 180 prisionei-
a afirmação seguindo as etapas. ros federais, 65 possuem durações de sentença que são
inferiores a 2 anos, 109 possuem durações de sentença
(a) Identifique a afirmação e declare H0 e Ha. que são superiores a dois anos e 6 possuem durações de
(b) Encontre o valor crítico. sentença que são de 2 anos. Com a = 0,10, você pode
rejeitar a afirmação da agência? (Adaptado de U.S. Sen-
(c) Encontre a estatística de teste. tencing Commision.)
(d) Decida se rejeita ou não a hipótese nula. 4. Em um estudo testando os efeitos de suplementos de
cálcio na pressão sanguínea masculina, 10 homens sele-
(e) Interprete a decisão no contexto da afirmação cionados aleatoriamente tomaram um suplemento de
original. cálcio por 12 semanas. A tabela a seguir mostra as medi-
ções da pressão sanguínea diastólica para cada indiví-
1. Um gerente de banco afirma que o número mediano de
duo, tiradas antes e depois do período de 12 semanas de
clientes, por dia, não passa de 650. Os números de clientes tratamento. Com a = 0,05, você pode rejeitar a afirmação
bancários, por dia, para 17 dias selecionados aleatoriamen- de que não houve redução na pressão sanguínea diastó-
te estão listados a seguir. Para nível de significância a = lica? (Adaptado de American Medical Association.)
0,01, você pode rejeitar a afirmação do gerente de banco?
Paciente 1 2 3 4 5
675 665 601 642 554 653 639 650 645
550 677 569 650 660 682 689 590 Antes do tratamento 107 110 123 129 112
Depois do tratamento 100 114 105 112 115
2. Uma empresa afirma que a pontuação mediana de cré-
dito para adultos americanos é de pelo menos 710. As Paciente 6 7 8 9 10
pontuações de crédito de 13 adultos americanos sele- Antes do tratamento 111 107 112 136 102
cionados aleatoriamente estão listadas a seguir. Com
Depois do tratamento 116 106 102 125 104
a = 0,05, você pode rejeitar a afirmação da empresa?
(Adaptado de Fair Isaac Corporation.)
5. Em um estudo testando os efeitos de um suplemento
750 782 805 695 700 706 625 de ervas na pressão sanguínea masculina, 11 homens
589 690 772 745 704 710 selecionados aleatoriamente tomaram um suplemento
de ervas por 12 semanas. A tabela a seguir mostra as
40  Estatística aplicada

medições da pressão sanguínea diastólica para cada in- 8. Um pesquisador médico afirma que um novo remé-
divíduo, tiradas antes e depois do período de 12 sema- dio afeta o número de horas sentindo dor de cabe-
nas de tratamento. Para um nível de significância a = ça que as pessoas que sofrem desse mal passaram. O
0,05, você pode rejeitar a afirmação de que não houve número de horas com dor de cabeça (por dia) de 8
redução na pressão sanguínea diastólica? (Adaptado
pacientes selecionados aleatoriamente antes e depois
de The Journal of the American Medical Association.)
de tomar o remédio é mostrado na tabela a seguir.
Paciente 1 2 3 4 Com a = 0,05, você pode confirmar a afirmação do
Antes do tratamento 123 109 112 102 pesquisador?

Depois do tratamento 124 97 113 105 Paciente 1 2 3 4

Paciente 5 6 7 8 Horas de dor de cabeça (antes) 0,9 2,3 2,7 2,4

Antes do tratamento 98 114 119 112 Horas de dor de cabeça (depois) 1,4 1,5 1,4 1,8

Depois do tratamento 95 119 114 114 Paciente 5 6 7 8


Paciente 9 10 11 Horas de dor de cabeça (antes) 2,9 1,9 1,2 3,1
Antes do tratamento 110 117 130 Horas de dor de cabeça (depois) 1,3 0,6 0,7 1,9
Depois do tratamento 121 118 133

6. Uma associação afirma que o salário mediano anual de Seção 11.3


advogados é de US$ 112.800. Em uma amostra aleatória
de 125 advogados, 76 recebiam menos de US$ 112.800
Nos exercícios 9 e 10, use o teste de Kruskal-Wallis para
e 49 recebiam mais de US$ 112.800. Com a = 0,05, você
testar a afirmação seguindo as etapas.
pode rejeitar a afirmação da associação? (Adaptado de
U.S. Bureau of Labor Statistics.) (a) Identifique a afirmação e declare H0 e Ha.
(b)Encontre o valor crítico e identifique a região de
Seção 11.2 rejeição.
(c) Encontre a estatística de teste H.
Nos exercícios 7 e 8, use um teste de Wilcoxon para tes-
(d) Decida se rejeita ou não a hipótese nula.
tar a afirmação seguindo as etapas:
(e) 
Interprete a decisão no contexto da afirmação
(a) Identifique a afirmação e declare H0 e Ha.
original.
(b) Decida se deve usar um teste dos postos sinaliza-
9. A tabela a seguir mostra as idades para uma amostra
dos de Wilcoxon ou um teste da soma dos postos de aleatória de doutorandos em três áreas de estudo. Com
Wilcoxon. a = 0,01, você pode concluir que a distribuição das ida-
(c) Encontre o(s) valor(es) crítico(s). des dos doutorandos em pelo menos uma área de estu-
do é diferente das demais? (Adaptado de Survey of
(d) Encontre a estatística de teste. Earned Doctorates.)
(e) Decida se rejeita ou não a hipótese nula. Área de estudo Idade
(f) 
Interprete a decisão no contexto da afirmação Ciências da vida 31 32 34 31 30 32
original. Ciências físicas 30 31 32 31 30 29
7. Um consultor de colocação profissional afirma que há Ciências sociais 32 35 31 33 34 31
uma diferença nos tempos totais necessários para obter o
grau de doutorado, por homens e mulheres estudantes de
Ciências da vida 35 31 32 34 29
pós-graduação. A tabela a seguir mostra os tempos totais
(em anos) para obter o doutorado para uma amostra alea- Ciências físicas 31 30 32 33 30
tória de 12 mulheres e 12 homens estudantes de pós-gra- Ciências sociais 35 36 32 30 33
duação. Com a = 0,01, você pode aceitar a afirmação do
consultor? (Adaptado de Survey of Earned Doctorates.)
10. A tabela a seguir mostra o salário inicial para uma
Mulher 12 11 9 12 11 8 amostra aleatória de graduados em quatro campos
da engenharia. Com a = 0,05, você pode concluir
Homem 10 7 8 10 9 7
que a distribuição dos salários iniciais em pelo me-
nos um campo da engenharia é diferente das de-
Mulher 10 13 6 6 8 9
mais? (Adaptado de National Association of Colle-
Homem 7 9 10 8 9 7 ges and Employers.)
Capítulo 11  Testes não paramétricos  41

concluir que há correlação significante entre a pontua-


Campo da Salário inicial (em milhares de dólares)
ção geral e o preço ? (Fonte: Consumer Reports.)
engenharia
Engenharia Pontuação geral 93 91 90 87 85 69
67,6 65,1 70,9 69,7 63,5
química Preço (em dólares) 500 300 500 150 250 130
Engenharia
da 71,7 71,1 69,3 69,9 73,0 12. A tabela a seguir mostra as pontuações gerais e os pre-
computação ços por galão para sete tintas de interior selecionadas
Engenharia aleatoriamente. A pontuação geral representa cober-
63,4 62,0 62,6 60,9 64,1 tura, lisura da superfície e resistência a manchas, esfre-
elétrica
gões, mudança de brilho, fixação, descoloração por fun-
Engenharia
64,0 63,3 64,1 62,2 64,1 gos e desbotamento. Com a = 0,10, você pode concluir
mecânica
que há correlação significativa entre a pontuação geral
Engenharia e preço? (Adaptado de Consumer Report.)
69,1 66,7 64,9 68,6 70,3
química
Pontuação geral 46 73 64 56
Engenharia
Preço por galão (em dólares) 24 40 25 24
da 76,1 70,5 73,7 72,0 69,9
computação Pontuação geral 94 86 50
Engenharia Preço por galão (em dólares) 40 38 26
63,8 65,4 64,6 63,6 63,9
elétrica
Engenharia
63,8 66,6 67,1 63,4 61,2
mecânica Seção 11.5

Nos exercícios 13 e 14, (a) identifique a afirmação e de-


Seção 11.4 clare H0 e Ha, (b) encontre os valores críticos, (c) en-
contre a estatística de teste, (d) decida se rejeita ou não
Nos exercícios 11 e 12, use o coeficiente de correlação a hipótese nula e (e) interprete a decisão no contexto da
de postos de Spearman para testar a afirmação seguin- afirmação original. Use nível de significância a = 0,05.
do as etapas.
13. Um oficial da patrulha rodoviária fiscaliza veículos
(a) Identifique a afirmação e declare H0 e Ha. com excesso de velocidade em uma rodovia interesta-
dual. O gênero dos últimos 25 motoristas que foram
(b) Encontre o valor crítico. parados é mostrado a seguir, F representa as mulheres
(c) Encontre a estatística de teste rs. e M representa os homens. Você pode concluir que as
paradas não foram aleatórias por gênero?
(d) Decida se rejeita ou não a hipótese nula. F M M M F M F M F F F M M
(e) 
Interprete a decisão no contexto da afirmação F F F M M M F M M F F M
original. 14. A série mostra o status de partida dos últimos 18 ônibus
a saírem de uma rodoviária, T representa um ônibus que
11. A tabela a seguir mostra as pontuações gerais e os pre- saiu na hora e L representa um ônibus que saiu atrasado.
ços para seis aparelhos de Blu-Ray™ selecionados alea- Você pode concluir que o status de partida dos ônibus
toriamente. A pontuação geral é baseada, principalmen- não é aleatório?
te, na qualidade da imagem. Com a = 0,10, você pode
T T T T L L L L T
L L L T T T T T T

  Problemas
Faça estes problemas como se estivesse fazendo em sala. tatística de teste, (e) decida se rejeita ou não a hipótese
Depois, compare suas respostas com as respostas dadas nula e (f) interprete a decisão no contexto da afirmação
no final do livro. original.

Nos exercícios 1 a 5, (a) identifique a afirmação e decla- 1. Uma organização afirma que o número mediano de ho-
re H0 e Ha, (b) decida qual teste não paramétrico usar, ras anuais de voluntariado é 50. Em uma amostra alea-
(c) encontre o(s) valor(es) crítico(s), (d) encontre a es- tória de 75 pessoas que realizaram trabalho voluntário
42  Estatística aplicada

no ano passado, 47 trabalharam por menos de 50 horas, Sul 127,2 102,6 101,5 116,3
23 trabalharam por mais de 50 horas e 5 trabalharam
Oeste 154,7 138,1 191,9 166,2
por 50 horas. Com a = 0,05, você pode rejeitar a afir-
mação da organização? (Adaptado de U.S. Bureau of Nordeste 255,6 239,7 249,1 228,3
Labor Statistics.)
Centro-Oeste 132,8 154,2 147,6 149,4
2. Uma organização trabalhista afirma que há diferença
no salário por hora de trabalhadores sindicalizados e Sul 121,2 142,2 124,3 112,7
não sindicalizados nos governos municipais e esta- Oeste 126,1 161,9 156,2 142,5
duais. A tabela a seguir mostra os salários por hora (em
dólares) para uma amostra aleatória de 10 trabalhado- 4. A tabela a seguir mostra o número de e-mails enviados
res sindicalizados e 10 trabalhadores não sindicaliza-
e o número de e-mails recebidos em uma semana para
dos nos governos municipal e estadual. Com a = 0,10,
uma amostra aleatória de nove pessoas. Considerando
você pode concordar com a afirmação da organização?
(Adaptado de U.S. Bureau of Labor Statistics.) nível de significância a = 0,01, você pode concluir que
há uma correlação significativa entre o número de e-
29,75 28,15 32,30 35,52 32,88 -mails enviados e recebidos?
Sindicalizado
27,85 27,35 29,05 27,60 26,75
E-mails enviados 30 30 25 26 24
26,15 23,10 21,20 26,95 22,05
Não sindicalizado E-mails recebidos 32 36 21 22 20
24,75 22,50 22,25 21,40 20,45
E-mails enviados 18 18 25 28
3. A tabela a seguir mostra os preços de venda para uma
E-mails recebidos 20 22 23 23
amostra aleatória de condomínios de apartamentos em
quatro regiões dos Estados Unidos. Com a = 0,01, você
5. Um meteorologista quer determinar se os dias com
pode concluir que a distribuição dos preços de venda
chuva ocorrem aleatoriamente em abril em sua cidade
em pelo menos uma região é diferente das demais?
natal. Para isso, o meteorologista registra se chove, em
(Adaptado de National Association of Realtors.)
cada dia de abril. Os resultados são mostrados a seguir,
Preço de venda R representa um dia com chuva e N representa um dia
Região sem chuva. Com a = 0,05, o meteorologista pode con-
(em milhares de dólares)
cluir que os dias com chuva não são aleatórios?
Nordeste 242,2 235,2 227,6 259,9 N R R N N N N R N R R N R R R
Centro-Oeste 151,2 167,4 163,2 138,2 N R R R R N N N N R N R N N R

  Teste do capítulo
Faça este teste como se estivesse fazendo uma prova em significância a = 0,01, o representante pode concluir
sala. que a distribuição da renda familiar anual em pelo me-
nos uma região é diferente das demais? (Adaptado de
Nos exercícios 1 a 5, (a) identifique a afirmação e decla- U.S. Census Bureau.)
re H0 e Ha, (b) decida qual teste não paramétrico usar,
(c) encontre o(s) valor(es) crítico(s), (d) encontre a es- Renda familiar anual
Região
tatística de teste, (e) decida se rejeita ou não a hipótese (em milhares de dólares)
nula e, (f) interprete a decisão no contexto da afirmação Nordeste 55,9 48,7 57,3 56,4
original. Centro-Oeste 47,7 52,8 43,6 46,9
1. O prefeito convocou os membros do conselho em uma Sul 45,1 46,3 49,9 42,2
reunião na ordem mostrada, em que R representa um
Oeste 55,0 52,9 49,6 51,7
membro do conselho republicano e D representa um
membro do conselho democrata. Com a = 0,05, você pode Nordeste 51,6 54,1 53,2
concluir que a seleção dos membros não foi aleatória?
R D D D R R D R D D R D D D R R D Centro-Oeste 49,1 50,2 50,4
R R R R D R R R D D D R D R D R R Sul 47,1 49,9 47,7
2. Um representante de uma agência de emprego quer Oeste 50,6 52,2 54,1
determinar se há diferença na renda familiar anual em
quatro regiões dos Estados Unidos. O representante 3. Uma empresa de investimentos afirma que a idade me-
seleciona aleatoriamente diversas famílias em cada re- diana das pessoas com fundos mútuos é 51 anos. As
gião e registra a renda familiar anual de cada uma. A idades (em anos) de 20 proprietários de fundos mútuos
tabela a seguir mostra os resultados. Para o nível de selecionados aleatoriamente estão listadas a seguir.
Capítulo 11  Testes não paramétricos  43

Com a = 0,01, há evidência suficiente para rejeitar a


Sindicalizado 1.026 1.075 939 965
afirmação da empresa? (Adaptado de Investment
Company Institute.) Não sindicalizado 846 835 670
46 34 33 27 58 64 54 36 38 42
5. A tabela a seguir mostra as pontuações gerais e os pre-
26 51 49 44 46 50 39 34 51 63
ços para uma amostra aleatória de oito malas diferentes.
A pontuação geral representa a facilidade de uso, carac-
4. Uma agência de emprego afirma que há diferença no
terísticas, construção e durabilidade de uma mala. Com
salário semanal entre trabalhadores sindicalizados e
a = 0,05, você pode concluir que há uma correlação sig-
não sindicalizados. A tabela a seguir mostra o salário se-
nificativa entre a avaliação geral e o preço? (Adaptado
manal (em dólares) para uma amostra aleatória de nove
de Consumer Report.)
trabalhadores sindicalizados e oito não sindicalizados.
Para o nível de significância a = 0,05, você pode aceitar Pontuação geral 90 85 81 78
a afirmação da agência? (Adaptado de U.S. Bureau of
Preço (em dólares) 495 230 190 160
Labor Statistics.)
Pontuação geral 72 68 64 61
Sindicalizado 890 1.029 727 835 919
Preço (em dólares) 350 230 260 200
Não sindicalizado 790 723 894 589 687

Estatística real – Decisões reais: juntando tudo


Em um ano recente, de acordo com o Bureau of Labor Statistics, o nú-
mero mediano de anos que trabalhadores assalariados estiveram contra-
tados por seus empregadores atuais (o que é chamado de estabilidade de
emprego) foi de 4,6 anos. Informação sobre a estabilidade de emprego tem
sido coletada desde 1996 usando o Current Population Survey (CPS), uma
pesquisa mensal de cerca de 60.000 domicílios que fornece informação so-
bre emprego, desemprego, salário, demografia e outras características da
população dos Estados Unidos com mais de 16 anos de idade. Com relação
www.bls.gov
à estabilidade de emprego, as perguntas mensuram por quanto tempo os
trabalhadores têm permanecido com seus empregadores atuais, não por
quanto tempo eles planejam ficar com seus empregadores.

Exercícios
1. Como você faria isso?
(a) Qual técnica de amostragem você usaria para selecionar a amostra para o
CPS?
(b) Você acha que a técnica na parte (a) lhe dará uma amostra que é represen-
tativa da população dos Estados Unidos? Por que ou por que não?
(c) Identifique possíveis falhas ou vieses na pesquisa com base na técnica que
você escolheu na parte (a).
2. Há diferença?
Um representante do congresso afirma que a mediana da estabilidade Tabela 11.18  Estabilidade de
para trabalhadores do seu distrito é menor que a mediana nacional de emprego para 20
4,6 anos. A afirmação é baseada nos dados do representante, que são trabalhadores
mostrados na Tabela 11.18. (Suponha que os empregados foram sele-
cionados aleatoriamente.) 4,6 2,6 3,3
(a) É possível que a afirmação seja verdadeira? Quais perguntas você deveria 2,8 1,5 1,9
fazer sobre como os dados foram coletados? 4,0 5,0 3,9
(b) Como você testaria a afirmação do representante? Você poderia usar um 5,1 3,7 5,4
teste paramétrico ou precisaria usar um teste não paramétrico? 3,6 3,9 6,2
(c) Declare a hipótese nula e a hipótese alternativa. 1,7 4,6 3,1
(d) Teste a afirmação usando a = 0,05. O que você pode concluir? 4,4 3,6
44  Estatística aplicada

3. Comparando a estabilidade para homens e mulheres


Um representante do congresso afirma que há diferença entre as es-
tabilidades medianas para homens e mulheres. A afirmação é baseada
nos dados do representante, que são mostrados na Tabela 11.19. (Supo-
nha que os empregados foram selecionados aleatoriamente no distrito
do representante.)

Tabela 11.19  Estabilidade de emprego para amostras de trabalhadores.


Homens Mulheres
3,9 4,4
4,4 4,9
4,7 5,4
4,3 4,3
4,9 4,0
3,8 1,8
3,6 5,1
4,7 5,1
2,3 3,3
6,5 2,2
0,9 5,2
5,1 3,0
1,3
4,0

(a) Como você testaria a afirmação do representante? Você pode usar um tes-
te paramétrico ou precisa usar um teste não paramétrico?
(b) Declare a hipótese nula e a hipótese alternativa.
(c) Teste a afirmação usando a = 0,05. O que você pode concluir?

Tecnologia MINITAB  EXCEL  TI-84 PLUS

Tabela 11.20  R
 enda anual de pessoas
Renda nos Estados Unidos e pesquisa econômica (em dólares).
O National Bureau of Economic Research (NBER) é uma orga- Nordeste Centro-Oeste Sul Oeste
nização privada de pesquisa, sem fins lucrativos, não partidária. O 39.766 22.272 18.264 33.178
NBER fornece informação para um melhor entendimento de como 27.911 24.470 32.177 27.295
a economia nos Estados Unidos funciona. Pesquisadores no NBER
24.263 23.247 30.514 21.111
se concentram em quatro tipos de pesquisa empírica: desenvolver
20.266 29.898 32.972 28.167
novas medidas estatísticas, estimar modelos quantitativos de com-
portamento econômico, avaliar os efeitos de políticas públicas na 21.250 28.461 16.510 30.555
economia dos Estados Unidos e projetar os efeitos de propostas po- 28.168 27.747 22.206 19.678
líticas alternativas. 26.574 26.772 22.509 25.082
Um dos interesses do NBER é a renda mediana de pessoas em 25.266 38.285 29.307 36.927
diferentes regiões dos Estados Unidos. A Tabela 11.20 mostra a ren- 22.716 15.568 33.964 21.405
da anual (em dólares) de uma amostra aleatória de pessoas (15 anos 17.871 36.450 31.011 18.177
de idade ou mais) em um ano recente em quatro regiões dos Esta- 35.465 21.644 19.913 24.953
dos Unidos: Nordeste, Centro-Oeste, Sul e Oeste. 42.723 23.932 24.105 32.741
Capítulo 11  Testes não paramétricos  45

Exercícios Tabela 11.21  R


 enda anual de famílias
(em dólares).
Nos exercícios 1 a 5, considere a renda anual das pessoas na Tabela
Nordeste Centro-Oeste Sul Oeste
11.20. Use a = 0,05 para todos os testes.
59.407 56.630 55.531 60.843
1. Construa um boxplot para cada região. A renda mediana anual
108.862 82.220 58.118 69.160
parece diferir entre regiões?
77.195 38.000 49.736 51.017
2. Use uma ferramenta tecnológica para realizar um teste dos si-
nais para testar a afirmação de que a renda mediana anual no 108.167 54.210 90.528 66.365
Centro-Oeste é superior a US$ 30.000. 67.178 71.166 55.540 52.885
3. Use uma ferramenta tecnológica para realizar um teste da soma 52.897 50.998 35.541 78.255
dos postos de Wilcoxon para testar a afirmação de que a renda 47.763 66.715 60.622 60.143
mediana anual no Nordeste e no Sul é a mesma.
68.149 60.818 39.087 85.154
4. Use uma ferramenta tecnológica para realizar um teste de
50.192 63.873 64.952 85.990
Kruskal­-Wallis para testar a afirmação de que as distribuições
da renda anual para todas as quatro regiões são as mesmas. 74.917 56.206 53.131 41.167
5. Use uma ferramenta tecnológica para realizar uma ANOVA 46.192 61.210 77.982 65.682
com um fator para testar a afirmação de que a renda média 67.047 58.546 51.416 46.945
anual para todas as quatro regiões é a mesma. Suponha que as 59.899 69.452 59.524 61.399
populações das rendas são normalmente distribuídas, as amos-
74.197 60.423 45.431 65.911
tras são independentes e as variâncias populacionais são iguais.
Como os seus resultados se comparam com os do Exercício 4? 59.196 76.910 55.893 45.958
6. Repita os Exercícios 1, 3, 4 e 5 usando os dados da Tabela 11.21.
Ela mostra a renda anual (em dólares) de uma amostra aleató-
ria de famílias, em um ano recente, em quatro regiões dos Esta-
dos Unidos: Nordeste, Centro-Oeste, Sul e Oeste.

Soluções são apresentadas nos manuais de tecnologia disponíveis na Sala Virtual.


Instruções técnicas são fornecidas por Minitab, Excel e TI-84 Plus.

Вам также может понравиться