ENG1029 - Marcelo Ruas

PROBEST
Aula 1
Reinaldo Castro Souza, PhD

Alexandre Street
José Daniel Hernández Vásquez, Monitor

José Aguinaldo M.Pinho, Auxiliar
2015.1
reinaldo@ele.puc-rio.br ing.jdhernandez@gmail.com
street@ele.puc-rio.br jjampinho@gmail.com
1
Nota – Instalação das
Ferramentas de Análise do Excel
 Muitas das técnicas descritas aqui requerem a prévia

instalação do suplemento (“add-in”) “Ferramentas de
Análise” do Excel. O procedimento de instalação é
descrito a seguir:
 No menu Ferramentas, selecione “Suplementos” e na

caixa de diálogo que será aberta marque a opção
“Ferramentas de análise”. Se esta opção não estiver
presente, clique “procurar” para encontrar o arquivo
correspondente (em geral chamado Analys32.xll) ou
rode novamente o “set-up” do MS-Office.
reinaldo@ele.puc-rio.br 2
Aula 1
 Estatística Descritiva
 Definições básicas – Introdução à
Probabilidade
 Probabilidade
 Espaço amostral
 Eventos
 Propriedades das probabilidades
 Probabilidade Condicional
 Independência
 Teorema de Bayes
Estatística Descritiva
Prá que serve estatística?
 Porque nos permite entender e lidar com a idéia

de variabilidade.
 Um exemplo típico é:
 Produção de parafusos. Uma fábrica produz
parafusos, que devem ter diâmetros dentro de
certas especificações.
 Ao medirmos os diâmetros de 100 parafusos
produzidos, selecionados ao acaso, existirão
variações individuais.
 Estas variações são importantes? Até que ponto
as variações observadas são aceitáveis?
Estatística
 Em geral um número em Estatística não é apenas

um número! A ele associamos uma medida de
incerteza ou variabilidade.
 População e Amostra
 População = coleção de todos os elementos cujas
características desejamos conhecer. Os elementos (ou
"indivíduos") na população não são necessariamente
pessoas!
 Amostra = subconjunto da população cujas características

serão medidas. A amostra será usada para descobrir
características da população.
Exemplos
1) População = eleitores na cidade do Rio de Janeiro
Amostra = 650 eleitores escolhidos aleatoriamente (ao acaso)
Característica de interesse: percentual de eleitores que
planejam votar num candidato X nas próximas eleições.
2) População = automóveis produzidos no Brasil entre 1997 e

2002
Amostra = 10000 carros escolhidos aleatoriamente dentre os
sujeitos a “recall” das montadoras
Característica de interesse: verificar se o proprietário do carro
respondeu ao chamado de “recall” da fábrica
Exemplos
3) População = todos os domicílios com TV na

cidade do Rio de Janeiro
Amostra = 1000 domicílios com TV escolhidos ao
acaso
Característica de interesse = percentual de
audiência de cada emissora de TV num certo dia
da semana no horário de 18 às 22 horas.
Em resumo: A partir de uma amostra coletamos
informações que nos permitem aprender alguma
coisa interessante sobre a população.
Por que fazer isso?
 É economicamente eficiente! Os custos

são infinitamente mais baixos que os de
amostrar a população inteira (“censo”).
 Pode-se provar que, para populações

muito grandes, uma amostra de cerca de
600 ou 1000 "indivíduos" fornece
resultados bastante confiáveis sobre as
características da população.
E agora?
 Você coletou uma amostra e, dentro desta

amostra você coletou dados numéricos
(por exemplo, o consumo médio mensal
em kWh dos domicílios numa certa área
da cidade). O que fazer com isso?
 Existem 2 possibilidades:
 Você pode simplesmente descrever estes dados
numéricos através de gráficos e tabelas. Isto é chamado
de estatística descritiva. A maioria das pesquisas de
mercado faz só isso, que é sem dúvida, muito
importante.
E agora?
 Você pode tentar tirar conclusões sobre
as características da população a partir
dos dados observados na amostra.
 Isso se chama estatística inferencial (ou

simplesmente estatística!). Para que a
gente consiga fazer isso, é necessário ter
uma noção bastante abrangente de
Probabilidades.
E agora?
 Na verdade, a estatística descritiva surgiu

muito antes da estatística inferencial.
 Esta última depende da especificação de

modelos matemáticos baseados numa
noção fundamental, que é a de
"probabilidade".
Estatística descritiva
 Gráficos ("A picture is worth one thousand words")

 Histograma
 Diagramas de Pareto
 Gráficos de dispersão, gráficos da variável ao longo do
tempo, gráficos de barras, etc...
 Medidas Numéricas
 Média amostral
 Mediana amostral
 Desvio padrão amostral
 Variância amostral
 Assimetria e Curtose amostrais
 Percentis
 Covariância, Correlação amostrais
Alguns gráficos da evolução de
variáveis ao longo do tempo
ja
n/
7
12,000
17,000
22,000
27,000
32,000
7,000
ja 9
n/
8
ja 0
n/
8
ja 1
n/
8
ja 2
n/
8
ja 3
n/
8
ja 4
n/
8
ja 5
n/
8
ja 6
n/
8
ja 7
n/
8
ja 8
n/
8
ja 9
n/
9
ja 0
n/
Jan/1979 a Ago/2006
9
ja 1
n/
9
ja 2
n/
9
ja 3
n/
9
ja 4
n/
9
ja 5
n/
9
reinaldo@ele.puc-rio.br
ja 6
n/
9
ja 7
n/
9
ja 8
Consumo Total Energia Elétrica
n/
9
ja 9
n/
0
ja 0
n/
0
ja 1
n/
0
ja 2
n/
0
Consumo de Energia Elétrica - Total Brasil (GWh) - Fonte: Eletrobrás
ja 3
n/
0
ja 4
n/
0
ja 5
n/
06
15
4/
1/
4/ 200
16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
3/ 0
3/ 200
5 0
2/ /200
7
31 /20 0
/
30 8/2 00
/1 0
29 0/2 00
/1 00
27 2/20 0
/ 0
28 2/2 0
/4 00
27 /20 1
/6 0
26 /20 1
25 /8/2 01
/ 0
24 10/ 01
/1 20
0
22 2/20 1
/2 01
23 /20
/4 0
22 /20 2
/ 0
21 6/20 2
Petróleo WTI
20 /8/ 02
/1 20
19 0/2 02
/1 00
17 2/20 2
/2 0
18 /20 2
/4 0
17 /20 3
/ 0
16 6/2 3
0
02/01/1991 a 03/11/2006
15 /8/2 03
/1 00
14 0/2 3
/1 00
12 2/20 3
/2 0
12 /20 3
/ 0
11 4/2 4
/6 00
monica@ele.puc-rio.br
10 /20 4
/8 0
Brent e WTI – dados diários –
9/ /20 4
10 0
8/ /20 4
EXEMPLO: Preços de Petróleo
12 0
4
6/ /20
2/ 04
7/ 00 2
4/ 5
Petróleo Brent
6/ 200
6/ 5
5/ 200
8
4/ /20 5
10 0
3/ /2 5
12 00
5
Preços de Petróleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006
1/ /200
2/ 5
2/ 200
4 6
1/ /200
6
31 /20 6
/7 06
29 /2
/9 00
/2 6
00
6
16
EXEMPLO: IPC-FIPE
monica@ele.puc-rio.br 17
EXEMPLO: IPC-FIPE
 No gráfico anterior exibimos o IPC-FIPE (o Índice de

Preços ao Consumidor da FIPE, um dos mais
importantes índices de inflação com suas
estimativas quadrissemanais) no período entre
01/1995 e 10/2006.
 As prévias quadrissemanais servem como

indicadores da inflação do próximo mês medida
pelo IPC-FIPE.
 No próximo gráfico exibimos os valores (01/2002 a

10/2006) do IPC-FIPE.
IPC-FIPE - Janeiro de 2002
a 10/2006
Inflação FIPE (% a.m)- 01/2002 a 10/2006
3.0
2.5
2.0
1.5
1.0
0.5
0.0
2
6
02
03
04
05
06
2
6
2
6
l/0
l/0
l/0
l/0
l/0
t/0
t/0
t/0
t/0
t/0
r/0
r/0
r/0
r/0
r/0
n/
n/
n/
n/
n/
ju
ju
ju
ju
ju
-0.5
ou
ou
ou
ou
ou
ab
ab
ab
ab
ab
ja
ja
ja
ja
ja
INFLAÇÃO - IPC - FIPE (% a.m.)
IBOVESPA Diário – Julho de 1994 a
a 06/08/2004
a 06/08/2004
 Parece que a bolsa subiu muito durante

quase todo o Plano Real.
 Será que isso é mesmo verdade?
 Veja o próximo gráfico, em que

comparamos o IBOVESPA em R$ e US$.
11000.00
14000.00
17000.00
20000.00
23000.00
26000.00
2000.00
5000.00
8000.00
04/07/1994
08/11/1994
17/03/1995
25/07/1995
29/11/1995
a 06/08/2004
11/04/1996
14/08/1996
17/12/1996
30/04/1997
03/09/1997
08/01/1998
19/05/1998
IBOVESPA em Dólares
22/09/1998
01/02/1999
10/06/1999
14/10/1999
21/02/2000
28/06/2000
31/10/2000
13/03/2001
18/07/2001
22/11/2001
IBOVESPA em Pontos em Reais e Dólares
04/04/2002
08/08/2002
IBOVESPA em R$
10/12/2002
17/04/2003
25/08/2003
26/12/2003
05/05/2004
22
Gráfico de Dispersão
(uma variável versus outra)
Exemplo - IBOVESPA e Dólar
Ibovespa versus Dólar PTAX -10/12/2002 a 12/06/2003
14,500
14,000
Neste período parece fazer sentido

13,500
ajustar uma reta e poderíamos
13,000 estipular um modelo que pudesse
prever o IBOVESPA em função da
12,500 taxa de câmbio
12,000
11,500
11,000
10,500
10,000
y = -3830.7x + 24366
9,500
R2 = 0.8954
9,000
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Exemplo - IBOVESPA e Dólar –
incorporação de novos dados
Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004
26,000
24,000
Claramente, um modelo linear não é mais
apropriado quando levamos em consideração os
22,000
novos dados (entre junho de 2003 e março de
2004) - OU SEJA: O MODELO MUDOU!
20,000
18,000
16,000
y = -10612x + 48010
14,000
R2 = 0.4532
12,000
10,000
8,000
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
 Por que o modelo anterior não funciona?
 No período entre junho de 2003 e março

de 2004 o dólar permaneceu praticamente
estável, enquanto o índice Bovespa subiu
consideravelmente, como podemos
verificar no próximo gráfico.
10
/
11,000
13,000
15,000
17,000
19,000
21,000
23,000
25,000
9,000
25 12/
/ 0
09 12/ 2
/ 0
24 01/ 2
/ 0
08 01/ 3
/ 0
23 02/ 3
/ 0
10 02/ 3
/ 0
25 03/ 3
/ 0
09 03/ 3
/ 0
24 04/ 3
/ 0
09 04/ 3
/ 0
24 05/ 3
/ 0
08 05/ 3
/ 0
23 06/ 3
/ 0
08 06/ 3
/ 0
23 07/ 3
/ 0
07 07/ 3
/ 0
22 08/ 3
/ 0
06 08/ 3
/ 0
21 09/ 3
/ 0
06 09/ 3
/ 0
21 10/ 3
/ 0
05 10/ 3
/ 0
Junho de 2003
IBOVESPA - 10/12/2002 a 02/03/2004
20 11/ 3
/ 0
05 11/ 3
/ 0
20 12/ 3
/ 0
04 12/ 3
/ 0
19 01/ 3
/ 0
03 01/ 4
/ 0
18 02/ 4
/0 04
2/
04
27
Exemplo - temperaturas
 Dados:Temperatura máxima mensal (média das
máximas diárias) na estação de Santa Cruz (Rio
de Janeiro) entre Jan/1982 e Dez/1991.
 O que fazer com todos estes 120 números?
 A coisa mais sensata é fazer um gráfico da

temperatura versus o índice de tempo (mês e
ano). Este gráfico vai revelar o óbvio, isto é, que
as temperaturas no verão são mais altas que no
inverno!
 Além disso, a gente vai perceber que

existe um comportamento sazonal nos
dados, ou seja, dentro de cada ano a
evolução da temperatura se repete mais
ou menos da mesma maneira.
 O gráfico também nos dá uma idéia do
quanto a temperatura está variando em
todo o período. Por exemplo, pode-se
verificar que a temperatura máxima nestes
10 anos está sempre acima de 22 graus.
23
25
27
29
31
33
35
37
jan/82
mai/82
set/82
jan/83
mai/83
set/83
jan/84
mai/84
set/84
jan/85
mai/85
set/85
jan/86
mai/86
set/86
jan/87
mai/87
set/87
jan/88
mai/88
set/88
jan/89
Temperaturas Máximas - 1982 a 1991
mai/89
set/89
jan/90
mai/90
set/90
jan/91
mai/91
set/91
30
 O gráfico é muito útil, mas certamente não

“conta” toda a informação ....
 Por exemplo, qual será a temperatura média de

todos os meses? Dentre os 120 meses, em
quantos a temperatura média esteve entre 28 e 33
graus? Qual o percentual de temperaturas entre
22 e 25 graus? Tomando-se os 120 pontos, quais
os valores de temperatura tais que 90% dos
meses têm temperaturas entre estes dois
valores?
 Podemos pensar nestas, e numa infinidade de

outras questões. O fato é que um simples gráfico
da temperatura versus o tempo não fornece as
respostas de maneira prática.
 O primeiro passo é fazer a distribuição de

freqüência dos seus dados. Isto é simplesmente
uma medida mais compacta de representação
dos dados. Você divide as temperaturas em
intervalos (chamados intervalos de classe) e
conta quantas observações caem em cada
intervalo.
 A escolha do número de intervalos é arbitrária.
 O importante é garantir que o número de classes

não seja nem muito grande nem muito pequeno.
 Se o número de classes for muito pequeno, fica

difícil verificar as diferenças entre as classes. Ao
contrário, se o número de classes for muito
grande, existirão muito poucas observações em
cada classe.
 O primeiro passo é ordenar os dados pois facilita

a colocação dos dados em cada classe.
 Escolha do número de classes num
diagrama de frequência
 Seja n o número de intervalos num diagrama de frequência.
Recomenda-se escolher n entre 5 e 20. Quanto maior o
número de observações, maior o número de intervalos.
 Geralmente usa-se n igual à raiz quadrada do número total

de observações, que neste caso seria aproximadamente 11.
Para facilitar a visualização em geral usamos intervalos
com o mesmo comprimento. Muitas vezes o primeiro
intervalo é descrito como "abaixo de um certo valor" e o
último como "acima de um certo valor".
 Neste exemplo usamos n = 7, por uma questão

puramente prática, pois este número nos permite
encontrar intervalos de classe de comprimento
1.9 em todas as classes, exceto a primeira, e
todas as classes terminam com uma temperatura
que é um número inteiro e par.
 A primeira classe vai de 24 a 26 graus, a segunda

vai de 26.1 a 28 graus e assim sucessivamente. O
diagrama de freqüências encontrado está a
seguir.
Classe Frequência Frequência Relativa Frequência

Relativa
Acumulada
24-26 graus 7 7/120 = 5.83 % 5.83%
26.1- 28 graus 31 31/120 = 25.83 % 31.66%
28.1-30 graus 26 26/120 = 21.67 % 53.33%
30.1-32 graus 26 26/120 = 21.67 % 75.00%
32.1-34 graus 25 25/120 = 20.83 % 95.83%
34.1-36 graus 3 3/120 = 2.50 % 98.33%
36.1-38 graus 2 2/120 = 1.67 % 100%
Totais 120 100%
Exemplo – temperaturas
 O diagrama de frequências já nos permite

responder a diversas outras questões. Por
exemplo, a grande maioria (69.17%) das
temperaturas máximas está entre 26.1 e 32 graus.
Também percebemos que temperaturas máximas
acima de 34.1 graus são incomuns (apenas 5
dentre as 120).
 Veja que outras conclusões você consegue obter

a partir deste diagrama.
 A partir de um diagrama de frequências podemos

facilmente construir um histograma.
 Histograma:
Gráfico de barras, onde o eixo vertical contém as
frequências (ou freqüências relativas) e o eixo
horizontal contém os intervalos de classes. Muitas
vezes faz-se a área de cada barra igual à freqüência
relativa de cada classe, de tal forma que a área total
sob o histograma é 1 (100%).
Histograma – produção no Excel
 É automática, mas você precisa ter instalado

antes o suplemento (“add-in”) de ferramentas de
análise de dados.
 Aliás, este suplemento será muito útil para nós,

portanto instale-o.
Células contendo os dados
Células contendo os limites dos intervalos (não precisam ser

especificados) – mas geralmente quando não os especificamos o
Excel gera uns limites meio “feios”
Histograma – implementação
no Excel em Português
Note que este histograma usa intervalos diferentes
dos especificados na tabela de freqüência mostrada
anteriormente Histograma
35
30
25
20
Freqüência
15
10
0
24 26 28 30 32 34 36 38 acima de 38
Intervalo
Histograma – Retorno diário do
preço do petróleo WTI – 01/1991 a
08/2006
Histograma - Log Retornos Petróleo WTI - 1991 a 2006
800
700
A grande maioria dos
600 retornos diários
500
(variações diárias)
nesta faixa, mas
Frequency
400
também variações
300 extremas
200
100
10 %
11 %
12 %
13 %
14 %
%
e
3%
2%
0%
9%
8%
7%
6%
5%
4%
3%
10 %
%
%
%
%
%
%
%
%
%
%
%
-1 %
-1 %
-1 %
4%
or
2
.5
.6
.7
.8
.0
.1
.2
.3
.4
.5
.6
.0
.9
.8
.7
.6
.5
1
2
3
0.
1.
2.
2.
3.
4.
5.
6.
7.
8.
9.
M
3.
2.
1.
0.
-9
-8
-7
-6
-6
-5
-4
-3
-2
-1
-0
-1
Bin
Produção (% potência máxima)
0.0
10.0
20.0
30.0
50.0
60.0
80.0
40.0
70.0
Jan-81
Mar-82
May-83
Jul-84
Sep-85
Nov-86
Jan-88
Mar-89
May-90
eólica mensal
Jul-91
Sep-92
Nov-93
(Icaraizinho - NE).
Jan-95
Mar-96
May-97
Jul-98
Sep-99
Nov-00
Jan-02
Mar-03
May-04
Exemplo: Produção da energia
Jul-05
Sep-06
Nov-07
Jan-09
Mar-10
May-11
45
Jul-12
Hitograma
 Produção da energia eólica mensal (Icaraizinho - NE).
Histograma e Frequência Acumulada

(Relativa)
Freqüência Relativa (% núm. obs)
10% 100%
9% 90%
Freq. Relativa Acumulada

8% 80%
7% 70%
6% 60%
5% 50%
4% 40%
3% 30%
2% 20%
1% 10%
0% 0%
Bloco (Produção de energia mensal em % Potência máxima)
Diagrama de Pareto
 Como fazer um diagrama de Pareto?

1) Faça um gráfico de barras colocando a freqüência de cada
tipo de evento no eixo vertical, e arranjando os eventos em
ordem decrescente de ocorrência. Assim, a primeira barra
corresponde ao evento que ocorre com mais freqüência, a
segunda barra diz respeito ao segundo evento mais
freqüente, e assim por diante.
2) Crie um eixo vertical no lado direito do seu gráfico

contendo as freqüências relativas acumuladas. Faça uma
linha juntando as frequências relativas acumuladas e a
superponha ao gráfico de barras.
Exemplo – Consumo Residencial
 Os dados a seguir representam a distribuição de
domicílios residenciais por classe de consumo de
energia elétrica na área de concessão de uma certa
distribuidora de energia. Os dados referem-se a uma
pesquisa realizada em 2012 com uma amostra de 2100
domicílios.
Consumidores Residenciais
Faixas de consumo número de domicílios frequência relativa
< 80 kWh 170 (170/2100)x100 = 8,1%
80 - 150 kWh 467 (467/2100)x100 = 22,24%
151 - 220 kWh 445 21,19%
221 - 400 kWh 582 27,71%
>400 kWh 436 20,76%
Total 2100
Exemplo – Consumo Residencial
 O diagrama de Pareto para estes dados é:
Diagrama de Pareto
600
500
Número de domicílios
400
300
200
100
0
221 - 400 80 - 150 151 - 220 >400 kWh < 80 kWh
kWh kWh kWh
Faixa de consumo
0.0
2.0
4.0
6.0
8.0
0.0
2.0
4.0
6.0
8.0
12.0
10.0
12.0
10.0
0.0
2.0
4.0
6.0
8.0
10.0
12.0
Street2014.2 Street2014.2 Street2014.2
Street2014-1 Street2014-1 Street2014-1
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
P2
P1
Reinaldo2014-1 P3 Reinaldo2014-1 Reinaldo2014-1

Algumas estatísticas
 Taxa de aprovação: 82%
 Com um pouco mais de informação:
 Dado que 𝑃1 ≤ 4 : 53%

 Dado que 𝑃1 ≤ 3 : 35%
 Dado que 𝑃1 ≥ 6 : 95%

 Dado que 𝑃1 ≥ 7 : 97%
Curva de Frequência
Acumulada
100%
90%
80%
70%
Freq Acumulada
60%
50%
40%
30%
20%
10%
0%
0 1 2 3 4 5 6 7 8 9 10
Média antes da P4
Medidas Numéricas
 A partir de agora suponha que os dados

observados na amostra são x1, x2, ..., xn .
 n é o tamanho da amostra.
 A partir dos x's vamos encontrar números que
resumem as características da amostra. Vamos
estar interessados em dois tipos principais de
medidas numéricas: as que caracterizam a
localização do centro da amostra e as que
caracterizam a dispersão dos dados.
Medidas Numéricas
 Medidas de Localização ou de tendência

central
 dizem onde está o "meio" dos seus dados
 exemplo: média e mediana amostrais
 Medidas de Dispersão
 dizem o quanto os seus dados estão “espalhados”
 exemplo: desvio padrão e variância amostrais, amplitude
amostral
Medidas de Tendência Central
 Média Amostral
1 n
X   Xi
n i 1
 No Excel: função Média (....)
 Considere agora a amostra x1, x2, ..., xn e suponha que você
a ordene, de tal forma que x(1) seja o menor elemento da
amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o
maior elemento da amostra. Os valores x(1), x(2), ..., x(n) são
chamados de estatísticas de ordem da amostra. Outras
medidas de tendência central e de dispersão serão
definidas a partir das estatísticas de ordem.
Produção (% potência máxima)
0.0
10.0
20.0
30.0
50.0
60.0
80.0
40.0
70.0

Jan-81
Mar-82
May-83
Jul-84
Sep-85
Nov-86
Jan-88
Mar-89
May-90
(Icaraizinho - NE).
Jul-91
Sep-92
Nov-93
Jan-95
Mar-96
May-97
Jul-98
Sep-99
Nov-00
Jan-02
Mar-03
May-04
Jul-05
Sep-06
Nov-07
Média Amostral: Produção da energia eólica mensal
Jan-09
Mar-10
May-11
Jul-12
56
37.5%
 Média Amostral Condicional: Produção da energia eólica

mensal (Icaraizinho - NE).
Aug Média Aug Feb Média Feb
70%
60%
Produção Média (% Pot)
50%
56%
40%
30%
20% 22%
10%
0%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
Anos do Histórico
 Mediana
 É definida a partir das estatísticas de ordem.
 X n  X n 
  2   1
2 
 se n, o tamanho da amostra, é par
2

m ou
X
  n 1  se n, o tamanho da amostra, é ímpar
  2

 Por exemplo, se existem 10 observações na amostra, a

mediana equivale à média entre x(5) e x(6) . Se a amostra
contém 11 elementos, a mediana é x(5) . A mediana amostral
é menos influenciada que a média por observações
aberrantes (“outliers”).
 No Excel é a função med(...)

 Por exemplo, se os seus dados são 1,2,3,4,5, a

média amostral é: (1+2+3+4+5)/5 = 3 e a mediana
amostral tem o mesmo valor.
 Se agora os dados são:
 1,2,3,4,45, a média amostral é:
 (1+2+3+4+45)/5 = 11, mas a mediana amostral
continua sendo 3.
 Logo, a média amostral foi profundamente
influenciada por um único valor, e o mesmo não
aconteceu com a mediana amostral.
Medidas de Dispersão
 As medidas de tendência central não são as

únicas medidas necessárias para caracterizar
uma amostra (ou população).
 Precisamos também saber o quanto as

observações na amostra estão " espalhadas".
 Por exemplo, no gráfico a seguir as populações

têm a mesma média, mas certamente a segunda
distribuição tem maior dispersão.
Medidas de Dispersão:
Produção da energia eólica mensal
(Icaraizinho - NE).
70%
60%
50%
40%
30% Aug
Feb
20%
Tem maior
10%
dispersão:
0% é mais
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 “espalhada”
Anos do Histórico em torno da
média
 Variância Amostral
 É a medida mais comum de dispersão . A
variância amostral, denotada por s2 é definida
como:
s2 
1 n
 X
2
X
n 1
i
i 1
 Onde X é a média amostral.

 Note que, por definição, a variância amostral é
sempre não negativa!!!
 A unidade de medida da variância é o quadrado
da unidade de medida das observações, o que
dificulta a sua interpretação.
 Desvio Padrão Amostral

 O desvio padrão amostral, denotado por s, é
definido como a raiz quadrada positiva da
variância amostral. Pelos comentários anteriores,
notamos que s é expresso nas mesmas unidades
de medida que as observações na amostra.
1 n
 i 
2
s  s2  X  X
n 1 i  1
Medidas de Dispersão: Produção da
energia eólica mensal (Icaraizinho -
NE).
Aug Méd+Desv Aug Média Aug Méd-Desv Aug

Feb Méd+Desv Feb Média Feb Méd-Desv Feb
70%
60%
4.9%
50%
40%
30%
8.3%
20%
10%
0%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Anos do Histórico
 Coeficiente de variação amostral

s
CV 
X
 É uma medida adimensional, e serve principalmente
para comparar duas amostras que foram coletadas
em unidades de medida diferentes, por exemplo,
uma em cm e outra em polegadas.
 Amplitude Amostral
A  X ( n )  X (1)  máx  mín
Como obter estatísticas
descritivas no Excel?
 Opção 1
 Use as funções apropriadas, por exemplo,
média(..), med(...), máximo(...), mínimo(...),
desvpad(...), ...
 Opção 2
 Use a ferramenta “estatística descritiva”
dentro das opções de “análise de dados”,
como indicado na tela a seguir. Várias outras
estatísticas, como a curtose (que mede o
“peso” das “caudas”(extremos) e a assimetria,
são também fornecidas).
Células contendo os
dados
Indicador de nome
da variável na 1a.
posição da coluna
ou linha
Produzir estatísticas
descritivas
Percentis
 O percentil x% é o ponto tal que, a

probabilidade de estar abaixo dele é x%.
 O percentil 50% é a MEDIANA de um

conjunto de dados, e qualquer percentil
entre 0 e 100% pode ser encontrado
através da função PERCENTIL do Excel.
Percentis: no MS Excel
 Ordenar o conjunto de dados: {x(i)}i=1,...,n
 O percentil de P%, por exemplo, 40% de um

conjunto de dados ordenado {15, 20, 35, 40, 50} é
calculado da seguinte forma:
 x = (n+1)P/100 = 2.4
 k = inteiro[x] = 2
 f = fracionário[x] = 0.4
 Percentil(P%) = x(k)+f(x(k+1)-x(k)) = 20 + 0.4x15 = 26
Quartis
 Primeiro Quartil: Q1 – é o percentil 25%,

ou seja, 25% das observações estão
abaixo de Q1
 Segundo Quartil: Q2 - é a mediana
 Terceiro Quartil: Q3 – é o percentil 75%
Estatísticas Descritivas – Retorno
do Petróleo WTI – 01/1991 a 08/2006
Percentis – Retorno do Petróleo
WTI – 01/1991 a 08/2006
Percentis
5% -3.53%
10% -2.53%
5% dos retornos 25% -1.17%
abaixo de -3.53%
50% 0.07%
75% 1.28%
90% 2.51%
95% 3.45%
90% dos retornos
abaixo de +2.51%
Percentil:
(Icaraizinho - NE).
Percentil = 50% 45% 40% 35% 30% 25% 20% 15% 10% 5%
Jan 24.9 24.5 23.6 22.3 20.9 20.1 19.1 17.7 16.4 13.8
Feb 18.8 18.5 18.2 17.2 16.7 16.0 15.5 14.4 12.1 11.0
Mar 15.7 14.5 13.7 13.3 12.4 10.5 10.2 9.9 9.5 9.0
Apr 17.5 16.0 14.3 12.0 11.6 10.6 9.8 9.3 9.2 8.0
May 24.1 21.8 18.9 17.7 16.5 15.6 14.6 12.5 11.4 10.9
Jun 30.6 29.4 27.6 27.2 26.9 26.2 25.3 23.5 23.2 21.2
Jul 37.7 37.2 36.8 36.6 36.4 35.9 33.7 30.7 27.7 26.5
Aug 54.6 54.4 53.7 53.4 52.6 51.9 50.6 50.3 49.7 47.7
Sep 62.1 61.9 61.0 60.4 60.1 58.3 56.3 54.3 51.2 49.7
Oct 58.3 57.9 56.3 56.0 55.3 54.3 51.3 50.6 48.7 46.2
Nov 52.3 51.9 51.5 50.4 49.7 48.4 47.5 45.4 44.6 41.0
Dec 39.9 39.5 38.7 37.4 35.2 31.9 31.5 28.0 27.0 21.4
Média 36.4 35.6 34.5 33.7 32.8 31.6 30.4 28.9 27.6 25.5
50% 45% 40% 35% 30% 25% 20% 15% 10% 5%

Todos os
meses 35.8 32.1 29.1 27.2 24.9 22.4 18.8 17.1 14.4 11.2
Percentil:
(Icaraizinho - NE).
Feb Aug
100%
95%
90%
85%
80%
Frequência Relativa Acumulada
75%
70%
65%
60%
55%
50%
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
- 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0
Produção de energia (% potência máxima)
Análise dos Retornos do
IBOVESPA
 Considere agora os retornos diários do
IBOVESPA no período entre 04 de julho de 1994 e
06/08/2004.
 Defina o retorno diário entre os dias t e t + 1

como:
 Pt 1 
Rt 1  log 
 Pt 
 Onde log denota o logaritmo natural (base e) e Pt
e Pt+1 são, respectivamente, os preços nos dias t e
t + 1.
 O retorno definido acima é chamado de retorno
geométrico.
Histograma dos Retornos
IBOVESPA
Histograma dos retornos diários do IBOVESPA
500
450
400
350
300
Freqüência
250
200
150
100
50
0
- 7 - 6 - 6 - 5 - 5 - 4 - 4 - 3 - 3 - 2 - 2 - 1 - 1 - 0 0. 0. 1. 1. 2. 2. 3. 3. 4. 4. 5. 5. 6. 6. 7. M
.0 .5 .0 .5 .0 .5 .0 .5 .0 .5 .0 .5 .0 .5 00 50 00 50 00 50 00 50 00 50 00 50 00 50 00 ai
0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% % % % % % % % % % % % % % % % s
Bloco
Percentis dos Retornos
Percentil Retorno Correspondente

1.0% -6.75%
5.0% -3.90%
10.0% -2.74%
25.0% -1.24%
50.0% 0.13%
75.0% 1.48%
90.0% 2.69%
95.0% 3.66%
99.0% 6.63%
IBOVESPA
 Uso da função “freqüência”
 Produz a freqüência (número de ocorrências
num determinado intervalo).
 Por exemplo, dentre 2501 retornos diários do
IBOVESPA, a referência:
 FREQÜÊNCIA(E$3:E$2503;G7) significa:
 Olhe para todos os dados em E$3 a E$2503 (são
os retornos diários) e conte QUANTOS estão
ABAIXO do valor em G7.
 O gráfico destas frequências é mostrado na
próxima página.
-
-1
500
1,000
1,500
2,000
2,500
3,000
5.
00
-7 %
.0
0
-6 %
.5
0
-6 %
.0
0
-5 %
.5
0
-5 %
.0
0
-4 %
.5
0
-4 %
IBOVESPA
.0
0
-3 %
.5
0
-3 %
.0
0
-2 %
.5
0
-2 %
.0
0
-1 %
.5
0
-1 %
.0
0
-0 %
.5
0%
0.
00
%
0.
50
%
1.
00
%
1.
50
%
2.
00
%
2.
50
%
3.
00
%
3.
Frequüências Acumuladas - Retornos Diários
50
%
4.
00
%
4.
50
%
5.
00
%
5.
50
%
6.
00
%
6.
50
%
7.
00
%
20
%
30
%
80
IBOVESPA
 Se dividirmos cada uma destas freqüências
por 2501 obtemos as freqüências relativas
acumuladas – veremos mais tarde que isso
é uma aproximação para a função de
distribuição acumulada.
 Veja o próximo gráfico.
-1
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
5.
00
-7 %
.0
0
-6 %
.5
0
-6 %
.0
0
-5 %
.5
0
-5 %
.0
0
-4 %
.5
0
IBOVESPA
-4 %
.0
0
-3 %
.5
0
-3 %
.0
0
-2 %
.5
0
-2 %
.0
0
-1 %
.5
0
-1 %
.0
0
-0 %
.5
0%
0.
00
%
0.
50
%
1.
00
%
1.
50
%
2.
00
%
2.
50
%
3.
00
%
3.
50
%
4.
00
%
Frequüências Relativas Acumuladas - Retornos Diários
4.
50
%
5.
00
%
5.
50
%
6.
00
%
6.
50
%
7.
00
%
20
%
30
%
82
Assimetria
 O coeficiente de assimetria amostral é

definido como:
1 n 3 n 3
  X i  X   n  X i  X  
3   n i 1    i 1 
3/ 2 3/ 2
1 2  2
   
n n
  i X  X   i X  X 
 n i 1   i 1 
Se o coeficiente é zero, seus dados são simétricos em torno da

média.
Se o coeficiente é positivo (assimetria positiva), existem
valores “grandes” maiores que a média => existe uma cauda
comprida para a direita.
Assimetria
 Em geral, se a
assimetria é positiva, a
média é MAIOR que a
mediana.
 Na curva A acima a
assimetria é positiva,  O oposto ocorre se a
a curva B é simétrica assimetria é negativa (em
e a curva C tem geral média MENOR que a
mediana).
assimetria negativa.
Assimetria
Dados com assimetria Dados simétricos

positiva
Curtose
 É uma medida do “achatamento” de uma

distribuição de probabilidade.
 Como a distribuição Normal tem curtose

igual a 3, usualmente define-se: “excesso
de curtose”, ou seja, o quanto uma
distribuição de probabilidade tem mais
curtose que a Normal e “falta de curtose”,
quanto uma distribuição de probabilidade
tem menos curtose que a Normal.
Curtose.
 Distribuições de retornos de ativos

financeiros geralmente tem a “cara” de
uma Normal, mas com excesso de
curtose!
 Ao lado, a curva B
(mesocurtica) é a Normal
padrão, a curva C (platicurtica)
tem falta de curtose e curva A
(leptocurtica) tem excesso de
curtose.
Curtose
 A distribuição de referência (Distribuição

Normal) é denominada MESOCÚRTICA (Meso =
Meio, Central, etc.).
 Quando a distribuição apresenta uma curva de
freqüência mais fechada (mais aguda em sua
parte superior), ela é denominada LEPTOCÚRTICA
(Lepto = Delgado, Alongado, Magro, etc.)
 Quando a distribuição apresenta uma curva de
freqüência mais aberta (mais achatada em sua
parte superior), ela é denominada PLATICÚRTICA
(Plato = Chato, Plano, Largo, etc.).
Curtose
 A fórmula do excesso de curtose é:
n  X i  X 
n
4
4  i 1
2
3
 n 2
  Xi  X  
 i 1 
 Note que, se os seus dados são Normais, esta
medida é próxima de zero.
o Se k4 for igual a zero a curva é mesocurtica.
o Se k4 for maior que zero a curva é platicurtica.
o Se k4 for menor que zero a curva é leptocurtica.
Exercício1 (para casa)
 Tomou-se uma amostra de 60 estudantes que fizeram uma
prova, e, a estatística descritiva, diagrama de frequência e
gráfico das notas da prova estão a seguir:
ESTATÍSTICA DESCRITIVA
Média 5,4
Erro padrão 0,3 Frequência relativa
Bloco Freqüência acumulada
Mediana 5,6
Moda 3,8 ≤ 1,2 1 1,67%
Desvio padrão 2,6 (1,2 - 2,4] 11 20,00%
Variância da amostra 7,0
(2,4 - 3,6] 4 26,67%
Curtose -1,2
Assimetria -0,1 (3,6 - 4,8] 9 41,67%
Intervalo 8,4 (4,8 - 6,0] 10 58,33%
Mínimo 1,2
(6,0 - 7,2] 8 71,67%
Máximo 9,6
Soma 325,7 (7,2 - 8,4] 5 80,00%
Contagem 60,0 > 8,4 12 100,00%
90
 Histograma
91
 Pergunta-se:
a) 80 % dos alunos, tiraram notas menores ou igual a
8,4.
V ( ) ou F ( ).
b) 60 % das notas dos alunos estão entre 1,2 e 8,4.
V ( ) ou F ( ).
c) Os valores da média e mediana permitem dizer que a
distribuição é simétrica.
V ( ) ou F ( ).
d) Podemos dizer que 20% dos alunos tiraram notas
menores ou igual a 2,4.
V ( ) ou F ( ).
92
e) A assimetria negativa indica que existem mais notas
altas e menos notas baixas.
V ( ) ou F ( ).
f) Podemos dizer que a nota 5,4 é a que mais vezes
acontece.
V ( ) ou F ( ).
g) O coeficiente de Variação conforme a estatística
descritiva é igual a 1,296.
V ( ) ou F ( ).
h) Construa o diagrama de Pareto desta amostra,
montando em blocos onforme o diagrama de
frequência dado (esboce o gráfico).
93
i)- Na tabela abaixo, temos o diagrama de frequência de uma
amostra de 50 elementos onde: os intervalos [Li-1-L1) são
iguais; x i : é o ponto médio de cada classe (intervalo); fi:
frequência absoluta simples; Fi: frequência cumulada.
- Preencher os espaços vazios do diagrama de frequência.
[Li-1-L1) xi fi Fi x if i
[160 – 180) 850
190
27 2730
9
-260) 1500
50
94
PROBEST
Aula 2

Alexandre Street
Roxana C. Contreras
2015.1
reinaldo@ele.puc-rio.br ing.jdhernandes@gmail.com
street@ele.puc-rioi.br jjampinho@gmail.com
roxanajc@ele.puc-rio.br 1
Definições básicas –
Introdução à Probabilidade
Probabilidades – Introdução
 Probabilidade faz parte do nosso dia a dia,

por exemplo:
 “A previsão da meteorologia é de (grande
chance de) chuvas ao final do dia”
 “O Flamengo possui (MUITAS!!!) chances
matemáticas de chegar à final”
 A probabilidade do candidato XYZ chegar ao
2o. Turno das eleições presidenciais é
pequena...
 A probabilidade da taxa SELIC cair na próxima
reunião do COPOM é alta...
Probabilidades – Introdução
 Em resumo: estamos SEMPRE falando sobre

probabilidades no nosso dia a dia, resta saber
como quantificá-las, e quais os MODELOS mais
comuns na prática.
 Na terminologia usual, a probabilidade reflete a

chance de um determinado evento ocorrer.
 Quanto maior a probabilidade, maior a chance de

ocorrência de um acontecimento.
 IMPORTANTE: probabilidade é um número entre

0 e 1 sempre!
Experiência Aleatória
 E por que é necessário estudar probabilidades?

 Sempre que lidamos com experiências aleatórias, ou
seja, toda vez em que o “mundo” não é determinístico
(quase sempre...)
 Experiência aleatória
 Aquela cujo resultado não pode ser conhecido antes da
realização da mesma, por exemplo:
 O resultado da jogada de um dado;
 O número de carros que passam num posto de pedágio
num intervalo de meia hora;
 A cotação do dólar em 02/03/2005;
 Os números que vão “sair” no concurso da Mega-Sena da
próxima semana;
 A carga no Sudeste às 18 horas de amanhã.
Experiência Aleatória
 Mas... note que, embora você não saiba

exatamente qual o resultado da experiência
aleatória, também não existe ignorância completa
sobre o assunto!!!
 No exemplo da jogada do dado, é claro que os
resultados possíveis são {1, 2, 3, 4, 5, 6}, as
faces do dado;
 No caso da Mega-Sena, o conjunto de valores
possíveis são os 6 números sorteados no
conjunto {0, ..., 50} e nos outros exemplos
podemos estabelecer um intervalo de valores
máximos e mínimos!
Espaço Amostral
 É o conjunto de todos os possíveis resultados de
uma experiência aleatória.
 Total de nomes da lista telefônica do Rio de Janeiro
(???)
 Valores entre R$ 1.50 e R$ 150 (cotação do dólar em
02/03/2007)
 Uma moeda é jogada 3 vezes, e observamos a
seqüência de caras (H) e coroas (T). O espaço amostral
é S = { HHH, THH, HTH, HHT, TTH, THT, HTT, TTT}
 Uma lâmpada é fabricada e testada até queimar, e
registra-se o tempo de ocorrência deste evento. O
espaço amostral é S = { x : x > 0 }
 O espaço amostral será denotado aqui por S.
Evento
 É um conjunto de possíveis resultados de

uma experiência, isto é, um subconjunto do
espaço amostral.
 Nomes na lista telefônica que comecem com P e tenham
5 letras
 Cotação do dólar entre R$ 3.50 e R$ 8.50 em 02/03/2007.
 O evento “sair 1 cara em 3 jogadas” é dado pelo
conjunto: { HTT, THT, TTH}
 O evento “lâmpada durar menos de 1000 horas” pode
ser expresso como: { x : 0 < x < 1000}
Evento
 É um subconjunto de S em .
  é o espaço de todos os eventos (sigma álgebra de S).
 Uma sigma-álgebra de S é um conjunto de subconjuntos de S
que contém S e é fechado na união contável e no
complemento de seus elementos.
 Da definição, segue diretamente que ambos  e S são
eventos.
 Se o espaço amostral é finito e possui n elementos, então
existem 2n subconjuntos deste espaço amostral, isto é,
existem 2n eventos ou elementos em .
 É claro que não podemos dizer quantos eventos existem
associados a um espaço amostral infinito.
Propriedades de Eventos
 Se A e B são eventos – sua interseção também é um

evento! Isso vale também para a interseção entre n
eventos.
Interseção entre os eventos A e B
Espaço Amostral
Evento A Evento B
 Se A e B são eventos – sua união também é um

evento! Esta propriedade é válidade também para a
união de n eventos.
união entre os eventos A e B
Espaço Amostral
Evento A Evento B
 Se A é um evento, o complemento de A, denotado

por AC ou A , também é um evento.
Espaço Amostral
Ac
Eventos mutuamente
exclusivos
 Eventos mutuamente exclusivos – os elementos de
A não pertencem a B e vice-versa, isto é, A  B = .
 Note que dois eventos complementares são mutuamente
exclusivos
Espaço Amostral
A B
Definição axiomática de
probabilidade
 A definição axiomática de probabilidade encara
probabilidade como uma função que recebe um
subconjunto do espaço amostral (evento) e
retorna a sua “chance” de ocorrência.
 Chance pode ser entendida como a frenquencia

relativa de ocorrência de resultados contidos
nesse evento caso uma sequência infinita de
repetições do experimento fosse realizada.
 P:[0,1]
probabilidade
 Considere o experimento de lançar uma moeda.
 O conjunto amostral é S = {H,T}
 O espaço de eventos é  = {Ø;{H};{T};S}
 A probabilidade mede a chance dos eventos
 P({H}) = P({T}) = ½, P(Ø) = 0 e P(S) = 1.
 Seja A o evento observar H após o experimento: A = {H}.
 Suponha a realização de n experimento similares e que N(A,n)
represente o número de vezes em que o evento A foi
observado nas n realizações.
 Hipótese: Se assumimos que o experimento é ivariante no
tempo, podemos supor que a freq. relat. passada é um
indicador da “chance” que um evento A possui em ocorrer
novamente... Então, P(A) pode ser entendida como:
limn∞N(A,n)/n
probabilidade
A
[0,1]
probabilidade
 No entanto, nem toda função que sai do espaço de

eventos, , e chega em [0,1] pode ser chamada de
probabilidade, ela tem que satisfazer certas
condições. reinaldo@ele.puc-rio.br 16
probabilidade
 Seja S o espaço amostral e A um subconjunto
qualquer deste espaço. Uma função de
probabilidade que atua sobre este espaço
amostral satisfaz:
i) 0  P(A)  1 para todo A  S
ii) P(S) = 1
iii) P(A1  A2  A3 .....) = P(A1) + P(A2) + P(A3) + ...
onde os Ai são mutuamente exclusivos.
 Esta última propriedade é válida, em particular,
quando existe um número finito de termos na
união.
probabilidade
 A versão mais simples da expressão iii) será usada
muitas vezes neste curso, e por isso a colocamos em
destaque:
P(A1  A2) = P(A1) + P(A2) se A1 e A2 forem
mutuamente exclusivos.
 Estas três propriedades definem o tipo de função

que pode ser chamada de probabilidade.
 A princípio, existem infinitas funções que mapeiam 

em [0,1], mas para ser chamada de probabilidade,
uma função deve satisfazer os três requisitos
anteriores.
Propriedades das
Probabilidades
 A partir da definição podemos derivar diversas
propriedades importantes.
 Seja A um subconjunto qualquer de S e Ac o seu
complemento.
 Seja P(.) uma probabilidade definida em . As
seguintes propriedades decorrem da definição de
probabilidade:
 P(Ø) = 0
 Para todo A  S, P(Ac) = 1 - P(A) onde Ac é o
complemento de A
 Para todo A  S, 0  P(A)  1 = P(S)
 Para quaisquer A1 e A2 em S tais que A1  A2 então
P(A1)  P(A2)
Propriedades das
Probabilidades
 Esta última propriedade resulta numa certa
“ordenação" dentro do espaço amostral, e diz
simplesmente que, se um evento A1 está contido
noutro, a probabilidade de A1 é menor ou igual
à probabilidade do evento que o contém.
 A propriedade a seguir é uma das mais

importantes na prática, e nos permite calcular a
probabilidade da união de eventos que não são
disjuntos.
Propriedades das
Probabilidades
 Para quaisquer A1 e A2 em S:
 P(A1  A2) = P(A1) + P(A2) - P(A1  A2)
 Em particular, se A1 e A2 são mutuamente

exclusivos: P(A1  A2) = P(A1) + P(A2)
 Esta propriedade é às vezes chamada de

“lei da adição”.
Partição do Espaço Amostral
 É formada por eventos cuja interseção é nula e cuja
união é o próprio espaço amostral.
 Por exemplo, pessoas numa pesquisa de mercado

classificadas em classes de consumo (A, B, C, D) – as
classes formam uma partição do espaço amostral.
Espaço Amostral
C D
Em resumo: casos particulares
da lei da adição
 Eventos mutuamente exclusivos
 P(A  B) = P(A) + P(B), pois P(A  B) = 0
 Eventos complementares
 P(A  Ac) = P(A) + P(Ac) = 1, já que P(A  Ac) = 0
 Partição do espaço amostral (com 3 eventos)

 P(A  B  C) = P(A) + P(B) + P(C) = 1
Exemplo – propriedades das
probabilidades
 Um banco possui 10 fundos de investimento. Desses,
6 são de renda fixa, 4 são corporativos e 2 são de
renda fixa e corporativos. Se escolhermos um fundo
ao acaso, qual é a probabilidade dele ser de renda
fixa ou corporativo?
 Solução (evento A: renda fixa, evento B: corporativo)
Universo = 10 elementos
P(A  B) = P(A) + P(B) – P(A  B)
P(A) = 6/10 = 0.6
P(B) = 4/10 = 0.4
P(A  B) = 2/10 = 0.2
P(A  B) = 0.6 + 0.4 – 0.2 = 0.8 ou 80%
Probabilidade Condicional
 Como será que a probabilidade de um evento muda

após sabermos que um outro evento ocorreu? Isso
nos leva à idéia de probabilidade condicional.
 A idéia de probabilidade condicional é uma das mais

importantes deste curso e está intimamente
relacionada com o seguinte fato: a informação de
ocorrência de um determinado evento pode afetar ou
não a probabilidade de ocorrência de outro evento.
 Uma probabilidade condicional nada mais é do que

uma probabilidade calculada não mais a partir do
espaço amostral inteiro S, e sim a partir de um
subconjunto de S.
 Motivação
 Um grupo de 50 pessoas inclui 40 com diploma de curso
superior, 20 microempresários e 10 que são, ao mesmo
tempo, portadores de diploma do curso superior e
microempresários.
 Calcule a probabilidade de alguém ser microempresário

sabendo que ele tem diploma de curso superior.
 Sejam os eventos:
A = { pessoa tem diploma de curso superior }
B = { pessoa é um microempresário }
Seleciona-se uma das 50 pessoas aleatoriamente. Então:
 P( A ) = 40/50 , P( B ) = 20/50 e P( A  B ) = 10/50

 Considere o seguinte evento: a pessoa é
microempresária e sabe-se que ela tem diploma de
curso superior.
 A probabilidade deste evento deve ser diferente da

probabilidade da pessoa ser microempresária, por
que agora o espaço amostral não consiste mais nas
50 pessoas originais, mas apenas naquelas que
possuem diploma de curso superior.
 A probabilidade condicional de que uma pessoa seja

microempresária sabendo-se que ela tem diploma de
curso superior é dada por:
 P(A  B) / P(A) = 10/40 = 0.25
 Ou, em outras palavras, devemos olhar para as 10 pessoas

na interseção dentre as 40 pessoas com diploma de curso
superior. O nosso novo “universo” de possibilidades S’, ao
calcular a probabilidade condicional, restringe-se às 40
pessoas que têm curso superior, S’=A, e não mais às 50
pessoas do grupo original.
 Por isso, dividimos P(A  B) por P(A). Pois agora, já

sabemos que A ocorreu, logo, reparametrizamos a medida
de prob. E criamos um segunda medida (condicional):
P( B | A ) = prob. de B dado A.
 Nesta nova medida, P( A | A ) = 1.
 Exemplo
 Em uma amostra de 100 funcionários de
uma empresa:
 35 são homens e fumantes,
 28 são homens e não fumantes,
 17 são mulheres fumantes
 20 são mulheres e não fumantes.
 Qual a probabilidade de um funcionário
escolhido ao acaso ser fumante, dado que ele
é homem?
Não
B:Fumantes A:Homens Fumantes Total
fumantes
Homens 35 28 63
Mulheres 17 20 37
Total 52 48 100
Não
Mulheres fumantes
 Note que, quando definimos que o evento A
ocorreu (o funcionário é homem), restringimos o
espaço amostral à ocorrência do evento B (o
funcionário é fumante)
 O novo universo passa a ser o próprio evento A
Não
Fumantes Total
fumantes
B:Fumantes A:Homens Homens 35 28 63
Mulheres 17 20 37
Total 52 48 100
Mulheres Não Novo universo

fumantes
P(A  B)
 Utilizando o número de elementos de cada

conjunto, temos:
 P(B | A) = 35/63 = 0.556
 Ou empregando as probabilidades:
 P(A) = 63/100 = 0.63
 P(A  B) = 35/100 = 0.35
 P(A  B)/P(A) = 0.35/0.63 = 0.556
 Estes exemplos nos fizeram derivar naturamente

a probabilidade condicional do evento B dado o
evento A.
 Em geral, a probabilidade do evento B dado o

evento A (ou dado que o evento A ocorreu) é:
P (B | A) = P(A  B)/P(A)
 Analogamente: P (A | B) = P(A B)/P(B)
 Estas definições só são válidas quando os

denominadores forem diferentes de zero!
 Ao reordenarmos as expressões anteriores
encontramos:
P(A  B) = P (B | A) . P(A) = P(A | B). P(B)
 Este resultado é também conhecido como

Teorema da Multiplicação. Este teorema nos
permite escrever uma probabilidade condicional
em termos da probabilidade condicional
“inversa”, o que é útil quando uma delas for
difícil de calcular. Em particular:
P A | B PB 
P B | A 
P  A
Eventos Independentes
 Dois eventos A e B são chamados de

independentes se:
Pr ( A  B ) = Pr ( A ) . Pr ( B )
 Do contrário, A e B são eventos dependentes.
 Independência é uma propriedade muito forte e

tem um impacto direto sobre as probabilidades
condicionais, como veremos a seguir.
 Para eventos independentes,
P(A | B) = P(A).P(B)/P(B) = P(A)
 Ou seja, se A e B são independentes, a ocorrência de B não

traz qualquer informação adicional sobre A.
 Analogamente, se A e B são independentes:

P(B | A) = P(B)
 Em termos bastante informais, se A e B são independentes,

um evento não tem “nada a ver” com o outro! Saber que um
ocorreu não muda a probabilidade do outro ocorrer.
Independência e Dependência
 Exemplo
 Tomou-se uma amostra com 1000 pessoas num
shopping-center com o objetivo de investigar a
relação entre renda familiar e posse de cartões de
crédito.
 A partir dos dados da próxima tabela pergunta-se:

existe independência entre “renda” e “posse de
cartões de crédito”?
Renda Familiar < R$ 500 R$ 501 a R$1000 R$ 1001 a R$ 2000 > R$ 2001
Núm. Cartões
0 260 170 80 20 530
1 50 100 110 60 320
2 ou mais 20 25 45 60 150
330 295 235 140 1000
 Se existe independência entre as duas variáveis,

então Pr(Ai  Bj) = Pr(Ai).Pr(Bj) para todos i e j, onde
Ai indica o nível de renda e Bj o número de cartões de
crédito. Logo, basta provar que a igualdade acima
não é válida para ALGUMA célula na tabela para
concluir que as duas variáveis são dependentes. Se
olharmos para a célula superior esquerda vemos que:
 P(renda abaixo de R$ 500 E nenhum cartão) = 0.26
 Mas:
 P(renda abaixo de R$ 500) = 330/1000 = 0.33
 P( 0 cartões de crédito ) = 530/1000 = 0.53
 E como 0.26  (0.33)(0.53), segue que as variáveis

“renda familiar” e “número de cartões de crédito”
são dependentes.
Exemplo
 Uma caixa contém N bolas vermelhas e M bolas

azuis. Vamos tirar 2 bolas da caixa sem repô-las.
Qual a probabilidade p da primeira bola ser
vermelha e da segunda ser azul?
 Solução
Sejam A e B os seguintes eventos:
A = {1a. bola é vermelha}
B = {2a. bola é azul}
 Se o evento A ocorreu, uma bola vermelha foi
tirada da caixa. Como não há reposição, a
probabilidade de obter uma bola azul na 2a.
retirada é:
Exemplo
 P(B|A) = M / (M + N-1)
 O evento ( A  B ) é o evento {1a. bola é vermelha e a

2a. bola é azul}, e sua probabilidade é:
 P(A  B) = P(B|A).P(A) = [ M / (M + N-1) ] . [ N / (M+N) ]
 Como será que a probabilidade de um evento muda

após sabermos que um outro evento ocorreu? Isso
nos leva à idéia de probabilidade condicional.
 Uma probabilidade condicional nada mais é do que

uma probabilidade calculada não mais a partir do
espaço amostral inteiro S, e sim a partir de um
subconjunto de S.
 Já vimos que a definição de prob. condicional é:

P (B | A) = P(A  B)/P(A) e, analogamente,
P (A | B) = P(A  B)/P(B)
 Estas duas últimas expressões em conjunto nos

levam ao resultado conhecido como Teorema da
Multiplicação:
P(A  B) = P (B | A) . P(A) = P(A | B). P(B)
 A partir desta última expressão:

P A | B PB 
P B | A 
P  A
Exemplo
 Numa certa cidade 40% das pessoas são

homens e 60% mulheres. Também, 50% dos
homens e 30% das mulheres fumam. Ache a
probabilidade de que uma pessoa seja homem,
dado que esta pessoa é fumante.
 Solução
Pr ( H ) = 0.4 = probabilidade de selecionar um homem
Pr ( M ) = 0.6 = probabilidade de selecionar uma mulher
Seja S o evento: "uma pessoa é fumante". Então:
Pr (S | H ) = 0.5 e Pr ( S | M ) = 0.3.
Desejamos encontrar Pr ( H |S ).
Exemplo
Pela definição de probabilidade condicional:
Pr H  S  Pr S | H  Pr H 
Pr H | S   
Pr S  Pr S 
 Mas Pr (H) e Pr (S | H) são conhecidas, e então só
é preciso calcular Pr (S) (a probabilidade de um
fumante na população). Mas, note que:
 S = (S  M)  (S  H) e os conjuntos (S  M) e (S  H) são
disjuntos
Pr ( S ) = Pr ( S  M ) + Pr ( S  H ) =
= Pr ( S | H ).Pr ( H ) + Pr ( S | M ).Pr ( M ) =
= ( 0.5 ) ( 0.4 ) + ( 0.3 ) ( 0.6 ) = 0.38
Exemplo
Finalmente:
Pr H  S  Pr S | H  Pr H  0.50.4  20 10
Pr H | S        0.5263
Pr S  Pr S  0.38 38 19
Independência
 Dois eventos A e B são independentes se:

Pr ( A  B ) = Pr ( A ) . Pr ( B )
 Se A e B são independentes, então as

probabilidades condicionais são iguais às
incondicionais, isto é:
P(A | B) = (P(A). P(B))/P(B) = P(A)
P(B | A) = P(B)
 Em outras palavras, se A e B são independentes, A “não
traz qualquer informação sobre B” (e vice-versa).
Independência para mais de
dois eventos
 Considere uma coleção de n eventos A1,
A2, ..., An. Estes eventos são
independentes se, e somente se:
i) Pr ( A1  A2 ...  An ) =
= Pr(A1) . Pr(A2) ... Pr(An) e,
ii) Toda sub-coleção de eventos contendo

mais de dois e menos de n eventos é
independente.
Independência para mais de
dois eventos
 No caso de 3 eventos A, B e C, a
independência ocorre se TODAS as
condições abaixo são satisfeitas:
1) Pr( A  B) = Pr(A).Pr(B)
2) Pr( A  C) = Pr(A).Pr(C)
3) Pr( B  C) = Pr(B).Pr(C)
4) Pr( A  B  C) = Pr(A).Pr(B).Pr(C)
 Uma partição do espaço amostral é uma coleção

de eventos mutuamente exclusivos cuja união é o
próprio S (espaço amostral), como nas figuras a
seguir.
B1 B2
B3
A
B6 B
B4
B7
C D
B8
B5
 Em termos formais, os eventos B1, B2 , ...., Bk

formam uma partição do espaço amostral S se:
1) Bi  Bj =  para todo i  j
2)  Bi = S
3) Pr( Bi ) > 0 para todo i
 Para que serve uma partição?

 Podemos escrever qualquer evento no espaço
amostral em termos das suas interseções com os
conjuntos que formam uma partição do espaço
amostral.
 Suponha que A é um evento qualquer em S e B1,

B2 , ...., B8 formam uma partição de S, como na
figura a seguir.
B1 B2
B3
B6
B4
B7
A
B8
B5
 Então podemos escrever o evento A em termos das suas

interseções com cada elemento da partição (neste
exemplo, B1 a B8).
 A = (A  B1)  (A  B2)  (A  B3)  ..... (A  Bk)
 Mas, os (A  Bi) são mutuamente exclusivos, e assim é

muito fácil calcular a probabilidade da sua união (basta
somar as probabilidades). Logo:
 Pr(A) = Pr (A  B1) + Pr (A  B2) + Pr (A  B3) +
.....+ Pr (A  Bk)
 Mas, cada uma destas probabilidades pode ser escrita em
termos de probabilidades condicionais.
Teorema da Probabilidade
Total
 É um resultado que decorre diretamente
das propriedades de uma partição, como
mostrado nas transparências anteriores.
 Note que:
 Pr(A) = Pr (A  B1) + Pr (A  B2) + Pr (A  B3) +
.....+ Pr (A  Bk)
 Mas:
 Pr (A Bi ) = Pr( Bi ). Pr(ABi) para i =1, 2, ...., k.
 Combinando estes dois resultados fornece o
teorema da probabilidade total.
Teorema da Probabilidade
Total
 Sejam B1, B2 , ...., Bk uma partição de S e A um
evento qualquer em S. Então:
 Pr(A) = Pr(B1).Pr(AB1) + Pr(B2).Pr(AB2) + ..... +

Pr(Bk).Pr(ABk)
 O caso mais simples ocorre quando a partição é

composta por apenas 2 eventos, B e seu
complemento, Bc. Neste caso:
 Pr(A) = Pr(B).Pr(AB) + Pr(Bc).Pr(ABc)

Teorema de Bayes
 É um resultado muito útil em Probabilidade, que

“mistura” os teoremas da multiplicação e da
probabilidade total.
 Sejam B1, B2 , ...., Bk uma partição de S e A um

evento qualquer em S. Então:
Pr Bi  A Pr Bi  A Pr  A | Bi  Pr Bi 

Pr Bi | A   
Pr  A
 Pr A | B Pr B   Pr A | B Pr B 
k k
j j j j
j 1 j 1
 Para qualquer evento Bi na partição e qualquer A.

Teorema de Bayes
 Para que serve?

 Muitas vezes conseguimos encontrar
partições de S que são “óbvias” ou
“naturais”;
 O teorema de Bayes nos permite
“inverter” probabilidades condicionais,
escrevendo uma probabilidade
condicional que (esperamos!) é difícil de
calcular diretamente em termos de
probabilidades “fáceis” de calcular.
Teorema de Bayes
 Cuidados ao usar o Teorema de Bayes

 ESCREVA OS EVENTOS DE INTERESSE.
 NÃO TENTE RESOLVER OS PROBLEMAS “DE
CABEÇA” PARA MINIMIZAR SUAS CHANCES DE
ERRO!
Exemplo - Bayes
 Os funcionários de uma empresa se dividem em

3 grupos: economistas, engenheiros e analistas
de sistemas. Estes funcionários podem ocupar
cargos técnicos ou gerenciais. Sabemos que:
40% dos funcionários são economistas,
30% dos funcionários são engenheiros e
30% dos funcionários são analistas de sistemas.
 O percentual de cada grupo ocupando cargos
gerenciais é:
30% dos economistas,
40% dos engenheiros,
10% dos analistas de sistemas.
Exemplo - Bayes
 a) Seleciona-se um funcionário aleatoriamente.

Qual a probabilidade dele ocupar um cargo
gerencial?
 b) Seleciona-se uma pessoa ao acaso na

empresa e sabe-se que ela ocupa um cargo de
gerência. Qual a probabilidade dela ter vindo de
cada um dos três grupos, ou seja, dado que a
pessoa é um gerente, qual a probabilidade dela
ser economista, engenheiro ou analista de
sistemas?
Exemplo - Bayes
 Solução
a) Considere os eventos:
A1 = {economistas}, A2 = {engenheiros}, A3
= {analistas de sistemas}, G = {cargo de
gerência}
Sabemos que: Pr(A1) = 0.40, Pr(A2) = 0.30,

Pr (A3) = 0.30. Também: Pr(GA1) = 0.30,
Pr(GA2) = 0.40 e Pr(GA3) = 0.10.
Exemplo - Bayes
 Queremos encontrar Pr(G). Mas:

Pr(G) = Pr(G  A1) + Pr(G  A2) + Pr(G 
A3) =
= Pr(A1). Pr(GA1) + Pr(A2). Pr(GA2) +
Pr(A3). Pr(GA3)
 A substituição dos valores resulta em:

Pr(G) = (0.40)(0.30) + (0.30)(0.40) +
(0.30)(0.10) = (0.30)(0.90) = 27 %
Exemplo - Bayes
 Queremos descobrir Pr(AiG) para i = 1, 2, 3. Isto

é uma aplicação direta do teorema de Bayes, já
facilitada por que conhecemos o denominador
(Pr(G)).
 Pr(G) = 0.27 (já calculado)
 Pr(A1G) = Pr(GA1). Pr(A1)/0.27 = (0.30)(0.40)/0.27
= 44.4%
 Pr(A2G) = Pr(GA2). Pr(A2)/0.27 = (0.40)(0.30)/0.27
= 44.4%
 Pr(A3G) = Pr(GA3). Pr(A3)/0.27 = (0.30)(0.10)/0.27
= 11.2%
Exemplo - Bayes
 Uma empresa de telefonia celular quer saber como

funciona a relação entre o uso do telefone e a
renda de seus clientes. Uma pesquisa anterior
revelou que:
10% dos clientes pertencem à classe A.
21% dos clientes pertencem à classe B.
35% dos clientes pertencem à classe C.
34% dos clientes pertencem à classe D.
 Dentre os clientes da classe A, 20% usam telefone
pré-pago.
 Dentre os clientes da classe B, 40% usam telefone
pré-pago.
Exemplo - Bayes
 Dentre os clientes da classe C, 90% usam telefone
pré-pago.
 Dentre os clientes da classe D, 98% usam telefone
pré-pago.
 Um cliente é escolhido aleatoriamente e tem o
serviço pré-pago. Qual a probabilidade dele
pertencer a cada uma das classes?
 Solução
 Aqui a partição “natural” da população já existe - os clientes
estão divididos em classes de consumo. Se soubermos que
alguém usa um telefone pré-pago, como isso afeta a
probabilidade da pessoa estar em cada uma das classes de
consumo?
Exemplo - Bayes
 Suponha que A, B, C, D indicam,

respectivamente, os eventos “pertencer à classe
A”, “pertencer à classe B”, etc...
 Seja G o evento “usar celular pré-pago”. Então,

do enunciado do problema:
 P(A) = 0.10, P(B) =0.21, P(C) = 0.35, P(D) = 0.34.
 P(G|A) = 0.20, P(G|B) =0.40, P(G|C) =0.90, P(G|D) =

0.98.
Exemplo - Bayes
 A probabilidade de um cliente escolhido

ao acaso usar celular pré-pago é (pelo
Teorema da Probabilidade Total):
P(G )  PG | AP A  PG | B PB   PG | C PC   PG | D PD  
 0.20 0.10   0.40 0.21  0.90 0.35  0.980.34   0.7522
 Escolhe-se um cliente ao acaso, e

observa-se que ele usa celular pré-pago.
Qual a probabilidade dele pertencer a
cada uma das classes de consumo?
Exemplo - Bayes
 Agora o Teorema de Bayes entra em ação,

mas, como já calculamos o denominador
(a probabilidade de alguém ser cliente pré-
pago), o cálculo se resume ao Teorema da
Multiplicação.
PG | AP A 0.10 0.20 
P A | G     2.66%
PG  0.7522
PG | B PB  0.210.40 
P B | G     11.17%
PG  0.7522
PG | C PC  0.350.90 
PC | G     41.88%
PG  0.7522
PG | D PD  0.34 0.98
P D | G     44.30%
PG  0.7522
Exemplo - Bayes
 Note que as probabilidades condicionais

(dado que o cliente é pré-pago) são
diferentes das incondicionais, e então
existe DEPENDÊNCIA entre o uso do
celular pré-pago e a classe de consumo!
 Por exemplo, a probabilidade de um cliente

qualquer ser da classe A é 10%, mas se
soubermos que o cliente é um usuário de
pré-pago, a probabilidade dele ser de
classe A cai para 2.66%.
Exemplo - Bayes
 No outro extremo, a probabilidade de um

cliente qualquer ser da classe D é 34%.
Dada a informação de que o cliente é “pré-
pago”, a probabilidade dele ser “classe D”
sobe para 44.3%.
Teorema de Bayes – exercício1
(para casa)
 Uma revenda de carros usados oferece garantia total

por 4 meses para todos os carros que vende, e este é
o seu grande diferencial de marketing. Uma pesquisa
anterior revelou que:
12% dos carros vendidos são Peugeot.
13% dos carros vendidos são Ford.
18% dos carros vendidos são Fiat.
16% dos carros vendidos são GM.
20% dos carros vendidos são Volkswagen.
21% dos carros vendidos são de outros
fabricantes.
Teorema de Bayes – exercício 1
(para casa)
 Dentre os compradores de Peugeot, 7% retornam
à loja com alguma reclamação sobre o carro
adquirido.
 Dentre os compradores de Ford, 8% retornam à
loja com alguma reclamação sobre o carro
adquirido.
 Dentre os compradores de Fiat, 15% retornam à
adquirido.
 Dentre os compradores de GM, 10% retornam à
adquirido.
(para casa)
 Dentre os compradores de Volkswagen, 16%
retornam à loja com alguma reclamação sobre o
carro adquirido.
 Dentre os compradores de outras marcas, 18%
retornam à loja com alguma reclamação sobre o
carro adquirido.
 Pergunta-se:
 Um comprador entra na loja com uma reclamação
durante o período de vigência da garantia.
 Qual a probabilidade dele ter comprado um carro de
cada uma das marcas (incluindo “outras”)?
Resposta: Pr(R) = 0,1316
PrC1 | R   6,38% PrC3 | R   20,52% PrC5 | R  24,32%
PrC2 | R   7,90% PrC4 | R   12,16% PrC6 | R   28,72%
(para casa)
 Uma empresa de telefonia quer saber se vale a

pena disponibilizar internet de banda larga para
seus clientes, e encomendou uma pesquisa de
mercado, cujos resultados estão a seguir:
15% dos clientes usam a internet mais de 30 horas por
semana.
23% dos clientes usam a internet entre 20 e 30 horas por
semana.
28% dos clientes usam a internet entre 10 e 20 horas por
semana.
34% dos clientes usam a internet menos de 10 horas por
semana.
Teorema de Bayes – exercício 2
(para casa)
 Dentre os clientes que usam internet mais de
30 horas por semana, 90% estão interessados
no acesso rápido (banda larga).
 Dentre os clientes que usam internet entre 20
e 30 horas por semana, 70% estão
interessados no acesso rápido (banda larga).
 Dentre os clientes que usam internet entre 10
e 20 horas por semana, 45% estão
interessados no acesso rápido (banda larga).
para casa
 Dentre os clientes que usam internet menos de 10
horas por semana, 25% estão interessados no
acesso rápido (banda larga).
 Pergunta-se:
 Um cliente é escolhido aleatoriamente e está
interessado na internet de banda larga. Qual a
probabilidade dele pertencer a cada uma das
classes de usuário (mais de 30 horas, 20 a 30 horas,
etc ...)?
Resposta: Pr(B) = 0,507
Pr A1 | B   26,63% Pr A3 | B   24,85%
Pr A2 | B   31,76% Pr A4 | B   16,76%
para casa
 Uma certa forma de câncer ocorre à razão de 3 em 1000
pessoas. Desenvolveu-se um teste para detectar a
doença.
 Se um paciente é sadio, existe 5% de chance de um
alarme falso.
 Se um paciente tem a doença, existe 2% de chance de
que o teste não consiga detectá-la.
 Qual a probabilidade da pessoa ter a doença sabendo
que o resultado do teste foi positivo (acusou a
existência da doença)?
Resposta:
PrT   0,05279 PrD | T   5,57%
 Atenção – o resultado deste problema vai ser

surpreendente. Por que?
para casa
 Uma empresa de telefonia celular quer saber

como funciona a relação entre o uso do telefone
e a renda de seus clientes. Uma pesquisa anterior
revelou que:
 10% dos clientes pertencem à classe A.
 25% dos clientes pertencem à classe B.
 35% dos clientes pertencem à classe C.
 30% dos clientes pertencem à classe D.
(para casa)
 Dentre os clientes da classe A, 25% usam telefone pré-
pago.
 Dentre os clientes da classe B, 45% usam telefone pré-
pago.
 Dentre os clientes da classe C, 90% usam telefone pré-
pago.
 Dentre os clientes da classe D, 95% usam telefone pré-
pago.
 Pergunta-se:
 Um cliente é escolhido aleatoriamente e tem o serviço pré-
pago. Qual a probabilidade dele pertencer a cada uma das
classes?
Resposta: Pr(S) = 0,7375
PrC A | S   3,39% PrCC | S   42,71%
PrCB | S   15,25% PrCD | S   38,65%
Exercício 5 (para casa)
 Em um laboratório há três gaiolas. Na gaiola I há

dois coelhos marrons e três brancos, a gaiola II
tem 4 coelhos marrom e dois brancos e gaiola III
contém 5 coelhos marrons e 5 brancos.
 Seleciona-se aleatoriamente uma gaiola e
aleatoriamente puxar um coelho para fora desta
gaiola.
 Pergunta-se:
 Qual é a probabilidade de que o coelho escolhido
é branco?
Resposta: PrCB   47,78%
 Pelo registro do passado, sabe-se que uma

determinada máquina para a produção de
parafusos funciona corretamente 90% do tempo.
 Se a máquina não está funcionando
corretamente, 5% dos parafusos produzidos são
defeituosos. Quando estiver a trabalhar bem
apenas 0,5% dos parafusos são defeituosos.
 Pergunta-se:
 Se um parafuso é escolhido aleatoriamente, qual
é a probabilidade de que seja defeituoso?
Resposta: PrD  0,95%
 Uma empresa de desenvolvimento urbano considera a
possibilidade de construir um shopping Center num setor no
Rio de Janeiro. Um elemento vital é uma proposta em um setor
com estrada que liga ao centro da cidade.
 Se o Conselho aprovar essa rodovia, há probabilidade de 0,90
da empresa construir o shopping, enquanto, se a rodovia não
for aprovada a probabilidade é de apenas 0,20.
 Com base em informações disponíveis, o presidente da
empresa estima que uma chance 0,60 que a estrada seja
aprovada.
 Pergunta-se:
 Qual é a probabilidade da empresa construir o shopping?
Resposta: Pr(S) = 0,62
 Uma vez que o shopping foi construído. Qual é a probabilidade
de que a rodovia seja aprovada?
 Resposta: PrR | S   87,10%
 Em uma linha de produção há dois processos,
“A” e “B”. No processo “A” 20% são defeituosos
e no processo “B” 25%.
 Em uma amostra de 300 produtos, 200 são do
processo “A” e 100 do processo “B”.
 Pergunta-se:
a) Se o produto é extraído ao acaso, qual a
probabilidade de que ele está com defeito?
Resposta: Pr(D) = 0,2167
b) Se ao extrair o produto ele é defeituoso, qual a
probabilidade de que ele é do processo A?
Resposta: PrPA | D  61,53%
 Considerando 18 atiradores classificados em 4
grupos.
 No primeiro grupo há 5 atiradores com probabilidade
0,8 de acertar o alvo, o segundo é de 7 com
probabilidade 0,7, no terceiro é de 4 com
probabilidade 0,6 e no último é de 2 com probabilidade
0,5 de acertar o alvo.
 Pergunta-se:
 Escolhe-se aleatoriamente um atirador e ele atira e
erra o alvo. Qual o grupo mais provável que ele
pertence?
Resposta: Pr(D) = 0,3167
PrG1 | E   17,54% PrG3 | E   28,07%
PrG2 | E   36,85% PrG4 | E   17,54%
 O gerente geral da uma cadeia sul americana de

supermercados estima a percentagem dos seus
estabelecimentos atingir a meta de vendas anual
equivalente a doze milhões de dólares da
seguinte forma:
Proporção do estabelecimento-(Ƥ) Probabilidade-Pr(Ƥ)

Ƥ1 = 0,60 Pr(Ƥ1)=0,20
Ƥ2 = 0,70 Pr(Ƥ2)=0,50
Ƥ3 = 0,80 Pr(Ƥ3)=0,30
 Ou seja, o gerente-geral, estima com base na experiência
anterior, que há uma probabilidade de 0.20 que 60% das
lojas chega a doze milhões em vendas anuais, e uma
probabilidade de 0,50 que 70% chega a meta, e, finalmente,
uma probabilidade de 0,30 que 80% chega a meta.
 Selecionar aleatoriamente um dos negócios.
 Pergunta-se:
 Qual é a probabilidade de que este tenha atingido a meta
considerada?
Resposta: Pr(M) = 0,71
 Uma vez que esta empresa conseguiu o objetivo, qual é a
probabilidade de que 80% das empresas venderam 12
milhões dólares?
Resposta: PrP3 | M   33,80%
PROBEST
Aula 3

Alexandre Street

2015.1
1
Aula 3
 Variáveis Aleatórias Contínuas e Discretas

 Função de Probabilidade
 Função Densidade
 Função de Distribuição
 Momentos de uma variável aleatória
Média, Variância e Desvio Padrão
Variáveis Aleatórias
 Muitas vezes o espaço amostral não é um conjunto de
valores numéricos. Por exemplo, se jogamos uma
moeda 3 vezes, o espaço amostral é S = { HHH, HHT,
HTH, THH, HTT, THT, TTH, TTT } , onde cada resultado
tem a mesma probabilidade, e T indica “coroa”, H
indica “cara”.
 Seja S o espaço amostral e X uma função que "pega"

elementos deste espaço (resultados da experiência) e
os leva num subconjunto dos números reais. Esta
função X é chamada de variável aleatória.
 Atenção: usaremos aqui X (maiúscula) para denotar a

variável aleatória e x (minúscula) para indicar um
valor específico da variável, isto é, um número.
S 
espaço amostral espaço da variável aleatória
Seja X uma variável aleatória definida num espaço

amostral S e seja  o espaço de X. Seja A um
subconjunto de  e S um subconjunto de S (espaço
amostral).
 Já definimos a probabilidade de um evento S  S (espaço
amostral), e agora gostaríamos de estender esta definição e
falar da probabilidade de um evento A  .
 O nosso objetivo agora é definir probabilidades a partir

de valores possíveis da variável aleatória, sem referência
explícita aos pontos do espaço amostral que deram origem
aqueles valores da variável aleatória.
 Como definir Pr (X  A)?

 A maneira mais natural de fazer isso é associar a
probabilidade do evento X  A à probabilidade do evento S
no espaço amostral S.
Variável Aleatória Discreta
 Nota: freqüentemente iremos abreviar “variável

aleatória” por v.a.
 Variável aleatória discreta – pode assumir apenas

valores num conjunto finito ou contável, por
exemplo, número inteiros ou inteiros positivos.
 Exemplos
 Número de expectadores em uma sessão de cinema,
 Resultado do lançamento de um dado,
 Número de ligações recebidas por uma central de
telemarketing num intervalo de tempo especificado,
 número de assaltos numa esquina.
Função de Probabilidade
 É uma função que associa a cada possível valor

de uma variável aleatória discreta a sua
probabilidade de ocorrência.
 A função de probabilidade deve satisfazer:
Pr  X  x   f ( x)  0 para todo x
 Pr  X  x    f x   1
todo x todo x
 Também, a probabilidade de qualquer
subconjunto A de valores da v.a. é apenas o
somatório de f(x) para os valores da v.a. contidos
em A.
Variável Aleatória Discreta -
Exemplo
 Seja X uma variável aleatória discreta com espaço
 = {X: x = 0,1,2,3,4}.
 Seja 4  1 
4
4!  1 
f ( x)  Pr( X  x)   .      x  0,1,2,3,4
  
x 2 x! 4  x !  16 
 Note que f(x) é uma função de probabilidade,

pois:
i) f (x)  0 para todo x  , isto é, x = 0, 1, 2, 3, 4
Também:
31 1 1 1
4
4
4!  1  4
3 1 1
ii)  f  x            
 x  0 x! 4  x !  2  x  0 2 x! 4  x !
2  4! 3! 2!
2 ! 3! 4!
3  1 1 1  3  8  24
       1
2 12 3 4  2 12  24
Exemplo
 Seja A = {0,1}. Então:
 Pr (X  A) = f (0) + f (1) = Pr(X=0) + Pr(X=1)=
4 4
4!  1  4!  1  5
      
0!4!  2  ! !  2
13 16
 Veremos depois que este é um caso
particular da função de probabilidade
Binomial, com parâmetros n = 4 e p = 1/2.
Exemplo
 Uma fábrica produz fusíveis. A probabilidade de
um fusível produzido ser defeituoso é 10%. Testa-
se fusíveis encerrando o teste assim que o
primeiro fusível defeituoso é encontrado.
 Seja X o número de testes realizados até

encontrar o primeiro fusível defeituoso.
 Ache a função de probabilidade de X.
Exemplo
 Solução
O espaço amostral é constituído por seqüências
como:
D
BD
BBD
BBBD
BBBBD
.........
 Onde B indica que o fusível está perfeito, e D

indica que o fusível tem defeito.
Exemplo
 Logo, os valores possíveis de X são: 1, 2, ...., n,
..... (não há um valor máximo).
 Mas, X = n se, e somente se, os (n-1) primeiros

fusíveis testados estão OK e o n-ésimo tem
defeito. Isto é, X = n corresponde à seqüência:
BBBBB.........BD, que tem n-1 fusíveis OK e 1 com
defeito.
 Se o estado de um fusível não afetar a condição

do próximo podemos supor que:
f(n) = Pr(X = n) = (0.9)n-1.(0.1) para n = 1, 2, .....

Exemplo
 Note que f(n) > 0 para todo n e também:
  
 f (n)   (0.9) n 1
 
.(0.1)  0.1 (0.9) n 1  0.1 1  0.9  (0.9)2 ....  0.1
1 
1 
0.9
 1

n 1 n 1 n 1
 Logo, f(n) = Pr(X = n) assim definida é uma

função de probabilidade válida.
 Veremos mais tarde que a variável X que surge

neste exemplo é chamada de v.a. Geométrica.
Exemplo
 Nota:
 Neste exemplo empregamos a série geométrica
para demonstrar que o somatório das
probabilidades para todos os valores de X era um.
 A série geométrica é:

1

k 0
a  1  a  a  a  ..... 
k 2 3
1 a
desde que a  1
 Alternativamente,

se começarmos

a série em k=1:
 a k
k 1
 a  a 2
 a 3
 .....   1 
k 0
a k
1 a
 -1 desde que a  1
1 a 1 a
Variável Aleatória Contínua
 Se uma variável puder assumir qualquer valor

num intervalo real, é uma variável aleatória
contínua.
 Exemplos
 Tempo de atendimento em um caixa de banco,
 Peso real de um pacote de 1 kg de açúcar,
 Custo de construção de uma fábrica,
 Custo de lançamento de uma campanha publicitária,
 Altura dos homens brasileiros com idades entre 18 e 30
anos,
 Retorno diário de uma ação,
 Proporção de eleitores a favor da reeleição do prefeito.
 Como já foi dito, variáveis aleatórias contínuas

são aquelas que podem assumir quaisquer
valores dentro de um intervalo.
 Para variáveis aleatórias discretas, nós podíamos

atribuir uma probabilidade a um determinado
valor da variável.
 Para variáveis aleatórias contínuas a situação é

bem diferente. Como uma variável contínua pode
assumir qualquer valor em um intervalo, na
realidade ela pode assumir infinitos valores.
 Portanto, não podemos falar da probabilidade de
ocorrência de um valor em particular. Ao invés
disso, devemos pensar na probabilidade de
ocorrência associada a um intervalo.
 Na discussão anterior sobre distribuições discretas

de probabilidades introduzimos o conceito de
função de probabilidade (f(x)).
 No caso contínuo, utilizaremos a função densidade

de probabilidade, também representada por f(x).
 Nesse caso, a função densidade de probabilidade

fornece um valor para cada possível valor (infinitos)
da variável X.
 No entanto, os valores de f(x) não representam as

probabilidades associadas a x.
 Ao invés disso, a área (isto é, a integral!) sob a

função de densidade de probabilidade em um
determinado intervalo fornece a probabilidade de
ocorrência de um valor dentro desse intervalo.
Função Densidade de
Probabilidade
 É uma função que satisfaz:
f ( x)  0 para todo x

 f ( x)dx  1

b
Pa  X  b   Pa  X  b    f ( x)dx
a
 Da definição de densidade, segue que, para uma

v.a. contínua, a probabilidade de um único ponto é
zero, isto é: P(X = a) = 0 para qualquer número a.
Distribuições contínuas de
probabilidade - exemplo
 Considere a seguinte função de densidade de
probabilidade: f(x) = (x + 1)/4 para 0  x  2.
 Verifique se esta é uma função de densidade de
probabilidade válida para o intervalo considerado.
 Calcule a probabilidade de X  1
f(x)
3/4 (x + 1)/4
1/4
0 2 x
 Solução
a) Para que f(x) seja uma função de densidade de
probabilidade válida, devemos ter a sua área = 1 no
domínio da função.
 Neste caso, devemos calcular a área sob a função no
intervalo de 0 a 2.
 A área dessa região é dada por:
f ( 2)  f ( 0) 3 / 4  1/ 4
Área  ( 2  0)  2 1
2 2
 Logo, f(x) é uma função de densidade de probabilidade
válida, pois sua integral é 1 no seu domínio de
definição e f(x) é sempre maior ou igual a zero.
 Solução
(b) A probabilidade para um determinado
intervalo de x é dada pela área sob a função de
densidade de probabilidade nesse intervalo.
P(X  1) corresponde à área sob a função para

1x2
f (2)  f (1)  3/ 4  2/ 4 
Área  (2  1)   (1)  0.625
2  2 
 Exemplo
 Seja X uma variável aleatória contínua com
espaço  = {x: 0 < x < 1}. Seja f(x) = cx2 para
todo x  , onde c é uma constante a
determinar. Qual o valor de c?
 Solução
1
cx 3 1 c
0 cx dx  3 0  3  1  c  3
2
Logo c = 3 é a constante necessária para fazer de

f(x) uma densidade em , isto é, para fazer com que a
densidade integre a um no intervalo (0,1).
Função de Distribuição
 Para cada valor x0 da variável aleatória, a Função de

Distribuição (ou Função de Distribuição Acumulada, ou
Função de Distribuição Cumulativa) é a probabilidade
de estar naquele valor, ou abaixo dele, isto é:
 F(x0) = Pr( X  x0) para todo x0
Note que, como F(x0) é uma probabilidade,

ela está limitada ao intervalo (0,1).
 Um ponto importante aqui é: a definição de Função de

Distribuição é a mesma para variáveis contínuas ou
discretas.
 Algumas funções de distribuição são

tabeladas, por exemplo, a da distribuição
Normal (0,1).
 O Excel normalmente fornece a opção de

calcular a função de probabilidade (ou a
densidade) ou a função de distribuição
acumulada, através de um argumento lógico
nas suas diversas funções estatísticas – por
exemplo, vide o “help” da função dist.binom.
 Propriedades da Função de Distribuição

i) 0  F (x)  1 pois 0  Pr (X  x)  1
ii) F(x) é uma função não decrescente
lim F(x)
iii) 1
x  
lim F(x)
iv) 0
x  
 Propriedades da Função de Distribuição

v) Se X é uma variável aleatória contínua,
sua função de distribuição é contínua.
Se X é discreta, F(x) é uma função contínua à

direita, isto é , a função de distribuição
apresenta "pulos" (descontinuidades) que só
são "sentidos" quando nos aproximamos do
ponto onde existe o "pulo" pela esquerda.
Função de Distribuição -
Exemplo
 Seja X uma variável aleatória com função
de distribuição definida por:
0 se x  0
F(x )   x
1- e se x > 0
 O gráfico desta função de distribuição é mostrado a
seguir.
F( x)
0
0 x 5
Função de Distribuição –
Exemplo 2
 Considere uma variável discreta com a
seguinte função de probabilidade:
4
4!  1 
f ( x)  Pr  X  x     para x  0,1,2,3,4
x!4  x !  2 
 A função de distribuição é:
4
x
4!  1  x
 3
F ( x)  Pr  X  x   
1
  
k  0 x!4  x !  2 
  
k  0  2  x!4  x !
 3 x 1
   para x  0,1,2,3,4
 2  k 0 x!4  x !
Função de Distribuição –
Exemplo 2
 Assim:
 F (0) = 1/16 = 0.0625 = Pr (X  0) = Pr (X = 0)
 F (1) = 5/16 = 0.3125 = Pr (X  1) = Pr (X = 0) + Pr (X = 1)
 F (2) = 11/16 = 0.6875 = Pr (X  2) = Pr (X=0) + Pr(X=1) +

Pr(X=2)
 F (3) = 15/16 = 0.9375
 F (4) = 1
 Também F(x) = 0 se x < 0 e F(x) = 1 se x > 4
Relação entre a densidade e a
função de distribuição
 Seja X uma v.a. contínua com densidade
f(x) e função de distribuição acumulada
F(x). Então:
b
Pr(a  X  b)   f ( x)dx
a
 Mas:
a
F (a )  Pr( X  a )   f ( x)dx

e
b
F (b)  Pr( X  b)   f ( x)dx

Relação entre a densidade e a
função de distribuição
 Então:
b
Pr(a  X  b)   f ( x)dx  F (b)  F (a )
a
 Pelo teorema fundamental do cálculo:

dF ( x)
f ( x) 
dx
 Logo, a densidade é a derivada da função

de distribuição.
Esperança matemática
 Definição (média ou valor esperado)

 A média (ou valor esperado ou primeiro
momento) de uma variável aleatória é definida
como:

  x. f  x dx se X é v.a. contínua
  E  X    
  x. f  x    x. Pr  X  x  se X é v.a. discreta
todo x todo x
 A média de uma variável aleatória é uma medida

de tendência central da distribuição de
probabilidade desta variável aleatória.
 Exemplo
 Seja X uma variável contínua com
densidade: f(x) = cx2 para 0 < x < 1
 1) Ache a constante c que faz de f(x) uma
densidade.
 2) Encontre a média desta densidade.
Esperança Matemática
 Solução
 1) Para que f(x) seja uma densidade:
1 1
x3 1 c
 f ( x)dx  1   cx dx  1  c  1 c  3
2
0 0
3 0 3
 2) A média desta densidade é:
 
1 1
x4 1 3
0 x 3x dx  30 x dx  3 4 0  4
2 3
 Definição (Variância)
 A variância de uma variável aleatória
mede a dispersão da distribuição de
probabilidade, e é definida como:

   x    . f  x  dx se X contínua
2

 2  VAR( X )  E  X   
2
   
   x   2 . f  x     x   2 .Pr  X  x  se X discreta
 todo x todo x
 Onde novamente f(x) representa a densidade de

probabilidade (se X contínua) ou a função de
probabilidade (se X é discreta) e  é a média da
variável aleatória.
 A variância é o segundo momento em torno da

média, e corresponde ao momento de inércia em
Mecânica.
Da própria definição segue que a variância é

uma quantidade sempre maior ou igual a
zero.
 Definição (desvio padrão)

 O desvio padrão de uma variável aleatória
é a raiz quadrada positiva da sua
variância, e denotado por , isto é:
   2  VAR X 
 O desvio padrão é expresso nas mesmas
unidades que a variável aleatória, e a
variância é dada nas unidades da variável
aleatória ao quadrado.
 Se o desvio padrão é pequeno existe

pouca dispersão em torno da média. Se
ele é grande, os valores da variável
aleatória estão muito dispersos em torno
da média.
 A média e a variância são casos

particulares dos momentos de uma
distribuição de probabilidade.
 Os momentos de uma distribuição servem

para caracterizar esta distribuição, não
apenas no que se refere à sua centralidade
e dispersão, mas também com relação a
outras características, como a simetria ou
assimetria da densidade de probabilidade.
 A notação E(...) indica o valor esperado (ou

“esperança”, ou “expectância”), e pode ser
estendida para funções mais gerais que Xk
ou (X - )k.
 Definição (valor esperado de uma função

de uma variável aleatória)
 Seja X uma variável aleatória com densidade f(x)
e seja u(X) uma função qualquer tal que as
integrais ou somatórios mostrados a seguir
existem.
 O valor esperado (ou esperança matemática) de
u(X) é: 
u  x . f  x dx se X é v.a. contínua


E u  X    
  u  x . f  x    u  x . Pr  X  x  se X é v.a. discreta

todo x todo x
 Note que u(X) é também uma v.a.!
 A definição anterior inclui, como casos

particulares, as definições de média e
variância.
 O próximo teorema é útil na manipulação

de combinações lineares de v.a. (ou suas
funções).
 Teorema (Linearidade do valor esperado)

 Sejam a e b constantes e u, v funções
quaisquer de X com valores esperados
finitos. Então:
Ea.u(X) + b.v(X)] = a E u(X)] + b E v(X)]
A expressão acima segue diretamente das propriedades de

integrais e somatórios e tem impacto significativo em todos os
cálculos envolvendo valores esperados.
 A demonstração deste fato segue diretamente da
linearidade das integrais ou somatórios. Em
particular, se a é uma constante, E (a) = a.
 Nota: fórmula alternativa para o cálculo da

variância
 O cálculo da variância através da definição é, às vezes,
bastante trabalhoso. Por exemplo, no caso de uma v.a.
discreta, é necessário computar todas as diferenças xi -  ,
elevá-las ao quadrado e multiplicá-las pela probabilidade
de ocorrência de cada xi.
 Logo, seria interessante encontrar uma fórmula alternativa

(e mais fácil) para o cálculo da variância, e isso pode ser
feito empregando-se a linearidade do valor esperado.
 Fórmula Alternativa para o Cálculo da Variância
2 = VAR(X) = E (X - )2] = E X2 – 2..X + 2]

 Pela linearidade do valor esperado e notando que 
é uma constante:
2 = E (X2) - 2.E(X) + E (2)
 Mas, por definição:  = E (X) e  é uma constante,

daí E (2 ) = 2.
 Logo:
2 = E (X2) - 22 + 2 = E (X2) - 2
2 = E (X2) - E(X)2
 Esta fórmula é válida para qualquer variável

aleatória X (contínua ou discreta), desde que a
média de X seja finita.
 Propriedades do valor esperado e da

variância de funções lineares
 Sejam a e b constantes, e X uma variável aleatória

qualquer. Então:
1) E(a.X + b) = a.E(X) + b
2) E(a) = a
3) VAR(a.X+ b) = a2.VAR(X)
4) VAR(a) = 0
 Exemplo
 O retorno mensal de certo investimento de risco
pode ser modelado pela variável aleatória R com
função de probabilidade dada a seguir:
r -5 % 0% 5% 10 % 15 %
Pr(R = r) 0.40 0.15 0.25 0.15 0.05
 Calcule o retorno esperado (em %) do

investimento e sua variância e desvio padrão.
 Solução
 A variável R é discreta, e sua média é (pela
definição):
  = (-5)(0.40) + (0).(0.15) + (5).(0.25) + (10).(0.15) +
(15).(0.05) = 1.5
 A variância de R é:
 2 = (-5-1.5)2.(0.40) + (0-1.5)2.(0.15)+ (5- 1.5)2.(0.25) +
(10- 1.5)2.(0.15) + (15 - 1.5)2.(0.05) = 40.25
 O desvio padrão de R é:
  = 2 = 6.344 (em porcentagem, que é a unidade
em que estão expressos os retornos)
Esperança matemática – exercício1
(para casa)
Seja X uma variável aleatória contínua com densidade f(x)
= c.x onde 0 < x < 3.
a) Ache a constante c que faz de f(x) uma densidade.
2 2x
Resposta: c f ( x ) 
9 9
b) Encontre a função2 de distribuição de X.
x
Resposta: F ( x)  9
c) Ache a média, a variância e o desvio padrão de X.
1 1
Resposta: E ( x)  2 ; Var ( x)  ; DP( x) 
2 2
d) Encontre um ponto m no intervalo (0,3) tal que Pr(X 
m) = Pr( X  m) = 50%. Este ponto é a mediana da
distribuição.
Resposta: m  4,5
(para casa)
 A renda de uma pessoa numa população é uma

variável aleatória contínua X com densidade f(x) = k/x3
onde x >1.
a) Ache a constante k que faz desta expressão uma
densidade.
2
Resposta: k  2 f ( x)  3
x
b) Encontre a renda média nesta população.
Resposta: E ( x)  2
c) Encontre a renda mediana nesta população, onde
m, a mediana, é tal que Pr(X > m) = Pr(X  m) = 0.50.
Resposta: m  2
(para casa)
 O salário (em milhares de reais) dos funcionários numa
empresa pode ser modelado por uma variável contínua
X com a seguinte densidade:
f(x) = c/x2 se 2  x  8
a) Ache a constante c que faz de f(x) uma densidade.
8 8
Resposta: c  f ( x ) 
3 3x 2
b) Encontre a função de distribuição de X para qualquer
número real x.
4x  8
Resposta: F ( x ) 
3x
c) Ache o ponto m entre 2 e 8 tal que Pr(X  m) = 0.50. Este
ponto é a mediana de X, ou seja, o salário mediano dos
funcionários desta empresa.
Resposta: m  16
5
PROBEST
Aula 4

Alexandre Street

2015.1
1
Aula 4
 Variáveis Aleatórias Discretas

 Bernoulli
 Binomial
 Geométrica
 Binomial Negativa
 Poisson
Distribuição Bernoulli
 É a mais simples v.a. discreta.

 Seja X uma v.a. com apenas dois valores
possíveis, “sucesso” (denotado por 1) e
“falha” (denotado por 0).
 Então:
f (1)  Pr( X  1)  p
f (0)  Pr( X  0)  1  p  q
 Note que 0 < p < 1 e “sucesso” e “falha”
não indicam se o resultado de uma
experiência é “bom”ou “ruim”.
Distribuição Bernoulli
 A distribuição de Bernoulli serve como um “tijolo”

para a construção de modelos mais elaborados,
como a Binomial, a Geométrica e a Binomial
Negativa.
 Podemos reescrever a função de probabilidade

como:
f ( x)  Pr( X  x)  p 1  p 
1 x
x
onde x  0,1
 Esta última notação será útil para identificar uma

variável Bernoulli apenas como um caso particular
de uma Binomial.
 Notação: X ~ Bernoulli(p)
Distribuição Binomial
 A situação clássica em que usamos uma

variável Binomial é:
 Uma experiência aleatória tem apenas dois
resultados possíveis : "sucesso" e "falha", onde a
probabilidade de "sucesso" é p e a probabilidade
de "falha" é q = 1- p.
 Surge, entre outras aplicações, na

amostragem COM reposição.
A experiência é repetida um número fixo (n)

de vezes, sempre nas mesmas condições,
de tal forma que as probabilidades de
"sucesso" (p) e "falha" (q =1-p) se mantêm
inalteradas a cada repetição.
 As diversas repetições da experiência são

feitas de maneira independente, ou seja, o
resultado de uma repetição não afeta o
resultado das outras.
 A variável aleatória X que mede o número

de "sucessos" nas n repetições da
experiência é uma variável discreta, com
valores possíveis 0, 1, 2, .... , n.
 Dizemos que esta variável tem

distribuição Binomial com parâmetros n e
p, e escrevemos X ~ Bin(n, p).
Distribuição Binomial - quadro
resumo
experiência "sucesso" "falha" p= n = número de X = variável
aleatória probabilida repetições da aleatória
de de experiência Binomial
"sucesso"
"chutar" a resposta acertar a errar a 1/5 número de número de
numa prova de resposta resposta questões da respostas
múltipla escolha da questão prova certas na
onde cada prova
questão tem 5
opções
nascimento de menina menino 1/2 número de número de
uma criança crianças na meninas na
numa família família família
jogada de um sair o número sair 1/6 número de jogadas número de
dado 6 qualquer do dado vezes em
outro que saiu o
número número 6 nas
n jogadas do
dado
verificar se uma peça tem peça não proporção de tamanho da número de
peça produzida defeito tem peças com amostra peças com
numa fábrica defeito defeito na defeito na
tem defeito população amostra
de peças
Distribuição Binomial – exemplo
típico
 É importante ter em mente um exemplo típico, um
modelo da situação que representa a aplicação
de uma distribuição de uma densidade ou função
de probabilidade. No caso da Binomial eu sempre
sugiro a idéia da nota da prova de múltipla
escolha em chinês ....
 X = número de questões “chutadas” certo numa
prova de múltipla escolha em chinês (presumindo
que você não saiba chinês!). Todas as questões
têm a mesma probabilidade de acerto e o fato de
você acertar ou errar uma questão não afeta a
probabilidade das outras.
 X é a sua nota na prova.
 Se X ~ Bin(n,p), sua função de probabilidade

é:
 n x
f ( x)  Pr  X  x     p (1  p ) n  x 
n!
p x (1  p ) n  x para x  0,1,2,..., n
 x x!(n  x)!
 No Excel:
 Use a função estatística distrbinom (ou
dist.binom, dependendo da versão do Excel).
 No Excel:
Valor de X
Valor de n
Valor de p
Argumento
lógico - se
VERDADEIRO
produz a função
de distribuição
acumulada, se
FALSO produz a
função de
probabilidade reinaldo@ele.puc-rio.br 11
 Média e Variância
 Se X ~ Bin(n,p) então:
 E(X) = n.p
 VAR(X) = n.p.q = n.p.(1-p)
 Nota: a distribuição de Bernoulli é apenas um

caso particular da Binomial com n = 1. Logo,
segue que a média e a variância de uma
variável Bernoulli(p) são, respectivamente, p e
p.q.
 Exemplo
 Em uma loja, a probabilidade de um cliente
realizar uma compra é de 15%. Qual a
probabilidade de, entre 5 clientes que entram
na loja, exatamente 3 realizarem uma compra?
n  5; x  3; p  0.15
f (3) 
5!
0.15 .0.85  0.024
3 2
3!.2!
 Exemplo
Numa eleição supõe-se que 30% dos eleitores são
favoráveis a uma certa proposta. Toma-se uma
amostra de tamanho 20 de eleitores da cidade do
Rio de Janeiro. Calcular as probabilidades de 4, 5,
6, 7, 8, 9 ou 10 dos eleitores na amostra serem
favoráveis à proposta.
 Solução
Seja X o número de eleitores na amostra que são
a favor da proposta. Então os valores possíveis
de X são 0, 1, 2, ...., 20, e X tem distribuição
Binomial com parâmetros n = 20 e p = 0.30.
 As probabilidades para os diversos valores de

X são calculadas através da fórmula:
 20  20!
Pr( X  x)   .(0.30) x .(0.70) 20 x  .(0.30) x .(0.70) 20 x
x  x!(20  x)!
 A tabela a seguir foi produzida usando a

função distrbinom do Excel para x = 4, 5, ..., 10.
x Pr(X =x)
4 13.04%
5 17.89%
6 19.16%
7 16.43%
8 11.44%
9 6.50%
10 3.08%
Exercício 1 (para casa – use o Excel)
 Uma empresa aérea sabe que 20% das

pessoas que fazem reservas aéreas cancelam
suas reservas.
 A empresa vende 50 passagens para um voo
que contém apenas 46 lugares. Supondo que
as pessoas cancelam suas reservas de
maneira independente, calcule a probabilidade
de que haverá assentos para todos os
passageiros.
Resposta: Pr(X≤46)= 99,43%
Exercício2 (para casa – use o Excel)
 Você arranjou um emprego numa pizzaria que
funciona no sistema de entrega a domicílio. Apenas
5% dos pedidos são de pizza de lombinho com
abacaxi.
a) Você recebe exatamente 9 pedidos pelo telefone, qual a
probabilidade de, no máximo 1 pizza de lombinho com abacaxi
ser pedida?
b) Você recebe exatamente 30 pedidos pelo telefone num dia de
bastante movimento, qual a probabilidade de receber mais de
3 pedidos de pizza de lombinho com abacaxi? Dica: pare e
pense antes de fazer contas desnecessárias!!!!!!
Resposta: Pr(X>3)= 6,08%
Distribuição Geométrica
 Da mesma maneira que a Distribuição

Binomial, a Geométrica também parte de
repetições de Bernoulli independentes.
 A grande diferença em relação à Binomial

é que, no caso da Geométrica, o número
de repetições não é fixo, e as repetições
são feitas até encontrar o primeiro
“sucesso” (e então a experiência pára).
 Um exemplo típico é: imagine uma caixa

com um número muito grande de peças.
Estas peças podem estar OK ou
defeituososas, e a probabilidade de
encontrar uma peça defeituosa é FIXA e
igual a “p”.
 Retiram-se peças da caixa até encontrar

uma peça com defeito.
 Neste exemplo, um “sucesso” indica

encontrar uma peça defeituosa.
 Note que estamos supondo que a caixa

onde estão as peças contém um número
muito grande de objetos, e assim a
probabilidade de retirada de uma peça
defeituosa é mantida constante (p).
 Seja X o número de repetições necessárias

até encontrar uma peça com defeito.
 Então a função de probabilidade de X é:

f ( x)  Pr( X  x)  q x 1. p  1  p 
x 1
p onde x  1,2,3,....
 Pode-se provar, usando a série geométrica,

que f(x) assim definida é uma função de
probabilidade.
Distribuição Geométrica -
Exemplo
 Você arranjou um emprego numa empresa que
faz pesquisas de opinião pelo telefone.
 Apenas 10% das chamadas resultam numa
pesquisa completa, isto é, apenas 10% dos
entrevistados responde todo o seu questionário.
Calcule as seguintes probabilidades:
 a) De que a primeira pesquisa completa será
respondida na 5a. ligação telefônica.
 b) De que a primeira pesquisa completa será
respondida na 8a. ligação telefônica.
Distribuição Geométrica -
Exemplo
 Esta é uma aplicação típica da
distribuição Geométrica.
 Seja X o número de ligações efetuadas até
que a 1a. pesquisa completa seja
respondida.
 Então X é uma v.a. Geométrica com
probabilidade de sucesso p = 0.10.
 a) Pr  X  5  0.90 0.10  6.56%
4
 b) Pr  X  8  0.90 0.10  4.78%

7
Distribuição Geométrica – para
casa
 Exercício 3 (para casa)
 Um gestor de fundos de investimento ultrapassa
a sua meta de retorno mensal 85% das vezes e
nos 15% restantes tem um resultado ruim (abaixo
da meta).
 Qual a probabilidade dele ter o primeiro
resultado ruim no 12º mês?
Resposta: Pr(X=12)= 2,51%
 E nos primeiros 6 meses?

 Todo final de semana você vai para a sua
casa de campo. Você é meio apressado e
gosta de ultrapassar o limite de velocidade na
estrada. A probabilidade do radar pegar você
acima da velocidade permitida é 15%.
 Se você é pego pela polícia tem que pagar
uma multa de R$ 250,00 (por que, além de
tudo você sempre esquece os documentos
do carro em casa ....).
Distribuição Geométrica – para
casa
 Suponha que cada ida para o campo no fim de
semana seja uma repetição independente. O custo
associado a cada viagem é R$ 25,00 (gasolina e
pedágio).
 Você continua dirigindo em alta velocidade até
receber a primeira multa.
a) Qual o custo esperado deste procedimento (viajar em
alta velocidade até ganhar a primeira multa)?
Resposta: R$ 416,67
b) Suponha que você tenha disponível R$300,00 no
banco. Qual a probabilidade de você estourar o seu
orçamento com este procedimento?
 A função de probabilidade de X é:
f ( x)  Pr( X  x)  q x 1. p onde x = 1, 2, 3, ....
 Notação: X ~ Geom(p)
 Se X ~ Geom(p) então:
1) E(X) = 1/p
2) VAR(X) = q/p2
Distribuição Binomial Negativa
 A distribuição Binomial negativa é mais
uma função de probabilidade derivadas de
tentativas de Bernoulli independentes e é
uma generalização da distribuição
Geométrica.
 Suponha que repetimos um número

indefinido de vezes uma experiência que
resulta em sucesso ou falha. As
repetições terminam quando encontramos
o r-ésimo sucesso, onde r é um número
especificado a priori.
 Seja X a variável aleatória que representa a

tentativa onde o r-ésimo sucesso ocorre. Então a
função de probabilidade de X é:
 x  1 r x  r
f ( x)  Pr( X  x)   . p .q onde x = r, r + 1, r + 2, .....
 r 1
 Note que o valor mínimo de X é r, pois

precisamos fazer pelo menos r repetições para
encontrar r sucessos! Também, a combinação
que aparece na densidade indica que, das x-1
repetições anteriores à última (que é
necessariamente um “sucesso”, r-1 são
“sucessos”).
 Também, pr.qx-r é a probabilidade de uma seqüência
qualquer contendo r “sucessos” e x-r “falhas”.
 Se X ~ NegBin(r, p), sua média e variância são:

E(X) = r/p
VAR(X) = rq/p2
 Nota – a função de probabilidade Binomial Negativa
com parâmetros r = 1 e p é apenas a Geométrica.
 Na verdade, uma variável Binomial Negativa (r, p) é
apenas a soma de r Geométricas(p), todas
independentes. Faz sentido, não?
Distribuição Binomial Negativa -
Exemplo
 Um comprador em potencial entra numa
loja de carros a cada hora.
 Um vendedor tem probabilidade 0.25 de
concluir uma venda. O vendedor decide
trabalhar até conseguir vender 3 carros
num só dia.
 Qual a probabilidade de que o vendedor
tenha de trabalhar exatamente 8 horas
para conseguir vender os 3 carros? E
mais de 8 horas?
Exemplo
 Seja X o número de horas de trabalho
necessárias para vender 3 carros.
 Então X tem distribuição Binomial
Negativa com parâmetros r = 3 e p = 0.25.
 x  1
Pr( X  x)   (0.25) 3 .(0.75) x 3 para x = 3, 4, 5, .....
 2
 A próxima tabela exibe os valores das

probabilidades para X = 3, 4, ...., 8.
Exemplo
x Pr( X = x )
3 0.01563
4 0.03516 A probabilidade de trabalhar
5 0.05273 exatamente 8 horas é Pr (X = 8)
6 0.06592
= 0.07787. A probabilidade de
7 0.07416
8 0.07787
trabalhar mais de 8 horas é:
Pr( X  8)  1  Pr( X  8)  1  Pr( X  3)  Pr( X  4)  ...  Pr( X  8) 

 1  0.01563  0.03516  ....  0.07787  1  0.32146  0.67854
Exemplo
 Uma fábrica de sorvetes decidiu fazer uma
campanha para aumentar suas vendas.
 A cada 50 sorvetes produzidos um é premiado, e
o prêmio consiste em ganhar um outro sorvete
grátis. Cada sorvete é vendido por R$ 0.80.
 a) Se você decide comprar sorvetes até encontrar
um sorvete premiado, quanto você espera
gastar?
 b) E se você comprar sorvetes até encontrar o 2o.
sorvete premiado?
Exemplo
 a) Seja X o número de sorvetes comprados até
encontrar o 1o. sorvete premiado. Então X tem
distribuição Geométrica com parâmetro p =1/50. Seja
C o custo deste procedimento. Então C = 0.8X e E(C)
= 0.8.E(X). Mas, E(X) = 1/p = 50 e assim o custo
esperado é de R$40.
 b) Neste caso X mede o número de sorvetes

comprados até encontrar o 2o. sorvete premiado.
Então X tem distribuição Binomial Negativa com r =
2 e p =1/50. Agora E(C) = 0.8E(X) = 0.8(2)(50) = R$ 80.
 Uma gulosa professora de estatística é
“fissurada” por trufas de chocolate. Em busca
da trufa ideal, ela vai provando chocolates em
diversas lojas, de maneira independente.
 A probabilidade dela gostar de uma trufa que
prova é 70%. Ela decide passear por um
shopping, provando todas as trufas que
encontra, e decide parar só ao encontrar a 4a.
trufa “maravilhosa”(para “desespero” da
balança que tem em casa!).
Distribuição Binomial Negativa –
exercício 5 (para casa)
 Qual a probabilidade dela ter que:

a) Provar 6 trufas até encontrar a 4a. trufa
maravilhosa?
b) Ter que “sofrer”, provando 10 trufas, até
encontrar a 4a. trufa maravilhosa?
Distribuição de Poisson
 Está associada a experiências que modelam o

número de ocorrências de um evento dentro de um
determinado intervalo de tempo (ou espaço), quando
estes eventos ocorrem com uma taxa média
conhecida, por exemplo:
 Número de carros que passam por uma estrada no
intervalo de uma hora
 Número de buracos por km de uma rodovia
 Número de assassinatos num final de semana
 Número de defeitos por metro de tecido produzido
 Número de erros de digitação numa página de

texto
 Número de mutações num trecho de DNA após a
exposição a uma certa quantidade de radiação
 Número de soldados mortos por chutes de cavalo
a cada ano na cavalaria Prussiana. Este exemplo
ficou famoso num livro de Bortkiewicz (1868–
1931).
 Um experimento de Poisson possui as seguintes

características:
 A probabilidade de uma ocorrência é a mesma
para intervalos iguais;
 As ocorrências são independentes, e
independente do tempo em que o último
evento aconteceu.
 A distribuição foi descoberta por Siméon-
Denis Poisson (1781–1840) e publicada em
1838 em seu trabalho “Recherches sur la
probabilité des jugements en matières
criminelles et matière civile” (Wikipedia).
 A função de probabilidade para uma variável

Poisson com parâmetro m é:
m xem
f ( x)  Pr( X  x)  onde x  0,1,2,....
x!
 Este parâmetro m é a MÉDIA da distribuição e
indica o número esperado de ocorrências num
dado intervalo.
 A distribuição Poisson é freqüentemente utilizada
na modelagem de eventos “raros”, ou seja, a
probabilidade de X = 0 ou X = 1 (pequeno número
de ocorrências no intervalo de tempo
especificado) é grande.
Distribuição de Poisson no
Excel
Valor de X
Parâmetro da
função de
probabilidade
Argumento
lógico
Se FALSO
fornece a
função de
probabilidade
f(x)
 Se X ~ Poisson(m) então:
 E(X) = m
 VAR(X)  m
 Exemplo
 O número de clientes que entram em um
banco num período de 12 minutos segue
uma distribuição Poisson com média de 1
cliente por minuto.
 Qual a probabilidade de entrarem
exatamente 5 clientes em 10 minutos?
m  10; x  5
105 e 10
f (5)  Pr  X  5   0.0378
5!
 Exemplo
 Numa campanha de caridade feita por um
programa de TV em todo o Brasil, o número de
pessoas que contribuem mais de 500 reais é uma
variável aleatória Poisson com média de 5
pessoas por programa.
a) Calcule a probabilidade de que, num certo
programa, o número de pessoas que
contribuem mais de 500 reais exceda 8.
b) Faça o gráfico da função de probabilidade.
c) Faça um gráfico da função de distribuição
acumulada.
 Solução
Seja X o número de pessoas que contribuem com mais de
500 reais a cada programa. Desejamos calcular Pr{ X > 8}.
Pr{ X > 8} = 1 - Pr{ X  8} = 1 - F(8)

onde F(.) denota a função de distribuição acumulada.
A tabela a seguir apresenta a função de probabilidade,

a função de distribuição acumulada e seu complemento.
Da tabela segue que Pr( X > 8 ) = 6.81%.
x Pr(X = x) Pr( X <= x) 1- F(x) = Pr(X > x)
0 0.67% 0.67% 99.33%

1 3.37% 4.04% 95.96%
2 8.42% 12.47% 87.53%
3 14.04% 26.50% 73.50%
4 17.55% 44.05% 55.95%
5 17.55% 61.60% 38.40%
6 14.62% 76.22% 23.78%
7 10.44% 86.66% 13.34%
8 6.53% 93.19% 6.81%
9 3.63% 96.82% 3.18%
10 1.81% 98.63% 1.37%
11 0.82% 99.45% 0.55%
12 0.34% 99.80% 0.20%
b) A função de probabilidade é dada no gráfico

abaixo
Função de Probabilidade Poisson(5)
20%
15%
10% Pr(X = x)
5%
0%
10
12
0
c) A função de distribuição acumulada é

mostrada a seguir.
Função de Distribuição Acumulada - Poisson(5)
100%
80%
60%
Pr( X <= x)
40%
20%
0%
10
11
12
0
1
2
3
4
5
6
7
8
 O número de chamadas para um telefone

com prefixo 800 (chamadas grátis) é uma
variável aleatória com média de 3
chamadas por minuto.
 Qual a probabilidade do número de
chamadas num minuto ser maior que 4?
 Solução
 Suponha que a distribuição do número de
chamadas é Poisson com a média
indicada (3 chamadas por minuto).
Distrbuição de Poisson
 Logo, a função de probabilidade é:

e 3  3
x
f  x   Pr  X  x   para x  0,1, 2,....

x!
 A probabilidade desejada é:
 O número de enchentes em cada verão no Rio

de Janeiro é uma variável aleatória Poisson
com média de 2 enchentes por verão.
a) Calcule a probabilidade de ocorrerem exatamente
3 enchentes em um verão qualquer.
b) Calcule a probabilidade de ocorrerem menos de
10 enchentes em 30 verões.
Resposta: Pr(X<10)= 0%
 O número de carros que chegam num

posto de pedágio é uma variável Poisson
com parâmetro 3 carros por minuto.
 Use o Excel para calcular:
a) A probabilidade de passarem mais de 4 carros
num minuto.
b) A probabilidade de passarem menos de 25 carros
em 10 minutos.
Resposta: Pr(X<25)= 15,72%
 O número médio de pedidos de autorização para um

certo exame médico complexo recebido por um
plano de saúde é uma variável Poisson com
parâmetro l = 4 pedidos por hora.
a) Calcule a probabilidade de, numa hora qualquer, a
empresa receber mais de 5 pedidos de autorização
para este exame.
b) Calcule a probabilidade da empresa recebem, em
uma hora, 9 ou menos pedidos de autorização.
Distribuição Poisson
 O número de erros de digitação numa página de
livro é uma variável aleatória Poisson com média de
2 erros por página. Um capítulo contém 30 páginas.
Calcule as seguintes probabilidades:
a) De que o número total de erros seja menor que 12.
Resposta:- Por página Pr(X<12)= 100%
- Por capítulo Pr(X<12)= 0%
b) De que o número total de erros exceda 10.
Resposta:- Por página Pr(X>10)= 0%
- Por capítulo Pr(X>10)= 100%
PROBEST
Aula 5

Alexandre Street

2015.1
1
Aula 5
 Variáveis Contínuas
 Uniforme
 Exponencial
 Normal
 Lognormal
Distribuição Uniforme
 A probabilidade de ocorrência em dois intervalos

quaisquer de mesmo tamanho é a mesma – a
função de densidade de probabilidade é uma reta
paralela ao eixo horizontal.
 Se considerarmos os limites de ocorrência de x

como sendo a e b (a < b) devemos ter
necessariamente f(x) = 1/(b – a) para que a
integral da densidade seja 1.
 Se X ~ Unif(a,b) então sua densidade é:

 1
 se x  (a, b)
f ( x)   b  a
0 se x  (a, b)
 A função de distribuição é dada por:

0 se x  a
x -a

F ( x)  Pr( X  x)   se x  (a, b)
 b - a
1 se x  b
 Note que a função de distribuição é linear

no intervalo (a,b).
 Média e Variância da distribuição Uniforme

 Se X ~ Unif(a,b) então:
 b  a
2
ab
E( X )  , VAR( X ) 
2 12
 Exemplo
 Um vôo da ponte aérea RJ-SP leva entre 40 e 50
minutos, com igual probabilidade de ocorrência
dentro desse intervalo
 A distribuição é Uniforme no intervalo (40, 50)
 f(x) = 1/(50 – 40) para x no intervalo (40,50) e zero fora
desse intervalo
f(x)
0,1
0 40 50 x
 Qual a probabilidade de um vôo durar mais de 48

minutos?
50
Pr  X  48  
1 2
dx 
48
50  40 10
 Qual a probabilidade de um vôo durar entre 43 e
45 minutos?
45
 
Pr 43  X  45  
1
dx 
2
43
50  40 10
 Uma característica importante da densidade Uniforme é:
dois subintervalos de comprimento l que estão totalmente
“dentro” de (a, b) têm a mesma probabilidade. Isso não
ocorre em geral, no caso de outras densidades.
 Exemplo
O peso mínimo de um pacote de 1 kg de café é de
0,98 kg. O fabricante garante que a distribuição
de pesos é uniforme e que a função de densidade
de probabilidade, f(x), é igual a 9,75. Se o
fabricante disse a verdade, qual é o peso máximo
que um pacote de café pode ter?
 Solução
Seja b o peso máximo. Se a distribuição é uniforme, a área
sob f(x) no intervalo de validade de x deve ser igual a 1.
A área é dada por f(x).(b – a), onde f(x) = 9,75 e a = 0,98
Logo, b = a + 1/f(x) = 0,98 + 1/9,75 = 1,0826
 Exercício1 (para casa)
 O retorno de uma aplicação financeira de risco num
intervalo de uma semana é uma variável com
distribuição Uniforme no intervalo –2% a 1.8%.
Calcule:
 A probabilidade do retorno do investimento nesta
semana ser positivo.
Resposta: Pr(0≤x≤1,8) = 47,37%
 A probabilidade do retorno estar entre –1% e +1%.
Resposta: Pr(-1≤x≤1) = 52,63%
 A probabilidade do retorno exceder 0.5%.
Resposta: Pr(0,5<x<1,8) = 34,21%
 Geração de v.a. Uniformes no Excel
 (É necessária a instalação prévia do
suplemento “Análise de Dados”)
 Geração de v.a. Uniformes no Excel
Número de
variáveis
geradas (uma, Intervalo de
neste caso) definição, neste
caso, densidade
Unif(0,2)
Célula inicial de
armazenamento dos
Número de dados – neste caso
valores gerados os números gerados
(1000 neste caso) irão preencher a
coluna A, a partir da
célula A1
Densidade Exponencial
 Serve para:
 Modelar tempos de duração de equipamentos;
 Modelar tempos entre ocorrências, por
exemplo, o tempo entre chegadas de carros
num pedágio, entre a chegada de pessoas
num caixa de banco;
 Densidade
f ( x)  . exp .x  onde   0 e x  0
 Função de Distribuição
x
x
F ( x)  Pr  X  x    . exp .u du  e   .u
 1  e  . x
0
0
Distribuição Exponencial
 Se X é Exponencial com parâmetro , então:
E ( X )  1/ 
VAR( X )  1/  2
 Falta de Memória
 A distribuição Exponencial “não tem memória”. O
que isso quer dizer? Esta propriedade indica que
a vida restante de um equipamento não depende
da idade atual deste equipamento. Ou seja, um
componente usado é tão bom quanto um novo
(em termos da sua durabilidade).
 Gráfico – densidade Exponencial com  = 2

f ( x)  2. exp 2.x  onde x  0
Densidade f(x) = 2.exp(-2.x)
2.000
1.800
1.600
1.400
1.200
1.000
0.800
0.600
0.400
0.200
0.000
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 4
 O gráfico a seguir apresenta a função de distribuição

de uma v.a. Exponencial com parâmetro  = 2, isto é,
a função de distribuição associada à densidade da
página anterior.
1,00
F(x) 0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
 Exemplo
 O tempo entre as chegadas de táxi num
cruzamento é uma variável Exponencial
com  = 1/10 chegadas por minutos.
Calcule:
a) A probabilidade de alguém ter que
esperar mais de 60 minutos por um táxi.
b) A probabilidade de um táxi demorar
menos de 10 minutos para passar.
 Solução
Seja T o tempo entre chegadas de um táxi, isto é,
o tempo que você terá que esperar por um táxi
nesta esquina.
T é uma variável Exponencial com  = 1/10.

Para uma variável Exponencial, a função de
distribuição é F(t) = Pr(T ≤ t) = 1 – exp(-  .t) e
também Pr(T > t) = 1 – F(t) = exp(-  .t). Logo:
a) Pr(T > 60) = exp(-60/10) = exp(-6) = 0.0025

b) Pr(T < 10) = 1 – exp(-10/10) = 1 – exp(-1) = 0.6321
 O tempo até a ocorrência de um defeito (isto é, o tempo
de duração) numa TV é uma variável Exponencial com
parâmetro  = 1/3 anos.
 Calcule a probabilidade de uma TV “pifar” nos primeiros
2 anos de uso.
Resposta: Pr(X≤2) = 48,66%
 Calcule a probabilidade de uma TV “pifar” depois dos 5
anos.
Resposta: Pr(X>5) = 18,89%
 Calcule a probabilidade de uma TV “pifar” entre 3 e 5
anos.
Resposta: Pr(3≤X≤5) = 17,90%
 Exemplo - Simulação
 A maioria das linguagens de programação tem um
gerador de variáveis Uniforme (0,1) “embutido”.
 Mas, é conveniente ser capaz de gerar variáveis

com outras densidades.
 Pode-se mostrar (e faremos isso eventualmente)
que, se U ~ Unif(0,1) então:
1
Y  . logU 

 tem densidade Exponencial com parâmetro .
 O próximo exemplo apresenta a geração

de 10000 variáveis Exponenciais com
parâmetro 1 a partir de uma amostra do
mesmo tamanho da Uniforme(0,1).
 Neste exemplo usamos o suplemento

“Análise de dados” do Excel, que permite
a geração de v.a. e a construção dos
histogramas indicados.
Variável Exponencial - simulação
 Suponha que geramos uma amostra aleatória de 10000

observações da densidade Unif(0,1) no Excel, como mostrado
nas próximas figuras.
 O histograma das 10000 observações geradas é:

Histograma - 10000 observações da Unif(0,1)
1100
900
700
Freqüência
500
300
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
-100
 Agora criamos uma nova coluna de 10000

observações usando a transformação Y =
- log (U) onde U é um valor gerado da
distribuição Unif(0,1).
 O histograma da nova amostra deve ter

um comportamento decrescente, que se
“pareça” com uma densidade Exponencial
com média 1. Este histograma é mostrado
na próxima figura.
Freqüência
0
100
200
300
400
500
600
700
800
900
0.000
0.372
0.744
1.116
1.488
1.860
2.232
2.604
2.976
3.348
3.720
4.092
4.464
4.835
5.207
5.579
5.951
Histograma (Variável Exponencial)
6.323
6.695
7.067
7.439
7.811
8.183
8.555
8.927
More
25
 Nota:
 O Excel não tem um gerador de variáveis
Exponenciais. O procedimento que você deve
usar para simulá-las é apenas uma extensão
do método mostrado neste exemplo.
 Para gerar uma variável X com densidade:
f ( x)  . exp .x  onde   0 e x  0
 Faça X = (-1/). Log(U) onde U é uma v.a.
Uniforme(0,1).
Distribuição Normal
 A distribuição Normal é talvez a mais importante

das distribuições de probabilidade.
 Muitos fenômenos físicos ou econômicos são

freqüentemente modelados pela distribuição
Normal.
 É utilizada para descrever inúmeras aplicações práticas:

 Altura e peso de pessoas e objetos
 Nível de chuvas
 Altura de árvores em uma floresta
 A distribuição Normal tem a forma de um sino, e

possui dois parâmetros, m e s2 .
 A distribuição Normal é também chamada de

Gaussiana em homenagem ao matemático Carl
Friederich Gauss (1777 - 1855).
 A distribuição Normal também funciona como uma

boa aproximação para outras densidades. Por
exemplo, sob algumas condições pode-se provar
que a densidade Binomial pode ser aproximada
pela Normal.
 Densidade Normal com média m e variância s2

 x  m 2
1
f ( x)  .e 2s 2
onde s 2  0 e m  R
2s 2
 Notação: X ~ N( m , s2 )
 A densidade é simétrica em torno de m, e
quanto maior o valor da variância s2, mais
"espalhada" é a distribuição.
Densidades Normais com média zero e variâncias 1, 2 e 4
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0
3
-3
.8
.6
.4
.2
-2
.8
.6
.4
.2
-1
.8
.6
.4
.2
0.
0.
0.
0.
1.
1.
1.
1.
2.
2.
2.
2.
-2
-2
-2
-2
-1
-1
-1
-1
-0
-0
-0
-0
N(0,1) N(0,2) N(0,4)
 A distribuição normal é completamente caracterizada por

sua média m e seu desvio-padrão s
 A média define o deslocamento horizontal da curva,
enquanto o desvio-padrão define o seu achatamento
0.30 0.30
0.25 0.25
m=10 m=12 s =1,5
0.20 0.20
0.15 0.15
s =2,5
0.10 0.10
0.05 0.05
0.00 0.00
5 10 15 2 7 12 17
 Propriedades
1) f(x) como definida integra a 1.
2) f(x) > 0 sempre.
3) Os limites de f(x) quando x tende a +  e -  são
iguais a zero.
4) A densidade N(m, s2) é simétrica em torno de m, ou
seja:
f(m + x) = f(m - x)
5) O valor máximo de f(x) ocorre em x = m
6) Os pontos de inflexão de f(x) são x = m  s e x =
m – s.
 Média, Variância e função de distribuição

 Se X ~ N( m , s2 ) então:
E(X) = m ,
VAR(X) = s2
 A sua função de distribuição é:

x
1  u  m 2 
F( x )  Pr( X  x )   2s 2
exp 
 2s
2 du


Não é possível resolver analiticamente esta integral –

precisamos de uma tabela!
 Tabela: será feita para a distribuição N(0,1)

 É possível transformar uma variável N(m,s2)
numa N(0,1) sem grandes dificuldades, e então
podemos tabelar os valores da função de
distribuição de uma N(0,1), e esta tabela pode
ser usada para encontrar probabilidades
envolvendo qualquer variável aleatória Normal.
 Problema:
Não é possível criar uma tabela para cada uma
das (infinitas) densidades Normais existentes.
 Solução:
Trabalha-se com a densidade Normal com média
0 e variância 1, e converte-se todas as outras
Normais para esta, chamada de Normal padrão
ou Normal standard.
A maioria dos livros de estatística fornece

tabelas de probabilidade para a distribuição
normal padronizada.
 Transformação numa N(0,1)

 Se X ~ N( m , s2 ) então Z = (X – m)/s é uma
variável Normal com média 0 e variância 1.
 Logo, para transformar uma variável aleatória

Normal com quaisquer parâmetros numa Normal
(0,1) você deve:
1- Subtrair a média
2- Dividir o resultado por s, o desvio padrão
A variável aleatória resultante deste procedimento

é uma N(0,1).
 Se X pertence a uma distribuição normal com

média m e desvio-padrão s, seu valor normalizado
é dado por:
X m A variável Z é Normal
Z com média 0 e
s variância 1
 Existem dois tipos de tabela, que fornecem
basicamente a mesma coisa:
 Pr(0 Z  z0), ou seja, a probabilidade do lado direito da
curva normal a partir da média até o valor z0
 (z0) = Pr ( Z  z0) = 0.5 + Pr (0 Z  z0) (por que?)
 Iremos trabalhar com a tabela da função de

distribuição, isto é: (z0)
 Toda variável Normal pode ser transformada

numa Normal com média 0 e variância 1.
 Logo, só existe a necessidade de criar uma única

tabela para a função de distribuição acumulada.
 Se X é N( m , s2 ) . Então a variável Z = ( X - m ) /s
tem distribuição Normal com média zero e
variância um, isto é, Z é N(0,1).
 Cálculo de probabilidades
Se X é uma variável Normal com média m e desvio
padrão s então:
am X m bm  am bm 
Pr(a  X  b)  Pr      Pr  Z 
 s s s   s s 
bm  am 
      
 s   s 
 onde  é a função de distribuição da N(0,1), que

é tabelada. Alguns valores importantes são:
(1.645) = 0.95 ,  1.96) = 0.975 e  (2.326) = 0.99
 O Excel fornece diretamente o valor de

(z0) através da função DIST.NORMP.
 O único argumento para esta função é o

valor z0 para o qual você quer calcular a
probabilidade de estar abaixo, pois a
função pressupõe que a distribuição
usada é a Normal padrão (média 0 e
variância 1).
Tabela da N(0,1) usando (z0)
0.4
0.4
0.3
0.3
z)
0.2
0.2
0.1
0.1
-
z
Tabela da N(0,1)
 Simetrias
 z) = 1- z) se z > 0
 ISSO É IMPORTANTE POIS A TABELA SÓ
CONTÉM VALORES DE z POSITIVOS!
 Probabilidade de um intervalo simétrico em
torno de zero
 Pr (-t < Z < t ) = 1 - 2{(-t) } = 1 - 2 {1 - (t)} =
2. (t) - 1 onde Z ~ N(0,1)
Tabela da N(0,1) ((z0) = Pr(Z  z0))
z z) z z) z z) z z)
0.00 0.5000 0.62 0.7324 1.24 0.8925 1.86 0.9686
0.02 0.5080 0.64 0.7389 1.26 0.8962 1.88 0.9699
0.04 0.5160 0.66 0.7454 1.28 0.8997 1.90 0.9713
0.06 0.5239 0.68 0.7517 1.30 0.9032 1.92 0.9726
0.08 0.5319 0.70 0.7580 1.32 0.9066 1.94 0.9738
0.10 0.5398 0.72 0.7642 1.34 0.9099 1.96 0.9750
0.12 0.5478 0.74 0.7704 1.36 0.9131 1.98 0.9761
0.14 0.5557 0.76 0.7764 1.38 0.9162 2.00 0.9772
0.16 0.5636 0.78 0.7823 1.40 0.9192 2.02 0.9783
0.18 0.5714 0.80 0.7881 1.42 0.9222 2.04 0.9793
0.20 0.5793 0.82 0.7939 1.44 0.9251 2.06 0.9803
0.22 0.5871 0.84 0.7995 1.46 0.9279 2.08 0.9812
0.24 0.5948 0.86 0.8051 1.48 0.9306 2.10 0.9821
0.26 0.6026 0.88 0.8106 1.50 0.9332 2.12 0.9830
0.28 0.6103 0.90 0.8159 1.52 0.9357 2.14 0.9838
0.30 0.6179 0.92 0.8212 1.54 0.9382 2.16 0.9846
0.32 0.6255 0.94 0.8264 1.56 0.9406 2.18 0.9854
0.34 0.6331 0.96 0.8315 1.58 0.9429 2.20 0.9861
0.36 0.6406 0.98 0.8365 1.60 0.9452 2.22 0.9868
0.38 0.6480 1.00 0.8413 1.62 0.9474 2.24 0.9875
0.40 0.6554 1.02 0.8461 1.64 0.9495 2.26 0.9881
0.42 0.6628 1.04 0.8508 1.66 0.9515 2.28 0.9887
0.44 0.6700 1.06 0.8554 1.68 0.9535 2.30 0.9893
0.46 0.6772 1.08 0.8599 1.70 0.9554 2.32 0.9898
0.48 0.6844 1.10 0.8643 1.72 0.9573 2.34 0.9904
0.50 0.6915 1.12 0.8686 1.74 0.9591 2.36 0.9909
0.52 0.6985 1.14 0.8729 1.76 0.9608 2.38 0.9913
0.54 0.7054 1.16 0.8770 1.78 0.9625 2.40 0.9918
0.56 0.7123 1.18 0.8810 1.80 0.9641 2.42 0.9922
0.58 0.7190 1.20 0.8849 1.82 0.9656 2.44 0.9927
0.60 0.7257 1.22 0.8888 1.84 0.9671 2.46 0.9931
Tabela da N(0,1)
 Dicas
 Você precisa explorar as simetrias da N(0,1) pois
a tabela só é dada para valores positivos de z0.
Por causa da simetria em torno de zero, (0) = 0.5
e (z0) é menor que 0.5 se z0 for um número
negativo.
 Se você tiver dúvidas, faça um desenho!

 Lembre-se sempre que (z0) é uma função de
distribuição, ou seja, mede a probabilidade de
estarmos ABAIXO do ponto z0 .
 Seja X ~ N( m , s2 ) e k > 0 . Mostre que

Pr{ m - ks < X < m + ks } só depende de k
(não depende de m e s ).
 Solução
 Note que a probabilidade desejada é a
probabilidade de X estar a uma distância
menor ou igual a k desvios padrões da
sua média.
Pr m  ks  X  m  ks   Pr  ks  X  m   ks  
 ks X  m ks   Xm
 Pr        Pr   k   k   Pr  k  Z   k  
 s s s   s 
 2. ( k )  1
 As probabilidades para alguns valores k

estão abaixo:
Pr( m - s < X < m + s) = 2.(1) - 1 = 0.6826
Pr( m - 1.645s < X < m + 1.645s) = 2.(1.645) - 1 = 0.90
Pr( m - 1.96s < X < m + 1.96s) = 2.(1.96) - 1 = 0.95
Pr( m - 2.57s < X < m + 2.57s) = 2.(2.57) - 1 = 0.99
 Na verdade, aquela “regra de bolso” que

diz que 68% dos valores estão a uma
distância de 1 d.p. da média e 95% dos
valores estão a dois desvios da média
acabou de ser mostrada no slide anterior.
 Mas note que isso só é realmente verdade

para a distribuição Normal!
 Exemplo
Numa agência bancária localizada numa grande
cidade brasileira, verificou-se que os clientes
pessoa física mantêm, em média, um volume de R$
4800,00 aplicados no banco.
A dispersão entre os volumes de recursos, medida

pelo desvio padrão, é R$ 1600,00. Além disso, pode-
se encarar os saldos dos correntistas como
independentes entre si e Normalmente distribuídos.
 O banco pretende abrir uma nova agência

e seus executivos imaginam que o poder
aquisitivo nesta nova área é semelhante
ao dos clientes desta agência.
 a) Um cliente é VIP se está entre os 5%

com maior volume de recursos. Quanto
uma pessoa deveria manter no banco para
ser considerada cliente VIP?
 b) O banco pretende cobrar tarifas mais altas

dos clientes que têm um baixo volume de
recursos aplicados na instituição.
Os clientes cujos volumes de recursos estão

entre os 10% mais baixos terão de pagar esta
tarifa mais alta. Abaixo de qual volume um
cliente será alvo desta tarifa diferenciada?
 Solução
Seja X a variável que mede o volume de
recursos de um cliente típico da agência. Então X
é Normal (4800, (1600)2). Daí: Z  X  4800
1600
tem densidade Normal padrão.

Para estar entre os 5% mais “ricos”, precisamos
encontrar z0 tal que (z0) = 95%. Usando a função
INV.NORMP do Excel, encontramos z0 = 1.645.
Logo, X  4800
 1.645  X  4800  1.645(1600)  7432
1600
 Solução (continuação)
b) Para estar entre os 10% mais “pobres”
precisamos encontrar z0 tal que (z0) = 10%. A
função INV.NORMP do Excel fornece z0 = -1.281.
Logo,
X  4800
 1.281  X  4800  1.281(1600)  2750.40
1600
 Ou seja, clientes com volume de recursos abaixo

de R$ 2750 estarão sujeitos a uma tarifa mais
alta, e aqueles com volume de aplicações acima
de R$ 7432 terão tratamento VIP.
 Exemplo
 O saldo devedor dos usuários de um certo cartão
de crédito é uma variável aleatória Normal com
média R$ 200 e desvio padrão R$ 75.
a) Qual a probabilidade do saldo devedor de um usuário
estar entre R$ 100 e R$ 300?
b) Qual deve ser o seu saldo devedor para que você esteja
entre os 5% mais endividados?
 Solução
X é Normal com média 200 e desvio padrão 75 e assim
Z =(X- 200)/75 é N(0,1).
 Solução (continuação)
Pr(100 < X < 300) =
 100  200 300  200 
Pr  Z   Pr(1.333  Z  1.333) 
 75 75 
  1.333    1.333  2. 1.333  1  0.8176
b) Para que você esteja entre os 5% mais
endividados, o saldo devedor padronizado deve
ser igual a 1.645 (veja tabela da Normal). Daí:
X  200
Z  1.645  X  200  1.645(75)  323.38
75
é o saldo para estar entre os 5% com maior saldo
devedor.
 O consumo médio residencial de energia elétrica nos
meses de verão numa certa cidade é uma variável
Normal com média 210 kWh e desvio padrão 18 kWh.
a) Qual a probabilidade de que o consumo no verão exceda
225 kWh?
Resposta: Pr(X>225) = 20,23%
b) Calcule a probabilidade de que o consumo no verão seja
inferior a 190 kWh.
Resposta: Pr(X<190) = 13,33%
c) Quanto você deve consumir para estar entre os 2.5% que
mais gastam energia?
Resposta: X= 245,28 kWh

 Numa certa empresa de informática, o
salário anual médio dos funcionários com
menos de 5 anos de experiência é R$
24000, com desvio padrão de R$ 3000.
Suponha que os salários têm distribuição
Normal e calcule os valores pedidos a
seguir.
a) Qual a probabilidade do salário anual de um

funcionário qualquer com menos de 5 anos
de experiência ser menor que R$ 20000?
Resposta: Pr(X<20.000) = 9,12%
b) Qual deve ser o valor do salário anual de um
funcionário com menos de 5 anos de
experiência se 95% dos funcionários (com
menos de 5 anos de experiência) tem salário
abaixo dele?
Resposta: X= R$28.935,00
c)Toma-se uma amostra de 36 funcionários com

menos de 5 anos de experiência. Qual a
probabilidade do salário médio na amostra
exceder R$ 24500?
Resposta: Pr(͞x>24.500) = 15,87%
d)Toma-se uma amostra de 12 funcionários
com menos de 5 anos de experiência. Qual a
probabilidade do maior salário na amostra
exceder R$ 28000?
Resposta: Pr(V>28.000) = 68,26%
Combinações Lineares de
Variáveis Normais
 Sejam X1, X2, ...., Xn variáveis aleatórias
independentes, onde Xi ~ N( mi , si2) e seja Y
= X1 + X2 + ... + Xn .
 Então Y tem distribuição Normal com média
my e variância sy2 dadas por:
n
m y   mi
i 1
n
s   s i2
2
y
i 1
Combinações Lineares de
Variáveis Normais
 Dois casos particulares importantes são:
 se os Xi ´s forem iid N(m, s2), então sua soma é
Normal com média n. m e variância n. s2 e
 a média amostral é Normal com média m e

variância s2/n.
 Exemplo (continuação)
 Considere o exemplo dos saldos em
aplicações bancárias. Suponha que
tomamos uma amostra de 16 clientes da
agência.
 Qual a probabilidade de que o saldo
médio das aplicações dos clientes na
amostra exceda R$ 4900?
Seja X a média dos saldos dos clientes na amostra.

X tem distribuição N  4800,
1600  
2

 16 
 Então:
 X  4800 4900  4800 
Pr X  4900   Pr     Pr  Z  100  
 1600   
1600  400 
 4 4 
 Pr Z  0.25  1   0.25  1  0.599  0.401
Distribuição Normal (para casa)

 Um estudante universitário gasta em
média R$ 600,00 em livros por ano. A
dispersão entre os valores gastos, medida
pelo desvio padrão, é R$ 240,00.
 Além disso, pode-se encarar os valores
gastos pelos universitários como
independentes entre si e Normalmente
distribuídos. Também, a maioria dos
estudantes adquire livros pela Internet.
a) Uma grande livraria na Internet pretende oferecer um
cartão VIP aos clientes que mais compram livros.
Apenas os 1% que mais consomem livros num período
de um ano receberão o cartão. Acima de qual volume
anual de compras um consumidor se candidata ao
cartão VIP?
b) Considere 16 estudantes universitários. Qual a proba
probabilidade do gasto médio anual em livros destas 16
pessoas ultrapassar R$ 660,00?
Resposta: Pr(͞x>660)= 15,87%
c) Dentre as 16 pessoas nesta mesma amostra, qual a
probabilidade do estudante que menos consumiu livros
ter gasto mais de R$ 650 no ano?
Resposta: Pr(U>650)= 8,52.10-07

 Um apartamento de 2 quartos numa certa
região da cidade custa, em média R$ 260
mil. A dispersão entre os valores, medida
pelo desvio padrão, é R$ 100 mil.
 Além disso, pode-se encarar os preços
dos apartamentos como independentes
entre si e Normalmente distribuídos.
a)Uma imobiliária pretende oferecer uma viagem de
presente aos compradores de apartamentos de 2 quartos
neste bairro que comprem os apartamentos situados na
faixa dos 10% mais caros. A partir de quanto deve custar
o seu apartamento para que você ganhe a viagem de
“presente”?
b) Considere 16 compradores de apartamentos de 2
quartos neste bairro. Qual a probabilidade do preço
médio pago por eles ser inferior a R$ 300 mil?
Resposta: Pr(͞x<300.000)= 94,52%
c)Dentre as 16 pessoas nesta mesma amostra, qual a
probabilidade do comprador que pagou mais caro por
um apartamento ter pago menos de R$ 285 mil?
Resposta: Pr(V<285.000)= 0,03%
A distribuição Lognormal
 A distribuição Lognormal é uma

distribuição de probabilidade contínua
usada para dados positivos.
 Esta distribuição é freqüentemente usada

na modelagem do preço de ações e outros
ativos financeiros, e também pode
modelar o tempo até a ocorrência de um
defeito de uma máquina.
A distribuição Lognormal
 Veja o link:
http://www.inf.ethz.ch/personal/gut/lognormal/ para
um simulador interessante de variáveis lognormais
e normais.
 Se você se interessar, o artigo do link:
 http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf
 discute o uso da lognormal nas ciências.
A Distribuição Lognormal
 Como criar uma variável lognormal?

 Seja X ~ N(m, s2). Seja Y = exp(X). Então Y
tem densidade Lognormal com
parâmetros m e s2.
 A densidade de Y é dada por:

  log( y )  m  
2
1 1
f ( y)  .exp    onde y > 0
2  y
.
2s    2s 2

 
 Densidades Lognormais com m = 0.05 e 0.25 e

s = 0.30
1.5
1.323
f ( x 0.05 0.30)
f ( x 0.25 0.30)
0.5
0 0
0 1 2 3 4 5 6 7
0.01 x 7
 Densidades Lognormais com m = 0 e

diversos valores para s.
 Atenção:
 A distribuição Lognormal, ao contrário do
que o nome indica, não significa a
densidade do logaritmo de uma variável
Normal, pois uma variável Normal admite
valores negativos, onde o logaritmo não
está definido. Uma variável aleatória com
densidade Lognormal é encontrada
tomando-se a exponencial de uma variável
aleatória Normal!
 A densidade Lognormal pode ser pensada

como gerada pelo PRODUTO de diversos
fatores que são todos independentes
entre si.
 Por que? Pois Y = exp(X) e X é Normal,
que pode ser encarada como a soma de
fatores independentes (é a idéia do
Teorema Central do Limite). Ao
exponenciarmos, esta soma torna-se um
produto...
Lognormal como modelo para
o preço de uma ação
 Uma forma de descrever a incerteza sobre o
preço de uma ação é supor que as variações no
preço entre os instantes t e t+t podem ser
divididas em 2 componentes, uma aleatória e a
outra determinística, como a seguir:
 
St t  St . exp m .t  s .Z t 
 onde Z é uma variável N(0,1) e m e s > 0 são
parâmetros conhecidos. O parâmetro m
representa a taxa média de crescimento do preço
ao longo do tempo.
Lognormal como modelo para
o preço de uma ação
 Note que, se s = 0, a evolução dos preços é
puramente determinística, e então:
St t  St .exp  m .t 
 Nesta expressão percebemos que a tendência
determinística dos preços é crescente desde que
m > 0.
 Se s > 0 então existe uma componente aleatória
no comportamento dos preços. Esta componente
aleatória é dada por uma variável aleatória N(0,1),
e assim o efeito desta variável pode ser o de
atenuar o crescimento determinístico no preço,
pois Z pode ser negativo. Note que a variável
exp(Z) é Lognormal.
Média e variância da Lognormal
 Se Y ~ Lognormal(m, s2) então:

E(Y) = exp( m + s2/2)
VAR(Y )  exp  2 m  s 2
.e s2

1
PROBEST
Aula 6

Alexandre Street

2015.1
1
Aula 6
 Transformações de v.a. discretas

 Transformações de v.a. contínuas
 O método da função de distribuição
 O método do Jacobiano
Objetivos
 Seja X uma v.a. discreta ou contínua com função
de probabilidade (ou densidade) conhecida.
Queremos encontrar a densidade (ou função de
probabilidade) de Y=h(X) onde h(.) é uma função
conhecida.
 Transformações de uma variável aleatória

 Funções de uma variável discreta
 Funções de uma variável contínua – o método
da função de distribuição
Transformações de uma v.a.
discreta
 Exemplo 1
 Seja X o número de “caras” em três jogadas de
uma moeda. A função de probabilidade de X é:
x Pr(X =x) = f(x)
0 1/8
1 3/8
2 3/8
3 1/8
 Qual a função de probabilidade de Y= 2X-1?

 Y é também uma v.a. discreta, e cada valor de X
leva a um valor de Y diferente (ou seja, Y = 2X –1
é uma função injetora). Especificamente, os
valores possíveis de Y são:
discreta
 Exemplo 1 (continuação)
y Pr(Y =y) = f(y)
-1 1/8
1 3/8
3 3/8
5 1/8
 Note que o valor Y = -1 ocorre apenas quando X =

0, Y = 1 apenas quando X = 1 e assim
sucessivamente.
 Logo, a tabela anterior nos fornece a função de
probabilidade de Y, basta associar cada valor de Y
ao valor correspondente(s) de X.
discreta
 Exemplo 2
 Seja X uma v.a. discreta com função de probabilidade:
 f(x) = Pr( X = x) = (1/2)x onde x = 1, 2, 3, .....
 Seja Y = +1 se X é par, e Y = -1 se X é ímpar.

 Obviamente a função h(.), que relaciona X e Y não é
injetora pois, por exemplo, todos os números pares
são levados em Y = 1.
 Ache a função de probabilidade de Y.
discreta
 Exemplo 2
 Dica: Para resolver o problema precisamos usar
a série geométrica infinita:

a
 ak 
k 1 1 a
se a  1
 g(1) = Pr (Y = 1) = Pr (X par) = Pr( X = 2, 4, 6, ....) = (1/2)2 +

(1/2)4 + (1/2)6 + ...... =
 2k  k  k 0  k
1 1 1 1 1
                 1 
k 1  2  k 1  4  k 0  4   4  k 0  4 
1 4 1
 1  1 
11/ 4 3 3
 Note que Pr(Y = -1) = Pr( X ímpar) = 1 - Pr(Y = 1) = 2/3
Transformação de uma variável
aleatória contínua
 Objetivos
 Seja X uma v.a. contínua, e h(.) uma função
conhecida. Então Y = h(X) é também uma v.a. e
desejamos encontrar sua densidade.
 Dois métodos serão apresentados:

 O método da função de distribuição
 O método do jacobiano
 Cada método tem (obviamente) suas

vantagens e limitações
Método da Função de
Distribuição
 Sejam X e Y = h(X) variáveis aleatórias contínuas.
A densidade de Y pode ser encontrada através do
seguinte procedimento:
 1) Encontre o conjunto de todos os valores
possíveis de Y.
 2) Calcule a função de distribuição de Y, ou seja,

para cada valor y da variável aleatória Y compute
G(y) = Pr (Y  y) escrevendo-a em termos do
evento equivalente para X.
 3) Calcule a derivada de G(y) com relação a y.

Isto fornece a densidade de Y, g(y).
Distribuição
 Estes 3 passos são usualmente
conhecidos como o "método da função de
distribuição".
 Note que o método é bastante geral, e

nenhuma condição é imposta à função h(.)
que relaciona as variáveis X e Y. Por
exemplo, não é necessário que esta
função seja injetora.
Distribuição - exemplo
 Seja X uma v.a. Uniforme(0,1). Seja Y = - log (X) onde
log indica o logaritmo na base e.
 Encontre a função de distribuição e a densidade de Y.
 Solução
 Os valores possíveis de Y estão no intervalo [0, + ),
pois quando X tende a zero, log(X) tende a -, e Y
tende a +. Também, quando X tende a 1, log(X) = 0.
 A função de distribuição de Y é: G(y) = Pr ( Y  y )

= Pr ( -log X  y ) = Pr ( log X  -y ) = Pr ( X  e-y) =
1 1
  f ( x)dx   dx 1  e  y
ey ey reinaldo@ele.puc-rio.br 11
 A densidade de Y é obtida por diferenciação de
G(y) com respeito a y.
dG ( y ) d (1  e  y )
g ( y)    (1)e  y  e  y , y  0
dy dy
 Note que Y assim gerado é uma v.a. com
densidade Exponencial e média 1.
 Este exemplo é uma aplicação importante do
método da função de distribuição que pode ser
utilizado na geração de variáveis aleatórias com
densidade Exponencial, como mostrado a seguir.
 Logo, se X é Unif(0,1) então Y = - log(X) é
Exponencial(1).
 Qual a importância disso? Variáveis exponenciais

servem para modelar tempos de duração de
equipamentos, ou tempos entre ocorrências
(quando o número de ocorrências é Poisson).
 O Excel possui um simulador para diversas

distribuições de probabilidade, mas não para a
Exponencial. Por que? Porque o algoritmo padrão é
exatamente este que acabamos de mostrar, ou seja,
é muito FÁCIL gerar variáveis exponenciais.
 Considere o exemplo anterior e suponha que geramos uma
amostra aleatória de 10000 observações da densidade Unif(0,1) no
Excel, como mostrado nas próximas figuras.
 O histograma das 10000 observações geradas é:
Histograma - 10000 observações da Unif(0,1)
1100
900
700
Freqüência
500
300
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
-100
16
 Agora criamos uma nova coluna de 10000
observações usando a transformação Y =
- log (X) onde X é um valor gerado da
distribuição Unif(0,1).
 O histograma da nova amostra deve ter

um comportamento decrescente, que se
“pareça” com uma densidade Exponencial
com média 1. Este histograma é mostrado
na próxima figura.
Freqüência
0
100
200
300
400
500
600
700
800
900
0.000
0.372
0.744
1.116
1.488
1.860
2.232
2.604
2.976
3.348
3.720
4.092
4.464
4.835
5.207
5.579
5.951
Histograma (Variável Exponencial)
6.323
6.695
7.067
7.439
7.811
8.183
8.555
8.927
More
18
 Suponha que desejamos generalizar este
exemplo de maneira a gerar uma v.a.
Exponencial com parâmetro l qualquer.
 Novamente, X é Unif(0,1).
 Note que a função de distribuição de X é:
0 se x  0

F ( x)  Pr  X  x    x se 0  x  1
1 se x  1

 Neste caso só nos interessam os valores
de x entre 0 e 1.
1
 Seja Y  log X  onde l >0 e log indica o
l
logaritmo natural.
 Qual a função de distribuição de Y? Note que Y  0

sempre.
 1 
G  y   Pr Y  y   Pr  log X  y   Pr log X  ly  
 l 
   
 Pr X  e  ly  1  Pr X  e  ly  1  e  ly
 Mas, das propriedades da densidade Exponencial,
notamos que Y assim definido é Exponencial com
parâmetro l, isto é:
g ( y )  l. exp ly  onde y  0 e l  0
 Logo, a transformação:
1
Y log  X 
l
 Gera, a partir de uma variável Unif(0,1), uma

variável Exponencial com média 1/l.
 No próximo “slide” exibimos uma aplicação

deste resultado.
 O histograma de 20000 observações geradas
da Unif(0,1) está a seguir.
Histograma das 20000 v.a. Unif(0,1) geradas
2050
2030
2010
1990
Freqüência
1970
1950
1930
1910
1890
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
Intervalos
22
 A seguir está o histograma de 20000

observações geradas a partir da
transformação Y   1 log X  .
2
 Estas observações devem ter densidade

Exponencial com parâmetro 2.
Histograma da 20000 observações geradas da Expo(2)
1200
1000
800
freqüência
600
400
200
0
00
13
26
40
53
66
79
92
06
19
32
45
58
71
85
98
11
24
37
51
64
77
90
03
17
30
43
56
69
82
96
0.
0.
0.
0.
0.
0.
0.
0.
1.
1.
1.
1.
1.
1.
1.
1.
2.
2.
2.
2.
2.
2.
2.
3.
3.
3.
3.
3.
3.
3.
3.
intervalo
 Podemos calcular empiricamente algumas
probabilidades e compará-las com os
valores reais, obtidos da densidade
Exponencial.
 O resultado teórico é: Pr(Y y) = 1- exp(-2y)

 A mesma probabilidade pode ser estimada
através de:
número de observaçõe s geradas  y
Pr Y  y  
20000
Pr(Y<=y) Pr(Y<=y) Pr(Y<=y) Pr(Y<=y)

y empírica teórica y empírica teórica
0.10 18.08% 18.13% 1.20 90.87% 90.93%
0.20 33.27% 32.97% 1.30 92.53% 92.57%
0.30 45.30% 45.12% 1.40 93.94% 93.92%
0.40 54.95% 55.07% 1.50 95.08% 95.02%
0.50 63.05% 63.21% 1.75 97.12% 96.98%
0.60 69.65% 69.88% 2.00 98.28% 98.17%
0.70 75.36% 75.34% 2.25 98.91% 98.89%
0.80 79.72% 79.81% 2.50 99.32% 99.33%
0.90 83.45% 83.47% 2.75 99.58% 99.59%
1.00 86.50% 86.47% 3.00 99.77% 99.75%
1.10 88.91% 88.92%
Distribuição
 A Transformação Y = X2
 Seja X uma variável aleatória contínua com densidade
f(x) e função de distribuição F(x).
 Seja Y = X2. Então a densidade de Y é:
g( y ) 
1
2. y

. f ( y )  f ( y ) 
 Nota: o único cuidado que dever ser tomado ao usar
esta fórmula é fazer as adaptações necessárias quando
X (a variável original) for definida apenas na região x  0
(ou x  0), pois neste caso um dos termos y ou - y
acima será nulo.
Distribuição
 Demonstração
 A função de distribuição de Y é:
G ( y )  Pr(Y  y )  Pr( X 2  y )  Pr( y  X  y) 
 F ( y )  F ( y )
 A densidade de Y é encontrada por diferenciação:

dG ( y )  y 1/ 2   y 1/ 2 
g ( y)    . f ( y )    . f ( y ) 
dy  2   2 

1
2. y
.f ( y) 
1
2. y
. f ( y ) 
1
2. y
. f ( y )  f ( y ) 
Distribuição
 Exemplo 3
 Seja X uma v.a. contínua com densidade:
1  x2 / 2
f ( x)  .e , onde x e um numero real
2
 Veremos depois que esta é a densidade Normal

(ou Gaussiana) com média zero e variância 1.
Seja Y = X2 . Encontre a densidade de Y utilizando
o teorema anterior.
Distribuição
 Exemplo 3 (continuação)
g ( y) 
2.
1
y

. f ( y )  f ( y ) 
 1 (
1 y )2 / 2 1 (  y )2 / 2 
g ( y)  . e  e 
2. y  2 2 
1  2 y/2  1
 . e  . y 1/ 2 e  y / 2 para y  0
2. y  2  2
 Veremos depois que esta é a densidade

Qui-Quadrado com 1 grau de liberdade.
Distribuição
 Vantagens e Desvantagens do Método
 O método da função de distribuição é bastante
geral, pois pode ser empregado para
transformações não injetoras.
 Mas muitas vezes é difícil escrever a função de
distribuição de Y e derivá-la.
 Por isso apresentamos um método adicional para
calcular a densidade de uma função de uma
variável aleatória, que é chamado de método do
Jacobiano. O método do Jacobiano requer que a
função Y = h(X) seja injetora.
Método do Jacobiano
 Seja X uma variável aleatória contínua definida num

intervalo (a,b), com densidade f(x) e função de
distribuição F(x).
 Seja Y = h(X) onde h(.) é uma função contínua e

injetora (ou seja, cada x é levado num y diferente).
 Então a densidade de Y, g(y), pode ser encontrada

da seguinte maneira:
dx
g ( y )  f ( x).
dy
 Por que o módulo |dx/dy| aparece na

fórmula anterior?
 Para garantir que g(y) seja sempre  0, pois
dx/dy pode ser negativo!
Também, x na expressão anterior está

escrito em função de y, ou seja, a variável
“velha” está em função da variável
“nova”.
 Na expressão anterior, x = h-1(y) é

expresso em termos da "nova" variável y.
 Se h(.) for uma função crescente (isto é,

x1  x2 implica em h(x1)  h(x2)) então o
intervalo de valores possíveis para Y é
(h(a), h(b)).
 Se h(.) é decrescente, o intervalo de

definição de Y é (h(b), h(a)).
Método do Jacobiano - exemplo
 Seja X uma variável aleatória contínua

com densidade:
 m m 1  x / 
se x > 0, m > 0,  > 0
m
 .x .e
f ( x)   
0 do contrário
 Esta densidade é chamada de densidade

Weibull, e é muito usada para modelar o
tempo de duração de componentes
eletrônicos.
 Seja Y = Xm . Encontre a densidade de Y.
Método do Jacobiano - exemplo
 Note que Y = Xm é injetora quando x > 0.
1
dx 1 m 1
yx x y
m 1/ m
  .y
dy m
 Pelo método do Jacobiano, a densidade de Y é:
 m1 1 
g ( y) 
m

.y 
1 / m m 1
. exp

 y 
1/ m m   y 
.
    m 
 
 Após simplificações, encontramos:
1
g ( y)  .e  y /  para y  0

 Note que Y tem densidade Exponencial com

média .
Método do Jacobiano – exercício1
(para casa)
 A velocidade de uma molécula de gás é uma
variável aleatória contínua V com densidade dada
por:
 bv 2
f (v)  a.v .e
2
, onde b é uma constante que depende do gás e v > 0
 E a > 0 é uma constante determinada a partir do

fato de f(v) integrar a 1 no intervalo (0, + ). Seja Z a
energia cinética da molécula de gás, dada por:
mV 2
Z
2
 Encontre a densidade de Z (você pode usar o
método do Jacobiano ou o da função de
distribuição)
2 bz
Resposta: 2z
g ( z )  a.e m . 3
m
Método do Jacobiano – exercício 2
(para casa)
 A duração (Y) de componentes eletrônicos é às vezes
modelada pela densidade Rayleigh, mostrada a
seguir.
 2y   y2 
f  y     exp  onde y  0
    
 Encontre a densidade de U = Y2.

u
1
Resposta: g (u )  .e 

 Use o resultado acima para achar a média e variância
de U.
Resposta: E (U )  
VAR (U )   2
Transformações de Variáveis
 Seja X uma v.a. contínua com densidade:
3
f ( x)  4 x 1
x
 Encontre a densidade de Y = 1/X

Resposta: g ( y)  3 y 2
Transformações de Variáveis
 O preço de um ativo financeiro é uma v.a.
contínua com densidade:
f  x   2 xe  x2
onde x > 0
 Encontre a densidade de Y = X2.

Resposta: g ( y)  e y
PROBEST
Aula 7

Alexandre Street

2015.1
1
Aula 7
 Vetores Aleatórios
 Densidades Conjuntas
 Densidades Marginais
 Densidades Condicionais
 Independência
 Covariância e Correlação
 Momentos Condicionais
 Curva de Regressão
Objetivos
 Na prática, frequentemente encontramos

variáveis aleatórias em conjunto, por
exemplo:
 Preço e venda de um produto
 Número de passageiros num voo da Ponte Aérea e
horário de embarque
 IBOVESPA e Risco Brasil
 Juros, Taxa de Câmbio, Inflação, Nível de Atividade
da Indústria e Risco Brasil
 Como estudar o comportamento destas
variáveis em conjunto? Este é o nosso
objetivo da aula 7.
Objetivos
 Encontrar distribuições de probabilidade conjuntas

para expressar a relação entre duas ou mais variáveis
aleatórias.
 Encontrar distribuições de probabilidade condicionais

que expressam o efeito de um subconjunto de
variáveis sobre outro subconjunto de variáveis.
 Encontrar distribuições de probabilidade marginais

que indicam o comportamento de uma única variável
sem o efeito das outras.
Objetivos
 Definir e verificar as implicações da

independência entre variáveis aleatórias.
 Definir medidas da associação entre duas

variáveis, como a covariância e o
coeficiente de correlação.
 Definir os momentos condicionais,

estudar algumas de suas propriedades e
apresentar a curva de regressão.
Vetor Aleatório
 Seja E uma experiência aleatória com

espaço amostral S. Sejam X1, X2, ...., Xk
funções que associam números reais a
cada resultado da experiência E.
 Então (X1, X2, ...., Xk) é um vetor aleatório

de dimensão k. O caso particular k = 2
será de interesse especial aqui, e
estaremos apresentando as definições
para vetores aleatórios bidimensionais.
Função de Prob. Conjunta
 Sejam X1 e X2 variáveis aleatórias discretas. A

função de probabilidade conjunta de X1 e X2 é uma
função não negativa f (x1,x2 ) tal que:
 Pr (X1 = x1, X2 = x2) = f(x1,x2)
 Esta definição pode ser estendida de maneira trivial

para uma n-upla de variáveis aleatórias X1 ,X2 ,...,Xn.
Analogamente ao caso unidimensional, o somatório
da função de probabilidade conjunta para todos os
valores de X1 e X2 deve ser 1, isto é:
  f ( x1, x2 )  1
todo x1 todo x 2
Densidade Conjunta
 Sejam X1 e X2 variáveis aleatórias contínuas. A

densidade conjunta de X1 e X2 é uma função não
negativa f (x1,x2) tal que, para qualquer
subconjunto A de 2:
Pr X 1 , X 2   A   f  x1 , x2 dx1dx2
A
 Em particular, para calcularmos a probabilidade

de X1 e X2 estarem num retângulo só precisamos
calcular a integral dupla a seguir:
b d
Pr(a  X 1  b, c  X 2  d )    f ( x1 , x2 )dx2 dx1
a c
Condição de Normalização
 A condição de normalização no caso

bivariado é análoga ao caso univariado. A
integral (ou somatório duplo) da densidade
(ou função de probabilidade) conjunta deve
ser 1. Ou seja:
 Para v.a. discretas
  f x , x   1
todo x 1 todo x 2
1 2
 Para v.a. contínuas

 
  f x , x dx dx
 
1 2 1 2 1
Densidade Conjunta/Função de
Probabilidade Conjunta
 Interpretação
 Pode-se fazer uma analogia com a
probabilidade da interseção de dois eventos.
A densidade (ou a função de probabilidade

conjunta) permite o cálculo de probabilidades
relativas às duas variáveis simultaneamente,
onde os efeitos das duas variáveis são levados
em consideração ao mesmo tempo.
Densidade Conjunta/Função de
Probabilidade Conjunta
 Mas, o que acontece se desejamos “olhar”
para cada uma das variáveis separadamente,
ignorando por completo o efeito da(s)
outra(s)?
 Issonos leva ao conceito de densidade (ou

função de probabilidade) marginal.
Densidade Marginal
 Seja f (x1,x2) a densidade (ou função de

probabilidade conjunta de X1 e X2.
 A densidade marginal de X1 é dada por:

  f ( x1 , x2 )dx2 no caso contínuo
f1 ( x1 )   
  f ( x1 , x2 ) no caso discreto
todo x 2
 Analogamente, a densidade marginal de X2 é
dada por:  
  f ( x1 , x2 )dx1 no caso contínuo
f 2 ( x2 )   
  f ( x1 , x2 ) no caso discreto
todo x 1
Densidade Marginal
 Nota
 A rigor, no caso discreto, deveríamos chamar f1(x1)
e f2(x2) de funções de probabilidade marginais.
 É importante perceber que as densidades

marginais definidas na página anterior nos
permitem calcular probabilidades para uma variável
IGNORANDO COMPLETAMENTE o efeito da outra
variável. Por exemplo:
b
Pr(a  X 1  b)   f1 ( x1 )dx1
a
 que seria a expressão usada se X2 “não existisse”.

Densidade Condicional
 Densidade Condicional de X2 dado X1
f ( x1 , x2 )
f ( x2 | x1 )  desde que f1 ( x1 )  0
f1 ( x1 )
 Densidade Condicional de X1 dado X2
f ( x1 , x2 )
f ( x1 | x2 )  desde que f 2 ( x2 )  0
f 2 ( x2 )
 Note a semelhança entre a definição de densidades

condicionais e a de probabilidade condicional. A
densidade condicional expressa a distribuição de
uma das variáveis sujeita a uma informação
adicional, que é a ocorrência da outra variável.
 Estas densidades nos permitem calcular

probabilidade condicionais. Se as variáveis
aleatórias são contínuas:
Pr a  X 2  b X 1  x1    f x2 x1 dx2
b
 É a densidade condicional de X2 dado X1=x1.

Analogamente podemos escrever a densidade
condicional de X1 dado X2=x2 como:
Pr c  X 1  d X 2  x2    f x1 x2 dx1
d
 As definições no caso discreto são análogas.
 No caso contínuo não faz diferença se o

intervalo (a, b) é fechado ou aberto, isto é, não
faz diferença se substituirmos um ou mais dos
sinais de " < " por "  ".
 No caso discreto existe diferença se o intervalo

é aberto ou fechado, por exemplo, desejarmos
calcular Pr(a  X2  b) (ou a probabilidade
condicional de X2 estar neste intervalo dado X1
= x1) devemos incluir os pontos a e b no
cálculo.
 No caso contínuo surge uma dificuldade.

Como interpretar a probabilidade condicional
de que (a < X2 < b) dado que X1 = x1 já que o
evento {X1 = x1} tem probabilidade zero?
 A resposta é: pense em x1 como um

parâmetro desta distribuição condicional – à
medida que este parâmetro varia, a
distribuição condicional assume novas
formas.
Exemplo 1
 Sejam X e Y variáveis aleatórias discretas com a

seguinte função de probabilidade conjunta:
Pr( X = x)  X=0 X=1 X=2 X=3
Pr(Y = y) 
Y=0 0.2 0.1 0.1 0
Y=1 0.1 0.1 0.1 0.1
Y =2 0 0.1 0.1 0
 Encontre as densidades marginais de X e Y.

 Encontre a densidade condicional de X dado Y = 0.
 Encontre a densidade condicional de Y dado X = 0.
Exemplo 1
 A função de probabilidade marginal de X é

dada por:
2
f ( x)  Pr( X  x)   f ( x, y )   Pr( X  x, Y  y )  Pr( X  x, Y  y )
x
todo y todo y y 0
 Logo:
fx(0) = Pr(X=0) = 0.2 + 0.1 + 0 = 0.3
fx(1) = Pr(X=1) = 0.1 + 0.1 + 0.1 = 0.3
fx(2) = Pr(X=2) = 0.1 + 0.1 + 0.1 = 0.3
fx(3) = Pr(X=3) = 0 + 0.1 + 0 = 0.1
 A função de probabilidade marginal de Y é

encontrada de maneira análoga. Verifique que:
Pr(Y = 0) = Pr(Y = 1) = 0.4 e Pr(Y=2) = 0.2.
Exemplo 1
 A função de probabilidade condicional de X dado

Y = 0 é obtida pela divisão da conjunta pela
probabilidade de Y ser igual a zero (0.4). Então:
f(x| Y = 0) = f(x,0)/Pr(Y=0) = f(x,0)/0.4

para os diversos valores de X.
f(0|0) = Pr( X = 0 | Y = 0 ) = f(0,0)/0.4 = 0.2/0.4 = 0.5

f(1|0) = Pr( X = 1 | Y = 0 ) = f(1,0)/0.4 = 0.1/0.4 = 0.25
f(2|0) = Pr( X = 2 | Y = 0 ) = f(2,0)/0.4 = 0.1/0.4 = 0.25
f(3|0) = Pr( X = 3 | Y = 0 ) = f(3,0)/0.4 = 0/0.4 = 0
Exemplo 1
 A função de probabilidade condicional de Y dado
X = 0 é a conjunta divida pela probabilidade de X
ser igual a zero, que é 0.3.
f(y | X = 0 ) = f(0, y)/ Pr (X = 0) = f(0, y) / 0.3
f(0|0) = Pr( Y = 0 | X = 0 ) = f(0,0)/0.3 = 0.2/0.3 = 2/3

f(1|0) = Pr( Y = 1 | X = 0 ) = f(0,1)/0.3 = 0.1/0.3 = 1/3
f(2|0) = Pr( Y = 2 | X = 0 ) = f(0,2)/0.3 = 0/0.3 = 0
 Note que a soma destas probabilidades para todos os

valores de Y é 1 (ou seja, a função de probabilidade
condicional satisfaz a condição de normalização). O
mesmo acontece para a condicional de X dado Y = 0 da
página anterior.
Notas
 Deve-se ressaltar que as funções de probabilidade

(e densidades) marginais e condicionais são
funções de probabilidade (ou densidades)
propriamente ditas, ou seja, devem obedecer a
condição de normalização, como observado neste
exemplo.
 A densidade (ou função de probabilidade conjunta)

deve satisfazer uma condição de normalização que
envolve uma integral ou somatório duplo (no caso
de um vetor aleatório de dimensão 2, como o que
estamos tratando aqui).
Exemplo 2
 Sejam X e Y variáveis aleatórias contínuas

com densidade conjunta:
f ( x, y )  c.e  x / 2 .e  y / 3 se x > 0 e y > 0
 Encontre a constante c tal que f(x, y) seja

uma densidade.
 Calcule as densidades marginais de X e Y.
 Calcule Pr (X > 2).
 Calcule Pr (1 < Y < 3)
Exemplo 2
 A constante é encontrada a partir da

condição de normalização, isto é, fazendo
a integral dupla sobre todos os valores de
X e Y igual a um.
   

0 0
f ( x, y )dxdy  1    c.e  x / 2 .e  y / 3dxdy   c.e  y / 3dy  e  x / 2 dx 
0 0 0 0
 
 1   1 
  c.e  y / 3 . 0  dy   2.c.e  y / 3dy  2.c. 0    6.c
0  (1 / 2)  0  (1 / 3) 
 Então 6c = 1  c = 1/6
Exemplo 2
 A densidade marginal de X é:
  
1 x / 2  y /3 1 x / 2  y /3 e x / 2  1 
f x ( x)   f ( x, y )dy   .e .e dy  .e  e dy  .
 0   
0 0
6 6 0
6  (1 / 3) 
1 x / 2
 e se x >0
2
 Ou seja, X tem densidade Exponencial com média

2.
Exemplo 2
 A densidade marginal de Y é:
  
1 1
f y ( y )   f ( x, y )dx   .e  x / 2 .e  y / 3dx  .e  y / 3  e  x / 2 dx 
0 0
6 6 0
e y / 3  1  1 y/3
 . 0    e se y > 0
6  (1 / 2)  3
 Isto é, Y é Exponencial com média 3.
Exemplo 2
 A probabilidade de X > 2 é calculada a

partir da densidade marginal de X.
 e x / 2 1 e 1 
Pr( X  2)   dx  .0   1
(1 / 2) 
e
2 2 2
 De maneira semelhante, Pr(1< Y< 3) é

computada a partir da marginal de Y.
e y / 3 1   1   3 / 3 1 / 3
Pr(1  Y  3)  
1
3
3
dy  . . e
3  (1 / 3) 
e  
 e 1 / 3  e 1  0.7165  0.3679  0.3486
Exemplo 2
 Nota:
 A probabilidade de X > 2 poderia ter sido
calculada também através da densidade
conjunta, notando-se que os seguintes
eventos são equivalentes:
X  2  X  2  Y qualquer   X  2  Y  0
   
PrX  2  
1 x / 2  y /3
2 6 e e dxdy 
1 y/3
6 0
e dy 2e 
2 / 2

1 1  y / 3
3 0
e e dy 
1 1
3
e  3  e 1
Exemplo 2
 Analogamente, a probabilidade de 1 < Y < 3

poderia ter sido calculada também através
da densidade conjunta usando um
argumento semelhante ao do slide anterior.
Exemplo 3
 Suponha que X e Y têm densidade conjunta:

x. y
f ( x, y )   x 2 onde 0 < x  1 e 0  y  2
3
1) Calcule as densidades marginais de X e Y.

2) Encontre a densidade condicional de Y dado
X = x.
3) Encontre a densidade condicional de X dado
Y = y.
Exemplo 3
 A densidade marginal de X é:
 xy 
2 2
2.x
f x ( x)   f ( x, y )dy     x 2 dy 2.x 2  , onde 0 < x  1
0 
0
3 3
 A densidade marginal de Y é:
 xy 
1 1
1 y
f y ( y )   f ( x, y )dx     x 2 dx   , onde 0  y  2
0 
0
3 3 6
 A densidade condicional de Y dado X = x é

dada por:
xy
 x2
f ( x, y ) 1  x  y / 3
f ( y | x)   3  .  , onde x  (0,1] e y  [0,2]
 2 x2 2  x  1/ 3 
f x ( x) 2 x
3
Exemplo 3
 Note que existe um número infinito de densidades

condicionais de Y dado X =x, cada uma para um
valor de x diferente no intervalo (0,1].
 Por exemplo, se x = 1, a densidade condicional de

Y dado X = 1 é:
1 1 y / 3 1  3   y 3  y
f ( y | x  1)  .   . .1    .1   , onde y  (0,2]
2  1  1/ 3  2  4   3 8  3
Exemplo 3
 Abaixo exibimos um gráfico com 3 densidades
condicionais. Note que, à medida que o
“parâmetro” x se altera, a forma da densidade
condicional muda.
Densidades Condicionais de Y dado X
0.75

fy 
1

 3
0.6

fy 
2

 3
f ( y  1) 0.4
0.25
0.2
0 0.5 1 1.5 2
0 y 2
Exemplo 3
 A densidade condicional de X dado Y = y é:
xy
x2 
f ( x, y ) 3 3.x 2  x. y
f ( x | Y  y)    , onde x  (0,1] e y  [0,2]
f y ( y) 1 y 1 y / 2
.1  
3 2
 Substituindo-se Y = 1 acima encontramos a
densidade condicional de X dado Y = 1:
3.x 2  x 2
f ( x | Y  1)   
 . 3.x 2  x , onde x  (0,1]
1  1/ 2 3
 Se agora fazemos Y = 2 encontramos outra
densidade condicional:
3.x 2  2.x 3.x 2  2.x 
f ( x | Y  2)   , onde x  (0,1]
11 2
Exemplo 3
Densidades Condicionais de X dado Y = y
3,200
2,800
2,400
2,000
1,600
1,200
0,800
0,400
0,000
0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1,00
f(x|y = 0) f(x|y = 0.5) f(x|y = 1) f(x|y = 2)
Exercício 1- para casa
 Sejam X e Y v.a. contínuas com densidade
conjunta: f ( x, y )  cy  2 xy onde 0  x  1 e 0  y  1
2
 Encontre a constante c que faz desta expressão uma

densidade.
3 2
Resposta: c 
3 f ( x, y )  y  2.x. y
2 2
 Encontre a densidade marginal de X.
1
Resposta: f ( x)   x
2
 Encontre a densidade marginal de Y.
3
Resposta: f ( y)  . y 2  y
2
 Encontre a densidade condicional de X dado Y = y.
3 y  4x
Resposta: f ( X Y  y)  3 y  2
 X e Y são independentes? Por que? Justifique?
Resposta: f ( x, y)  f ( x). f ( y) ,então, X e Y não são independentes.
Independência
 Sejam X1 e X2 variáveis aleatórias contínuas ou

discretas. Dizemos que X1 e X2 são independentes
se sua densidade conjunta pode ser fatorada como
o produto das respectivas densidades marginais.
Isto é:
f  x1 , x2   f1  x1  f 2  x2 
 Em particular, no caso de duas variáveis discretas,

esta igualdade deve valer para todos os valores
possíveis de ambas as variáveis, e portanto, para
demonstrar a dependência entre duas variáveis,
basta mostrar que a igualdade não se verifica para
algum par de valores de x1 e x2.
Independência
 Conseqüências
 Se X1 e X2 são independentes então:
1) As densidades condicionais são iguais às
densidades marginais correspondentes.
2) Os momentos (média, variância, etc ...)

condicionais são iguais aos momentos
correspondentes calculados a partir das
densidades marginais.
3) Se X1 e X2 são independentes com densidades

marginais f1(x1) e f2(x2) então:
Independência
 Conseqüências
Pr(a <X1< b, c <X2< d) = Pr(a <X1<b). Pr(c <X2< d)
para quaisquer a < b, c < d.
4) Sejam X1 e X2 variáveis aleatórias

independentes com densidades marginais f1(x1)
e f2(x2). Então, se todos os valores esperados
abaixo existirem:
E [ u ( X1 ) v ( X2 ) ] = E [ u ( X1 ) ]. E [ v ( X2 ) ]
Independência
 Conseqüências
O valor esperado de um produto de
funções de variáveis aleatórias onde cada
função depende apenas de uma das
variáveis aleatórias é igual ao produto
dos valores esperados das funções
individuais sempre que as variáveis
aleatórias X1 e X2 forem independentes.
Exemplo 1 - continuação
 Sejam X e Y variáveis discretas com função de
probabilidade conjunta do Exemplo 1:
Pr( X = x)  X=0 X=1 X=2 X=3
Pr(Y = y) 
Y=0 0.2 0.1 0.1 0
Y=1 0.1 0.1 0.1 0.1
Y =2 0 0.1 0.1 0
 X e Y são independentes? Por que?

Por exemplo,
Pr(X=0) = 0.2 + 0.1 + 0 = 0.3 e
Pr(Y = 0) = 0.2 + 0.1 + 0.1 + 0 = 0.4
Mas, Pr( X = 0, Y = 0) = 0.2  (0.3)(0.4).
Logo, X e Y não são independentes
(são dependentes) !
Covariância
 A covariância entre as variáveis X1 e X2 é
definida como:
COV ( X 1 , X 2 )  E  X 1  1 
. X 2   2   E X 1. X 2  1. X 2   2 . X 1  1. 2  
 E ( X 1. X 2 )  1.E ( X 2 )   2 .E ( X 1 )  1. 2  
 E ( X 1. X 2 )  1. 2
 Onde 1 = E(X1) , 2 = E(X2) são as médias de X1 e

X2, computadas a partir das densidades
marginais.
 Note que a covariância é um valor esperado que
envolve simultaneamente as duas variáveis, por
isso ela deve ser calculada a partir da densidade
conjunta de X1 e X2.
Covariância
 Da expressão anterior pode-se notar que a

variância é apenas um caso particular da
covariância. Por exemplo, fazendo X2 = X1
na última expressão leva a:
COV ( X 1 , X 1 )  E  X 1  1   
. X 1  1   E  X 1  1   VAR X 1 
2
 Obviamente poderíamos ter derivado a

variância de X2 pelo mesmo procedimento.
Coeficiente de Correlação
 O coeficiente de correlação entre X1 e X2,

denotado por , é definido como:
COV ( X 1 , X 2 )

VAR( X 1 ). VAR( X 2 )
 O coeficiente de correlação é a
covariância dividida pelo produto dos
desvios padrões das duas variáveis, ou
seja, é uma medida padronizada (e
adimensional) da covariância.
 Se X1 e X2 são independentes, a correlação pode ser
zero, positiva ou negativa. Assim: A independência
não especifica a correlação!
 Se X1 e X2 têm  = 0, então X1 e X2 são descorrelatados.
 A CORRELAÇÃO ZERO NÃO IMPLICA

INDEPENDÊNCIA.
 A única instância em que as duas condições são

equivalentes (correlação zero e independência) é no
caso de variáveis Normais.
 O coeficiente de correlação entre X1 e X2 é um

valor entre -1 e +1. Além disso ,  = +1 ou  = -1
se e somente se, X1 e X2 é uma função linear de
X1.
  1  X 2  aX 1  b onde a  0
  1  X 2  aX 1  b onde a  0
 Mas, é importante notar que o coeficiente de
correlação é uma medida de associação LINEAR
entre as variáveis, ou seja, não diz nada sobre a
relação entre X1j e X2k onde j e k são diferentes de
1.
Momentos Condicionais
 Sejam X1 e X2 variáveis aleatórias contínuas ou

discretas.
 Podemos definir o valor esperado condicional
de X2 dado X1 = x1 como o valor esperado de
X2 usando-se a densidade condicional de X2
dado X1 = x1 (ao invés de usarmos da
densidade marginal de X2).
 No caso contínuo:

E ( X 2 | X 1  x1 )   x2 . f ( x2 | x1 )dx2

 O caso discreto é análogo, apenas substituindo

a integral pelo somatório para todo valor de X2.
 Note que E(X2 | X1 = x1 ) é uma função de x1, e x1

é um valor da variável aleatória X1.
 O gráfico da função E(X2|x1) versus os valores

possíveis de x1 é chamado de regressão de X2
em x1 ou Curva de Regressão de X2 em X1.
 Pode-se mostrar que, se X1 e X2 têm

densidade Normal bivariada (uma densidade
importante que estudaremos posteriormente),
a curva de regressão de X2 em X1 é, na
verdade, uma reta, ou seja, E(X2 | X1 = x1) tem
a forma: a.x1 + b.
 É claro que uma “curva” de regressão linear

não é a regra, é a exceção, mas uma exceção
tão importante que dá origem aos métodos
de regressão linear usados na prática!
 Analogamente à definição de média

condicional, podemos também definir a
variância condicional de X2 dado X1 = x1.
Esta é a variância calculada usando-se a
densidade condicional ao invés da
marginal. Por exemplo, no caso contínuo:
 x 

VAR X 2 X 1  x1   2  2 1 f x2 x1 dx2 onde
2

 2 1  E X 2 X 1  x1  é a média condicional
Exemplo 3
 Considere novamente o Exemplo 3, isto é, X e Y têm

densidade conjunta:
x. y
f ( x, y )   x 2 onde 0 < x  1 e 0  y  2
3
 Já vimos que a densidade condicional de Y dado X =x
é: xy 2
x
f ( x, y) 3 1  x  y / 3
f ( y| x )    . , onde x  (0,1] e y [0,2]
fx ( x ) 2x
 2x 2 2  x  1 / 3 
3
 Note que nesta densidade, Y é a variável aleatória, e X
deve ser pensado como um parâmetro que caracteriza
a densidade (um “número”).
Exemplo 3
 A média e variância condicionais de Y dado X = x são
calculadas a partir desta densidade.
 x  y /3   y
2 2 2
1
E (Y | X  x)   y. f ( y | x)dy   y. dy   y. x  dy 
0 0  2 x  1 / 3  2 x  1 / 3 0  3 
1  xy 2 y 3  2 1  8  9x  4
 .     2x   
2 x  1 / 3  2 9  y  0 2 x  1 / 3  9  9x  3
 Note que isso é uma função de X.
 Calcule a variância condicional (exercício 2 – para
casa).
Resposta:
VAR Y X  x   E (Y 2 X  x)  E (Y X  x)
2
9x  4 4x  2
E Y X  x  
9x  3

E Y2 X  x   3x  1
27 x 2  18 x  2
VAR Y X  x  
81x 2  54 x  9
Exemplo 3
 A curva de regressão de Y em X é o gráfico da

média condicional calculado na página anterior para
todo valor de X (isto é, X no intervalo (0,1)).
Curva de Regressã o de Y em X
1.350
1.300
1.250
1.200
1.150
1.100
1.050
0.00 0.20 0.40 0.60 0.80 1.00
Exercício 3 - para casa
 Considere a seguinte densidade conjunta:
f  x, y   .e
1 y/2
, x  0, y  x
4
a) Ache a densidade marginal de X.
1 x2
Resposta: f ( x )  e
2
b) Ache a densidade y marginal de Y.
1
Resposta: f ( y )  . y.e 2
4
c) Calcule Pr( X > 1  Y < 4)
Resposta: Pr ob( x  1 y  4)  26,82%
e au  1
Dica:     
au
u.e du . u
a  a
Exercício 4 – para casa
 Considere as seguintes distribuições conjuntas:
 a) f(x, y) = 4.x.y.exp{ -x2 - y2} para x  0, y  0
 b) f(x, y) = 3.x2/y3 para 0  x  y  1
 Em cada caso, determine se X e Y são
independentes.
f ( x)  2.x.e  x
2
Resposta a)
f ( y)  2. y.e  y
2
 x2  y2
f ( x). f ( y)  4.x. y.e .e ,então, X e Y são independentes.
Resposta b) f ( x) 
3
2

1  x2 
f ( y)  1
f ( x). f ( y) 
3
2
1 x2  ,então, X e Y não são independentes.
Exercício 5 - para casa
 Sejam X e Y v.a. contínuas com densidade conjunta:
f ( x, y )  cx 2  xy onde 0  x  1 e 0  y  1
 Encontre a constante c que faz desta expressão uma
densidade. 9

9 f ( x, y )  x 2  x. y
Resposta: c
4 4
 Encontre a densidade marginal de X.
9 2 x
Resposta: f ( x)  4 x  2
 Encontre a densidade marginal de Y.
Resposta: f ( y)  3  y
4 2
 Encontre a densidade condicional de Y dado X = x.
9x  4 y
Resposta: f (Y X  x)  9 x  2
 Ache a média condicional de Y dado X = x.
27 x  8
Resposta: E Y X  x  
54 x  12
 X e Y são independentes? Por que? Justifique.
Resposta: f ( x). f ( y)  18x y  27 x  4 xy  6 x , não são independentes
2 2
16
PROBEST
Aula 8

Alexandre Street

2015.1
1
Aula 8
 Distribuições Derivadas da Normal
 Diferença entre Probabilidade e Estatística
 Amostra Aleatória
 Objetivos da Estatística
 Distribuição Amostral
 Estimação Pontual
 Estimação Bayesiana X Clássica
 Estimação por Máxima Verossimilhança
 Estimação por Método de Momentos
Distribuições Derivadas da
Normal
 Densidade Qui-quadrado com k graus de
liberdade
Seja X uma variável aleatória contínua e positiva
com densidade dada por:
k
1 −1
f ( x) = .x .e − x / 2 onde x > 0
2
k
2k / 2.Γ 
 2
 Então X tem densidade Qui-quadrado com k

graus de liberdade, e escrevemos: X ~ χ2k
Normal
 A densidade Qui-quadrado é apenas um caso
particular de uma outra densidade chamada
densidade Gama, que também inclui a
Exponencial como caso particular.
 Se X é Qui-quadrado com n graus de liberdade

então:
n/2
E( X ) = =n
1/ 2
n/2
VAR( X ) = = 2n
(1 / 2)2
Distribuição Qui-Quadrado
Densidades Qui-Quadrado
0.476 0.5
0.4
quiquad( x, 2) 0.3
quiquad( x, 5)
quiquad( x, 7)
0.2
0.1
0
0
0 5 10 15 20 25
0.1 x 25
Densidades Qui-Quadrado
0.112 0.12
0.1
0.08
quiquad( x, 8)
quiquad( x, 10)
0.06
quiquad( x, 20)
0.04
0.02
0
0
0 5 10 15 20 25 30 35 40
0.1 x 39.7
Distribuição Qui-quadrado
 Tabelas da função de distribuição Qui-

quadrado
 A densidade Qui-quadrado é tabelada para
diversos graus de liberdade.
 As tabelas geralmente fornecem o valor x1-α tal
que Pr (X < x1-α) = 1 - α para α = 1% , 5%, 10%.
Também existem tabelas que apresentam o
valor xα tais que Pr(X < xα) = α, isto é,
Pr(X > xα) = 1- α.
probabilidade 0.01 0.05 0.10 0.25 0.50 0.75 0.90 0.95 0.99
graus de
liberdade
1 0.000 0.004 0.016 0.102 0.455 1.323 2.706 3.841 6.635

2 0.020 0.103 0.211 0.575 1.386 2.773 4.605 5.991 9.210
3 0.115 0.352 0.584 1.213 2.366 4.108 6.251 7.815 11.345
4 0.297 0.711 1.064 1.923 3.357 5.385 7.779 9.488 13.277
5 0.554 1.145 1.610 2.675 4.351 6.626 9.236 11.070 15.086
6 0.872 1.635 2.204 3.455 5.348 7.841 10.645 12.592 16.812
7 1.239 2.167 2.833 4.255 6.346 9.037 12.017 14.067 18.475
8 1.647 2.733 3.490 5.071 7.344 10.219 13.362 15.507 20.090
9 2.088 3.325 4.168 5.899 8.343 11.389 14.684 16.919 21.666
10 2.558 3.940 4.865 6.737 9.342 12.549 15.987 18.307 23.209
11 3.053 4.575 5.578 7.584 10.341 13.701 17.275 19.675 24.725
12 3.571 5.226 6.304 8.438 11.340 14.845 18.549 21.026 26.217
13 4.107 5.892 7.041 9.299 12.340 15.984 19.812 22.362 27.688
14 4.660 6.571 7.790 10.165 13.339 17.117 21.064 23.685 29.141
15 5.229 7.261 8.547 11.037 14.339 18.245 22.307 24.996 30.578
16 5.812 7.962 9.312 11.912 15.338 19.369 23.542 26.296 32.000
17 6.408 8.672 10.085 12.792 16.338 20.489 24.769 27.587 33.409
18 7.015 9.390 10.865 13.675 17.338 21.605 25.989 28.869 34.805
19 7.633 10.117 11.651 14.562 18.338 22.718 27.204 30.144 36.191
20 8.260 10.851 12.443 15.452 19.337 23.828 28.412 31.410 37.566
 Função de Distribuição Qui-quadrado no

Excel
 Use as funções DIST.QUI e INV.QUI
 A tabela anterior foi produzida usando
INV.QUI – dada uma probabilidade e o
grau de liberdade, a função INV.QUI
retorna o ponto correspondente da
densidade tal que a probabilidade de estar
ACIMA do ponto é a especificada como
argumento da função.
 Função de Distribuição Qui-quadrado no

Excel
 Por exemplo, para uma Qui-quadrado com
10 graus de liberdade:
 INV.QUI(0.99, 10) = 2.558
 INV.QUI(0.01,10) = 23.209
 Ou seja, a probabilidade de uma v.a. Qui-
quadrado com 10 graus de liberdade
exceder 2.558 é 0.99, e a probabilidade da
mesma variável exceder 23.209 é 0.01.
Valor de x para
o qual
desejamos
Pr(X > x)
Graus de
liberdade
da Qui-
quadrado
Da figura segue que,

a Pr(X > 15) quando X
é uma Qui-quadrado
com 12 graus de
liberdade é 0.2414
 Por exemplo:
 Supondo que X seja uma variável aleatória com
densidade qui-quadrado com 6 graus de
liberdade, a probabilidade de X exceder 0.87 é
99%.
 Analogamente, a probabilidade de X exceder

12.59 é 5% e a probabilidade de X estar acima de
16.81 é apenas 1%.
 Podemos estar interessados na pergunta

“ao contrário”. Dada uma Qui-Quadrado
com k graus de liberdade e uma
probabilidade α , qual é o ponto tal que a
probabilidade de estar ACIMA dele é α?
 O Excel também nos dá esta resposta,

através da função INV.CHI.
Da figura segue que, a
Pr(X > 31.4104) quando
X é uma Qui-quadrado
com 20 graus de
liberdade é 0.05
 A densidade Qui-quadrado é importante

no contexto de amostras aleatórias
Normais, na estimação da variância.
 Também pode-se provar que o quadrado

de uma variável Normal padrão (que
estudaremos a seguir) tem densidade Qui-
quadrado com um grau de liberdade.
Normal
 Uma propriedade muito importante da densidade
Qui-quadrado é a preservação da mesma família
de densidades quando somamos variáveis
independentes.
 Ou seja, se X1, X2, ...., Xn são variáveis

independentes, cada uma com distribuição Qui-
quadrado, a soma de X1, X2, ...., Xn também é uma
variável aleatória qui-quadrado.
Normal
 Teorema (aditividade da densidade Qui-quadrado)
 Sejam X1, X2, ...., Xn v.a. aleatórias independentes, e

suponha que Xi tem densidade qui-quadrado com ki
graus de liberdade. Seja Y = X1 + X2 + .... + Xn .
 Então Y tem também uma densidade Qui-quadrado,

mas com k = k1 + k2 + .... + kn graus de liberdade.
 O próximo teorema exibe a relação existente entre

as densidades N(0,1) e Qui-quadrado.
Normal
Teorema
Seja Z ~ N(0,1) . Então V = Z2 tem densidade Qui-
quadrado com 1 grau de liberdade.
 A combinação dos dois últimos teoremas leva a um

resultado importante.
 Sejam Z1, Z2, ....., Zn v.a. independentes e

identicamente distribuídas com densidade N(0,1).
Então:
Normal
n
V = ∑ Z i2 = Z12 + Z 22 + ... + Z n2
i =1
 tem densidade Qui-quadrado com n graus

de liberdade.
 Este resultado segue trivialmente dos dois

últimos, se lembrarmos que cada Zi2 tem
densidade qui-quadrado com 1 grau de
liberdade (e são todos independentes).
Normal
 Por que a densidade Qui-quadrado é importante?
 Porque está relacionada com a distribuição da
variância amostral de uma amostra aleatória
Normal, como indicado no próximo teorema.
 Por exemplo, se desejarmos encontrar um

intervalo baseado na variância amostral que
contenha, com alta probabilidade, a variância
(desconhecida) da distribuição Normal, este
intervalo será construído a partir da distribuição
Qui-quadrado.
Normal
 Teorema
 Sejam X1, X2, ...., Xn uma amostra aleatória da
distribuição N(µ, σ2). Seja S2 a variância amostral:
( )
n
1
S2 = ∑ i −
2
X X
n − 1 i =1
 Então:
∑ (X − X)
n
2
(n − 1) S 2 i
= i =1
σ 2
σ2
 tem distribuição Qui-quadrado com (n-1) graus de
liberdade.
Normal
 A partir deste teorema podemos deduzir
facilmente a média e variância de S2.
 Teorema
 Sejam X1, X2, ...., Xn uma amostra aleatória
da distribuição N(µ, σ2). Seja S2 a
variância amostral. Então:
E (S 2 ) = σ 2
2σ 4
VAR( S ) =
2
n −1
Normal
 A distribuição t de Student
 Tem apenas um parâmetro k, o número de graus
de liberdade, e é definida como:
Z
T=
V /k
 Onde Z é N(0,1) e V é Qui-Quadrado com k graus
de liberdade, e ambos são independentes.
 Esta distribuição é simétrica em torno de zero,
também tem forma de sino e, à medida que o
número de graus de liberdade cresce, se
aproxima da N(0,1).
Normal
 Quando n (número de graus de liberdade) cresce,
a densidade t de Student se torna cada vez mais
parecida com uma N(0,1)
Densidades t de Student e N(0,1)
0,5
0,4
0,4
0,3
N(0,1)
0,3 t(2)
0,2 t(5)
t(10)
0,2
0,1
0,1
-
2
3
,5
,2
,9
,6
,3
,7
,4
,1
2
-1
0,
0,
0,
1,
1,
1,
2,
-2
-2
-1
-1
-1
-0
-0
-0
Normal
 Exemplo (uso de uma tabela t)
graus de 0.9 0.95 0.975 0.99 0.995
liberdade
1 3.078 6.314 12.706 31.821 63.657
5 1.476 2.015 2.571 3.365 4.032
10 1.372 1.812 2.228 2.764 3.169
15 1.341 1.753 2.131 2.602 2.947
20 1.325 1.725 2.086 2.528 2.845
 Por exemplo, se T tem 10 graus de liberdade, a

probabilidade de T ser menor que 1.372 é 90%. Se
o número de graus de liberdade passa a 15, o
valor tal que a probabilidade de T ser menor que
ele é 90% passa a ser 1.341.
Normal
 Função do Excel para a distribuição t
Função Descrição
invt(p; gl) Para a distribuição t de Student, calcula o valor t
para p = 2.α, com gl graus de liberdade
 Por exemplo, INVT(0.05, 20) = 2.086 é o valor da

distribuição t com 20 graus de liberdade tal que
Pr(T > 2.086) = 0.05/2 = 0.025.
CUIDADO com a especificação da probabilidade
para esta função, a função INVT fornece as
probabilidades “bi-laterais”.
Normal
 Refazemos a seguir o exemplo anterior com a
função INVT do Excel. Note a especificação da
probabilidade como 0.20 = 2.α, enquanto na
nossa tabela as colunas referem-se a 1- α.
Resultado da função =
valor tabelado
Normal
 Por que a densidade t é importante?
 Ela é essencial no contexto de intervalos de
confiança e testes de hipóteses, como veremos
posteriormente. A justificativa vem, em parte, do
próximo resultado.
 Teorema
 Sejam X1, X2, ...., Xn uma amostra aleatória da
distribuição N(µ, σ2). Sejam X e S2 a média e
variância amostrais. Então:
X −µ n (X − µ )
T= = ~ tn −1
S/ n S
Probabilidade e Estatística –
Qual a Diferença?
 Até agora tivemos estivemos interessados

em Probabilidade, ou seja, nosso objetivo
era:
 apresentar alguns dos modelos probabilísticos
mais usuais e as situações em que eles surgem
na prática.
Diferença entre Probabilidade e
Estatística
 A partir de agora começamos realmente a falar de
Estatística.
 Os capítulos anteriores lidavam com Probabilidade.

Qual a diferença?
 Em Probabilidade, a densidade (ou função de

probabilidade) era inteiramente conhecida.
 Em Estatística, teremos uma amostra aleatória de

uma distribuição com certos parâmetros
desconhecidos, e procuraremos descobrir alguma
coisa sobre estes parâmetros.
31
Amostra Aleatória (a.a.)
 É apenas um conjunto de variáveis aleatórias

iid (independentes e identicamente
distribuídas).
 Se X 1 , X 2 ,..., X n formam uma a.a. então, em

particular, todas as variáveis têm a mesma
densidade ou função de probabilidade, e
portanto suas médias são todas iguais (o
mesmo ocorre com suas variâncias).
Objetivos - Estatística
 A distribuição da amostra é conhecida
exceto por alguns parâmetros que
buscamos estimar.
 Objetivo: obter maneiras de encontrar

estimadores ("chutes") destes parâmetros.
Estes estimadores serão pontuais (e
começaremos a estudar um importante
método de esimação pontual hoje) ou por
intervalos (nas próximas aulas).
Objetivos - Estatística
 Também é preciso ter uma idéia clara das

propriedades desejáveis destes estimadores,
e saber, segundo algum critério, se o
estimador encontrado é bom ou ruim.
 Finalmente, em Estatística estamos

interessados também em testar hipóteses
sobre parâmetros desconhecidos.
Distribuição Amostral
 Uma “estatística” é qualquer função das

observações numa amostra aleatória.
 Por exemplo, duas das estatísticas mais

usadas são X (a média amostral) e S2 (a
variância amostral).
 Já vimos que:
1 n
X = ∑ Xi e S = 2 1 n
∑ (X i − X )2
n i =1 n − 1 i =1
Distribuição Amostral
 Dada uma amostra aleatória X 1 , X 2 ,..., X n

com uma densidade (ou função de
probabilidade), podemos tentar encontrar a
densidade da média e da variância amostral,
e usá-las para inferir sobre a média e
variância verdadeiras (e desconhecidas) de
X 1 , X 2 ,..., X n .
Estimação Pontual
 Problemas de estimação de parâmetros surgem

freqüentemente em Ciências e Engenharia. Por
exemplo, muitas vezes desejamos estimar os
seguintes parâmetros:
 a média de uma população,
 a variância ou desvio padrão de uma população,
 a proporção de ítens numa população que
pertencem a uma classe de interesse,
 a diferença entre as médias de duas
populações.
Estimação Pontual
 Como estimar estas quantidades? Alguns

estimadores razoáveis nestas situações são:
 a média amostral,
 a variância ou desvio padrão amostrais,
 a proporção de ítens na amostra que
pertencem à classe de interesse,
 a diferença entre as médias amostrais de
duas amostras independentes, cada uma
representando uma das populações.
Estimação Pontual
 X 1 , X 2 ,..., X n variáveis aleatórias.

 x1 , x2 ,..., xn valores observados das variáveis
aleatórias.
 Seja X uma variável aleatória com densidade

f(x,θ), onde θ é um parâmetro, e θ ∈ Ω.
 O conjunto Ω é chamado de espaço

paramétrico.
 Objetivo: estimar θ.
Estimação Pontual
 A densidade de X, f(x, θ), tem uma forma

conhecida, exceto pelo parâmetro θ que varia no
conjunto Ω.
 Assim, não temos apenas uma densidade, mas

uma família de densidades. A cada valor de θ em
Ω. corresponde um membro da família.
 Aqui adotaremos o enfoque "clássico" de

estimação, no qual θ é um parâmetro
desconhecido, suposto constante, e não uma
variável aleatória.
Estimação Bayesiana versus
Clássica
 Na estimação Bayesiana, θ será encarado como
uma variável aleatória, e a ele associaremos
uma distribuição de probabilidade.
 A distribuição de probabilidade de θ antes de

observarmos os dados será chamada de
distribuição a priori, e muitas vezes representa
o nosso conhecimento subjetivo sobre o
parâmetro θ.
 A distribuição de θ após observarmos a

amostra é conhecida como distribuição a
posteriori de θ.
Estimação Bayesiana versus
Clássica
 Em estatística Bayesiana a verossimilhança (que
iremos definir em breve) "carrega" a informação
sobre θ contida na amostra, e resulta na
atualização da densidade de θ, passando de uma
priori para uma posteriori.
 A densidade a posteriori combina a "informação"

subjetiva trazida pela priori com a "informação"
proveniente da amostra.
 Os dois enfoques, Clássico e Bayesiano,

concordam se o tamanho da amostra é grande.
Definição do Problema de
Estimação Pontual
 O problema geral aqui é ...
 A partir dos dados observados x1 , x2 ,..., xn

precisamos escolher um membro de uma
família de densidades para representar estes
dados.
 Ou seja, precisamos de um estimador pontual

de θ (um "chute educado" para o valor
desconhecido de θ).
Definição do Problema de
Estimação Pontual
 Seja X 1 , X 2 ,..., X n uma amostra aleatória da
densidade f(x,θ).
 O objetivo agora é definir uma estatística

T = T ( X 1 , X 2 ,..., X n ) de tal modo que, após
observarmos X 1 = x1 , X 2 = x2 ,..., X n =,xn t = t (x1 , x2 ,..., xn )
seja uma boa estimativa pontual de θ.
 Na verdade, a cada amostra obtida, encontraremos

um valor para a estatística usada para “chutar” θ,
pois esta estatística é também uma variável
aleatória
Exemplo
 No próximo exemplo exibimos a média amostral

de 5 amostras de tamanho 50 geradas a partir da
densidade N(0,1) no Excel . A média amostral
serve para estimar a média da distribuição (zero,
neste caso) e portanto deve ser, para todas as
amostras, um valor próximo de zero.
 Os resultados para as 5 amostras geradas estão

a seguir.
Amostra 1 Amostra 2 Amostra 3 Amostra 4 Amostra 5
Média 0,076 0,150 0,180 -0,199 0,055
Desvio Padrão 1,108 1,060 1,020 1,017 0,923
Mediana 0,168 0,179 0,241 -0,206 0,072
Exemplo
 Note que os valores estimados da média em

cada amostra são todos diferentes entre si, e
diferentes do valor real da média da
população, que é = 0.
 Da mesma maneira, as estimativas do desvio

padrão (cujo valor real é 1) são todas
diferentes do valor real, e diferentes entre si.
Note que , na prática, os valores de µ e σ são
desconhecidos, o que não acontece neste
exemplo, onde geramos amostras de uma
distribuição conhecida.
Exemplo
 Como fazer a geração destas variáveis Normais no
Excel? Lembre-se que o suplemento de análise de
dados deve estar previamente instalado.
Exemplo
50 valores
por variável
5 variáveis
Pasta onde Semente do

armazenar gerador
resultados (opcional)
(opcional)
O que é um bom estimador?
 Existem potencialmente milhares de

estimadores para um certo parâmetro.
 Por exemplo, para estimar a média de uma

população poderíamos usar a média
amostral, a mediana amostral, a média
entre a menor e a maior observação na
amostra e uma infinidade de outros
estimadores "razoáveis".
O que é um bom estimador?
 Como escolher dentre eles? Quais serão

os critérios usados para comparar
estimadores e caracterizar os bons
estimadores?
 Por enquanto não responderemos a esta

questão, mas começaremos a estudar o
(talvez) mais tradicional método de
estimação pontual.
Método da Máx. Verossimilhança
A função de verossimilhança (likelihood

function)
 Esta é uma função relativamente simples com
um nome indigesto!
 "Likelihood" em inglês é uma palavra de uso

corrente, que indica "plausibilidade". Ao
contrário, "verossimilhança" é uma coisa
meio obscura.
 Seja X 1 , X 2 ,..., X n uma amostra aleatória da

densidade f(x,θ).
 A função de verossimilhança é a densidade

conjunta encarada como função do parâmetro θ.
Isto é: n
L(θ ) = f ( x1 , x2 ,..., xn ) = ∏ f ( xi , θ )
i =1
 A partir da verossimilhança podemos encontrar

um estimador, o estimador de máxima
verossimilhança (MLE = maximum likelihood
estimator).
 O MLE é obtido a partir da maximização da

verossimilhança, geralmente feita através da
equação dL(θ)/dθ = 0.
 É equivalente maximizar L(θ) ou seu logaritmo

natural, l(θ) = log L(θ) onde log(.) indica o logaritmo na
base e.
 Esta última função é chamada log-verossimilhança

e é freqüentemente mais fácil de maximizar do que L(θ),
pois as verossimilhanças muitas vezes podem ser
escritas como exp{ ...} .
 A equivalência da maximização de L(θ) e l(θ) decorre do

fato de L(θ) ser sempre maior que 0 (pois é o produto de
densidades) e do logaritmo ser uma função bijetora.
 Por que maximizar a verossimilhança?
 Suponha que temos uma amostra aleatória X 1 , X 2 ,..., X n

de uma densidade qualquer, completamente
conhecida exceto pelo parâmetro θ.
 Ao observarmos cada xi, a densidade conjunta fica

completamente especificada exceto pelo valor de θ.
Então, por que não "chutar" para θ o valor que
torna esta função um máximo?
 Este "chute" para θ é o valor que mais concorda

com os dados observados.
Exemplo 1 - MLE (Poisson)
 Suponha que obtemos uma amostra aleatória de

tamanho 5 da distribuição Poisson com média θ.
 Os valores observados na amostra são: 0, 6, 1, 2
e 1.
 Então a função de probabilidade conjunta é:
n n
θ e
xi -θ
e - 5θ
θ ∑ xi
L(θ ) = ∏ f ( xi , θ ) = ∏ = 5
∏ x!
i =1 i =1 xi !
i
i =1
e -5θ θ10 θ10 e -5θ

L(θ ) = =
0!6!1!2!1! 1440
 Seja K(θ) = 1440.L(θ) = θ10e-5θ

 Podemos fazer um gráfico de K(θ) e ver qual o
valor que aparentemente maximiza esta função,
ou, alternativamente, fazer um gráfico de L(θ) ou
l(θ). O gráfico de K(θ) é:
K(θ) = Múltiplo da
Verossimilhança
0.060
0.040
0.020
0.000 0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
 O máximo aparente ocorre em θ = 2.

 Podemos confirmar se este valor realmente

corresponde ao máximo através de técnicas
simples do Cálculo.
 Lembre-se que uma condição necessária (mas

não suficiente) para a existência de um máximo
local é que a primeira derivada da função de
interesse seja zero.
 Isso nos leva à idéia de "equação de máxima

verossimilhança”, discutida a seguir.
 Para maximizar L(θ), uma condição necessária é que

sua primeira derivada seja igual a zero.
 Assim, a equação de máxima verossimilhança é:

dL(θ )
=0
dθ
 e esta equação deve ser resolvida, por métodos
analíticos ou numéricos para θ.
 Para assegurar que a solução de dL/dθ = 0 seja

realmente um máximo da verossimilhança,
precisamos garantir que a segunda derivada seja ≤ 0.
 A equação de máxima verossimilhança pode ser

reescrita em termos da log-verossimilhança.
Assim, é equivalente resolver:
d (log L(θ )) dl (θ )
=0 ⇔ = 0 para θ .
dθ dθ
 O estimador obtido pela maximização da função

de verossimilhança é chamado de estimador de
máxima verossimilhança (MLE).
 Notação:
 Geralmente denotaremos o MLE por θˆ = T(X1 , X 2 , ..., X n )
 Atenção
 Em muitos casos o estimador de máxima
verossimilhança é único e pode ser
obtido por métodos analíticos.
 Em outros casos, a equação de máxima

verossimilhança dL/dθ = 0 (ou dl/dθ = 0) não
nos dá o resultado correto e precisaremos
encontrar o máximo da verossimilhança por
outros métodos (por exemplo, graficamente)
 Considere o exemplo 1. A log verossimilhança é:

l (θ ) = - 5.θ + 10. log θ - log (1440)
 Derivando esta última expressão com relação a θ

e igualando a zero leva a:
dl 10
= 0 → - 5 + = 0 → - 5.θ = - 10 → θˆ = 2
dθ θ
 é o estimador de máxima verossimilhança para
θ.
 Compare este resultado com o exemplo 1. Este

resultado não é mera coincidência.
Exemplo 3 (Bernoulli)
 Sejam X1 , X2 , ..., Xn iid Bernoulli(θ).

 A função de probabilidade de cada Xi é:
f ( xi ,θ ) = θ (1 − θ )
xi 1− x i
θ ∈ (0,1), x i = 0,1
 A função de verossimilhança o produto das

funções de probabilidade individuais, isto é:
n
L(θ ) = f( x1, x2 ,..., xn ,θ ) = ∏θ x i (1 − θ )1− xi = θ ∑ i (1 − θ ) ∑ i =
x n− x
i =1
= θ nX (1 − θ ) n − nX = exp{nX . logθ + (n − nX ). log(1 − θ )}
Exemplo 3 (Bernoulli)
 A log verossimilhança é:
l (θ ) = log(L(θ )) = ( ∑ x i ) logθ + (n - ∑ x i ) log(1 − θ ) =
= nX.logθ + (n - nX) log(1 - θ )
 Resolvendo a equação de verossimilhança leva a:

dl nX (n - nX)
=0⇒ - =0
dθ θ 1- θ
⇔ (1 - θ )nX = nθ - nXθ ⇔ nθ = nX
 E então o MLE para θ é a média amostral.

2
 Verifique que d l <0
dθ θ = X
2
 de tal forma que a média amostral realmente

MAXIMIZA a verossimilhança.
Exemplo 4 (Normal)
 Sejam X1 , X2 , ..., Xn iid Normal(µ, 1), ou seja,

uma amostra Normal com média desconhecida
e variância conhecida (e suposta igual a um
sem perda de generalidade).
 Mostre que o MLE de µ é a média amostral.
Exemplo 4 (Normal)
 A verossimilhança é:
n
1  1 2  1 n 
L( µ ) = ∏ exp− ( X i − µ )  = (2π ) −n / 2
exp- ∑ ( X i − µ ) 2 
i =1 2π  2   2 i=1 
 Note que a verossimilhança é máxima

quando Q(µ ) = ∑ (X − µ ) é mínimo.
i
2
 Então é equivalente maximizar L(µ) ou

minimizar Q(µ).
Exemplo 4 (Normal)
( )
n n
Q(µ ) = ∑ ( X i − µ ) =∑ X i2 − 2 µX i + µ 2 =
2
i =1 i =1
n
= ∑ X i2 − 2 µnX + nµ 2
i =1
 Derivando Q(µ) em relação a µ e igualando

a zero nos leva a um ponto crítico:
dQ( µ ) n
1
= 0 → - 2 ∑ X i + 2nµ = 0 ⇔ µˆ = ∑ X i = X
dµ i =1 n i
 Logo, o MLE de µ é a média amostral.
Método dos Momentos
 É uma alternativa ao método de máxima

verossimilhança para encontrar estimadores de
maneira simples.
 Idéia Geral
 Igualar os momentos da distribuição aos
momentos da amostra. Isso é razoável pois a
distribuição empírica converge estocasticamente
para a função de distribuição F(X).
 Considere uma amostra aleatória da distribuição

com densidade f ( x, θ1 , θ 2 , ..., θ p ) onde (θ1 , θ 2 , ..., θ p ) ∈ Ω.
 Seja E(Xk) o k-ésimo momento da distribuição

(k =1,2,...).
1 n k
 Seja M k = ∑ X i o k - ésimo momento amostral
n i =1
 Faça E(Xk) = Mk para k = 1,2,....
 Faça isto para quantos k's forem necessários até
obter soluções únicas para os parâmetros
desconhecidos
 Nota
 Uma formulação equivalente do método dos
momentos usa os momentos centrais, igualando
os momentos centrais da distribuição e da
amostra até obter soluções únicas para todos os
parâmetros desconhecidos.
 Ou seja, a outra formulação do método dos
momentos é igualar:
E ( X − µ ) = mk = ∑ ( X i − X ) para k = 1,2.....
k 1 n k
n i =1
 Até encontrar uma solução única. Muitas vezes a
resposta pelas duas formulações será igual.
 Na maneira dos casos práticos, os estimadores

pelo método dos momentos são consistentes.
 O grande problema com este método é que ele

não fornece estimadores únicos para um certo
parâmetro.
 Por exemplo, se procuramos estimar a média e

variância de uma distribuição é possível
encontrar estimadores diferentes pelo método de
momentos dependendo de quais momentos
amostrais são igualados aos momentos da
distribuição.
Exemplo 5
 Vide a situação do exemplo 4. Sejam X1 , X2 , ..., Xn

iid Normal(µ, 1), ou seja, uma amostra Normal com
média desconhecida e variância conhecida (e
suposta igual a um sem perda de generalidade).
 Mostre que o estimador por método de momentos

de µ é também a média amostral.
 Neste caso, há apenas um parâmetro

desconhecido e basta igualar o 1º. Momento da
amostra ao 1º. Momento da população (µ).
Exercício 1
 Determine o parâmetro “Ɵ” pelo Método de
Máxima Verossimilhança, mostrar todos os
passos da solução, para as distribuições:
X
a) Binomial. Resposta: θˆ = MV
n
b) Geométrica. Resposta: θ = 1
^
MV
X
θˆ = n
c) Binomial Negativa. Resposta: X
MV
d) Exponencial. Resposta: θ = 1
^
MV
X
PROBEST
Aula 9

Alexandre Street

2015.1
1
Aula 9
 Intervalos de Confiança – Motivação
 Intervalos de Confiança para Médias
 Intervalos de Confiança para Diferenças
entre Médias (Variâncias supostas iguais)
 Intervalo de Confiança para a variância de
uma Normal
 Intervalos de Confiança para a razão de
variâncias
 Intervalo de Confiança aproximado para a
proporção uma Binomial
Intervalos de Confiança
 Até agora estivemos interessados em encontrar

uma estimativa pontual para um parâmetro
desconhecido θ.
 Também enumeramos algumas propriedades

desejáveis de estimadores pontuais.
 Agora tentaremos obter não apenas uma

estimativa pontual, mas um intervalo que
contenha o parâmetro de interesse com uma
probabilidade especificada. Este intervalo será
chamado de “Intervalo de Confiança”.
O intervalo de confiança 100(1-α)% para θ é dado

por:
L( X ) ≤ θ ≤ U ( X )
~ ~
Onde L( X~ ) (limite inferior) e U ( X ) (limite superior)

~
são tais que:
Pr ob[ L( X ) ≤ θ ≤ U ( X )] = 1 − α
~ ~
Onde α é um número especificado pelo usuário.
 L ,U  
 Note que o intervalo   X~   X~ 
é aleatório, e a cada amostra obtida
iremos encontrar valores diferentes para
os limites L e U.
 A notação X~ indica todos os elementos

da amostra aleatória, isto é:
X = ( X 1, X 2 ,...., X n )
~
Intervalos de Confiança –
Média da Normal
 Consideraremos agora o caso mais
comum na prática onde os dados são
supostos NORMAIS e θ é média da
distribuição.
 Serão estudados dois casos: variância

do modelo conhecida e variância do
modelo desconhecida.
Média da Normal
 Argumento intuitivo....
 Suponha que você tem uma amostra
aleatória da Normal, em que a média é
desconhecida.
 Se você precisasse achar um estimador

pontual de θ (a média), usaria a média
amostral X .
Média da Normal
 E se agora você precisar encontrar um
intervalo que contenha θ com uma
probabilidade especificada?
 Parece natural que este intervalo tenha a

forma: ( X − c, X + c ) onde c é uma
constante a ser especificada.
 Veremos que os intervalos encontrados

para a média da Normal têm exatamente
esta dorma!
Intervalo de Confiança –
Média da Normal
Caso I
X ~ NORMAL(θ, σ2); σ2 conhecido
 Seja X =( X 1 ,....., X n ) uma a.a. de tamanho
~
n da distribuição Normal acima.
Xi
X =∑
 Já vimos que é o estimador de
n
máxima verossimilhança de θ. Além
disto, é fácil provar que:  σ2 
X ~ N θ , 
 n 
Média da Normal
 Logo, podemos padronizar a média amostral,
transformando-a numa v.a. com densidade N(0,1)
da seguinte maneira:
X −θ n ( X −θ )
=Z = ~ N (0,1)
σ σ
n
 Usando uma tabela da Normal podemos encontrar,

por exemplo, a probabilidade desta nova variável
estar entre -2 e +2.
Média da Normal
Prob (-2 < Z < 2) = Φ(2) - Φ(-2)= 0.954
 Substituindo Z na expressão anterior leva a:
X −θ 2σ 2σ
−2< < +2 ⇔ X − <θ < X +
σ/ n n n
 Daí:
 2σ 2σ 
Pr ob{− 2 < Z < +2} = Pr ob X − <θ < X +  = 0.954
 n n
 O intervalo que acabamos de encontrar é um

intervalo de confiança 95.4% para θ.
Média da Normal
 Ou seja, na notação mostrada antes:
2σ
L( X ) = X −
~ n
2σ
U(X ) = X +
~ n
1 − α = 0.954
 A seguir exibimos uma “receita de bolo” para

obter o IC da média de uma Normal com variância
conhecida.
Média da Normal
 Receita de Bolo
 Seja X~ =( X 1 ,....., X n ) uma a.a. de tamanho n
da distribuição Normal com média
desconhecida θ e variância conhecida σ2.
 Um intervalo de confiança 100(1- α)% para θ

é dado por: σ σ
[ X − z1−α / 2 ; X + z1−α / 2 ]
n n
 Onde z1-α/2 é obtido da função de distribuição
N(0,1) e é tal que Pr( Z < z1-α/2 ) = 1-α/2.
Média da Normal
 Note que, pela simetria em torno de zero da
distribuição N(0,1):
 z1-α/2 é o ponto tal que, a probabilidade de estar
ACIMA dele é α/2 usando uma distribuição N(0,1).
 Também é fácil perceber que, se Z é N(0,1):
 
Pr − z α < Z < + z α  = 1 − α
 1− 2 1−
2
 E esta última expressão foi empregada para obter

o IC para a média.
IC para a média da Normal com
σ conhecido
 Exemplo
 Considere a população de alunos da PUC. Para uma
amostra de 50 alunos obtivemos uma altura média de
1,68m.
 Sabe-se que o desvio-padrão da altura da população
de alunos da PUC é o mesmo que o da população de
jovens cariocas com menos de 25 anos: 0,11m.
 Suponha que as alturas dos alunos são Normalmente
distribuídas.
 Determine, com um nível de confiança de 95%, o
intervalo onde a real altura média da população de
alunos da PUC deve estar localizada.
σ conhecido
 Solução
 Note que a amostra é Normal com variância
conhecida, e assim a distribuição de X
também é Normal.
 Da tabela da Normal, ou usando a função

INV.NORMP do Excel, procuramos um valor z0
tal que Pr(Z < z0) = 1- α/2 = 97.5% , isto é, Φ(z0) =
97.5%. A função INV.NORMP fornece z0 = 1.96.
σ conhecido
 Solução
 O IC 95% (para as alturas em cm) é então:
 σ σ   11 11 
X − z α. ,X + z α.  = 168 − 1.96 ,168 + 1.96 
 1− − 
n  50 
 2 n 1
2 50
= (164.95 cm, 171.05 cm)
σ conhecido
 Receita de bolo – qual valor de zα/2 usar?
Coeficiente de Confiança valor tabelado de z

80.0% 1.282
90.0% 1.645
95.0% 1.960
97.0% 2.170
97.5% 2.241
99.0% 2.576
Estes pontos são encontrados através da função INV.NORMP do

Excel – Note que, se o coeficiente de confiança é 1- α, devemos
buscar um ponto na tabela da Normal tal que a probabilidade de
estar ACIMA dele é α/2, ou seja, a probabilidade de estar ABAIXO
dele é 1 - α/2 (o argumento da função INV.NORMP é 1 - α/2).
σ conhecido
1.96 (a “resposta
da função” é tal
que a
probabilidade de
estar abaixo deste
valor é 0,975
σ conhecido
 Exemplo
 Numa amostra de 36 postos de gasolina no Rio de
Janeiro, o preço médio do litro da gasolina aditivada
foi de R$ 1.78. Sabe-se, por experiências anteriores,
que o desvio padrão é R$ 0.20.
 Encontre intervalos de confiança 90%, 95% e 99%
para o preço médio da gasolina aditivada no Rio de
Janeiro supondo que a amostra é Normal.
 Solução
 Aqui estamos supondo que o desvio padrão é conhecido, e
assim podemos usar um intervalo baseado na densidade
Normal.
σ conhecido
 Os IC têm a forma geral:  X − z . σ , X + z . σ 
 α α  1− 1−
 2 n 2 n
 O IC 90% é:1.78 − 1.645 (0.20) ,1.78 + 1.645 (0.20)  = (R$ 1.725, R$ 1.835 )
 6 6 
O IC 95% é: 1.78 − 1.96

(0.20) ,1.78 + 1.96 (0.20)  = (R$ 1.715, R$ 1.845)
 
 6 6 
 (0.20) ,1.78 + 2.576 (0.20)  = (R$ 1.694, R$ 1.866)
 O IC 99% é: 1.78 − 2.576 
 6 6 
Note que, à medida que o coeficiente de confiança

aumenta, a largura do intervalo também aumenta!
σ conhecido
 O preço médio de um automóvel Palio ELX 1.0 4 portas
ano 2001 é R$ 17727 (segundo o Jornal Valor Econômico
de 07/07/2003).
 Suponha que o desvio padrão REAL dos preços seja R$
1500 e o tamanho da amostra é n = 25 carros.
 Encontre intervalos de confiança 95% e 99% para os
preços de Palios ELX 1.0 quatro portas ano 2001
supondo que os preços são Normalmente distribuídos.
Resposta:
- Intervalo de Confiança [1-α] 95% = [17.139 ; 18.315 ]
- Intervalo de Confiança [1-α] 99% = [16.953,60;18.500,40]
σ conhecido
 Toma-se uma amostra de 25 usuário de um cartão
de crédito e observa-se que o gasto médio mensal é
R$ 600.
 O desvio padrão é conhecido e igual a R$ 250.
 Encontre intervalos de confiança 95 e 99% para o
gasto médio com cartão na população de usuários.
Resposta:
- Intervalo de Confiança [1-α] 95% = [502 ; 698]
- Intervalo de Confiança [1-α] 99% = [471,10 ; 728,90]
PIVOT
 Seja X~ =( X 1 ,....., X n ) uma a.a. de tamanho n de

uma densidade (ou função de probabilidade)
f(x,θ).
 Seja Q = q(X1,....,Xn, θ) uma função dos
elementos da amostra e do parâmetro
desconhecido θ.
 Q é chamado de PIVOT se sua distribuição
não depende de θ.
 Um PIVOT é usado para encontrar intervalos
de confiança para parâmetros desconhecidos.
PIVOT
 No exemplo do IC da média da Normal com

variância conhecida, a quantidade:
n (X − θ )
Z=
σ
 é um PIVOT, pois depende de X~ =( X 1 ,....., X n ) e

θ, sua distribuição não depende de θ (pois é
N(0,1)) e assim pode ser usada na construção
de um IC para θ.
σ desconhecido
Caso II
X ~ NORMAL(θ, σ2); σ2 DESCONHECIDO
 Seja X~ =( X 1 ,....., X n ) uma a.a. de tamanho n
da distribuição Normal acima.
 Os estimadores não tendenciosos de θ e σ2
são:
X=
1 n
∑ 2
X
1 n 2
e S = ∑ (X −X)
n −1
i i
ni =1 i =1
 σ 2  (n − 1) S 2
onde X ~ N θ ,  e ~ χ 2
n −1
 n  σ 2
σ desconhecido
2
 Também, X e S são independentes.
 Pela definição de uma v.a. t de Student:

n( X −θ )
σ X −θ
=T = n. ~ tn −1
(n − 1) S 2 S
σ 2 (n − 1)
 Onde: S =2 1 n
∑ (X i − X )2
n − 1 i =1
 Assim da tabela da distribuição t de Student com n-1
graus de liberdade podemos obter dois números a e b tais
que: Pr( a < T < b) = 1- α
σ desconhecido
 Para encontrar um intervalo simétrico fazemos a =
-b e assim:
  X −θ  
Prob[a < T < b] = Prob {−b < T < +b} = Prob  −b < n   < b  = 1 − α

  S  
 S S 
⇔ Prob  −b < X − θ < +b =
 n n
 S S 
= Prob  − X − b < −θ < − X + b = 
 n n
 S S 
=Prob  X − b <θ < X +b  =1 − α
 n n
σ desconhecido
 Portanto:
 S S 
 O intervalo  X − b , X + b 
 n n
 é um intervalo aleatório com probabilidade 1- α

de incluir o parâmetro desconhecido θ.
 O ponto b que aparece na definição do IC é

obtido da distribuição t com n-1 graus de
liberdade, e é tal que Pr(T > b) = α/2.
σ desconhecido
 Receita de Bolo
 Seja X1, X2, ..., Xn uma a.a. de tamanho n da
distribuição Normal com média desconhecida
θ e variância desconhecida σ2.
 Um intervalo de confiança 100(1- α)% para θ é

dado por:  S S 
 X −b , X +b 
 n n
 Onde b é obtido da função de distribuição t de
Student com n-1 graus de liberdade e é tal que
Pr( T > b ) = α/2.
σ desconhecido
 O IC 100(1-α)% para θ é:
 S S 
 X − t n −1;1−α / 2 , X + t n −1;1−α / 2 
 n n 
 Onde S é o desvio padrão amostral e tn-1,1-α/2 é um

ponto da distribuição t de Student com n-1 graus
de liberdade tal que Pr(T > tn-1,1-α/2) = α/2, como no
gráfico a seguir:
σ desconhecido
O valor tn-1,1-α/2 é obtido de uma tabela da
distribuição t com n-1 graus de liberdade.
Pode-se, alternativamente, usar a função
INVT do Excel.
σ desconhecido
 Numa amostra de 16 postos de gasolina no Rio de
Janeiro, o preço médio do litro da gasolina aditivada foi
de R$ 1.78.
 O desvio padrão estimado dos preços na amostra é R$
0.20. Encontre intervalos de confiança 90%, 95% e 99%
para o preço médio da gasolina aditivada no Rio de
Janeiro e compare-os com os encontrados no exemplo
da página 18.
Resposta:
- Intervalo de Confiança [1-α] 90% = [R$1,692 ; R$1,868]
σ desconhecido
 Solução
 Aqui deve-se usar a distribuição t para encontrar
o IC, pois o desvio padrão é desconhecido. A
forma do intervalo é:
S  S S 
IC =
X ±t α. =
 X −t α. , X +t α. 
n −1,1− n −1,1− n −1,1−
2 n  2 n 2 n 
 Pela função INVT do Excel com 15 graus de
liberdade obtemos os pontos percentuais para os
IC 90, 95 e 99%, que são, respectivamente: 1.753,
2.131 e 2.947.
σ desconhecido
 ( 0.20 ) ( 0.20 ) 
 O IC 90% é: 1.78 − 1.753 ,1.78 + 1.753 =( R$ 1.692, R$ 1.868)
 16 16 
 ( 0.20 ) ,1.78 + 2.131 ( 0.20 )  =

 O IC 95% é:  1.78 − 2.131  ( R$ 1.673, R$ 1.887 )
 16 16 
 ( 0.20 ) ,1.78 + 2.947 ( 0.20 )  =

 O IC 99% é:
 1.78 − 2.947  ( R$ 1.633, R$ 1.927 )
 16 16 
Note que os intervalos de confiança são mais

largos que os correspondentes para a Normal
Nota IMPORTANTE – uso de
INVT no Excel
 Suponha que você quer encontrar um intervalo de

confiança 100*(1 – α)%.
 Então para obter o ponto t 1-α/2 que entra no cálculo do IC,
use a função INVT com os argumentos:
 α e
 n – 1 graus de liberdade
 Pois a função INVT do Excel fornece a o ponto tal que a
probabilidade de estar ACIMA dele é especificada.
 Isso se deve ao fato do primeiro argumento da função no

Excel ser, na verdade, o valor para o intervalo bilateral.
Utilizando o Excel
 Funções do Excel para a distribuição t
Função Descrição
invt(p; gl) Para a distribuição t de Student, calcula o valor

t para p = 2.α, com gl graus de liberdade
 Por exemplo, INVT(0.05, 20) = 2.086 calcula o

valor na tabela t com 20 graus de liberdade e é tal
que Pr(T > 2.086) = 0.05/2 = 0.025
Distribuição t de Student
 Quando n (número de graus de liberdade)

cresce, a densidade t de Student se torna cada
vez mais parecida com uma N(0,1)
Densidades t de Student e N(0,1)
0,5
0,4
0,4
0,3
N(0,1)
0,3 t(2)
0,2 t(5)
t(10)
0,2
0,1
0,1
-
2
3
,5
,2
,9
,6
,3
,7
,4
,1
2
-1
0,
0,
0,
1,
1,
1,
2,
-2
-2
-1
-1
-1
-0
-0
-0
A distribuição t de Student
 Exemplo: para uma amostra com 15 elementos
(14 graus de liberdade) e para um nível de
confiança de 5% (α/2 = 0,025), t é igual a 2,1448
G.L 0.100 0.075 0.050 0.025 0.020
1 3.0777 4.1653 6.3137 12.7062 15.8945
0.45 2 1.8856 2.2819 2.9200 4.3027 4.8487
0.40 3 1.6377 1.9243 2.3534 3.1824 3.4819
4 1.5332 1.7782 2.1318 2.7765 2.9985
0.35
5 1.4759 1.6994 2.0150 2.5706 2.7565
0.30 6 1.4398 1.6502 1.9432 2.4469 2.6122
0.25 7 1.4149 1.6166 1.8946 2.3646 2.5168
8 1.3968 1.5922 1.8595 2.3060 2.4490
0.20 9 1.3830 1.5737 1.8331 2.2622 2.3984
0.15 10 1.3722 1.5592 1.8125 2.2281 2.3593

0.10 α/2 11 1.3634 1.5476 1.7959 2.2010 2.3281
12 1.3562 1.5380 1.7823 2.1788 2.3027
0.05 13 1.3502 1.5299 1.7709 2.1604 2.2816
14 1.3450 1.5231 1.7613 2.1448 2.2638
0.00
-4.00 -2.00 0.00 2.00 4.00 15 1.3406 1.5172 1.7531 2.1315 2.2485
2,1448 16 1.3368 1.5121 1.7459 2.1199 2.2354
Comparação: IC Normais x IC
t de Student
 A distribuição t nos fornece intervalos de
comprimento maior que os intervalos
Normais com a mesma probabilidade.
 À medida que o número de graus de

liberdade da densidade t cresce, a densidade
se torna mais e mais parecida com uma
N(0,1), e conseqüentemente, os intervalos se
tornam mais próximos dos encontrados
através da distribuição N(0,1).
Comparação: IC Normais x IC
t de Student
 Também, o comprimento dos intervalos
diminui à medida que aumentamos o número
de observações.
 Isto é intuitivamente razoável, pois à medida

que o tamanho da amostra cresce, X
“converge” para µ e temos cada vez mais
“certeza” de que a média amostral está num
intervalo de pequeno comprimento em torno
de µ com alta probabilidade (este resultado é
conhecido como “lei dos grandes números”).
Utilizando o Excel
 O Excel também pode ser utilizado para o cálculo

do intervalo de confiança para σ desconhecido
(para qualquer tamanho de amostra)
 Selecione no menu Ferramentas a opção Análise de

Dados;
 Escolha a opção Estatística Descritiva;
 Na caixa Intervalo de Entrada, selecione os dados da
amostra;
 Selecione a opção Intervalo de Confiança para a Média e
coloque o intervalo de confiança desejado;
 Na caixa Intervalo de Saída, selecione o local da planilha
onde os resultados serão colocados;
 Clique em Ok.
Utilizando o Excel
 A saída Erro padrão fornece o valor de σ/√n para

n grande.
 Para obter o intervalo de confiança baseado na

Normal, calcule z1-α/2 utilizando a função
apropriada, multiplique pelo Erro padrão, e faça:
média amostral + e - o resultado encontrado.
 A saída Intervalo de Confiança já fornece o valor

de (t1-α/2,n-1)σ/√n (ou seja, já fornece o que deve
ser somado e subtraído da média amostral),
bastando apenas subtrair e somar à média.
Utilizando o Excel
 A seguir aplicamos esta análise para o preço da
gasolina em 106 postos do Rio de Janeiro em Agosto
de 2002.
Utilizando o Excel
Gas. Comum
Média 1.725
O erro padrão é
Erro Padrão 0.007 apenas o desvio
Mediana 1.725 padrão dividido por
Moda 1.749 √n = √106
Desvio Padrão 0.075
Variância Amostral 0.006
Curtose 1.082
Assimetria 0.386
Amplitude (Máx - Mín) 0.410
Mínimo 1.520
(t0.025)σ/√n – basta
Máximo 1.930 subtrair e somar este
Soma 182.847 valor à média para
n 106
encontrar o IC 95%
IC 95% 0.014
Utilizando o Excel
 Nota:
 Como o tamanho da amostra é grande,
poderíamos ter usado um IC baseado na
distribuição Normal.
 Na verdade, a diferença praticamente
inexiste, pois o número de graus de
liberdade da distribuição t neste caso
(105) a torna, para todos os efeitos,
indistigüível da Normal.
Forma Alternativa para um IC
baseado na distribuição t
 Se definirmos a variância amostral como:
n
1
∑ ( Xi − X )
2
=S*2
n i =1
e então
( n ) S *2 ~ χ 2
n −1
σ 2
 Daí a variável T torna-se:

n( X −θ )
σ X −θ
=
T = n − 1. * ~ tn −1
( n) S *2 S
σ 2 (n − 1)
Forma Alternativa para um IC
baseado na distribuição t
 E aí o intervalo de confiança torna-se:
S*  S* S* 
IC =
X ±t α. =
 X −t α. , X +t α. 
n −1,1−
2 n − 1  n −1,1−
2 n − 1 n −1,1−
2 n − 1 
 Qual intervalo é “melhor”? Nenhum – são

equivalentes, o importante é saber se você
está calculando a variância amostral com
denominador n ou (n-1), para ser coerente na
sua escolha.
IC para a média de uma distribuição
qualquer – GRANDES AMOSTRAS
 Intervalo de confiança aproximado para as
médias de distribuição não-normais (baseado
no Teorema Central do Limite).
 Considere a v.a. X com densidade ou função

de probabilidade f(x), não necessariamente
Normal.
 Tome uma a.a. de tamanho n desta

densidade.
 Se n (o tamanho da amostra) é grande
o Teorema Central do Limite estabelece
que:
S 
2
→ σ
P 2
n
X −θ
→
d (
N (0,1)
)
σ
n( X −θ ) /σ ( X −θ ) d
= n  → N (0,1)
(n − 1) S 2 /(n − 1)σ 2 S
 Daí, um intervalo de confiança aproximado
para θ quando a variância é desconhecida e Xi
é não- Normal é:
 S S 
 X − z1−α / 2 . ; X + z1−α / 2 . 
 n n
onde z1-α/2 é obtido de uma N(0,1) tal que:
Prob [- z1-α/2 < Z < z1-α/2 ] = 1- α sendo Z ~ N (0,1)
IC para diferenças entre médias
 Objetivo
 Comparação das médias de duas amostras
aleatórias Normais.
 Exemplos: Agricultura, Medicina, Energia,

Veterinária, Marketing, Produção, Finanças,
etc...
 Aplicações - Medicina
 Deseja-se medir o efeito da dieta sobre a pressão
sangüínea e a taxa de colesterol de uma pessoa.
Toma-se duas amostras “parecidas” de pessoas
(mesmas idades, pesos, nível de atividade, etc... ).
 Umas das amostras é submetida a uma dieta com
alto teor de gordura e carnes vermelhas.
 O outro grupo ingere uma dieta consistindo
principalmente em vegetais, carnes brancas e
grãos.
 Os pacientes são acompanhados por um

período de 3 meses, no qual são feitas
medições quinzenais da pressão
sangüínea e da taxa de colesterol.
 Como a dieta afeta estas 2 quantidades? A

pressão sangüínea no grupo que ingere
mais gordura é significativamente maior
que no outro grupo?
 E a taxa de colesterol?
 Aplicações - Veterinária
 A empresa produtora da ração “Baby
Dog” decide lançar no mercado uma nova
marca de ração, “”Super Baby Dog”, que
supostamente tem maior teor nutritivo.
 Toma-se uma amostra de 200
cachorrinhos com 2 meses de idade, 100
deles alimentados com “Baby Dog” e 100
alimentados com “Super Baby Dog”.
 Ao completarem 6 meses de idade, os

cães são novamente examinados e
registra-se o aumento de peso no período
de 2 a 6 meses de idade.
 Pergunta-se: a ração “Super Baby Dog”
fez os cachorrinhos crescerem mais que a
“Baby Dog”? Qual a diferença no aumento
de peso médio dos cães submetidos às
duas rações?
 Aplicações – Marketing
 A empresa ABC concentra seus anúncios de TV
no horário nobre, gastando uma imensa fortuna
em publicidade. Como forma de conter as
despesas, a companhia decide direcionar seus
anúncios para um horário mais tardio, e para
programas vistos por um público principalmente
das classes A e B. A questão de interesse para a
empresa é: esta mudança foi eficaz? Ou seja,
será que a empresa economizou dinheiro e ainda
manteve o mesmo nível de vendas após a
mudança do horário de seus anúncios?
 Formulação Matemática
 Considere duas populações Normais com
médias (µ1 e µ2) possivelmente distintas e
com a mesma variância (esta hipótese é
essencial para resolver o problema!). Isto
é:
Xi ~ N (µ1,σ2) e Yj ~ N (µ2,σ2)
Onde i =1, 2, ..., m e j = 1,2, ..., n
 Considere as duas amostras aleatórias de X e Y

com tamanhos m e n respectivamente, isto é:
X = ( X 1 ,...., X m ); Y = (Y1 ,...., Yn )
~ ~
~
 Suponha que todos os parâmetros (µ1, µ2 e σ2)

são desconhecidos. Então o nosso objetivo é:
Achar um intervalo de confiança 100(1-α)%

para (µ1- µ2).
 Intuitivamente, este intervalo deverá ser baseado

nas respectivas médias amostrais e terá a forma:
( X − Y − c, X − Y + c )
 A questão que devemos responder é: como achar
esta constante c?
Solução:
Sabemos que:
X ~ N ( µ1 ; σ / m);
2
Y ~ N ( µ 2 ; σ / n) 2
e estas médias amostrais são independentes.

Então qualquer combinação linear de X e Y é
Normal e, em particular:
 2 1 1 
X − Y ~ N  µ1 − µ 2 ,σ  +  
  n m 
Além disso, temos que:
( m − 1) S 2 (n − 1) S 2
1
~χ 2 2
~ χ n2−1
σ 2 m −1
σ 2
Onde S12 é a variância amostral da 1a. amostra (X´s) e

S22 a variância amostral dos Y´s, ambas
independentes.
Daí:
1
((m − 1) S + ( n − 1) S ) ~ χ
2 2 2
n+ m−2
σ 2 1
monica@ele.puc-rio.br
2
62
Revisão:
 Seja Z ~N(0,1) e V~ χp2, ambas independentes.
 Então:
T = Z / V / p ~ tp ,
Tem uma distribuição t de Student,

com p graus de liberdade
Combinando os resultados temos:

X − Y − ( µ1 − µ 2 )
Z = ~ N (0,1)
 1 1
σ  + 
2
m n
1
V= ((m − 1) S + (n − 1) S ) ~ χ
2 2 2
n+ m−2
σ 2 1 2
Além disso, Z e V são independentes, então a

variável T dada por:
Z X − Y − ( µ1 − µ 2 )
T= = ~ tn+ m−2
V  1 1  (m − 1) S1 + (n − 1) S 2 
2 2
 +  
n+m−2  n m  n+m−2 
Tem distribuição t de Student com (m+n-2) graus de

liberdade.
Dado um nível de significância 100*(1-α)%

podemos achar um número “b” tal que:
Prob{-b < T < b}= (1-α)
b é obtido a partir da distribuição t com n+m-2
graus de liberdade, onde T é a variável mostrada
no “slide” anterior, calculada a partir da
diferença entre as médias das duas amostras.
 Para simplificar a notação, seja:
 1 1  ( m − 1) S 2
+ ( n − 1) S 2

R =  +  1 2

 n m  n+m−2 
 O IC 100*(1-α)% para a diferença das médias é:
(( X − Y ) − bR; ( X − Y ) + bR )
 Exemplo
 Estuda-se um certo processo químico
com o objetivo de tentar aumentar a
produção de um certo composto.
Atualmente usa-se na produção um certo
tipo de catalisador A, mas um outro tipo
de catalisador B é aceitável.
 Faz-se uma experiência com n = 8
tentativas para o catalisador A e o mesmo
no de repetições para o catalisador B.
 As médias e variâncias amostrais são:
X = 91.73, Y = 93.75 e S12 = 3.89, S22 = 4.02.

 Construa um intervalo de confiança 95%
para µ1- µ2.
 Solução
n=m=8
 1 1  (m − 1) S1 + (n − 1) S 2   1  7(3.89) + 7(4.02) 
2 2
R =  +   =    = 0.994
 n m  (n + m − 2)   4  14 
 b = 2.145 da tabela t14. O intervalo de

confiança é:
( X − Y ) ± bR = −2.02 ± 2.132 = (−4,152;0,112)
 Note que este intervalo inclui zero. Isso

indica que pode não existir diferença real
na produção média usando os
catalisadores A e B. Assim, baseado
apenas neste teste, parece não haver
razão para mudar do catalisador A para o
B com o objetivo de aumentar a produção.
IC para a variância da Normal
 Sejam X1, X2, ...,Xn iid N(µ, σ2) onde ambos µ e σ2

são desconhecidos. Este é o caso usual na
prática, onde desejamos inferir sobre um dos
parâmetros quando ambos são desconhecidos.
1 n
 A variância amostral é S = ∑2
n − 1 i =1
( X i − X ) 2
 Também sabemos que nS2/σ2 tem distribuição

Qui-quadrado com n-1 graus de liberdade.
 Dado α ∈ (0,1) ache a e b da tabela Qui-

quadrado com (n - 1) graus de liberdade
tais que:
 Pr(a < (n-1)S2/σ2 < b) = 1- α e
 Pr( (n-1)S2/σ2 < a) = α/2 = Pr((n-1)S2/σ2 > b)
 Logo: Pr[(n-1)S2/b < σ2 < (n-1)S2/a] = 1-α.
 O intervalo ((n-1)S2/b, (n-1)S2/a) é um

intervalo aleatório com probabilidade 1-α
de incluir o parâmetro desconhecido σ2.
 Exemplo
 Sejam X1, X2, ..., X9 iid Normais com média
µ e variância σ2.
 Observa-se s2 = 7.63. Encontre um
intervalo de confiança 95% para σ2.
 Solução
 Neste caso precisamos encontrar a e b de
uma tabela Qui-quadrado com 8 graus de
liberdade.
 O ponto a tal que a probabilidade de estar
abaixo dele é 2.5% é: 2.180
 O ponto b tal que a probabilidade de estar
abaixo dele é 97.5% (ou seja, a
probabilidade de estar acima dele é 2.5%)
é: 17.535.
 O intervalo de confiança 95% para a

variância da distribuição é:
 (n − 1) S 2 (n − 1) S 2   8(7.63) 8(7.63) 
 ,  =  ,  = (3.481, 28.004)
 b a   17.535 2.180 
IC aproximado para a
proporção de uma Binomial
 Seja Y ~ Bin(n,p) onde n é conhecido e 0<p<1
é desconhecido.
Y
 Assim, E(Y) = np, VAR(Y) = np(1-p), e pˆ =
n
é o estimador de máxima verossimilhança para p.
 Pelo Teorema Central do Limite:

Y − np
~ N (0,1) se n é grande.
np (1 − p ) aprox
 Mas, precisamos de uma estimativa do

desvio padrão de Y para calcular o intervalo
de confiança para µ = E(Y) = np, e então
substituímos p no denominador pelo seu
estimador de máxima verossimilhança.
 Ou seja, um intervalo de confiança 1-α

aproximado para p é:
 pˆ (1 − pˆ ) pˆ (1 − pˆ ) 
 pˆ − z1−α / 2 , pˆ + z1−α / 2 
 n n 
 
Este intervalo foi obtido da seguinte
maneira:
Y − np
~ N (0,1)
np (1 − p ) aprox
 Dividindo o numerador e o denominador

acima por n leva a:
(Y / n) − p (Y / n) − p pˆ − p
Z= = =
1
npˆ (1 − pˆ ) pˆ (1 − pˆ ) pˆ (1 − pˆ )
n n n
 E como Z definido acima é
aproximadamente N(0,1) então:
Pr[-z1-α/2 < Z < z1-α/2] = 1-α
e obtemos o intervalo indicado.
 Exemplo
 Uma pesquisa do governo afirma que 10%
dos homens com idade inferior a 25 anos
estão desempregados.
 Encontre a probabilidade de que, ao
tomarmos uma amostra de 400 homens
com menos de 25 anos, a proporção
estimada de desempregados seja superior
a 12%.
 Solução
 A probabilidade real (segundo o governo)
de um homem desta faixa etária estar
desempregado é p = 10%.
 Toma-se uma amostra de tamanho 400 e
estima-se p a partir desta amostra.
Podemos utilizar o Teorema Central do
Limite e encontramos:
pˆ − p pˆ − p pˆ − p
= n ≈ n é aproximadamente N(0,1)
p(1 − p ) p(1 − p ) pˆ (1 − pˆ )
n
 A probabilidade desejada é:
 
Pr ( pˆ > 0.12 ) = Pr  ( pˆ − 0.10) > (0.12 − 0.10) =
400 400
 (1 / 10 )(9 / 10 ) (1 / 10)(9 / 10) 
  200   200    4
= Pr   ( pˆ − 0.10 ) >  (0.02 ) = Pr  Z >  = Pr (Z > 1.33) = 0.0918
 3   3    3
 Logo, existe uma probabilidade de cerca

de 9,18% de que a estimativa amostral
ultrapasse 12%, mesmo que o valor real
seja 10%.
 Exemplo
 Considere novamente a situação do exemplo
anterior.
 Suponha que a probabilidade de um homem com
menos de 25 estar desempregado é
desconhecida, e será estimada a partir de uma
amostra de 400 homens.
 Suponha que observamos p^= 0.12 . Encontre um
intervalo de confiança 90% aproximado para p.
 Solução
 Pelo exemplo anterior:
pˆ − p pˆ − p pˆ − p
= n ≈ n =
400
( pˆ − p ) = 61.546( pˆ − p )
p(1 − p ) p(1 − p ) pˆ (1 − pˆ ) (0.12)(0.88)
n
 É aproximadamente N(0,1). Usando a

tabela da Normal leva a:
Pr (− 1.645 < Z < +1.645) = 0.90 ⇒ Pr (− 1.645 < 61.546( ~
p − p ) < +1.645) = 0.90
 Logo:
 1.645 1.645   1.645 1.645 
⇒ Pr  pˆ − < p < pˆ +  = Pr  0.12 − < p < 0.12 + =
 61.546 61.546   61.546 61.546 
= Pr (9.33% < p < 14.67% )
 Ou seja, nestas condições há 90% de

probabilidade da taxa de desemprego real
estar entre 9.33% e 14.67%.
 ou:
 pˆ (1 − pˆ ) pˆ (1 − pˆ ) 

IC =  pˆ − z1−α / 2 , pˆ + z1−α / 2  = (1 − α )
n n 
 
 0,12(0,88) 
 = (1 − α )
0,12(0,88)
IC =  0,12 − 1,645 , 0,12 + 1,645 
 400 400 
 Ou seja, nestas condições há 90% de

probabilidade da taxa de desemprego real
estar entre 9.33% e 14.67%.
 Seja X uma variável aleatória contínua que segue uma
Normal com média “μ” e Variância “σ2”, ambas
desconhecidas.
 Seja X̰ = (3, 7, 2, 4, 4, 9, 6, 8, 5, 2), uma amostra aleatória
de tamanho 10 desta população. Pede-se:
a) O intervalo de confiança aos níveis de significância de
30% e 10%, , para a “Média (μ)”.
Resposta:
- IC [1-α] 70% = [4,148 ; 5,852]
- IC [1-α] 90% = [3,58 ; 6,42].
a) O intervalo de confiança aos níveis de significância de
10% e 1%, para a “Variância (σ2)”.
Resposta:
- IC [1-α] 90% = [3,19 ; 16,22]
- IC [1-α] 99% = [2,29 ; 31,12].
 Uma certa empresa de pesquisa resolveu analisar 2 resultados
distintos das alturas dos estudantes de Engenharia Civil da PUC e
da UFRJ, tomou-se uma amostra de 20 alunos da PUC e 18 alunos
da UFRJ, e obteve os seguintes resultados amostrais:
X̅Puc = 1,78m SPuc= 0,5m
X̅UFRJ = 1,72m SUFRJ = 0,6m
 Pede-se:
O Intervalo de confiança para a diferença das médias das duas
universidades (μPuc- μUFRJ) ao nível de significância de 10%. Pelo
resultado pode-se afirmar que a média das alturas dos alunos da
PUC é estatisticamente maior do que a média da UFRJ?
Resposta:
- IC [1-α] 90% = [-0,2327 ; 0,3527]
- Não, O Zero está contido no Intervalo de Confiança, portando as
médias das alturas podem ser estatisticamente iguais ao nível de
significância de 90%.
 Você é contratado pra auditar a pesquisa sobre as
intenções de voto do segundo turno da eleição presidencial
de 2010..
 A pesquisa da Datafolha divulgou uma semana antes da
eleição o seguinte resultado: a proporção dos eleitores que
votam na Dilma é de 52% com uma margem de erro de ±2
(pontos percentuais), isso significa que o intervalo de
confiança é IC=[50% , 54%]. Também foi divulgado que o
número de pessoas ouvidas foi de 1500 pessoas.
 Deduza o grau de confiança (1-α) empregado nesta
pesquisa, utilizando o Teorema Central do Limite.
Resposta:
[1-α] = 0,8788 ou 87,88%
Resumo Aula 9
Z0
σZ
μ X
z φ(z) z φ(z) z φ(z) z φ(z)

0.00 0.5000 0.62 0.7324 1.24 0.8925 1.86 0.9686
0.02 0.5080 0.64 0.7389 1.26 0.8962 1.88 0.9699
0.04 0.5160 0.66 0.7454 1.28 0.8997 1.90 0.9713
0.06 0.5239 0.68 0.7517 1.30 0.9032 1.92 0.9726
0.08 0.5319 0.70 0.7580 1.32 0.9066 1.94 0.9738
0.10 0.5398 0.72 0.7642 1.34 0.9099 1.96 0.9750
0.12 0.5478 0.74 0.7704 1.36 0.9131 1.98 0.9761
0.14 0.5557 0.76 0.7764 1.38 0.9162 2.00 0.9772
0.16 0.5636 0.78 0.7823 1.40 0.9192 2.02 0.9783
0.18 0.5714 0.80 0.7881 1.42 0.9222 2.04 0.9793
0.20 0.5793 0.82 0.7939 1.44 0.9251 2.06 0.9803
0.22 0.5871 0.84 0.7995 1.46 0.9279 2.08 0.9812
0.24 0.5948 0.86 0.8051 1.48 0.9306 2.10 0.9821
0.26 0.6026 0.88 0.8106 1.50 0.9332 2.12 0.9830
0.28 0.6103 0.90 0.8159 1.52 0.9357 2.14 0.9838
0.30 0.6179 0.92 0.8212 1.54 0.9382 2.16 0.9846
0.32 0.6255 0.94 0.8264 1.56 0.9406 2.18 0.9854
0.34 0.6331 0.96 0.8315 1.58 0.9429 2.20 0.9861
0.36 0.6406 0.98 0.8365 1.60 0.9452 2.22 0.9868
0.38 0.6480 1.00 0.8413 1.62 0.9474 2.24 0.9875
0.40 0.6554 1.02 0.8461 1.64 0.9495 2.26 0.9881
0.42 0.6628 1.04 0.8508 1.66 0.9515 2.28 0.9887
0.44 0.6700 1.06 0.8554 1.68 0.9535 2.30 0.9893
0.46 0.6772 1.08 0.8599 1.70 0.9554 2.32 0.9898
0.48 0.6844 1.10 0.8643 1.72 0.9573 2.34 0.9904
0.50 0.6915 1.12 0.8686 1.74 0.9591 2.36 0.9909
0.52 0.6985 1.14 0.8729 1.76 0.9608 2.38 0.9913
0.54 0.7054 1.16 0.8770 1.78 0.9625 2.40 0.9918
0.56 0.7123 1.18 0.8810 1.80 0.9641 2.42 0.9922
0.58 0.7190 1.20 0.8849 1.82 0.9656 2.44 0.9927
0.60 0.7257 1.22 0.8888 1.84 0.9671 2.46 0.9931 91
PROBEST
Aula 10

Alexandre Street

2015.1
1
Testes de Hipóteses
 Muitos problemas práticos exigem que a gente

decida aceitar ou rejeitar alguma afirmação a
respeito de um parâmetro de interesse.
 Esta afirmação é chamada de hipótese estatística
e o procedimento de tomada de decisão é um
teste de hipóteses.
 Muitos problemas reais podem ser formulados
naturalmente como testes de hipóteses.
 Existe uma conexão muito próxima entre
Intervalos de Confiança e Testes de Hipóteses.
 Objetivo geral
 Inferir sobre os parâmetros desconhecidos de
uma população usando uma amostra (de
tamanho possivelmente reduzido).
 Testar hipóteses é um problema que envolve

a tomada de uma decisão. Eventualmente,
após “recolhermos” (ou processarmos) a
informação contida numa amostra, devemos
chegar a uma conclusão sobre parâmetros não
observáveis relacionados à população que
gerou aquela amostra.
 Qual o teste ideal?

 É aquele que sempre toma a decisão correta. É
claro que isso é uma abstração, e não existe
na realidade.
 Na prática ...
 Procuraremos limitar a probabilidade de um
certo tipo de erro, mas não se pode descartá-
lo totalmente.
 O Teste de Hipóteses é um procedimento em que
procuramos testar uma hipótese inicial contra
uma alternativa.
 A primeira hipótese (hipótese inicial) é

denominada hipótese nula e representada por H0.
 A segunda hipótese é chamada hipótese

alternativa e representada por Ha ou H1.
 Em geral a hipótese alternativa representa uma

conjectura nova a ser testada, e a hipótese nula
representa a situação usual, o "status quo".
 A partir dos dados observados, como podemos

decidir sobre qual hipótese (nula ou alternativa)
deverá ser rejeitada?
 A rejeição da hipótese nula implica na aceitação

da hipótese alternativa e vice-versa.
 Não é possível aceitar (ou rejeitar) ambas as

hipóteses simultaneamente.
 O que é um teste de hipóteses?
 É qualquer regra usada para nos levar à

decisão sobre qual hipótese devemos aceitar.
 Podemos criar um número infinito de testes

de hipóteses, o problema é identificar quais
são os bons testes, e tentar obter um
"algoritmo" para criar bons testes em diversas
situações.
 Aqui estaremos concentrados em obter testes de

hipóteses para a média de distribuições.
Construção de um Teste de
Hipóteses
 Teste
 Rejeitar H0 se T(x), uma função apropriada
dos Xi’s da amostra, está numa região
especificada R.
 Do contrário, se T(x) não está na região R, não

rejeitamos a hipótese nula.
 A região R é chamada de região de rejeição ou

região crítica.
Erros do Tipo I e II
 A partir do que foi observado na amostra

podemos tomar a decisão de aceitar ou rejeitar
H0 e esta decisão não é necessariamente
correta, como mostra a tabela a seguir.
Decisão tomada → Aceitar H0 (Rejeitar H1) Rejeitar H0 (Aceitar H1)

Estado da realidade ↓
H0 é verdadeira DECISÃO CORRETA Erro do tipo I (α)
(H1 é falsa)
H1 é verdadeira Erro do tipo II (β) DECISÃO CORRETA
(H0 é falsa)
 A eficiência do teste pode ser medida através

das probabilidades dos erros de tipo I e II.
 Idealmente gostaríamos que a probabilidade de

incorrermos em qualquer tipo de erro fosse
zero, mas isto não é possível .
 Para um tamanho de amostra fixo também não é

possível fixarmos ambos os erros de tipo I e II.
 α = Probabilidade de erro do tipo I

 α = Pr{ rejeitar H0 | H0 é verdadeira }
 α = Pr{ T(x) na região crítica | H0 é verdadeira }
 α é chamado de tamanho do teste ou nível de
significância do teste.
 β = Probabilidade de erro do tipo II

 β = Pr{ aceitar H0 | H0 é falsa }
 β = Pr{ T(x) fora da região crítica| H0 é falsa }
Potência de um Teste
 Potência do teste (ou poder do teste)

 1- β = 1- Probabilidade de erro do tipo II
 1- β = Pr{ rejeitar H0 | H0 é falsa }
 Ou seja, a potência do teste é a

probabilidade de uma decisão correta!
 Idealmente, a potência de um teste seria

sempre alta, mas isso não é sempre
verdade.
Função Potência
 Define-se a função potência como:

 K(θ) = Pr{ rejeitar H0 | o valor do parâmetro é θ}
 O que é uma “boa” função potência?

 Se θ está na região da hipótese nula, a função
potência deve ser pequena (pois não queremos
rejeitar H0 quando ela é verdadeira). Ao contrário,
se θ estiver na região onde a hipótese alternativa
é válida, gostaríamos que a função potência
fosse alta.
Função Característica de
Operação (OCC)
 É definida como:
 J(θ) = 1 – K(θ) = Pr{ aceitar H0 | o valor do
parâmetro é θ }
 Note que, ambas K(θ) e J(θ) são probabilidades, e

portanto limitadas ao intervalo [0,1].
 A OCC é muito utilizada em Controle de

Qualidade, mas não falaremos mais dela aqui
neste curso.
Testes de Hipóteses - intuição
 Suponha que temos uma amostra de tamanho 25

de uma Normal com variância conhecida 100 e
desejamos testar as seguintes hipóteses:
H0 : µ = 2
H1 : µ > 2
 O que a nossa intuição nos diz? A média amostral, X , é
um bom estimador de µ, e portanto deve trazer evidência
sobre qual hipótese (H0 ou H1) é verdadeira. Imagine que
observamos X = 50000. Dados os parâmetros (n = 25 e
variância 100), este parece um número bem exagerado, e
então H0 deve ser falsa. Logo, a nossa intuição parece
apontar para a seguinte regra de decisão:
 Devemos rejeitar H0 se X é grande.

 Ou seja, a região crítica tem a forma:
R = {X ≥ k }
 A questão que surge agora é: como escolher

a constante k? Uma possibilidade é arbitrar
o máximo erro do tipo I, ou seja, a maior
probabilidade de rejeitar H0 quando H0 é
verdadeira.
 Mas, esta probabilidade pode ser escrita em

termos da função potência. Suponha que
FIXAMOS α, a probabilidade do erro do tipo I, isto
é: α = Pr{Rejeitar H H é Verdadeiro} =
0 0
 X −2 k −2 
= Pr{X ≥ k µ = 2} = Pr  ≥ =
 100 / 25 100 / 25 
 k −2
= 1 − Φ 
 2 
 Por exemplo:
α k z (da N(0,1))  k na tabela ao lado
1% 6.65 2.33
5% 5.29 1.64
é o valor a partir do
10% 4.56 1.28 qual rejeita-se a
hipótese nula
 Vamos ver a função potência em cada um dos casos anteriores
Funções Potência para Diversos Valores de Alfa
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0
00
50
00
50
00
50
00
50
00
50
00
50
00
50
00
50
.0
.5
.0
.5
.0
.5
2.
2.
3.
3.
4.
4.
5.
5.
6.
6.
7.
7.
8.
8.
9.
9.
10
10
11
11
12
12
k(mu) - alfa = 1% k(mu) - alfa = 5% k(mu) - alfa = 10%
 Conclusões
 Se α é muito pequeno (erro do tipo I muito
pequeno, p.ex., 1%), a região de rejeição
“exige” um valor de k muito grande para
rejeitar a hipótese nula neste caso, e a função
potência “demora muito” a crescer.
 À medida que passamos a aceitar erros do

tipo I maiores (por ex, 5% ou 10%, a função
potência já começa a rejeitar a hipótese nula
“com mais facilidade”, pois o valor de k
diminui.
 Conclusões
 A título de exemplo, se o valor de µ fosse

5 (e a hipótese nula decididamente falsa!),
as probabilidades de rejeição usando as
funções potência do exemplo seriam
20.4%,44.8% e 58.7% respectivamente.
Testes de Hipóteses uni-caudais
 E agora, o que acontece se estendemos o nosso

teste de hipótese para:
H0 : µ ≤ 2
H1 : µ > 2
 A resposta é: basicamente nada! Por que?
 Considere a função potência para valores de µ
dentro da hipótese nula – estes valores estarão
abaixo do α especificado.
 O próximo gráfico mostra esta idéia para a
função potência com k = 5.29 (isto é, α = 5%)
 Generalização
 Suponha que desejamos testar as seguintes
hipóteses:
H 0 : µ ≤ µ0
H1 : µ > µ 0
 O teste tem exatamente a forma descrita antes,
em que a região de rejeição é:
R = {X ≥ k }
 Como escolher k?
 Através do erro do tipo I (α), previamente
especificado, que leva às seguintes
“receitas de bolo”:
 Rejeitar H0 se:
X − µ0 σ σ conhecido
> zα ⇔ X > µ 0 + zα
σ n n
σ desconhecido e usando a
X − µ0 s hipótese de uma amostra
> zα ⇔ X > µ 0 + zα grande, o que possibilita o
s n n
uso da Normal
 O nível de significância de um teste (α) é

definido como a maior probabilidade de
rejeição de H0 quando H0 é verdadeira.
 Ou seja, o nível de significância é o maior

erro do tipo I cometido pelo teste.
 No exemplo anterior, α é apenas o valor
da função potência em µ = 2.
 Suponha que agora desejamos testar as

seguintes hipóteses:
H 0 : µ ≥ µ0
H1 : µ < µ 0
 Pelos mesmos argumentos que no teste anterior,
faz sentido rejeitar a hipótese nula quando a
média amostral for “pequena”.
 O que é um valor “pequeno”? Vai depender do
nível de significância especificado para o teste,
ou seja, do erro máximo do tipo I.
 “Receita de Bolo”
 Rejeitar H0 se:
X − µ0 σ
< − zα ⇔ X < µ 0 − zα . σ conhecido
σ n n
X − µ0 s σ desconhecido
< − zα ⇔ X < µ 0 − zα .
s n n
 Estes testes são válidos para amostras Normais com variância

conhecida ou para amostras não necessariamente Normais de
tamanho GRANDE e σ desconhecido. Note que estamos usando
zα , que é um ponto obtido da tabela N(0,1).
 Exemplo
 Uma empresa produz café em pó em embalagens de
1 kg. O gerente de produção deseja saber se as
embalagens realmente possuem em média 1 kg do
produto e decidiu realizar um teste.
 Ele retirou uma amostra de 50 embalagens e obteve
uma um peso médio de 0,985 kg de produto.
 Informações anteriores a respeito da quantidade de
produto por embalagem indicaram um desvio-
padrão de 0,075 kg. O gerente deseja saber, com um
nível de significância de 1% se o conteúdo de cada
embalagem é de, no mínimo, 1 kg.
Teste de Hipóteses uni-caudais
 Solução: As hipóteses nula e alternativa para o

teste são:
H0 : µ ≥ 1
Ha : µ < 1
 Para α = 1%, o valor de zα é (a partir da tabela

normal) de 2.33. A região de rejeição é:
σ 0.075
Rejeitar H 0 se X ≤ µ 0 − zα . ⇔ X ≤ 1 - 2.33 = 0.975
n 50
 Como a média amostral (0,985) não é menor que
0.975, a hipótese nula não pode ser rejeitada.
 Se σ não fosse conhecido, deveríamos utilizar o
desvio-padrão da amostra s.
 A região crítica do teste anterior é:

Rejeitar H 0 se X ≤ 0.975
 A função potência deste teste é então:

K (µ ) = Pr (Rejeitar H 0 a média é µ ) =
  X −µ   0.975 − µ  
= Pr (X < 0.975 µ ) = Pr  50   < 50   =
  0.075   0.075  
  0.975 − µ     0.975 − µ     0.975 − µ  
= Pr  Z < 50    = Φ 50    = Φ 50    =
  0.075     0.075     0.075  
= Φ (94.28(0.975 − µ ))
 Pela magnitude dos números envolvidos (tamanho da amostra

grande e desvio padrão pequeno) é intuitivo perceber que
qualquer pequena variação na média amostral levará a grandes
oscilações da função potência, o que pode ser confirmado no
próximo gráfico.
Função Potência - Alfa = 1%
100%
95%
90%
85%
80%
75%
70%
65%
60%
55%
50%
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
0
0
90
91
92
93
94
95
96
97
98
99
00
01
02
03
04
05
06
07
08
09
10
0.
0.
0.
0.
0.
0.
0.
0.
0.
0.
1.
1.
1.
1.
1.
1.
1.
1.
1.
1.
1.
Valor de p (“p value”)
 Muitos softwares estatísticos calculam e exibem o

“p-value”, que é a probabilidade de que a estatística
de teste tenha valor pelo menos tão extremo (muito
grande ou muito pequeno) quanto o valor
encontrado na amostra.
 O “valor-p” (p-value) indica o menor nível de

significância que levaria à rejeição da hipótese nula.
 Por exemplo, se o p-value é 0.04, a hipótese H0 seria

rejeitada com nível 5%, mas não com nível 1%.
 Uma outra forma para realizar o teste de

hipótese é através do “p value”.
 A hipótese nula é rejeitada se essa

probabilidade (“p value”) for menor que o
nível de significância definido para o teste
Rejeitar H 0 se " p value" < α
Teste de hipótese bi-caudal
 Agora vamos desenvolver um teste de hipótese
bi-caudal, para uma amostra grande (n ≥ 30) e σ
da população conhecido
H 0 : µ = µ0
H a : µ ≠ µ0
 O nível de significância α é tal que, se a

hipótese nula for falsa, queremos ter uma
probabilidade máxima α de aceitá-la, isto
é, queremos cometer uma probabilidade
especificada de erro do tipo I.
 Mas, intuitivamente, qual a “cara” da região

crítica? Devemos rejeitar H0 quando estivermos
“longe” de µ0, ou seja, quando o módulo da
média amostral estiver muito distante de µ0.
 Suponha inicialmente que a hipótese nula seja

verdadeira. Para uma amostra grande, podemos
considerar a distribuição da média amostral
como praticamente Normal (pelo teorema central
do limite).
 Agora, dado um nível de significância α, devemos
considerar dois valores de Z
 Um, abaixo do qual há uma probabilidade α/2 da
média de uma amostra estar localizada (– zα/2)
 Outro, acima do qual há uma probabilidade α/2
da média de uma amostra estar localizada (zα/2)
 A regra de rejeição é:
X − µ0
Rejeitar H 0 se Z = < − zα / 2 ou Z > zα / 2
σ n
 Ou seja, em termos da média amostral, a região

crítica pode ser descrita como:
σ σ
Rejeitar H 0 se X < µ 0 − zα / 2 ou se X > µ 0 + zα / 2
n n
 Isto é, rejeita-se a hipótese nula se a média
amostral estiver “longe” de µ0.
 Note que, analogamente ao teste uni-caudal, α é

o nível de significância do teste, isto é, o maior
erro do tipo I.
 Mas, como aqui rejeita-se a hipótese nula
dos dois lados, o ponto usado da Normal
é zα/2 e não zα (que era usado nos testes
uni- caudais), de tal forma que Pr(Z > zα/2 )
= α/2.
 “Receita de Bolo” – pontos percentuais da
distribuição N(0,1) para testes bi-caudais
Testes Bi-caudais
α z
1% 2.576
5% 1.960
10% 1.645
 Exemplo
 Um fabricante de autopeças utiliza esferas de aço
na fabricação de rolamentos. Essas esferas
devem ter um diâmetro de 12 mm, caso contrário
os rolamentos não atingem as especificações
exigidas.
 Uma amostra de 30 rolamentos escolhidos ao
acaso forneceu um diâmetro médio de 11,45 mm
e um desvio-padrão de 1 mm.
 Pode-se dizer que o diâmetro médio dos
rolamentos utilizados é igual a 12 mm com um
nível de significância de 5%?
 Solução: este é um teste de hipótese bi-caudal,

com α = 0.05, onde:
H 0 : µ = 12
H a : µ ≠ 12
 Para α = 0,05, z α/2 = 1,96

X − µ 11.45 − 12
 Para X = 11,45mm, temos: Z = = = −3.01
σ/ n 1 / 30
E portanto podemos rejeitar a hipótese nula. Note que

rejeitar a hipótese nula para Z < - 1,96 é completamente
equivalente à rejeitá-la para:
1
X < 12 − 1.96
30
 A região crítica neste exemplo é:
1 1
Rejeitar H 0 se X < 12 − 1.96 ou se X > 12 + 1.96
30 30
Isto é, rejeitar H 0 se : X < 11.64 ou X > 12.36
 A função potência é, neste caso (verifique!):

 30   30 
K (µ ) = Φ
 (12 − µ ) − 1.96  + 1 − Φ
  (12 − µ ) + 1.96 
 1   1 
 O gráfico desta função potência é mostrado na próxima

página. Note que a potência (probabilidade de rejeitar a
hipótese nula) cresce à medida que nos afastamos de µ =
12 e, em µ = 12, o valor da função potência é exatamente o
erro do tipo I, estipulado em 5%.
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
10
.0
0
10
.1
0
10
.2
0
10
.3
0
10
.4
0
10
.5
0
10
.6
0
10
.7
0
10
.8
0
10
.9
0
11
.0
0
11
.1
0
11
.2
0
11
.3
0
11
.4
0
11
.5
0
11
.6
0
11
.7
0
11
.8
0
11
.9
0
12
.0
0
12
Função Potência - Teste bi-caudal
.1
0
12
.2
0
12
.3
0
12
.4
0
12
.5
0
12
.6
0
12
.7
0
12
.8
0
12
.9
0
13
.0
0
42
Teste de hipótese – amostra
pequena
 Até o momento, consideramos o caso de uma
amostra grande (n ≥ 30)
 Para n < 30 existem as seguintes possibilidades:

 A população é Normal e σ é conhecido: utilizamos o
mesmo procedimento que para o caso de n ≥ 30, com σ
conhecido (use a distribuição Normal)
 A população é normalmente distribuída e σ não é
conhecido: utilizamos o mesmo procedimento que para
o caso de n ≥ 30, utilizando s como estimador de σ e a
distribuição t ao invés da Normal
 A população não é normalmente distribuída:
aumentamos o tamanho da amostra pois não é possível
usar uma aproximação Normal.
pequena
 Exemplo
 Uma revista decidiu realizar uma pesquisa sobre a
qualidade de serviço em grandes aeroportos ao redor do
mundo.
 O nível de serviço de um aeroporto é considerado superior
se a nota obtida é igual ou superior a 7. Para o aeroporto de
Heathrow, em Londres, foram entrevistadas 12 pessoas
que atribuíram as seguintes notas: 7, 8, 10, 8, 6, 9, 6, 7, 7, 8,
9, e 8.
 Determine, com um nível de significância de 5%, se o
serviço do aeroporto de Heathrow pode ser considerado
superior. Suponha que a população é normalmente
distribuída.
pequena
 Solução: As hipóteses nula e alternativa para o
teste são:
H0 : µ < 7
Ha : µ ≥ 7
 Com uma população normal, n < 30 e σ desconhecido,
utilizaremos s e a distribuição t com 11 graus de liberdade para
o teste.
 A média da amostra é 7,75 e s = 1,215
 O valor de tα para o teste é 1,796
 A regra de rejeição é:
x − µ0 7,75 − 7
Rejeita H 0 se t = > tα ⇒ t = = 2,14 > tα = 1,796
s n 1,215 12
 Logo, existe evidência para rejeitar a hipótese nula!
pequena
 Exemplo
 Historicamente, a comissão média paga por
pessoas físicas para operações em bolsa de
valores através de internet numa corretora é
R$15.
 Neste mês você fez uma pesquisa com 16
clientes da corretora e notou que a comissão
média foi de R$ 10 e o desvio padrão R$ 6. Com
nível de significância 10%, há evidência para
afirmar que a comissão neste mês foi mais baixa
que historicamente? E com nível de significância
5%? Suponha que os valores pagos são
Normalmente distribuídos.
pequena
 Desejamos testar as hipóteses:
H 0 : µ = 15
H1 : µ < 15
 A região crítica tem a forma: rejeitar H0 se a
média amostral é pequena, e como o tamanho da
amostra é pequeno devemos usar a distribuição t
de Student. s
Rejeitar H 0 se X ≤ µ 0 − t n −1,α .
n
Ou seja :
6
Rejeitar H 0 se X ≤ 15 - t n −1,α .
16
Rejeitar H 0 se X ≤ 15 − t15,α (1.5)
pequena
 Do Excel:
 Para o teste com nível 5% usamos t15,0.05 =
INVT(0.10,15) = 1.753
 Para o teste com nível 1% usamos t15,0.01 =
INVT(0.02,15) = 2.602
 Região crítica a 5%:
s
Rejeitar H 0 se X ≤ µ 0 − t n −1,α .
n
Ou seja :
6
Rejeitar H 0 se X ≤ 15 - t n −1,α .
16
Rejeitar H 0 se X ≤ 15 − t15,α (1.5)
Teste de hipótese – exercício 1
(para casa)
 Uma amostra de 50 botas usadas por soldados em
uma operação numa região de deserto apresentou
uma vida média de 1,24 anos e desvio padrão de 0,55
anos.
 Por outro lado, em situações normais o tempo médio
de vida nominal destas botas é 1,40 anos.
 Podemos afirmar, do nível de significância de 5% que
a utilização destas botas no deserto diminui o seu
tempo de vida?
Resposta:
Como[ Z = −2,057] < [ Z 0 = −1,645]
Rejeita H0 ao nível de significância de 5%.
(para casa)
 Uma amostra de 9 medidas de participação de
manganês numa liga de ferro-manganês apresentou
média de 84% e desvio padrão de 1,2%.
 Assumindo que a distribuição populacional da
participação do manganês na liga é NORMAL com
média 80.
 Teste ao nível de 5% que esta participação de
manganês é superior a 80%.
Resposta:
Como[T = 10] > [t0 = 1,86]
(para casa)
 A performance nominal de uma ferramenta de
corte é de 2000 peças cortadas por vida útil.
 Uma amostra de 6 destas ferramentas apresentou
performance em suas vidas úteis de 2010, 1980,
1920, 2005, 1975 e 1950 peças cortadas.
 Teste, ao nível de significância de 1% se esta
performance nominal é inferior a 2000 peças
cortadas.
Resposta:
Como[T = −1,921] > [t0 = −3,365]
Aceita H0 ao nível de significância de 1%.
(para casa)
 Uma amostra aleatória de 100 pneus produzida
por uma fábrica apresentou duração média de
32.000 km com desvio padrão de 2000 km. .
 Teste se o tempo médio de vida dos pneus é de
30.000 km conforme afirma o fabricante, os níveis
de 1% e 10%.
Resposta:
Como[ Z = 10] > [ Z 0 = 2,578]
Como[ Z = 10] > [ Z 0 = 1,645]
Revisão – Teste de média para
grandes amostras (n≥30)
 Suposições: Xi ~ N (µ, σ2 )
 Então, para X = (Xi,...,Xn) a.a. (n)

σ 
2

x ~ N µ;  ∴ σ é conhecido
2
 n 
 
 2


x ~ N µ; s  ∴ σ é desconhecido
2
 n
 
 Hipótese nula:
H 0 : µ = µ0
 Estatística do teste:
x − µ0 x − µ0
Z= ~ N (0,1) ou Z = ~ N (0,1)
σ s
n n
 Hipóteses alternativas:
H1 : µ ≠ µ 0 H1 : µ > µ 0 H1 : µ < µ 0
( Bicaudal ) (Unicaudal ) (Unicaudal )
Regiões criticas para os 3 casos; ao nível de
significância de (1-α). Verificamos o valor de Z nas
regiões criticas:
1-α 1-α
1-α
Exemplo 1:
O comprimento de parafusos produzidos

por uma máquina tem média nominal do
fabricante de 1,5020 cm. Uma amostra de
100 parafusos (desta máquina), forneceu
uma média amostral de 1,5032 cm e
desvio padrão de 0,0050 cm. Verificar, aos
níveis de 5% e 1% se a média nominal se
mantém.
Solução Exemplo 1:
 Suposições:
 v.a. comprimento dos parafusos: Xi ~ N (µ, σ2 )
 Desvio padrão nominal conhecido: σ = 0,005
H 0 : µ = 1,5020 H1 : µ ≠ 1,5020
x − µ0
Z= ~ N (0,1)
s
n
Solução Exemplo 1:
 Substituindo:
1,5032 − 1,5020
Z= −4
= 2,4
5 x10
 Regiões críticas:
α = 1% α = 5%
Como: Z = 2,4 > 1,96, então, Rejeita H0 ao nível de 5%

Z = 2,4 < 2,57, então, Aceita H0 ao nível de 1%
Exemplo 2:
Uma substancia contém 25% de certo

elemento em sua composição. Uma amostra
de 50 destas substancia foram analisadas
para estimar o percentual deste elemento.
Tem sido encontrado uma média de 25,2% e
um desvio padrão amostral de 1%. Pode-se
então dizer que a participação deste
elemento na substancia é superior aos 25%
nominais (ao nível de 5%)?
Solução exemplo 2:
 Suposições:
 v.a. participação do elemento: Xi ~ N (µ, σ2 )
Dados:
x = 25,2% s = 1% n = 50
H 0 : µ = 25% H1 : µ > 25% (unilateral )
x − µ0
Z= ~ N (0,1)
s
n
25,2 − 25
Z= = 1,41
1
50
 Decisão:
α = 5%
Como Z=1,41 < 1,645
Então, Aceita H0 ao
nível de 5%
1,645
Teste de Hipóteses para:
Diferença entre duas
médias
Teste de diferencia de
médias
Seja as v.a. X e y independentes
X ~ N (µx, σx2 ) e Y ~ N (µY, σY2 )
Se X e Y são independentes, então a v.a. D = X-Y é tal

que:
D~N (µ − µ ;σ + σ )
X Y
2
X
2
Y
Se X= a.a. (nX) de X e Y = a.a. (nY) de Y, então:

 
( ) ( σ
 2
) σ
2
x − y ~ N  µ − µ ;  X + Y 
 X Y n n 
  X Y 
médias
 Teste de Hipóteses:
H 1 : µ X ≠ µY
H 0 : µ X = µY Contra H 1 : µ X > µY
H 1 : µ X < µY
A estatística, caso as variâncias sejam
conhecidas, do teste seria:
( x − y ) − ( µ x − µY )
Z= ~ N (0,1)
σ +σ
2 2
x Y
nx nY
médias
E, sob a hipótese nula (µ = µ ): X Y
( x − y)
Z= ~ N (0,1)
σ +σ
2 2
x Y
nx nY
médias
Caso as variâncias σ 2 e σ 2 não sejam
x Y
conhecidas, a estatística do teste seria:

x� a − x� b − (µa – µb)
t=
na + nb
Sc ∙
na ∙ nb
Onde o desvio padrão comum (Sc) é calculado pela
expressão:
na − 1 ∙ Sa2 + nb − 1 ∙ Sb2
Sc =
na + nb − 2
Exemplo 3:
Duas máquinas A e B produzem parafusos
teoricamente idênticos. Uma amostra de
tamanho 100 da máquina A apresentar média
2,0413 cm e desvio padrão 0,0064 cm. Outra
amostra de tamanho 200 da máquina B
apresentou média 2,0433 cm e desvio padrão
0,0058 cm.
Esta diferencia das médias produzidas pelas
duas máquinas e significante ao nível de α =
1%?
 Suposições:
( )
x B ~ N µB ; sB
2
~ N (µ ; s )
2
xA A A
 Dados:
n A = 100
nB = 200
 Quer-se testar:
H 0 : µ A = µB
H1 : µ A ≠ µ B
x� a − x� b − (µa – µb) 2,0413 − 2,0433 − 0
t= =
na + nb 100 + 200
Sc ∙ Sc ∙
na ∙ nb 100 ∙ 200
99 ∙ 0,00642 + 199 ∙ 0.00582

Sc =
100 + 200 − 2
Sc = 0,0060059
2,0413 − 2,0433 − 0
t=
100 + 200
0,0060059 ∙
100 ∙ 200
𝐭 = −𝟐, 𝟕𝟕
𝐭 = −𝟐, 𝟕𝟕
 Decisão (Tabela Normal, pois, o valor do grau de

liberdade foi maior do que 30):
α = 1% Como -2,72 < -2,57
Então, H0 é rejeitada!!
para o nível de 1%
Variância de uma
população normal
Teste de Hipótese para a Variância de
uma População Normal
 Suposição:
Seja X ~ N (µ, σ2 )
 Queremos testar a seguinte hipótese nula simples:
H0 :σ = σ
2 2
0
 Conta as possíveis alternativas:

σ 2 ≠ σ 02
H1 : σ 2 > σ 02
σ 2 < σ 02
 Seja X̰ = (X1, X2,..., Xn ) uma aa (n) da v.a. X͂.
 Estatística do Teste : ‫ *א‬dada por:
χ *
=
(n − 1).S 2
σ 02
Onde S² é a variância amostral estimada por:
∑ (X )
n
∑X
n
2
i −X i
S2 = i =1 X= i =1
(n − 1) n
 Regra de Decisão:
(χ *
)
H 0 verd ~ χ 2 (n − 1)
 Exemplo:
H 0 :σ = σ 0 H1 : σ ≠ σ 0
2 2 2 2
Contra
 Decisão ao nível de α %:
(α 2 ) %
(α 2 ) %
Região de Aceitação H0
Região de Rejeição H0
H 0 : σ 2 = σ 02 contra H1 : σ > σ 0
2 2
 Decisão ao nível de α %:
(α ) %
Região de Aceitação H0 Região de Rejeição H0
Obs.: Caso H1 : σ < σ 0 então:

2 2
(α ) %
Região de Rejeição H0 Região de Aceitação de H0
Variância de duas populações
Normais (Teste F)
Teste de variância de duas
populações Normais (Teste F)
 Teste para verificar se as variâncias de duas
populações normais são iguais. Deve ser
usado antes de testar se as médias são
iguais.
 Suposições:
X ~ N (µx, σx2 ) e Y ~ N (µY, σY2 )
X e Y são independentes e X= a.a. (nX) de X e Y = a.a.

(nY)
Teste de variância de duas
populações Normais(Teste F)
 Teste de Hipóteses:
H 0 :σ X = σ Y H1 : σ X ≠ σ Y (> ou <)
2 2 2 2
Contra
Se SX2 e SY2 são as variâncias amostrais de X e Y,

então, a estatística: 2
f = s X
2
s X
 Decisão
( f / H 0 Verd ) ~ F (υ X ;υY ) ∴ υ X = n X − 1 ; υY = nY − 1
Exemplo 4:
Tem-se duas amostras A e B com valores
e tamanho n =n =10 A B
A 50,8 51,0 49,5 52,1 51,8 47,4 51,5 48,2 49,0 48,0
B 49,3 48,9 49,2 50,0 48,8 49,5 49,2 49,6 48,8 47,5
Teste a hipótese de nível α = 5%:
H 0 :σ A = σ B H1 : σ A ≠ σ B
2 2 2 2
Contra
 Suposições:
( )
A ~ N µ A ;σ A
2
B ~ N (µ ;σ )
2
B B
Estimando as médias e variâncias de A e B,

obtem-se:
X A = 49,93 ; S A2 = 2,97 ; X B = 49,08 ; S B2 = 0,451
Estatística do teste:
2
f = s X
=
2,97
= 6,59
2
s 0,451
X
 Decisão:
( f / H 0 Verdadera) ~ F (υ X = 9 ; υY = 9)
Como f = 6,59 > 4,03
2,5% Então, H0 é rejeitada!!

2,5%
o nível de 5%
1 / 4,03 4,03 (da Tabela F)
Observação: Fα (υ X ,υY ) ≡ 1
F1−α (υ X ,υY )
Tabela F (α=2,5%) :
Graus de Graus de
liberdade do liberdade do
denominador numerador
Teste de hipótese – exercício 5(para casa)
 Quer-se testar dois métodos de aprendizados de estatística
entre estudantes de pós-graduação. Para tal, foram
selecionados aleatoriamente dois grupos de 50 alunos e
ambos foram submetidos ao teste de avaliação.
 O grupo “A” apresentou nota média de 120 pontos e um
desvio padrão de 12 pontos, enquanto o grupo “B”
apresentou média de 112 pontos de 9 pontos.
 Se MU(A) é a média verdadeira do desempenho do grupo
“A” e MU(B) do grupo “B”, teste aos níveis de 1% e 5% que
MU(A)-MU(B) contra a alternativa MU(A)≠MU(B).
Resposta:
Como[ Z = 3,73] > [ Z 0 = 2,578]
Como[ Z = 3,73] > [ Z 0 = 1,96]
 Uma indústria desenvolveu e implantou um novo programa
de prevenção de acidentes. Para tal foram coletados de oito
filiais desta indústria o número de horas perdidas na
empresa devido a acidente de trabalho durante 1 ano,
conforme tabela abaixo:
Filial 1 2 3 4 5 6 7 8
Antes do
38,5 69,2 15,3 9,7 120,9 47,6 78,8 52,1
programa
Depois do
28,7 62,2 28,9 0 93,5 49,6 86,5 40,2
programa
Resposta:
Como[T = 0,295] < [t0 = 2,624]
Como[T = 0,295] < [t0 = 1,761]
 Tem-se dois aparelhos para medir a pressão arterial de
pacientes. Para testá-los, mediu-se com dois aparelhos as
pressões de 10 pacientes, obtendo-se:
Paciente 1 2 3 4 5 6 7 8 9 10
Pressão
13,6 11,5 14,2 14,0 12,3 14,7 13,3 15,0 13,8 14,8
"A"
Pressão
14,1 11,7 14,1 14,5 12,7 14,6 13,5 15,2 13,5 15,1
"B"
Resposta:
Como[T = −0,346] > [t0 = −2,878]
Como[T = −0,346] > [t0 = −2,101]
 O peso de sacos de trigo comercializado por uma
fábrica é especificado como uma v.a. Normal com
Variância Nominal de 1,5 Kg². Pegou-se uma amostra
de 10 sacos e a Variância Estimada nesta amostra foi
de 3 Kg².
 Podemos dizer aos níveis de 1% e 5% que a Variância
Nominal aumentou? Ou seja, testar a hipótese:
Resposta:
Como[ χ 2 = 18] < [ χ 02,99 (9) = 21,7]
Como[ χ 2 = 18] > [ χ 02,95 (9) = 16,92]
TABELA DISTRIBUIÇÃO F
Z0
σZ
μ X
z φ(z) z φ(z) z φ(z) z φ(z)

0.00 0.5000 0.62 0.7324 1.24 0.8925 1.86 0.9686
0.02 0.5080 0.64 0.7389 1.26 0.8962 1.88 0.9699
0.04 0.5160 0.66 0.7454 1.28 0.8997 1.90 0.9713
0.06 0.5239 0.68 0.7517 1.30 0.9032 1.92 0.9726
0.08 0.5319 0.70 0.7580 1.32 0.9066 1.94 0.9738
0.10 0.5398 0.72 0.7642 1.34 0.9099 1.96 0.9750
0.12 0.5478 0.74 0.7704 1.36 0.9131 1.98 0.9761
0.14 0.5557 0.76 0.7764 1.38 0.9162 2.00 0.9772
0.16 0.5636 0.78 0.7823 1.40 0.9192 2.02 0.9783
0.18 0.5714 0.80 0.7881 1.42 0.9222 2.04 0.9793
0.20 0.5793 0.82 0.7939 1.44 0.9251 2.06 0.9803
0.22 0.5871 0.84 0.7995 1.46 0.9279 2.08 0.9812
0.24 0.5948 0.86 0.8051 1.48 0.9306 2.10 0.9821
0.26 0.6026 0.88 0.8106 1.50 0.9332 2.12 0.9830
0.28 0.6103 0.90 0.8159 1.52 0.9357 2.14 0.9838
0.30 0.6179 0.92 0.8212 1.54 0.9382 2.16 0.9846
0.32 0.6255 0.94 0.8264 1.56 0.9406 2.18 0.9854
0.34 0.6331 0.96 0.8315 1.58 0.9429 2.20 0.9861
0.36 0.6406 0.98 0.8365 1.60 0.9452 2.22 0.9868
0.38 0.6480 1.00 0.8413 1.62 0.9474 2.24 0.9875
0.40 0.6554 1.02 0.8461 1.64 0.9495 2.26 0.9881
0.42 0.6628 1.04 0.8508 1.66 0.9515 2.28 0.9887
0.44 0.6700 1.06 0.8554 1.68 0.9535 2.30 0.9893
0.46 0.6772 1.08 0.8599 1.70 0.9554 2.32 0.9898
0.48 0.6844 1.10 0.8643 1.72 0.9573 2.34 0.9904
0.50 0.6915 1.12 0.8686 1.74 0.9591 2.36 0.9909
0.52 0.6985 1.14 0.8729 1.76 0.9608 2.38 0.9913
0.54 0.7054 1.16 0.8770 1.78 0.9625 2.40 0.9918
0.56 0.7123 1.18 0.8810 1.80 0.9641 2.42 0.9922
0.58 0.7190 1.20 0.8849 1.82 0.9656 2.44 0.9927
0.60 0.7257 1.22 0.8888 1.84 0.9671 2.46 0.9931 91
SÉRIE: Estatística Básica
Texto 4: TESTES DE HIPÓTESES
SUMÁRIO
1. INTRODUÇÃO .................................................................................................................................................................. 3
1.1. GENERALIDADES ........................................................................................................................................................... 3
1.2. METODOLOGIA DO TESTE DE HIPÓTESES ........................................................................................................................ 3
1.3. AS HIPÓTESES................................................................................................................................................................ 3
1.4. A ESCOLHA DO TESTE ESTATÍSTICO ............................................................................................................................... 4
1.5. CONCEITOS ADICIONAIS DO TESTE DE HIPÓTESES .......................................................................................................... 4
1.6. A DISTRIBUIÇÃO AMOSTRAL.......................................................................................................................................... 7
1.7. TESTES ESTATÍSTICOS PARAMÉTRICOS .......................................................................................................................... 7
1.8. ETAPAS DO TESTE DE HIPÓTESES ................................................................................................................................... 7
2. TIPOS DE TESTES PARAMÉTRICOS.......................................................................................................................... 9
2.1. TESTES PARA UMA AMOSTRA ........................................................................................................................................ 9
2.1.1. Teste para a média de uma população................................................................................................................. 9
2.1.2. Teste para a proporção ...................................................................................................................................... 11
2.1.3. Teste para a variância........................................................................................................................................ 12
2.2. TESTES PARA DUAS AMOSTRAS INDEPENDENTES ......................................................................................................... 13
2.2.1. Teste para a igualdade entre as variâncias de duas populações ....................................................................... 13
2.2.2. Teste para a diferença entre duas médias populacionais................................................................................... 15
2.3. DUAS AMOSTRAS RELACIONADAS (DEPENDENTES) ..................................................................................................... 19
2.3.1. Teste para a diferença entre duas proporções ................................................................................................... 20
3. EXERCÍCIOS .................................................................................................................................................................. 22
4. RESPOSTAS .................................................................................................................................................................... 27
5. REFERÊNCIAS ............................................................................................................................................................... 29
Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 2

1. INTRODUÇÃO
1.1. GENERALIDADES
Um dos principais assuntos da Estatística moderna é a inferência estatística. A inferência
estatística é dividida em dois grandes tópicos: a estimação de parâmetros e os testes de hipóteses.
No desenvolvimento dos métodos da estatística moderna, as primeiras técnicas de inferência
que apareceram foram as que faziam diversas hipóteses sobre a natureza da população da qual se
extraíram os dados. Como os valores relacionados com a população são denominados “parâmetros”,
tais técnicas estatísticas foram denominadas de paramétricas.
1.2. METODOLOGIA DO TESTE DE HIPÓTESES

Nas ciências do comportamento, efetua-se levantamentos a fim de determinar o grau de
aceitação de hipóteses baseadas em teorias do comportamento. Formulada uma determinada hipótese
particular é necessário coletar dados empíricos e com base nestes dados decide-se então sobre a
validade ou não da hipótese. A decisão sobre a hipótese pode levar a rejeição, revisão ou aceitação da
teoria que a originou.
Para se chegar a conclusão que uma determinada hipótese deverá ser aceita ou rejeitada,
baseado em um particular conjunto de dados, é necessário dispor de um processo objetivo que permita
decidir sobre a veracidade ou falsidade de tal hipótese.
A objetividade deste processo deve ser baseada na informação proporcionada pelos dados, e
como estes dados, em geral, envolvem apenas parte da população que se pretende atingir, no risco que
se está disposto a correr de que a decisão tomada não esteja correta.
A metodologia para a decisão sobre a veracidade ou falsidade de uma determinada hipótese
envolve algumas etapas.
1. Definir a hipótese de igualdade (H0).
2. Escolher a prova estatística (com o modelo estatístico associado) para tentar rejeitar H0.
3. Definir o nível de significância (α) e um tamanho de amostra (n).
4. Determinar (ou supor determinada) a distribuição amostral da prova estatística sob a
hipótese de nulidade.
5. Definir a região de rejeição.
6. Calcular o valor da prova estatística, utilizando os valores obtidos na(s) amostra(s). Se tal
valor estiver na região de rejeição, rejeitar, então a hipótese nula, senão a decisão será que
a hipótese nula não poderá ser rejeitada ao nível de significância determinado.
1.3. AS HIPÓTESES
Uma hipótese estatística é uma suposição ou afirmação que pode ou não ser verdadeira,
relativa a uma ou mais populações. A veracidade ou falsidade de uma hipótese estatística nunca é
conhecida com certeza, a menos que, se examine toda a população, o que é impraticável na maior parte
das situações.
Desta forma, toma-se uma amostra aleatória da população de interesse e com base nesta
amostra é estabelecido se a hipótese é provavelmente verdadeira ou provavelmente falsa. A decisão de
que a hipótese é provavelmente verdadeira ou falsa é tomada com base em distribuições de
probabilidade denominadas de “distribuições amostrais”. Em estatística trabalha-se com dois tipos de
hipótese.

A hipótese nula é a hipótese de igualdade. Esta hipótese é denominada de hipótese de

nulidade e é representada por H0 (lê-se h zero). A hipótese nula é normalmente formulada com o
objetivo de ser rejeitada. A rejeição da hipótese nula envolve a aceitação de outra hipótese denominada
de alternativa. Esta hipótese é a definição operacional da hipótese de pesquisa que se deseja
comprovar. A natureza do estudo vai definir como deve ser formulada a hipótese alternativa. Por
exemplo, se o teste é do tipo paramétrico, onde o parâmetro a ser testado é representado por θ, então a
hipótese nula seria: H0 : θ = θ0 e as hipóteses alternativas seriam:
H1 : θ = θ1 (Hipótese alternativa simples) ou
H1: θ ≠ θ0 ; θ > θ0 ou θ < θ0. (Hipóteses alternativas compostas)
No primeiro caso, H1: θ ≠ θ0, diz-se que o teste é bilateral (ou bicaudal), se H1: θ > θ0, diz-se
que o teste é unilateral (ou unicaudal) à direita e se H1: θ < θ0, então, diz-se que o teste é unilateral (ou
unicaudal) à esquerda.
1.4. A ESCOLHA DO TESTE ESTATÍSTICO

Existem inúmeros testes estatísticos tanto paramétricos quanto não paramétricos. Alguns itens
devem ser levados em conta na escolha da prova estatística para determinada situação. A maneira
como a amostra foi obtida, a natureza da população da qual se extraiu a amostra e o tipo de
mensuração ou escala empregado nas definições operacionais das variáveis envolvidas, isto é, o
conjunto de valores numéricos e ainda o tamanho da amostra disponível.
Uma vez determinados a natureza da população e o método de amostragem ficará estabelecido
o modelo estatístico. Associado a cada teste estatístico tem-se um modelo estatístico e condições de
mensuração, o teste é válido sob as condições especificadas no modelo e pelo nível da escala de
mensuração. Nem sempre é possível verificar se todas as condições do modelo foram satisfeitas e neste
caso tem-se que admitir que estas condições foram satisfeitas. Estas condições do modelo estatístico
são denominadas suposições ou hipóteses do teste. Qualquer decisão tomada através de um teste
estatístico somente terá validade se as condições do modelo forem válidas.
É óbvio que quanto mais fracas forem as suposições do modelo mais gerais serão as
conclusões. No entanto, as provas mais poderosas, isto é, as que apresentam maior probabilidade de
rejeitar H0 quando for falsa, são as que exigem as suposições mais fortes ou mais amplas.
1.5. CONCEITOS ADICIONAIS DO TESTE DE HIPÓTESES

Além dos conceitos já vistos para o teste de hipóteses é necessário ainda definir os erros
envolvidos e as regiões de rejeição e de aceitação.
Para ilustrar estes conceitos será suposto o seguinte teste a ser feito: Dispõem-se de duas
moedas com aparência idêntica, só que uma (M1) é equilibrada, isto é, P(Cara) = P(Coroa) = 50%,
enquanto que a outra (M2) é viciada de tal forma que favorece cara na proporção de 80%, ou seja,
P(Cara) = 80% enquanto que P(Coroa) = 20%. Supõem-se que uma das moedas é lançada e que com
base na variável X = número de caras, deve-se decidir qual delas foi lançada. Neste caso o teste a ser
feito envolve as seguintes hipóteses:
H0: A moeda lançada é a equilibrada (M1), ou seja, p = 50%
H1: A moeda lançada é a viciada (M2), ou seja p = 80%, onde “p” é a proporção de caras.
Tem-se que tomar a decisão de apontar qual foi a moeda lançada, baseado apenas em uma
amostra, por exemplo 5 lançamentos, de uma população infinita de lançamentos possíveis. A decisão, é
claro, estará sujeita a erros, pois se está tomando a decisão em condições de incerteza.

A decisão será baseada nas distribuições amostrais das duas moedas. A tabela 01 mostra as
probabilidades de se obter os valores: 0, 1, 2, 3, 4 e 5, da variável X = número de caras, em 5
lançamentos de cada uma das moedas.
Tabela 01 - Probabilidades de se obter cara em 5 lançamentos de uma moeda
x P(X = x) sob H0 P(X = x) sob H1
0 1/32 → 3,125% 1/3125 → 0,032%
1 5/32 → 15,625% 20/3125 → 0,640%
2 10/32 → 31,250% 160/3125 → 5,120%
3 10/32 → 31,250% 640/3125 → 20,480%
4 5/32 → 15,625% 1280/3125 → 40,960%
5 1/32 → 3,125% 1024/3125 → 32,768%
Total 1 → 100% 1 → 100%
Para poder aceitar ou rejeitar H0 e como conseqüência, rejeitar ou aceitar H1, é necessário
estabelecer uma regra de decisão, isto é, é necessário estabelecer para que valores da variável X vai-se
rejeitar H0, ou seja, afirmar H1, e para que valores da variável X, vai-se aceitar H0, ou seja, nesta
situação particular, afirmar H0.
Desta forma, estabelecendo-se que se vai rejeitar H0, se a moeda lançada der um número de
caras igual a 3, 4 ou 5, pode-se então determinar as probabilidades de tomar as decisões corretas ou as
probabilidades dos erros envolvidos. Assim o conjunto de valores que levará a rejeição da hipótese
nula será denominado de região crítica (RC) e, neste caso, este conjunto é igual a: RC = { 3, 4, 5 }
A faixa restante de valores da variável é denominada de região de aceitação (RA) e, neste
caso, este conjunto vale: RA = { 0, 1, 2 }
Evidentemente esta regra como qualquer outra permitirá decidir sob a H0, mas estará sujeita a
erro. Está se tomando a decisão de aceitar ou rejeitar H0 com base no número X de caras obtidas em 5
lançamentos, que é apenas uma amostra, muito pequena, do número infinito de lançamentos possíveis.
Com base em resultados amostrais, não é possível tomar decisões definitivamente corretas.
Entretanto, pode-se calcular a probabilidade da decisão estar errada. Neste caso foi decidido rejeitar H0
se X = “número de caras” assumir um dos valores do conjunto RC. No entanto, tais valores podem
ocorrer sob H0, isto é, tais valores podem ocorrer quando se lança a moeda M1, conforme tabela. Então
se H0 for rejeitada porque X assumiu o valor 3, 4 ou 5, pode-se estar cometendo um erro. A
probabilidade deste erro é igual a probabilidade de ocorrência destes valores sob H0, isto é, quando a
moeda M1 é lançada, que é conforme tabela igual a:
10/32 + 5/32 + 1/32 = 16/32 = 50%
Lembrando que rejeitar H0 é apenas uma das duas situações possíveis num teste de hipóteses,
tem-se que se X assumir um valor do conjunto RA se aceitará Ho. Mas tais valores podem ocorrer sob
H1, isto é, quando a moeda M2 é lançada. Então se Ho for aceita porque X assumiu um dos valores: 1, 2
ou 3, pode-se estar cometendo um outro tipo de erro, cuja probabilidade é igual a da ocorrência destes
valores sob H1 que é de: 1/3125 + 20/3125 + 160/3125 = 181/3125 = 5,79%
A probabilidade de que a variável (número de caras) assuma um valor do conjunto RC é
denominada de nível de significância do teste. O nível de significância do teste é, na realidade, a
probabilidade de se rejeitar a hipótese nula, quando ela é verdadeira, sendo então a probabilidade de se
cometer um erro. Como este é apenas um dos dois tipos de erro possível de ser cometido num teste de
hipóteses, ele é denominado de erro do tipo I. O outro tipo de erro possível de ser cometido é aceitar

H0 quando ela é falsa e é denominado de erro do tipo II. Em resumo pode-se ter as seguintes situações
em um teste de hipóteses:
Tabela 02 - Possibilidades envolvidas em um teste de hipóteses
Decisão Aceitar H0 Rejeitar H0

Realidade
Decisão correta Erro do Tipo I
H0 é verdadeira 1 - α = P(Aceitar H0 / H0 é V) = α = P(Erro do tipo I) =
P(H0 / H0) P(Rejeitar H0 / H0 é V) = Nível de
significância do teste = P(H1 / H0)
Erro do Tipo II Decisão correta
H0 é falsa β = P(Erro do tipo II) = 1 - β = P(Rejeitar H0 / H0 é falsa)
= P(Aceitar H0 / H0 é falsa) = = P(H1 / H1) = Poder do teste.
P(Aceitar H0 /H1 é V) = P(H0 /H1)
Pode-se, agora, determinar as probabilidades de se cometer os erros dos tipos I e II e como

conseqüência as probabilidades de se tomar as decisões corretas. A probabilidade de se cometer erro do
tipo II, pode ser determinada aqui, porque o teste é do tipo simples, isto é, a hipótese alternativa
envolve um único valor (neste caso p = 80%). Geralmente, a hipótese alternativa é do tipo composto (p
< 80% ou p > 80% ou ainda p ≠ 80%), e então a determinação do erro do tipo II só poderá ser feita
mediante suposições à respeito dos valores que ela pode assumir. Existirão, na realidade, infinitas
opções para o erro do tipo II. Para este caso, tem-se:
α = nível de significância do teste = P(Erro do tipo I) = P(rejeitar H0 / H0 é verdadeira) =
P( x ∈ RC / p = 50%) = P( x ∈ { 3, 4, 5 }/ p = 50%) = 10/32 + 5/32 + 1/32 = 16/32 = 50%
1 - α = P(Decisão correta) = P(Aceitar H0 / H0 é verdadeira) = P( x ∈ RA / p = 50%) =
P( x ∈ { 0, 1, 2 }/ p = 50%) = 1/32 + 5/32 + 10/32 = 16/32 = 50%
β = P(Erro do tipo II) = P(Aceitar H0 / H0 é falsa) = P( x ∈ RA / p = 80%) =
P( x ∈ { 0, 1, 2 }/ p = 80%) = 1/3125 + 20/3125 + 160/3125 = 181/3125 = 5,69%
1 - β = Poder do teste = P(Decisão correta) = P(Rejeitar H0 / H0 é falsa) = P( x ∈ RC / p =
80%) = P( x ∈ { 3, 4, 5 }/ p = 80%) = 640/3125 + 1280/3125 + 1024/3125 = 2944/3125 = 94,31%
Por estes resultados pode-se verificar, que o erro do tipo II poderia ser aceitável, mas o erro do
tipo I não, pois é um valor igual a probabilidade de se decidir corretamente. Neste caso, uma opção
para diminuir o erro do tipo I seria mudar a região de rejeição. Se a região crítica escolhida tivesse sido
RC = { 5 }, isto é, rejeitar a hipótese nula somente se em 5 lançamentos da moeda fosse obtida 5 caras
as probabilidades acima ficariam:
α = nível de significância do teste = P(Erro do tipo I) = P(Rejeitar H0 / H0 é verdadeira) =
P( x ∈ RC / p = 50%) = P( x ∈ { 5 }/ p = 50%) = 1/32 = 3,12%.
1 - α = 1 - P(Erro do tipo I) = P(Aceitar H0 / H0 é verdadeira) = P( x ∈ RA / p = 50%) =
P( x ∈ { 0, 1, 2, 3, 4 } / p = 50%) = 1/32 + 5/32 + 10/32 + 10/32 + 5/32 = 31/32 = 96, 88%.
β = P(Erro do tipo II) = P(Aceitar H0 / H0 é falsa) = P( x ∈ RA / p = 80%) =
P(x ∈ { 0, 1, 2, 3, 4}/ p = 80%) = 1/3125 + 20/3125 + 160/3125 + 640/3125 + 1280/3125 = 2101/3125
= 67,33%.
1 - β = 1 - P(Erro do tipo II) = P(Rejeitar H0 / H0 é falsa) = P( x ∈ RC / p = 80%) =
P( x ∈ { 5 }/ p = 80%) = 1024/3125 = 32,77% = Poder do teste.

Pode-se ver então que o erro do tipo I diminui sensivelmente, mas em compensação tivemos
um aumento substancial do erro do tipo II. Isto sempre vai ocorrer. A única forma de reduzir os dois
tipos de erro simultaneamente é pelo aumento do tamanho da amostra. Neste caso, está se
considerando uma amostra de apenas 5 lançamentos dos infinitos possíveis. É natural que os erros
associados sejam grandes, pois a amostra é muito pequena. Aumentado-se o tamanho da amostra é
possível com a mesma região crítica diminuir sensivelmente os dois tipos de erro.
1.6. A DISTRIBUIÇÃO AMOSTRAL

A distribuição amostral é uma distribuição de probabilidade, isto é, é uma distribuição teórica
que descreve o comportamento de uma determinada estatística ou estimador. As principais estatísticas
utilizadas nos testes de hipóteses possuem modelos conhecidos. Têm-se a distribuição normal, a
distribuição t (de Student) a distribuição χ2 (qui-quadrado), a distribuição F (de Snedkor) como as
principais.
1.7. TESTES ESTATÍSTICOS PARAMÉTRICOS

Em termos gerais, uma hipótese é uma conjectura sobre algum fenômeno ou conjunto de
fatos. Em estatística inferencial o termo hipótese tem um significado bastante especifico. É uma
conjectura sobre uma ou mais parâmetros populacionais. O teste de hipóteses paramétrico envolve
fazer inferências sobre a natureza da população com base nas observações de uma amostra extraída
desta população.
Em outras palavras, testar hipóteses, envolve determinar a magnitude da diferença entre um
valor observado de uma estatística, por exemplo a proporção p, e o suposto valor do parâmetro (π) e
então decidir se a magnitude da diferença justifica a rejeição da hipótese. O processo segue o esquema
da figura 01.
Questão a ser feita Decisão a ser tomada
µ = 455
População Não rejeitar a hipótese
Valor hipotético
do parâmetro. Qual é a magnitude da
Diferença pequena
diferença entre o valor
Selecionada observado da estatística e o
Aleatoriamente valor hipotético da Diferença grande
parâmetro?
Amostra
Valor observado Rejeitar a hipótese
da estatística. x = 435
Figura 01 - A lógica dos testes de hipóteses
1.8. ETAPAS DO TESTE DE HIPÓTESES

Qualquer teste de hipóteses paramétrico segue os seguintes passos:

1. Formular as hipóteses.
Estabelecer as hipóteses nula e alternativa. A construção de um teste de hipóteses pode ser
colocado de forma geral do seguinte modo. Toma-se uma amostra da variável (ou das variáveis) X (no
caso) de uma dada população, de onde se tem uma hipótese sobre um determinado parâmetro, por
exemplo: θ. Esta hipótese é a hipótese nula ou hipótese de igualdade: H0: θ = θ0
Tendo formulado a hipótese nula é conveniente determinar qual será a hipótese aceita caso a
hipótese nula seja rejeitada, isto é, convém explicitar a hipótese alternativa. A hipótese alternativa vai
depender de cada situação mas de forma geral tem-se:
H1: θ = θ2 (hipótese simples), ou então o que é mais comum, hipóteses compostas:
H1: θ > θ0 (teste unilateral ou unicaudal à direita)
θ < θ0 (teste unilateral ou unicaudal à esquerda)
θ ≠ θ0 (teste bilateral ou bicaudal)as hipóteses são do tipo composto.
2. Estabelecer a estatística (estimador ) a ser utilizado.
Após fixar as hipóteses é necessário determinar se a diferença entre a estatística amostral e o
suposto valor do parâmetro da população é suficiente para rejeitar a hipótese. A estatística utilizada
deve ser definida e sua distribuição teórica determinada.
3. Fixar o nível de significância do teste.
Fixar a probabilidade de ser cometer erro do tipo I, isto é, estabelecer o nível de significância
do teste. Fixado o erro do tipo I, é possível determinar o valor crítico, que é um valor lido na
distribuição amostral da estatística considerada (tabela). Este valor vai separar a região de crítica (de
rejeição) da região de aceitação.
4. Calcular a estatística teste (a estimativa).
Através da amostra obtida calcular a estimativa que servirá para aceitar ou rejeitar a hipótese
nula. Dependendo do tipo de hipótese alternativa este valor servirá para aceitar ou rejeitar H0. O
procedimento é:
Teste estatístico = (Estatística - Parâmetro) / Erro padrão da Estatística
5. Tomar a decisão.
Se o valor da estatística estiver na região crítica rejeitar Ho, caso contrário, aceitar H0.
5. Formular a conclusão.
Com base na aceitação ou rejeição da hipótese nula, enunciar qual a decisão a ser tomada na
situação do problema.

2. TIPOS DE TESTES PARAMÉTRICOS

Os testes paramétricos podem ser divididos em testes para:
• Uma amostra
• Duas amostras independentes
• Duas amostras emparelhadas (dependentes)
• Várias amostras (Análise de Variância)
2.1. TESTES PARA UMA AMOSTRA

2.1.1. T ESTE PARA A MÉDIA DE UMA POPULAÇÃO
(a) σ conhecido
O teste para a média de uma população pode ser executado com qualquer tamanho de amostra
se soubermos que a população de onde for extraída a amostra segue uma distribuição normal. Se a
distribuição da população não for conhecida então é necessário trabalhar com amostras grandes (pelo
menos 30 elementos) para poder garantir a normalidade da média da amostra através do teorema
central do limite.
As hipóteses são:
H0: µ = µ0 contra
H1: µ = µ1 ou então, o que é mais comum:
H1: µ > µ0
µ < µ0
µ ≠ µ0
A estatística teste utilizada aqui é a média da amostra: X . Esta média para ser comparada com
o valor tabelado, determinado em função da probabilidade do erro do tipo I, (isto é, o nível de
significância do teste), precisa ser primeiramente padronizada. Isto é feito, baseado no seguinte
resultado:
Se X é uma variável aleatória normal com média µ e desvio padrão σ, então a variável:
Z = (X - µ) / σ
Tem uma distribuição normal com média “0” e desvio padrão “1”. A variável resultante Z se
encontra tabelada. Qualquer livro de Estatística traz esta tabela que fornece os valores desta variável,
para z variando de -3,9 até 3,9 em intervalos de 0,1 (aproximação decimal), entre -3,9 e -3,0 e entre 3,0
e 3,9, e em intervalos de 0,01 (aproximação centesimal) para os valores entre -3,0 e 3,0.
Para X sabe-se que µ X = µ (média das médias) que σX = σ n (erro padrão da média), então
o valor padronizado de X será:
Z = ( X - µ X ) / σX = ( X - µ) / σ n
Supondo-se fixado um nível de significância de α = P(Erro do Tipo I), verifica-se na tabela
qual o valor de zα (no teste unilateral) ou zα/2 (teste bilateral). Rejeita-se H0 (hipótese nula) se o valor
de z calculado na expressão acima for:
(i) Maior do que zα (no teste unilateral à direita);
(ii) Menor do -zα (no teste unilateral à esquerda) e
(iii) Maior que zα/2 ou menor que -zα/2 (no teste bilateral).

Tabela 03 - Valores de z para alguns níveis de significância
α = Nível de significância = P(Erro do Tipo I)

10% 5% 1%
Teste bilateral 1,64 1,96 2,57
Teste unilateral 1,28 1,64 2,33
Exemplo
A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo
perdido em acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 hora
/homens por ano com desvio padrão de 20 horas/homem. Tentou-se um programa de prevenção de
acidentes e, após o mesmo, tomou-se uma amostra de 9 indústrias e mediu-se o número de
horas/homem perdidas por acidente, que foi de 50 horas. Você diria, ao nível de 5%, que há evidência
de melhoria?
Solução
As hipóteses a serem testadas são:
H0: µ = 60 hora/homens
H1: µ < 60 hora/homens
A evidência amostral para sugerir que a média baixou é dada através da amostra de n = 9
(elementos) que forneceu x = 50 horas/homens. Vamos testar se esta diferença de 10 horas/homens é
ou não significativa ao nível de 5%. Para isto é necessário padronizar o resultado amostral.
Z = ( X - µ X ) / σX = ( X - µ) / σ/ n = (50 - 60) / 20/ 9 = -1,50
Para saber se este valor (-1,50) é pouco provável é necessário compará-lo com o valor crítico -
zα (pois se trata de um teste unilateral à esquerda), que neste caso vale -1,64, já que o nível de
significância foi fixado em 5%. Vê-se portanto que o valor amostral não é inferior ao valor crítico, não
estando portanto na região de rejeição. Isto quer dizer que a diferença apresentada na amostra não é
suficientemente grande para provar que a campanha de prevenção deu resultado. Então a conclusão é:
“Não é possível ao nível de 5% de significância afirmar que a campanha deu resultado, isto é,
rejeitar H0. ”
Convém lembrar que o fato de não rejeitar a hipótese nula, não autoriza a fazer afirmações a
respeito da veracidade dela. Ou seja, não se provou H0, pois no momento que se aceita a hipótese nula,
o risco envolvido é o do Tipo II, e este neste caso não está fixado (controlado). O teste de hipóteses é
feito para rejeitar a hipótese nula e sua força está na rejeição. Assim quando se rejeita se prova algo,
mas quando se aceita, nada se pode afirmar.
(b) σ desconhecido
A distribuição t de Student
Quando o desvio padrão populacional (σ) é desconhecido é necessário estimá-lo através do
desvio padrão da amostra (s). Mas ao substituir o desvio padrão da população na expressão:
Z = ( X - µ X ) / σX = ( X - µ) / σ/ n
não teremos mais uma distribuição normal.
De fato, conforme demonstrado por W. S. Gosset (Student) a distribuição da variável:
(X - µX ) / σ
X = ( X - µ) / s/ n

Não é mais normal padrão. Ao substituir σ por s na expressão teremos uma distribuição
parecida com a normal, isto é, simétrica em torno de zero, porém com uma variabilidade maior. Desta
forma a distribuição “t” é mais baixa no centro do que a normal padrão, mas mais alta nas caudas.
Assim:
(X - µX ) / σ
X = ( X - µ) / s/ n = tn-1, onde “n - 1” indica a distribuição “t” considerada, pois
cada tamanho de amostra produz uma distribuição de Student diferente.
A distribuição t de Student encontra-se tabelada em função de n = tamanho da amostra ou
então em função de n - 1 denominado de graus de liberdade da distribuição. Neste caso cada linha de
uma tabela se refere a uma distribuição particular e cada coluna da tabela a um determinado nível de
significância. Conforme a tabela o nível de significância poderá ser unilateral ou bilateral. Em todo
caso é necessário sempre ler no cabeçalho ou no rodapé da tabela as explicações sobre como ela está
estruturada.
Desta forma a diferença entre o teste para a média de uma população com σ conhecido e um
com σ desconhecido é que é necessário trocar a distribuição normal padrão pela distribuição “t “ de
Student.
Exemplo
O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos. Introduziu-se
uma modificação para diminuir este tempo, e, após certo período, sorteou-se uma amostra de 16
operários, medindo-se o tempo de execução gasto por cada um. O tempo médio da amostra foi 85
minutos com desvio padrão de 12 minutos. Este resultado evidencia uma melhora no tempo gasto para
realizar a tarefa? Apresente as conclusões aos níveis de 5% e 1% de significância e diga quais as
suposições teóricas necessárias que devem ser feitas para resolver o problema.
Solução
A suposição teórica necessária é admitir que a distribuição da população de onde foi extraída
a amostra segue uma normal pois n < 30.
H0: µ = 100
H1: µ < 100
Considerando, então, um teste unilateral à esquerda e tendo α = 5% (α = 1%) tem-se que a
região de rejeição é constituída por RC = [-∞, -1,753].(RC = [-∞, -2,602])
O valor de teste é:
X−µ 85 − 100
t15 = = = -5
s 12
n 4
Como este valor pertence as duas regiões críticas, pode-se rejeitar a hipótese nula, aos níveis
de 5% e 1% de significância, isto é, neste caso, pode-se afirmar que a modificação diminuiu o tempo
de execução da tarefa.
2.1.2. T ESTE PARA A PROPORÇÃO
O teste para a proporção populacional é normalmente baseado na seguinte suposição: tem-se
uma população e tem-se uma hipótese sobre a proporção π de elementos da população que possuem
uma determinada característica. Esta proporção é supostamente igual a um determinado valor π0.
Assim a hipótese nula é:
H0 : π = π0
O problema fornece informações sobre a alternativa, que pode ser uma das seguintes:

H1 : π ≠ π0
H1 : π > π0
H1 : π < π0
A estatística teste a ser utilizada é a proporção amostral “P”, que para amostras grandes (n >
50) tem uma distribuição aproximadamente normal com média:
µP = π, e desvio padrão
π(1 − π )
σP = n
Exemplo
As condições de mortalidade de uma região são tais que a proporção de nascidos que
sobrevivem até 60 anos é de 0,60. Testar esta hipótese ao nível de 5% de significância se em 1000
nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até os 60 anos.
Solução
H1: π = 0,60
H0: π ≠ 0,60
Considerando, então, um teste bilateral e tendo α = 5% tem-se que a região de aceitação é
constituída pelo intervalo RA = [-1,96, 196].
O valor de teste é:
p−π 0,53 − 0,60
z= = = -4,52.
π(1 − π) 060(1 − 0,60)
n 1000
Como este valor não pertence a região de aceitação, pode-se rejeitar a hipótese nula, ao nível
de 5% de significância, isto é, neste caso, pode-se afirmar que a taxa dos que sobrevivem até os 60
anos é menor do que 60%. Neste caso, também poderia ser realizado um teste unilateral à esquerda.
Este teste também rejeitaria a hipótese nula, pois para ele o valor crítico zα = -1645.
2.1.3. T ESTE PARA A VARIÂNCIA
Para aplicar o teste para a variância é necessário supor a normalidade da população de onde
será extraída a amostra.
As hipóteses são:
H0: σ2 = σ20 contra
H1: σ2 ≠ σ20
σ2 > σ20
σ2 < σ20
(n − 1) s2 2
A estatística teste é ∼ χn−1
σ20
Quer dizer o quociente acima tem uma distribuição qui-quadrado com “n-1” graus de
liberdade. A qui-quadrado é uma distribuição assimétrica positiva que varia de zero a mais infinito.
Esta distribuição é tabelada também em função dos número de graus de liberdade, isto é, cada grau de
liberdade (n -1) representa uma distribuição diferente. As colunas das tabelas representam diferentes
níveis de significância, isto é, área sob a curva acima do valor tabelado.

Em função do tipo de hipótese alternativa define-se a região de rejeição. No primeiro caso

tem-se uma região de rejeição do tipo bilateral. Logo, fixado um nível de significância “α“, a região
crítica será
2 2
RC = [0, χ 1 ] U [ χ 2 , ∞). Desta forma, aceita-se a hipótese nula se a estatística teste, acima, pertencer
ao intervalo [ χ 12 , χ 22 ].
Exemplo
Uma das maneiras de controlar a qualidade de um produto é controlar a sua variabilidade.
Uma máquina de empacotar café está regulada para encher os pacotes com desvio padrão de 10 g e
média de 500g e onde o peso de cada pacote distribuí-se normalmente. Colhida uma amostra de n = 16,
observou-se uma variância de 169 g2. É possível afirmar com este resultado que a máquina está
desregulada quanto a variabilidade, supondo uma significância de 5%?
Solução
H0: σ2 = 100 contra
H1: σ2 ≠ 100
χ2c = (15.169)/100 = 25,35.
Como α = 5% a região de aceitação é a região compreendida entre os valores:
2
[ χ 97,5% , χ2,5% ] = [6,26, 27,49]. Como o valor calculado pertence a esta região, aceita-se H0, isto é,
2
com esta amostra não é possível afirmar que a máquina está desregulada, ao nível de 5% de
significância.
Supõem-se a existência de duas populações. Uma população X com média µX e desvio padrão
σX e uma população Y com média µY e desvio padrão σY . Da população X é extraída uma amostra de
tamanho “n” com média X e da população Y é extraída uma amostra de tamanho “m” com média Y .
Define-se a variável D como sendo a diferença entre as duas médias amostrais. Assim D = X - Y e
tem-se:
µD = E(D ) = E( X - Y ) = E( X ) - E( Y ) = µX - µY
2 2
σX σY
σD = V(D ) = V( X - Y ) = V( X ) + V( Y ) = n + m .
2.2. TESTES PARA DUAS AMOSTRAS INDEPENDENTES

Neste tipo de teste são retiradas duas amostras de forma independente, isto é, as medidas são
obtidas em unidades amostrais diferentes.
2.2.1. T ESTE PARA A IGUALDADE ENTRE AS VARIÂNCIAS DE DUAS
POPULAÇÕES
Supõem-se a existência de duas populações. Uma população X com média µX e desvio padrão
σX e uma população Y com média µY e desvio padrão σY . Da população X é extraída uma amostra de
tamanho “n” com média X e variância S2X e da população Y é extraída uma amostra de tamanho “m”
com média Y e variância S2Y .
As hipóteses são:
H0: σ2X = σ2Y = σ2
H1: σ2X ≠ σ2Y

(n − 1) S2X (m − 1) S2Y
: χn −1 e : χm−1
2 2
Nestas condições sabe-se que:
σ σ
2 2
X Y
Sob a hipótese de H0 ser verdadeira (isto é, σ = σ ) tem-se: 2

X
2
Y
2
σ2X χn−1
S2X n−1
Q= 2
= 2
= F(n − 1, m − 1) , isto é, o quociente entre as variâncias amostrais possui uma
SY σ2Y χm −1
m −1
distribuição F (de Snedekor) com “n-1” graus de liberdade no numerador e “m - 1” graus de liberdade
no denominador.
Como a distribuição F depende de dois parâmetros ν1 e ν2, uma tabela tridimensional será
necessária para computar os valores de F correspondentes a diferentes probabilidades e valores de ν1 e
ν2. Como conseqüência, somente os pontos da cauda à direita de 5% e 1% de área são tabelados,
correspondendo a vários valores de ν1 e ν2, isto é, encontram-se tabelados os valores P(F > f) = 0,01 e
P(F > f) = 0,05. Para poder se obter valores bilaterais da distribuição F é necessário usar a propriedade
que se F é tal que tem uma distribuição com ν1 e ν2 graus de liberdade, então F’ = 1 / F tem
distribuição F’ com ν2 e ν1 graus de liberdade. Assim a probabilidade de que F < f pode ser calculada
por:
P(F < f) = P(1 / F > 1 / f) = P(F’ > 1 / f)
Lembrando que só são fornecidos valores com as significâncias de 1% e 5%. Outro valor entre
estes dois poderá ser obtido aproximadamente por interpolação.
Assim por exemplo dados ν1 = 5 (graus de liberdade do numerador) e ν2 = 8 (graus de
liberdade do denominador), o valor de f de F(5, 8) tal que P(F > f) = 5% é f = 3,69. Então o valor f’ de
F(5, 8) tal que P(F < f’) = 5% é dado por: 1 / F(8, 5) = 1 / 4,82 = 0,21.
Fixado um nível de significância α a região crítica RC é encontrada através de dois valores F1
e F2 da distribuição F tais que:
P(F ∈ RC) = P(F < F1 ou F > F2) = α, onde F1 e F2 são encontrados na tabela de modo a
satisfazer a igualdade: P(F < F1) = P(F > F2) = α/2.
Exemplo: (BUS81 - pg. 275)
Quer se verificar se duas máquinas produzem peças com a mesma homogeneidade quanto à
resistência à tensão. Para tal, sorteiam-se duas amostras de 6 peças de cada uma das máquinas e
observa-se as resistências. Os resultados estão na tabela.
Máquina X 145 127 136 142 141 137
Máquina Y 143 128 132 138 142 132
Solução:
Como n = m = 6, tem-se que:
S2X
Q= = F(5, 5) = 5,05
S2Y
A região crítica RC será: RC = (0; 1/5,05) U (5,05; ∝) = (0; 0,20) U (5,05; ∝)
As amostras fornecem:
2
S2X = 40 e SY = 37, portanto a distribuição do quociente Q calculado será:

S2X
Qc = = 40 / 37 = 1,08.
S2Y
Por estes resultados não é possível rejeitar a hipótese de igualdade entre as variâncias a um
nível de significância de 10%. (Como o teste é bilateral, ele envolve uma área de 5% em cada cauda da
distribuição, logo a significância total é de 10%).
2.2.2. T ESTE PARA A DIFERENÇA ENTRE DUAS MÉDIAS POPULACIONAIS
(a) Supondo as variâncias ( σ 2X e σ 2Y )conhecidas

As hipóteses são:
H0: µX - µY = ∆ contra
H1: µX - µY ≠ ∆ ou
µX - µY > ∆ ou ainda
µX - µY < ∆
Se ∆ = 0, então µX - µY = 0, isto é, µX = µY.
Como as variâncias são conhecidas, tem-se então que, para n, m ≥ 30 ou para amostras
extraídas de populações normais, que a variável D = X - Y terá uma distribuição aproximadamente
2 2
normal com média E(D ) = µ - µ e variância V(D ) = σ X + σ Y .
X Y n m
A variável teste será, então:
X−Y−∆
z=
2 2
σX + σY
n m
Assim fixando o nível de significância “α“, a hipótese nula será rejeitada se:
|z| > zα/2 no teste bilateral;
z > zα, no teste unilateral à direita e
z < zα no teste unilateral à esquerda.
Exemplo:
Um fabricante produz dois tipos de pneus. Para o pneu do tipo A o desvio padrão é de 2500
km e para o pneu do tipo B é de 3000 km. Uma cia de táxis testou 50 pneus do tipo A e 40 do tipo B,
obtendo 24000 km de média para o “A” e 26000 para o tipo “B”. Adotando α = 4% testar a hipótese de
que a duração média dos dois tipos é a mesma.
Solução:
As hipóteses são:
H0: µA - µB = 0 ( µA = µB ) contra
H1: µA - µB ≠ 0 ( µA ≠ µB )
Como α = 4%, então zα/2 = -2,05.
O valor da variável teste será:
24000 − 26000
z= = -3,38
25002 3000 2
+
50 40

Portanto, rejeita-se a hipótese de igualdade entre as durações médias dos dois tipos de pneus.
Com base nestas amostras, pode-se afirmar, ao nível de 4% de significância, que os dois tipos de pneus
diferem quanto a durabilidade média.
(b) Variâncias σ2X e σ2Y desconhecidas mas supostamente iguais
Vamos supor que as duas populações tenham a mesma variância σ2 = σ2X = σ2Y , porém
desconhecidas.
As hipóteses são:
H1: µX - µY ≠ ∆ ou
µX - µY < ∆
A variável teste anterior, para esta situação, será:
Z= X−Y−∆ , mas neste caso σ2X = σ2Y = σ2 (por suposição), então:
2 2
σX + σY
n m
Z = X−Y−∆ = X−Y−∆ = X−Y−∆ , como o valor σ2 não é conhecido, deverá ser

2 2 2 2 1 1
σX + σY σ +σ σ +
n m n m n m
substituído por um estimador não-tendencioso. Como S2X e S2Y são estimadores não tendenciosos do
mesmo parâmetro σ2, então, a média ponderada:
(n −1)S2X + (m−1)S2Y
S= , também será um estimador não-tendencioso de σ2.
2
n + m− 2
Logo a expressão acima poderá ser escrita como:
X−Y−∆ , que terá uma distribuição não mais normal mas sim “t” com “n + m – 2” graus de
1 1
S +
n m
liberdade, desde que n, m sejam maiores ou iguais a 30, ou então que as amostras tenham sido
extraídas de populações que tenham distribuições normais.
Desta forma, a expressão para testar a diferença entre duas médias populacionais, nesta
situação será:
tc = tn+m-2 = X−Y−∆
1 1
S +
n m
|tc| > tα/2 no teste bilateral;
tc > tα, no teste unilateral à direita e
tc < tα no teste unilateral à esquerda.
Exemplo:
As resistências de dois tipos de concreto foram medidas, mostrando os resultados da tabela.
Fixado um nível de significância de 5%, existe evidência de que o concreto do tipo A seja mais
resistente do que o concreto do tipo B.

Tipo A 54 55 58 51 57
Tipo B 50 54 56 52 53
Solução:
Antes de mais nada vamos testar se as duas populações possuem a mesma variância. Para
tanto aplica-se o teste de igualdade de variâncias, utilizando as amostras acima e uma significância de
5%.
Tem-se: Graus de liberdade: 4 (numerador), 4 (denominador)
F = 7,5/5,0 = 1,50.
F2,5% = 0,10
F97,5% = 9,60
Significância do resultado obtido: 35,20%.
Neste caso, não é possível afirmar que as variâncias populacionais são diferentes.
As hipóteses são:
H1: µA - µB > 0 ( µA > µB )
Os dados obtidos da tabela são:
X = 55,0 e Y = 53,0
2 (n − 1)S2X + (m − 1)S2Y (5 − 1).7,5 + (5 − 1).5,0
S2X = 7,50 e S2Y = 5,0, então S = = = 6,25.
n + m− 2 5+5−2
55 − 53
tc = = 1,265
1 1
2,50. +
5 5
Como α = 5%, e o grau de liberdade n - m - 2 = 10 - 2 = 8, então o valor de “t” tabelado será:
1,86.
Neste caso, com estas amostras não é possível afirmar que o concreto do tipo A seja mais
(c) Variâncias σ2X e σ2Y desconhecidas e supostamente desiguais
As hipóteses são:
H1: µX - µY ≠ ∆ ou
µX - µY < ∆
Como as variâncias são desconhecidas é necessária estimá-las através das variâncias amostrais
2 2
SX SY Neste caso, ao se substituir as variâncias populacionais pelas amostrais na expressão:
e .
X−Y−∆
não se terá mais uma distribuição normal, mas sim uma distribuição “t” com o
2 2
σX +
σY
n m
grau de liberdade fornecido pela seguinte expressão:

2
æ S 2 S2 ö
ç X+ Y÷
ç n m÷
ν=
è ø
2 2
æ S2 ö æ S 2 ö
ç X÷ ç Y÷
ç n ÷ çm÷
è ø +è ø
n −1 m −1
desde que n, m sejam maiores ou iguais a 30, ou então que as amostras tenham sido extraídas de
populações que tenham distribuições normais.
|tc| > tα/2 no teste bilateral;
tc > tα, no teste unilateral à direita e
X−Y−∆
t < tα no teste unilateral à esquerda, onde t =
2 2
S X + SY
n m
Exemplo:
As resistências de dois tipos de concreto foram medidas, mostrando os resultados da tabela.
Fixado um nível de significância de 5%, existe evidências de que o concreto do tipo A seja mais
Tipo A 54 55 58 50 61
Tipo B 51 54 55 52 53
Solução:
Antes de mais nada vamos testar se as duas populações possuem a mesma variância. Para
tanto aplica-se o teste de igualdade de variâncias, utilizando as amostras acima e uma significância de
10%.
Tem-se: Graus de liberdade: 4 (numerador), 4 (denominador).
F = 17,3/2,5 = 6,92.
Significância do resultado obtido: 4,38%.
F crítico: 6,39.
Neste caso, é possível afirmar que as variâncias populacionais são diferentes.
As hipóteses são:
H1: µA - µB > 0 ( µA > µB )
Os dados obtidos da tabela são:
X = 55,6 e Y = 53,0
S2X = 17,3 e S2Y = 2,5

55,6 − 53,0
t= = 1,31
17,3 2,5
+
5 5
2 2
æ S2X S2Y ö æ 17,3 2,5 ö 6,25
ç ÷ ç + ÷
Com α = 5%, e o grau de liberdade ν = ç n +m÷ = è 5 5 ø = = 5,48 ≅ 5,
è ø 0,8125
2 2
2
æ S2X ö æ S2Y ö
2
æ 17,3 ö æ 2,5 ö
ç ÷ ç ÷ ç ÷ ç ÷
ç n ÷ çm÷ è 5 ø +è 5 ø
è ø +è ø
n −1 m −1
4 4
então o valor de “t” tabelado será: 2,57.

Neste caso, com estas amostras não é possível afirmar que o concreto do tipo A seja mais
2.3. DUAS AMOSTRAS RELACIONADAS (DEPENDENTES)

Quando se compara as médias de duas populações, pode ocorrer uma diferença significativa
por causa de fatores externos não-controláveis. Um modo de contornar este problema é coletar
observações aos pares, de modo que os dois elementos de cada par sejam homogêneos em todos os
sentidos, exceto naquele que se quer comparar.
Por exemplo, para testar dois métodos de ensino A e B, pode-se usar pares de gêmeos, sendo
que um recebe o método de ensino A e o outro o método de ensino B. Este procedimento controla a
maioria dos fatores externos que afetam a aprendizagem e se houver diferença deve-se realmente ao
método.
Outra forma é fazer as observações das duas amostras no mesmo indivíduo. Por exemplo,
medindo uma característica do indivíduo antes e depois dele ser submetido a um tratamento.
A exemplo da comparação de duas médias com amostras independentes, neste caso, tem-se
duas amostras: X1, X2, ..., Xn e Y1, Y2, ..., Yn, só que agora as observações estão emparelhadas, isto é, a
amostra é formada pelos pares:
(X1, Y1), (X2, Y2), ..., (Xn, Yn)
Define-se a variável D = X - Y.
Como resultado tem-se a amostra: D1, D2, ..., Dn
1 n 1 n
Supõem-se que D segue uma N( µD , σD) . Então: SD2 = å Di = å ( Xi − Yi) = X - Y
n i=1 n i=1
σD
Terá uma distribuição: N( µD , ) . Definindo:
n
n
å Di − n D
2
S =
2
D
1 n
å Di − D
n − 1 i =1
( )2
= i =1
n −1
, tem-se que a estatística:
D − µD
t= , tem uma distribuição “t” com “n - 1” graus de liberdade.
SD
n
Exemplo:
Cinco operadores de máquinas são treinados em duas máquinas de diferentes fabricantes, para
verificar qual delas apresentava maior facilidade de aprendizagem. Mediu-se o tempo que cada um dos
operadores gastou na realização de uma mesma tarefa com cada um dos dois tipos de máquinas. Os

resultados estão na tabela ao lado. Ao nível de 10% é possível afirmar que a tarefa realizada na
máquina X demora mais do que na máquina Y?
Solução: Operador Fabricante 1 Fabricante 2
As hipóteses são: 1 80 75
H0: µX - µY = 0 (µX = µY) contra 2 72 70
H1: µX - µY > 0 (µX > µY ) 3 65 60
Pela tabela vê-se que: 4 78 72
di: 5, 2, 5, 6 e 7 5 85 78
Logo: d = 5 e SD = 1,8708, logo t = 5,98.
Como α = 10%, então tα = 1,54, pois o número de graus de liberdade é n - 1 = 4.
Portanto, rejeita-se a hipótese nula, isto é, a 10% de significância pode-se afirmar que com a
máquina X se demora mais do que com a máquina Y.
2.3.1. T ESTE PARA A DIFERENÇA ENTRE DUAS PROPORÇÕES
As hipóteses são:
H0: π1 - π2 = π contra
H1: π1 - π2 ≠ π ou
π1 - π2 > π ou ainda
π1 - π2 < π
Se π = 0, então π1 - π2 = 0, isto é, π1 = π2.
Extraídas uma amostra de cada uma das duas populações a variável P1 - P2 terá uma
distribuição aproximadamente normal com média E(P1 - P2) = π1 - π2 e variância σp2 −P2 =
1
π1(1 − π1) π 2 (1 − π2)
+ , desde que nP1 > 5 e mP2 > 5.
n m
P1 − P2 − π
A variável teste será, então: z =
π1(1− π1) π2(1− π2)
+
n m
Como os valores de π1 e π2 não são conhecidos, deve-se utilizar suas estimativas P1 e P2.
Desta forma, o valor de z será:
P1 − P2 − π
z=
P1 (1 − P1) P2 (1 − P2)
+
n m
|z| > zα/2 no teste bilateral;
z > zα, no teste unilateral à direita e
z < zα no teste unilateral à esquerda.
Exemplo:
Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certa revista,
acontecendo o mesmo com 26 dentre 50 mulheres. Ao nível de 5% de significância os homens e as
mulheres apreciam igualmente a revista?

Solução:
As hipóteses são:
H0: π1 - π2 = 0 (π1 = π2) contra
H1: π1 - π2 ≠ 0 (π1 ≠ π2)
Tem-se que P1 = 32 / 80 = 0,40 e P2 = 26 / 50 = 52%
0,40 − 0,52
z= = -1,34
0,40.0,60 0,52.0,48
+
80 50
Como α = 5%, então zα/2 = -1,96.
Portanto, aceita-se a hipótese de igualdade entre as preferências de homens e mulheres, isto é,
a este nível de significância não é possível afirmar que exista diferença entre as preferências de homens
e mulheres quanto à revista.

3. EXERCÍCIOS
(01) Pretende-se lançar uma moeda 5 vezes e rejeitar a hipótese de que a moeda é não-tendenciosa, isto
é, pretende-se rejeitar Ho: π = 0,50, se em 5 (cinco) jogadas ocorrerem 5 coroas ou 5 caras. Qual é a
probabilidade de se cometer erro do tipo I?
(02) (Bussab, pg. 249) Se, ao lançarmos 3 vezes uma moeda, supostamente equilibrada, aparecerem 3
caras decide-se rejeitar a hipótese de que a moeda é “honesta”, qual a probabilidade de se cometer erro
do tipo I? Se a moeda favorece cara em 80% das vezes, qual a probabilidade de se cometer erro do tipo
II?
(03) Você suspeita que um dado é viciado, isto é, você suspeita que a probabilidade de obter face 6 é
maior do que 1/6. Você decide testar a hipótese de que o dado é não-viciado, jogando-o cinco vezes e
rejeitando essa hipótese se ocorrer a face 6 (seis), 4 ou 5 vezes. Qual o nível de significância do teste?
(04) Nas faces de dois tetraedros regulares, aparentemente idênticos, estão marcados os valores: 0, 1, 2
e 3. Ao lançar um destes tetraedros o resultado observado é o valor da face que fica em contato com a
superfície. Os dois tetraedros são “chumbados”, de tal maneira que, ao jogá-los, as probabilidades de
cada uma das faces ficar em contato com a superfície são as
da tabela. Tomando ao acaso um dos tetraedros tem-se duas
Face Tetraedro A Tetraedro B
hipóteses: H0 : Trata-se do tetraedro A; H1 : Trata-se do
tetraedro B. 0 0,40 0,20
1 0,20 0,20
(04.1) Para testar H0 contra H1, o tetraedro escolhido é
lançado duas vezes. Adota-se a seguinte regra de 2 0,20 0,20
decisão: rejeitar H0 se a soma dos resultados dos dois 3 0,20 0,40
lançamentos for maior ou igual a 5. Determinar o nível Total 1 1
de significância e o poder do teste.
(04.2) Determinar o nível de significância e o poder do teste se a regra de decisão for: rejeitar H0
se sair o valor 3 (três) em ao menos um dos lançamentos e o outro resultado não for o valor 0
(zero).
(05) Em cada uma das quatro faces de dois tetraedros regulares, aparentemente idênticos, estão
marcados os valores: 1, 2, 3 e 4. Entretanto, um dos tetraedros é feito de material homogêneo (tetraedro
A) , de maneira que, ao lançá-lo a probabilidade de qualquer uma das 4 faces fique em contato com a
superfície é 0,25. O outro tetraedro (tetraedro B) é “chumbado”, de tal maneira que, ao jogá-lo, a face
com o valor 4 (quatro) tem probabilidade de 0,50 de ficar em contato com a superfície, enquanto que
qualquer uma das outras três tem probabilidade igual a 1/6. Suponha que um dos tetraedros é lançado
48 vezes, para testar a hipótese H0 de que foi lançado o tetraedro A, contra a hipótese H1 de que foi
lançado o tetraedro B. Supõem-se ainda a seguinte regra de decisão: “se nos 48 lançamentos, a face
com o valor 4 (quatro), for obtida 20 ou mais vezes, rejeita-se H0 em favor de H1. Determine o nível de
significância e o poder do teste.
(06) Uma urna contém 6 fichas, das quais θ são brancas e 6 - θ são pretas. Para testar a hipótese de
nulidade de que θ = 3, contra a alternativa de que θ ≠ 3, são retiradas 2 (duas) fichas da urna ao acaso e
sem reposição. Rejeita-se a hipótese nula se as duas fichas forem da mesma cor.
(06.1) Determine P(Erro do Tipo I).
(06.2) Determine o poder do teste para os diferentes valores de θ.
(06.3) Considere, agora, que a segunda ficha é retirada após a reposição da primeira. Calcule,
novamente, o nível de significância e os valores do poder do teste.
(06.4). Compare os dois procedimentos (com e sem reposição da segunda ficha retirada). Qual a
conclusão?

(07) Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, iremos
proceder da seguinte forma:
(i) Selecionamos uma amostra aleatória de 100 moradores adultos da ilha e determinamos a altura
média;
(ii) Se a altura média for superior a 176 cm, diremos que os habitantes são descendentes de B, caso
contrário, admitiremos que são descendentes de A.
Os parâmetros das duas civilizações são: A: µA = 175 cm e σA = 10 cm e B: µB = 177 cm e σB = 10 cm.
Define-se ainda: erro do tipo I como sendo “dizer que os habitantes são descendentes de B quando, na
realidade, são de A” e erro do tipo II “dizer que os habitantes são de A quando, na realidade, são
descendentes de B”.
(07.1) Qual a probabilidade de erro do tipo I e do tipo II?
(07.2) Se σA = σB = 5, como ficariam os valores dos erros do tipo I e II?
(07.3) Qual deve ser a regra de decisão se quisermos fixar a a probabilidade de Erro I em 5%. Qual
a probabilidade de erro II neste caso?
(07.4) Quais as probabilidades de Erro II, se as médias forem: µA = 178 e se µB = 180?
(08) Fazendo o teste H0: µ = 1150 (σ = 150) contra H1: µ = 1200 (σ = 200) e com n = 100, estabeleceu-
se a seguinte região crítica: RC = [1170, +∞).
(08.1) Qual a probabilidade α de rejeitar H0 quando verdadeira?
(08.2) Qual a probabilidade β de Aceitar H0 quando H1 é verdadeira?
(09) Dados os valores: 4, 6, 3, 6 e 6, de uma amostra aleatória de 5 (cinco) observações de uma
variável X, estime a média e a variância de X e admitindo que X tenha uma distribuição normal, teste,
a 5%, a hipótese de que a média da população é 1 (um), contra a hipótese alternativa de que é maior do
que 1 (um).
(10) Sabe-se que o consumo mensal per capita de determinado produto tem distribuição normal, com
desvio padrão de 2 kg. A diretoria da empresa que fabrica esse produto resolveu que retiraria o produto
da linha de produção se a média de consumo per capita fosse menor do que 8 kg, caso contrário,
continuaria a fabricá-lo. Foi realizado uma pesquisa de mercado, tomando-se uma amostra aleatória de
25 pessoas e verificou-se um consumo total de 180 kg do produto.
(10.1) Construa um teste de hipótese adequado para verificar a hipótese acima a um nível de
significância de 5% e diga qual deve ser a decisão a ser adotada pela empresa?
(10.2) Qual a probabilidade β de a empresa tomar a decisão errada se, na realidade, o consumo
médio mensal populacional é de 7,80 kg?
(10.3) Se a diretoria tivesse fixado uma significância de 1%, a decisão seria a mesma?
(10.4) Se o desvio padrão populacional fosse de 4 kg, qual seria a decisão a ser tomada com base
na amostra mencionada acima?
(11) A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo perdido
com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 homens/hora por
ano, com desvio padrão de 20 homens/hora. Tentou-se um programa de prevenção de acidentes e, após
o mesmo, tomou-se uma amostra aleatória de 16 indústrias e verificou-se que o tempo perdido baixou
para 50 homens /hora ano. Você diria que, ao nível de 5% de significância, o programa surtiu efeito?
(12) Está-se desconfiado de que a média das receitas municipais, per capita, das cidades pequenas
(menos de 20 mil habitantes) é maior do que a média da receita estadual que é de 1229 unidades
monetárias. Para testar a hipótese é realizada uma amostragem com 10 pequenas cidades que
forneceram os seguintes resultados (em termos de receitas médias):
1230, 582, 576, 2093, 2621, 1045, 1439, 717, 1838, 1359

Verifique que não é possível rejeitar a hipótese de que as receitas municipais são iguais as do estado,
aos níveis usuais de significância. Como isto se justifica, já que a média da amostra obtida é bem maior
do que a média do estado!
(13) Medidos os diâmetros de 31 eixos de um lote aleatório, produzido pela empresa “Sofazredondo
S.A.” obteve-se a distribuição abaixo:
Diâmetros (em mm) 56,5 56,6 56,7 56,8 56,9 57,0 57,1 57,2 57,3
Número de eixos 1 2 2 4 10 5 4 2 1
Ao nível de significância de 5%, há evidência de que o diâmetro médio dos eixos esteja fora da
especificação de uma média de 57 mm?
(14) Um fabricante garante que 90% das peças que fornece a um cliente estão de acordo com as
especificações exigidas. O exame de uma amostra aleatória de 200 destas peças revelou 25 fora das
especificações. Verifique se as níveis de 5% e 1% de significância há exagero na afirmativa do
fabricante.
(15) Suponha que a experiência tenha mostrado que dos alunos submetidos a determinado tipo de
prova, 20% são reprovados. Se de uma determinada turma de 100 alunos, são reprovados apenas 13,
pode-se concluir, ao nível de significância de 5%, que estes alunos, são melhores?
(16) Um exame é composto de 100 testes do tipo certo-errado. (a) Determine o número mínimo de
testes que um aluno deve acertar para que se possa, ao nível de significância de 5%, rejeitar a hipótese
de que o aluno nada sabe sobre a matéria e respondeu ao acaso, em favor da hipótese de que o alunos
sabia alguma coisa sobre a matéria do teste? (b) Qual seria este mínimo, se fosse adotado o nível de
significância de 1%?
(17) O rótulo de uma caixa de sementes informa que a taxa de germinação é de 90%. Entretanto, como
a data de validade está vencida, acredita-se que a taxa de germinação seja inferior a este número. Faz-
se um experimento e de 400 sementes, tomadas ao acaso, 350 germinam. Qual a conclusão ao nível de
5% de significância?
(18) Observou-se a produção mensal de uma indústria durante alguns anos e verificou-se que ela
obedecia a uma distribuição normal com variância igual a 300 u2. Foi adotada então uma nova técnica
de produção e durante um período de 24 meses observou-se a produção mensal. Após este período
constatou-se que a variância foi de 400 u2. Há motivos para se acreditar que houve alteração na
variância ao nível de 10%?
(19) Numa linha de produção é importante que o tempo gasto numa determinada operação não varie
muito de empregado para empregado. Em operários bem treinados a variabilidade fica em 100 u2. A
empresa colocou 11 novos funcionários para trabalhar na linha de produção, supostamente bem
treinados, e observou os seguintes valores, em segundos:
125 135 115 120 150 130 125 145 125 140 130
Testar se a tempo despendido por estes funcionários pode ser considerado mais variável do que os
demais funcionários. Utilize 5% de significância.
(20) O departamento de psicologia fez um estudo
comparativo do tempo médio de adaptação de uma Estatísticas Homens Mulheres
amostra de 50 homens e outra de 50 mulheres, tomados ao Média 3,2 meses 3,7 meses
acaso, de um grande complexo industrial que mostrou os Desvio padrão 0,8 meses 0,9 meses
seguintes resultados da tabela. É possível afirmar, ao nível
de 5% de significância que as mulheres desta empresa
levam mais tempo para se adaptarem?

(21) Diversas políticas, em relação às filiais de uma rede de supermercados, estão associadas ao gasto
médio dos clientes em cada compra. Deseja-se comparar estes parâmetros de duas novas filiais, através
de duas amostras de 50 clientes, selecionados ao acaso, de cada uma das novas filiais. As médias
obtidas foram 62 e 71 unidades monetárias. Supondo que os desvios padrões sejam idênticos e iguais a
20 um, teste a hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma
significância de 2,5%?
(22) Uma fábrica de embalagens para produtos
Processo Tamanho da Média Desvio
químicos está estudando dois processos
amostra padrão
diferentes de combate a corrosão nas latas usadas
A 15 48 10
para embalagem. Para verificar o efeito dos dois
processos foram utilizadas duas amostras B 12 52 15
aleatórias que apresentaram os valores da tabela, quanto a variável “duração da embalagem (em meses)
antes da primeira mancha de corrosão aparecer”. Ao nível de significância de 5% é possível afirmar
que um tratamento é melhor do que o outro?
(23) Você recebe a informação de que a diferença entre duas médias amostrais é “estatisticamente
significativa ao nível de 1%”. Dizer se as afirmações abaixo estão certas ou erradas e justificar.
(23.1) Há pelo menos 99% de probabilidade de existir uma diferença real entre as médias das duas
populações.
(23.2) Se não houvesse diferença entre as médias das duas populações, a probabilidade de detectar
uma tal diferença (ou diferença maior) entre as médias amostrais seria de 1% ou menos.
(23.3) A informação constituí uma evidência sólida de que realmente exista diferença entre as
médias populacionais. Todavia, por si só, não constituí evidência suficiente de que tal diferença
seja suficientemente grande para ter importância prática. Isto ilustra a diferença entre os conceitos
“significância estatística” e “significância prática”.
(23.4) O valor da estatística teste (valor calculado) é exatamente 1%.
(23.5) A probabilidade de que as médias das duas amostras sejam diferentes é de 1%.
(24) Foram levantadas quatro hipóteses sobre a
média salarial anual de engenheiros mecânicos e Engenheiros Tamanho Média Desvio
civis: da amostra padrão
(i) Engenheiros mecânicos e civis ganham Mecânicos 250 38000 8000
em média o mesmo salário. Civis 200 36000 10000
(ii) Os engenheiros mecânicos ganham, em
média R$ 500 a mais do que os civis.
(iii) Os engenheiros mecânicos ganham, em média R$ 1000 a mais do que os civis.
(iv) Os engenheiros mecânicos ganham, em média R$ 2000 a mais do que os civis.
Para testar a hipótese foram extraídas duas amostras aleatórias dos salários dos dois tipos de
profissionais que apresentaram os valores da tabela. Com base, nos valores, responda, justificando,
as seguintes questões:
(24.1) Sem quaisquer, cálculos detalhados, podemos verificar imediatamente, qualquer uma das
hipóteses.
(24.2) Se aplicarmos um teste bilateral a cada uma das hipóteses, quais seriam rejeitadas ao nível
de 5%?
(24.3) Se aplicarmos um teste unilateral a cada uma das hipóteses, quais seriam rejeitadas ao nível
de 5%?

(24.4) Várias hipóteses foram consideradas aceitáveis, ao nível de 5% de significância. Se você

tivesse que escolher apenas uma delas para publicar como conclusão do estudo, por qual optaria?
Por quê?
(25) Calculadoras eletrônicas
Operador 1 2 3 4 5 6 7 8 9 10
utilizam dois métodos diferentes de
entrada e processamento numérico. MA 12 16 15 13 16 10 15 17 14 12
Vamos denominar um dos métodos MP 10 17 18 16 19 12 17 15 17 14
de “método algébrico” (MA) e o
outro de “método polonês” (MP). Para comparar qual deles é mais eficaz é feito um teste com 20
usuários sem experiência prévia com calculadoras, onde 10 vão utilizar calculadoras de um tipo e o
outros 10 as de outro tipo. A tabela mostra o tempo em segundos que cada operador gastou para
realizar um conjunto padrão de cálculos. Testar a hipótese de que não existe diferença entre os dois
métodos no que se refere ao tempo de operação, utilizando uma significância de 5%.
(26) Num ensaio para testar a proteção de dois tipos de tinta em superfícies metálicas, 55 painéis foram
pintados com a tinta PK12 e 75 com a tinta PK15. Decorridos dois anos de exposição dos painéis ao ar
livre, verificou-se que, dos painéis pintados com PK12, 6 apresentaram problemas enquanto que dos
75 painéis pintados com PK15, 19 apresentaram problemas. Pode-se concluir, destes valores, com 5%
de significância, que as duas marcas de tintas diferem quanto a capacidade de proteção?
(27) Um psicólogo defende a idéia de que a autorização para dirigir só deve ser dada a maiores do que
21 anos de idade. Para tanto argumentou que os jovens entre 18 e 21 causam no mínimo 15% a mais
acidentes dos que os de mais de 21 anos. Suas conclusões são baseadas em uma amostra de 150
pessoas entre os 18 e 21 anos, dos quais 60 já haviam se envolvido em algum tipo de acidente. Já entre
os motoristas maiores de 21 anos de 200 observados, 30 já haviam se envolvido em algum tipo de
acidente. (a) Teste a argumentação do psicólogo a um nível de 5% de significância. (b) Qual o
problema que as amostras coletadas pelo psicólogo apresentam?
(28) Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferência dos
consumidores pelo por um determinado produto. No primeiro ano o produto era anunciado com
freqüência semanal nos veículos de comunicação e no segundo ano com freqüência mensal. No
levantamento foram utilizados duas amostras independentes de 400 consumidores cada. No primeiro
ano o percentual de compradores ficou em 33% e no segundo ano em 29%. Considerando o nível de
significância de 5%, teste a hipótese de que a freqüência do anúncio tem influência na manutenção da
fatia de mercado.
(29) Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto
a política salarial é através do desvio padrão de seus salários. A fábrica A diz ser mais coerente na
política salarial do que a fábrica B. Para verificar essa afirmação, sorteou-se uma amostra de 10
funcionários não especializados de A e 15 de B, obtendo-se os desvios padrões: sA = 1,0 s.m. e sB = 1,6
s.m. Qual a sua conclusão a um nível de 5% de significância?
(30) (BUSSAB - pg. 277) Deseja-se comparar a qualidade
de um produto produzido por dois fabricantes. Esta Estatísticas Fábrica A Fábrica B
qualidade está sendo medida pela uniformidade com que é Amostra 21 17
produzido o produto por cada fábrica. Tomaram-se duas Média 21,15 21,12
amostras, uma de cada fábrica, medindo-se o comprimento
Variância 0,0412 0,1734
dos produtos. A qualidade da produção das duas fábricas é a
mesma a um nível de 5%?

4. RESPOSTAS
(01) RC = { 0, 5} α = P(RC) = P{ X = 0 ou X = 5 / π = 0,50} = (1/2)5+ (1/2)5 = 1/16 = 6,25%
(02) RC = { 3 } α = P({ 3 }) = (1/2)3 = 1/8 = 12,50%
β = P(Ac. H0 / H0 é Falsa} = P(X = 0, 1, 2 / π = 0,8} = (1/5)3 + 3(4/5)1 (1/5)2 + 3(4/5)2 (1/5)1 =
48,80%
(03) RC { 4, 5} α = P(RC) = P({ X = 4 ou X = 5 / π = 1/6}) = 13/3888 = 0, 33%
(04) (04.1) RC = { (2, 3), (3, 2), ( 3, 3) } α = P(RC) = 0,20.0,20 + 0,20.0,20 + 0,20.0,20 = 12%
Poder do Teste = 1 - β = P(Rej. H0 / H0 é Falsa} = 0,20.0,40 + 0,20.0,40 + 0,40.0,40 = 32%
(04.2) RC = { (3, 1), (3, 2), ( 3, 3), (1, 3), (2, 3) } α = P(RC) = 5.0,04 = 0,20 = 20%
Poder do Teste = 1 - β = P(Rej. H0 / H0 é Falsa} = 4.0,08 + 0,16 = 0,48 = 48%
(05) RC = { X ≥ 20 / Tetraedro A) α = P(RC) = P({ X ≥ 20 / Tet. A}) ≅ P( Z ≥ (19,5 - 12) / 3) =
0,62%
β = P(Ac. H0 / H0 é Falsa} = P(X < 20 / Tet. B} = 9,68% Poder = 1 - β = 100% - 9,68% = 90,32%
(06) (06.1) n = 2 S/R RC = {BB, PP} α = P(RC) =(3/6).(2/5) + (3/6).(2/5) = 1/5 + 1/5 = 0,40 = 40%
(06.2) n = 2 S/R 1 - β = P(Rejeitar H0 / H0 é falsa)
θ = 0 ou θ = 6 1 - β = P(RC / θ = 0 ) = 1 = 100% = P(R / θ = 6)
θ = 1 ou θ = 5 1 - β = P(RC / θ = 1 ) = (1/6).(0/5) + (5/6).(4/5) = 2/3 = 66,67% = P(RC / θ = 5)
θ = 2 ou θ = 4 1 - β = P(RC / θ = 2 ) = (2/6).(1/5) + (4/6).(3/5) = 7/15 = 46,67% = P(RC / θ = 4)
(06.3) n = 2 C/R RC = {BB, PP} α = P(RC) =(3/6).(3/6) + (3/6).(3/6) = 1/4 + 1/4 = 0,50 =
50%
θ = 0 ou θ = 6 1 - β = P(RC / θ = 0 ) = 0 + 1 = 100% = P(RC / θ = 6)
θ = 1 ou θ = 5 1 - β = P(RC / θ = 1 ) = (1/6).(1/6) + (5/6).(5/6) = 13/18 = 72,22% =
P(RC / θ = 5)
θ = 2 ou θ = 4 1 - β = P(RC / θ = 2 ) = (2/6).(2/6) + (4/6).(4/6) = 5/9 = 55,56% = P(RC / θ = 4)
(06.4) Com reposição o NS (α) é maior do que SR. Por outro lado, repondo o poder do teste é
maior ou igual a quando não se faz reposição.
(07) (07.1) P(Erro I) = P( X A > 176) = P(Z > 176 - 175) = P(Z > 1) = 15,87%
P(Erro II) = P( XB < 176) = P(Z < 176 - 177) = P(Z < -1) = 15,87%
(07.2) P(Erro I) = P( X A > 176) = P[Z > (176 - 175)/0,5] = P(Z > 2) = 2,28%
P(Erro II) = P( XB < 176) = P[Z < (176 - 177)/2] = P(Z < -2) = 2,28%
(07.3) 5% = P(Erro I) = P( X A > 176) = P(Z > 176 - 175) Þ P(Z > x - 175) = 5% Þ x = 176,645.
Neste caso, deve-se rejeitar H0 somente se a média for superior a 176,645.
P(Erro II) = P( XB < 176,645 - 177) = P(Z < -0,36) = 35,94%
(07.4) µB = 178 P(Erro II) = P( XB < 176 - 178) = P(Z < -2) = 2,28%
µB = 180 P(Erro II) = P( XB < 176 - 180) = P(Z < -4) = 0,00%
(08) (08.1) α = P(Rej. H0 / H0 é V) = P( X > 1170 / µ = 1150) = P[Z > (1170 - 1150) / 15)] =
P(Z > 1,33) = 9,18%
(08.2) β = P(Ac H0 / H1 é V) = P( X < 1170 / µ = 1200) = P[Z < (1170 - 1200) / 20)] =
P(Z < -1,50) = 6,68%

(08.3) P[Z > (x - 1150) / 15)] = P[Z < (x - 1200) / 20)] Þ (x - 1150) / 15 = -(x - 1200) / 20 Þ x =
1171,43
(09) x = 5, s2 = 2 t = 6,32 > t5% = 2,132, portanto rejeita H0
(10) (10.1) H0: µ = 8 kg contra H1: µ < 8 kg. Como α = 5%, zα = -1,645 e zc = -2. Logo rejeitar H0
(10.2) β = P(Ac. H0 / H1 é V) = P( X > 7,34 / µ = 7,80) = P(Z < 1,14) = 87,29%
(10.3) H0: µ = 8 kg contra H1: µ < 8 kg. Como α = 1%, zα = -2,33 e zc = -2. Não rejeita H0
(10.4) Aceitar H0 tanto ao nível de 5% quanto ao de 1% de significância.
(11) Como α = 5%, zα = -1,645 e zc = -2. Rejeita-se H0, isto é, pode-se dizer que o programa surtiu
efeito.
(12) Como tc = -0,566, não é possível rejeitar a hipótese aos níveis de 1%, 5% e mesmo 10%. Isto se
justifica devido a grande variabilidade da amostra que apresenta um desvio padrão igual a 675,82.
(13) H0: µ = 57mm contra H1: µ ≠ 57 mm Como tc = -2,557 e tt = -2,042, rejeita-se H0.
(14) H0: π = 10% contra H1: π > 10%. Como zc = 1,18. Logo não se pode rejeitar H0.
(15) H0: π = 20% contra H1: π < 20%. Como zc = -1,75 e z5% = -1,645 . Logo pode-se rejeitar H0.
(16) H0: π = 50% contra H1: π > 50%. Como z5% = -1,645 o número mínimo de acertos é: 50% +
1,645.σP ≅ 59
Como z1% = -2,33 o número mínimo de acertos é: 50% + 2,33.σP ≅ 62
(17) H0: π = 90% contra H1: π < 90%. Como zc = -1,667 e z5% = -1,645 . Logo pode-se rejeitar H0.
(18) Não, pois χ2 = 30,67 está na região de aceitação que é: RA = [13,09; 35,17]
(19) Não, pois χ2 = 11,41 está na região de aceitação que é: RA = [0; 18,3]
(20) H0: µH = µM contra H1: µH < µM. Como α = 5%, tα = -1,645 e tc = -2,936. Rejeitar H0.
(21) H0: µ1 = µ2 contra H1: µ1 ≠ µ2 . Como α = 2,5%, tα = -2,24 e tc = -2,25. Rejeitar H0.
(22) H0: µ1 = µ2 contra H1: µ1 ≠ µ2 . Como α = 5%, t25 = -2,06 e tc = -0,79. Não rejeitar H0
(23) (23.1). Errada. (23.2) Correta. (23.3) Errada. (23.4) Errada. (23.5) Errada.
(24) (24.1) Sim a quarta. (24.2) Somente a (i) (24.3) Somente a (i) e a (ii).
(24.4) A (i) que pode ser confirmada tanto no teste unilateral quanto no bilateral (mais rigoroso)
(25) H0: µ1 = µ2 contra H1: µ1 ≠ µ2 . Como α = 5%, tα = 2,26 e tc = -2,42. Não rejeitar H0, supondo
amostras emparelhadas.
(26) H0: π1 = π2 contra H1: : π1 ≠ π2 . Como zc = 2,20 e z5% = 1,96. Pode-se afirmar que as duas tintas
diferem.
(27) (a) H0: π1 - π2 = 15% contra H1: : π1 - π2 < 15% Como zc = -2,11 e z5% = -1,645 . Logo pode-se
afirmar que os jovens causam pelo menos 15% a mais de acidentes.
(b) O problema é que as amostras tem um vício de origem, pois fica difícil de saber se esta
diferença é devida a imprudência ou ao fato de que os motoristas são menos experientes.
(28) H0: π1 = π2 contra H1: : π1 > π2 Como zc = 1,22 e z5% = 1,645 . Logo não se pode rejeitar H0
(29) Não se pode afirmar que não são iguais, pois FC = 2,56 e a RA = [0,38; 2,65]
(30) Pode-se afirmar que a qualidade difere, pois Fc = 4,21 e RA = [0,37; 2,54]

5. REFERÊNCIAS
[BUS86] BUSSAB, Wilton O, MORETTIN, Pedro A. Estatística Básica. 3. ed. São Paulo, Atual,
1986.
[DOW89] DOWNING, Douglas, CLARK, Jeff. Statistics The Easy Way. Hauppauge (New York):
Barron’s Educational Series, Inc, 1989.
[HIN88] HINKLE, Dennis E., WILLIAM, Wiersma, JURS, Stephen G. Applied Statistics for the
Behavioral Sciences. Boston: Houghton Mifflin Co., 1988.
[HOF80] HOFFMAN, Rodolfo. Estatística para Economistas. São Paulo. Livraria Pioneira Editora,
1980.
[NET77] NETO, Pedro Luiz de Oliveira Costa. Estatística. São Paulo, Edgard Blücher, 1977.
[MAS90] MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And
Economics. IRWIN, Boston, 1990.
[MEY78] MEYER, Paul L. Probabilidade: aplicações à Estatística. Tradução do Prof. Ruy C. B.
Lourenço Filho. Rio de Janeiro, Livros Técnicos e Científicos Editora S.A., 1978
[RES93] Research & Education Association. The Statistics Problem Solver. Piscataway (New Jersey):
1993.
[STE81] STEVENSON, William J. Estatística Aplicada à Administração. São Paulo. Editora Harbra,
1981.
[WEL82] WLKOWITZ, Joan, EWEN, Robert B., COHEN, Jacob. Introductory Statistics for the
Behavioral Sciences. Orlando(FL): Hartcourt Brace Javanovich, 1982.
[WON85] WONNACOTT, Ronald J., WONNACOTT, Thomas. Fundamentos de Estatística. Rio de
Janeiro. Livros Técnicos e Científicos Editora S. A., 1985.

ENG1029 - Marcelo Ruas

Загружено:

Сведения о документе

Исходное описание:

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

ENG1029 - Marcelo Ruas

Загружено:

Авторское право:

Доступные форматы

PROBEST

Reinaldo Castro Souza, PhD

José Daniel Hernández Vásquez, Monitor

 Muitas das técnicas descritas aqui requerem a prévia

 No menu Ferramentas, selecione “Suplementos” e na

 Porque nos permite entender e lidar com a idéia

 Em geral um número em Estatística não é apenas

 Amostra = subconjunto da população cujas características

2) População = automóveis produzidos no Brasil entre 1997 e

3) População = todos os domicílios com TV na

 É economicamente eficiente! Os custos

 Pode-se provar que, para populações

 Você coletou uma amostra e, dentro desta

 Isso se chama estatística inferencial (ou

 Na verdade, a estatística descritiva surgiu

 Esta última depende da especificação de

 Gráficos ("A picture is worth one thousand words")

 No gráfico anterior exibimos o IPC-FIPE (o Índice de

 As prévias quadrissemanais servem como

 No próximo gráfico exibimos os valores (01/2002 a

 Parece que a bolsa subiu muito durante

 Será que isso é mesmo verdade?

 Veja o próximo gráfico, em que

Neste período parece fazer sentido

Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004

 Por que o modelo anterior não funciona?

 No período entre junho de 2003 e março

 O que fazer com todos estes 120 números?

 A coisa mais sensata é fazer um gráfico da

 Além disso, a gente vai perceber que

 O gráfico é muito útil, mas certamente não

 Por exemplo, qual será a temperatura média de

 Podemos pensar nestas, e numa infinidade de

 O primeiro passo é fazer a distribuição de

 O importante é garantir que o número de classes

 Se o número de classes for muito pequeno, fica

 O primeiro passo é ordenar os dados pois facilita

 Geralmente usa-se n igual à raiz quadrada do número total

 Neste exemplo usamos n = 7, por uma questão

 A primeira classe vai de 24 a 26 graus, a segunda

Classe Frequência Frequência Relativa Frequência

 O diagrama de frequências já nos permite

 Veja que outras conclusões você consegue obter

 A partir de um diagrama de frequências podemos

 É automática, mas você precisa ter instalado

 Aliás, este suplemento será muito útil para nós,

Células contendo os limites dos intervalos (não precisam ser

Histograma e Frequência Acumulada

Freq. Relativa Acumulada

Bloco (Produção de energia mensal em % Potência máxima)

 Como fazer um diagrama de Pareto?

2) Crie um eixo vertical no lado direito do seu gráfico

Reinaldo2014-1 P3 Reinaldo2014-1 Reinaldo2014-1

 Taxa de aprovação: 82%

 Com um pouco mais de informação:

 Dado que 𝑃1 ≤ 4 : 53%

 Dado que 𝑃1 ≥ 6 : 95%

 A partir de agora suponha que os dados

 Medidas de Localização ou de tendência

 Média Amostral Condicional: Produção da energia eólica

 Por exemplo, se existem 10 observações na amostra, a

 No Excel é a função med(...)

 Por exemplo, se os seus dados são 1,2,3,4,5, a