Вы находитесь на странице: 1из 64

Captulo 3

O Problema Amostral
Inferncias e Comparaes

No Captulo 2 foram apresentadas diversas distribuies de probabilidade que


representam diferentes problemas em que variveis aleatrias esto envolvidas. No
entanto, esses modelos probabilsticos dependem de parmetros que, na maioria
absoluta das vezes, no podem ser determinados a priori. Por exemplo, na distribuio
binomial descrita pela Equao (2.5), quem o parmetro p? E na distribuio normal
descrita pela Equao (2.53), quem so os parmetros (mdia) e 2 (varincia)?
Repare que uma pessoa desavisada poderia dizer que a mdia e a varincia 2 so os
valores calculados pela definio de mdia da Equao (1.71) e de varincia da Equao
(1.72). No entanto, para que a mdia e a varincia sejam calculadas a partir das
definies introduzidas pelas Equaes (1.71) e (1.72), necessrio que a distribuio
de probabilidades normal da Equao (2.53) esteja perfeitamente definida, o que
significa que e 2 devem ser conhecidos. Essa contradio indica claramente que os
parmetros da distribuio tm que ser obtidos de outra forma, que no a partir das
definies introduzidas nos Captulos 1 e 2. Se o problema analisado tiver carter
multivarivel, como aqueles abordados nas Sees 2.8 a 2.10, o nmero de parmetros
da distribuio pode ser muito grande. Portanto, necessrio desenvolver tcnicas que
permitam inferir os parmetros que descrevem os modelos probabilsticos, para que eles
de fato possam ser teis para a anlise de problemas reais.
Mas por que to importante que se conhea a distribuio de probabilidades
que est associada a um determinado problema? A resposta fundamental dessa questo
que, se as curvas de distribuio de probabilidades que descrevem as flutuaes
aleatrias observadas em certos problemas so conhecidas, ento possvel comparar os
problemas e discriminar aqueles resultados que devem ser (e os que no devem ser)
esperados. O primeiro caso constitui o conjunto de procedimentos chamados de testes
de hipteses. A pergunta tpica que gera esse conjunto de procedimentos : "Ser que
uma certa propriedade ou conjuntos de resultados obtidos das diferentes curvas de
distribuio analisadas podem ser considerados iguais (diferentes)?". Como ser visto
nos prximos captulos, o analista chamado todo o tempo a opinar sobre essa questo,
para saber se um processo ou conjunto de resultados permanece constante ou est
mudando. O segundo caso constitui o conjunto de problemas chamados de
determinao dos intervalos de confiana. A pergunta tpica que gera esse conjunto
de procedimentos : "Qual o conjunto de resultados mais provvel?", ou ainda "Que
resultados podem ser descartados com certo grau de confiana?". Como veremos nos
captulos seguintes, respostas para essas questes permitem racionalizar sobre a
qualidade dos resultados obtidos experimentalmente e sobre o contedo de informao

Captulo 3: O Problema Amostral Inferncias e Comparaes

99

disponvel para anlise. Alm disso, as respostas dessas perguntas quase sempre geram
procedimentos de projeto e rotinas de deciso, como visto no Exemplo 2.3.
Para resolver as questes propostas acima, necessrio amostrar o sistema; isto
, tomar medidas representativas do problema estocstico considerada. O objeto
fundamental desse captulo discutir como medidas experimentais podem ajudar o
analista a definir as distribuies de probabilidade que descrevem as flutuaes
observadas e, dessa forma, permitir a comparao de resultados e a tomada de deciso.

3.1. Definio de Intervalo de Confiana


Para que seja possvel tomar decises, preciso decidir que resultados podem
ser considerados normais (ou seja, tm grande probabilidade de ocorrer) e que
resultados devem ser considerados anormais (ou seja, que tm probabilidade to baixa
de ocorrer que podem ser descartados na grande maioria das vezes). Para tanto, definese como o intervalo de p% de confiana ao conjunto de resultados que, segundo a curva
de distribuio de probabilidades considerada, concentra p% dos resultados admissveis.
Portanto, so descartados os (100p%) resultados menos provveis, sendo (100p%)/2
desses resultados localizados na extremidade inferior e (100p%)/2 desses resultados
localizados na extremidade superior. A Figura 3.1 ilustra esse conceito.

Figura 3.1 - Ilustrao grfica do conceito de intervalo de confiana.


Portanto, se (x1, x2) so os limites de confiana com p% de probabilidade de uma
certa varivel x, descrita por uma curva de densidade de probabilidades (x), ento
PAC ( x1 ) =

x1

( x ) dx =

xmn

PAC ( x2 ) =

x2

( x ) dx = 1

xmn

1 p
2

1 p 1+ p
=
2
2

(3.1)

(3.2)

Captulo 3: O Problema Amostral Inferncias e Comparaes

100

Os exemplos a seguir ilustram o procedimento de anlise proposto.

Exemplo 3.1 - Admita que dois catalisadores industriais distintos seguem diferentes
padres de decaimento de atividade. No primeiro caso, sabe-se que a distribuio de
tempo de vida segue a curva exponencial tpica, na forma
t
exp
10
1 ( t ) =
10
onde t dado em horas. No segundo caso, sabe-se que a distribuio de tempo de vida
segue uma curva gama, na forma

2 ( t ) =

220 19 2t
t e
( 20 )

Comparando-se as mdias e varincias das duas distribuies, obtm-se no


primeiro caso (Equaes (2.29-30))
1T = 10 e 12T = 100
e no segundo (Equaes (2.50-51))
2T = 10 e 22T = 5
Portanto, v-se que, embora os dois catalisadores apresentem tempos mdios de
vida iguais (10 h), o tempo de vida do segundo catalisador muito mais uniforme que o
tempo de vida do primeiro catalisador. Dessa maneira, parece muito mais fcil decidir
sobre o momento de troca do catalisador no processo industrial no segundo caso que no
primeiro. Para ilustrar esse efeito, no primeiro caso o intervalo de confiana de 95%
( p = 0.95 , (1 p ) 2 = 0.025 , (1 + p ) 2 = 0.975 ) para o tempo de vida do catalisador

( 0.25 , 36.89 )95%


1

enquanto para o segundo

( 6.1,14.8)95%
2

Repare que se o nvel de confiana exigido for maior e igual a 98% ( p = 0.98 ,

(1 p )

2 = 0.01 ,
respectivamente:

(1 + p )

2 = 0.99 ), ento os intervalos para cada catalisador so,

( 0.10 , 46.05)98% e ( 5.54 ,15.92 )98%


1

os quais so intervalos de confiana mais largos devido ao aumento no nvel de


confiana exigido. A Figura 3.2 ilustra graficamente as duas distribuies de
probabilidade analisadas.

Captulo 3: O Problema Amostral Inferncias e Comparaes

101

Figura 3.2 - Comparao entre as duas distribuies de tempo de vida dos


catalisadores.

Exemplo 3.2 - Freqentemente necessrio calcular integrais de curvas de densidade


de probabilidade, para cmputo de mdias, varincias, intervalos de confiana, etc. Na
maior parte dos problemas, no entanto, solues analticas no esto disponveis. Temos
portanto que calcular as integrais numericamente.
Muitas tcnicas numricas foram desenvolvidas para o cmputo de integrais e
no se pretende aqui fazer uma reviso dessas tcnicas. Contudo, uma tcnica de
integrao muito simples est ilustrada na Figura (1.22) e nas Equaes (1.66-69). a
chamada tcnica do retngulo para integrao, definida como

xi =

xi +1 + xi
, xi = xmn + ( i 1) x
2
x2

I=

NR

F ( x ) dx F ( xi ) x
i =1

x1

NR =

x2 x1
x

que consiste fundamentalmente em aproximar a integral pela soma das reas dos
retngulos que tm base igual a x (preciso da integrao) e altura igual ao valor da
funo no ponto mdio do intervalo x considerado. Portanto, o clculo das integrais
necessrias para a anlise dos dados no deve ser considerada uma dificuldade
intransponvel. Muito pelo contrrio, essas integrais podem ser calculadas at com certa
facilidade.

Captulo 3: O Problema Amostral Inferncias e Comparaes

102

Por exemplo, seja a curva exponencial do Exemplo 3.1, dada por


t
exp
10
( t ) =
10

cujo valor mdio conhecido e igual a 10. Numericamente, o valor mdio pode ser
obtido na forma

ti
exp

100
NR
10 t
T = t( t ) dt t( t ) dt t i
10
i =1
0
0

ti =

ti +1 + ti
, ti = 0 + ( i 1) t
2
NR =

100 0
t

A Tabela 3.1 ilustra a qualidade dos resultados obtidos para diferentes valores de
t. Observe que a convergncia dos resultados bastante rpida, medida que a
preciso da integrao aumenta (t diminui). Um resduo final observado porque a
integral computada at o limite mximo de 100, que serve como referncia para o
limite superior infinito.

Tabela 3.1 - Convergncia do procedimento de integrao numrica usado para o


clculo da mdia da curva Expon(t; 10).
100
10
5
1
0.5
0.1
0.05
t
1
10
20
100
200
1000
2000
NR
3.369
10.377
10.097
9.999
9.996
9.995
9.995
I

Para fins de tomada de deciso, todo resultado observado que no estiver contido
no intervalo de confiana pode ser considerado anormal (improvvel), de maneira que
ele indica a mudana de comportamento do sistema estudado ou o aparecimento de um
novo fato, at ento desconsiderado. Deve ser enfatizado que, ao se definir o intervalo
de confiana com p% de probabilidade, define-se implicitamente que as decises
estaro erradas (100-p)% das vezes. Portanto, pode-se dizer que o estabelecimento do
nvel de confiana equivalente definio da frao de vezes que um erro pode ser
tolerado. Por exemplo, ao se dizer que uma varivel aleatria est num certo intervalo
95% das vezes, diz-se simultaneamente que ela no est naquele intervalo 5% das vezes
por razes meramente aleatrias. Portanto, ao se dizer que a observao de um valor
fora do intervalo de confiana indica uma mudana, erra-se 5% das vezes.
Erroneamente costuma-se acreditar que, quanto maior o nvel de confiana
exigido, menor o intervalo de confiana. Preste ateno que o resultado correto
exatamente o oposto: quanto maior o nvel de confiana exigido, mais largo o intervalo

Captulo 3: O Problema Amostral Inferncias e Comparaes

103

de confiana. Isso ocorre porque necessrio incluir maior quantidade de resultados


possveis, medida que aumenta o grau de confiana exigido. Isso cria um problema
para o processo de tomada de deciso muito interessante:
a) Para aumentar a confiana e diminuir o risco de erro no processo de tomada de
deciso, aumenta-se o nvel de confiana exigido;
b) medida que se aumenta o nvel de confiana, aumenta-se simultaneamente o
conjunto de resultados possveis e diminui-se o nmero de resultados considerados
pouco provveis, tornando o processo de tomada de deciso sobre o que possvel e
o que no possvel mais difcil.
Por exemplo, considere os resultados obtidos no Exemplo 3.1 com a distribuio
gama. Suponha ainda que foi observada perda de atividade para uma pastilha de
catalisador aps 6 horas de operao. Ser que algo mudou no processo? No limite de
95% de confiana (portanto a probabilidade de tomar uma deciso errada de 5% ou 1
em 20) possvel dizer que algo estranho ocorreu, pois o tempo de vida de 6h pouco
provvel. No entanto, no limite de 98% de confiana (portanto a probabilidade de tomar
uma deciso errada de 2% ou 1 em 50) no possvel dizer que ocorreu mudana no
processo, j que 6h um valor provvel. No limite de 100% de confiana, qualquer
valor seria possvel! Veja que fica muito mais difcil detectar falhas quando o nvel de
confiana exigido sobe, embora as decises sejam sempre tomadas com mais segurana.
Pelas razes discutidas acima, no possvel generalizar nem recomendar de
forma absoluta um nvel timo de confiana para determinao dos intervalos de
confiana e tomada de deciso. Cada processo e cada analista definem o intervalo de
confiana adequado para a anlise executada. Se uma eventual deciso equivocada no
envolve riscos nem custos muito grandes, pode-se trabalhar com nveis de confiana
mais baixos e aumentar a velocidade do processo de deteco de falhas e/ou mudanas
do processo (essa uma estratgia arrojada). Se uma eventual deciso equivocada pode
comprometer seriamente a segurana e/ou a economia do processo, deve-se trabalhar
com nveis de confiana mais altos, sabendo-se que essa estratgia certamente
provocar atrasos no processo de tomada de deciso (essa uma estratgia
conservadora). Os nveis tpicos de confiana utilizados para tomadas de deciso so os
nveis de 90%, 95%, 98% e 99%, com utilizao muito mais freqente dos nveis de
confiana de 95% e 98%.

Exemplo 3.3 - Conforme discutido na seo anterior, a curva normal muito utilizada
para representao de erros de medida. Portanto, muito conveniente determinar os
limites tpicos de confiana para variveis que apresentam flutuaes normalmente
distribudas.
A Tabela A.1 encaminhada no Apndice apresenta as probabilidades da curva
normal, parametrizada na forma

x X
Normal ( u;0.1) , u =

X
onde u representa a varivel x normalizada. A Tabela A.1 s contm as probabilidades
acumuladas de valores positivos de u, uma vez que a curva normal simtrica e

Captulo 3: O Problema Amostral Inferncias e Comparaes

104

PAC ( u ) = 1 PAC ( u )
Para ler a Tabela A.1, considere a linha 1.0 e a coluna 0.05, onde se encontra o
nmero 0.8531. Nesse caso,

PAC (1.05 ) = 0.8531


PAC ( 1.05 ) = 1 0.8531 = 0.1469
Usando a Tabela A.1, para obter o intervalo de confiana de 90%, procura-se o
limite inferior onde PAC(u1) = 0.05 e o limite superior onde PAC(u2) = 0.95. Segundo a
Tabela A.1, u2 1.65 (PAC(1.65) = 0.9505). Pela simetria da curva normal, conclui-se
que u1 -1.65 (PAC(-1.65) = 1 09505 =0.0495). Logo, os limites de 90% de confiana
de uma varivel distribuda normalmente so

x1 = X 1.65 X < x < X + 1.65 X = x2


Usando a Tabela A.1, para obter o intervalo de confiana de 95%, procura-se o
limite inferior onde PAC(u1) = 0.025 e o limite superior onde PAC(u2) = 0.975. Segundo a
Tabela A.1, u2 1.96 (PAC(1.96) = 0.9750). Pela simetria da curva normal, conclui-se
que u1 -1.96 (PAC(-1.96) = 1 09750 =0.0250). Logo, os limites de 95% de confiana
de uma varivel distribuda normalmente so

x1 = X 1.96 X < x < X + 1.96 X = x2


Usando a Tabela A.1, para obter o intervalo de confiana de 98%, procura-se o
limite inferior onde PAC(u1) = 0.01 e o limite superior onde PAC(u2) = 0.99. Segundo a
Tabela A.1, u2 2.33 (PAC(2.33) = 0.9901). Pela simetria da curva normal, conclui-se
que u1 -2.33 (PAC(-2.33) = 1 09901 =0.0099). Logo, os limites de 98% de confiana
de uma varivel distribuda normalmente so

x1 = X 2.33 X < x < X + 2.33 X = x2


Usando a Tabela A.1, para obter o intervalo de confiana de 99%, procura-se o
limite inferior onde PAC(u1) = 0.005 e o limite superior onde PAC(u2) = 0.995. Segundo a
Tabela A.1, u2 2.58 (PAC(2.58) = 0.9951). Pela simetria da curva normal, conclui-se
que u1 -2.33 (PAC(-2.58) = 1 09951 = 0.0049). Logo, os limites de 99% de confiana
de uma varivel distribuda normalmente so

x1 = X 2.58 X < x < X + 2.58 X = x2


Esses limites de confiana sero muito utilizados para anlise de dados ao longo
das sees e captulos posteriores.

3.2. O Problema de Amostragem

Captulo 3: O Problema Amostral Inferncias e Comparaes

105

Os exemplos da seo anterior mostram que, uma vez conhecida a distribuio


de probabilidades que governa um certo problema estocstico, muitas informaes teis
e procedimentos de tomada de deciso podem ser construdos. No entanto, a situao
real muito distinta da situao considerada at aqui, pois quase nunca possvel saber
a priori qual a distribuio de probabilidades que governa um fenmeno. Pior ainda,
mesmo quando a forma da funo de distribuio conhecida, ainda assim os
parmetros que caracterizam a distribuio de probabilidades em geral no so
conhecidos. Para medir grandezas fsicas, como a temperatura, possvel construir
equipamentos de medio, como um termmetro. Infelizmente, no h equipamentos
que possam ser conectados aos problemas fsicos para determinar as curvas de
distribuio de probabilidades dos diferentes problemas. Como proceder ento? A
resposta : EXPERIMENTANDO!!!
A Equao (1.4), reproduzida abaixo, utilizada para definir a probabilidade de
um evento em um problema discreto, mostra que possvel construir um histograma de
probabilidades em um problema discreto a partir da repetio do experimento um
nmero suficientemente grande de vezes. Mas o que um nmero suficientemente
grande de vezes?

fi
pi = lim
fi
NR
fj
j =1

= lim f i
NT NT

(1.4)

Exemplo 3.4 - Uma moeda jogada para o alto vrias vezes e a frao de vezes em que
se obtm o resultado Cara lanada no grfico da Figura 3.3.

Figura 3.3 - Frao de vezes em que se obtm o resultado Cara no experimento da


moeda para vrias simulaes diferentes

Captulo 3: O Problema Amostral Inferncias e Comparaes

106

Os experimentos foram realizados no computador, usando-se a seguinte funo


para gerao de nmeros aleatrios com distribuio uniforme

X k +1 = 11X k Trunc (11X k )


com sementes X1=0.40634930 e X2=0.75832446. A seguinte regra foi usada para decidir
sobre o resultado da simulao: Xk < 0.5 Coroa e Xk > 0.5 Cara. Podem ser
observados grandes desvios do valor nominal, mesmo quando o nmero de
experimentos bastante grande. Portanto, o infinito pode estar realmente longe!!!! Isso
indica de forma clara uma vez mais que no realista acreditar que as distribuies de
probabilidade possam ser construdas unicamente da medida de dados experimentais, j
que um nmero de repeties extremamente elevado pode ser necessrio.

Exemplo 3.5 - Uma forma conveniente de gerar curvas de probabilidade acumulada em


problemas contnuos a partir da experimentao admitir uma vez mais a validade da
regra de integrao por retngulos. Nesse caso, admitindo-se que vrios valores foram
medidos e foram organizados de forma crescente
X 1 X 2 X 3 ... X N 1 X N
pode-se admitir que cada um desses valores limita um intervalo de igual probabilidade,
dado que foram esses os intervalos amostrados pela repetio do experimento. Repare
que essa argumentao extremamente questionvel, dado que a repetio do
procedimento de medida, de forma geral, no resultar na mesma seqncia de valores.
No entanto, se essa argumentao aceita, ento

PAC ( X i ) =

i
N +1

onde o denominador (N+1) designa o nmero de intervalos contnuos definidos pelos N


pontos amostrados. Se a mesma funo de gerao de nmeros aleatrios definida no
Exemplo 3.4 e as mesmas sementes so usadas para gerar os pontos experimentais,
obtm-se os resultados apresentados na Figura 3.4. Deve ser observado como as curvas
de densidade acumulada so diferentes nos diferentes procedimentos de amostragem,
mesmo quando 40 pontos experimentais distintos so amostrados. Isso indica uma vez
mais que no realista acreditar que as distribuies de probabilidade possam ser
construdas unicamente da medida de dados experimentais, j que um nmero de
repeties extremamente elevado pode ser necessrio.

Captulo 3: O Problema Amostral Inferncias e Comparaes

107

Figura 3.4 - Probabilidade acumulada de pontos gerados pelo gerador de pontos


pseudo-aleatrios no Exemplo 3.3, admitindo-se que os intervalos so igualmente
provveis.
Portanto, verifica-se uma vez mais que o infinito pode estar realmente longe!!!!

Os Exemplos 3.4 e 3.5 mostram que, mesmo em problemas muito simples, o


nmero de repeties experimentais necessrias para se construir um histograma ou
uma curva de densidade de probabilidades com preciso pode ser muito grande. Na
maior parte dos problemas de interesse da engenharia e das cincias bsicas, no
possvel realizar tantos experimentos por causa do tempo e do custo necessrio para a
experimentao. Dessa forma, o analista tem que conviver com muitas incertezas a
respeito da distribuio real de probabilidades que pode ser associada a um problema
fsico. Por isso, muito freqentemente hipteses so formuladas a respeito de como as
curvas de distribuio de probabilidade regulam a flutuao de grandezas fsicas reais,
como mostrado no Captulo 2. Conseqentemente, dificuldades adicionais podem
aparecer durante o processo de tomada de deciso, j que algumas medidas flutuam
aleatoriamente, j que no se conhece com suficiente preciso a curva de distribuio de
probabilidades que governa o problema e uma vez que as hipteses formuladas no so
necessariamente verdadeiras.
Nesse contexto, o uso de modelos de distribuio de probabilidades, como
aqueles apresentados no Captulo 2, bastante conveniente, pois reduz a busca da
distribuio de probabilidades busca de uns poucos parmetros que so necessrios
para descrev-los. Infelizmente, no entanto, na grande maioria das vezes os modelos so
escolhidos sem grande fundamentao terica ou experimental e muito pouca ateno
tem sido dada na literatura tcnica s conseqncias prticas que podem resultar de uma
escolha mal feita do modelo de distribuio de probabilidades. Por isso, h que se ter
cuidado na hora de escolher o modelo mais adequado para descrever as flutuaes
observadas. (Testes de aderncia sero formulados nesse e nos prximos captulos para

Captulo 3: O Problema Amostral Inferncias e Comparaes

108

ratificar ou no o modelo de distribuio de probabilidades utilizado para descrever os


fenmenos fsicos. Como veremos, essa escolha fundamental para a correta
formulao dos problemas de estimao de parmetros e planejamento experimental.)

3.1.1. Mdias e Varincias Amostrais


Como mostrado no Captulo 2, na maior parte dos modelos analticos de
distribuies de probabilidades possvel fazer uma associao direta entre os
parmetros do modelo e os valores da mdia e da varincia. Como esses valores so
extremamente importantes para caracterizar em torno de que valores e de quanto
flutuam os dados experimentais, parece claro que o problema fundamental de ajuste da
maior parte dos modelos probabilsticos, e em particular da curva normal, a
determinao da mdia e da varincia a partir dos dados experimentais amostrados.
Portanto, admitamos a princpio que um certo conjunto de valores amostrais x1, x2, ...,
xN foi obtido a partir da repetio de um certo experimento aleatrio. A questo
fundamental ento : como obter X e X2 a partir desse conjunto de dados amostrados?
De acordo com as Equaes (1.7) e (1.71), reproduzidas abaixo, o valor mdio
pode ser obtido a partir do histograma ou da densidade de probabilidades como:
NR

X = pi xi

(1.7)

i =1

X =

xmax

x( x ) dx

(1.71)

xmin

No entanto, de acordo com a discusso dos pargrafos anteriores, no se


conhecem as distribuies reais de probabilidade do problema, mas apenas um conjunto
de dados amostrados. Como conciliar ento a realidade e os objetivos pretendidos? Para
isso, formulemos a seguinte hiptese:

Hiptese Fundamental 1.1 - A Hiptese do Experimento Bem Feito


Admita que cada valor experimental pode ser obtido de forma semelhante, seguindo
procedimentos idnticos de experimentao e sem vcios na execuo dos experimentos.
Assim, admita que as flutuaes observadas encerram a realidade da natureza
experimental do problema e no so influenciadas por erros ou vcios cometidos pelo
analista. Nesse caso, cada dado representa igualmente a grandeza experimental
desconhecida, em torno da qual as observaes experimentais flutuam. Portanto, cada
observao experimental pode ser considerada igualmente provvel e a cada uma das
observaes x1, x2, ..., xN pode ser associada a mesma probabilidade pi = 1 N de que
este seja o melhor valor para representar a medida fsica real.

Se a hiptese do experimento bem feito aceita, ento, por analogia direta com a
Equao (1.7), possvel escrever:

Captulo 3: O Problema Amostral Inferncias e Comparaes

109

xi

1
i =1
X = pi xi = xi =
N
i =1
i =1 N
N

(3.3)

onde X a chamada mdia amostral do conjunto de dados. Antes que se seja tentado
a confundir X com X, conveniente perceber os resultados apresentados no exemplo
abaixo.

Exemplo 3.6 - Nas Tabelas 3.2 e 3.3 apresentam-se as mdias amostrais calculadas para
os problemas analisados nos Exemplos 3.4 e 3.5.
Tabela 3.2 - Mdias amostrais obtidas no Exemplo 3.4.
10
20
40
80
160
N

1
2
1
2
1
2
1
2
1
2
Semente
0.500
0.400
0.600
0.450
0.500
0.425
0.538
0.438
0.513
0.506
0.500
X
Tabela 3.3 - Mdias amostrais obtidas no Exemplo 3.5.
10
20
40
80
160
N

1
2
1
2
1
2
1
2
1
2
Semente
0.518 0.483 0.559 0.422 0.512 0.488 0.547 0.516 0.521 0.513 0.500
X
Observe que a mdia amostral flutua de experimento para experimento em torno
da mdia verdadeira, igual a 0.500 em ambos os casos. A mdia amostral, portanto, no
deve ser confundida com a mdia real da distribuio de probabilidades amostrada, que
o analista a princpio desconhece.

O Exemplo 3.6 mostra claramente que a mdia amostral X flutua e, por isso,
no deve ser confundida com a mdia verdadeira X da distribuio. (Se houver dvidas
a esse respeito, lembre que o valor mdio do experimento dos dados 3.5, como
mostrado no Exemplo 1.4. No entanto, parece perfeitamente normal jogar o dado trs
vezes e obter o nmero 1 trs vezes seguidas, resultando na mdia amostral X =1.)
Mais ainda, se a mdia amostral flutua de experimento para experimento (nesse caso o
experimento consiste em tomar amostras de tamanho N), ela tambm uma varivel
aleatria, assim como os dados amostrados xi. Portanto, a mdia amostral X deve ser
encarada como uma varivel aleatria que flutua em torno de certo valor mdio e com
certa varincia, que devem a princpio ser caracterizados, assim como a distribuio de
probabilidades que descreve as flutuaes de X . Mas certamente a conseqncia mais
importante dessa discusso que no devemos ter esperanas de obter o valor real da
mdia X, a no ser que tenhamos a distribuio real de probabilidades do problema, o
que, segundo a discusso apresentada na seo anterior, de maneira geral no possvel.
Dessa forma, se tivermos que obter informaes sobre o problema a partir da
experimentao (amostrando), nunca saberemos qual o valor verdadeiro da mdia
X .
Embora a discusso anterior parea um pouco frustrante, ela coloca a
perspectiva verdadeira que o experimentador deve ter em relao aos dados obtidos a

Captulo 3: O Problema Amostral Inferncias e Comparaes

110

partir da observao experimental. No apenas os dados flutuam, em funo dos


diversos erros experimentais apresentados nas sees iniciais, como tambm os valores
obtidos a partir da manipulao desses dados, como a mdia amostral, tambm flutuam.
Dessa forma, o experimentador tem que aprender a conviver com essas incertezas e a
caracterizar as flutuaes com que convive. Em particular, para o procedimento de
clculo da mdia amostral possvel escrever as seguintes propriedades.

Propriedade 3.1 - Se os experimentos xi, i=1...N, so todos realizados em condies


idnticas e flutuam em torno da mdia verdadeira X, a mdia amostral X tambm
flutua em torno do valor mdio verdadeiro X.
N
xi 1 N
X = i = 1 = xi =
N N i =1

{ }

{x }
i

i =1

i =1

= X

(3.4)

Repare que a Propriedade 3.1 (Equao (3.4)) d o alento de garantir que,


embora o valor da mdia amostral no possa ser confundido com o valor da mdia real,
na mdia o valor da mdia amostral igual ao valor da mdia real. (Observe como a
propriedade de linearidade da mdia foi til para escrever a Equao (3.4).) Isso
significa que, se o experimento usado para obteno da mdia amostral for repetido
infinitas vezes, na mdia o experimento resultar na obteno da mdia real. No entanto,
na prtica o experimento ser realizado UMA NICA VEZ, para uma amostra de
tamanho N. Por isso, a Propriedade 3.1 no garante a obteno do valor mdio
verdadeiro para um conjunto finito de experimentos, mas garante a consistncia do
procedimento experimental usado. Podemos ao menos garantir que a mdia amostral
flutua em torno do valor mdio verdadeiro. No entanto, como ambos xi e X flutuam ao
redor da mesma mdia verdadeira X, qual seria ento a utilidade de se calcular a mdia
amostral? A Propriedade 3.2 responde a essa pergunta.

Propriedade 3.2 - Se as medidas experimentais xi, i=1,...,N, so medidas independentes


( X2 i , X j = 0, i j ) realizadas em condies idnticas e flutuam todas em torno da
mesma mdia verdadeira X com varincia X2 , ento a mdia amostral X flutua em
torno do valor mdio verdadeiro X com varincia igual a X2 = X2 N .

Captulo 3: O Problema Amostral Inferncias e Comparaes

{ }

{(

Var X = X X

)}
2

N
xi

= i = 1 X
N

xi N X

i =1
=
N

111

2
2
1 N
1 N

xi N X = 2 ( xi X ) =
N 2 i = 1
N i = 1

(3.5)

1 N N
1 N N

(
)
(
)

= 2 ( x j X ) ( xi X ) =

j
X
i
X
N 2 i = 1 j =1
N i = 1 j =1
N X2 X2
1 N N 2
1 N 2
=
=
=

X
,
X
X
N 2 i = 1 j =1 i j N 2 i = 1 i
N2
N

A Propriedade 3.2 (Equao (3.5)) extremamente importante porque ela mostra


de forma inequvoca que a varincia da mdia amostral inversamente proporcional ao
tamanho da amostra considerada. Logo, quanto maior o tamanho N da amostra a partir
da qual foi obtido o valor da mdia amostral, menor o nvel de incerteza desse valor.
Assim, a grande utilidade do clculo do valor amostral mdio a reduo do contedo
de incerteza sobre o valor da mdia real X. (Observe que o Exemplo 2.13 ilustra bem
esse efeito de reduo da incerteza com o aumento de N.) possvel inclusive planejar o
tamanho da amostra para que se tenha um nvel especificado de flutuao no valor da
mdia amostral, se uma avaliao da varincia experimental de uma nica medida
conhecida. No entanto, o contedo de incerteza s vai para zero no limite em que N vai
a infinito, o que impossvel do ponto de vista prtico. Dessa forma, sempre haver
algum contedo de incerteza sobre o valor real de X.

Exemplo 3.7 - Suponha que a cada medida xi, i=1,...,N, de uma mesma populao
associado o peso wi, i=1,...,N. Suponha ainda que
N

X = wi xi
i =1

0 < wi < 1
N

=1

i =1

Nesse caso, a Propriedade 3.1 pode ser escrita na forma:


N
N
N
N
X = E wi xi = wi { xi } = wi X = X wi = X
i =1
i =1
i =1
i =1

{ }

enquanto a Propriedade 3.2 pode ser escrita como

Captulo 3: O Problema Amostral Inferncias e Comparaes

{ }

{(

Var X = X X

)}
2

112

2
2
N
N


= E wi xi X = wi ( xi X ) =


i =1
i = 1

N N
N N
wi w j ( x j X ) ( xi X ) = wi w j ( x j X ) ( xi X ) =
i = 1 j =1
i = 1 j =1

w w
i

i = 1 j =1

2
Xi , X j

= wi2 X2 = X2 wi2 < X2


i

i =1

i =1

de maneira que qualquer mdia ponderada dos dados amostrados flutua em torno do
valor mdio X com varincia inferior dos dados amostrados. Isso mostra que h um
certo grau de arbitrariedade na definio da mdia amostral da Equao (3.3), j que
qualquer mdia ponderada dos nmeros amostrados tambm satisfaz as Propriedades
3.1 e 3.2 definidas anteriormente. Por isso, retornaremos a esse problema no Captulo 4,
para aumentar um pouco mais a significao terica da Equao (3.3).

A mesma discusso apresentada para a mdia amostral pode ser agora estendida
para a medida amostral da varincia. Nesse caso, as Equaes (1.36) e (1.72),
reproduzidas abaixo

NR

2
XX
= Var {x} = E ( xi X ) = pi ( xi X )

2
XX
=

xmax

(1.36)

i =1

( x ) ( x ) dx
2

(1.72)

xmin

e a hiptese do experimento bem feito sugerem a seguinte definio para a varincia


amostral, s X2

(x X )
N

s X2 = pi xi X
i =1

) = N1 ( x X )
2

i =1

i =1

(3.6)

No entanto, antes que a Equao (3.6) seja aceita como medida adequada da
varincia amostral (o que de fato ela no , como ser mostrado ao longo desta seo),
conveniente observar o Exemplo 3.8.

Exemplo 3.8 - Nas Tabelas 3.4 e 3.5 apresentam-se as varincias amostrais calculadas a
partir da Equao (3.6) para os problemas analisados nos Exemplos 3.4 e 3.5.
Tabela 3.4 - Varincias amostrais obtidas no Exemplo 3.4.
10
20
40
80
160
N

1
2
1
2
1
2
1
2
1
2
Semente
2
0.250 0.240 0.240 0.248 0.250 0.244 0.249 0.246 0.249 0.250 0.250
sX

Captulo 3: O Problema Amostral Inferncias e Comparaes

113

Tabela 3.5 - Varincias amostrais obtidas no Exemplo 3.5.


10
20
40
80
160
N

1
2
1
2
1
2
1
2
1
2
Semente
2
0.137 0.094 0.107 0.084 0.098 0.078 0.083 0.082 0.083 0.083 0.083
sX
Observe que a varincia amostral flutua de experimento para experimento em
torno de valores prximos das varincias verdadeiras, iguais a 0.250 no primeiro caso e
0.083 no segundo caso. A varincia amostral, portanto, no deve ser confundida com a
varincia real da distribuio de probabilidades amostrada, que o analista a princpio
desconhece.

Assim como no caso da mdia amostral, o Exemplo 3.8 mostra claramente que a
varincia amostral s X2 flutua e, por isso, no deve ser confundida com a varincia
verdadeira X2 da distribuio. Mais ainda, se a varincia amostral flutua de
experimento para experimento (nesse caso o experimento consiste em tomar amostras
de tamanho N), ela tambm uma varivel aleatria, assim como os dados amostrados
xi. Portanto, a varincia amostral tambm deve ser encarada como uma varivel
aleatria que flutua em torno de certo valor mdio e com certa varincia, que devem a
princpio ser caracterizados, assim como a distribuio de probabilidades que descreve
as flutuaes de s X2 . Como no caso da mdia amostral, no devemos ter esperanas de
obter o valor real da varincia X2 , a no ser que tenhamos a distribuio real de
probabilidades do problema, o que de maneira geral no possvel, como j discutido.
Dessa forma, se tivermos que obter informaes sobre o problema a partir da
experimentao (amostrando), nunca saberemos qual o valor verdadeiro da varincia
X2 . No entanto, como no caso anterior e mostrado a seguir, possvel escrever um
conjunto de propriedades bastante teis para a varincia amostral.

Propriedade 3.3 - Se os experimentos xi, i=1...N, so realizados de forma independente


em condies idnticas e flutuam em torno da mdia verdadeira X com varincia X2 , a
Equao (3.6) NO fornece uma avaliao consistente da varincia amostral, sendo
necessrio reescrever a Equao (3.6) na forma:

(x X )
N

s X2 =

i =1

N 1

(3.7)

A varincia amostral definida pela Equao (3.7) flutua em torno do valor real da
varincia X2 .
Para mostrar a Propriedade 3.3, conveniente primeiramente abrir a Equao
(3.7) em termos dos desvios em relao mdia verdadeira, em geral desconhecida.
Assim,

Captulo 3: O Problema Amostral Inferncias e Comparaes

(x X )
N

s X2 =

N x

j
x

N
i = 1
j =1
=
=
N
N

i =1

114
2

Nx

i xj

i = 1
j =1
=
3
N
N

N ( xi X ) ( x j X )

i = 1
j =1
=
3
N
N

N
N

2
2
( x j X ) + ( x j X )
N ( xi X ) 2 N ( xi X )
i = 1
j =1
j =1

=
3
N
N

(x )
i

i =1

(3.8)

( x ) ( x

2
N2

i =1 j =1

(x )
i

X ) +

1 N N N
( x j X ) ( xk X ) =
N 3 i =1 j =1 k =1

i =1

1
N2

( x ) ( x
i

i =1 j =1

X )

Agora, o valor mdio da Equao (3.8) pode ser calculado como

{( x ) }
N

{ }

E s X2 =

i =1

1
N2

{( x ) ( x
N

i =1 j =1

X ) =
(3.9)

i =1

2
Xi

1
N2

X2 , X =
i =1 j =1

N X2
1
2
N
N

X2 =
i =1

N X2 N X2 ( N 1) 2

=
X
N
N2
N

Repare que a Equao (3.9) mostra que, na mdia, a Equao (3.6) leva um valor
de varincia amostral menor que o valor da varincia real do problema. Esse um
defeito inaceitvel do procedimento de inferncia do valor real da varincia. Para
corrigir o resultado, no entanto, o procedimento a seguir muito fcil: basta
multiplicarmos o resultado obtido por N e dividirmos o resultado por (N-1), o que
resulta na Equao (3.7) e na Propriedade 3.3. Diz-se, portanto, que a varincia amostral
definida na Equao (3.7) uma avaliao consistente da varincia real do problema.
Deve ficar bem claro que a necessidade de apresentar o valor (N-1) no denominador da
Equao (3.7) nada tem de arbitrrio - muito pelo contrrio. exatamente essa correo
que permite obter, na mdia, uma inferncia consistente da varincia real do problema a
partir dos dados amostrados. O valor (N-1) chamado de nmero de graus de
liberdade do problema, representado usualmente por . Como no caso da mdia
amostral, o fato da Equao (3.7) fornecer uma medida consistente da varincia no
significa que a varincia amostral obtida em um problema particular igual varincia
verdadeira e desconhecida do problema. Para que isso fosse verdade, seria necessrio
obter a mdia a partir de infinitas repeties do problema fsico investigado, o que no
possvel. Portanto, nunca saberemos de fato qual o valor real da varincia do problema
a partir de dados amostrados. No entanto, a Equao (3.9) oferece ao menos o consolo

Captulo 3: O Problema Amostral Inferncias e Comparaes

115

de que o valor obtido para a varincia amostral a partir da Equao (3.7) flutua ao redor
do valor verdadeiro da varincia.

Propriedade 3.4 - Se os experimentos xi, i=1...N, so realizados de forma independente


em condies idnticas e flutuam em torno da mdia verdadeira X com varincia X2 ,
ento a varincia amostral descrita pela Equao (3.7) flutua em torno de X2 com
varincia igual a:

{ }

{(

Var s X2 = E s X2 X2

) } = N2 1 1 + N2 N 1 ( k
4
X

4
X

(3.10)

onde kX a kurtose, definida na Equao (1.57).


A Equao (3.10) pode ser mostrada com facilidade substituindo-se a Equao
(3.8) no lado esquerdo da Equao (3.10) e efetuando-se as operaes necessrias. Essa
demonstrao fica deixada como exerccio para o leitor interessado por causa do
excessivo nmero de manipulaes algbricas necessrias. Contudo, a Equao (3.10)
muito importante porque ela indica de forma inequvoca que o nvel de flutuao da
varincia amostral cai continuamente, medida que aumenta o tamanho do conjunto de
dados amostrados, convergindo para zero quando N vai a infinito. Dessa maneira,
quanto maior o tamanho do conjunto amostral, maior a preciso com que se obtm o
valor da varincia amostral. Para o caso muito especfico em que os dados amostrados
seguem uma distribuio normal, ento k X4 = 3 (Esse um resultado clssico para a
curva normal. Lembre-se que a curva normal uma curva bi-paramtrica, de maneira
que, fixados mdia e varincia, todos os demais momentos da curva de distribuio
ficam tambm automaticamente fixados.) e a Equao (3.11) ganha a forma mais
simples

Var {s X2 } = E ( s X2 X2 )

2 X4
N 1

(3.11)

Observe que as Equaes (3.7) e (3.10-11) mostram que impossvel fazer


qualquer inferncia sobre a varincia real de um problema se apenas um dado medido
(N-1 = = 0). Esse resultado obviamente pertinente, pois no possvel ter mesmo
qualquer noo de espalhamento dos dados se apenas um dado experimental est
disponvel.
A Equao (3.7) pode ser ento utilizada automaticamente para descrever o
desvio padro amostral,
s X = s X2

(3.12)

a covarincia amostral,

( x X )( y Y )
N

2
XY

i =1

N 1

(3.13)

Captulo 3: O Problema Amostral Inferncias e Comparaes

116

e o coeficiente de correlao amostral,


rXY =

2
s XY
s X sY

(3.14)

De forma similar mostrada nos casos anteriores, as Equaes (3.12-14)


definem formas consistentes de avaliar as grandezas de interesse para a anlise a partir
de dados amostrados. Tambm de forma similar, essas grandezas amostrais devem ser
encaradas como variveis estocsticas, sujeitas a flutuaes que convergem para zero
quando o tamanho do conjunto de dados amostrados vai para infinito.

Exemplo 3.9 - A covarincia amostral, definida pela Equao (3.13), pode ser colocada
na forma

N ( x ) ( x
2
s XY
=

i =1

j =1

X ) N ( yi Y ) ( y j Y )
j =1

2
N ( N 1)

e
N
N

N
x

N
y

(
)
(
)
(
)
( y j Y )

i
X
j
X
i
Y
i =1
j =1
j =1

=
=
2
N ( N 1)
N

2
s XY

N 2 ( xi X )( yi Y )
i =1

( N 1)

N ( xi X ) ( y j Y )
i =1 j =1

N 2 ( N 1)

( x ) ( y
i

Y )

k =1 i =1 j =1

N 2 ( N 1)
N

( x )( y )
i

i =1

( N 1)

N ( xi X ) ( y j Y )
i =1 j =1

N 2 ( N 1)

Aplicando o operador de mdia e admitindo que as medidas xi e yi obtidas de um


mesmo experimento podem estar correlacionadas entre si, mas no com medidas de
experimentos distintos, ento
N

{ }=

2
XY

N 2 {( xi X )( yi Y )}
i =1

N 2 ( N 1)
N

2
N 2 XY
i =1

N 2 ( N 1)

i =1 j =1

N 2 ( N 1)

2
N XY
i =1

N ( xi X ) ( y j Y )

N 2 ( N 1)

2
= XY

Captulo 3: O Problema Amostral Inferncias e Comparaes

117

que mostra que a Equao (3.13) de fato permite uma inferncia consistente da
covarincia entre dois conjuntos de dados.

3.3. Distribuies e Intervalos de Confiana de Grandezas Amostrais


Como as grandezas amostrais devem ser encaradas como variveis aleatrias e
sujeitas a flutuaes, cuja varincia depende do tamanho N do conjunto amostrado,
torna-se pertinente perguntar sobre a forma da curva de distribuio que governa as
flutuaes das grandezas amostrais. De maneira geral, essa pergunta pode ser
respondida atravs do procedimento ilustrado abaixo para uma funo genrica dos
pontos amostrais.
Seja uma funo genrica dos pontos amostrais definida como f(x1,...,xN).
Suponha que possvel explicitar a dependncia inversa do valor de xN, para que o valor
de f(x1,...,xN) atinja um valor especificado f1 na forma xN = g(x1,...,xN-1,f1). Ento a
seguinte igualdade pode ser escrita
g ( x1 ,..., xN 1 , f2 )

f f ( f ) df = x( x1 )...x ( xN 1 ) ( xN ) dxN dxN 1...dx1


1
N 1
1
g ( x1 ,..., xN 1 , f1 )

f2

(3.15)

onde so feitas (N-1) integraes sobre as (N-1) variveis que podem flutuar
independentemente para gerar os valores especificados da funo f e uma integrao
sobre o valor de xN, que especifica de fato os valores desejados de f. Se f1 o valor
mnimo admissvel para a funo f(x1,...,xN), ento a Equao (3.15) pode ser rescrita
como
g ( x1 ,..., xN 1 , f2 )

PAC ( f 2 ) = ( x1 )... ( xN 1 )

x
dx
(
)
N
N dxN 1 ...dx1

x1
x N 1
g ( x1 ,..., xN 1 , f1 )

(3.16)

cuja derivao gera a curva de densidade de probabilidades f de f(x1,...,xN).


Para ilustrar de forma mais clara o uso das Equaes (3.15-16), suponha que se
deseja conhecer a funo densidade de probabilidades da mdia entre dois pontos,
obtidos segundo uma distribuio de probabilidades arbitrria (x). Nesse caso, desejase conhecer a funo distribuio de probabilidades da seguinte transformao
f ( x1 , x2 ) = X =
que resulta na transformao inversa

x1 + x2
2

Captulo 3: O Problema Amostral Inferncias e Comparaes

118

g x1 , X = x2 = 2 X x1
Obviamente, o valor mnimo de X o valor mnimo de xi, de maneira que

( )

2 X x1

x
dx
( 1 ) 2 x x ( 2 ) 2 dx1
xmn
mn 1

xmx

PAC X =

Procedimentos semelhantes podem ser gerados para as demais variveis


amostrais. Dessa forma, o importante perceber que a densidade de probabilidades de
uma grandeza calculada a partir de variveis aleatrias (e, portanto, essa grandeza
tambm a princpio uma varivel aleatria) pode ser obtida a partir de procedimentos
matemticos bem definidos. Isso no significa dizer que solues analticas esto
sempre disponveis, dado que as transformaes matemticas so complexas e muitas
vezes intratveis analiticamente.

Exemplo 3.10 - Para a distribuio uniforme no intervalo (0,1), mostram-se a seguir as


funes de densidade de probabilidade para a mdia e a varincia amostrais obtidas a
partir de dois pontos. Para a mdia amostral

PAC

2 X x1

X = dx2 dx1

0 0

( )

preciso lembrar que a distribuio uniforme igual a zero fora do intervalo


(0,1), de maneira que as seguintes relaes de desigualdade precisam ser satisfeitas:
0 < x1 < 1 ,

0 < 2 X x1 < 1
ou
0 < x1 < 1 ,

2 X 1 < x1 < 2 X
Mas s possvel satisfazer ambas as desigualdades se
0 < x1 < 2 X

se X < 0.5

2 X 1 < x1 < 1 se X > 0.5


Portanto, para o caso da mdia amostral, resulta que
2X

( )

PAC X =

2X
2 X x1

2
dx2 dx1 = 2 X x1 dx1 = 2 X se X < 0.5

Captulo 3: O Problema Amostral Inferncias e Comparaes


2 X 1

( )

PAC X =

1 2 X x1

dx
dx
dx
+
2 1
0 2 dx1 =
0

2 X 1

2 X 1

dx1 +

se X > 0.5
2

2 X 1

119

2 X x1 dx1 = 4 X 2 X 1

e portanto

( )
( X ) = 4 4 X
X = 4X

se X < 0.5
se X > 0.5

que a distribuio triangular do Exemplo 1.13. Logo, a distribuio triangular do


Exemplo 1.13 pode ser interpretada como a distribuio da mdia de dois pontos
obtidos a partir da distribuio uniforme. Observe que a distribuio triangular
concentra os valores da mdia amostral ao redor de 0.5 mesmo quando as medidas
isoladas esto uniformemente distribudas no intervalo [0,1], como descrito pela
Propriedade 3.2.
No caso da varincia amostral, conveniente ver primeiramente que o valor
mnimo admissvel para a varivel igual a zero, obtido quando os dois pontos
amostrados so iguais. Alm disso,
2

x1 + x2
x1 + x2
x1 x2 x2 x1
2
x1 2 + x2 2
2 + 2
x x

s X2 =
=
= 2 1 2
1
1
2
2

de tal maneira que, para qualquer valor especificado de s X2 , valores menores que esses
so encontrados no intervalo

x1 2 s X2 < x2 < x1 + 2 s X2
Dessa forma, a Equao (3.16) pode ser escrita como

( )

PAC s X2

x1 + 2 s2X

=
dx2 dx1 , s X2 < 0.5

0
x1 2 s2X

Como no problema anterior, necessrio garantir que


0 < x1 < 1 ,

x1 2 s X2 > 0 ,
x1 + 2 s X2 < 1
ou

Captulo 3: O Problema Amostral Inferncias e Comparaes

120

0 < x1 < 1 ,
x1 > 2 s X2 ,

x1 < 1 2 s X2
que s podem ser satisfeitas se

2s X2 < x1 < 1 2s X2 , s X2 < 0.5


Para que a desigualdade acima seja satisfeita, necessrio que

2s X2 < 1 2s X2 , s X2 < 0.125


Portanto

( )

PAC s

2
X

x1 + 2 s2X

1 2 s 2X

=
dx2 dx1 +

0
0
2 s 2X

+
dx2 dx1

1 2 s 2X x1 2 s 2X

2 s 2X

x1 + 2 s2X

dx2 dx1 +

x1 2 s X

, s X2 < 0.125

x1 + 2 s2X

2 s 2X
1

dx
dx
+
dx2 dx1 +

2
1

0
0

1 2 s 2X

, 0.125 < s X2 < 0.5


1

dx
2 dx1

2
x1 2 s X

1 2 s 2X

( )=

PAC s

2
X

2 s 2X

resultando em

( )

PAC s X2 = 2

2 s X2 s X2 , 0 < s X2 < 0.5

e portanto

s X2 = 2
1 , 0 < s X2 < 0.5
2s 2

( )

que mostra que as varincias amostrais pequenas so mais provavelmente obtidas que as
varincias amostrais grandes. A curva de densidade inclusive singular no ponto s X2 =0.

Captulo 3: O Problema Amostral Inferncias e Comparaes

121

O Exemplo 3.10 mostra que, mesmo em problemas supostamente muito simples,


a obteno formal das curvas de distribuio que descrevem as flutuaes de grandezas
amostrais pode ser muito complexa. Isso se deve ao fato de que mltiplas combinaes
de resultados podem levar aos mesmos valores amostrais. Por isso, optamos nesse texto
em apresentar os resultados clssicos da literatura, sem mostrar os procedimentos que
tornam possvel a obteno dessas solues. O leitor interessado pode consultar a
literatura adicional apensada ao final do captulo para informaes matemticas mais
detalhadas a esse respeito.
interessante observar, no entanto, que o computador pode auxiliar bastante a
tarefa numrica de gerar as curvas de distribuio de probabilidades, uma vez fixadas a
distribuio de probabilidades da varivel amostrada e o tamanho N do conjunto de
dados, como mostrado no Exemplo 2.13. Para tanto, pode-se utilizar o procedimento
numrico descrito a seguir. O procedimento, normalmente chamado de Procedimento
de Monte Carlo, consiste em gerar muitos nmeros aleatrios (ND nmeros, com ND
da ordem de milhares) que seguem a distribuio de probabilidades estudada e computar
as grandezas amostrais a partir de conjuntos contendo N desses dados. Dessa forma,
muitos valores so obtidos para as grandezas amostrais a partir de N dados que seguem
a distribuio considerada. Obtm-se assim uma amostra fidedigna da distribuio das
grandezas amostrais. As curvas de probabilidade acumulada podem ento ser obtidas,
como mostrado nos Exemplos 2.13 e 3.5. Esse tipo de procedimento numrico pode ser
executado com facilidade em computadores pessoais para quaisquer distribuies de
probabilidades e para qualquer tamanho amostral considerado, como ilustrado a seguir
no Exemplo 3.11.

Algoritmo 3.1 - Gerao de curvas de distribuio de grandezas amostrais.


Fixados N, tamanho da amostra, e ND, nmero de dados amostrais
1- Gerar N dados com distribuio uniforme (ver Seo 2.4);
2- Transformar os N dados para a distribuio desejada (ver Equaes 2.24-25);
3- Calcular a grandeza amostral desejada (ver Sees 3.1-3.3);
4- Repetir o procedimento at que sejam gerados ND valores amostrais;
5- Construir o histograma (ver Exemplo 2.13) ou a curva de probabilidades
acumuladas (ver Exemplo 3.5) e, a partir delas, obter as curvas de densidade de
probabilidade.

Exemplo 3.11 - Para o cmputo das mdias e varincias amostrais a partir de dois
pontos aleatrios distribudos uniformemente no intervalo (0,1), como mostrado no
Exemplo 3.10, possvel calcular os intervalos de confiana na forma:
Confiana de 95%:

( )
( X ) = 4X

PAC X 1 = 2 X 1 = 0.025 X 1 = 0.1119

PAC

2 X 2 = 0.975 X 1 = 0.8881

Captulo 3: O Problema Amostral Inferncias e Comparaes

( ) (
(s ) = 2(

PAC s X2 1 = 2
PAC

2
X2

122

2 s X2 1 s X2 1 = 0.025 s X2 1 = 7.91x105

2 s X2 2 s X2 2 = 0.975 s X2 2 = 0.354

O Algoritmo 3.1 usado nesse exemplo para gerar a distribuio desejada


numericamente. A funo de distribuio uniforme foi gerada usando-se o
procedimento

X k +1 = 11 X k Trunc (11 X k )
com semente X1=0.75832446 (ver Seo 2.4). Fez-se ND igual a 2000 e N=2. Os
resultados obtidos e ordenados em ordem crescente so apresentados nas Figuras 3.5 e
3.6. Os limites apresentados separam os menores 2.5% (50 menores valores) e os
maiores 2.5% (50 maiores valores) valores calculados, de maneira que entre eles
encontram-se 95% dos valores obtidos.

Figura 3.5 - Limites de confiana da mdia e varincia amostrais obtidos


numericamente.
V-se que os resultados podem ser considerados muito bons, se comparados aos
valores calculados de forma exata. Os limites de confiana obtidos para a mdia
amostral so aproximadamente iguais a 0.11 e 0.88, enquanto os limites de confiana
obtidos para a varincia amostral so aproximadamente iguais a 1.2x10-4 e 0.32. V-se,
contudo, que ainda h razovel grau de incerteza nos valores dos limites de confiana, a
despeito do nmero elevado de pontos experimentais considerados. Observa-se uma vez
mais que o nmero de dados necessrios para a adequada representao de curvas de
distribuio de probabilidades pode ser muito elevado. Apesar disso, quando toda a
faixa de valores admissveis considerada, observa-se concordncia bastante boa entre
as curvas geradas numrica e teoricamente.

Captulo 3: O Problema Amostral Inferncias e Comparaes

123

Figura 3.6 - Probabilidades acumuladas das mdias e varincias amostrais em toda a


faixa de valores admissveis.

Apesar dos resultados anteriores terem ilustrado a dificuldade de gerar


teoricamente as curvas de distribuio de probabilidades de grandezas amostrais, alguns
resultados clssicos so disponveis para o caso em que as medidas experimentais esto
sujeitas a flutuaes normais.

3.3.1. A Distribuio t de Student


Seja x uma varivel aleatria sujeita a flutuaes normais, com mdia X e
varincia X . Sejam N o nmero de amostragens independentes de x feitas e X e s X
as mdia e varincia amostrais obtidas. Pode-se mostrar que a varivel normalizada t,
definida como:
2

t=

X X
sX
N

(3.17)

est distribuda na forma

+1
+1

t 2 2
1
2

1+
( t ) = Stud ( t ; ) =

(3.18)

onde o nmero de graus de liberdade e representa a funo gama, definida pela


Equao (2.46). A forma da distribuio t de Student (publicada originalmente por W.S.
Gosset, sob o codinome de Student, donde vem o nome normalmente usado para
referenciar essa importante distribuio estatstica) est mostrada na Figura 3.7,
enquanto valores para as probabilidades acumuladas so apresentados na Tabela A.2 do
Apndice.

Captulo 3: O Problema Amostral Inferncias e Comparaes

124

Figura 3.7 - Ilustrao da distribuio t.


A Figura 3.7 mostra que a distribuio t simtrica em relao ao eixo y de
coordenadas e definida sobre todo o domnio real (-,+). Alm disso, a distribuio t
depende de um nico parmetro, , que representa o tamanho do conjunto amostral.
Quanto maior o valor de , mais estreita a distribuio em torno do valor mdio t=0,
em funo das menores incertezas existentes sobre o valor real da mdia quando N
aumenta. A distribuio t tem enorme importncia prtica porque permite impor limites
precisos sobre a regio de confiana onde deve estar a mdia verdadeira, a partir de
valores amostrados, como mostrado nos exemplos que se seguem.

Exemplo 3.12 - Admita que testes de atividade cataltica foram realizados em condies
supostamente idnticas, resultando no seguinte conjunto de dados:
Tabela 3.6 - Dados de atividade cataltica obtidos experimentalmente.
1
2
3
4
5
6
7
8
9
10
i
xi (g/h g) 0.450 0.467 0.431 0.440 0.452 0.458 0.438 0.462 0.447 0.452
onde i designa o experimento realizado e xi designa a atividade medida, em gramas de
produto por hora por grama de reagente. Nesse caso,
10

X=

i =1

10

10

( x 0.450 )
i

s X2 =

= 0.450

i =1

= 93.2 106

Captulo 3: O Problema Amostral Inferncias e Comparaes

125

s X = s X2 = 9.65 103
Sabemos, no entanto, que no devemos confundir a mdia e a varincia
amostrais com a mdia e a varincia verdadeiras da distribuio. Para construir o
intervalo de confiana da mdia real a partir dos valores amostrais, podemos contar com
o auxlio da distribuio t.
Suponha que um nvel de confiana de 95% requerido. Nesse caso, deseja-se
obter os valores de t1 e t2 tais que:

PAC ( t1 ; 9 ) = 0.025 , PAC ( t2 ; 9 ) = 0.975


Esses valores podem ser obtidos da integrao da Equao (3.18) e esto mostrados na
Tabela A.2. Na linha referente a 9 graus de liberdade e na coluna referente a uma
probabilidade acumulada de 0.975 encontra-se o valor t2 = 2.262. Como a distribuio t
simtrica em relao ao eixo y, conclui-se que t1 = -2.262. Pode-se dizer, portanto, que
com 95% de confiana

2.262 < t =

0.450 X
< 2.262
9.65 103
10

ou

0.450 2.262

9.65 103
9.65 103
< X < 0.450 + 2.262
10
10

e
0.443 < X < 0.457
Portanto, embora no seja possvel dizer qual o valor verdadeiro da mdia,
possvel definir o intervalo onde ela deve ser encontrada, com um certo grau de
confiana, desde que os dados medidos estejam sujeitos a flutuaes normais. Para os
nveis de confiana de 98% e 99%, os resultados obtidos so respectivamente iguais a:

PAC ( t1 ; 9 ) = 0.010 , PAC ( t2 ; 9 ) = 0.990


2.821 < t =

0.450 2.821

0.450 X
< 2.821
9.65 10 3
10

9.65 103
9.65 103
< X < 0.450 + 2.821
10
10
0.441 < X < 0.459

PAC ( t1 ; 9 ) = 0.005 , PAC ( t2 ; 9 ) = 0.995

Captulo 3: O Problema Amostral Inferncias e Comparaes

3.250 < t =

0.450 3.250

126

0.450 X
< 3.250
9.65 103
10

9.65 103
9.65 103
< X < 0.450 + 3.250
10
10
0.440 < X < 0.460

Como j discutido em exemplos anteriores, quanto maior o grau de confiana


exigido, maior o intervalo de confiana obtido, tornando mais difcil o processo de
tomada de deciso.

Deve ficar bem claro que o Exemplo 3.12 acima admite implicitamente que a
medida experimental est distribuda de forma normal e que todas as medidas de fato
representam o mesmo fenmeno. S assim possvel usar a distribuio t de Student.
Caso a distribuio da medida amostrada original no seja normal ou caso o conjunto de
medidas represente coisas diferentes, a utilizao da distribuio t no faz qualquer
sentido. Nesse caso, outra distribuio da mdia amostral deveria ser gerada ou o
Algoritmo 3.1 deveria ser usado, como ilustrado no Exemplo 3.11. verdade, no
entanto, que como conseqncia do Teorema do Limite Central (ver Seo 2.6), a
distribuio t converge para a curva normal medida que N aumenta,
independentemente da distribuio de probabilidades que deu origem aos dados
amostrados. Portanto, para N suficientemente grandes (Temos visto que isso pode
representar valores inconcebveis para a prtica experimental. Portanto, cuidado com
essas hipteses!), possvel dizer que X est distribudo normalmente em torno de X,
com varincia igual a X2 = s X2 N .

Exemplo 3.13 - Suponha que tenha sido admitida distribuio normal para a mdia
amostral. Ento, segundo a Tabela A.1 da curva normal, para limite de confiana de
95%, podem ser obtidos os seguintes valores:

PAC ( u1 ; 9 ) = 0.025 , PAC ( t2 ; 9 ) = 0.975


1.960 < u =

0.450 1.960

0.450 X
< 1.960
9.65 103
10

9.65 103
9.65 103
< X < 0.450 + 1.960
10
10
0.444 < X < 0.456

resultando numa viso mais otimista que a real da regio onde se encontra a mdia
verdadeira. Para valores menores de N, como usados na prtica experimental, essas

Captulo 3: O Problema Amostral Inferncias e Comparaes

127

diferenas podem vir a ser muito grandes, de forma que o uso dessa aproximao
raramente pode ser justificado.

Exemplo 3.14 - Suponha que o seguinte conjunto de dados, mostrado de forma


ordenada na Tabela 3.7, gerado a partir de um gerador de nmeros uniformemente
distribudos no intervalo (0,1), como no Exemplo 3.3.
Tabela 3.7 - Conjunto de dados gerados de acordo com uma distribuio uniforme em
(0,1).
1
2
3
4
5
i
0.007
0.176
0.337
0.884
0.927
xi
Nesse caso,
10

X=

i =1

10

= 0.466

( x 0.466 )

s X2 =

i =1

= 0.175

s X = s X2 = 0.418

Se a regio de confiana da mdia calculada como no Exemplo 3.12, para um


grau de confiana de 99%

PAC ( t1 ; 9 ) = 0.005 ; PAC ( t2 ; 9 ) = 0.995


4.604 < t =

0.466 4.604

0.466 X
< 4.604
0.418
5

0.418
0.418
< X < 0.466 + 4.604
5
5
0.395 < X < 1.321

O resultado obtido acima absurdo, pois sabemos que a mdia est, com 100%
de confiana, contida no intervalo (0,1). Ela jamais pode ser negativa ou maior que 1,
como calculado, porque os pontos esto sendo gerados com a distribuio uniforme.
Onde est o erro do procedimento usado? O erro fundamental cometido foi usar a
distribuio t, vlida para valores amostrados que seguem uma distribuio normal, e
no uma distribuio uniforme. Isso mostra de maneira inequvoca como as hipteses
feitas a respeito dos dados podem ser importantes para a anlise. Portanto, se a funo
de densidade de probabilidades que gera os pontos aleatrios no conhecida, o uso da
distribuio t de Student para interpretar mdias amostrais pode ser temerrio.

Captulo 3: O Problema Amostral Inferncias e Comparaes

128

3.3.2. A Distribuio Chi-Quadrado (2)


Seja x uma varivel aleatria sujeita a flutuaes normais, com mdia X e
varincia X . Sejam N o nmero de amostragens independentes de x feitas e X e s X
as mdia e varincia amostrais obtidas. Pode-se mostrar que a varivel normalizada 2,
definida como:
2

x X
= i

i =1 X

(3.19)

est distribuda na forma

( )

2 = Chi 2 ; =

( )

2
2
2

1
2 2

(3.20)

apresentando

{ }

2 =

(3.21)

Var { 2 } = 2

(3.22)

onde o nmero de graus de liberdade e representa a funo gama, definida pela


2
Equao (2.46). A forma da distribuio est mostrada na Figura 3.8, enquanto
valores para as probabilidades acumuladas so apresentados na Tabela A.3 do
Apndice.

Figura 3.8 - Ilustrao da distribuio .

Captulo 3: O Problema Amostral Inferncias e Comparaes

129

A Figura 3.8 mostra que a distribuio no apresenta qualquer eixo de


2
simetria e definida sobre o domnio real positivo [0,). Alm disso, a distribuio
depende de um nico parmetro, , que representa o tamanho do conjunto amostral.
2
Quanto maior o valor de , mais larga a distribuio em torno do valor mdio =. A
2
distribuio tem enorme importncia prtica porque, dentre muitas outras coisas,
permite impor limites precisos sobre a regio de confiana onde deve estar a varincia
verdadeira, a partir de valores amostrados, como mostrado nos exemplos a seguir. Para
tanto, observe que
x X)
( N 1) (
N

xi X
=
i =1 X

2 =

i =1

X2

( N -1)

= ( N 1)

s X2

X2

(3.23)

Alm disso, somas normalizadas como a apresentada na Equao (3.19) aparecem com
muita freqncia em problemas prticos, como mostrado nos prximos captulos.

Exemplo 3.15 - No Exemplo 3.12, foram analisados 10 dados de atividade de


catalisador em rplicas experimentais independentes. As mdia e varincia amostrais
obtidas foram:
10

X=

i =1

10

10

( x 0.450 )
i

s X2 =

= 0.450

i =1

= 93.2 106

s X = s X2 = 9.65 103
Sabemos, no entanto, que no devemos confundir a mdia e a varincia
amostrais com a mdia e a varincia verdadeiras da distribuio. Para construir o
intervalo de confiana da varincia real a partir dos valores amostrais, podemos contar
2
com o auxlio da distribuio .
Suponha que um nvel de confiana de 95% requerido. Nesse caso, deseja-se
obter os valores de 12 e 22 tais que:
PAC ( 12 ;9 ) = 0.025 , PAC ( 22 ;9 ) = 0.975
Esses valores podem ser obtidos da integrao da Equao (3.20) e esto mostrados na
Tabela A.3. Na linha referente a 9 graus de liberdade e na coluna referente a uma
probabilidade acumulada de 0.025 encontra-se o valor 12 = 2.700 . Na linha referente a

Captulo 3: O Problema Amostral Inferncias e Comparaes

130

9 graus de liberdade e na coluna referente a uma probabilidade acumulada de 0.975


encontra-se o valor 22 = 19.023 . Pode-se dizer, portanto, que com 95% de confiana

12 = 2.700 < 2 = ( N 1)

s X2

2
X

< 19.023 = 22

ou

( N -1)

s X2

22

< X2 < ( N -1)

s X2

12

e
93.2 10-6
93.2 10-6
< X2 < 9
19.023
2.700

9
e

44.1 10-6 < X2 < 311.7 10-6


De forma similar, para graus de confiana de 98% e 99%, os resultados obtidos
so respectivamente iguais a:
PAC ( 12 ;9 ) = 0.010 , PAC ( 22 ;9 ) = 0.990

= 2.088 < = ( N 1)
2
1

( N -1)

2
X
2
2

s X2

2
X

< 21.666 = 22

< X2 < ( N -1)

s X2

12

93.2 10-6
93.2 10-6
< X2 < 9
21.666
2.088
38.7 10-6 < X2 < 401.7 10-6

e
PAC ( 12 ;9 ) = 0.005 , PAC ( 22 ;9 ) = 0.995

12 = 1.735 < 2 = ( N 1)

( N -1)
9

2
X
2
2

s X2

2
X

< 23.589 = 22

< X2 < ( N -1)

s X2

12

93.2 10-6
93.2 10-6
< X2 < 9
23.589
1.735
35.6 10-6 < X2 < 483.5 10-6

V-se, portanto, que as incertezas existentes durante a obteno do valor real da


varincia podem ser muito grandes, quando N pequeno.

Captulo 3: O Problema Amostral Inferncias e Comparaes

131

Deve ficar bem claro que o Exemplo 3.15 acima admite implicitamente que a
medida experimental est distribuda de forma normal e que todas as medidas de fato
2
representam o mesmo fenmeno. S assim possvel usar a distribuio . Caso a
distribuio da medida amostrada original no seja normal ou caso o conjunto de
2
medidas represente coisas diferentes, a utilizao da distribuio no faz qualquer
sentido e resultados esprios, como aqueles mostrado no Exemplo 3.14, podem ser
obtidos.

Exemplo 3.16 - Observe no Exemplo 3.15 que o fator ( N 1) 12 diz quantas vezes
maior a varincia real pode ser, quando comparada varincia amostral. Por isso, esse
nmero apresentado abaixo para alguns valores tpicos.
Tabela 3.8 - Fatores que dizem quantas vezes maior que a varincia amostral a
varincia real pode ser.
N=1
2
3
5
10
20
30
40
50
100
1018
39.5
8.26
3.33
2.13
1.81
1.65
1.55
1.35
95%

6366 99.5
13.5
4.31
2.49
2.03
1.82
1.69
1.43
98%

5.19
2.78
2.21
1.95
1.80
1.49
25460 199.5 19.3
99%

Observe na Tabela 3.8 que com cinco rplicas possvel apenas garantir a
ordem de grandeza da varincia verdadeira. Para garantir o primeiro algarismo
significativo (incertezas inferiores a 100% do valor medido) da varincia verdadeira so
necessrias entre 20 e 30 rplicas! Quando o nmero de rplicas chega a 100, as
incertezas so da ordem ainda de 35 a 50% do valor medido! Para que a incerteza seja
inferior a 10% do valor medido so necessrias 900 (95%), 1250 (98%) ou 1500 (99%)
rplicas, o que inaceitvel do ponto de vista do trabalho cientfico experimental. Por
isso, teremos sempre que conviver com incertezas muito grandes em relao aos reais
valores da varincia experimental.
A Tabela 3.8 tambm mostra que as incertezas da varincia real caem muito
rapidamente para pequenos valores de N (por exemplo, caem cerca de duas ordens de
grandeza quando N incrementado de 2 para 3), mas depois decaem muito lentamente
para valores elevados de N (por exemplo, decaem cerca de uma ordem de grandeza
quando N incrementado de 5 para 30). Por isso, raramente h justificativas para que se
reproduza um dado experimental mais do que 5 vezes, uma vez que ganhos apreciveis
de certeza requereriam aumento muito grande do nmero de rplicas experimentais. Por
isso, uma regra heurstica de repetio pode ser formulada, recomendando a replicao
de dados no mais do que 5 vezes, a no ser que seja muito fcil repetir o experimento.

3.3.3. A Distribuio F de Fisher


Sejam x e y variveis aleatrias sujeitas a flutuaes normais, com mdias X e

Y e varincias X e Y . Sejam N1 e N2 os nmeros de amostragens independentes de


2

x e y feitas, sendo que X e Y e s X e sY so as mdias e varincias amostrais obtidas.


Pode-se mostrar que a varivel normalizada F, definida como:

Captulo 3: O Problema Amostral Inferncias e Comparaes


s X2
F=

sY2

132

X2

(3.24)

Y2

est distribuda em conformidade com a seguinte funo de densidade de probabilidades


1

+
1

1 2 1 2

F
2 2 2
( F ) = F ( F ; 1 , 2 ) =
1
2
1 + 2

1 1
( 1 F + 2 ) 2
2
2

(3.25)

com
{F } =

Var {F } =

(3.26)

2 2

2 22 ( 1 + 2 2 )

1 ( 2 4 )( 2 2 )

(3.27)

onde o nmero de graus de liberdade e representa a funo gama, definida pela


Equao (2.46). A forma da distribuio F est mostrada na Figura 3.9, enquanto
valores para as probabilidades acumuladas so apresentados na Tabela A.4 do
Apndice.
A Figura 3.9 mostra que a distribuio F definida sobre o domnio real positivo
[0,). A distribuio F depende ainda de dois parmetros, 1 e 2, que representam os
tamanhos dos conjuntos amostrais analisados. Quanto maiores os valores de 1 e 2,
mais estreita a distribuio, uma vez que as varincias amostrais tendem a se
aproximar das varincias reais. Alm disso, a distribuio F apresenta a seguinte
propriedade de simetria:
1

PAC ( F ; 1 , 2 ) = p % PAC ; 2 , 1 = 100 p %


F

(3.28)

que induzida pela prpria definio do valor de F. A Equao (3.28) diz que se a
probabilidade de se encontrar um valor de F inferior a um certo marco igual a p% para
dois conjuntos 1 e 2, ao se inverter a definio dos conjuntos 1 e 2 os resultados devem
ser qualitativamente idnticos. Como a definio dos conjuntos foi invertida, o valor do
marco tambm tem que ser. Nesse caso, o que era maior passa a ser menor e vice-versa.

Captulo 3: O Problema Amostral Inferncias e Comparaes

133

Figura 3.9 - Ilustrao da distribuio F.


A distribuio F tem enorme importncia prtica porque permite estabelecer
comparaes muito mais eficientes entre diferentes varincias amostrais que aquelas
2
obtidas com a distribuio . Para tanto, observe que se as varincias reais dos dois
conjuntos de dados analisados so supostamente iguais, ento
F=

s X2
sY2

(3.29)

que o formato bsico de F usado nos exerccios seguintes.

Exemplo 3.17 - Se dois conjuntos de dados supostamente equivalentes (varincias reais


supostamente iguais) contm 3 e 5 dados amostrados, respectivamente, quo diferentes
podem ser as varincias obtidas?
De acordo com os resultados do Exemplo 3.16, as diferenas observadas podem
ser muito grandes. Dados 2 e 4 graus de liberdade, respectivamente, e fixando o grau de
confiana em 95%, procuram-se os valores de F tais que

PAC ( F1 ; 2, 4 ) = 0.025 , PAC ( F2 ; 2, 4 ) = 0.975


Esses valores podem ser obtidos diretamente da integrao da Equao (3.25) ou atravs
da Tabela A.4. Nesse caso, como a distribuio F biparamtrica, so apresentadas
vrias tabelas para valores preestabelecidos da probabilidade acumulada. Usando a
Tabela montada para a probabilidade acumulada de 0.975, na coluna relativa ao grau de
liberdade igual a 2 e na linha relativa ao grau de liberdade igual a 4 obtm-se o valor
F2=10.649. No h tabela disponvel para a probabilidade acumulada de 0.025. Nesse
caso, usando a propriedade de simetria descrita pela Equao (3.28), na tabela de
probabilidade acumulada de 0.975, na coluna relativa ao grau de liberdade igual a 4 e na

Captulo 3: O Problema Amostral Inferncias e Comparaes

134

linha relativa ao grau de liberdade igual a 2 obtm-se o valor de F1=1/39.248. Portanto,


com 95% de confiana
1
s2
< F = X2 < 10.649
39.248
sY
quando o conjunto x tem trs medidas amostrais e o conjunto y tem cinco medidas
amostrais.
De forma similar, para 98% de confiana

PAC ; 4, 2 = 0.990 , PAC ( F2 ; 2, 4 ) = 0.990


F1

1
s2
< F = X2 < 18.000
99.249
sY

Deve ficar bem claro que o Exemplo 3.17 acima admite implicitamente que as
medidas experimentais esto distribudas de forma normal e que todas as medidas de
fato representam o mesmo fenmeno. S assim possvel usar a distribuio F. Caso a
distribuio da medida amostrada original no seja normal ou caso o conjunto de
medidas represente coisas diferentes, a utilizao da distribuio F pode no fazer
qualquer sentido, resultando em resultados esprios, como aquele mostrado no Exemplo
3.14.

3.4. Fazendo Comparaes Entre Grandezas Amostrais


Com enorme freqncia, o analista chamado a decidir se medidas amostrais
podem ser consideradas equivalentes ou no. De forma mais especfica, deseja-se saber
se o valor mdio real ou se a varincia real do problema pode estar mudando ou pode ter
mudado durante os estudos experimentais. Como veremos nos captulos seguintes, essa
questo pode exercer enorme influncia sobre o tratamento dos dados e a interpretao
final do conjunto de dados experimentais.
Uma forma muito simples de estabelecer essas comparaes e tomar decises
est baseada na construo dos intervalos de confiana para a varivel considerada. Por
exemplo, sejam e as grandezas comparadas (por exemplo, mdias ou varincias
amostrais) e sejam 1 < < 2 e 1 < < 2 os respectivos intervalos de confiana para
um grau de confiana p% especificado. Ento, admitindo que 1 < 1, as grandezas e
so distintas com grau de confiana p% se 2 < 1; ou seja, se no h interseo entre
os intervalos considerados.

Exemplo 3.18 - Admita que dois estudantes diferentes obtiveram os seguintes dados de
titulao no laboratrio:
Tabela 3.9- Medidas de titulao obtidas por dois alunos.

Captulo 3: O Problema Amostral Inferncias e Comparaes


1
76.48
77.10

1- Volume (ml)
2- Volume (ml)

2
76.43
78.4

3
77.20
77.2

4
76.25
76.2

135

5
76.48
77.7

6
76.48
76.8

7
76.6
-

As mdias e varincias amostrais so iguais a


7

X1 =
7

s12 =

( xi 76.56 )

= 76.56 e X 2 =

i =1

6
6

i =1

= 77.23

i =1

( x 76.56 )

= 0.0906 e s22 =

i =1

= 0.5707

s1 = s12 = 0.301 e s2 = s22 = 0.755

Os intervalos de confiana da mdia e varincia amostrais do primeiro conjunto


2
podem ser obtidos a partir das distribuies t e , como feito nas sees anteriores.
Fixando o grau de confiana em 95% e levando-se em conta que 1=N-1=6, para a
mdia

PAC ( t1 ;6 ) = 0.025 , PAC ( t2 ; 6 ) = 0.975


2.447 < t =

76.56 2.447

76.56 1
< 2.447
0.301
7

0.301
0.301
< 1 < 76.56 + 2.447
7
7
76.28 < 1 < 76.84

e para a varincia
PAC ( 12 ; 6 ) = 0.025 , PAC ( 22 ; 6 ) = 0.975

12 = 1.237 < 2 = ( N1 1)

s12

2
1

< 14.449 = 22

0.0906
0.0906
< 12 < 6
14.449
1.237

0.03762 < 12 < 0.4394


Os intervalos de confiana da mdia e varincia amostrais do segundo conjunto
2
podem ser tambm obtidos a partir das distribuies t e . Fixando o mesmo grau de

Captulo 3: O Problema Amostral Inferncias e Comparaes

136

confiana de 95% para fins de comparao e levando-se em conta que 1=N-1=5, para a
mdia

PAC ( t1 ;6 ) = 0.025 , PAC ( t2 ; 6 ) = 0.975


2.571 < t =

77.23 2.571

77.23 2
< 2.571
0.755
6

0.755
0.755
< 2 < 77.23 + 2.571
6
6
76.44 < 2 < 78.03

e para a varincia
PAC ( 12 ;5 ) = 0.025 , PAC ( 22 ;5 ) = 0.975

12 = 0.831 < 2 = ( N 2 1)

s22

22

< 12.833 = 22

0.5707
0.5707
< 22 < 5
12.833
0.831
0.2224 < 22 < 3.434

Comparando-se os intervalos de confiana da mdia, observa-se que no limite de


95% de confiana h interseo dos intervalos na faixa 76.44 < 1 , 2 < 76.84 , de
maneira que no possvel dizer que as mdias so diferentes. De forma similar, para as
varincias obtm-se interseo na regio 0.2224 < 12 , 22 < 0.4394 , de maneira que no
possvel dizer que as varincias so diferentes. Logo, por esses critrios as medidas
dos dois alunos poderiam ser consideradas equivalentes e, por isso, at misturadas em
um nico conjunto de dados.
De forma similar, aplicando o teste F para 95% de confiana

PAC ;5, 6 = 0.975 , PAC ( F2 ;6, 5 ) = 0.975


F1

1
s2
= 0.1670 < F = 12 < 6.9777
5.9876
s2
O valor de F obtido foi

Captulo 3: O Problema Amostral Inferncias e Comparaes


F=

137

s12 0.0906
=
= 0.1587
s22 0.5707

que no satisfaz a desigualdade acima. Portanto, no limite de confiana de 95%, o valor


de F obtido experimentalmente pode ser considerado pouco provvel. Logo, pouco
provvel que as varincias reais dos dois problemas sejam iguais. Logo, com 95% de
confiana, pode-se dizer que o segundo aluno lidou com mais flutuaes experimentais
do que o primeiro, indicando que os experimentos conduzidos pelo primeiro aluno so
mais precisos.
Repare que as concluses obtidas com os intervalos de confiana da varincia e
com o teste F so distintas. Isso no incomum; muito pelo contrrio. No entanto, o
teste F tem capacidade muito maior de detectar diferenas de varincias amostrais que
2
os intervalos de confiana obtidos com a distribuio . Por isso, pode-se afirmar com
95% de certeza que os conjuntos amostrais podem ter a mesma mdia, mas tm
varincias distintas. Portanto, no parece haver argumentos que justifiquem a mistura
dos dados, j que os dois conjuntos no parecem ter sido amostrados de uma mesma
populao.

Deve ficar bem claro que o Exemplo 3.18 acima admite implicitamente que as
medidas experimentais esto distribudas de forma normal e que todas as medidas de
fato representam o mesmo fenmeno. S assim seria justificvel o uso das distribuies
2
t, e F para a anlise. Caso as medidas amostradas no sejam distribudas
normalmente ou caso os conjuntos de medidas representem coisas diferentes, a
utilizao dessas distribuies pode no fazer qualquer sentido, resultando em
resultados esprios, como aquele mostrado no Exemplo 3.14.
As comparaes feitas atravs dos intervalos de confiana so muito simples e
podem ser executadas com facilidade. No entanto, a literatura est repleta de testes
comparativos desenvolvidos para condies particulares, onde informaes adicionais
so conhecidas. No objetivo desse texto discorrer longamente sobre esse assunto e o
leitor interessado pode buscar informaes adicionais nas referncias apensadas ao final
do captulo. No entanto, algumas dessas situaes particulares so apresentadas a seguir.

3.4.1. Testes Adicionais para a Mdia


Condio especial 1 - Seja uma mdia histrica X e a respectiva varincia X , obtidas
com nmero elevado de graus de liberdade e consideradas iguais aos valores
verdadeiros. Deseja-se saber se uma nova mdia amostral X , obtida a partir de um
novo conjunto de dados de tamanho N, compatvel com os dados passados. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
2

Nesse caso, a varivel


u=

X X

(3.30)

Captulo 3: O Problema Amostral Inferncias e Comparaes

138

normalmente distribuda, com mdia zero e varincia igual a 1. Logo, a curva normal
pode ser usada para gerar os intervalos de confiana de X e verificar se o valor obtido
compatvel com o esperado.

X u1

X
N

< X < X + u2

(3.31)

Condio especial 2 - Seja uma mdia histrica X, obtida com nmero elevado de
graus de liberdade e considerada igual ao valor verdadeiro. Deseja-se saber se uma nova
mdia amostral X , obtida a partir de um novo conjunto de dados de tamanho N,
2
2
compatvel com os dados passados. Desconhece-se X , mas se conhece s X . Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, a varivel
t=

X X
sX
N

(3.32)

segue a distribuio t, com =N-1 graus de liberdade. Logo, a distribuio t pode ser
usada para gerar os intervalos de confiana de X e verificar se o valor obtido
compatvel com o esperado.

X t1

sX
s
< X < X + t2 X
N
N

(3.33)

) (

Condio especial 3 - Dois conjuntos de dados com X 1 , s12 , N1 e X 2 , s22 , N 2 esto


disponveis. Deseja-se saber se as mdias podem ser consideradas diferentes. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
Como os dados flutuam normalmente, as mdias amostrais tambm flutuam
normalmente com varincias desconhecidas e iguais a 12 N1 e 22 N 2 . A diferena
entre as mdias amostrais, D = X 1 X 2 , flutua com varincia D2 = 12 N1 + 22 N 2 . Se
as populaes so similares, D2 = 2 [1 N1 + 1 N 2 ] , 12 = 22 = 2 .
Admitindo-se que as mdias so iguais, porque as populaes so semelhantes, e
que se conhece a varincia verdadeira dos dados 2 , ento a varivel

u=

(3.34)

tem distribuio normal, com mdia zero e varincia igual a 1. Assim,


u1 D < D < u2 D

(3.35)

Captulo 3: O Problema Amostral Inferncias e Comparaes

139

Se a varincia real no conhecida, admitindo-se que os conjuntos so similares


e que tm a mesma varincia verdadeira, ento
s12+ 2 =

1s12 + 2 s22
1 + 2

(3.36)

uma estimativa melhor da varincia da medida, com 1 + 2 graus de liberdade.


Assim,

1
1
sD2 = s12+ 2
+

N1 N 2

(3.37)

uma estimativa da varincia de D com 1 + 2 graus de liberdade. Logo, a varivel


t=

D
sD

(3.38)

segue a distribuio t, com 1 + 2 graus de liberdade, de forma que


t1sD < D < t2 sD

(3.39)

Exemplo 3.19 - O desempenho de dois tipos de gasolina apresentado abaixo:


Gasolina
Milhas/galo (mdia)
Desvio padro amostral
Nmero de carros em que foram feitas as medidas

1
22.7
0.45
5

2
21.3
0.55
5

D = X 1 X 2 = 1.4
s12+ 2 =

s + 2 s22 4 0.452 + 4 0.552


=
= 0.2525
1 + 2
4+4
2
1 1

1
1
1 1
sD2 = s12+ 2
+
= 0.2525 + = 0.101
5 5
N1 N 2
sD = 0.3178
D
t=
= 4.405
sD
Para 8 graus de liberdade e 95% de confiana,
2.306 < t < 2.306
Conclui-se, portanto, que o valor observado de t pouco provvel e que as
gasolinas so diferentes com 95% de confiana.

Captulo 3: O Problema Amostral Inferncias e Comparaes

140

importante observar que testes similares podem ser utilizados para verificar se
uma determinada mdia difere significativamente de zero, por exemplo. Este teste
bastante importante para a estimao de parmetros, como ser visto nos captulos
posteriores.

3.4.2. Testes Adicionais para a Varincia


Condio especial 1 - Seja uma mdia histrica X e a respectiva varincia X , obtidas
com nmero elevado de graus de liberdade e consideradas iguais aos valores
verdadeiros. Deseja-se saber se uma nova varincia amostral s X2 , obtida a partir de um
novo conjunto de dados de tamanho N, compatvel com os dados passados. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
2

Nesse caso, a varivel

2 = ( N 1)

s X2

(3.40)

X2

segue a distribuio , com =N-1 graus de liberdade. Logo

12

X2

( N 1)

< s X2 < 22

X2

(3.41)

( N 1)

3.4.3. Testes Adicionais de Aleatoriedade


Condio especial 1 - Seja uma mdia histrica X e a respectiva varincia X , obtidas
com nmero elevado de graus de liberdade e consideradas iguais aos valores
verdadeiros. Deseja-se saber se as flutuaes das medidas amostrais em um conjunto de
tamanho N podem ser admitidas normais.
2

Nesse caso, a varivel


x X
= i

X
i =1
N

(3.42)

segue a distribuio , com = N graus de liberdade. Logo,

12 < 2 < 22

(3.43)

Condio especial 2 - Deseja-se saber se as flutuaes das medidas amostrais em um


conjunto de tamanho N podem ser admitidas normais.

Captulo 3: O Problema Amostral Inferncias e Comparaes

141

Nesse caso, a varivel


x X
= i

sX
i =1
N

(3.44)

segue a distribuio , com =N-1 graus de liberdade. Logo,

12 < 2 < 22

(3.45)

Condio especial 3 - Deseja-se saber se as flutuaes das medidas amostrais em um


conjunto de tamanho N seguem uma distribuio estatstica particular.
Esse problema pode ser tratado de forma mais rigorosa usando-se as ferramentas
de estimao de parmetros apresentadas nos prximos captulos. No entanto, uma
tcnica muito usada consiste em construir uma tabela na forma:

Intervalo
1
2
...
NI

Limites do
Intervalo
x0 < x < x1
x1 < x < x2
...
xNI-1 < x < xNI

Probabilidade
do Intervalo
1/NI
1/NI
...
1/NI

Nmero total
de observaes
N1
N2
...
NNI

que divide o domnio de definio da distribuio que est sendo testada em NI


intervalos igualmente provveis. Ento, o nmero de observaes efetuadas em cada
intervalo distribudo na tabela. Para analisarmos os dados, conveniente observar que
um ponto experimental pode estar ou no no intervalo considerado (2 respostas so
possveis) e que a probabilidade de acerto (1/NI) conhecida. Logo, o nmero provvel
de pontos colhidos em cada intervalo pode ser previsto com a curva binomial. Os
valores observados so ento comparados com aqueles obtidos pela curva binomial,
para um dado grau de confiana. Se todos os valores observados esto em conformidade
com a previso efetuada com a distribuio binomial, ento a curva de probabilidade
originalmente proposta pode ser considerada plausvel; caso contrrio, a curva de
probabilidade proposta deve ser descartada. Se N o nmero total de pontos
considerado, um procedimento heurstico consiste em fazer NI = N . Sabe-se que se
NI < 5, o poder de discriminao dessa tcnica muito baixo, o que mostra uma vez
mais a necessidade de grande nmero de rplicas para um ajuste adequado da curva de
distribuio de probabilidades.

Exemplo 3.20 - No Exemplo 3.5 foi gerada a seguinte seqncia de pontos


experimentais que seguem uma distribuio uniforme:
Tabela 3.10 - Nmeros aleatrios com distribuio uniforme no intervalo (0,1),
gerados como no Exemplo 3.5.
0.0109
0.1194
0.3298
0.3970
0.4607
0.6282
0.7481
0.8654
0.0306
0.1610
0.3369
0.4055
0.4766
0.6725
0.7573
0.9101

Captulo 3: O Problema Amostral Inferncias e Comparaes


0.0316
0.0498
0.0680

0.2291
0.2430
0.3138

0.3416
0.3475
0.3665

0.4423
0.4476
0.4518

0.5192
0.5202
0.5482

0.6732
0.7062
0.7227

142
0.7680
0.7706
0.8227

0.9237
0.9493
0.9702

A mdia e varincia amostrais so iguais a


40

X=

i =1

40

40

= 0.4884

( x 0.4884 )

sx2 =

i =1

39

= 0.07952

s X = s X2 = 0.2820
Deseja-se saber se a curva normal pode representar de forma adequada esse
conjunto de dados aleatrios. Para isso, admitindo que X = X , que X2 = s X2 e que
NI = 40 = 6 , monta-se a seguinte Tabela de distribuio dos dados.

Tabela 3.11 - Distribuio dos pontos da Tabela 3.10 em intervalos de igual


probabilidade da curva normal.
Intervalo
Limites do
Probabilidade
Nmero total
Intervalo
do Intervalo
de observaes
1
1/6
7
< x < 0.2156
2
1/6
8
0.2156 < x < 0.3669
3
1/6
7
0.3669 < x < 0.4884
4
1/6
3
0.4884 < x < 0.6099
1/6
7
5
0.6099 < x < 0.7612
6
1/6
8
0.7612 < x <
Os limites de confiana de 95% obtidos a partir da curva binomial, com m=40 e
p=1/6 (ver Seo 2.1) so 2 (PAC(2;40,1/6)0.025) e 12 (PAC(12;40,1/6)0.975). Logo, o
nmero de observaes em cada um dos intervalos analisados deve estar entre 2 e 12,
com 95% de confiana. Como essa condio satisfeita em todos os intervalos da
Tabela 3.11, no possvel dizer que os dados da Tabela 3.10, gerados segunda uma
distribuio uniforme, no seguem uma distribuio normal. V-se uma vez mais como
difcil definir de forma inequvoca a curva de distribuio de probabilidades que rege
um determinado problema fsico. A Figura 3.10 confirma claramente o resultado e
mostra como pode ser difcil discriminar diferentes curvas de densidade de
probabilidade mesmo quando um nmero razovel de pontos est a disposio, como no
caso.

Captulo 3: O Problema Amostral Inferncias e Comparaes

143

Figura 3.10 - Ajuste normal aos dados da Tabela 3.10.

3.4.4. Testes Adicionais de Independncia dos Dados


Condio especial 1 - Dois conjuntos de dados com

(X,s

2
X

,N

) e (Y , s , N )
2
Y

esto

disponveis. Deseja-se saber se os dados podem estar correlacionados. Admite-se que as


medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, a medida de dependncia dada pela covarincia ou pelo fator de
correlao (ver Seo 1.6). No entanto, como saber se a medida significativa? Um
teste bastante simples baseado na Equao (1.40)

Var { x + y} = Var { x} + 2Covar { x, y} + Var { y}

(1.40)

Se os dados so independentes, a varincia da soma (diferena) a soma das


varincias. Se os dados no so independentes, a varincia da soma (diferena)
diferente da soma das varincias. O teste consiste em verificar com o teste F se a
diferena observada inferior ou no quela que poderia ser causada por mera flutuao
aleatria.

Exemplo 3.21 - O seguinte conjunto de dados est disponvel:


x:
y:

1
1.1

2
1.9

3
3

4
3.9

que resultam nas grandezas amostrais

5
5.1

Captulo 3: O Problema Amostral Inferncias e Comparaes

X =3

s X2 = 2.50

s X = 1.5811

Y =3

sY2 = 2.51

s X = 1.5843

XY

2
s XY
= 2.50

144

2
s XY
=
= 0.998
s X sY

Para a soma (diferena) de x e y, as grandezas amostrais so

X +Y = 6

s X2 +Y = 10.1

X Y = 0

s X +Y = 3.1639

s X2 Y = 0.01

s X +Y = 0.1

Fixando-se o limite de confiana em 95%, para quatro graus de liberdade obtmse


1
< F < 9.6045
9.6045
Para os dois casos analisados
F=

s 2X Y

(s2X + s2Y )

0.01
s2
10.01
= 0.002 ; F = X + Y =
= 2.00
2
2
5.01
5.01
sX + sY

V-se, portanto, que as diferenas observadas na variao das diferenas no


poderiam ser explicadas por flutuaes puramente aleatrias. Assim, pode-se dizer que
a covarincia (e o fator de correlao) entre x e y so significativos com 95% de
confiana.
O resultado obtido no deve impressionar demais o leitor, pois esse problema era
fcil de resolver. Na maior parte dos casos, poucos pontos resultam quase sempre em
baixa qualidade de resoluo dos termos de correlao.

Condio especial 2 - Um conjunto de dados com X , s X2 , N est disponvel. Deseja-se


saber se os dados obtidos so realmente aleatrios ou se podem estar correlacionados
entre si. Admite-se que as medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, conveniente definir a funo de auto-correlao na forma
N k

( x X )( x
i

CX =
k

ou na forma

i+k

i =1

N k 1

Xk

)
(3.46)

Captulo 3: O Problema Amostral Inferncias e Comparaes


N k

( x X )( x
0

CX =
k

i+k

i =1

2
N k
xi X 0
i =1

0.5

Xk

N k
xi + k X k
i =1

145

0.5

(3.47)

em que calculada a covarincia (Equao (3.46)) ou a correlao (Equao (3.47)) de


dados amostrais deslocados de k unidades no tempo. Nesse caso, X 0 a mdia amostral
dos primeiros N-k valores amostrados, enquanto X k a mdia amostral dos ltimos N-k
valores amostrados. A funo de auto-correlao pode fornecer importantes pistas sobre
a existncia de dinmica (no aleatoriedade) entre os dados amostrados e sobre a
existncia de efeitos experimentais indesejados. No entanto, para evitar a tomada
equivocada de concluses, a significncia dos valores calculados com a Equao (3.46)
deve ser sempre testada, como ilustrado no Exemplo 3.21. Como procedimento
heurstico, recomenda-se que (N-k) seja sempre igual ou superior a 20 para uso eficiente
das Equaes (3.46-47).
Fundamentalmente, a funo de auto-correlao mostra se existe uma memria
entre dados que se sucedem em uma srie de dados. Se existe uma relao
determinstica entre os dados (por exemplo, os dados representam a resposta de um
processo a uma dada perturbao), as correlaes so significativas e se aproximam do
valor unitrio. Se os dados so corrompidos por erros experimentais e/ou as
perturbaes do processo so muito freqentes, as correlaes tendem a diminuir
medida que o atraso k aumenta. Dessa forma, possvel definir um horizonte de
memria do processo, que o mximo valor de k para o qual ainda se observam
correlaes significativas entre os dados. Essa informao pode ser fundamental em
vrios problemas.
Um exemplo tpico de aplicao prtica dos espectros de auto-correlao a
anlise do comportamento dinmico de processos. Se um processo opera em condies
estacionrias (todas as variveis se mantm aproximadamente constantes ao longo do
tempo), as flutuaes dos dados refletem apenas os erros de medida e operao do
processo (ou seja, as flutuaes so essencialmente aleatrias), de forma que o espectro
de auto-correlao deve apresentar correlaes muito prximas de zero para qualquer
valor de k considerado. Assim, se correlaes pronunciadas so observadas para valores
de k baixos, esse um indcio claro de que o processo opera de forma dinmica na
freqncia de amostragem dos dados e que qualquer tentativa de interpretao dos
dados deve ser feita luz de um modelo dinmico do processo. Portanto, o espectro de
auto-correlao auxilia na definio da melhor estratgia de modelagem matemtica dos
dados disponveis. Alm disso, o mximo valor de k para o qual as correlaes ainda
podem ser consideradas significativas (kmax) uma constante de tempo que caracteriza o
processo e o procedimento de amostragem. Esse dado pode conter importante contedo
de informao para a implementao de rotinas de controle de processo e simulao.
Por exemplo, o uso de simuladores estacionrios s deveria ser usado para descrio do
processo se os dados esto amostrados com freqncia inferior quela definida por kmax,
para que seja possvel filtrar a influncia dinmica que um dado da seqncia exerce
sobre o outro. Mais ainda, esquemas de controle devem coletar informaes do processo
com freqncia superior quela definida por kmax, para que seja possvel capturar a

Captulo 3: O Problema Amostral Inferncias e Comparaes

146

informao dinmica e corrigir efeitos causados por perturbaes indesejadas do


processo.

Exemplo 3.22 - Para o conjunto de dados ilustrado abaixo na Figura 3.11, calcula-se o
espectro de auto-correlao da Figura 3.12. V-se de forma clara que as correlaes
diminuem lentamente, medida que a distncia entre os dados aumenta, e tornam-se
no significativas aps um certo tempo.

Figura 3.11 - Dados amostrados num processo de experimentao.

Figura 3.12 - Funo de auto-correlao para os dados da Figura 3.11.


Considerando-se que correlaes da ordem de 0.5 j so bastante fracas,
observa-se na Figura 3.12 que o horizonte de memria caracterstica do processo de
16 unidades de amostragem (kmax). Esse deslocamento d uma idia da dinmica do
processo e de quo longe uma informao inserida no processo de experimentao
permanece influenciando os demais resultados obtidos. Se comportamento aleatrio
fosse desejado, como durante a execuo de rplicas experimentais, os dados deveriam
ser recusados.

3.4.5. Testes Adicionais para Outliers

Captulo 3: O Problema Amostral Inferncias e Comparaes

147

Outlier a expresso usada genericamente para designar pontos experimentais


que parecem no se adequar a uma distribuio particular de probabilidades definida
pela grande maioria dos demais pontos experimentais. Quase sempre a deteco de
outliers visa a eliminao desses pontos suspeitos de no fazerem parte do conjunto.
Essa uma questo muito controversa da prtica estatstica, em particular quando
poucos pontos experimentais esto disponveis, e ser analisada algumas vezes nos
captulos que seguem. De uma forma cautelosa, como descrito por E.J. Gumbel
(Technometrics, 2, 165, 1960): "A rejeio de outliers em bases puramente estatsticas
e continua a ser um procedimento perigoso. Sua existncia pode ser a prova de que a
populao estudada no , na realidade, o que se assumiu que fosse."
Se o nmero de graus de liberdade pequeno, o melhor teste para deteco de
outliers parece ser primeiramente a repetio da medida experimental e em segundo
lugar a comparao estatstica dos resultados amostrais obtidos quando o candidato a
outlier removido ou adicionado ao conjunto de dados. Se as comparaes resultarem
em concluses de equivalncia, a deciso mais sensata ser manter o candidato a outlier
no conjunto de pontos experimentais, a no ser que sobre ele pairem dvidas de erros
grosseiros.

Exemplo 3.23 - Os seguintes dados foram obtidos para a concentrao de uma espcie
qumica em uma soluo mineral
x (ppm):

23.2

23.4

23.5

24.1

25.5

havendo desconfiana de que o ltimo ponto seja na realidade um outlier. Para analisar
a questo, para um grau de confiana de 95%, o conjunto amostral que contm o outlier

X = 23.94

s X2 = 0.873

s X = 0.934

=4

22.78 < X < 25.10


comparado com o conjunto amostral que no contm o outlier

X = 23.55

s X2 = 0.150

s X = 0.387

=3

22.93 < X < 24.17

1
0.873
<F=
= 5.82 < 15.101
9.9792
0.150
Como as mdias e varincias obtidas com e sem o outlier so estatisticamente
semelhantes, no parece razovel descartar o candidato a outlier do conjunto de pontos.

3.5. A Regio de Confiana em Problemas Multidimensionais


Chama-se de regio de confiana com probabilidade p quela regio do espao
de variveis que concentra uma probabilidade definida e igual a p das possveis
flutuaes observveis no problema. Em um problema unidimensional, a definio da

Captulo 3: O Problema Amostral Inferncias e Comparaes

148

regio de confiana extremamente simples, pois consiste simplesmente em descartar


as extremidades inferior e superior dos valores menos provveis que concentram
probabilidades (1-p)/2. Em um problema multidimensional, no entanto, a definio da
regio de confiana pode no ser um problema bem posto, pois diferentes regies, com
diferentes formas, podem resultar numa mesma concentrao de probabilidades. Essa
questo est ilustrada no Exemplo 3.24 a seguir.

Exemplo 3.24 - Considere a distribuio exponencial de probabilidades definida para


duas variveis no Exemplo 2.14.

( x1 ; x2 ) = 2e( x1 2 x2 )
Pode-se ento construir regies de confiana com forma quadrada, com lados de
tamanho 2a e centradas ao redor do ponto mdio, na forma
1+ a 0.5 + a

1+ a

0.5 + a

1- a

0.5- a

2e( x1 2 x2 ) dx2 dx1 = 2 e( x1 )

1- a 0.5- a
1+ a

e( 2 x2 ) dx2 dx1 =

0.5 + a

e( x1 ) e( 2 x2 )
2

1 1-a 2 0.5-a

cuja confiana depende do valor de a. Como ambas as variveis x1 e x2 so estritamente


positivas, o maior valor admissvel para a 0.5 (lados iguais a 1). Portanto, o maior
quadrado centrado em torno da mdia representa uma confiana de 33.15%.
Alternativamente, pode-se tambm construir regies de confiana com forma
retangular, com lados de tamanhos proporcionais a 2:1 e centradas ao redor do ponto
mdio, na forma
1+ 2 a 0.5 + a

1+ 2 a

2e( x1 2 x2 ) dx2 dx1 = 2

1-2 a 0.5- a

1-2 a
1+ 2 a

e( x1 )

0.5 + a

e( 2 x2 ) dx2 dx1 =

0.5- a
0.5 + a

e( x1 )
e( 2 x2 )
2

1 1-2 a 2 0.5-a

De forma anloga, o maior desses retngulos admissvel tem lados iguais a 2 e a 1.


Nesse caso, o retngulo mximo admissvel concentra uma confiana de 74.76%. Logo,
parece claro que existe um retngulo com os lados na proporo 2:1 e centrado em torno
do ponto mdio que concentra a mesma confiana do quadrado com lado de
comprimento igual a 1. Na realidade, esse retngulo tem os lados com comprimentos
iguais a 1.44 e 0.72, nas direes de x1 e x2 respectivamente.
Da mesma forma que feita entre o retngulo e o quadrado no caso anterior,
diferentes regies de forma retangular, circular, elipsoidal, etc., podem ser desenhadas
para conter a mesma probabilidade de observao dos dados que a regio quadrada

Captulo 3: O Problema Amostral Inferncias e Comparaes

149

proposta inicialmente. Logo, no possvel definir a forma da regio de confiana de


forma inequvoca sem que restries adicionais sejam impostas ao problema.

3.5.1. A Geometria da Regio de Confiana da Curva Normal Multidimensional


Como mostrado no Exemplo 3.24, no possvel definir uma regio de
confiana de forma inequvoca em problemas multidimensionais sem que se imponham
restries adicionais ao problema. No caso particular da curva normal multidimensional,
uma propriedade muito importante o fato de que a curva apresenta a forma de um
chapu ou sino, convergindo para o valor zero medida que as variveis tendem a
infinito em quaisquer direes do espao. Portanto, possvel desenhar curvas de nvel
fechadas, onde a densidade de probabilidade se mantm constante. Por isso, para o caso
da curva normal multidimensional, define-se a regio de confiana com probabilidade p
quela regio do espao de variveis que limitada por uma superfcie onde todos os
pontos esto associados a um mesmo valor da densidade de probabilidade e onde a
integral da funo densidade de probabilidade igual a p. O conceito de regio de
confiana aqui proposto pode ser facilmente compreendido se imaginarmos que a
funo densidade de probabilidade descreve um relevo no espao e as superfcies que
delimitam regies de diferentes probabilidades so as curvas de nvel, como mostrado
na Figura 3.13..

Figura 3.13 - Definio da regio de confiana para a curva normal multidimensional.


No caso da curva normal, a definio da regio de confiana est associada ao
expoente da Equao (2.72), dado que os demais termos da equao so constantes e
no dependem do ponto experimental considerado. Sendo assim, as curvas de nvel que
limitam as regies de confiana satisfazem a Equao (3.48) abaixo:

(x )

VX1 ( x ) = c

(3.48)

onde c uma constante que caracteriza o nvel da funo densidade de probabilidade e,


portanto, o grau de confiana. Quanto menor o valor de c, maior o grau de confiana,

Captulo 3: O Problema Amostral Inferncias e Comparaes

150

uma vez que a funo normal tende a zero para valores muito grandes. A regio de
confiana ento aquela que satisfaz a Equao (3.49)

(x )

VX1 ( x ) c

(3.49)

constituda pelos pontos interiores em relao curva de nvel.


As Equaes (3.48-49) so muito estudadas na lgebra e caracterizam um
conjunto particular de curvas chamadas de formas quadrticas. Este nome deve-se ao
fato de que, depois de feitas as multiplicaes vetoriais, a Equao (3.48) pode ser
colocada na forma:
NX

NX

(v ) ( x ) ( x
1
ij

i =1j =1

j ) = c

(3.50)

que a generalizao de uma polinomial de segundo grau para vrias variveis. vij1 o
elemento ij da inversa da matriz de covarincias de x.
Como a matriz VX positiva definida, a curva definida pela Equao (3.48)
uma forma quadrtica muito especial, que recebe o nome de hiper-elipse; ou seja, uma
elipse no espao de dimenso NX. Portanto, a regio de confiana obtida a partir da
curva normal sempre uma elipse no espao de variveis de dimenso NX. O problema
que o estudo da Equao (3.48) na forma proposta bastante dificultado pelo fato da
matriz VX no ser diagonal, o que faz com que todos os termos quadrticos apaream,
como na Equao (3.50). Portanto, antes de estudar as caractersticas da hiper-elipside
que define a regio de confiana, conveniente diagonaliz-la. Para tanto, lembremos
do problema clssico de valores caractersticos, colocado como encontrar os nmeros
(valores caractersticos) e vetores d (vetores caractersticos) que satisfazem a seguinte
equao:

VXd = d

(3.51)

( VX I ) d = 0

(3.52)

ou seja

O sistema de equaes (3.52) um sistema linear clssico. Para que existam


solues no triviais da Equao (3.52), necessrio que a matriz (VX - I) seja
singular; ou seja, que seu determinante seja igual a zero. Portanto, a equao

det ( Vx I ) = 0

(3.53)

a equao que permite calcular os valores caractersticos do sistema. Uma vez obtidos
os valores caractersticos do sistema, a Equao (3.51) pode ser utilizada para que sejam
obtidos os vetores caractersticos. Como a matriz (VX - I) singular, infinitos vetores
caractersticos satisfazem a Equao (3.51). Para normalizar e definir de forma nica a
soluo do problema, conveniente tomar como soluo, dentre as infinitas solues

Captulo 3: O Problema Amostral Inferncias e Comparaes

151

existentes, aquela cujo vetor tem tamanho unitrio. Deve ser ainda enfatizado que a
Equao (3.53) resulta sempre em um polinmio de grau NX, que portanto admite at
NX diferentes razes ou valores caractersticos. Como a matriz VX positiva definida e
simtrica, possvel garantir que todos os seus valores caractersticos so nmeros reais
e positivos.
A Equao (3.51) pode ser re-escrita de forma compacta, englobando todas as
solues caractersticas do sistema ao mesmo tempo, na forma:

1 0
0
2
VX [d1 M d 2 MLM d NX ] = [d1 M d 2 MLM d NX ]
0 0

0 0

L 0
L 0
O M

L NX

(3.54)

que pode ento ser usada como definio da matriz diagonal dos valores caractersticos
e da matriz de vetores caractersticos na forma:

VX D = D

(3.55)

onde

1 0
0
2
=
M M

0 0

L 0
L 0
O M

L NX

(3.56)

D = [d 1 Md 2 MLMd NX ]

(3.57)

Desta forma, possvel representar a matriz VX como o produto de matrizes


VX = DD1

(3.58)

onde tem estrutura diagonal.

1 1
Exemplo 3.25 - Seja a matriz A =
. Neste caso, os valores caractersticos so
0 2
iguais a:

1
det ( A I ) = det
0

1
= (1 )( 2 ) 0 ( 1) = 0
2

2 3 + 2 = 0

Captulo 3: O Problema Amostral Inferncias e Comparaes

152

cujas razes so:

( 3)

( 3) 4 (1)( 2 )
2 (1)
2

1
=
2

Assim, os vetores caractersticos podem ser obtidos como:

1 1 a
a
a b = a
a a
0 2 b = 1 b 2b = b b = 0 = d1


1
A soluo com tamanho unitrio d1 = .
0
1 1 a
a
a b = 2a
a b
0 2 b = 2 b 2b = 2b b = b = d 2

2 .
A soluo com tamanho unitrio d 2 =
2

2
1

1
0

2 .

Desta forma, =
e
D
=

2
0 2
0

2
Calculando-se a matriz inversa de D como

2
1 d 22 d12
1
D =
=
2
det ( D ) d 21 d11 2

0
2
1

2 1

2 =
0
1

chega-se finalmente representao diagonalizada de A como

2
1

2 1 0 1
A=

2 0 2 0
0

Captulo 3: O Problema Amostral Inferncias e Comparaes

153

Como alm de positiva definida, a matriz VX simtrica, possvel mostrar que


D = DT , de forma que nos problemas que nos interessam mais diretamente, possvel
escrever:
1

Vx = DDT

(3.59)

Substituindo a Equao (3.59) na Equao (3.48), a equao que descreve a


superfcie que envolve a regio de confiana ganha a forma:

(x )

D 1DT ( x ) = c

(3.60)

Finalmente, redefinindo as variveis do problema como

z = DT ( x )

(3.61)

z T 1 z = c

(3.62)

zi2

(3.63)

a Equao (3.60) ganha a forma

que tem a forma explcita


NX

i =1

=c

facilmente identificvel como uma elipse centralizada no ponto central e com semieixos com comprimentos iguais a ci . Repare que c, ou o grau de confiana exigido,
no exerce qualquer influncia sobre o formato da regio de confiana, excetuando-se
obviamente o aumento proporcional de todos os semi-eixos da elipse. Por isso, quase
sempre o fator c desprezado durante a anlise, j que ele apenas muda de forma
absolutamente proporcional os eixos da elipse. Esses resultados indicam que as regies
de confiana obtidas para a curva normal para diferentes nveis de confiana formam
uma estrutura semelhante da cebola, em que as regies com maior confiana
envolvem completa e proporcionalmente as regies de menor confiana.
O conjunto de transformaes introduzidas atravs da Equao (3.61) representa
uma translao para o zero e uma rotao da elipse, de forma a fazer com que os seus
semi-eixos coincidam com os eixos ortogonais e que o centro da elipse coincida com a
origem dos eixos de coordenadas. As transformaes da Equao (3.61) so isomtricas,
no sentido de que elas preservam a forma original da figura geomtrica, como ilustrado
na Figura 3.14.

Captulo 3: O Problema Amostral Inferncias e Comparaes

154

Figura 3.14 - Transformaes geomtricas devidas s mudanas de coordenadas.

A partir da Equao (3.63) fica relativamente fcil extrair muitas informaes


sobre a geometria da regio de confiana de um problema descrito pela curva normal
multidimensional. As informaes mais importantes so:
1- A regio de confiana da curva normal multidimensional uma hiper-elipse, cujos
eixos tm comprimentos proporcionais a i , onde i, i=1,...,NX, so os valores
caractersticos de VX;
2- A assimetria mxima da hiper-elipse que descreve a regio de confiana, ou fator de
esfericidade, definida como a razo entre os comprimentos extremos de seus eixos, pode
ser dada por

MIN
MAX

(3.64)

3- Como o trao de uma matriz (a soma dos elementos da diagonal principal) igual
soma de seus valores caractersticos, ou seja,
NX

NX

i =1

i =1

tr (VX ) = vii = i

(3.65)

o trao da matriz de covarincias igual soma dos comprimentos quadrados de seus


eixos;
4- Como o volume de uma elipse proporcional ao produto do comprimento de seus
eixos, conclui-se que o volume da regio de confiana proporcional raiz quadrada do
produto dos valores caractersticos de VX. Como o produto dos valores caractersticos
de uma matriz idntico ao valor do determinante da matriz, possvel escrever

Captulo 3: O Problema Amostral Inferncias e Comparaes

155

NX

Volume det (VX ) = i

(3.66)

i =1

Portanto, os valores caractersticos da matriz de covarincias VX guardam


muitas informaes a respeito da geometria da regio de confiana da distribuio
normal. Repare que distribuies probabilsticas no normais podem apresentar
geometria da regio de confiana bastante distinto do aqui apresentado.
Exemplo 3.26 - Seja a distribuio de probabilidades exponencial apresentada abaixo:

NX x i
1 1
( x ) = NX NX exp i

i
2
i =1
i

i =1

cujo vetor de mdias e matriz de covarincias so dados por

2 12
1


0
2

=
, VX =
M
M

0
NX

0
2 22
M
0

L
0

0
L
O
M
2
L 2 NX

A regio de confiana da distribuio exponencial pode tambm ser obtida


explorando-se a simetria da distribuio em torno do centro e o fato de que a funo
converge suavemente para o zero nos limites de infinitamente positivos ou negativos.
Assim, como no caso da curva normal, a regio de confiana pode ser dada pela
equao
NX

xi i

i =1

=c

onde c uma constante relacionada ao grau de confiana desejado. A equao que


NX
define a forma da regio de confiana a equao de 2 planos, a depender do sinal
adotado para o termo na funo mdulo. Esses planos cruzam os eixos coordenados nos
pontos
xi = i i c
Como os planos definidos pela equao se interceptam nos mesmos 2NX pontos, esses
pontos constituem os vrtices de um poliedro regular, cujas faces planas so os planos
que conectam os vrtices em cada um dos quadrantes definidos quando os eixos
NX
coordenados so centrados em . O poliedro formado ento por 2 faces e 2NX
vrtices. Os eixos do poliedro so paralelos aos eixos coordenados, conectam vrtices
opostos e tm comprimentos iguais a 2ci. Assim, no espao bidimensional a regio de
confiana tem a forma de um losango, com centro em e eixos paralelos aos eixos
coordenados. No espao tridimensional a regio de confiana tem a forma de um

Captulo 3: O Problema Amostral Inferncias e Comparaes

156

octaedro regular, com faces triangulares, centro em e eixos paralelos aos eixos
coordenados. E assim por diante.

muito importante perceber que a Equao (3.61) sugere uma mudana de


variveis na forma
NX

zi = d ij ( x j j )

(3.67)

j =1

onde dij representa o j-simo componente do i-simo vetor caracterstico de VX. Se os


valores caractersticos so ordenados de forma que

1 > 2 > ... > NX

(3.68)

ento as variaes observadas podem ser decompostas ao longo das direes definidas
pelos vetores caractersticos, sendo que as variaes so mximas ao longo de d1
(direo que define o maior eixo da hiper-elipse) e mnimas ao longo da direo dNX
(direo que define o menor eixo da hiper-elipse). Por isso, os vetores caractersticos
so freqentemente chamados de direes principais de variao, enquanto os valores
caractersticos so usados para definir as direes do espao ao longo das quais as
variaes so mais importantes. Quando um ou mais dos valores caractersticos
apresentam ordem de magnitude muito inferior s dos demais, possvel sugerir a
reduo do nmero de variveis do problema, j que isso indica que uma ou mais
combinaes de variveis permanecem essencialmente constantes no conjunto de dados.
1
Exemplo 3.27 - Seja o vetor de mdias = e a matriz de covarincias
2
100 9
VX =
, cujos valores caractersticos so
9 1

100
9
2
det
= (100 )(1 ) 81 = 101 + 19 = 0

1
9

101 1012 4.19


2
1 = 100.81153 , 2 = 0.18847

Observa-se que as flutuaes ocorrem principalmente ao longo da direo 1,


enquanto as flutuaes observadas ao longo da direo 2 so comparativamente pouco
importantes. Isso sugere que h apenas uma varivel aleatria no problema, e no duas,
como sugerido pela matriz de covarincias e observaes experimentais. A direo
principal de variao pode ser obtida como,
100a + 9b = 100.81153 a
100 9 a
a
9 1 b = 100.81153 b 9a + b = 100.81153 b a = 11.0901b

Captulo 3: O Problema Amostral Inferncias e Comparaes

157

Para obter o vetor unitrio


11.0901
2
2
d1 =
d1 = 11.0901 + 1 = 11.13509
1

Assim
d1 =

11.0901 0.9960
1
=
11.13509 1 0.0898

que sugere a seguinte mudana de variveis


z1 = 0.9960 x1 + 0.0898 x2 1.1756
que a verdadeira varivel aleatria do problema.
A segunda direo de variao pode ser obtida como,
100a + 9b = 0.18847 a
100 9 a
a
9 1 b = 0.18847 b 9a + b = 0.18847b a = 0.09017b



Para obter o vetor unitrio
0.09017
d2 =
d 2 = 0.09017 2 + 12 = 1.00406

Assim
d2 =

0.09017 0.0898
1

= 0.9960
1
1.00406

que sugere a seguinte varivel se mantm essencialmente constante e igual a zero


z2 = 0.0898 x1 + 0.9960 x2 1.9022 = 0
Portanto
x2 = 0.09016 x1 + 1.9098 = 0

3.6. Concluses
Foi mostrado nesse captulo que, em geral, os parmetros que caracterizam as
curvas de distribuio de probabilidades em problemas estocsticos (em particular a
mdia e a varincia) no podem ser jamais obtidos por mtodos empricos. Nesses
casos, preciso definir procedimentos consistentes de inferncia, a partir de dados
amostrados empiricamente. Contudo, as grandezas amostradas constituem tambm

Captulo 3: O Problema Amostral Inferncias e Comparaes

158

variveis aleatrias, sujeitas a flutuaes e incertezas. necessrio, portanto, descrever


como essas grandezas flutuam e definir a forma das respectivas distribuies de
probabilidade.
No caso particular de medidas sujeitas a flutuaes normais, mostrou-se que a
mdia amostral flutua de acordo com a distribuio t de Student, que pode ser utilizada
para fins de determinao dos intervalos de confiana dos valores amostrados e para
comparaes entre valores amostrados em diferentes conjuntos de dados. De forma
similar, mostrou-se que a varincia amostral flutua de acordo com a distribuio 2, que
tambm pode ser utilizada para fins de determinao dos intervalos de confiana dos
valores amostrados e para comparaes entre valores amostrados em diferentes
conjuntos de dados. Contudo, comparaes de varincias obtidas em diferentes
conjuntos de dados podem ser feitas de forma mais eficiente com o auxlio da
distribuio F de Fisher.
Finalmente, foi mostrado que a geometria natural das regies de confiana em
problemas multidimensionais, descritos adequadamente pela distribuio normal, a
geometria das formas elpticas. Nesse caso, os valores caractersticos e vetores
caractersticos que caracterizam a matriz de covarincias do problema representam
respectivamente os contedos de incertezas e as direes caractersticas de flutuaes
do problema analisado.

3.7. Leitura Adicional


Como j discutido ao final dos Captulos 1 e 2, a literatura dedicada
apresentao e discusso do problema amostral imensa. No cabe aqui, portanto, uma
reviso extensa dessa rea. O leitor interessado encontrar centenas de livros que
abordam esses assuntos em qualquer biblioteca dedicada Matemtica e Engenharia.
Como j apresentado anteriormente, um texto clssico relacionado ao uso e
aplicao dos conceitos discutidos no Captulo 3 em problemas de Engenharia
apresentado em
Process Analysis by Statistical Methods, D.M. Himmelblau, John Wiley & Sons,
New York, 1970.
Um outro texto clssico sobre anlise e comparao de dados experimentais
apresentado por
Statistics for Experimenters. An Introduction to Design, Data Analysis, and Model
Building,G.E.P. Box, W.G. Hunter e J.S. Hunter, John Wiley & Sons, New York,
1978.
Uma discusso mais formal sobre as propriedades matemticas associadas ao
problema de inferncia estatstica e aos testes de hipteses apresentada em
Probability and Statistical Inference. Volume 1: Probability, J.G. Kalbfleisch,
Springer-Verlag, New York, 1985.

Captulo 3: O Problema Amostral Inferncias e Comparaes

159

Probability and Statistical Inference. Volume 2: Statistical Inference, J.G.


Kalbfleisch, Springer-Verlag, New York, 1985.
Probability and Statistics. Theory and Applications., G. Blom, Springer-Verlag, New
York, 1989.
Textos bsicos sobre a lgebra de matrizes e formas quadrticas, em especial
sobre o clculo de valores e vetores caractersticos, podem ser encontrados em
Matrix Computations, G.H. Golub e C.F. van Loan, The John Hopkins University
Press, Baltimore, 1996.
Linear Algebra and Its Applications, G. Strang, Harcourt Brace Jovanovich College
Publishers, Orlando, 1988.
Advanced Engineering Mathematics, C.R. Wylie e L.C. Barrett, McGraw-Hill, New
York, 1985.

3.8. Exerccios Sugeridos


1- Suponha que voc est insatisfeito com a reprodutibilidade de uma certa tcnica
experimental e no pode comprar um novo equipamento e nem pode melhorar a
tcnica disponvel. O que voc pode fazer para melhorar a preciso das anlises
efetuadas? Ser que voc pode obter uma preciso arbitrariamente pequena para uma
tcnica experimental? Justifique.
2- Suponha que a anlise de dados histricos disponveis no laboratrio indiquem que a
varincia de uma certa medida experimental igual a 2 = 1. Como voc poderia
propor um sistema de amostragem que reduzisse em 10 vezes a varincia das
medidas? Justifique.
3- Quatro turmas de operadores trabalham numa empresa qumica. O desempenho das
quatro turmas deve ser avaliado. Voc o engenheiro recomendado para isso. Para
tanto, voc deve analisar os dados de converso do reator qumico onde se processa a
reao. Os dados disponveis so os seguintes:

1
2
3
4
5
6
7
8
9

Turma 1
0.892
0.910
0.880
0.900
0.920
0.905
0.860
0.920
0.904

Turma 2
0.850
0.875
0.880
0.842
0.900
0.910
0.891
0.905
0.870

Turma 3
0.775
0.872
0.650
0.881
0.910
0.720
0.851
0.820
0.730

Turma 4
0.915
0.921
0.917
0.911
0.907
0.899
0.912
0.910
0.907

Captulo 3: O Problema Amostral Inferncias e Comparaes


10
11
12
13
14
15
16
17
18
19
20

0.930
0.921
0.872
0.897
0.880
0.911
0.908
0.915
0.882
0.920
0.900

0.865
0.880
0.891
0.832
0.886
0.872
0.907
0.652
0.871
0.915
0.870

0.780
0.792
0.751
0.891
0.950
0.971
0.918
0.863
0.721
0.753
0.828

160

0.913
0.905
0.898
0.902
0.911
0.907
0.906
0.913
0.908
0.906
0.909

a) Calcule as mdias e varincias amostrais para cada conjunto de dados;


b) Calcule os intervalos de confiana da mdia e da varincia para cada conjunto
de dados. Explicite as hipteses usadas;
c) Aplique os testes cabveis e verifique se as turmas so ou no equivalentes;
d) Verifique se os dados de cada grupo podem estar correlacionados aos dados dos
demais;
e) Construa um grfico na seguinte forma:

Para cada turma, verifique se h outliers; ou seja, pontos fora da regio de


confiana. Podem ser observadas tendncias de aumento ou decrscimo de
converso?
f) Voc mandaria alguma turma para treinamento?
4- Seja o conjunto de dados relativos varivel xi retirados do computador com a rotina
RANDOM:

1
2
3
4
5

00
0.1025
0.1147
0.9508
0.7212
0.4393

10
0.2217
0.3344
0.1351
0.6227
0.5111

20
0.3737
0.4521
0.5811
0.9123
0.7314

30
0.8341
0.4298
0.6315
0.4726
0.6215

40
0.0910
0.9511
0.1223
0.8711
0.5661

Captulo 3: O Problema Amostral Inferncias e Comparaes


6
7
8
9
10

0.6161
0.0012
0.1200
0.8837
0.4141

0.7502
0.8192
0.9095
0.0195
0.5823

0.3122
0.4659
0.2197
0.7382
0.1180

0.5871
0.2012
0.3191
0.4615
0.9867

161
0.6161
0.9813
0.6715
0.2328
0.9142

a) Calcule mdia e varincia para a lista de medidas disponveis.


b) Faa zi = xi e yi = xi+1.. Calcule o coeficiente de correlao entre z e y. Voc
consegue observar alguma tendncia?
c) Divida os dados em 10 classes, de forma que
Classe1 = 0 xi 0 .10 , ..., Classe10 = 0 . 9 xi 1.00
Monte o histograma de freqncia das classes.
d) A distribuio obtida supostamente uniforme. Os dados confirmam isso?
Admitindo-se que
x < 0
0,

( x ) = 1, 0 x 1
0,
x > 1

calcule a mdia e a varincia esperadas.


e) As mdias e varincias obtidas podem ser consideradas equivalentes s tericas?
Quais os limites de confiana dos dados obtidos?
5- Suponha que um problema estocstico envolve duas variveis sujeitas a flutuaes
normais. Suponha ainda que o vetor de mdias e a respectiva matriz de covarincias
so dados por:
x
1
1 0.9
x = 1 , = , VX =

x2
1
0.9 1
a) Calcule a forma da regio de confiana (faa c = 1 na Equao (3.48));
b) Calcule as direes principais e interprete os resultados;
c) Como voc descreveria a regio de confiana, com um nvel de confiana
correspondente a c = 1, onde voc espera encontrar valores de x1 e x2?

x1min x1 x1max
x2min x2 x2max
6- Trs valores medidos esto disponveis: 1.0, 1.5 e 8.0.
a) Caracterize estatisticamente os dados;
b) Suponha que o experimentador desconfia do ltimo valor medido. Que conselho
voc daria ao experimentador?
c) Admita que um quarto valor obtido e igual a 1.3. A sua opinio muda? E se o
quarto valor obtido for igual a 5.0? E se for igual a 9.1?

Вам также может понравиться