Вы находитесь на странице: 1из 108

Regresso Linear Simples

Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou
mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser
predita a partir da outra ou outras. Exemplos:
A populao de bactrias pode ser predita a partir da relao entre
populao e o tempo de armazenamento.
Concentraes de solues de protena de arroz integral e absorbncias
mdias corrigidas.
Relao entre textura e aparncia.
Temperatura usada num processo de desodorizao de um produto e cor do
produto final.
A porcentagem de acerto ou, ento, bytes transferidos, podem estar
relacionados com o tamanho da cache (bytes), para um determinado tipo de
pr-carregamento.
1

Nmero de acessos ao disco (disk I/O) e o tempo de processamento para


vrios programas.
A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo
total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de
dados.
A anlise de regresso, assim como a anova, tambm representa os dados
atravs de um modelo linear aditivo, onde o modelo inclui um componente
sistemtico e um aleatrio.

Y f (X )

(1)

f descreve a relao entre X e Y. so os erros aleatrios. Y = varivel resposta ou dependente; X


= varivel independente, concomitante, covarivel ou varivel preditora.

O caso mais simples de regresso quando temos duas variveis e a relao


entre elas pode ser representada por uma linha reta Regresso linear
simples.

Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y.
Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los
para dizer alguma coisa sobre a relao.

Como sabemos os dados podem ser obtidos a partir de duas situaes:


1) dados experimentais: as observaes X e Y so planejadas como o resultado de um
experimento, exemplo:
X = tamanhos de cache e Y = porcentagem de acerto
X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame
tipo italiano.
Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses
e observou o resultado, Y.
2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo:
populao de coliformes e populao de staphilococus;
mdia das alturas de plantas numa rea e produo.
O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi
avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.

Problema prtico: os valores observados de Y (e algumas vezes


de X) no so exatos. Devido a variaes biolgicas, de
amostragem e de preciso das medidas e outros fatores, s
podemos observar valores de Y (e possivelmente de X) com algum
erro. Assim, com base numa amostra de valores (X,Y) a exata
relao entre X e Y mascarada pelos erros aleatrios.
X Fixo vs Aleatrio:
Dados experimentais: Geralmente X (doses, tempo, tamanho
da cache) determinado pelo pesquisador X fixo. Y est
sujeito variaes fsicas, biolgicas, tipos de objetos numa
pgina da Web, usurios, de amostragem, de medidas Y
uma varivel aleatria.
Dados observacionais: geralmente X e Y so variveis
aleatrias.
5

A distribuio normal bivariada


Com dados observacionais, geralmente X e Y so v. a. e, de
alguma forma, relacionadas.
Lembrete: uma distribuio de probabilidades d uma descrio
formal (matemtica) dos valores possveis da populao que
podem ser observados para a varivel. Quando temos duas
variveis a distribuio denominada bivariada. A fXY(x,y)
descreve como os valores de X e Y se comportam conjuntamente.
A distribuio normal freqentemente uma descrio razovel
de uma populao com medidas contnuas. Quando X e Y so v.
a. contnuas, uma suposio razovel que ambas sejam
normalmente distribudas. Entretanto, espera-se que elas se
distribuam conjuntamente.
6

A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade
de probabilidade f(x,y) para X e Y, tal que:
X e Y apresentam, cada uma, distribuio normal com mdias X e Y, e varincias 2X e 2Y,
respectivamente;
o relacionamento entre X e Y medido pela quantidade XY tal que -1 XY 1.
XY o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear
entre elas.

XY 1 correlao positiva perfeita


XY 1 correlao negativa perfeita
XY 0 correlao nula

Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associao. Para
isso estimamos XY.

Comparao entre os modelos de regresso e correlao


Dois modelos:
X fixo: ajusta-se um modelo para a mdia da v. aleatria Y como uma funo de X fixo (linha reta).
Estima-se os parmetros do modelo para caracterizar o relacionamento.
X aleatrio: caracteriza-se o relacionamento (linear) entre X e Y atravs da correlao entre elas e
estima-se o parmetro de correlao.
7

Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam


ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de
correlao descreve o grau de associao entre X e Y, ele no caracteriza o
relacionamento atravs de um modelo de regresso.
Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de
alturas de plantas da unidade experimental. O coef. de correlao no permite isso.
Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.

Isso legtimo? Se tomarmos cuidado na


interpretao, sim.
Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso
para caracterizar o relacionamento, tecnicamente, todas as anlises posteriores
so consideradas como sendo condicionais aos valores de X presentes no
estudo. Isto significa que ns consideramos X fixo, embora ele no seja.
Entretanto, vlido fazer-se previses. Dado (condicional) que se observa um
particular valor de altura de planta, ele quer obter o melhor valor para
produo. O pesquisador no est dizendo que ele pode controlar as alturas e,
assim, influenciar as produes.
Vale para os dados da amostra.

Causalidade versos correlao


Pesquisadores freqentemente so tentados a inferir uma relao de causa e efeito entre X e Y
quando eles ajustam um modelo de regresso ou realizam uma anlise de correlao. Uma
associao significativa entre X e Y em ambas as situaes no necessariamente implica numa
relao de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O grfico mostra a populao
de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o nmero de cegonhas
(pssaros) naquele ano (X).
Interpretao: existe associao
entre X e Y.
Freqentemente, quando duas v. X e
Y parecem estar fortemente
associadas, pode ser porque X e Y
esto, de fato, associadas com uma
terceira varivel, W. No exemplo, X
e Y aumentam com W = tempo.

Correlao no necessariamente implica em causalidade


9

Construo de Modelos de Regresso


I.

Seleo das variveis preditoras

II.

Escolha do modelo de regresso

III.

Abrangncia do modelo

i.

O problema, em estudos observacionais, escolher um conjunto de


variveis que podem ou devem ser includas no modelo;

ii.

Pode-se usar um modelo terico; Usar aproximaes por modelos


polinomiais;

iii. Geralmente necessrio restringir a abrangncia do modelo para


alguns valores ou regio da(s) varivel(is) preditora(s).

10

Modelo de regresso linear simples


(Sem especificao da distribuio de
probabilidades para o erro)

Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo
dado por:

Yi 0 1 X i i
i 1,2,..., n

(2)

11

Onde:

Yi o i-simo valor da varivel resposta;


0 e 1 so os parmetros (coeficientes de regresso);
Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo).
i o termo do erro aleatrio com E(i)=0 e 2(i)= 2;
i e j no so correlacionados (i, j)=0 para todo i,j; i j; (covarincia nula).
Covarincia (o resultado em qualquer experimento no tem
i=1,2,...,n.
efeito no termo do erro de qualquer outro experimento)
Os dados so usados para estimar 0 e 1, isto , ajustar o modelo aos dados, para:
quantificar a relao entre Y e X;
usar a relao para predizer uma nova resposta Y0 para um dado valor de X0 (no includo no
estudo);
calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova
amostra e comparando os valores estimados com os observados.
- dado um valor de Y0, para o qual o correspondente valor de X0 desconhecido,
estimar o valor de X0.
12

Caractersticas do modelo:
constante

aleatrio

1. Yi uma v.a.(Y i 0 1 X i i )
2. E(Yi ) E ( 0 1 X i i ) i 0 1 X i
3. 2 (Yi ) 2 ( 0 1 X i i ) 2 ( i ) 2 ( varincia constante)
4. Yi e Y j no so correlacio nados

O modelo de regresso (2) mostra que as respostas Yi so oriundas de uma


distribuio de probabilidades com mdia E(Yi) = 0 +1Xi e cujas varincias so 2, a
mesma para todos os valores de X. Alm disso, quaisquer duas respostas Yi e Yj no
so correlacionadas.

13

A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y1.
Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de
probabilidade apresentam a mesma variabilidade.

14

Resumo da situao: para qualquer valor Xi, a mdia de Yi i = 0 + 1Xi. As mdias esto
sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Yi se
distribuem ao redor da reta.

15

Outro exemplo.

Porcentagem de acerto

44,45
42,10
44,68
46,99
46,26
48,82
50,66
47,68
52,44
53,21
51,85
55,38
16

Mdia:
E(Y)=27,836+0,00006423X

Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado


dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do
termo do erro i=46,26-47,11=-0,845.

17

Significado dos parmetros do modelo de regresso linear simples

yi = 0 + 1xi

x=1

y
x

0
x

x+1

0 (intercepto); quando a regio experimental inclui X=0, 0 o valor da mdia da distribuio


de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo; 1
(inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a
mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade
de Y por unidade de acrscimo em X.
18

Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o


tamanho da cache (X).
Equao de regresso:

y 4 ,763.107 27 ,649 x
Faa o grfico dos pontos e da reta
ajustada. Voc acha que o modelo
adotado razovel?

19

y=4,763e7-27,649*x+eps
4,6e7

BYTES TRANSFERIDOS

4,4e7
4,2e7
4e7
3,8e7
3,6e7
3,4e7
3,2e7
3e7

2,2e5

2,6e5

3e5

3,4e5

3,8e5

4,2e5

TAMANHO DA CACHE

O que significa o coeficiente angular neste caso? E o coeficiente


linear?
Faa uma predio para o nmero de bytes transferidos para tamanho
de cache igual a 270.000 bytes.

20

Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.


x
10
13
5
7
20
y
4
3
6
5
2
Equao de regresso:

y 6,87 0,261x

Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?

O que significa o coeficiente


angular neste caso? E o coeficiente
linear?
Faa uma previso para o valor do
aluguel para idade de 13 anos.

21

Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X1, X2,...,Xp-1);
o modelo de regresso no precisa ser uma linha reta:

Y 0 1 X 2 X 2
Chama-se modelo quadrtico ou de 20 grau, cuja figura uma parbola. Esse modelo, embora no
seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido
para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos
parmetros.

22

Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um


particular algoritmo foi mensurado para diversos valores de heap size.

Scatterplot (GARBAGE.STA 10v*10c)


y=1321,483-2,208*x+0,001*x^2+eps

GARBAGE COLLECTION TIME

600
500
400
300
200
100
0

400

600

800

1000

1200

1400

1600

HEAP SIZES
23

Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o


tempo.

Y 1 e 3X
2

necessrio estudar mtodos para modelos no lineares.

Exemplo computao: modelo potncia, y=bxa, onde X a velocidade do processador e Y


a taxa I/O.
24

Modelos de regresso alternativos


As vezes torna-se conveniente (p.e. facilidade de clculos) escrever o modelo
de regresso linear (2) de forma diferente, embora equivalentes. Seja X0 uma
varivel dummy identicamente igual a 1. Ento, temos o modelo que associa
uma varivel X a cada parmetro do modelo:

Yi 0 X 0 1 X 1 i onde X 0 1
Uma outra alternativa usar para a v. preditora os desvios (Xi-Mdia(X)) ao invs
de Xi. Para no modificarmos o modelo (2), escrevemos:

Yi 0 1 ( X i X ) 1 X i
Yi 1 ( X i X ) i
*
0

0 1 X
*
0

25

Estimao da funo de regresso


Denotamos as observaes (Xi,Yi) para a primeira repetio como (X1,Y1), para a segunda como
(X2,Y2), e para a i-sima como (Xi,Yi), com i=1,2,..,n.
Exemplo: uma pesquisadora est estudando o comportamento de Staphilococcus aureus (Y) em
frango, mantido sob condies de congelamento domstico (-18 oC) ao longo do tempo (X) (dias).
Tempo
Populao

0
3,114

7
3,568

14
2,845

21
3,079

28
2,699

35
2,663

Notao: temos n=6 observaes. O tamanho da populao (ufc/cm2) dado em log10.

Mtodo dos mnimos quadrados


Para observaes (Xi,Yi) i=1,..,n, temos o modelo

Yi 0 1 X i i

i 1,.., n

Desejamos ajustar o modelo, estimando os parmetros 0 e 1.


O mtodo de mnimos quadrados considera os desvios de Yi em relao ao seu valor esperado
(E(Yi)):

Yi ( 0 1 X i )

26

Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio Q


n

Q Yi 0 1 X i

(10)

i 1

De acordo com o mtodo de mnimos quadrados, os estimadores de 0 e 1 so os valores b0 e


b1, respectivamente, que minimizam o critrio Q para a amostra (X1,Y1),..,(Xn,Yn).
6,5

e3

5,5

VALOR

4,5

e1

3,5

e2

2,5

1,5

e5
2

10

14

18

22

IDADE

27

Estimadores de mnimos quadrados


Os valores de 0 e 1 que minimizam o critrio Q podem ser obtidos diferenciando-se (10) em
relao a 0 e 1 , portanto, obtemos:

Q
0
Q
1

2 (Yi 0 1 X i )
i 1
n

2 X i (Yi 0 1 X i )
i 1

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de 0


e 1que minimizam Q.

28

2 (Yi b0 b1 X i ) 0
i 1
n

2 X i (Yi b0 b1 X i ) 0
i 1

simplificando e expandindo, obtemos :


n

(Y b
i

i 1

b1 X i ) 0

X (Y b
i

i 1

Y nb
i 1

b1 X i ) 0
n

b1 X i 0
i 1

X Y b X
i i

i 1

i 1

b
X

i
1
i 0
i 1

Fazendo-se as derivadas
parciais de segunda ordem,
indicar que um mnimo foi
encontrado com os estimadores
b0 e b1.

Da, obtemos o sistema de equaes normais, dado por:


n

Y
i 1

nb0 b1 X i
i 1

XY
i 1

i 1

i 1

b0 X i b1 X i2

29

As equaes normais podem ser resolvidas simultaneamente para b 0 e b1(estimadores pontuais):


( X X )(Y Y )
b1 (i X X i) 2
i
b0 1n Yi b1 X i Y b1 X

Outra forma de escrevermos:


X Y

XY n

b1
X 2
2
X

30

Exemplo: a pesquisadora deseja encontrar o modelo de regresso da


porcentagem de acertos sobre o tamanho da cache.
Tamanho da
cache (X)

Porcentagem
de acertos (Y)

Total = 3900000

584,52

Mdia = 325000

48,71

(Xi X )

(Yi Y )

( X i X )(Yi Y )

2408500

(X i X )2

(Yi Y ) 2

37500000000

181,438

31

( X i X )( Yi Y )

b1

2
(
X

X
)
i

2408500
37500000000

0 ,0000642

b0 Y b1 X 48 ,71 ( 0 ,0000642 )( 325000 ) 27 ,845


Assim, estimamos que a porcentagem de acerto da cache
aumenta cerca de 0,00006 % para cada byte do tamanho da
cache.

32

33

Sada do Statistica:

34

Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo


sobre a populao de bactrias.
Tempo (X)

Populao (Y)

(X i X )

(Yi Y )

0
7
14
21
28
35
Total = 105

3,114
3,568
2,845
3,079
2,699
2,663
17,968

-17,5
-10,5
-3,5
3,5
10,5
17,5
0

0,119
0,573
-0,150
0,084
-0,296
-0,332
0

Mdia = 17,5

2,9947

( X i X )(Yi Y ) ( X i X ) 2
-2,088
-6,020
0,524
0,295
-3,105
-5,805
-16,199

306,250
110,250
12,250
12,250
110,250
306,250
857,5

(Yi Y ) 2
,014
,329
,022
,007
,087
,110
0,569

( X i X )(Yi Y )
16 ,199

b1

-0,018890
2
857
,
5
(
X

X
)
i
b 0 Y b1 X 2,9947 (0,0189)(17,5) 3,32545

Assim, estimamos que o tamanho da populao de bactrias diminui cerca


de 0,0189 ufc/cm2 para cada dia.
35

Sada do STATISTICA:
Regression Summary for Dependent Variable: POP
R= ,73274116 R= ,53690961 Adjusted R= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err.
St. Err.
BETA of BETA
B
of B
t(4)
p-level
Intercpt
3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596

36

Propriedades dos estimadores de mnimos quadrados


Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear (2) forem
atendidas, os estimadores de mnimos quadrados b0 e b1 so no tendenciosos (unbised) e com
varincia mnima, entre todos os estimadores lineares no tendenciosos. Primeiro, o teorema
diz que:
E(b0)=0 e E(b1)=1. (Demonstrao adiante)
Segundo, o teorema diz que os estimadores b0 e b1 so mais precisos (isto , as suas distribuies
amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe dos
estimadores no tendenciosos que so funes lineares das observaes Y1, Y2,...,Yn. Os
estimadores b0 e b1 so tais funes lineares das observaes. Considere, por exemplo, b1,
( X i X )(Yi Y )
( X i X )Yi

b1
( X X ) 2 kiYi
2
(
X

X
)
i
i

ki

( Xi X )

( X i X )2

Como ki so constantes (pois Xi so constantes conhecidas), b1 uma combinao linear de


Yi e, assim, um estimador linear. Da mesma forma, b0 tambm um estimador linear.
Entre todos os estimadores lineares no tendenciosos, b0 e b1 tem menor variabilidade
(demonstrao adiante) em repetidas amostras nas quais os nveis de X so constante.

37

Estimao pontual da resposta mdia


Estimao da funo de regresso
A mdia do modelo de regresso linear dada por:

E (Y ) 0 1 X
Estima-se a funo de regresso por:

Y b0 b1 X
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.
A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X
da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov
que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da classe
dos estimadores lineares no tendenciosos. Temos:

Yi b0 b1 X i

i 1,2,..., n

como sendo o valor ajustado para o i-simo caso.

38

Exemplo: para os dados de porcentagem de acerto na cache, os


valores estimados da funo de regresso so dados por:

Y 27 ,83633 0 ,0000642 X
Suponha que estejamos interessados na porcentagem mdia
de acerto na cache para X=300.000 bytes (muitas amostras
com 300.000 bytes sob as mesmas condies que a equao
foi estimada); a estimativa pontual vale:

y 27 ,83633 0 ,0000642( 300000 ) 47 ,10


Valores ajustados dos dados da amostra so obtidos
substituindo-se os correspondentes valores da varivel preditora
X na funo de regresso.
39

Sada do Statistica:

40

Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de


regresso so dados por:

Y 3,325 0,019 X

Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de
armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para
X=21 dias de armazenamento; a estimativa pontual vale:c

y 3 ,325 0 ,019( 21 ) 2 ,926


Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores
da varivel preditora X na funo de regresso.
Sada do STATISTICA:
Predicted & Residual Values (staphilo.sta)
Dependent variable: POP
Observed Predictd
Value
Value
Residual
1
3,114000 3,325238 -,211238
2
3,568000 3,193010 ,374990
3
2,845000 3,060781 -,215781
4
3,079000 2,928552 ,150448
5
2,699000 2,796324 -,097324
6
2,663000 2,664095 -,001095
Minimum 2,663000 2,664095 -,215781
Maximum 3,568000 3,325238 ,374990
Mean
2,994667 2,994667 ,000000
Median
2,962000 2,994667 -,049209

Standard
Pred. v.
1,33631
,80178
,26726
-,26726
-,80178
-1,33631
-1,33631
1,33631
-,00000
0,00000

Standard
Residual
-,822385
1,459902
-,840072
,585718
-,378898
-,004263
-,840072
1,459902
,000000
-,191581

Std.Err.
Pred.Val
,185902
,139567
,109264
,109264
,139567
,185902
,109264
,185902
,144911
,139567

Mahalns.
Distance
1,785714
,642857
,071429
,071429
,642857
1,785714
,071429
1,785714
,833333
,642857

Cook's
Distance
,781146
,633439
,095181
,046269
,042668
,000021
,000021
,781146
,266454
,070725
41

Modelo alternativo
Quando o modelo utilizado :
Yi 0* 1 ( X X ) i

O estimador b1 de 1 permanece o mesmo. O estimador de

0* 0 1 X dado por :
b0* b0 b1 X (Y b1 X ) b1 X Y

Temos:

Y Y b1 ( X X )

Exemplo: obter o valor ajustado para X=300.000 bytes de


cache..
Exemplo: para os dados de staphilococcus aureus em frango
obter o valor ajustado para X1=0 dia de armazenamento..

42

Resduos
O i-simo resduo a diferena entre o valor Yi e o
correspondente valor ajustado Y (chapu)i.

ei Yi Yi
Vemos que o resduo para o primeiro caso, exemplo de
pop. de Staphilococcus, sada do statistica, dado por:

e1 Y1 Y1 3,114000 - 3,325238 -,211238


Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o
primeiro caso vale:

e1 Y1 Y1 44 ,45 - 43,886 0,564

43

Distino:

i Yi E(Yi ) o desvio de Y da verdadeira equao de regresso (desconhecida)


i

e assim desconhecido.

ei Yi Yi

o desvio de Yi do valor ajustado Yi (chapu) na equao de regresso


estimada, portanto, conhecido.

Os resduos so extremamente teis para verificar se um determinado modelo de regresso


apropriado para os dados. Este assunto ser tratado mais adiante neste curso.
0,45

para os dados de
staphilococcus aureus em
frango

R e s d u o s

0,30

0,15

0,00

-0,15

-0,30

-5

10

15
TEMPO

20

25

30

35

40

Regression
95% confid.

44

Raw residuals vs. TAMANHOC


Raw residuals = -,0000 + 0,0000 * TAMANHOC
Correlation: r = ,00000
3
2

RESDUOS

1
0
-1
-2
-3
2,2e5

2,6e5

3e5

3,4e5

3,8e5

4,2e5

Regression
95% confid.

TAMANHO DA CACHE
45

Propriedades do modelo ajustado: Y b0 b1 X


1.

e ( Y b
i

i 1

b1 X i ) Yi nb0 b1 X i 0

( devido a primeira equao normal ) (Veja said a do STATISTIC A)


2.

e
i 1

2
i

mnima (condio do mtodo de MQO)


n

3.

Y Y
i 1

4.

i 1

X e
i 1

5.

i i

Y e
i 1

i i

(Veja sad a do STATISTIC A)

0 (ponderados)

0 (ponderados)

6. Y Y b1( X X ) Y b1 ( X X ) Y (para X X)
( a linha de regresso sempre passa pelo ponto (X;Y ) )
46

Estimao da varincia ( 2)
A varincia, 2, dos erros, i, no modelo de regresso (2) precisa ser estimado para obter uma
indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias.
Lembrete: a varincia de cada observao Yi para o nosso modelo de regresso 2, a mesma de
cada i.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes
distribuies de probabilidade com diferentes mdias que dependem do nvel de Xi; as mdias so
estimadas por Yi(chapu). Assim os desvios so os resduos:

ei Yi Yi

A soma de quadrados do erro (resduo), SQE, dada por:


n

i 1

i 1

SQE (Yi Yi ) 2 ei2


Dois graus de liberdade so perdidos para estimar os parmetros 0 e 1. O quadrado mdio do
erro dado por (QME):
SQE

QME

n2

Temos que o QME um estimador no tendencioso de 2

(prova adiante) pois

E (QME ) 2

47

Exemplo: para os dados de Staphilococcus aureus em frango, temos:

SQE 0 ,2639
com 6 - 2 4 graus de liberdade, assim
QME 0 ,2639 / 4 0 ,0659 (Estimativa da varincia)
Estimativa de 0 ,0659 0 ,2567 ufc (desvio padro)
(Desvio padro da distribuio de Y para qualquer X)

Exemplo: para os dados de tamanho de cache, temos:


SQE 25,7385
com 12 - 2 10 graus de liberdade, assim
QME 25,7385 / 10 2,57385
Estimativa de 2,57385 1,6043% (desvio padro)
(Desvio padro da distribuio de Y para qualquer X)
48

Modelo de regresso com erros normais


Para construir intervalos de confiana e fazer testes de hipteses ns devemos
considerar alguma distribuio de probabilidade para os i. Uma distribuio
que tem um apelo prtico e terico bastante grande a distribuio normal e
que ser utilizada neste curso.
O modelo de regresso dado por:

Yi 0 1 X i i

i 1,.., n

Yi o i-simo valor observado da varivel resposta;


0 e 1 so os parmetros;
Xi o i-simo valor da varivel preditora ( uma constante
conhecida, fixo).
i o termo do erro aleatrio, independentes com distribuio
49
2
N(0, ).

Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so


provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros
num banco de dados so independentes.

Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a


suposio que os erros i no so correlacionados, feita no modelo inicial, transforma-se na
suposio de independncia no modelo com distribuio normal.

O modelo implica que Yi so variveis aleatrias independentemente distribudas segundo uma


normal com mdia E(Yi)=0+ 1Xi e varincia 2. Para cada valor Xi, podemos pensar em todos
os valores possveis de Yi e sobre a sua variabilidade. Esta suposio diz que, seja qual for o
valor de Xi, a variabilidade nos possveis valores de Y a mesma.

Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem
representados por uma distribuio normal.

50

Estimao dos parmetros pelo mtodo da mxima


verossimilhana
Como foi especificado uma distribuio de probabilidades para os erros podemos obter
estimadores para 0, 1 e 2 pelo MMV.
O mtodo de mxima verossimilhana determina como estimativas de mxima verossimilhana,
os valores de 0, 1 e 2 os quais produzem o maior valor para a verossimilhana.
Em geral, a densidade de uma observao Yi para o modelo de regresso com erros normais,
utilizando o fato de que E(Yi)=0+ 1Xi e varincia 2 dada por :

fi

1
2

exp

2
1 Yi 0 1 X i
2

A funo de verossimilhana para n observaes Y1, Y2,...,Yn, o produto das densidades


individuais ( a conjunta). Como a varincia 2 dos erros desconhecida, a conjunta uma funo
de trs parmetros, 0, 1 e 2 :
51

L( 0 , 1 , ) ( 212 )1 / 2 exp 21 2 (Yi 0 1 X i ) 2


2

i 1

1
( 2 2 )n/ 2

exp 2 1 2 (Yi 0 1 X i )2
i 1

Devemos encontrar valores de 0, 1 e 2 que maximizam a funo de verossimilhana L,


calculando-se as derivadas parciais de L com respeito a 0, 1 e 2 e igualando cada derivada parcial
a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com logeL ao invs de L, pois
ambos so maximizadas para os mesmos valores de 0, 1 e 2 :

log e L n2 log e 2 n2 log e 2 21 2 (Yi 0 1 X i ) 2

As derivadas parciais do logaritmo da funo de verossimilhana, so dadas por:

(log e L) 1
2
0

(Y

(log e L) 1
2
1

X (Y

(log e L)
n
1

2
2 2 2 4

1 X i )
0

1 X i )

(Y
i

1 X i ) 2

52

Agora, fazemos as derivadas parciais iguais a zero, substituindo 0, 1 e 2 pelos estimadores

0 , 1 e 2
Obtemos:

(Y X ) 0
X (Y X ) 0
i

(Yi 0 1 X i )
n

As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de


mnimos quadrados. O MMV produz um estimador viesado para 2.
Parmetro

Estimador de mxima verossimilhana

0 b0
b

(Y Y ) 2
2 ni i

Os estimadores de 0, e 1 so os mesmos do mtodo de mnimos quadrados. O estimador de


mxima verossimilhana de 2 viesado,ou seja,.

( n 1 ) 2
E( )
n
2

53

Comentrios:
1) como os estimadores de mxima verossimilhana de 0,e 1 so os mesmos do mtodo
de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mnimos quadrados:
a) so no viesados;
b) tem varincia mnima entre todos os estimadores lineares no tendenciosos;
alm disso, os estimadores de mxima verossimilhana b0 e b1 para o modelo de regresso
com erros normais tem outras propriedades desejveis:
c) so consistentes;

lim P (| | ) 0 0

n
d) so suficientes;

fY| ( y | ) no depende de .
***

Fazer lista de exerccios nmero 1.


54

Inferncia na anlise de regresso


Intervalos de confiana
Testes de hipteses:

Assumimos o modelo:

Yi 0 1 X i i

i 1,.., n

(3)

0 e 1 so os parmetros;
Xi so constantes conhecidas, fixas.
i so independentes com distribuio N(0, 2).

55

Inferncias para 1
encontrar intervalos de confiana para 1
fazer testes de hipteses com relao a 1, por exemplo:

H 0 : 1 0
H a : 1 0

No h associao
entre X e Y.

Para realizar inferncias sobre 1, precisamos conhecer a distribuio amostral de b1, o estimador
pontual de 1.

Distribuio amostral de b1
O estimador pontual dado por:

( X i X )(Yi Y )

b1
( X i X )2

A distribuio amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com
muitas amostras para um mesmo nvel da varivel preditora X (constante).
56

Normalidade: a normalidade da distribuio amostral de b1 segue do fato de que b1 uma


combinao linear dos Yi.Os Yi so independentes, com distribuio normal. Uma combinao linear
de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal.
b1 como combinao linear de Yi.
( X X )(Y Y )
b1 i( X X i)2
i
( X X )Y ( X X )Y
b1 i ( Xi X )2 i
i
( X X )Y Y
( X X )
b1 i ( Xi X)2 i
i
( X X )Y
b1 ( Xi X )2i
i
b1 kiYi

ki

( Xi X )

( X i X )

Mdia:

E (b1 ) E kiYi ki E (Yi )


E (b1 ) ki ( 0 1 X i )

E (b1 ) ki 0 ki 1 X i

E (b1 ) 0 ki 1 ki X i
E (b1 ) 1 (no viesado)
Pois,

k 0
k X 1
i

(Demonstre )

Portanto, ki so funes de Xi que so valores


fixos.
57

Varincia:

(b1 )
2

k Y k
i i

(b1 ) k
2

(b1 )
2

2
i

2
i

2 (b1 ) 2

(Yi )

Xi X

ki2

2
k
i

2
i

X
2

X X

2 2

i X

1
Xi X 2

ki2

i X

Podemos estimar a varincia da distribuio amostral de b1 substituindo 2 pelo quadrado mdio


residual (QME). O estimador s2(b1) um estimador no tendencioso de 2 (b1).

s (b1 )
2

QME

X
i

58

Nota:
Na seo propriedades dos estimadores de mnimos quadrados dissemos que b1 tem a
menor varincia entre todos os estimadores lineares no tendenciosos da forma

1 ciYi

ci so constantes arbitrrias

1 b1

1 no tendencioso :
E ( 1 ) E ( ciYi ) ci E (Yi ) ci ( 0 1 X i ) 0 ci 1 ci X i 1
Restries:

0 e

c X
i

Varincia de 1 : 2 ( 1 ) ci2 2 (Yi ) ci2 2 2 ci2


Seja ci=ki + di, onde ki so como anteriormente e os di so constantes arbitrrias.
Ento:
2
2
2
2
2

(k

di )

2 (b1 )

d i 2 k i d i

Zero (Verifique)
59

Finalmente, temos:

2 ( 1 ) 2 (b1 ) 2 d i2

2
Observamos que a menor varincia do estimador ( 1) obtida quando d i 0 .Isto
ocorre quando todos os di=0, isto implica que ci ki. Assim, o estimador de mnimos
quadrados b1 tem varincia mnima entre todos os estimadores lineares no tendenciosos.

Distribuio amostral de (b1- 1)/s(b1)


Como b1 tem distribuio normal, sabemos que a estatstica padronizada (b1-1)/(b1) uma
varivel aleatria com distribuio normal padro. Para estimar (b1) usamos s(b1) e, assim
precisamos conhecer a distribuio da estatstica (b1-1)/s(b1) [estatstica studentizada].
Teorema:

b1 1
s ( b1 )

~ t(n - 2)

para o modelo (3)

Demonstrao:
Podemos escrever a estatstica como:

b1 1
( b1 )

s ( b1 )
( b1 )

O numerador uma varivel normal padro z. Para o denominador, temos:


60

QME

s 2 ( b1 )
2

( b1 )
Portanto,

2
( X i X )2

( X i X )2

b1 1
s ( b1 )

QME

SQE
n 2
2

2 ( n2) ~
SQE

(2n2 )
( n2)

Teorema: para o modelo (3),


SQE/2 distribudo como
2 com n-2 gl e
independente de b0 e b1.

z
2 ( n2 )
( n2 )

Como z e 2 so independentes pois z uma funo de b1 e b1 independente de SQE/2 ~ 2.


Assim (A definio est no apndice):
b1 1
s ( b1 )

~ t ( n 2).

Agora podemos fazer inferncias sobre 1.

61

Intervalo de confiana para 1


Desde que (b1-1)/s(b1) tem distribuio t,podemos fazer a seguinte afirmao probabilstica:

P{t ( / 2; n 2) (b1 1 ) / s(b1 ) t (1 / 2; n 2)} 1

/2=0,25
t=-1

1=0,50

/2=0,25
t=1

62

t(/2;n-2) representa o (/2)100 percentil da distribuio t com n-2 g.l.


t(/2;n-2) = - t(1-/2;n-2) (devido a simetria da distribuio t)
Rearranjando as desigualdades obtemos:

P (b1 t (1 / 2; n 2) s(b1 ) 1 b1 t (1 / 2; n 2) s(b1 )) 1 .


O intervalo de confiana dado por:

b1 t (1 / 2; n 2) s (b1 )
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja
encontrar o intervalo para 1 com confiana de 95%.

s 2 (b1 )

QMR

0 , 0659
857 , 5

0,0000769

s (b1 ) 0,008772
(X X )

t (0,975;4) 2,776

Usar software

0,019 2,776(0,008772) 1 0,019 2,776(0,008772)


0,0434 1 0,0623

Muito importante

Interpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e


0,0623 unidade/dia.

63

Exemplo: considere os dados de porcentagem de acerto na


cache, a pesquisadora deseja encontrar o intervalo para 1 com
confiana de 95%.

s 2 ( b1 )

QMR
( X X )2

2 ,5738
37500000000

0 ,000000000068635

s( b1 ) 0 ,0000083
t ( 0 ,975 ;10 ) 2 ,228

Usar software

0 ,0000642 2 ,228( 0 ,0000083 ) 1 0 ,0000642 2 ,228( 0 ,0000083 )


0 ,0000457 1 0 ,0000827

Muito importante

Interpretao: estimamos que a porcentagem de acertos


aumenta entre 0,0000457 e 0,0000827 % por byte do
tamanho da cache.
64

Teste de hipteses para 1


Vimos que (b1-1)/s(b1) tem distribuio t(n-2).O teste de hiptese
sobre 1 pode ser feito de maneira padro usando a distribuio de
Student.
Teste bilateral
Hipteses:

H 0 : 1 0
H a : 1 0

65

Exemplo: a pesquisadora deseja saber se existe regresso linear


entre a porcentagem de acertos na cache e o tamanho da cache,
ou seja, se 10 ou no.
[Como o intervalo de confiana construdo anteriormente no
inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a
hiptese nula (H0). Isto vlido quando o teste bilateral].

66

Exemplo: a pesquisadora deseja saber se existe regresso linear


entre populao de bactrias e o tempo de armazenamento, ou
seja, se 10 ou no.
[Como o intervalo de confiana construdo anteriormente inclui o
valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula
(H0)].
Teste estatstico formal:

t*

b1 1
s ( b1 )

Critrio do teste: estamos controlando a probabilidade de erro


tipo I ().
Se | t * | t (1 / 2; n 2), no rejeita - se H 0
Se | t * | t (1 / 2; n 2), rejeita - se H 0

67

Exemplo: para os dados de porcentagem de acerto na cache,


com =0,05, b1=0,0000642 e s(b1)=0,0000083, temos:

t
*

0 ,0000642 0
0 ,0000083

7 ,735

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior


do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma
associao linear entre a porcentagem de acertos na cache e o
tamanho da cache.

68

Exemplo: para os dados de populao de Staphilococcus


aureus, com =0,05, b1=-0,019 e s(b1)=0,008772, temos:

t
*

0 , 019 0
0 , 008772

2,166

O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166|


menor do que 2,776 aceita-se a hiptese nula e conclumos que no
existe uma associao linear entre a populao de Staphilococcus
aureus e o tempo de armazenamento.
Valor p: o menor valor de para o qual rejeitamos a hiptese
nula. Se o pesquisador fixar =0,05, ento, para um valor p 0,05
no rejeita-se H0, caso contrrio, rejeita-se H0. Formalmente fica:
P ( t t * ) valor p

Valor p tambm denominado de nvel descritivo ou nvel de


significncia observado.

69

Sada do Statistica: dados de porcentagem de acertos na cache. As


diferenas verificadas so devidas s aproximaes nos clculos.

70

* * Com o uso do Statistica, para os dados de porcentagem de


acerto na cache, encontrar a probabilidade de se rejeitar a
hiptese nula, quando ela verdadeira.
P(| t | 7,7525) 0,000015
P(t 7,7525) p (t 7,7525) 0,000008 0,000008 0,000016

Ateno: verificar se o software d o valor p para o teste uni


ou bilateral

71

Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e


-2,15351 devido aproximaes nos clculos.

* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela
verdadeira.
P (| t | 2,166) 0,0962

P (t 2,166) p (t 2,166) 0,04812 0,04812 0,09624

Ateno: verificar se o
software d o valor p para
o teste uni ou bilateral
72

Teste unilateral:
O pesquisador deseja, por exemplo, testar se 1 negativo,
controlando o nvel de significncia =0,05.
H 0 : 1 0
H a : 1 0
Regra de deciso:

Se t* t ( ; n 2 ), no rejeita - se H 0
Se t* t ( ; n 2 ), rejeita - se H 0
Exemplo: para os dados de Staphilococcus temos, para =0,05,
t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de
nulidade, portanto 1 negativo.

Valor p P t t*

73

Nas publicaes, indicar o nvel descritivo juntamente com o valor


da estatstica teste. Podemos realizar o teste estatstico para
qualquer nvel de significncia , comparando o nvel descritivo
com o valor desejado de .
Comentrio: pode-se testar as seguintes hipteses:

H 0 : 1 10
H a : 1 10
Onde 10 um valor diferente de zero.
74

A estatstica teste dada por:

b1 10
t
s b1
Critrio do teste:
Se |t*| t(1- /2;n-2) no se rejeita H0
Se |t*| > t(1- /2;n-2) rejeita-se H0

75

Inferncias para 0
S tem interesse quando os nveis de X incluem X=0 (o que raro).

Distribuio amostral de b0
O estimador pontual b0 dado por:

b0 Y b1 X

A distribuio amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com
diferentes amostras para o mesmo valor de X (constante).
A distribuio amostral de b0 normal
Mdia:

E (b0 ) 0

Varincia:

(b0 )
2

(Demonstrao prxima pgina)

1
n

X2
( X i X )2

A normalidade verificada pois b0 uma combinao linear das observaes Yi.


Um estimador para 2(b0) obtido substituindo-se 2 pelo seu estimador pontual, QME.

Distribuio amostral de (b0- 0)/s(b0)


Teorema:

b0 0
s ( b0 )

~ t ( n 2)

podemos usar a distribuio t para construir


os IC e fazer os testes de hipteses.

76

Demonstrao:

E( b0 ) E( Y b1 X ) E( Y ) E( b1 X )
Y XE( b1 ) 0 1 X X1
0 (cqd).

77

Intervalo de confiana para 0


b0 t (1 / 2; n 2) s (b0 )
Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar
interessados em encontrar o IC para 0.

s 2 (b0 ) QME

X
1 17,52
1

0
,
0659
857,5 0,0345
n
2

( X i X )

s(b0 ) 0,1858
t (0,975;4) 2,776
3,3252 2,776(0,1858) 0 3,3252 2,776(0,1858)
2,8094 0 3,8410
Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:

H0 : 0 0
Ha : 0 0
78

Estimao intervalar para E(Yh)


Freqentemente, numa anlise de regresso, deseja-se estimar a
mdia de uma ou mais distribuies de probabilidade de Y.
Exemplo: No estudo da relao entre o tamanho da cache (X) e
porcentagem de acerto (Y), a porcentagem mdia de acerto para
tamanhos maiores de cache pode ser de interesse. Outro exemplo,
um agrnomo pode estar interessado na produo mdia para
diversas doses de um nutriente, com o objetivo de encontrar a dose
tima.
Xh representa o nvel da varivel preditora para a qual se deseja
estimar a resposta mdia.
A resposta mdia para X=Xh representada por: E(Yh)
Sabemos que o estimador pontual Yh de E(Yh) dado por:

Yh b0 b1 X h

79

Distribuio amostral de Y(chapu)h


Diferentes valores de Y(chapu)h que seriam obtidos se repetidas amostras
fossem selecionadas, para X constante, e calculando Y(chapu)h para cada
amostra.
Distribuio normal: para o modelo de regresso com erros normais, a
distribuio amostral de Y(chapu)h normal. A normalidade segue
diretamente do fato que Y(chapu)h , assim como b0 e b1, uma combinao
linear das observaes Yi.
Mdia

E (Yh ) E (b0 b1 X h ) E (b0 ) X h E (b1 ) 0 1 X h E (Yh )

80

Varincia
Para obter 2(Y(chapu)h), primeiro mostraremos que b1 e
modelo de regresso com erros normais, independentes:

Y no so

correlacionados e sob o

(b1 ; Y ) 0
Definimos:

1
n

Yi

b1 kiYi

ki

Xi X

( X i X )

Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com ai=1/n e ci=ki e lembrando que
Yi so variveis aleatrias independentes:

(Y ; b1 ) ( )ki (Yi )
1
n

2
n

Para a demonstrao da varincia de Y(chapu)h vamos utilizar o modelo:

Yi 0* 1 ( X i X ) i

81

2 (Yh ) 2 (Y b1 ( X h X ))
2 (Yh ) 2 (Y ) ( X h X ) 2 2 (b1 )
(Y e b1 so independentes; X n e X constantes)

(b1 )
2

(Y )

2
( X h X )2

2
2 (Yh ) n ( X h X ) 2

(Yh ) 2
2

1
n

2 (Yi )
n

( X h X )2

2
( X i X )2

( X i X )
2

Distribuio amostral de (Yh E (Yh )) / s(Yh )


Yh E (Yh )
s (Y )
h

~ t (n 2)

Intervalo de confiana para E(Yh)

Yh t (1 / 2; n 2) s (Yh )
82

Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Yh) para tamanho de
cache X=300.000 bytes. Temos:

27 ,83633 0 ,0000642( 300000 ) 47 ,10


0 ,25738
s ( Y ) 2 ,5738

300000

( 300000 325000 )2
37500000000

1
12

s( Y ) 0 ,5073263
h

t ( 0 ,975 ;10 ) 2 ,228


47 ,10 2 ,228( 0 ,5073263 ) E( Y
) 47 ,10 2 ,228( 0 ,5073263 )
300000

45 ,9697 E( Y

300000

) 48 ,2303

Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes
de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso.
Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tamanho de cache
X=200.000. Compare as amplitudes dos intervalos.

83

Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com confiana
de 95% para E(Yh) para tempo X=14 dias. Temos:

Y14 3,325 0,019(14) 3,059

(14 17 , 5 ) 2
1

s (Yh ) 0,0659 6 857,5 0,0119


2

s(Yh ) 0,1091
t (0,975;4) 2,776
3,059 2,776(0,1091) E (Y14 ) 3,059 2,776(0,1091)
2,7561 E (Y14 ) 3,3619
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de
armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e).
Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tempo X=0. Compare
as amplitudes dos intervalos.

84

Predio de uma nova observao


Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos
na cache para um tamanho de cache igual a 375.000 bytes; 2) a
pesquisadora deseja predizer a populao de bactrias para um tempo
especfico igual a 15 dias.
Portanto, desejamos predizer uma nova observao, Y, vista como
resultado de um novo ensaio, independente dos ensaios nos quais
anlise de regresso foi feita.
Notao: denotamos o nvel de X para o novo ensaio como Xh e a
nova observao em Y como Yh(novo). Assumimos que o modelo de
regresso continua vlido para a nova observao.
A diferena entre estimar uma resposta mdia, E(Yh) e fazer a
predio de uma nova observao, Yh(novo), que no primeiro caso
estimamos a mdia da distribuio de Y. Agora, vamos predizer uma
85
resposta individual da distribuio de Y.

Intervalo de predio para Yh(novo)


Os limites de predio para uma nova observao Yh(nova) para um dado Xh so obtidos atravs do do
seguinte teorema :

Yh ( novo ) Yh
s ( pred )

~ t (n 2)

Isto para o modelo de regresso com erros normais.


Note que a estatstica usa Y(chapu)h no numerador ao invs de E(Yh). O desvio padro estimado,
s(pred), obtido como segue:
A diferena no numerador, Yh(novo) - Y(chapu)h, pode ser visto como um erro de predio, com
Y(chapu)h sendo a melhor estimativa pontual do valor da nova observao, Yh(novo) . A varincia
desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais
Y(chapu)h est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina
668, 1996),
temos:
2
2
2
2
2
2

( pred ) (Yh ( novo ) Yh ) (Yh ( novo ) ) (Yh ) (Yh )


s 2 ( pred )) QME s 2 (Yh ) (estimador no tendencioso)
( X h X )2

1
s ( pred ) QME 1 n ( X X ) 2

i
2

O intervalo fica:

Yh t (1 / 2; n 2) s ( pred )

86

Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y375000(novo).

Y375000 27 ,83633 0 ,0000642( 375000 ) 51,91133


2
( 375000 325000 )2
1
s (Y
) 2 ,5738
0 ,3861
375000

12

37500000000

QME 2 ,5738

t ( 0 ,975 ;10 ) 2 ,228


s 2 ( pred ) 2 ,5738 0 ,3861 2 ,9599
s( pred ) 1,720436
51,91133 2 ,228( 1,720436 ) Y375000( novo ) 51,91133 2 ,228( 1,720436 )
48 ,0782 Y375000( novo ) 55 ,7445
Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de
acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%.
O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo
de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do
parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de
uma varivel aleatria, a nova observao Yh(novo).
87

Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y15(novo).

Y15 3,325 0,019(15) 3,040

(15 17 , 5 ) 2
1

s (Y15 ) 0,0659 6 857 ,5 0,0115


2

QME 0,0659
t (0,975;4) 2,776
s 2 ( pred ) 0,0659 0,0115 0,0774
s ( pred ) 0,2782
3,040 2,776(0,2782) Y15( novo ) 3,040 2,776(0,2782)
2,2677 Y15( novo ) 3,8123
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de
bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm2.
88

Faixa de confiana para a equao de regresso


til para verificar o ajuste da equao de regresso.
A faixa de confiana (1-) para a equao da reta correspondente ao modelo de regresso com erros
normais tem dois limites para qualquer nvel de Xh, cujos valores so dados por:

Yh Ws(Yh )
W 2 2 F (1 ;2, n 2)
Y b b X
h

s (Yh ) QME
2

1
n

( X h X )2

( X i X ) 2

Distribuio de F,
com 2 gl no
numerador e n-2 no
denominador, com
grau de confiana
1-

Calcula-se os valores dos limites para diversos nveis de Xh e aps faz-se o grfico.

89

Scatterplot (CACHE.STA 9v*12c)


y=27,836+6,423e-5*x+eps
58

PORCENTAGEM DE ACERTO

56
54
52
50
48
46
44
42
40
2,2e5

2,6e5

3e5

3,4e5

3,8e5

4,2e5

TAMANHO DA CACHE

Percebe-se que os valores da linha de regresso so estimados com boa


preciso.
90

Anlise de varincia da regresso


importante para anlise de regresso linear mltipla e outros modelos lineares. Para anlise de
regresso linear simples no traz nenhuma novidade.

91

Partio da soma de quadrados total

Yi Y ( Yi Y ) ( Yi Yi )
Desvio
total

Desvio da
equao
ajustada em
torno da mdia

Desvio em
torno da
equao
ajustada

Yi

E
T
R
Y

Xi

92

(
Y

Y
)

(
Y

Y
)

(
Y

Y
)
Demonstrao:
i
i
i
2

i 1

i 1

(Y Y )
n

i 1

(Yi Yi ) 2 2(Yi Y )(Yi Yi )


n

(Y Y ) (Y Y )
i 1

i 1

2 (Yi Y )(Yi Yi )
i 1

i 1

i 1

i 1

2 (Yi Y )(Yi Yi ) 2 Yi (Yi Yi ) 2Y (Yi Yi ) 0

(
Y

Y
)

(
Y

Y
)

(
Y

Y
)

i
i i
2

i 1

i 1

i 1

Soma de quadrados total:

SQT (Yi Y ) 2
i 1

Soma de quadrados do erro (ou resduo):

SQE (Yi Yi ) 2
i 1

Soma de quadrados da regresso:

SQR (Yi Y ) 2
i 1

(Parte da variabilidade de Yi que est associada com a regresso)

93

Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma
dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a
mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so
estimados para obter Y(chapu)i.
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles
perdido devido a restrio: (Yi Y ) 0.
Os graus de liberdade so aditivos: (n-1)=1+(n-2)

Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.

QMR

SQR
1

QME

SQE
( n2)

QMT

SQT
( n 1)

94

Tabela da anlise de varincia


Tabela da anlise de varincia para regresso linear simples
Causas de variao Soma de quadrados Graus de liberdade
Regresso
SQR
1
Erro
SQE
n-2
Total
SQT
n-1

Quadrado mdio
SQR/1
SQE/(n-2)

Tabela modificada (soma de quadrados total no corrigida)


Baseado no fato de que:

SQT (Yi Y ) Yi 2 nY 2
2

SQTNC Yi 2

Tabela da anlise de varincia para regresso linear simples


Causas de variao
Soma de quadrados
Graus de liberdade Quadrado mdio
Regresso
SQR
1
SQR/1
Erro
SQE
n-2
SQE/(n-2)
Total
SQT
n-1
Correo para a mdia SQ(devido a mdia)= nY
1
Total no corrigido
n
SQTNC= Y
2

95

Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.


Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.

Esperanas dos quadrados mdios


Para realizar inferncias na anlise de varincia, precisamos conhecer as esperanas dos
quadrados mdios. Os valores esperados dos quadrados mdios a mdia de suas distribuies
amostrais e nos mostram o que est sendo estimado pelo quadrado mdio.
Teorema 2.11 (pgina 49, Neter et al., 1996) diz que:

SQE / 2 ~ 2 (n 2)

(para o modelo com erros com distribuio normal).


Das propriedades da distribuio de 2 (apndice) temos:

E ( SQE
)n2
2
E(

SQE
n2

) E (QME ) (O QME estimador imparcial)

Para encontrar a E(QMR), partimos de:

SQR b12 ( X i X )

Sabemos que a varincia de uma varivel aleatria dada por:

96

( b ) E( b ) ( E( b ))
E( b )
( b )
2

2
Xi X

E( b )
2

2
Xi X

2
1

E( SQR ) E( b ) ( X X )
2

E( SQR )

2
Xi X

( X X )
2

E( SQR ) ( X X )
2

E(

SQR
1

Teste F para 1

) E( QMR ) ( X X )
2

Na anlise de varincia testa-se as seguintes hipteses:

H 0 : 1 0
H a : 1 0

A estatstica utilizada para testar essas hipteses dada por:

F*

QMR
QME

Valores altos de F* favorecem Ha; F*=1 favorece H0; um teste unilateral.


Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a
distribuio amostral de F*.

97

Distribuio amostral de F*
Vamos considerar a distribuio amostral de F* quando a hiptese nula for verdadeira, isto , sob
H0.
Teorema de Cochran: se as n observaes Yi so identicamente distribudas de acordo com
uma distribuio normal com mdia e varincia 2 e a soma de quadrados total
decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, ento, os
termos SQr/ 2 , so variveis independentemente distribudas como 2 com glr graus de
liberdade se:
k

gl
i 1

n 1

Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os
seus graus de liberdade so aditivos.
Sob H0, de modo que os Yi tem distribuio normal com a mesma mdia =0 e mesma
varincia 2 , SQE/2 e SQR/2 so variveis independentemente distribudas como 2.
Podemos escrever F* como:

F
*

QMR
QME

SQR
1

SQE /( n 2 )

SQR
2

SQE
2

( n2 )

2 (1)
1

2 ( n2 )
( n2 )

98

Assim, sob H0, F* o quociente entre duas variveis independentes com distribuio de 2,
portanto, a estatstica F* uma varivel aleatria com distribuio F(1,n-2) (apndicedistribuio F).
Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuio de F no central.

Regra de deciso do teste de hipteses:

F * F ( 1 ;1, n 2 ) no reje ita se H 0


F * F ( 1 ;1, n 2 ) rejeita se H 0
Sada do STATISTICA: dados de porcentagem de acerto na cache.

F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hiptese nula.


Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache.
Mesmo resultado do teste t.

99

Sada do STATISTICA: dados de populao de Staphilococcus.

F(95%;1,4)=7,71, portanto, F*< F e, assim, no


rejeita-se a hiptese nula.
Concluso: no existe uma associao linear entre pop. e o
tempo de armazenamento. Mesmo resultado do teste t.
100

Teste geral para o modelo linear


Trs etapas:

1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem restrio
(superparametrizado). No caso de regresso linear simples temos:

Yi 0 1 X i i

Modelo completo

A soma de quadrados do erro do modelo completo (SQE(C)), dada por:

SQE (C ) Yi (b0 b1 X i ) (Yi Yi ) 2 SQE


2

2) Modelo reduzido
Vamos considerar as hipteses:

H 0 : 1 0
H a : 1 0

Sob H0

Modelo reduzido:

Yi 0 i

101

A soma de quadrados do erro do modelo reduzido (SQE(R)), dada por:

SQE ( R ) Yi b0 (Yi Y ) 2 SQTotal


2

Exerccio: encontre o estimador de 0 pelo mtodo de mnimos quadrados.

3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.

SQE (C ) SQE ( R )

Sempre

Mais parmetros
Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido
adequado, isto , no rejeita-se H0.

102

O teste estatstico dado por:

F*

SQE ( R ) SQE ( C )
gl r glc

SQEglc(C ) ~ F (1 ; glr glc , glc )

Deciso:

F * F (1 ; glr glc , glc ) aceita se H 0


F * F (1 ; glr glc , glc ) rejeita se H 0
Exerccio: para os dados de porcentagem de acertos na cache, verifique a as hipteses:

H 0 : 1 0
H a : 1 0

F
*

180 ,4284 25 ,7385


11 10

25 ,7385
10

154 ,6899
2 ,57385

60 ,10 .
**

103

Exerccio: para os dados de pop. de staphilococcus,


verifique se as hipteses:

H 0 : 1 0
H a : 1 0

F*

0 ,569885 0 ,263908
5 4

0 ,263908

0 ,305977
0 ,065977

4 ,64 NS .

104

Medidas descritivas do grau de associao linear


entre X e Y.
Coeficiente de determinao (r2)

r2

SQR
SQT

SQE
1 SQT

0 r2 1
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso.
Quanto maior o r2 mais a variao total de Y reduzida pela introduo da v. preditora X no modelo.
Y
Y

r2=0

r2=1

Y b0 b1 X

Y Y

X
X
A varivel preditora X responsvel por toda
a variao nas observaes Yi.

A v. X no ajuda na reduo da
variao de Yi com a Reg. Linear

105

Coeficiente de correlao (r)


r r2
1 r 1
Exemplo: para os dados de porcentagem de acertos na cache, temos:

Exemplo: para os dados de populao de Staphilococcus, temos:

106

Interpretaes errneas dos coeficientes de determinao e


correlao:
1) Um alto coeficiente de correlao indica que predies teis
podem ser feitas. Isto no necessariamente correto. Observe
se as amplitudes dos intervalos de confiana so grandes, isto
, no so muito precisos.
2) Um alto coeficiente de correlao indica que a equao de
regresso estimada est bem ajustada aos dados. Isto tambm
no necessariamente correto (veja figura a seguir).
3) Um coeficiente de correlao prximo de zero indica que X
e Y no so correlacionadas. Idem (veja figura a seguir).
107

Tem um alto valor de r; o ajuste


de uma equao de regresso
linear no adequada

Tem um baixo valor de r;


porm existe uma forte relao
entre X e Y.

*** Fazer lista de exerccios nmero 2.


108