Вы находитесь на странице: 1из 116

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Aula 19: Regresso Mltipla


SER-202 Estatstica: Aplicaes ao Sensoriamento Remoto

Thiago S. F. Silva thiago@dsr.inpe.br

21/05/2013

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

1 Introduo

2 Diferenas entre Regresso Simples e Mltipla

3 Seleo de variveis e construo do modelo

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Um pouco, dois bom, trs melhor ainda


O modelo de regresso mltipla uma extenso do modelo simples Para duas variveis explicativas, temos:

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Um pouco, dois bom, trs melhor ainda


O modelo de regresso mltipla uma extenso do modelo simples Para duas variveis explicativas, temos: Yi = 0 + 1 X1 + 2 X2 + . . . + k Xk +
i

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Um pouco, dois bom, trs melhor ainda


O modelo de regresso mltipla uma extenso do modelo simples Para duas variveis explicativas, temos: Yi = 0 + 1 X1 + 2 X2 + . . . + k Xk +
i

Os termos xos nos do E (Y ), e o termo aleatrio nos d Var (Y ).

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Um pouco, dois bom, trs melhor ainda


O modelo de regresso mltipla uma extenso do modelo simples Para duas variveis explicativas, temos: Yi = 0 + 1 X1 + 2 X2 + . . . + k Xk +
i

Os termos xos nos do E (Y ), e o termo aleatrio nos d Var (Y ). Se E (Y ) depende de uma combinao de duas variveis preditoras (X1 a X2 ), a reta se torna um plano

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Um pouco, dois bom, trs melhor ainda

35

40

45

x2

18 16 14 12 10 0 1 2 3 4 5
Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

20

25

30

20

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Interpretao dos termos do modelo


0 : intercepto da superfcie de resposta. Valor de Y quando X1 = X2 = . . . Xk =(p1) = 0. Geralmente no tem um signicado explcito.

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Interpretao dos termos do modelo


0 : intercepto da superfcie de resposta. Valor de Y quando X1 = X2 = . . . Xk =(p1) = 0. Geralmente no tem um signicado explcito. 1 , 2 , . . . , k : determinam o aumento em E (Y ) quando Xk (k = {0, p 1}) aumenta em 1, e os demais Xk permanecem constantes.

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Interpretao dos termos do modelo


0 : intercepto da superfcie de resposta. Valor de Y quando X1 = X2 = . . . Xk =(p1) = 0. Geralmente no tem um signicado explcito. 1 , 2 , . . . , k : determinam o aumento em E (Y ) quando Xk (k = {0, p 1}) aumenta em 1, e os demais Xk permanecem constantes. Cada coeciente representa a contribuio absoluta de Xk (Y ) para a estimativa de E (Y ) (ou k = E ) X
(k )

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Interpretao dos termos do modelo


0 : intercepto da superfcie de resposta. Valor de Y quando X1 = X2 = . . . Xk =(p1) = 0. Geralmente no tem um signicado explcito. 1 , 2 , . . . , k : determinam o aumento em E (Y ) quando Xk (k = {0, p 1}) aumenta em 1, e os demais Xk permanecem constantes. Cada coeciente representa a contribuio absoluta de Xk (Y ) para a estimativa de E (Y ) (ou k = E ) X
(k )

continua sendo a diferena entre Yi e E (Yi )


Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Partio da varincia
A partio geral da varincia segue o mesmo padro do modelo simples, mas com diferentes graus de liberdade
Fonte Regresso GL p1 Soma Quadrados SQR = b X Y 1 Y JY n Mdia Quadrados MQR = SQR p1 SQE np SQT n1

Resduos

np

SQE = Y Y b X Y 1 Y JY n

MQE =

Total

n1

SQT = Y Y

MQT =

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Coeciente de determinao mltiplo


O teste geral para a regresso ainda feito usando MSR , e a quantidade de varincia explicada F = MSE SSR SSE representada por R2 = SST = 1 SST

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Coeciente de determinao mltiplo


O teste geral para a regresso ainda feito usando MSR , e a quantidade de varincia explicada F = MSE SSR SSE representada por R2 = SST = 1 SST Quando novas variveis so includas no modelo, SSE permanece ou mesmo ou diminui, mas nunca aumenta.

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Coeciente de determinao mltiplo


O teste geral para a regresso ainda feito usando MSR , e a quantidade de varincia explicada F = MSE SSR SSE representada por R2 = SST = 1 SST Quando novas variveis so includas no modelo, SSE permanece ou mesmo ou diminui, mas nunca aumenta. Por esse motivo, o R2 aumenta mesmo que a quantidade de varincia adicional explicada seja mnima.

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Coeciente de determinao mltiplo


O teste geral para a regresso ainda feito usando MSR , e a quantidade de varincia explicada F = MSE SSR SSE representada por R2 = SST = 1 SST Quando novas variveis so includas no modelo, SSE permanece ou mesmo ou diminui, mas nunca aumenta. Por esse motivo, o R2 aumenta mesmo que a quantidade de varincia adicional explicada seja mnima. Assim, no se pode conar em R2 como uma medida de qualidade do modelo (a interpretao de quantidade de varincia explicada continua correta).
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Coeciente de determinao mltiplo


2 ) penaliza a razo O coeciente de determinao ajustado (Ra de somas de quadrados pela razo entre os graus de liberdade: 2 Ra =1

n1 np

SSE SST

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Coeciente de determinao mltiplo


2 ) penaliza a razo O coeciente de determinao ajustado (Ra de somas de quadrados pela razo entre os graus de liberdade: 2 Ra =1

n1 np

SSE SST

Dessa maneira, o ganho em explicao ponderado pelo (n 1) 2 aumento de ( n p) , e o Ra pode at diminuir com a adio de novas variveis, se a contribuio no for importante.
2 deixa de ter relao com % de varincia explicada) (Mas Ra

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Inferncias e Diagnsticos

As inferncias sobre o modelo (intervalos de conana e testes de hiptese) seguem o mesmo modelo da regresso simples

As equaes para estimativas dos erros so mais complexas, mas o princpio no se altera

Os procedimentos diagnsticos tambm so os mesmos, com a adio de scatterplots dos resduos verus cada varivel X

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Complicaes adicionais
Os modelos linears de regresso mltipla apresentam algumas complicaes a mais quando comparados com os modelos simples: A existncia de correlao entre as variveis pode atrapalhar a nossa partio de varincia (multicolinearidade) Os coecientes normalmente no so diretamente comparveis Quando o nmero de variveis independentes aumenta, a seleo nal daquelas a serem inseridas no modelo torna-se mais difcil

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
O modelo de regresso busca explicar parte da varincia de Y atravs da co-varincia entre Y e X (partio de varincias) Se as variveis X so independentes, cada poro da varincia de Y explicada separadamente por cada X Mas se as variveis preditoras foem correlacionadas, h redundncia de informao, reduzindo a quantidade de informao disponvelpara estimao dos coecientes

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Caso 1: Xk perfeitamente independentes

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
1: Xk perfeitamente independentes Nesse caso, a contribuio de X1 e X2 so exatamente as mesmas de dois modelos lineares simples:

x1 <- c(4, 4, 4, 4, 6, 6, 6, 6) x2 <- c(2, 2, 3, 3, 2, 2, 3, 3) y <- c(42, 39, 48, 51, 49, 53, 61, 60) cor(x1, x2) ## [1] 0

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
1: Xk perfeitamente independentes
m1 <- lm(y ~ x1) m1 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1) Coefficients: (Intercept) 23.50 x1 5.37

anova(m1) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231 231.1 7.35 0.035 * Residuals 6 189 31.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05

0.1

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
1: Xk perfeitamente independentes
m2 <- lm(y ~ x2) m2 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x2) Coefficients: (Intercept) 27.25 x2 9.25

anova(m2) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 1 171 171.1 4.13 0.088 . Residuals 6 249 41.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05

0.1

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
1: Xk perfeitamente independentes
m3 <- lm(y ~ x1 + x2) m3 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) 0.375 x1 5.375 x2 9.250

anova(m3) ## ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231.1 231.1 65.6 0.00047 *** x2 1 171.1 171.1 48.5 0.00094 *** Residuals 5 17.6 3.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Thiago S. F. Silva thiago@dsr.inpe.br

0.1

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Caso 2: Xk perfeitamente correlacionados

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
2: Xk perfeitamente correlacionados Nesse caso, no h varincia restante para estimar 2 aps a estimao de 1 :

x1 <- c(4, 4, 4, 4, 6, 6, 6, 6) x2 <- x1 y <- c(42, 39, 48, 51, 49, 53, 61, 60) cor(x1, x2) ## [1] 1

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
2: Xk perfeitamente correlacionados
m1 <- lm(y ~ x1 + x2) m1 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) 23.50 x1 5.37 x2 NA

anova(m1) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231 231.1 7.35 0.035 * Residuals 6 189 31.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05

0.1

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
2: Xk perfeitamente correlacionados
m2 <- lm(y ~ x2 + x1) m2 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x2 + x1) Coefficients: (Intercept) 23.50 x2 5.37 x1 NA

anova(m2) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 1 231 231.1 7.35 0.035 * Residuals 6 189 31.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05

0.1

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Caso 3: Xk parcialmente correlacionados

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
3: Xk parcialmente correlacionados Nesse caso, h "menos"varincia restante para estimar 2 aps a estimao de 1 :
x1 <- c(4, 4, 4, 4, 6, 6, 6, 6) set.seed(154) x2 <- x1 + runif(8, 0, 1) y <- c(42, 39, 48, 51, 49, 53, 61, 60) cor(x1, x2) ## [1] 0.9592

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
3: Xk parcialmente correlacionados
m1 <- lm(y ~ x1 + x2) m1 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) 23.89 x1 6.88 x2 -1.42

anova(m1) ## ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231.1 231.1 6.17 0.056 . x2 1 1.6 1.6 0.04 0.846 Residuals 5 187.2 37.4 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Thiago S. F. Silva thiago@dsr.inpe.br

0.1

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
3: Xk parcialmente correlacionados
m2 <- lm(y ~ x2 + x1) m2 ## ## ## ## ## ## ##

Call: lm(formula = y ~ x2 + x1) Coefficients: (Intercept) 23.89 x2 -1.42 x1 6.88

anova(m2) ## ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 1 202.4 202.4 5.41 0.068 . x1 1 30.2 30.2 0.81 0.410 Residuals 5 187.2 37.4 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Thiago S. F. Silva thiago@dsr.inpe.br

0.1

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo? As propriedades dos estimadores no se alteram (BLUE)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo? As propriedades dos estimadores no se alteram (BLUE) Devido reduo na quantidade de informao disponvel, o erro de cada bk aumenta

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo? As propriedades dos estimadores no se alteram (BLUE) Devido reduo na quantidade de informao disponvel, o erro de cada bk aumenta Como a informao redudante, mltiplas combinaes de Xk e bk podem dar o mesmo resultado nal

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Exemplo
set.seed(1500) x1 <- runif(50, 0, 20) x2 <- x1 + runif(50, 0, 5) y <- 24 + 1.2 * x1 + 2.1 * x2 + rnorm(50, 0, 20) m1 <- lm(y ~ x1) summary(m1) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1) Residuals: Min 1Q Median -49.57 -12.84 1.82 3Q 12.16 Max 46.04

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 33.710 5.674 5.94 3.1e-07 *** x1 3.019 0.476 6.34 7.6e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.9 on 48 degrees of freedom Multiple R-squared: 0.456, Adjusted R-squared: 0.444 F-statistic: 40.2 on 1 and 48 DF, p-value: 7.61e-08

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Exemplo
m2 <- lm(y ~ x2) summary(m2) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

Call: lm(formula = y ~ x2) Residuals: Min 1Q Median -46.28 -11.19 -3.07 3Q 10.86 Max 42.21

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 26.920 6.346 4.24 1e-04 *** x2 2.962 0.446 6.65 2.5e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.5 on 48 degrees of freedom Multiple R-squared: 0.479, Adjusted R-squared: 0.469 F-statistic: 44.2 on 1 and 48 DF, p-value: 2.54e-08

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Exemplo
m3 <- lm(y ~ x1 + x2) summary(m3) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median -46.82 -11.74 -3.35 3Q 10.79 Max 41.83

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 27.463 7.019 3.91 0.00029 *** x1 0.354 1.863 0.19 0.85008 x2 2.635 1.782 1.48 0.14589 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.7 on 47 degrees of freedom Multiple R-squared: 0.48, Adjusted R-squared: 0.458 F-statistic: 21.7 on 2 and 47 DF, p-value: 2.13e-07

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk 2 vem da regresso X = + X + . . . + Rk 0 1 1 k k 1 Xk 1 +

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk 2 vem da regresso X = + X + . . . + Rk 0 1 1 k k 1 Xk 1 +

Normalmente, expressamos a tolerncia na forma inversa, o que denominamos Fator de Inao da Varincia(Variance Ination Factor, VIF) VIF = 1 1 = 2 T 1 Rk

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk 2 vem da regresso X = + X + . . . + Rk 0 1 1 k k 1 Xk 1 +

Normalmente, expressamos a tolerncia na forma inversa, o que denominamos Fator de Inao da Varincia(Variance Ination Factor, VIF) VIF = 1 1 = 2 T 1 Rk

Se Xk tem um VIF de 8, isso signica que o erro do coeciente bk oito vezes maior de que esperado se no houvesse colinearidade
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico

library(car) vif(m3) ## x1 x2 ## 15.67 15.67

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF? No existe uma regra xa, mas em geral:

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF? No existe uma regra xa, mas em geral: VIF > 4 pede que a correlao entre os preditores seja melhor investigada

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF? No existe uma regra xa, mas em geral: VIF > 4 pede que a correlao entre os preditores seja melhor investigada VIF > 10 representa multicolinearidade severa, precisa ser corrigida de qualquer maneira

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao

Podemos resolver o problema da multicolinearidade de diversas maneiras:

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao

Podemos resolver o problema da multicolinearidade de diversas maneiras:

1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 )

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao

Podemos resolver o problema da multicolinearidade de diversas maneiras:

1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 ) 2) Usando os resduos da regresso entre X1 e X2

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao

Podemos resolver o problema da multicolinearidade de diversas maneiras:

1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 ) 2) Usando os resduos da regresso entre X1 e X2 3) Ortogonalizao (ex.: anlise de componentes principais)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao
1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 )
x.novo <- x1 + x2 m4 <- lm(y ~ x.novo) summary(m4) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

Call: lm(formula = y ~ x.novo) Residuals: Min 1Q Median -48.33 -13.05 -1.52 3Q 11.69 Max 43.45

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.71 6.01 4.94 9.9e-06 *** x.novo 1.52 0.23 6.60 3.1e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.6 on 48 degrees of freedom Multiple R-squared: 0.475, Adjusted R-squared: 0.465 F-statistic: 43.5 on 1 and 48 DF, p-value: 3.07e-08

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao
2) Usando os resduos da regresso entre X1 e X2
mx <- lm(x2 ~ x1) rx <- residuals(mx) m5 <- lm(y ~ x1 + rx) summary(m5) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

Call: lm(formula = y ~ x1 + rx) Residuals: Min 1Q Median -46.82 -11.74 -3.35 3Q 10.79 Max 41.83

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 33.710 5.605 6.01 2.6e-07 *** x1 3.019 0.471 6.42 6.3e-08 *** rx 2.635 1.782 1.48 0.15 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.7 on 47 degrees of freedom Multiple R-squared: 0.48, Adjusted R-squared: 0.458 F-statistic: 21.7 on 2 and 47 DF, p-value: 2.13e-07 Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Multicolinearidade: remediao
3) Ortogonalizao (ex.: anlise de componentes principais)
pca <- princomp(~x2 + x1) m6 <- lm(y ~ pca$scores[, 1] + pca$scores[, 2]) summary(m6) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

Call: lm(formula = y ~ pca$scores[, 1] + pca$scores[, 2]) Residuals: Min 1Q Median -46.82 -11.74 -3.35 Coefficients: 3Q 10.79 Max 41.83 Error t value Pr(>|t|) 2.784 23.32 < 2e-16 *** 0.328 -6.56 3.9e-08 *** 2.557 0.61 0.54 ** 0.01 * 0.05 . 0.1 1

Estimate Std. (Intercept) 64.924 pca$scores[, 1] -2.150 pca$scores[, 2] 1.564 --Signif. codes: 0 *** 0.001

Residual standard error: 19.7 on 47 degrees of freedom Multiple R-squared: 0.48, Adjusted R-squared: 0.458 F-statistic: 21.7 on 2 and 47 DF, p-value: 2.13e-07 Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
comum, especialmente em estudos de natureza observacional, que inmeras variveis sejam medidas Parte dos objetivos destes estudos avaliar quais dessas variveis melhor explicam/predizem os dados O processo de de avalio e seleo de variveis chamado de Construo do Modelo

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual O que j se sabe sobre o seu problema (arcabouo terico)?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual O que j se sabe sobre o seu problema (arcabouo terico)? Com base nesse conhecimento, que tipo de relaes voc espera?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual O que j se sabe sobre o seu problema (arcabouo terico)? Com base nesse conhecimento, que tipo de relaes voc espera? Essas relaes j foram quanticadas em outros estudos, mesmo que para outros sistemas?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual O que j se sabe sobre o seu problema (arcabouo terico)? Com base nesse conhecimento, que tipo de relaes voc espera? Essas relaes j foram quanticadas em outros estudos, mesmo que para outros sistemas? O mtodo "escopeta"(shotgun) , na maioria das vezes, uma perda de tempo e recursos

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual O que j se sabe sobre o seu problema (arcabouo terico)? Com base nesse conhecimento, que tipo de relaes voc espera? Essas relaes j foram quanticadas em outros estudos, mesmo que para outros sistemas? O mtodo "escopeta"(shotgun) , na maioria das vezes, uma perda de tempo e recursos Voc pode gastar o mesmo dinheiro/esforo para coletar 10 rplicas de 10 variveis...ou 100 rplicas de uma varivel

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual O que j se sabe sobre o seu problema (arcabouo terico)? Com base nesse conhecimento, que tipo de relaes voc espera? Essas relaes j foram quanticadas em outros estudos, mesmo que para outros sistemas? O mtodo "escopeta"(shotgun) , na maioria das vezes, uma perda de tempo e recursos Voc pode gastar o mesmo dinheiro/esforo para coletar 10 rplicas de 10 variveis...ou 100 rplicas de uma varivel E no esquea do esforo de anlise!
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados O desenho experimental essencial!

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados O desenho experimental essencial! Experimentos x estudos observacionais (conrmatrios ou exploratrios)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados O desenho experimental essencial! Experimentos x estudos observacionais (conrmatrios ou exploratrios) O seu modelo s valido dentro do escopo das variveis preditivas

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados O desenho experimental essencial! Experimentos x estudos observacionais (conrmatrios ou exploratrios) O seu modelo s valido dentro do escopo das variveis preditivas Generalidade x especicidade

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados O desenho experimental essencial! Experimentos x estudos observacionais (conrmatrios ou exploratrios) O seu modelo s valido dentro do escopo das variveis preditivas Generalidade x especicidade Tamanho da amostra: qual o tamanho do efeito que voc deseja detectar, e com qual nivel de conana?

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados O desenho experimental essencial! Experimentos x estudos observacionais (conrmatrios ou exploratrios) O seu modelo s valido dentro do escopo das variveis preditivas Generalidade x especicidade Tamanho da amostra: qual o tamanho do efeito que voc deseja detectar, e com qual nivel de conana? Na dvida, simule!
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados 3)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados 3) Faa uma anlise exploratria

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados 3) Faa uma anlise exploratria Estatsticas descritivas (mdias, desvios, quantis)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados 3) Faa uma anlise exploratria Estatsticas descritivas (mdias, desvios, quantis) Histogramas, boxplots, curvas de densidade de distribuio

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados 3) Faa uma anlise exploratria Estatsticas descritivas (mdias, desvios, quantis) Histogramas, boxplots, curvas de densidade de distribuio Grcos de disperso (scatterplots) e correlaes:
Matrizes de grcos de disperso Matrizes de correlao

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo

data(mtcars) print(cor(mtcars), digits = 2) ## ## ## ## ## ## ## ## ## ## ## ## mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0.59 -0.81 -0.52 -0.49 0.53 disp -0.85 0.90 1.00 0.79 -0.71 0.89 -0.43 -0.71 -0.59 -0.56 0.39 hp -0.78 0.83 0.79 1.00 -0.45 0.66 -0.71 -0.72 -0.24 -0.13 0.75 drat 0.681 -0.700 -0.710 -0.449 1.000 -0.712 0.091 0.440 0.713 0.700 -0.091 wt -0.87 0.78 0.89 0.66 -0.71 1.00 -0.17 -0.55 -0.69 -0.58 0.43 qsec 0.419 -0.591 -0.434 -0.708 0.091 -0.175 1.000 0.745 -0.230 -0.213 -0.656 vs 0.66 -0.81 -0.71 -0.72 0.44 -0.55 0.74 1.00 0.17 0.21 -0.57 am 0.600 -0.523 -0.591 -0.243 0.713 -0.692 -0.230 0.168 1.000 0.794 0.058 gear 0.48 -0.49 -0.56 -0.13 0.70 -0.58 -0.21 0.21 0.79 1.00 0.27 carb -0.551 0.527 0.395 0.750 -0.091 0.428 -0.656 -0.570 0.058 0.274 1.000

mpg cyl disp hp drat wt qsec vs am gear carb

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


100 200 300 400

100

library(car) scatterplotMatrix(mtcars[, c(1, 3:4)], smoother = F) smoother = F desativa a opo de linha suavizada

disp
300

10

15

20

25

30

50 100

200

300

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

50

150

250

hp

10 15 20 25 30

mpg

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) Construa o seu modelo conceitual 2) Colete seus dados 3) Faa uma anlise exploratria 4)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) 2) 3) 4) Construa o seu modelo conceitual Colete seus dados Faa uma anlise exploratria Seleo de variveis
A adio de variveis ao modelo deve sempre se basear no seu modelo conceitual

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) 2) 3) 4) Construa o seu modelo conceitual Colete seus dados Faa uma anlise exploratria Seleo de variveis
A adio de variveis ao modelo deve sempre se basear no seu modelo conceitual Formule hipteses, e adicione as variveis de acordo com essa formulao

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) 2) 3) 4) Construa o seu modelo conceitual Colete seus dados Faa uma anlise exploratria Seleo de variveis
A adio de variveis ao modelo deve sempre se basear no seu modelo conceitual Formule hipteses, e adicione as variveis de acordo com essa formulao Voc pretende explicar a relao entre as variveis? Comece com o modelo completo e avalie os coecientes, erros e valores p.

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) 2) 3) 4) Construa o seu modelo conceitual Colete seus dados Faa uma anlise exploratria Seleo de variveis
A adio de variveis ao modelo deve sempre se basear no seu modelo conceitual Formule hipteses, e adicione as variveis de acordo com essa formulao Voc pretende explicar a relao entre as variveis? Comece com o modelo completo e avalie os coecientes, erros e valores p. Cuidado com o efeito da multicolinearidade! Calcule os VIFs, e aplique medidas corretivas se necessrio!

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

O processo de construo do modelo


1) 2) 3) 4) Construa o seu modelo conceitual Colete seus dados Faa uma anlise exploratria Seleo de variveis
A adio de variveis ao modelo deve sempre se basear no seu modelo conceitual Formule hipteses, e adicione as variveis de acordo com essa formulao Voc pretende explicar a relao entre as variveis? Comece com o modelo completo e avalie os coecientes, erros e valores p. Cuidado com o efeito da multicolinearidade! Calcule os VIFs, e aplique medidas corretivas se necessrio! O objetivo prever? Avalie a contribuio de cada varivel para o modelo nal, e mantenha s as mais importantes
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva J conhecemos uma dessas medidas, o ...

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
2 J conhecemos uma dessas medidas, o ... Rajustado

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
2 J conhecemos uma dessas medidas, o ... Rajustado

Podemos tambm usar os p-valores de cada coeciente

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
2 J conhecemos uma dessas medidas, o ... Rajustado

Podemos tambm usar os p-valores de cada coeciente Mas, por causa da multicolinearidade, os p-valores podem esconder variveis importantes, mas correlacionadas
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


A medida conhecida como AIC (Akaikes Information Criterion) a mais comumente usada para comparao de modelos

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


A medida conhecida como AIC (Akaikes Information Criterion) a mais comumente usada para comparao de modelos O AIC baseado no mtodo de estimao por mxima verossimilhana, e na teoria da informao

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


A medida conhecida como AIC (Akaikes Information Criterion) a mais comumente usada para comparao de modelos O AIC baseado no mtodo de estimao por mxima verossimilhana, e na teoria da informao Denimos o AIC como: 2k 2 ln(L) k o nmero de parmetros L a funo de verossimilhana. Minimizamos essa funo para encontrar a reta do modelo.
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


Para a comparao de modelos, podemos usar a funo equivalente: AIC = 2k + n log(SQE /n )

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


Para a comparao de modelos, podemos usar a funo equivalente: AIC = 2k + n log(SQE /n ) Interpretao: Quanto melhor o ajuste do modelo, menor ln(L) ou n log(SQE /n )

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


Para a comparao de modelos, podemos usar a funo equivalente: AIC = 2k + n log(SQE /n ) Interpretao: Quanto melhor o ajuste do modelo, menor ln(L) ou n log(SQE /n ) Mas quanto mais parmetros adicionarmos, maior 2k

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

AIC: Akaikes Information Criterion


Para a comparao de modelos, podemos usar a funo equivalente: AIC = 2k + n log(SQE /n ) Interpretao: Quanto melhor o ajuste do modelo, menor ln(L) ou n log(SQE /n ) Mas quanto mais parmetros adicionarmos, maior 2k O melhor modelo minimiza o valor do AIC, atravs de uma combinao entre bom ajuste e parcimnia
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Exemplo: AIC
m1 <- lm(qsec ~ hp, data = mtcars) summary(m1)$r.squared ## [1] 0.5016 summary(m1)$adj.r.squared ## [1] 0.485 AIC(m1) ## [1] 110.7 ## m2 <- lm(qsec ~ hp + wt, data = mtcars) summary(m2)$r.squared ## [1] 0.652 summary(m2)$adj.r.squared ## [1] 0.628 AIC(m1, m2) ## df AIC ## m1 3 110.7 ## m2 4 101.2 Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla m3 <- lm(qsec ~ hp + wt + disp, data = mtcars) summary(m3)$r.squared ## [1] 0.6808 summary(m3)$adj.r.squared ## [1] 0.6466 AIC(m1, m2, m3) ## df AIC ## m1 3 110.7 ## m2 4 101.2 ## m3 5 100.4

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Algoritmos de seleo de variveis


Existem mtodos automticos de seleo de variveis (ex. stepwise) Tema da moda na PG-SERE: data mining

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Algoritmos de seleo de variveis


Existem mtodos automticos de seleo de variveis (ex. stepwise) Tema da moda na PG-SERE: data mining Estes mtodos podem oferecer contribuies importantes na anlise exploratria do seu modelo

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Algoritmos de seleo de variveis


Existem mtodos automticos de seleo de variveis (ex. stepwise) Tema da moda na PG-SERE: data mining Estes mtodos podem oferecer contribuies importantes na anlise exploratria do seu modelo Mas a melhor seleo nal de variveis sempre depender da concordncia do modelo com a teoria, e da aplicao esperada

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Algoritmos de seleo de variveis


Existem mtodos automticos de seleo de variveis (ex. stepwise) Tema da moda na PG-SERE: data mining Estes mtodos podem oferecer contribuies importantes na anlise exploratria do seu modelo Mas a melhor seleo nal de variveis sempre depender da concordncia do modelo com a teoria, e da aplicao esperada Quem vai receber o diploma: voce ou o computador?
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
Stepwise signica passo a passo

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
Stepwise signica passo a passo O mtodo pode ser aplicado de maneira crescente (forward) ou decrescente (backward)

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
Stepwise signica passo a passo O mtodo pode ser aplicado de maneira crescente (forward) ou decrescente (backward) No modo forward, comeamos com uma nica varivel, e vamos progressivamente adicionando mais variveis, testando o ganho em poder explicativo a cada nova adio

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
Stepwise signica passo a passo O mtodo pode ser aplicado de maneira crescente (forward) ou decrescente (backward) No modo forward, comeamos com uma nica varivel, e vamos progressivamente adicionando mais variveis, testando o ganho em poder explicativo a cada nova adio No modo backward, comeamos com todas as variveis, e vamos progressivamente eliminando cada uma, testando a perda em poder explicativo a cada nova adio
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio O mtodo stepwise original baseado em testes de signicncia, e bastante criticado por sua ampla sensitividade multicolinearidade

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio O mtodo stepwise original baseado em testes de signicncia, e bastante criticado por sua ampla sensitividade multicolinearidade O uso de medidas mais robustas como o AIC reduzem, mas no eliminam, esse problema

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio O mtodo stepwise original baseado em testes de signicncia, e bastante criticado por sua ampla sensitividade multicolinearidade O uso de medidas mais robustas como o AIC reduzem, mas no eliminam, esse problema Quando duas variveis so muito parecidas, a escolha se torna arbitrria, e somente o suporte terico (i.e. bom senso) pode resolver o problema
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Mtodo Stepwise

form <- vector() for(i in c(1:100)){ x1 <- runif(30,0,20) x2 <- x1 + rnorm(30,0,1) y <- 3 + 2.3*x1 + 2.1*x2 + rnorm(30,0,10) m <- lm(y ~ x1 + x2) sm <- step(m, trace=0) form <- c(form, as.character(formula(sm))[3]) } barplot(table(factor(form)))

10

20

30

40

x1

x1 + x2

x2

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Concluindo
A regresso mltipla bastante similar regresso simples, com algumas complicaes a mais: Mltiplas variveis sempre apresentaro algum grau de multicolinearidade O melhor conjunto de variveis nem sempre inclui todos os preditores disponveis Existem algoritmos para auxiliar na seleo destas variveis Mas o seu conhecimento da teoria e da aplicao sempre iro prevalecer
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla

Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo

Discusso das listas de exerccio

Thiago S. F. Silva thiago@dsr.inpe.br

Aula 19: Regresso Mltipla