Вы находитесь на странице: 1из 31

Regresso

e
Previso Numrica
Obter um modelo que explique o
comportamento dos exemplos
observados (respostas) e usar
esse modelo para fazer predies
Objetivos
Planejamento
A amostra de dados deve ser representativa,
isto , cobrir amplamente o domnio do
problema considerando as operaes
rotineiras, e as excees
Amostra
Definio da metodologia a ser aplicada,
avaliao da adequao do modelo e
interpretao dos resultados
Previso
Previso similar Classificao
Primeiro construa um modelo
Depois, use o modelo para a previso do valor
desconhecido
O mtodo mais importante de previso a
regresso
Regresso linear e mltipla
Regresso no linear
Previso diferente de Classificao
Na classificao, a varivel a explicar categrica
Na previso, a varivel a explicar contnua
Relao entre Variveis
Com muita freqncia, na prtica, verifica-se que
existe uma relao entre duas ou mais varveis.
Exemplo:
Peso x Altura
Circunferncia x Raio
Quantidade de vapor x Temperatura
Ajustamento de curva
Para ajustar uma equao que relacione as
variveis, necessrio:
Colecionar dados que indiquem valores
Colocar os dados em um sistema de coordenadas
cartesianas (Diagrama de disperso)
Visualizar a curva de disperso (curva regular que
aproxima os dados)
Correlao Linear
quando os dados parecem estar bem prximos a
uma linha reta. o tipo mais simples de ajustamento e
pode ser descrito pela equao:
Y = |
0
+ |
1
X
Correlao No-Linear
Quando os dados no esto prximos a uma linha
reta. Existem vrias equaes:
Y = |
0
+ |
1
X + |
2
X
2

Y = |
0
+ |
1
X + |
2
X
2
+

|
3
X
3
Y = |
0
+ |
1
X + |
2
X
2
+

|
3
X
3
+ ... + |
n
X
n
Sejam os valores de uma varivel dependente (resposta) Y
relacionados com os valores valores de m variveis
independentes X
k
por meio de um modelo estocstico
Y
t
= |
0
+ |
1
X
1
+ |
2
X
2
+...+ |
m
X
m
+ e
t
t = 1,...,n

|
k
parmetro desconhecido que indica o grau de associao
linear da varivel independente X
k
com a varivel
dependente Y
e
t
erro aleatrio devido a natureza estocstica de Y
Regresso Linear Mltipla
Suposies para a anlise do modelo
de Regresso Linear
Resduos com varincia constante,
no correlacionados e mdia zero
Normalidade nos resduos (no necessariamente)
Nmero de parmetros menor que o nmero de
observaes (problema de overfitting)
Mtodos de Estimao dos
Parmetros
Mnimos Quadrados
Y = X| + c
Y vetor de respostas (n 1)
X - matriz de observaes independentes (n p)
| - vetor de parmetros
c - vetor de erros (n 1)
Modelo
Mtodo dos mnimos quadrados
Para evitar o critrio individual na construo de
retas, parbolas ou outras curvas de ajustamento que se
adaptem ao conjunto de dados, necessrio instituir uma
definio da melhor reta de ajustamento, da melhor
parbola de ajustamento, etc.
Para um dado valor X, por exemplo X
1
, haver uma
diferena entre o valor Y
1
e o valor correspondente na
curva. Representamos esta diferena por c
1
que muitas
vezes designado como desvio, erro ou resduo e pode ser
positivo negativo ou nulo.
Mtodo dos mnimos quadrados
De todas as curvas que se ajustam a um conjunto
de pontos, a que tem a propriedade de apresentar um
mnimo valor de
c
1
2
+

c
2
2
+

c
3
2
+ ...+

c
n
2


denominada a melhor curva de ajustamento.
Diz-se que uma curva, que apresenta esta
propriedade, ajusta os dados no sentido dos mnimos
quadrados denominada curva de mnimos quadrados.
Mtodos de Mnimos Quadrados
com suposio de normalidade
A idia obter uma estimativa b para o vetor de parmetros
| que minimize a soma de quadrados dos erros cc
Como E(c)=0 ento o modelo expresso por E(Y) = X|
c

c = (Y - X|)

(Y - X|)
= Y

Y - |

Y Y

X| + |XX|
= Y

Y - 2|

Y + |XX|
A soma de quadrados de resduos
A soluo do sistema
Vetor de valores ajustados
Xb Y =

0 =
c
c


'
Condio de mnimo
Y
t t
X ) X X ( =
Y b
t 1 t
X ) X X (


= =
O erro nas observaes :
) (

1 0 i i i i i
x b b y y y e + = =
Para n observaes, a mdia do erro :
x b b y e
x b b y
n
e
n
e
i
i
i
i
i
1 0
1 0
)} ( {
1 1
=
+ = =

Supondo que a mdia do erro zero
x b y b
1 0
=
Substituindo b
0
na equao de erro vamos obter:

=
2 2
1
x n x
y x n xy
b
25 pares de observaes onde Y =quantidade de vapor usado por ms
e X = temperatura em graus Farenheit
Experimento 1
1 10.98 35.3 13 11.88 28.1
2 11.13 29.7 14 9.57 39.1
3 12.51 30.8 15 10.94 46.8
4 8.40 58.8 16 9.58 48.5
5 9.27 61.4 17 10.09 59.3
6 8.73 71.3 18 8.11 70.0
7 6.36 74.4 19 6.83 70.0
8 8.50 76.7 20 8.88 74.5
9 7.82 70.7 21 7.68 72.1
10 9.14 57.5 22 8.47 58.1
11 8.24 46.4 23 8.86 44.6
12 12.19 28.9
N
o
obs. Y Y N
o
obs. X X
24 10.36 33.4
25 11.08 28.6

= = 432 11821 1315 . Y X X
i i i
Para n = 25 e
424 . 9 Y 60 . 52 X 42 . 76323 X
2
i
= = =


080 . 0
42 . 7154
128 . 571
1
=

= b
i i i
X X b b Y 080 . 0 623 . 13

1 0
= + =
Portanto
623 , 13 60 . 52 * 080 . 0 424 . 9
0
= + = b
30 40 50 60 70 80
6
7
8
9
10
11
12
13
X
Y
80 70 60 50 40 30
11,5
10,5
9,5
8,5
7,5
ajustados
Valores
X
Grfico 2: Temperatura
versus valores ajustados
Grfico 1: Temperatura
versus Qtd de vapor
O grfico 1 mostra que existe uma relao linear entre a qtd
de vapor e a temperatura. O grfico 2 ilustra a regresso linear.
Avaliao de desempenho do modelo
de Regresso
R
2
mede a variabilidade de explicada
pelo modelo de regresso
2
2
2
) (
)

(
Y Y
Y Y
R
i
i
i
i

=
Y
Exemplo: Para os dados do experimento 1
71 . 0
81 . 63
5924 . 45
R
2
= =
Estatstica
Teste de aceitao do modelo
H
0
: | = 0
H
1
: | = 0

Tabela 1 : Anlise de Varincia
Regresso
Resduo
Variao
Graus de
Liberdade
p-1
n-p
n-1
Total correto
por Y
Soma de
Quadrados
( SS)
Soma de
Quadrados mdia
(MS)
2
n
1 t
i
) Y Y

=
2
1
)

(
i
n
t
i
Y Y

=
2
n
1 t
i
Y Y ) (

=
SS
Reg
/(p-1)
s
2
= SS
Res
/(n-p)

Estatstica do teste
(F)
) p n /( SS
) 1 p /( SS
s Re
g Re

F tem distribuio com p-1,n-p graus de liberdade


e nvel de significncia 1-o
Teste de aceitao do modelo
Regio de aceitao da hiptese H
0

) 1 (
) /(
) 1 /(
1 , 1
Re
Re
o s

=
p n p
s
g
F
p n SS
p SS
F
H
0
: Rejeita-se o modelo
H
1
: Aceita-se o modelo

Regresso
Resduo
Variao
Graus de
Liberdade
1
23
24
Total correto
por Y
Soma de
Quadrados
( SS)
Soma de
Quadrados mdia
MS
45.59
0.79
Valor da
Estatstica do teste
(F)
Tabela 1 : Anlise de Varincia
Exemplo: Considere o modelo do exemplo anterior
45.59
18.22
57.54
63.81
Valor de F
1,22
(0,95) = 4.28

Como a estatstica F=57.54 > 4.28 rejeitamos H
0

Teste de significncia do vetor de
parmetros (|)
Estatstica do teste

) (
i
i
b Var
b
T =
H
0
: |
i
= 0 (i = 1,...,p)
H
1
: |
i
= 0
Regio de aceitao da hiptese H
0

) 2 / 1 ( o s
p n
t T
T tem distribuio t-student com n-p graus de liberdade
Regression Analysis: C1 versus C2


The regression equation is
C1 = 13,6 - 0,0798 C2

Predictor Coef SE Coef T P
Constant 13,6230 0,5815 23,43 0,000
C2 -0,07983 0,01052 -7,59 0,000

S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2%

Analysis of Variance

Source DF SS MS F P
Regression 1 45,592 45,592 57,54 0,000
Residual Error 23 18,223 0,792
Total 24 63,816
Intervalo de confiana para o vetor b
) b ( Var ) 2 / ( t b
i p n i
o

b tem distribuio t-student
(n-p)

i = 1,...p
Exemplo: Continuando com o exemplo anterior
H
0
: |
1
= 0 (i = 1,...,p)
H
1
: |
1
= 0
|T| =| -0.07980/0.0105| = 7.6 > t
23
(0.975)=2.069
Rejeita H
0

Intervalo de confiana : -0.1016 < |
1
< -0.0581
Diagnstico da Regresso
Anlise do modelo
Exemplo 1
Os resultados do ajustamento revelam que :
a varivel temperatura significativa no modelo (|t|=2.069 > 2)
a variabilidade dos dados explicada pelo modelo boa (R
2
= 0.71)
o valor da F=57.54 > F
1,23
(5%) indica que a regresso significativa
ao nvel de confiana de 95%
Diagnstico da Regresso
Anlise grfica dos resduos
1 Normalidade da varivel resposta
2 Independncia das observaes
3 Se uma varivel explicativa no includa no
modelo relevante
25 20 15 10 5
1
0
-1
-2
Observation Order
R
e
s
i
d
u
a
l
Residuals Versus the Order of the Data
(response is C1)
7,5 8,5 9,5 10,5 11,5
-2
-1
0
1
Fitted Value
R
e
s
i
d
u
a
l
Residuals Versus the Fitted Values
(response is C1)
Diagnstico da Regresso
Os resduos so aleatrios. Os valores ajustados no
apresentam tendncia
1,5 1,0 0,5 -0,0 -0,5 -1,0 -1,5
7
6
5
4
3
2
1
0
Residual
F
r
e
q
u
e
n
c
y
Histogram of the Residuals
(response is C1)
-2 -1 0 1
-2
-1
0
1
2
N
o
r
m
a
l

S
c
o
r
e
Residual
Normal Probability Plot of the Residuals
(response is C1)
Diagnstico da Regresso
Os resduos apresentam normalidade.
O modelo proposto se ajusta aos dados, pois as hipteses
bsicas da regresso clssica so satisfeitas.
Modelos de Regresso No Linear
A no linearidade dada pela funo de regresso
Y
t
= |
0
+ |
1
X
1
+ X
2
|
+ e
t
t = 1,...,n

Um mtodo de estimao: Mnimos Quadrados no
Lineares

Вам также может понравиться