Вы находитесь на странице: 1из 54

Análise de Regressão

Análise de Regressão

• É um tipo de análise que usa modelos matemáticos


para relacionar o comportamento de uma variável Y
com o de outra X.

 Modelo Simples
Y = f (X)
 Modelo Multivariado
Y = f (X1, X2,...Xn)
Análise de Regressão

Para que serve saber a relação entre duas variáveis?

• Para fazer PREVISÕES sobre o comportamento futuro de um


fenômeno atual
– extrapola-se para o futuro o comportamento presente das variáveis:
- Ex: Prever a população de uma cidade no futuro.
- Ex: Prever a natalidade infantil para o ano 2050.
- Ex: Prever a demanda futura por habitação

• Para SIMULAR os efeitos de uma variável X sobre uma variável Y.


– avalia-se as relações de causa-efeito entre 2 variáveis
- Ex: Simular os efeitos sobre a segurança na cidade (Y) em função
do aumento do policiamento ostensivo nas ruas (X) .
- Ex: Simular o efeito sobre o trânsito (Y) de uma cidade em função
da elevação do preço da gasolina (X).
Análise de Regressão

Os Modelos de Regressão são aqueles que simulam o


relacionamentos entre 2 ou mais variáveis.

• O modelo é SIMPLES quando envolve o relacionamento entre duas


variáveis. Esse relacionamento pode ser:

• Simples Linear (equação da reta) ou,


• Simples Não linear (equação exponencial, geométrica, ...)

• O modelo é MULTIVARIADO quando envolve o relacionamento


entre mais de duas variáveis:
• Multivariado Linear (equação do plano)
• Multivariado Não Linear
Análise de Regressão: Modelos

A relação entre as variáveis é:

 direta (ou positiva) quando os valores de Y aumentam


em decorrência do aumento dos valores de X .
Y X
Y X
 inversa (ou negativa) quando os valores de Y variam
inversamente em relação aos de X.
Y X
Y X
Análise de Regressão: Diagrama de Dispersão
25

 É uma “nuvem” de pontos plotados 20


num gráfico cartesiano.

Variável Y
 Os pontos são definidos pelos 15

valores da variável X e da variável


Y. 10

 Numa pesquisa toda vez que os 5

valores de X e Y forem apurados um


par de informação referente a cada 0
1.50 1.55 1.60 1.65 1.70 1.75 1.80 1.85 1.9
ponto é gerado.
-5
 Os valores das variáveis x e y serão
as coordenadas de cada ponto -10

plotado no gráfico. Variável X

-15
Análise de Regressão: Diagrama de Dispersão
Relação Direta
1.80

1.75

1.70

1.65

1.60

1.55

1.50
40 45 50 55 60 65 70 75 80 85 90
Análise de Regressão: Diagrama de Dispersão

Observação X Y
1 30 4300
Relação Direta
2 21 3350

3 35 5200

4 42 4900
Idade
5 37 4700 X
6 20 2100 Renda mensal
7 8 1950

8 17 2700

9 35 4000

10 25 4800
Análise de Regressão: Diagrama de Dispersão

Relação Direta
Idade x Renda
600

500

400

300

200

100

0
0 10 20 30 40 50
Análise de Regressão: Diagrama de Dispersão
Relação Inversa
700

600

500

400
Y

300

200

100

0
0 10 20 30 40 50
X
Análise de Regressão: Diagrama de Dispersão

x y
30 370
Relação Inversa
21 480
35 195
45 195
20 420 Distancia em relação do centro
8 520 da cidade
17 450 X
40 210 Renda familiar
25 400
5 580
3 640
Análise de Regressão: Diagrama de Dispersão
Análise de Regressão: Diagrama de Dispersão

Sem relação
700

600

500

400
Y

300

200

100

0
0 5 10 15 20 25 30 35 40 45 50

X
Modelo Linear Simples
Análise de Regressão: Modelo Linear

• A Análise de Regressão é o processo matemático para


calcular os parâmetros “a” e “b” de uma função f (X).

Y=a+bX

• Estes parâmetros determinam as características da


função que relaciona ‘Y’ com ‘X’.

• No caso do modelo linear esta função é representada por


uma reta chamada de reta de regressão.
Análise de Regressão: Modelo Linear

Observação X Y
1 30 4300
Relação entre as
2 21 3350 variáveis:
3 35 5200

4 42 4900
X = Idade
5 37 4700

6 20 2100 Y = Renda mensal


7 8 1950

8 17 2700

9 35 4000

10 25 4800
Análise de Regressão: Modelo Linear
600

500

400

300
Y

200

100
Y
Y previsto
0
0 10 20 30 40 50
X
Análise de Regressão: Modelo Linear

• A reta de regressão explica teoricamente ou


modela a relação entre X e Y.

• Isto significa que o valor de Y observado nem


sempre é igual ao valor de Y’ estimado (ou
previsto) pela reta de regressão.
Análise de Regressão: Modelo Linear
Erro ou Desvio
• Haverá sempre alguma diferença entre o valor
observado Y e o valor estimado Y’. Essa diferença
em estatística é chamada de erro ou desvio:
e = Y – Y’
• O erro indica que:
 que as variações de Y não são perfeitamente
explicadas pelas variações de X ou;
 que existem outras variáveis das quais Y depende ou;
 que os valores de X e Y são obtidos de uma amostra
particular que não é representativa da realidade .
Análise de Regressão: Modelo Linear

• A regressão significa que os pontos plotados no gráfico são


regredidos, isto é, são definidos ou modelados por uma reta
que corresponde à menor distância entre cada ponto plotado e a
reta.

Y = α+βX equação da reta a partir dos dados coletados

 Y’ = a + b X’ equação da reta a partir das estimativas


Análise de Regressão: Modelo Linear

A regressão significa que os pontos plotados no gráfico são


regredidos, isto é, são definidos ou modelados por uma reta que
corresponde à menor distância entre cada ponto plotado e a reta.
600

500

Variação Não Explicada


400

Variação Explicada
300
Y

200

100

Y
Y previs to
0
0 5 10 15 20 25 30 35 40 45
X
Análise de Regressão: Modelo Linear

 Reduzir a diferença entre Y (plotado) e Y’(estimado) ou;

 Tornar mínimo os somatórios dos desvios entre Y e Y’.

 (Y – Y’) = (y1-y’1)+(y2-y’2)+....+(yn - y’n) = mínimo


Análise de Regressão: Modelo Linear
Análise de Regressão: Modelo Linear
Análise de Regressão: Modelo Linear

Método dos Mínimos Quadrados


• É o método matemático para calcular os parâmetros a e b da reta regressão.
• O método dos mínimos quadrados define uma reta que minimiza a soma das
distâncias ao quadrado entre os pontos plotados (X, Y) e a reta (X’,Y’).
• A reta que minimiza as distâncias ou as diferenças (ou o erro) entre Y e Y’ é
chamada de curva de regressão
• Equações Normais:
 Σ XY = a Σ X + b Σ X2
 Σ Y = Na + b Σ X
Análise de Regressão: Modelo Linear
Análise de Regressão: Modelo Linear

UTILIDADE DA RETA DE REGRESSÃO


 A reta de regressão é apenas uma aproximação da realidade.
 É um modo útil para indicar a tendência dos dados.

Mas até que ponto a reta de regressão


é uma aproximação confiável para
avaliar a tendência da realidade?

Duas medidas são usadas para indicar o quanto confiável, útil ou


aproximada da realidade é a reta:
Erro padrão da estimativa
Coeficiente de determinação
Análise de Regressão: Modelo Linear

Erro Padrão da Estimativa - Se


• Mede o desvio entre os valores reais de Y e os valores
estimados Y’.
• Ele informa a extensão do erro entre os valores de Y’
obtidos das estimativas e os valores de Y fornecidos
pela amostra.
• Se é medido na unidade de Y. O que se busca é obter
o menor valor possível de Se.
• Pode-se interpretar o Se como um desvio padrão dos
resíduos.
Análise de Regressão: Modelo Linear
600
Y’ Y

500 Y
Y
Y’ Y’
400
Y’
Y’
Y’ Y’
Y’
300
Y

Y
200
Y

100 Y
Y previsto

0
0 5 10 15 20 25 30 35 40 45
X
Análise de Regressão: Modelo Linear

Erro Padrão da Estimativa Se


• Assumindo que estes resíduos são "normalmente
distribuídos", pode-se dizer então que:
68% dos pontos (plotados) encontram-se dentro do
intervalo de 1 desvio padrão entorno da média:
-1 ≤ Se ≥ +1
95% dos pontos encontram-se dentro do intervalo de 2
desvios padrão ao redor da média:
-2 ≤ Se ≥ +2
• Fórmula
Σ (Y – Y’)2 Σ (Y – Y’)2
• Se2 = Se =
N–2 N–2
Análise de Regressão: Modelo Linear

Coeficiente de Determinação

• Observe que os pontos (xi,yi) estão distribuídos acima e


abaixo da reta de regressão.

• Para cada ponto (Y) coletado no levantamento de campo :


– o seu valor estimado Y’ (na reta de regressão)
– o seu valor médio Y* (na reta paralela ao eixo X)
Análise de Regressão: Modelo Linear
600
Y Y’

500 Y
Y
Y’ Y
400
Y Y’ Y
Y* Y*
Y’ Y’
300
Y

Y’ Y’
Y
200
Y

100 Y
Y previsto

0
0 5 10 15 20 25 30 35 40 45
X
Análise de Regressão: Modelo Linear

• A diferença entre o valor de Y e o valor de Y* é a


variação total.
Y - Y*
• A diferença entre o valor de Y e o valor de Y’ é
chamada de variação Não explicada.

Y – Y’
• A diferença entre o valor de Y* e o valor de Y’ é o
chamada de variação explicada
Y’ – Y*
Análise de Regressão: Modelo Linear

• A soma dos desvios ao quadrado entre todos os pontos


e a média de Y é chamada de Variação Total
Σ (Y – Y*)2
• A soma dos desvios ao quadrado entre os valores de Y
e os valores de Y’ é chamada de Variação Não Explicada
Σ ( Y – Y’)2
• A soma dos desvios ao quadrado entre os valores de
Y* e os valores de Y’ é chamada de Variação Explicada
Σ ( Y’ – Y*)2
Análise de Regressão: Modelo Linear

Coeficiente de Determinação

Σ (Y – Y*)2 Variação Total

Σ (Y – Y’)2 Variação Não Explicada

Σ (Y’ – Y*)2 Variação Explicada

Variação Total = Variação não Explicada + Variação Explicada

Σ (Y – Y*)2 = Σ (Y – Y’)2 + Σ (Y’ – Y*)2


Análise de Regressão: Modelo Linear

Coeficiente de Determinação r2
Σ (Y’ – Y*)2 Variação Explicada
r2 = _________________
Σ (Y – Y*)2 Variação Total

• O coeficiente de determinação deve ser interpretado como:


 a proporção entre a variação total da variável dependente Y e a
variação de Y que é explicada pela da variável independente X.
 O porcentual de variação da variável Y que é explicado pela
variável X.
CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO

Variação
x y y’ Explicada Não Explicada Total
30 4300 4092,14 853,48 43204,01 250000
21 3350 3215,71 3.413,93 18033,41 202500
35 5200 4579,05 6.069,21 385577,2 1960000
42 4900 5260,72 21.337,07 130119,9 1210000
37 4700 4773,81 9.483,14 5448,54 810000
20 2100 3118,33 4.646,74 1036996 2890000
8 1950 1949,75 34.234,14 0,061027 3422500
17 27000 2826,19 9.483,14 15922,85 1210000
35 4000 4579,05 6.069,21 335300,5 40000
25 4800 3605,24 379,33 1427458 1000000
Soma 95.969,39 33.980,61 129.950,00
Media y 380
b 97,4
Coeficiente de Determinação 0,7385
a 1170,07
CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO

Variação Variação
x y Projeção Explicada Não Explicada
30 430 4092,14 853,48 432,04
21 335 3215,71 3.413,93 180,33
35 520 4579,05 6.069,21 3.855,77
42 490 5260,72 21.337,07 1.301,20
37 470 4773,81 9.483,14 54,49
20 210 3118,33 4.646,74 10.369,96
8 195 1949,75 34.234,14 0
17 270 2826,19 9.483,14 159,23
35 400 4579,05 6.069,21 3.353,01
25 480 3605,24 379,33 14.274,58
Media y 380 Soma 95.969,39 33.980,61
b 97,4
a 1170,7 Coeficiente de Determinação 0,7385
Coeficiente de Correlação Simples “ r ”
• O coeficiente de correlação é igual a raiz quadrada do coeficiente
de determinação.
• No exemplo anterior: Podemos obter o coeficiente de correlação a
partir do coeficiente de determinação. :
 r2 = 0,738 coeficiente de determinação
 r = 0,85 coeficiente de correlação.

• O coeficiente de determinação é sempre positivo.


• O coeficiente de correlação assume valores negativos e positivos.
Análise de Regressão: Modelo Linear

Coeficiente de Correlação Simples


• Valores de r igual ou próximos de 1 ou –1 indicam que existe uma forte
correlação entre as variáveis:
 Valores próximos de +1 relação : direta
Alta correlação entre
 Valores próximos de -1 as variáveis relação: inversa

 Valores próximos de 0 não há relação entre as variáveis.


(zero)

-1≤ r ≤ +1
o O coeficiente de determinação indica o grau de ajuste (fit) da reta de regressão.
o O coeficiente de correlação é uma medida que indica a força da relação entre as
variáveis
Análise de Regressão: Modelo Linear

Resumindo
• Os valores de r estão limitados entre
-1 ≤ r ≤ +1
• O coeficiente de correlação tem um valor único
para a população ou amostra.
• Coeficiente de correlação padroniza dentro dos
horizontes acima as variações da covariância
Análise de Regressão: Modelo Linear

• Por isso o coeficiente de correlação pode ser


expresso:

Cov (X,Y)
rX,Y =
σ X  σY

• σX – desvio padrão da variável X


• σY – desvio padrão da variável Y
• Cov (X,Y) – Covariância de X e Y
Análise de Regressão: Modelo Linear

Análise dos coeficientes


• Em razão da variação amostral, o modelo de regressão calculado
é apenas um dos possíveis modelos extraídos da população.
• Supondo que o modelo baseado na população seja:
Y = α +β X
• e o modelo obtido da amostra seja:
Y’ = a +b X + e

• Onde e é o erro entre as observações e as estimativas da equação


• Temos que os valores dos coeficientes a e b da equação de
regressão obtidos de uma amostragem aleatória não são iguais
aos valores α e β da população.
Análise de Regressão: Modelo Linear

• Erro Padrão do Coeficiente ‘b’ (Sb)

 O erro padrão de b indica o quanto o coeficiente b da equação de regressão


se distancia do coeficiente β da população.

S2 e Se
 Fórmula Sb = √ S2b = =
(n-1) x Var (x) √ (n-1) x Var (x)

Pela fórmula conclui-se que o erro padrão do coeficiente b:


• é diretamente proporcional ao erro padrão da estimativa Se, e;
• e inversamente proporcional ao valor do desvio padrão de x e o tamanho
da amostra menos 1.
Análise de Regressão: Modelo Linear

• Erro Padrão do Coeficiente ‘a’ (Sa)

 O erro padrão do coeficiente a indica o quanto o coeficiente a da equação de


regressão se distancia (ou desvia) do coeficiente α da população.

1 X2
 Fórmula Sa = Se +
√ n (n-1) x S2x

Pela fórmula conclui-se que o erro padrão do coeficiente a:


• é também diretamente proporcional ao erro padrão da estimativa Se, e;
• reduz seu valor com o valor do desvio padrão de x e o tamanho da amostra
menos 1.
Modelo Linear Complexo
Análise de Regressão: Modelo Multivariado

• Modelo Linear Complexo


 Quando há relação linear com mais de uma variável independente:
Y = a + b1 X1 + b2 X2 +. . . . . + bk Xk
 Quando existirem 2 variáveis independentes os pontos serão plotados em
gráfico tridimensional, isto é, um gráfico com três eixos (y, x1 e x2).
 Nestes casos os pontos não serão regredidos para uma linha reta, mas
para um plano.
 Quando mais de 2 variáveis independentes são usadas na equação os
pontos são regredidos para o que é chamado de Hiperplano.
 As hipóteses do modelo linear continuam válidas no modelo do plano:
intervalos de confiança, distribuição normal do erro e correlação.
Análise de Regressão: Modelo Multivariado
Análise de Regressão: Modelo Multivariado

• Ajuste do Plano: Método dos Mínimos Quadrados


• O ajuste do plano (plane best fit), é também calculado pelo método dos
mínimos quadrados (neste caso as equações normais são escritas na
forma de matriz).
• Minimizar Σ (Yi -Y’)2 = d2
• Minimizar Σ [Yi – a - b1 (X1 – X1*) – b2 (X2 – X2*) ] 2

d11 d12 b1 = g1
d21 d22 b2 g2

• Equações Normais
• Σ Yi = a n + b1 ΣX1i + b2 ΣX2i
• Σ Yi X1i = a Σ X1i + b1 Σ( X1i )2 + b2 Σ ( X1i X2i )
• Σ Yi X2i = a Σ X2i + b1 Σ (X1i X2i ) + b2 Σ ( X2i )2
Análise de Regressão: Modelo Multivariado

Erro Padrão da Estimativa para modelos multivariados

O cálculo do desvio padrão das diferenças entre o Yi


(levantado) e o Y’ (estimado) é igual ao do modelo linear
simples:

1
S2eec = Ʃ (yi – a – b1x1 – b2x2)
n-k-1
k – no. de variáveis
N-k-1 – graus de liberdade
Análise de Regressão: Modelo Multivariado

• Coeficiente de Correlação Complexo “ R”


 Semelhante ao coeficiente de correlação simples (regressão linear).
 Neste caso deve-se cuidar para evitar intercorrelação ou
multicolinearidade entre as variáveis independentes.
 Nos modelos lineares complexos a correlação entre duas variáveis
independentes (r) não deve ser maior ou mesmo próxima da
correlação complexa (R), entre y e as duas x independentes.

R2YX1 + R2YX2 – 2 RYX1 RYX2 RX1X2


R2YX1X2 = --------------------------------------
1 – R2X1X2
Análise de Regressão: Modelo Multivariado

• Coeficiente de Correlação Complexo “ R”

b1 Σ Yi ( X1 i – X1* + b2 Σ Yi ( X2 i – X2* + . . . + bn Σ Yi ( Xn i – Xn*


RYX1X2 =
Σ (Yi – Y*)2

R2YX1 + R2YX2 – 2 RYX1 RYX2 RX1X2


RYX1X2 = ---------------------------------------------
1 – R2X1X2
Análise de Regressão: Modelo Multivariado

• Coeficientes de Correlação Parciais

RYX1 = Σ (Y’ – Y*)2 -1/2 Coeficiente de Correlação Parcial YX1


Σ (Y – Y*)2

RYX2 = Σ (Y’ – Y*)2 -1/2 Coeficiente de Correlação Parcial YX2


Σ (Y – Y*)2

• RX1X2 = Σ (Y’ – Y*)2 -1/2 Coeficiente de Correlação Parcial X1X2


Σ (Y – Y*)2
Análise de Regressão: Modelo Multivariado

R2Y1X1X2 = R2YX1+R2YX2 -2RYX1RYX2RX1X2


1 – R2X1X2
Y
Y
Y-X1
Y-X1 Y-X2 Y-X2
x1-x2 X1

x1-x2 X2
X1 X2
R2Y1X1X2 = R2YX1 + R2YX2
Análise de Regressão: Modelo Multivariado

• Regressão por Etapas (stepwise regression)


 É o processo de inclusão/exclusão de variáveis independentes em
função da contribuição das mesmas para a explicação das variações de
Y (isto é, para o incremento de R) .
 A variável independente x com a maior correlação parcial em relação a
variável dependente y deve ser mantida.
 O pesquisador deve avaliar até que ponto ele deve adicionar mais
variáveis independentes ao modelo: este ponto é atingido quando a
adição de uma variável pouco contribui para incrementar R.

Вам также может понравиться