Вы находитесь на странице: 1из 36

Análise da Regressão

Prof. Dr. Alberto Franke


(48) 91471041
O que é Análise da Regressão?
 Análise da regressão é uma metodologia
estatística que utiliza a relação entre duas ou mais
variáveis quantitativas (ou qualitativas) de tal
forma que uma variável pode ser predita a partir
da outra ou outras.

2 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 1. Correlação
 O conceito de correlação refere-se a uma associação numérica entre
duas variáveis, não implicando necessariamente uma relação de causa
e efeito.
 A análise dos dados para verificar correlações é feita de forma
exploratória.
 O estudo da correlação numérica entre as observações de duas
variáveis é um passo intermediário na análise de um problema.
 Se a representação gráfica de duas variáveis em um sistema cartesiano
resultar em pontos alinhados, ajustando-se a uma reta, se está na
presença de uma relação linear.

3 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 2. Diagrama de dispersão
 É um gráfico onde os valores das variáveis são representadas por pontos ,
num sistema cartesiano.

Figura 1 – Diagramas de dispersão (18 amostras de cerâmicas) das variáveis retração linear,(%), resistência mecânica (MPa) e
absorção de água (%).
Fonte: BARBETTA et al., 2010.

4 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 2. Diagrama de dispersão

5 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 3. Coeficiente de correlação linear de Pearson (r)
 É uma medida da intensidade da relação linear entre duas variáveis aleatórias
 Mede o grau de relacionamento linear entre os dados emparelhados das variáveis X e
Y em uma amostra
 Pode variar entre -1  r +1
 3.1 - Cálculo do coeficiente de correlação de Pearson (r)
 Exemplo: Três observações
i xi yi xi2 yi2 xiyi 8
6
1 3 6 9 36 18 Yi 4
2
2 4 4 16 16 16
0
3 5 2 4 4 10 0 2 4 6
Xi
Soma 12 12 50 56 44

6 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 3.2 Coeficiente de correlação populacional()
 O coeficiente r pode ser considerado uma estimativa do verdadeiro e
desconhecido coeficiente de correlação populacional ().
 Podemos verificar as seguintes hipóteses com relação à correlação:
Ho:  = 0 (as variáveis X e Y são não correlacionadas);
H1:   0 (as variáveis X e Y são correlacionadas).
 Como avaliar se o coeficiente de correlação de Pearson (r) é significativo?
 1° - Usando a distribuição t de Student com gl = n-2 valor do teste calculado por

 Rejeita-se Ho quando o valor calculado de t for maior que valor tabelado com
gl = n-2, concluindo que há correlação significativa.
 2° - Usar a Tabela n° 10 para saber qual deve ser o valor mínimo para o
coeficiente de correlação r de Pearson ser significativo.

7 Prof. Tit. Dr. Franke, 2015


Fonte: BARBETTA et al., 2010

8 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 Exercícios: Sejam X = a nota de matemática na prova do vestibular e Y =
nota final da disciplina de estatística de 10 alunos do Curso. Os dados são
apresentados a seguir:
a) Calcule a correlação entre nota no
Aluno x y x2 y2 x.y vestibular de matemática e a nota na
1 39 65 disciplina de estatística. Interprete o
resultado
2 57 92
b) Construa um diagrama de dispersão e
3 34 56 verifique se algum aluno foge ao
4 40 70 comportamento geral do grupo
(ponto discrepante).
5 43 78 c) Retire o ponto discrepante detectado
6 47 89 no item anterior e calcule novamente
o coeficiente r. Interprete o
7 52 75 novamente.
8 70 50 d) Verifique se a correlação encontrada
no item anterior é significativa. Faça
9 21 52
o teste ao nível de significância de 5%
10 28 73 e interprete o resultado.
soma

9 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 Exercícios: Sejam X = a nota na prova do vestibular e Y = nota final da
disciplina de estatística de 10 alunos do Curso de geologia. Os dados são
apresentados a seguir:
100
Alunos x y x2 y2 x.y 90
80

Nota em estatística
1 39 65 1521 4225 2535 70
2 57 92 3249 8464 5244 60
50
3 34 56 1156 3136 1904
40
4 40 70 1600 4900 2800 30
5 43 78 1849 6084 3354 20
10
6 47 89 2209 7921 4183 0
7 52 75 2704 5625 3900 0 20 40 60 80
8 70 50 4900 2500 3500 Nota no vestibular

9 21 52 441 2704 1092


10 28 73 784 5329 2044
soma 431 700 20413 50888 30556

10 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 Exercícios: Sejam X = a nota na prova do vestibular e Y = nota final da
disciplina de estatística de 10 alunos do Curso de geologia. Os dados são
apresentados a seguir: 100
90
Alunos x y x2 y2 x.y 80

Nota em estatística
1 39 65 1521 4225 2535 70
60
2 57 92 3249 8464 5244
50
3 34 56 1156 3136 1904 40
4 40 70 1600 4900 2800 30
5 43 78 1849 6084 3354 20
6 47 89 2209 7921 4183 10
0
7 52 75 2704 5625 3900 0 10 20 30 40 50 60
9 21 52 441 2704 1092 Nota no vestibular
10 28 73 784 5329 2044
soma 361 650 15513 48388 27056

11 Prof. Tit. Dr. Franke, 2015


Como fazer na calculadora científica?
Aluno x y
1 39 65
2 57 92
3 34 56
4 40 70
5 43 78
6 47 89
7 52 75
8 70 50
9 21 52
10 28 73

12 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 4. Coeficiente de determinação (r²)
 É a proporção da variação total em Y explicada pelo ajuste da regressão
 Ou, o valor de r² representa a parte da variância total de X e Y, que pode ser
explicada pela sua relação linear

 Exemplo: se r = 0,7, ter-se-á r² = 0,49, ou seja, o grau de dependência


de Y em relação ao X será de 49%; isso significa que 51% da variação
total permanece não explicado pelo modelo da regressão.

13 Prof. Tit. Dr. Franke, 2015


Regressão linear
 5. Regressão linear simples
 A análise de regressão é utilizada principalmente para fins de previsão
 Tem por objetivo desenvolver um modelo estatístico que possa ser utilizado para
prever os valores de uma variável dependente, com base nos valores correspondentes
a pelo menos uma variável independente.
 Estamos interessados na relação matemática de causalidade.

 Objetiva-se:
 Predizer valores de uma variável dependente (Y) em função de uma variável independente (X).
 Conhecer o quanto variações de X podem afetar Y.

14 Prof. Tit. Dr. Franke, 2015


Regressão linear
 5. Regressão linear simples
 Exemplos de relação entre variáveis (X e Y):

Variável Independente Variável dependente


(X) (Y)
Idade de crianças Altura
Altura Peso corporal
Precipitação Produção vegetal
Temperatura do forno Resistência mecânica da cerâmica
Quantidade de aditivo Octanagem da gasolina

15 Prof. Tit. Dr. Franke, 2015


Regressão linear
 15. Regressão linear simples
 O modelo matemático

16 Prof. Tit. Dr. Franke, 2015


Significado dos parâmetros do modelo de
regressão linear simples

^
y = a + b.x
y

x=1 y
b
x

x x+1
a (intercepto) é o valor da média da distribuição de Y em X=0, não tem significado prático
como um termo separado (isolado) no modelo;
b (inclinação) expressa a taxa de mudança em Y, isto é, a mudança em Y quando ocorre a
mudança de uma unidade em X.
17 Prof. Tit. Dr. Franke, 2015
Regressão linear
 5. Regressão linear simples
 Estimativa da equação de regressão com base nos dados amostrais

 Para construção do modelo precisamos obter estimativas de a e b, a partir de um


conjunto de observações. Estimativa de coef. angular (b):
representa o coeficiente angular da
reta (tangente do ângulo com o eixo
das abscissas)

Estimativa escalar ou intercepto (a):


representa a ordenada do ponto em que a reta
corta o eixo das ordenadas.

 A estimativa dos parâmetros é realizados utilizando-se o método dos mínimos


quadrados, que consiste em fazer com que a soma dos erros quadráticos seja a
menor possível

18 Prof. Tit. Dr. Franke, 2015


Regressão linear
 5. Regressão linear simples
 Exemplo: Diâmetro e peso de 10 amostras de rochas.
 Diâmetro (mm) Peso (kg)
49 24,0
65 40,0
45 25,0
40 23,5
55 33,5
45 22,0
44 22,5
47 23,5
50 25,0
56 35,0

19 Prof. Tit. Dr. Franke, 2015


Regressão linear
45 Diâmetro (mm) Peso (kg)
49 24,0
40
65 40,0
45 25,0
35
Peso (kg)

40 23,5

30
55 33,5
45 22,0
25 44 22,5
47 23,5
20
35 40 45 50 55 60 65 70 50 25,0
Diâmetro (mm)
56 35,0
Figura 2 – Diagrama de dispersão para relação entre diâmetro e peso das rochas.
 Após inspeção visual do diagrama de dispersão percebe-se uma relação linear
 Então, a tarefa da análise da regressão é determinar qual modelo linear específico
representa o melhor ajuste para estes dados.
20 Prof. Tit. Dr. Franke, 2015
Regressão linear
 5. Regressão linear simples
 Construindo a equação de regressão com base nos dados do exemplo
Amostra Diâmetro Peso
(Xi2) (yi2) Xiyi
(i) (Xi) (yi)
1 49 24,0 2.401,00 576,00 1.176,00
2 65 40,0 4.225,00 1.600,00 2.600,00
3 45 25,0 2.025,00 625,00 1.125,00
4 40 23,5 1.600,00 552,25 940,00
5 55 33,5 3.025,00 1.122,25 1.842,50
6 45 22,0 2.025,00 484,00 990,00
7 44 22,5 1.936,00 506,25 990,00
8 47 23,5 2.209,00 552,25 1.104,50
9 50 25,0 2.500,00 625,00 1.250,00
10 56 35,0 3.136,00 1.225,00 1.960,00
Soma 496 274 25.082,00 7.868,00 13.978,00 Calculem o R! r = 0,9315

21 Prof. Tit. Dr. Franke, 2015


Regressão linear
 Equação da reta

45,0

y = 0,8068x - 12,619
40,0 R² = 0,8677

35,0
peso (kg)

30,0

25,0

20,0

15,0
35 45 55 65 75
Diâmetro (mm)

22 Prof. Tit. Dr. Franke, 2015


Qualidade do ajuste

 Ajustou-se uma equação de regressão entre X e Y.


 E a qualidade do ajuste? Como verifico?
 Coeficiente de determinação, r²
 análise de variância do modelo, teste F
 análise dos resíduos

23 Prof. Tit. Dr. Franke, 2015


ANÁLISE DOS RESÍDUOS
 É um método gráfico desenvolvido para:
 Avaliar se o modelo de regressão linear, que foi ajustados aos dados, é o
apropriado
 Identificar violações das premissas do modelo de regressão
 O que são resíduos?

24 Prof. Tit. Dr. Franke, 2015


ANÁLISE DOS RESÍDUOS
 Análise dos resíduos
 Valores preditos e resíduos do modelo

5
Diâmetro Resíduos x valores preditos
Peso (kg) Previsto Resíduo Resíduo 4
(mm) 3
(y) ( ÿ) (ê) padroniz 2
(x)
1
49 24,0 26,92 -2,92 -1,20 0
18 23 28 33 38 43
65 40,0 39,83 0,17 0,07 -1
-2
45 25,0 23,69 1,31 0,54
-3
40 23,5 19,65 3,85 1,58 -4
55 33,5 31,76 1,74 0,71
2 Resíduos padrão
45 22,0 23,69 -1,69 -0,69

Resíduos padronizados
44 22,5 22,88 -0,38 -0,16 1

47 23,5 25,30 -1,80 -0,74 0


50 25,0 27,72 -2,72 -1,11 15 25 35 45
-1
56 35,0 32,57 2,43 0,99
𝑅𝑒𝑠𝑖𝑑𝑢𝑜 -2
𝑅𝑒𝑠𝑖𝑑𝑢𝑜 𝑝𝑎𝑑𝑟𝑜𝑛𝑖𝑧𝑎𝑑𝑜 = peso predito

𝑄𝑀𝑅
25 Prof. Tit. Dr. Franke, 2015
Distribuição dos resíduos

26 Prof. Tit. Dr. Franke, 2015


Medida da qualidade do ajuste:

Coeficiente de determinação (R2)

O R2 é frequentemente conhecido como a proporção


da variação de y observada que pode ser explicada
pela variável regressora X.

27 Prof. Tit. Dr. Franke, 2015


Medida da qualidade do ajuste:

Coeficiente de determinação (R2)

0  R2  1

Quanto mais alto é o valor de R2, mais o modelo de


regressão linear simples consegue explicar a variação de Y.

28 Prof. Tit. Dr. Franke, 2015


Medida da qualidade do ajuste:
 Variação explicada e não explicada pelo modelo
Erro
Diâmetro (mm) Peso (kg) Previsto SQE (y - 𝑦) (y - 𝑦)²
(ê = y - ŷ)
49 24,0 26,92 -2,92 8,50 -3,4 11,56
65 40,0 39,83 0,17 0,03 12,6 158,76
45 25,0 23,69 1,31 1,72 -2,4 5,76
40 23,5 19,65 3,85 14,80 -3,9 15,21
55 33,5 31,76 1,74 3,03 6,1 37,21
45 22,0 23,69 -1,69 2,85 -5,4 29,16
44 22,5 22,88 -0,38 0,15 -4,9 24,01
47 23,5 25,30 -1,80 3,25 -3,9 15,21
50 25,0 27,72 -2,72 7,41 -2,4 5,76
56 35,0 32,57 2,44 5,93 7,6 57,76
496 274 274,00 0,00 47,67 0,00 360,40

2
𝑟= 𝑟²

29 Prof. Tit. Dr. Franke, 2015


Análise da variância (ANOVA) de Regressão
linear simples
Fonte de F F
gl SQ QM
variação calculado crítico
Regressão 1 SQT- SQE SQT/gl QMReg/QMErro
Erro n–2 SQE/n-2 --- ---
Total n -1 --- --- ---

Fonte de F F
gl SQ QM
variação calculado crítico
Regressão 1 312,73 312,73 52,47 5,32
Erro 8 47,67 5,96
Total 9 360,40

Conclusão? Como Fcal = 52,47 > Fcrítico = 5,32, conclui-se que o modelo é
significativo ao nível de 5%.

30 Prof. Tit. Dr. Franke, 2015


Correlação e regressão linear
 7. Regressão linear simples
 Construindo a equação de regressão com base nos dados do exemplo
 45,0 Diâmetro (mm) Peso (kg)
40,0 49 24,0
35,0 65 40,0
Peso (kg)

45 25,0
30,0

r² = 0,867 40 23,5
25,0 r = 0,93
55 33,5
20,0
35 40 45 50 55 60 65 70 45 22,0
Diâmetro (mm)
44 22,5
47 23,5
Como fazer com a calculadora científica?
50 25,0
56 35,0

31 Prof. Tit. Dr. Franke, 2015


Fluxograma para teste de significância da correlação linear
Início

Seja Ho: =0


H1: 0

Escolha 

Calcule r

Método 1: Método 2:
A estatística do teste é A estatística de teste é r.
Os valores críticos de r encontram-
se na tabela E.5

Os valores críticos da tabela de Student,


com n-2 graus de liberdade

Se o valor absoluto da estatística do teste excede os


valores críticos, rejeita-se Ho: =0. Em caso contrário,
não rejeitar Ho

Se Ho é rejeitada, concluir que há correlação linear


significativa.
Se Ho não é rejeitada, então não há evidência suficiente
para concluir pela existência de correlação linear
32 Prof. Tit. Dr. Franke, 2015
Premissas da regressão
 São similares às da análise da variância
 Normalidade de erros
 Homogeneidade da variância ou Homoscedasticidade
 Independência de erros
 a) Normalidade de erros
 O erro em torno da linha de regressão seja distribuído de forma normal para
cada valor corresponde a X.

33 Prof. Tit. Dr. Franke, 2015


Premissas da regressão
 b) Homoscedasticidade
 Requer que a variação em torno da linha de regressão seja constante para todos
os valores de X.
 Isto significa que os erros variam na mesma proporção, quando X for um valor
baixo ou quando for um valor elevado.
 Caso esta premissa não esteja atendida transformação dos dados pode ser
tentada.
 c) Independência de erros
 Requer que os erros em torno da linha de regressão sejam independentes para
cada valor de X.
 São importantes para dados que são coletados ao longo de um período de
tempo.
 Podem estar correlacionados com aqueles do período de tempo anterior.

34 Prof. Tit. Dr. Franke, 2015


Tabela da distribuição t (Student)

35 Prof. Tit. Dr. Franke, 2015


36 Prof. Tit. Dr. Franke, 2015

Вам также может понравиться