Вы находитесь на странице: 1из 31

Estatística

amintas paiva afonso

Correlação e Regressão

Associação &Variáveis Quantitativas

Situação 1: Deseja-se realizar uma investigação sobre a ocorrência de anemia e infecção em uma comunidade. Seria interessante poder estimar a concentração de hemoglobina e a contagem de eritrócitos e leucócitos no sangue pela medida do hematócrito. Para verificar a possibilidade de se usar tal procedimento, é conduzido um estudo-piloto a partir dos resultados da rotina de um laboratório de hematologia.

Como verificar se essas variáveis estão associadas?

Testes de Hipóteses?

• Estabelecem se existe associação entre duas variáveis, mas ... • Não quantificam a força da associação; e • Não permitem representar a relação existente sob uma forma funcional.

Associação &Variáveis Quantitativas

Exame

Leucócito

Eritrócito

Hemoglobina

Hematócrito

(103/mm3)

(106/mm3)

(g/dl)

(%)

  • 1 6.8

4.50

14.6

41

  • 2 9.7

5.20

15.6

47

  • 3 4.3

4.55

14.4

41

  • 4 7.9

4.65

14.4

41

  • 5 7.4

4.40

13.8

40

  • 6 7.6

4.40

14.0

40

  • 7 2.8

4.30

13.6

40

  • 8 7.8

4.60

13.8

42

  • 9 5.5

4.90

15.2

44

  • 10 4.6

4.10

13.0

39

  • 11 8.0

5.00

17.0

46

  • 12 7.0

5.17

16.0

47

  • 13 7.1

4.20

11.7

35

...

...

...

...

...

  • 138 10.5

4.50

13.4

39

  • 139 6.9

4.50

14.2

40

  • 140 13.5

4.45

13.6

40

  • 141 8.3

3.70

11.0

33

  • 142 7.0

4.30

12.7

38

  • 143 4.3

4.67

14.0

43

  • 144 2.7

4.40

12.7

39

  • 145 11.2

4.40

13.3

38

  • 147 5.9

4.40

11.9

37

  • 148 12.3

4.24

10.0

31

É possível fazer um gráfico das variáveis de interesse e analisar a existência de uma relação a partir da análise desse gráfico.

Associação &Variáveis Quantitativas

Diagrama de Dispersão

Representação gráfica que permite a visualização do comportamento conjunto das duas variáveis.

É

gráfico

sobre

o

qual

cada medida individual é

representada por um ponto, sendo que a posição de cada

ponto é determinada pelos valores observados em um indivíduo, para as duas características medidas (por exemplo, hematócrito e hemoglobina). É denominado, também, de gráfico XY.

Diagrama de Dispersão

• Parece não relação entre hematócrito e leucócito.
Parece
não
relação
entre
hematócrito
e
leucócito.

Análise

haver

uma

o

valor

do

o

valor

do

Diagrama de Dispersão

Diagrama de Dispersão Análise • Há uma relação crescente entre o valor do hematócrito e o

Análise

• Há uma relação crescente entre o valor do hematócrito e o valor de hemoglobina.

• Esta relação parece ser linear.

Diagrama de Dispersão

Diagrama de Dispersão Análise • Há uma relação crescente entre o valor do hematócrito e o

Análise

• Há uma relação crescente entre o valor do hematócrito e o valor do eritrócito.

• Esta relação parece ser linear.

Diagramas de Dispersão

A análise não é alterada, se trocamos as variáveis X e Y, ou seja, a existência ou não da relação não depende de qual variável é considerada independente.

O

modelo

porém, será

matemático,

alterado

a

depender de quem é X.

Diagramas de Dispersão A análise não é alterada, se trocamos as variáveis X e Y ,

Associação &Variáveis Quantitativas

Coeficiente de correlação linear de Pearson

Valor numérico que mede a intensidade da associação linear existente entre as duas variáveis, medida a partir de uma série de observações.

Karl Pearson (1857 – 1936)

Associação &Variáveis Quantitativas Coeficiente de correlação linear de Pearson Valor numérico que mede a intensidade da

Coeficiente de Correlação Linear

Medindo a Força da Associação

r

 

 

x

y

xy

 

n

 
 

x

2

 

y

2

 

 

2

 

 

y

2

 

x

n

 

 

n

Coeficiente de Correlação Linear Interpretando o valor de r

r

-

assume valores entre

– 1

e

+ 1 inclusive.

 
     

r – 1

• r  – 1 associação linear negativa;

associação linear negativa;

• r  – 1 associação linear negativa;
 

r 0

ausência de associação linear;

 

r + 1

• r  + 1 associação linear positiva;

associação linear positiva;

   
 
  • x

Coeficiente de Correlação Linear

20 20 60 50 15 15 40 10 30 10 20 5 5 10 0 0
20
20
60
50
15
15
40
10
30
10
20
5
5
10
0
0
0
0
5
10
0
5
10
0
5
10
r = +1
Relação
perfeita
r  + 0,80
r  0
30
30
Relação
25
25
perfeita
20
20
15
15
10
10
r  - 0,80
5
5
r = - 1
0
0
0
5
10
0
5
10

Teste de Hipóteses sob o Coeficiente de Correlação Linear

Testamos a hipótese nula:

H

  • 0 :

r 0

(bicaudal)

A estatística do teste é dada por:

t  r n  2 1  r 2
t
r
n  2
1  r
2

e sob H 0 , t tem distribuição t-Student com (n - 2) graus de liberdade.

Coeficiente de Correlação Linear

Teste de Hipóteses

Exemplo 1: Vamos calcular o coeficiente de Pearson entre as variáveis hemoglobina e hematócrito.

r

0,88,

n

t 21,98

148

t
t

Para = 0,05 temos:

 1,96  t  t crítico crítico 2,5% 2,5%  Rejeita  se H .
1,96
t
t
crítico
crítico
2,5%
2,5%
Rejeita
se
H
.
0

correlação

entre hematócrito

e hemoglobina.

Coeficiente de Correlação Linear

Teste de Hipóteses

Exemplo 2: Vamos calcular o coeficiente de Pearson entre as variáveis leucócito e hematócrito.

r  0,0289, n  148 t  0,3492 Para  = 0,05 temos: t 
r
0,0289,
n
148
t  0,3492
Para  = 0,05 temos:
t
1,96
t
t
crítico
crítico
2,5%
2,5%
Aceita
se
H
.
0
Não há correlação entre
hematócrito e leucócito.
Coeficiente de Correlação Linear Teste de Hipóteses Exemplo 2: Vamos calcular o coeficiente de Pearson entre

Associação &Variáveis Quantitativas

Modelos de Regressão

• Modelo matemático para a relação linear analisada. • Permite a predição de uma variável em função de outra.

Modelos Lineares

Situação 2: Uma vez verificada a existência de uma relação entre a quantidade de hemoglobina e o número de hematócritos, desejamos desenvolver um modelo para estimar a medida de hemoglobina (variável y) a partir da medida de hematócrito (variável x).

14,00 12,00 10,00 8,00 6,00 4,00 200 400 600 800 1000 1200 hematócrito hemoglobina
14,00
12,00
10,00
8,00
6,00
4,00
200
400
600
800
1000
1200
hematócrito
hemoglobina

Qual a reta que

melhor se ajusta a estes dados?

Modelos Lineares

Equação da Reta

25 y 20 15 b 10 5 0 0 2 4 6 x
25
y
20
15
b
10
5
0
0
2
4
6
x

y a bx

Intercepto y a

a e b - parâmetros da reta

Inclinação da reta

Regressão Linear Simples

Método dos Mínimos Quadrados

12 y 10 8 6 erro 4 2 ( y  $ y ) i i
12
y
10
8
6
erro
4
2
(
y
 $ y
)
i
i
0
0
2
4
x
6
8
10

O objetivo

é

minimizar a soma

do

quadrado

erros:

dos

SQR

^

y y

2

Obtendo os valores de

b

b 1
b
1

e minimizam equação acima.

0

que

a

Regressão Linear Simples

Método dos Mínimos Quadrados

yˆ a bx

Podemos utilizar a reta de regressão para estimar os

valores de

$ y

.

 x  y  xy  n b   2   x 2
x
y
xy 
n
b 
2
x
2
x
n
a  y b  x
a  y b  x

Reta de Regressão & Estimativa

Estimativa da Medida de Hemoglobina

14,00 12,00 10,00 8,00 6,00 4,00 200 400 600 800 1000 1200 hematócrito hemoglobina
14,00
12,00
10,00
8,00
6,00
4,00
200
400
600
800
1000
1200
hematócrito
hemoglobina

Hb 4,2327 0,2434Ht

Se

Ht

40%

 

Hb

13,97(

g

/

dl

)

Análise

O valor de homoglobina

média estimada, para um valor observado de hematócrito igual a 40%, é de 13,97 g/dl.

Reta de Regressão & Estimativa

Estimativa da Medida de Hematócrito

Suponha que desejemos considerar o hematócrito como variável dependente. Neste caso, podemos calcular outra reta de regressão, pelo método dos mínimos quadrados, considerando a hemoglobina como variável x (independente) e o hematócrito como variável y (dependente).

Ht  0,000732,9017Hb

Se

Hb

13,97(

g

/

dl

)

Ht 40,54%

O valor

de

hematócrito médio

estimado, para um valor observado de hemoglobina Hb = 13,97 g/dl, é de 40,54%. Note que a reta, para Ht, não é a inversa da obtida para Hb.

Exemplo 1:

Encontre a linha de regressão dos mínimos quadrados para os dados sobre renda e gasto com alimentação nos sete domicílios apresentados na tabela abaixo. Utilize renda como uma variável independente e gasto com alimentação como uma variável dependente.

Renda

Gasto com Alimentação

x

y

35

9

49

15

21

7

39

11

15

5

28

8

25

9

212

64

xy

x 2

315

1225

735

2401

147

441

429

1521

75

225

224

784

225

625

2150

7222

x

212

y 64 xy 2150

2

x

7222

x

x

n

212

7

30,2857

y

y

n

64

7

9,1429

2150

212



64

7

b

212

2

7

7222 b 0,2642

a 9,1429 (0,2642).(30,2857) 1,1414

^

y

1,1414

0,2642x

Qualidade do Ajuste na Regressão

Coeficiente de Determinação

R 2

=

proporção da variabilidade de y que é explicada pelo modelo (reta de regressão)

0 R

2

1

Se R 2 = 0,90 significa que 90% da variação em y pode ser explicada pela equação obtida.

Qualidade do Ajuste na Regressão

Coeficiente de Determinação

Quando fazemos uma regressão linear, os valores observados (x,y) estão espalhados ao redor da reta de regressão. Quanto menor for este espalhamento, melhor a reta de regressão representa o conjunto de valores observados. A variância

amostral total, como estimador do espalhamento, pode ser decomposta da seguinte forma:

r

2

   

y    

x

b

xy

n

2

y

y

2

n

Qualidade do Ajuste na Regressão Coeficiente de Determinação Quando fazemos uma regressão linear, os valores observados

Qualidade do Ajuste na Regressão

Coeficiente de Determinação

Exemplo 2:

Para os dados da tabela do exemplo 1, sobre rendas mensais e gastos mensais com alimentação de sete domicílios, calcule o coeficiente de determinação.

b=0,2642

SQ

xy

SQ

=211,7143

yy =60,8571

r

2



0,2642 211,7143

60,8571

0,92

www.matematiques.com.br

amintas paiva afonso