Вы находитесь на странице: 1из 40

Correlao e Regresso

Objetivo
Estudar a relao entre duas variveis quantitativas.

Exemplos:
Idade e altura das crianas Tempo de prtica de esportes e ritmo cardaco Tempo de estudo e nota na prova Taxa de desemprego e taxa de criminalidade Expectativa de vida e taxa de analfabetismo

Investigaremos a presena ou ausncia de relao linear sob dois pontos de vista: a) Quantificando a fora dessa relao: correlao. b) Explicitando a forma dessa relao: regresso. Representao grfica de duas variveis quantitativas: Diagrama de disperso

Exemplo 1: nota da prova e tempo de estudo


X : tempo de estudo (em horas) Y : nota da prova

Pares de observaes (Xi , Yi) para cada estudante


Tempo(X) 3,0 7,0 2,0 1,5 12,0 Nota(Y) 4,5 6,5 3,7 4,0 9,3
Diagrama de Disperso
9,5 8,5 7,5

Nota

6,5 5,5 4,5 3,5 0 5 10

Tempo

uma medida que avalia o quanto a nuvem de pontos no diagrama de disperso aproxima-se de uma reta.

Coeficiente de correlao linear

O coeficiente de correlao linear de Pearson dado por:

sendo que,

X e Y so as m dias amostrais de X e Y, re spe ctiv ame nte

S X e S Y so os de sv ios padro de X e Y, re spe ctiv ame nte .

Frmula alternativa:

No exemplo:
Tempo (X) 3,0 7,0 2,0 Nota (Y) 4,5 6,5 3,7 X.Y 13,5 45,5 7,4

(X - X )
-2,1 1,9 -3,1 -3,6 6,9 0

(Y - Y )
-1,1 0,9 -1,9 -1,6 3,7 0

(X - X ) (Y - Y )
2,31 1,71 5,89 5,76 25,53 41,2

1,5
12,0 25,5

4,0
9,3 28,0

6
111,6 184

X 5,1

Y 5,6

(-2,1) 2 ... (6,9) 2 78,2 2 Sx 19,55 S x 4,42 4 4 (-1,1) 2 ... (3,7) 2 21,9 2 Sy 5,47 S y 2,34 4 4

Y=a+bx Y=2,9130+0,5268.X

Propriedade: -1 r 1
Casos particulares: r = 1 correlao linear positiva e perfeita r = -1 correlao linear negativa e perfeita r = 0 inexistncia de correlao linear

r = 1, correlao linear positiva e perfeita

r = -1, correlao linear negativa e perfeita

r
40

30

Y
20 10 10 20 30 40 50

-1

Exemplo 2: criminalidade e analfabetismo


Considere as duas variveis observadas em 50 estados norte-americanos. Y: taxa de criminalidade X: taxa de analfabetismo

Diagrama de disperso

Podemos notar que, conforme aumenta a taxa de analfabetismo (X), a taxa de criminalidade (Y) tende a aumentar. Nota-se tambm uma tendncia linear.

Clculo da correlao

_ Y= 7,38 (mdia de Y) e SY = 3,692 (desvio padro de Y) _ X= 1,17 (mdia de X) e Sx = 0,609 (desvio padro de X) XiYi = 509,12

Correlao entre X e Y:

Exemplo 3: expectativa de vida e analfabetismo


Considere as duas variveis observadas em 50 estados norte-americanos.
Y: expectativa de vida X: taxa de analfabetismo

Diagrama de disperso

Podemos notar que, conforme aumenta a taxa de analfabetismo (X), a expectativa de vida (Y) tende a diminuir. Nota-se tambm uma tendncia linear.

Clculo da correlao
_ (mdia de Y) e SY = 1,342 (desvio padro de Y) Y= 70,88 _ X= 1,17 (mdia de X) e Sx = 0,609 (desvio padro de X) XiYi = 4122,8 Correlao entre X e Y:

Reta ajustada:

O que so a e b?

a: intercepto b: inclinao
Interpretao de b:

Para cada aumento de uma unidade em X, temos um aumento mdio de b unidades em Y.

Reta ajustada (mtodo de mnimos quadrados)


Os coeficientes a e b so calculados da seguinte maneira:

No exemplo 2,
a reta ajustada :

^ Y : valor predito para a taxa de criminalid ade X : taxa de analfabetismo


Interpretao de b: Para um aumento de uma unidade na taxa do analfabetismo (X), a taxa de criminalidade (Y) aumenta, em mdia, 4,257 unidades.

Graficamente, temos

Como desenhar a reta no grfico?

No exemplo 3,
a reta ajustada :

^ Y : valor predito para a expectativa de vida X : taxa de analfabetismo


Interpretao de b: Para um aumento de uma unidade na taxa do analfabetismo (X), a expectativa de vida (Y) diminui, em mdia, 1,296 anos.

Graficamente, temos

Exemplo 4: consumo de cerveja e temperatura


Y: consumo de cerveja dirio por mil habitantes, em litros. X: temperatura mxima (em C). As variveis foram observadas em nove localidades com as mesmas caractersticas demogrficas e scio-econmicas.

Dados:
Temperatura (X) Consumo (Y)

16 31 38 39 37 36 36 22 10

290 374 393 425 406 370 365 320 269

Diagrama de disperso

400

Consumo

350

300

10

20

30

40

Temperatura

A correlao entre X e Y r = 0,962.

A reta ajustada :
Qual a interpretao de b? Aumentando-se um grau de temperatura (X), o consumo de cerveja (Y) aumenta, em mdia, 4,74 litros por mil habitantes.

Qual o consumo previsto para uma temperatura de 25C?

Y 217,37 4,74.25 335,87 litros

x 3 5 10 20 30 50 70 100 150 200

y 1,5 2 6 10 15 20 25 40 60 80

x 3 5 10 20 30 50 70 100 150 200 638 mdia x mdia y Sx Sy

Y 1,5 2 6 10 15 20 25 40 60 80 259,5 63,8 25,95 67,18928 26,36965

x.y 4,5 10 60 200 450 1000 1750 4000 9000 16000 32474,5

x-x -60,8 -58,8 -53,8 -43,8 -33,8 -13,8 6,2 36,2 86,2 136,2 0

y-y -24,45 -23,95 -19,95 -15,95 -10,95 -5,95 -0,95 14,05 34,05 54,05 0

(x-x)(y-y) 1486,56 1408,26 1073,31 698,61 370,11 82,11 -5,89 508,61 2935,11 7361,61 15918,4

r=

15918,4 9.67,19.26,37 0,998280421

r=

b=

32474,5-10.63,8.25.95 9.(67,19)

b=

0,391793175

a= a=

25,95-0,391793175.63,8 0,953595408

y=

0,9535+0,3918.x

GRAU DE UTILIDADE DA RETA DE REGRESSO


A reta de regresso que se obtm atravs do mtodo dos mnimos quadrados apenas uma aproximao da realidade. Ela um modo til para indicar a tendncia dos dados. Mas at que ponto a reta de regresso obtida til para avaliar a realidade? Duas medidas podem indicar o quanto til ou aproximado da realidade a reta: erro padro da estimativa; coeficiente de determinao

Erro padro da estimativa


O modelo de regresso linear simples ser perfeito se todos os pontos da amostra utilizados na estimativa dos parmetros estiverem sobre a reta ajustada. Entretanto, a ocorrncia de um modelo perfeito dificilmente ser observada. A regresso linear simples possibilita uma estimativa aproximada de um valor de Y para um dado valor de X. Sendo assim, importante uma medida da variabilidade dos pontos amostrais acima e abaixo da reta de regresso

O erro padro da estimativa (Se) mede o desvio mdio entre os valores reais de Y e os valores estimados Y. Ele informa de modo aproximado a extenso do erro entre os valores obtidos das estimativas e os valores de Y fornecidos pela amostra. Se medido na unidade de Y. O que se busca conseguir o menor valor possvel de Se.

Pode-se interpretar o Se como um desvio padro dos resduos, pois assumindo que estes resduos so "normalmente distribudos", podese dizer ento que 68% dos pontos (plotados) encontram-se dentro de 1 desvio padro: -1 Se 1

x 3 5 10 20 30 50 70 100 150 200 638

y 1,5 2 6 10 15 20 25 40 60 80 259,5

x.y 4,5 10 60 200 450 1000 1750 4000 9000 16000 32475

x-x -60,8 -58,8 -53,8 -43,8 -33,8 -13,8 6,2 36,2 86,2 136,2 0

y-y -24,45 -23,95 -19,95 -15,95 -10,95 -5,95 -0,95 14,05 34,05 54,05 0

(y-y) 597,8025 573,6025 398,0025 254,4025 119,9025 35,4025 0,9025 197,4025 1159,4025 2921,4025 6258,225

(x-x)(y-y) 1486,56 1408,26 1073,31 698,61 370,11 82,11 -5,89 508,61 2935,11 7361,61 15918,4

Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados estivem todos contidos numa reta teremos uma reta de regresso coincidente com os dados levantados. Nesse caso a somatria dos desvios ao quadrado ser zero e, o ajuste da reta ser completo. A reta de regresso explica perfeitamente a relao entre X e Y. O erro padro existir sempre que o poder de explicao da reta no for completo. O valor do erro significa ento que existem outros fatores que interferem no comportamento de Y alm da varivel X.

Coeficiente de Determinao
Ao se analisar a reta de regresso observamos que os pontos (xi, yi) esto distribudos acima e abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y - a reta de regresso) e com o valor mdio de Y (Y* -reta paralela ao eixo X). Como podemos observar a diferena entre o valor de Y e o valor de Y* (valor mdio de Y) o desvio total do ponto em relao a sua mdia.

A soma dos desvios ao quadrado de todos os pontos em relao a mdia de Y chamada de Variao Total. Isto : (Y Y*) A diferena entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi,yi) isto a distancia entre o ponto Y e a reta de regresso, chamada de Variao No Explicada pela reta de regresso. Isto : (Y Y)

J a diferena entre o valor Y (estimativa de Y) situado sobre a reta de regresso e o valor mdio de Y* (situado sobre a reta paralela ao eixo x) conhecida como Variao Explicada pela reta de regresso. Isto : (Y Y*)

Вам также может понравиться