Академический Документы
Профессиональный Документы
Культура Документы
RECIFE 2010
Capitulo 9
Ajuste de Curvas, Regresso e Correlao
Muito frequentemente constatado a existncia de uma relao entre duas
variveis( ou mais) e se deseja expressar tal relao sob forma matemtica,
estabelecendo-se uma equao entre as variveis. O primeiro passo para isso a
coleta de dados exibindo os valores correspondente das variveis. Por exemplo, sejam
x e y, respectivamente, altura e o peso de adultos de qualquer sexo. Uma amostra de
n indivduos acusaria alturas x1,x 2,..., xn e os correspondentes pesos y1,y2,..., yn . Um
prximo passo traar os pontos ( x1, y1), (x2,y2)....(xn,yn) em um sistema de
coordenadas retangulares. O conjunto chama-se diagrama de disperso.
A partir do diagrama de disperso visualizado uma curva aproximativa dos
dados.Curva essa chamada curva aproximadora. Na figura 9.1, por exemplo, os dados
parecem bem aproximados por uma linha reta , ns dizemos que h uma relao
linear entre as variveis. Na figura 9.2, conquanto exista uma relao entre as variveis
, tal relacionamento no linear, diz-se ento que h uma relao no-linear entre as
variveis. Na figura 9.3 no h nenhuma relao entre as variveis.
Regresso
Um dos principais objetivos do ajustamento estimar uma das variveis ( varivel
dependente) em funo da outra ( Variavel independente). Processo esse designado regresso.
Se y deve ser estimado em funo de x por meio de uma equao, equao essa denominada
equao de regresso de y sobre x e a curva correspondente a curva de regresso de y sobre
x.
Uma curva com esta propriedade se ajusta aos dados no sentido dos mnimos
quadrados, e chamada curva de regresso de mnimos quadrados, ou simplesmente
curva de mnimos quadrados. Temos ento reta de mnimo quadrados, parbolas de
mnimos quadrados, etc.
usual empregar a definio acima quando x a varivel
independente e y a varivel dependente. Se x varivel dependente, modifica-se a
definio, considerando- se desvios horizontais ao invs de verticais; o que equivale a
permutar os eixos x e y. Essas duas definies conduzem em geral a duas curvas de
mnimos quadrados diferentes. A menos que se especifique o contrrio,
consideraremos x como varivel independente e y como varivel dependente.
(1)
(2)
Chamado sistema de equaes normais para a reta de mnimos quadrados. Note-se
em lugar de
(3)
(4)
(5)
Assim, se quisermos, podemos primeiro determinar b a partir de (3) e (4) e ento usar (5) para
determinar
(6)
O resultado ( 6) mostra que a constante b, que o coeficiente angular da rela (1), a
constante fundamental para determinar a reta. De ( 6) v-se tambm que a reta de mnimos
quadrados passa pelo ponto
(7)
Onde h e k so constantes quaisquer , ento b ser tambem dado por:
(8)
Onde x , y foram substitudos por x, y( por esse motivo dizemos que b invariante
sob a transformao (7)). Note-se, todavia, que a ; intercepto da reta sobre o eixo 0x; depende
efetivamente da origem(assim, no variante).
No caso particular em que
, ( 8) se simplifica para :
(9)
Os resultados (8) ou (9) so teis para simplificar o trabalho de calculo na
determinao da reta de mnimos quadrados. As observaes acima valem tambm para a
reta de regresso de x sobre y. Formalmente, os resultados se obtm simplesmente
permutando x e y. Assim, por exemplo, a reta de mnimos quadrados de x sobre y :
(10)
Note-se porm que, em geral, (10) no a reta que ( 6).
Lembrana
Voc deve tentar encontrar a equao por regresso linear somente se seus dados
tiverem uma relao linear.
Exemplo9.1 A Tabela 9-1 mostra o as respectivas alturas x e y da amostra de 12 pais e
seus respectivos filhos mais velhos. Encontre a regresso dos mnimos quadrados de y em x.
65 63 67 64 68 62 70 66 68 67 69 71
68 66 68 65 69 66 68 65 71 67 68 70
(11)
Em funo dessas expresses, as retas de regresso de mnimos quadrados de y sobre x
e de x sobre y podem escrever-se respectivamente como:
(13)
(12)
(14)
Em razo do fato de
serem valores amostrais
padronizados ou escores padronizados, os resultados (14) proporcionam um modo muito
simples de memorizar as retas de regresso. claro que as duas retas em ( 14) so distintas, a
menos que r= +- 1, quando ento todos os pontos amostrais se encontram sobre um reta,
havendo assim correlao e regresso linear perfeitas.
necessrio notar tambm que, se as duas retas de regresso ( 14), se escrevem
como
respectivamente , ento :
( 15)
(16)
(17)
Ou
(18)
(19)
Donde, incidentalmente, decorre, como corolrio, que
i.e.,
(20)
Podemos agora mostrar que :
(21)
A quantidade a esquerda de ( 21) chamada de variao total. O primeiro somatrio
direita de (21) a variao no- explicativa, e o segundo somatrio a variao explicada.
Esta terminologia decorre do fato de que os desvios y- yest se comportam de maneira aleatria
ou imprevisvel, enquanto que os desvios
so explicados pela reta de regresso de
mnimos quadrados e tendem, assim, a seguir um padro definido. Decorre (20) e (21) que:
( 22)
Obs: O numerador chamado de variao explicada e o denominador de variao
total.
Assim, r2 poded ser interpretado como frao da vaiao total que explicada pela
reta de regresso de minimos quadrados. Em outras palavras, r mede quo bem a reta de
regresso de minimos quadrados se ajusta aos dados amostrais. Se a variao total toda
explicada pela reta de regresso, isto , se r2=1 ou r=+- , dizemos que h correlao linear
perfeita. Por outro lado, se a variao explicada zero, isto , se a variao total toda ela
no- explicada, r=0. Na prtica, a quantidade r2, por vezes denominada coeficiente de
determinao, situa-se entre 0 e 1.
O coeficiente de correlao pode ser calculado a partir de um dos dois resultados:
(23)
ou
(24)
Os quais, para regresso linear, so equivalentes. A formula (23) costuma chamar-se
formula do momento- produto para correlao linear.
(25)
e
(26)
Utilizando a transformao (7):
(27)
k=
, (27) se escreve:
(28)
Frmula que costuma ser bastante til nos calculos.
(29)
Obs: O numerador chamado de variao explicada e o denominador variao total.
Reflete efetivamente a forma da curva de regresso (atravs de y est)e , assim,
adequadra como definio de um coeficiente de correlao generelizada r. Utilizamos (29) para
obter coeficientes de correlao no-linear( que medem quo bem uma curva de regresso
no-linear se ajusta aos dados) ou, mediante generelizao apropriada, coeficientes de
correlao multipla. A relao ( 19) entre o coeficiente de correlao e o erro padro da
estimativa vale tambm para correlao no-linear.
Exemplo 9.2 Econtre o coeficiente de determinao e o coeficiente de correlao do
Exemplo 8.2
O coeficiente de correlao r.
Desde que y est aumenta quando x aumenta, a correlao positiva,e podemos escrever
escrever r= 0.7027, ou r= 0.70 para duas significncias figuradas.
Como coeficiente de correlao mede simplesmente quo bem determinada curva de
regresso ( ou superfcie) se ajusta aos dados amostrais, no tem tem sentido utilizarmos um
coeficiente de correlao linear quando os dados no so lineares. Suponha-se, Contudo, que
apliquemos (23) a dados no lineares e obtenhamos um valor numrico consideravelmente
inferior a 1. Ento a concluso a ser tirada no que exista pequena correlao, e sim que
existe pequena correlao linear. Na verdade, pode haver at uma grande correlao no
linear.
Correlao e Dependncia
Sempre que duas variveis aleatrias X e Y tm coeficientes de correlao diferente de
zero, sabemos que elas so dependentes no sentido probabilstico. Alm disso, quando p 0,
podemos utilizar uma equao da forma(6) para predizer o valor de Y a partir de X.