Вы находитесь на странице: 1из 16

UNIVERSIDADE DE PERNAMBUCO

ESCOLA POLITCNICA DO RECIFE

TRADUO DO CAPTULO 9 DO LIVRO


Spiegel, M, Schiller, J & Srinivisan, A. SHAUMS EASY OUTLINES:
Probability and Statistics. Crash Course. McGraw-Hill, New York,
2001

RECIFE 2010

Capitulo 9
Ajuste de Curvas, Regresso e Correlao
Muito frequentemente constatado a existncia de uma relao entre duas
variveis( ou mais) e se deseja expressar tal relao sob forma matemtica,
estabelecendo-se uma equao entre as variveis. O primeiro passo para isso a
coleta de dados exibindo os valores correspondente das variveis. Por exemplo, sejam
x e y, respectivamente, altura e o peso de adultos de qualquer sexo. Uma amostra de
n indivduos acusaria alturas x1,x 2,..., xn e os correspondentes pesos y1,y2,..., yn . Um
prximo passo traar os pontos ( x1, y1), (x2,y2)....(xn,yn) em um sistema de
coordenadas retangulares. O conjunto chama-se diagrama de disperso.
A partir do diagrama de disperso visualizado uma curva aproximativa dos
dados.Curva essa chamada curva aproximadora. Na figura 9.1, por exemplo, os dados
parecem bem aproximados por uma linha reta , ns dizemos que h uma relao
linear entre as variveis. Na figura 9.2, conquanto exista uma relao entre as variveis
, tal relacionamento no linear, diz-se ento que h uma relao no-linear entre as
variveis. Na figura 9.3 no h nenhuma relao entre as variveis.

O problema de determinar equaes de curvas que se ajustem a determinados


conjuntos de dados observados chamado ajustamento de curvas, ou simplesmente
ajustamento. Na prtica, frequentemente o prprio diagrama de disperso sugere o tipo de
curva a ser adotado. Para a Figura 9-1, poderamos usar uma linha reta :
Y= a + bx
Enquanto que, para a fig, 9-2, tentaramos uma parbola, ou uma curva quadrtica
Y= a + bx + cx2
Algumas vezes ajuda a montar o diagrama, em termos de variveis transformadas. Por
exemplo, se log y VS. log x trata uma linha reta, ns poderamos testar log y= a +bx como uma
equao que se aproxima da curva.

Regresso
Um dos principais objetivos do ajustamento estimar uma das variveis ( varivel
dependente) em funo da outra ( Variavel independente). Processo esse designado regresso.
Se y deve ser estimado em funo de x por meio de uma equao, equao essa denominada
equao de regresso de y sobre x e a curva correspondente a curva de regresso de y sobre
x.

O mtodo dos mnimos quadrados


Geralmente, mais de uma curva ajustada a determinado conjunto de dados.
Para evitar critrios individuais na escolha de retas, parbolas, etc..., necessrio
chegar-se a um acordo quanto ao que se deve entender por melhor reta, melhor
parbola .
A fim de evitar uma possvel definio, consideramos a fig 9-4, em que os
pontos dados so ( x1, y1),........, (x2, y2).
Para determinado valor de x, digamos x1, existira uma diferena ente o valor y1
e o correspondente valor ajustado, determinado pela curva C. Denotamos tal
diferena por d1, e chamamos de desvio, erro ou resduo; seu valor pode ser positivo,
negativo ou zero. Analogamente, para os valores x2,........,xn obtemos os desvios
d2,....., dn.

Uma medida da aderncia , ou validade do ajustamento da curva C aos dados do


problema dada pela quantidade d12 + d22+........dn2. Se esta quantidade pequena, o
ajustamento bom; se grande, o ajustamento mau. Formulamos , ento, a
Definio : De todas as curvas que se aproximam de determinados conjunto de
pontos, a curva que goza da propriedade
d12+ d22+.....+ dn2= mnimo ( a melhor curva ajustadora)

Uma curva com esta propriedade se ajusta aos dados no sentido dos mnimos
quadrados, e chamada curva de regresso de mnimos quadrados, ou simplesmente
curva de mnimos quadrados. Temos ento reta de mnimo quadrados, parbolas de
mnimos quadrados, etc.
usual empregar a definio acima quando x a varivel
independente e y a varivel dependente. Se x varivel dependente, modifica-se a
definio, considerando- se desvios horizontais ao invs de verticais; o que equivale a
permutar os eixos x e y. Essas duas definies conduzem em geral a duas curvas de
mnimos quadrados diferentes. A menos que se especifique o contrrio,
consideraremos x como varivel independente e y como varivel dependente.

Voc precisar saber


Outra possibilidade consiste em considerar distncias perpendiculares dos pontos
observados curva, em lugar de distncias horizontais ou verticais. Tal processo,
entretanto,no muito usado.

A reta de mnimos quadrados


Pela definio acima, pode mostrar que a reta de mnimos quadrados que aproxima,
ou ajusta, o conjunto de pontos ( x1, y1),........, (xn,yn) tem por equao:
Y= a + bx

(1)

Onde as constantes a e b so determinadas resolvendo-se o sistema

(2)
Chamado sistema de equaes normais para a reta de mnimos quadrados. Note-se

que, para abreviar, usamos

em lugar de

As equaes normais ( 2) podem ser facilmente memorizadas notando-se que,


formalmente, a primeira equao se obtm somando-se ambos os membros de (1), enquanto
que a segunda equao se obtm multiplicando-se primeiro ambos os membros de (1) por x e
somando-se em seguida. Obviamente, isto no uma deduo das equaes normais mas
apenas um processo para memoriz-las. Os valores de a e b obtidos (2) so dados por:

(3)

O resultado de b pode escrever-se tambm:

(4)

O trao superior indica mdia, isto ,


primeira equao de (2) por n d:

. A diviso de ambos os membros da

(5)

Assim, se quisermos, podemos primeiro determinar b a partir de (3) e (4) e ento usar (5) para
determinar

Isto equivale a escrever a reta de mnimos quadrados como

(6)
O resultado ( 6) mostra que a constante b, que o coeficiente angular da rela (1), a
constante fundamental para determinar a reta. De ( 6) v-se tambm que a reta de mnimos
quadrados passa pelo ponto

, chamado centride, ou centro de gravidade dos dados.

O coeficiente angular b da reta de regresso independente da origem de


coordenadas. Isto significa que, se fizermos a transformao ( translao dos eixos) dada por:

(7)
Onde h e k so constantes quaisquer , ento b ser tambem dado por:

(8)
Onde x , y foram substitudos por x, y( por esse motivo dizemos que b invariante
sob a transformao (7)). Note-se, todavia, que a ; intercepto da reta sobre o eixo 0x; depende
efetivamente da origem(assim, no variante).
No caso particular em que

, ( 8) se simplifica para :

(9)
Os resultados (8) ou (9) so teis para simplificar o trabalho de calculo na
determinao da reta de mnimos quadrados. As observaes acima valem tambm para a
reta de regresso de x sobre y. Formalmente, os resultados se obtm simplesmente
permutando x e y. Assim, por exemplo, a reta de mnimos quadrados de x sobre y :

(10)
Note-se porm que, em geral, (10) no a reta que ( 6).

Lembrana
Voc deve tentar encontrar a equao por regresso linear somente se seus dados
tiverem uma relao linear.
Exemplo9.1 A Tabela 9-1 mostra o as respectivas alturas x e y da amostra de 12 pais e
seus respectivos filhos mais velhos. Encontre a regresso dos mnimos quadrados de y em x.

Altura x do Pai (polegadas)


Altura y do Filho (polegadas)

65 63 67 64 68 62 70 66 68 67 69 71
68 66 68 65 69 66 68 65 71 67 68 70

A linha de regresso de y em x dada por y= ax+b que so obtidas resolvendo as


equaes normais:

Os dados so computados como seguem abaixo:

Usando esses dados, a equao normal encontrada:

Para tanto econtramos a=35.82 e b=0,476, ento y=35,82+0,476x a equao de


regresso linear.

A Reta de Mnimos quadrados em termos da


varincia e covarincia amostrais
As varincias e covarincias amostrais de x e y so dadas por

(11)
Em funo dessas expresses, as retas de regresso de mnimos quadrados de y sobre x
e de x sobre y podem escrever-se respectivamente como:

(13)

(12)

Se definirmos formalmente o coeficiente de correlao amostral por


ento (12) pode escrever-se :

(14)

Em razo do fato de
serem valores amostrais
padronizados ou escores padronizados, os resultados (14) proporcionam um modo muito
simples de memorizar as retas de regresso. claro que as duas retas em ( 14) so distintas, a
menos que r= +- 1, quando ento todos os pontos amostrais se encontram sobre um reta,
havendo assim correlao e regresso linear perfeitas.
necessrio notar tambm que, se as duas retas de regresso ( 14), se escrevem
como
respectivamente , ento :

( 15)

At agora no levamos em conta a significao precisa do coeficiente de correlao;


definimo-lo apenas formalmente em termos das varincias e da covarincia.

Erro de Padro Estimado


Seja yest o valor estimado de y, correspondente a determinado valor de x, e obtido da
curva de regresso de y sobre x; ento uma medida da disperso em torno da curva de
regresso dada por:

(16)

Que se chama erro padro da estimativa de y sobre x. Como


,
Vemos que, de todas as possveis curvas de regresso, a curva de mnimos quadrados
a que apresenta menor erro padro de estimativa. No caso de uma reta de regresso
, como a e b dados por (2), temos :

(17)

Ou

(18)

Podemos tambm exprimir


para a reta de mnimos quadrados em termos da
varincia e do coeficiente de correlao como:

(19)
Donde, incidentalmente, decorre, como corolrio, que

i.e.,

O erro padro da estimativa goza de propriedades anlogas s do desvio


padro. Por exemplo, se construirmos pares de retas paralelas reta de regresso de y sobre x,
s distancias de Sx.y, 2Sx.y e 3 Sx.y respectivamente, encontramos, para n suficientemente
grande, cerca de 68%, 95%, 99,7%, respectivamente, dos pontos amostrais compreendidos
entre pares de retas.
Assim como existe um estimador no-tendencioso da varincia amostral, dado
por

existe tambm um estimador no tendencioso do quadrado do erro

padro da estimativa. Este estimador dado por


Por esta razo,
alguns estatsticos preferem tomar ( 16) com n-2 em lugar de n no denominador.

As observaes acima modificam-se facilmente para a reta de regresso de x sobre


y ( quando ento o erro padro da estimativa se denota por S x,y) ou para regresso no-linear
ou mltipla.

O coeficiente de correlao linear


At agora definimos formalmente o coeficiente de correlao mediante (13), mas
no examinamos sua significao. Para tal, notemos que, de (19) e das definies de Sy.x e Sy
temos:

(20)
Podemos agora mostrar que :

(21)
A quantidade a esquerda de ( 21) chamada de variao total. O primeiro somatrio
direita de (21) a variao no- explicativa, e o segundo somatrio a variao explicada.
Esta terminologia decorre do fato de que os desvios y- yest se comportam de maneira aleatria
ou imprevisvel, enquanto que os desvios
so explicados pela reta de regresso de
mnimos quadrados e tendem, assim, a seguir um padro definido. Decorre (20) e (21) que:

( 22)
Obs: O numerador chamado de variao explicada e o denominador de variao
total.
Assim, r2 poded ser interpretado como frao da vaiao total que explicada pela
reta de regresso de minimos quadrados. Em outras palavras, r mede quo bem a reta de
regresso de minimos quadrados se ajusta aos dados amostrais. Se a variao total toda
explicada pela reta de regresso, isto , se r2=1 ou r=+- , dizemos que h correlao linear
perfeita. Por outro lado, se a variao explicada zero, isto , se a variao total toda ela

no- explicada, r=0. Na prtica, a quantidade r2, por vezes denominada coeficiente de
determinao, situa-se entre 0 e 1.
O coeficiente de correlao pode ser calculado a partir de um dos dois resultados:

(23)
ou

(24)
Os quais, para regresso linear, so equivalentes. A formula (23) costuma chamar-se
formula do momento- produto para correlao linear.

(25)
e

(26)
Utilizando a transformao (7):

(27)

O que mostra que r invariante por translao de eixo. Em particular se h=,

k=

, (27) se escreve:

(28)
Frmula que costuma ser bastante til nos calculos.

O coeficiente de correlao linear pode ser positivo ou negativo. Se r positivo, y


tende aumentar com x( o coeficiente angular da reta de mnimos quadrados positivo)
enquanto que se r negativo, y tende a decrescer quando x cresce ( o coeficiente angular
negativo). O sinal automaticamente levado em conta se ussarmos o resultado ( 23), (25),
(26), (27) 2 (28). Contudo, ao utilizarmos (24) para obter r, devemos aplicar o sinal conveniente.

Coeficiente de correlao Generalizado


A definio (23) ( ou de suas formas equivalentes (35) a (28)) do coeficiente de
correlao envolve somente valores amostrais x, y. Consequentemente, d o mesmo nmero
para todas as formas de curvas de regresso e inoperante como medida de aderncia de
ajustamento, exceto no caso da regresso linear, quando coincide com(24). Contudo, a ultima
definio, ou seja:

(29)
Obs: O numerador chamado de variao explicada e o denominador variao total.
Reflete efetivamente a forma da curva de regresso (atravs de y est)e , assim,
adequadra como definio de um coeficiente de correlao generelizada r. Utilizamos (29) para
obter coeficientes de correlao no-linear( que medem quo bem uma curva de regresso
no-linear se ajusta aos dados) ou, mediante generelizao apropriada, coeficientes de
correlao multipla. A relao ( 19) entre o coeficiente de correlao e o erro padro da
estimativa vale tambm para correlao no-linear.
Exemplo 9.2 Econtre o coeficiente de determinao e o coeficiente de correlao do
Exemplo 8.2

Relembre que a correlao de determinao r2


Variao explicada
--------------------------Variao Total

O coeficiente de correlao r.

Desde que y est aumenta quando x aumenta, a correlao positiva,e podemos escrever
escrever r= 0.7027, ou r= 0.70 para duas significncias figuradas.
Como coeficiente de correlao mede simplesmente quo bem determinada curva de
regresso ( ou superfcie) se ajusta aos dados amostrais, no tem tem sentido utilizarmos um
coeficiente de correlao linear quando os dados no so lineares. Suponha-se, Contudo, que
apliquemos (23) a dados no lineares e obtenhamos um valor numrico consideravelmente
inferior a 1. Ento a concluso a ser tirada no que exista pequena correlao, e sim que
existe pequena correlao linear. Na verdade, pode haver at uma grande correlao no
linear.

Correlao e Dependncia
Sempre que duas variveis aleatrias X e Y tm coeficientes de correlao diferente de
zero, sabemos que elas so dependentes no sentido probabilstico. Alm disso, quando p 0,
podemos utilizar uma equao da forma(6) para predizer o valor de Y a partir de X.

Voc precisa saber


Importante notar que correlao e dependncia no sentido acima no implicam
necessariamente causal direta de X e Y. Os exemplos que seguem ilustram este fato.
Exxemplo 9.3

Вам также может понравиться