Академический Документы
Профессиональный Документы
Культура Документы
SUMRIO
1. CORRELAO ............................................................................................. 2
1.1. Introduo................................................................................................................................................... 2 1.2. Padres de associao ................................................................................................................................ 3 1.3. Indicadores de associao.......................................................................................................................... 3 1.4. O coeficiente de correlao........................................................................................................................ 5 1.5. Hipteses bsicas ........................................................................................................................................ 5 1.6. Definio...................................................................................................................................................... 6 1.7. Distribuio amostral de r (quando = 0) ............................................................................................... 6 1.8. Distribuio amostral de r (quando 0) ............................................................................................... 7 1.9. Propriedades de r ....................................................................................................................................... 8
2. REGRESSO ................................................................................................ 9
2.1. Estimativa dos parmetros de regresso................................................................................................ 11 2.2. Estimativa da varincia do termo erro................................................................................................... 12 2.3. Distribuies das estimativas................................................................................................................... 15
2.3.1. Distribuio do estimador b.............................................................................................................................. 15 2.3.2. Distribuio do estimador a .............................................................................................................................. 16
- http://www.mat.pucrs.br/~lori/
Figura 1.1 - Vrios tipos de relacionamento entre as variveis X e Y Freqentemente necessrio estudar o relacionamento entre duas ou mais variveis. Ao estudo do relacionamento entre duas ou mais variveis denominamos de correlao e regresso. Se o estudo tratar apenas de duas variveis tem-se a correlao e a regresso simples, se envolver mais do que duas variveis, tem-se a correlao e a regresso mltiplas. A regresso e a correlao tratam apenas do relacionamento do tipo linear entre duas variveis. A anlise de correlao fornece um nmero que resume o grau de relacionamento linear entre as duas variveis. J a anlise de regresso fornece uma equao que descreve o comportamento de uma das variveis em funo do comportamento da outra varivel.
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 2
Observese que se no existir relao entre as duas variveis devese esperar nmero idntico de empregados em cada uma das clulas da tabela, isto , se a pessoa o escore da pessoa no teste vocacional est acima ou abaixo da mediana no tem nada a ver com o seu escore no desempenho no trabalho estar acima ou abaixo da mediana. O que pode ser visto na tabela acima que parece existir uma forte correlao entre as duas variveis, pois ao invs de igual nmero em cada clula o que se tem um nmero grande de ambas as variveis acima da mediana e um nmero grande de escores de ambas as variveis abaixo da mediana. Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram escore acima da mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem classificaes abaixo da mediana, 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. Se no houvesse correlao seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25 tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo.
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 3
A tabela 1.2 mostra outras possveis sadas para este tipo de esquema de classificao cruzada. Novamente 100 elementos so classificados em 4 clulas de acordo com o critrio anterior. A parte (a) da tabela mostra uma associao positiva, a parte (b) uma negativa e a parte (c) que no deve existir associao entre duas variveis X e Y. Tabela 1.2 - Indicativos da presena de associao entre duas variveis X e Y. (a) Relao positiva Valor de Y (b) Relao negativa Valor de Y (c) Sem relao Valor de Y
Valor de Abaixo Acima da Valor de Abaixo Acima da Valor de X Abaixo Acima da X da mediana X da mediana da mediana mediana mediana mediana Acima da mediana Abaixo da mediana 15 35 35 15 Acima da mediana Abaixo da mediana 35 15 15 35 Acima da mediana Abaixo da mediana 25 25 25 25
Diagramas de disperso. As tabelas de contingncia 2x2 fornecem somente a indicao grosseira da relao entre duas variveis, a no ser o fato de que os valores esto situados acima e abaixo da mediana, qualquer outra informao desperdiada. Vamos considerar um exemplo, envolvendo duas variveis contnuas. Um comerciante de temperos est curioso sobre a grande variao nas vendas de loja para loja e acha que as vendas esto associadas com o espao nas prateleiras dedicados a sua linha de produto em cada ponto de venda. Dez lojas foram selecionadas ao acaso atravs do pas e as duas seguintes variveis foram mensuradas: (1) total de espao de frente (comprimento x altura em cm2) dedicados a sua linha de produtos e (2) total das vendas dos produtos, em reais, no ltimo ms. Os dados so apresentados na tabela 1.3. Tabela 1.3 Vendas x espao dedicado aos produtos (em cm2). Local 1 2 3 4 5 6 7 8 9 10 Espao 340 230 405 325 280 195 265 300 350 310 Vendas 71 65 83 74 67 56 57 78 84 65
Pela observao da tabela no fcil perceber o tipo de relacionamento que possa existir entre as duas variveis. Para ter uma idia melhor, as variveis so colocadas no que denominado de diagrama de disperso. Uma das variveis (X) representada no eixo horizontal e a outra varivel (Y) no eixo vertical, conforme figura 1.2.
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 4
100 90 80 70 60 50 150
200
250
300
350
400
450
Uma olhada rpida no diagrama de disperso mostra a existncia de um relacionamento entre as variveis, com altos valores de uma das variveis associados a altos valores da outra varivel. Se no houvesse relacionamento entre elas, os pontos estariam distribudos ao acaso no grfico sem mostrarem alguma tendncia.
Suponha-se que existam apenas duas variveis X e Y. Uma amostra da varivel X, assumindo os valores particulares X1, X2, ..., Xn e uma amostra da varivel Y assumindo os valores particulares Y1, Y2, ..., Yn so obtidas e suponha-se ainda que o objetivo saber se existe algum tipo de relacionamento linear entre estas duas variveis. Isto poder ser medido pelo coeficiente de correlao que fornece o grau de relacionamento linear entre duas variveis.
1.6. DEFINIO
Na populao o coeficiente de correlao representado por e na amostra por r. Assim dadas duas amostras, uma da varivel X e outra da varivel Y, o coeficiente de correlao amostral poder ser calculado atravs da seguinte expresso:
r=
(Xi X)( . Yi Y ) = 2 2 (X i X) . (Y i Y ) [n
n Xi . Yi ( Xi ).( Yi )
2 2 2 X2 i ( X i ) . n Yi ( Y i )
][
Uma populao que tenha duas variveis no correlacionadas linearmente pode produzir uma amostra com coeficiente de correlao diferente de zero. Para testar se a amostra foi ou no retirada de uma populao de coeficiente de correlao no nulo entre duas variveis, precisamos saber qual a distribuio amostral da estatstica r.
Neste caso, pode-se mostrar que o quociente: r / r = r graus de liberdade. Isto : t = r Exemplo:
1 r2 n2
Quer-se testar se existe ou no correlao linear entre X = toneladas de adubo orgnico por ha e Y = produo da cultura A por ha. Para tanto realizado um experimento com durao de 5 anos que mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variveis. Tabela 1.4 Valores das variveis X e Y Anos 1989 1990 1991 1992 1993 X 2 4 5 6 8 Y 48 56 64 60 72
Para saber se h ou no correlao linear entre estas duas variveis na populao de onde foi retirada esta amostra necessrio realizar um teste de hipteses, ou seja, preciso testar: H0: = 0 (No existe relacionamento linear na populao) H1: 0 (Existe relacionamento linear na populao) A tabela 1.5 mostra os clculos necessrios para se obter o coeficiente de correlao para esta amostra das variveis X e Y. Tabela 1.5 Valores das variveis X e Y e clculos para obter r Anos 1989 1990 1991 1992 1993 Total X 2 4 5 6 8 25 Y 48 56 64 60 72 300 XY 96 224 320 360 576 1576 X2 4 16 25 36 64 145 Y2 2304 3136 4096 3600 5184 18320
[n
n Xi . y i ( Xi ).( Yi ) X2 i
X i ) ].[n
2
Y2 i
Yi) ]
2
= 0,95
que neste caso, tem uma distribuio t com n - 2 = 3 graus de liberdade. O valor de t (calculado) :
t=r 1 r 2 = 0,95 n2 1 0,952 = 5,270 53
O valor tabelado de t com 3 g.l. e a 5% de significncia, considerando um teste bilateral : 3,182. Com estes valores rejeita-se H0 e pode-se afirmar, com 5% de significncia, que as duas variveis possuem um relacionamento linear na populao. Dado que h fortes evidncias de que as duas variveis possuem um relacionamento linear pode-se ento ajustar uma linha de regresso entre elas.
< 0 necessrio determinar a distribuio de r, quando diferente de zero. A distribuio de r s simtrica quando zero, se isto no ocorre a distribuio ser assimtrica. Esta falta de normalidade impede que se use o teste tradicional, o teste t, neste caso. Contudo, mediante uma transformao apropriada, r pode ser alterado para uma estatstica que aproximadamente normal. Esta transformao denominada de transformao Z de Fischer. A expresso para realiz-la : r' =
1 1+ r ln 2 1 r
Exemplo: Suponha que de experincias anteriores pode ser suposto que a correlao entre a idade e a presso sangnea sistlica = 0.85. Para testar a hiptese nula, a 5% de significncia, de que este valor contra a alternativa de que ele diferente deste valor supem-se que foi extrada uma amostra de tamanho n = 30 e que forneceu um r = 0,66. Ento o teste pode ser realizada atravs dos seguintes clculos: Soluo: r =
1 1+ r ln 2 1 r 1 1 + 0,66 ln 2 1 0,66
= 0,7928
1 1 + 0,85 ln 2 1 0,85
= 1,2561
0,7928 12561 , 1 30 3
= -2,41
Para um nvel de significncia de 5% o valor tabelado de z -1,96. Rejeita-se, ento a hiptese nula. Isto , pode-se afirmar que o valor da correlao populacional diferente de 0,85.
1.9. PROPRIEDADES DE R
As propriedades mais importantes do coeficiente de correlao so: 1. O intervalo de variao vai de -1 a +1. 2. O coeficiente de correlao uma medida adimensional, isto , ele independente das unidades de medida das variveis X e Y. 3. Quanto mais prximo de +1 for r, maior o grau de relacionamento linear positivo entre X e Y, ou seja, se X varia em uma direo Y variar na mesma direo. 4. Quanto mais prximo de -1 for r, maior o grau de relacionamento linear negativo entre X e Y, isto , se X varia em um sentido Y variar no sentido inverso. 5. Quanto mais prximo de zero estiver r menor ser o relacionamento linear entre X e Y. Um valor igual a zero, indicar ausncia apenas de relacionamento linear.
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 8
2. REGRESSO
Uma vez constatado que existe correlao linear entre duas variveis, pode-se tentar prever o comportamento de uma delas em funo da variao da outra. Para tanto ser suposto que existem apenas duas variveis. A varivel X (denominada varivel controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a varivel Y (denominada varivel dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y so aleatrios, pois eles dependem no apenas de X, mas tambm de outras variveis que no esto sendo representadas no modelo. Estas variveis so consideradas no modelo atravs de um termo aleatrio denominado erro. A varivel X pode ser aleatria ou ento controlada. Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variveis X e Y seja representado por uma equao do tipo: Y = + X + U, onde U o termo erro, isto , U representa as outras influncias na varivel Y alm da exercida pela varivel X. Esta equao permite que Y seja maior ou menor do que + X, dependendo de U ser positivo ou negativo. De forma ideal o termo U deve ser pequeno e independente de X, de modo que se possa modificar X, sem modificar U, e determinar o que ocorrer, em mdia, a Y, isto : E(Y/X) = + X Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par (Xi, Yi) como um ponto de um plano. Os termos Ui so iguais a distncia vertical entre os pontos observados (Xi, Yi), e os pontos calculados (Xi, + Xi). Isto est ilustrado na figura 2.1. Figura 2.1 O modelo de regresso linear Y
Y
Erro U
E(Y/X) = + X
X Um modelo de regresso consiste em um conjunto de hipteses sobre a distribuio dos termos erro e as relaes entre as variveis X e Y. Algumas destas hipteses so: (i) E(Ui) = 0; (ii) Var(Ui) = 2
Na hiptese (i) o que se est supondo que os Ui so variveis aleatrias independentes com valor esperado igual a zero e na (ii) que a varincia de cada Ui a mesma e igual a 2, para todos os valores de X. Supem-se ainda que a varivel independente X, permanea fixa, em observaes sucessivas e que a varivel dependente Y seja funo linear de X. Os valores de Y devem ser independentes um do outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observaes diferentes so feitas no mesmo indivduo em diferentes pontos no tempo est suposio poder no ocorrer. Como o valor esperado de Ui zero, o valor esperado da varivel dependente Y, para um determinado valor de X, dado pela funo de regresso + X ou seja: E(Y/X) = E( + X + U) = + X + E(U) = + X j que + X constante para cada valor de X dado. O smbolo E(Y/X) lido valor esperado de Y, dado X. A varincia de Y, para determinado valor de X, igual a: V(Y/X) = V( + X + U) = V(U) = 2 [2] A hiptese de que V(Y/X) a mesma para todos os valores de X, denominada de homocedasticidade, til pois permite que se utilize cada uma das observaes sobre X e Y para estimar 2. O termo homo significa o mesmo e cedasticidade significa disperso. De [1] e [2] decorre que, para um dado valor de X, a varivel dependente Y tem funo densidade de probabilidade (condicional) com mdia + X e varincia 2. A figura 2.2, ilustra a funo densidade. Na parte superior da figura ilustrado o caso heterocedstico e na parte inferior o caso homocedstico. Figura 2.2 Funo densidade de Y dado X [1]
A posio da funo densidade f(Y/X) varia em funo da variao do valor de X. Note-se que a mdia da funo densidade se desloca ao longo da funo de regresso + X.
10
Em resumo, o modelo de regresso proposto consiste nas seguintes hipteses: 1. Y = + X + U; 2. E(Y/X) = + X; 3. V(Y/X) = 2; 4. Cov(Ui, Uj) = 0, para i j; 5. A varivel X permanece fixa em observaes sucessivas; 6. Os erros U so normalmente distribudos.
Ei2 =
i =1
( Y i a b X i)
= mnimo.
Para tornar mnima esta soma em relao a a e b, necessrio diferenciar a expresso parcialmente em relao aos valores a e b. Aps algumas simplificaes vai-se obter: Yi = na + b Xi XiYi = a Xi + b (Xi)2 (i) (ii)
que so denominadas de equaes normais da regresso, onde n o nmero de pares de observaes. Obs.: Para simplificar a notao foram desconsiderados os ndices nos somatrios. Dividindo-se a equao (i) por n e isolando o valor de a vem:
a= yi n b( Xi ) = Y bX n
( Xi X)
Y = a + bX
Xi Y i
11
a = Y bX
Utiliza-se o valor Y , porque o valor de Y, obtido a partir da reta estimada de regresso, para um dado valor de X, uma estimativa do valor E(Y/X), isto , do valor esperado de Y dado X. Exemplo: So fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variveis X e Y. A estimativa da reta de regresso entre X e Y, obtida utilizando as expresses de a e b acima e usando os resultados obtidos na tabela 2.1. Tabela 2.1 - Valores para estimar a linha de regresso X 1 2 4 5 8 20
X = 20 / 5 = 4; Y = 31/5 = 6,2
Y 3 3 7 6 12 31
X2 1 4 16 25 64 110
XY 3 6 28 30 96 163
Ento a linha estimada ser: Y = 1.3X + 1 Esta reta o melhor ajustamento para estes dados e seria diferente para cada amostra das variveis X e Y, retiradas desta mesma populao. Esta reta pode ser considerada uma estimativa da verdadeira linha de regresso onde 1,3 seria uma estimativa do valor (parmetro angular) e 1 uma estimativa do valor (parmetro linear), que so os verdadeiros coeficientes de regresso.
(E E) , onde E = n
( Y a bX ) =
E=
Y na b X
12
2 por n / (n - 2). O novo estimador, no tendencioso, ser representado S2 tendencioso, multiplicando e sua raiz quadrada:
S=
n2
Mas
E2 =
2 (Y Y)
n2
( Y a bX)2
n2
denominada de erro-padro da estimativa ou erro-padro amostral da regresso. Obs.: A utilizao de n - 2 conseqncia do fato de que se deve estimar dois parmetros, e , antes de obter os resduos E. Como resultado, h somente n - 2 graus de liberdade associados quantidade E2 . A expresso acima, para o clculo do erro amostral da regresso, apresenta o inconveniente de exigir o clculo de cada valor previsto de Y, atravs da linha de regresso, tornando sua obteno muito trabalhosa. Existe, entretanto, uma alternativa para se obter este valor (erro padro da estimativa) sem a necessidade de calcular todos os valores previstos. Observe-se que: E2 =
b2 ( X X ) .
2
(Y Y )2
(Y a bX)2 =
[ Y Y + b( X bX )]
( Y Y)
2b ( X X)( Y Y ) +
Fazendo:
( X X) =
2
X )2 = S XX n
(Y Y) =
Y )2 = SYY n
(X X)(Y Y) = XY
Lembrando que: b=
n Xi Y i Xi Yi
X Y = SXY n
n Xi2 ( Xi)2
Xi Y i
Ento vem: E2
( Y a bX )2
Assim: S2 =
2
E2 = n2
( Y a bX )2 n2
Pode-se verificar que S2 definido desta maneira um estimador no-tendencioso de 2, isto , E(S ) = 2.
O erro padro da regresso ser dado, ento, por:
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 13
s=
S YY b 2 S XX = n2
S YY b S XY n2
Exemplo: Considerando as variveis X e Y acima e a linha de regresso anterior determinar uma estimativa do erro padro da regresso. Os clculos necessrios esto na tabela 2.2. Tabela 2.2 Determinao do erro padro da regresso X 1 2 4 5 8 20 Y 3 3 7 6 12 31 Yc 2,3 3,6 6,2 7,5 11,40 31 E=YYc 0,7 -0,6 0,8 -1,5 0,6 0 E2 0,49 0,36 0,64 2,25 0,36 4,10
Este mesmo clculo poder ser efetuado pela expresso definida acima, sem a necessidade de se obter os valores estimados. Tabela 2.3 Determinao do erro padro da regresso X 1 2 4 5 8 20
Neste caso, tem-se:
Y 3 3 7 6 12 31
X2 1 4 16 25 64 110
Y2 9 9 49 36 144 247
XY 3 6 28 30 96 163
S XX =
X2
X )2 = 110 202/5 = 30 n
S YY =
Y2
S XY =
XY
X Y = 163 (20.31)/5 = 39 n
14
O valor de b ser: b = SXY/SXX = 39/30 = 1,30 Portanto o erro padro da regresso ser:
s= S YY b2 S XX S YY b S XY = = n2 n2
54,80 1,3.39 = 52 4,10 = 3 1,3667 = 1,1690 = 1,17
Y( X X ) SXX
Y( X X )
Mas
( X X ) = 0, logo:
Mas Y = + X + U, ento: b=
Y( X X ) SXX
( + X + U)( X X) SXX
2
( X X) SXX
X(X X ) SXX
( X X) = U( X X ) SXX
( X X)( X X ) =
X(X X ) X ( X X) =
Logo a expectncia de b ser: E(b) = E() + E( Ento: E(b) = E() = , uma vez que a mdia de uma constante a prpria constante. Isto, tambm, mostra que b um estimador no-tendencioso de . Para a varincia, tem-se: V(b) = V( +
U( X X ) SXX
2
U( X X ) SXX
) = E() +
( X X) SXX
) = V(
U( X X ) SXX
)=
( X X) (SXX )2
V(U).
15
( X X)
= SXX, segue:
SXX
).
(SXX )
2.3.2. DISTRIBUIO DO ESTIMADOR A Quanto distribuio da varivel aleatria a, tem-se: a = Y - b X . Mas Y = Y / n, ento: a=
Y bX n ( + X + U) bX n X U + + bX = + X + n n n
U bX n
=+X +
Ento E(a) = , pois E(U) = 0. V-se que a um estimador no-tendencioso de . Quanto varincia, tem-se: V(a) = V() + V( X ) + V(
2 1 2 X + = 2 ( + X ) . n n SXX SXX 2 2
U ) + V(bX) n
=0+0+
1 n2
V(U) + X V(b)
2
1 n2
2 + X
2 == SXX
1 + X n SXX
).
Y
Y Y
Y- Y Y- Y
Y- Y
2.4.1. DECOMPOSIO DOS DESVIOS Pelo figura 2.3, pode-se perceber que o desvio em relao a Y (desvio total), isto , Y - Y pode ser decomposto em dois outros desvios:
16
O desvio no-explicado (resduos) pela linha de regresso, isto , Y - Y . fcil perceber que a variao total, (Y - Y ), a soma da variao explicada, ( Y - Y ), e a no-explicada, (Y - Y ), pois: Y - Y = Y - Y + Y - Y , ento: Aplicando somatrio a ambos os membros vem: (Y - Y ) = (Y - Y ) + ( Y - Y ) Pode-se verificar tambm que a propriedade aditiva dos desvios extensiva soma dos quadrados desses desvios, ou seja: (Y - Y )2 = (Y - Y )2 + ( Y - Y )2 De fato: (Y - Y )2 = 2 (Y - Y )( Y - Y ) Mas (Y - Y )( Y - Y ) = (Y - Y )(a + bX - a - b X ) = b X(Y - Y )- b X X(Y - Y ) Pelas condies do mtodo dos mnimos quadrados, tem-se: ( Y - Y ) = 0 e X(Y - Y ) = 0, em conseqncia (Y - Y )( Y - Y ) = 0, logo, segue que: (Y - Y )2 = (Y - Y )2 + ( Y - Y )2, isto , que a soma dos quadrados dos desvios calculados em torno da mdia de Y (variao total = VT) igual soma dos quadrados dos desvios em torno da linha de regresso (variao residual = VR) mais a soma dos quadrados dos desvios da linha de regresso em torno da mdia (variao explicada = VE). 2.4.2. CLCULO DAS VARIAES (a) Variao Total: VT ou S 2 Y VT = (Y- Y )2 = SYY, onde SYY = Y2 - ( Y)2 / n
(b) Variao Explicada: VE ou S 2
(Y - Y + Y - Y )2 =
[(Y - Y ) + ( Y - Y )]2 =
(Y - Y )2 +
( Y - Y )2 -
[(b(X - X )]2 = b2 (X - X )2 =
S XX = bSXY
17
(c) Variao Residual: VR ou S 2 Y/X De acordo com a propriedade aditiva das variaes, pode-se calcular VR por diferena. Assim: VR = (Y - Y )2 = VT - VE ou VR = SYY - bSXY
1 + X n SXX
). Ento,
a + tn-2.S
1 + X n SXX
)=1-
de .
com tn-2 sendo um valor da distribuio t com n - 2 graus de liberdade e S uma estimativa
2.5.2. INTERVALO PARA O COEFICIENTE ANGULAR () Considerando que a distribuio do coeficiente angular dado por N(b, uma confiana de 1 - , o intervalo ser: P(b - tn-2.
S SXX
SXX
). Ento, fixada
b + tn-2.
S SXX
)=1-
de .
com tn-2 sendo um valor da distribuio t com n - 2 graus de liberdade e S uma estimativa
Y
Tem-se que Y = a + bX um estimador de E(Y/X) ou f(X). Para construir um intervalo de confiana para este valor necessrio conhecer a sua distribuio. Isto , deve-se conhecer a mdia e a varincia de Y .
18
E( Y ) = E(a + bX) = E(a) + E(bX) = + E(X) = + X = f(X) = E(Y/X), pois, neste caso, X constante para cada valor de Y. Tem-se: Y = a + bX, mas a = Y - b X , ento:
Y
V( Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )] = V (
2 2 2 1 ( X X) (X - X )2 = + (X - X )2 = 2 + . 2
Y ) n
+ (X - X )2 V(b) =
1 n2
V(Y)
SXX
SXX
SXX
Portanto:
Y
tem distribuio N( + X,
1 (X X) + ) n SXX
Conhecida a distribuio de Y , ento o intervalo de confiana de 1 - de probabilidade para f(X) ou E(Y/X) ser: P( Y - tn-2. S.
2 2 1 (X X) 1 (X X) + ) E(Y/x) Y + tn-2. S. + ) = 1 - , onde tn-2 o valor da n n SXX SXX
E(Y - Y ) = E(Y) - E( Y ) = f(X) - f(X) = 0 Para a varincia, tem-se: V(Y - Y ) = V(Y) + V( Y ) = 2 + 2 Ento: Y - Y tem distribuio N(0, 1 +
2 2
1 ( X X) + n SXX
= 2 1 +
1 ( X X) + n SXX
1 ( X X) + ) n SXX
Conhecida a distribuio de Yi - Y , ento o intervalo de confiana de 1 - de probabilidade para um valor individual de Y (Yi) para um dado X, ser:
Y
- tn-2. S. 1 +
19
SXX
, ou seja,
2.6.2. TESTE PARA O COEFICIENTE LINEAR Testar o coeficiente linear da regresso testar o valor inicial da regresso, isto , testar o valor de Y quando X = 0. As hipteses so: H0: = 0 contra as alternativas: H1: 0; > 0 ou <0 Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus de liberdade, pois sabe-se que o estimador a, tem uma distribuio:
1 N(, 2 ( + X ) ). Ento: n SXX
2
20
Z=
O coeficiente de determinao indica quantos por cento a variao explicada pela regresso representa sobre a variao total. Deve-se ter: 0 R2 1 Se R2 for igual a 1, isto significa que todos os pontos observados se situam exatamente sobre a reta de regresso. Tendo-se, neste caso, um ajuste perfeito. As variaes da varivel Y so 100% explicadas pelas variaes da varivel X, no ocorrendo desvios em torno da funo estimada. Por outro lado, se R2 = 0, isto quer dizer que as variaes de Y so exclusivamente aleatrias e explicadas pelas variaes de outros fatores que no X.
21
3. EXERCCIOS
(01) Para cada uma das situaes abaixo, diga o que mais adequado: a anlise de regresso ou a anlise de correlao. Por qu? (01.1) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugere xito na profisso escolhida. (01.2) Deseja-se estimar o nmero de quilmetros que um pneu radial pode rodar antes de ser substitudo. (01.3) Deseja-se prever quanto tempo ser necessrio para executar uma determinada tarefa por uma pessoa, com base no tempo de treinamento. (01.4) Deseja-se verificar se o tempo de treinamento importante para avaliar o desempenho na execuo de uma dada tarefa. (01.5) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e terasfeiras. (02) Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias para famlias de 4 pessoas. O estudo se limitou a famlias com renda lquida entre 8 e 20 salrios mnimos. Obteve-se a seguinte equao: = -1,20 + 0,40X, onde Y = despesa mensal estimada com mercadorias e X = renda lquida mensal. (02.1) Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m. (02.2) Um dois diretores da empresa ficou intrigado com o fato de que a equao sugerir que uma famlia com renda de 3 s.m. lquidos mensais no gaste nada em mercadorias. Qual a explicao? (02.3) Explique por que a equao acima no poderia ser utilizada para estimar (a) As despesas com mercadorias de famlias de 5 pessoas. (b) As despesas com mercadorias de famlias com renda de 20 a 40 s.m. lquidos mensais. (03) Utilize os valores abaixo para estimar as equaes de regresso: (03.1) X = 200, Y = 300, XY = 6200, X2 = 3600 e n = 20 (03.2) X = 7,2, Y = 37, XY = 3100, X2 = 620 e n = 36 (04) Para cada uma das situaes abaixo, grafe os valores em um diagrama e se uma equao linear parecer apropriada para explicar os dados, determine os seus parmetros. (04.1) Tamanho do pedido(X) 25 20 40 45 22 63 70 60 55 50 30 Custo Total (Y) 2000 3500 1000 800 3000 1300 1500 1100 950 900 1600 (04.2) Vendas em mil (X) 201 225 305 380 560 600 685 735 510 725 450 370 150 Lucro em mil (Y) 17 20 21 23 25 24 27 27 22 30 21 19 15 (05) Suponha que uma populao se constitua dos seis pontos seguintes: (1, 2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10) (05.1) Grafe os pontos em um diagrama de disperso. (05.2) Determine a equao de regresso: Y = + X + u. (05.3) Os termos-erro verificam a condio E(u) = 0?
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 22
Y
(05.4) Selecione uma amostra de tamanho n = 4, da populao acima e estime a equao de regresso determinada no item 5.2. Grafe o resultado no mesmo diagrama construdo em 5.1. (06) Verifique que a reta de regresso Y = a + bX, sempre passa pelo ponto ( X , Y ). (07) Os dados abaixo forma colhidos de cinco fbricas diferentes de uma determinada indstria: Custo total (Y) 80 44 51 70 61 Produo (X) 12 4 6 11 8 (07.1) Estime uma funo linear da forma Y = a + bX para o custo total dessa indstria. (07.2) Qual o significado econmico das estimativas a e b? (07.3) Teste a hiptese de que o custo fixo da produo do artigo em questo seja igual a 5, contra a alternativa de diferente do que 5, utilizando uma significncia de 5%. (08) Em uma amostra aleatria de 1990, 50 homens americanos entre 35 e 54 anos de idade acusaram a seguinte relao entre renda anual Y (em dlares) e a escolaridade X (em anos). Y = 1200 + 800X. A renda mdia foi de 10000 dlares e a escolaridade mdia foi de 11,0 anos. Sabendo, ainda, que X2 = 9000 e que o desvio padro residual em relao reta ajustada foi de 7300 dlares, determine: (08.1) A renda de uma pessoa que tenha completado 2 anos de educao secundria (x = 10 anos). (08.2) O intervalo de 95% de confiana para o coeficiente angular populacional.. (08.3) Se a renda para a escolaridade estatisticamente discernvel ao nvel de 5%. (08.4) Se vlida a afirmao que cada ano de escolaridade custa 800 dlares? (09) Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono sobre a capacidade de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, mantendo-se cada grupo de 2 pessoas sem dormir por um determinado nmero de horas. Aps cada um destes perodos, cada pessoa teve de resolver um teste com adies simples, anotando-se ento os erros cometidos. Os dados resultantes esto na tabela abaixo: Nmero de erros (Y) 6, 8 6, 10 8, 14 12, 14 12, 16 Nmero de horas sem dormir (X) 8 12 16 20 24 (9.1) Determine a estimativa da linha de regresso do nmero de erros em funo do nmero de horas sem dormir. (9.2) Determine a disperso dos termos erro em torno da linha de regresso. (10) Determine um intervalo de 95% de confiana para o coeficiente angular da reta do exerccio acima. Interprete o intervalo obtido. (11) Realizou-se uma pesquisa de mercado com o objetivo de estudar a relao entre o tempo necessrio para um consumidor tomar uma deciso (sobre o que comprar) e o nmero de embalagens alternativas do mesmo produto apresentadas a esse consumidor. Eliminaram-se as marcas das embalagens, a fim de reduzir o efeito da preferncia por uma ou outra marca. Os consumidores fizeram suas escolhas somente com base na descrio do produto, anotada nas embalagens pelos fabricantes. O tempo necessrio, Y, para que cada um tomasse sua deciso foi anotado para 15 participantes, resultando nos seguintes dados: Tempo para deciso, Y (em segundos) Nmero de alternativas (X) 5, 7, 8, 8, 9 2 7, 8, 9, 9, 10 3 9, 10, 10, 11, 12 4
(11.1) Determine a reta dos mnimos quadrados de Y em funo de X. (11.2) Determine o erro padro da estimativa, ou seja, o desvio padro amostral da regresso.
23
(11.3) H evidncia suficiente nestes dados de que o tempo de deciso se relaciona linearmente ao nmero de alternativas oferecidas a esses consumidores? (12) Na fabricao de um antibitico, a produo depende do tempo. Os dados indicados na tabela, mostram que um processo resultou na seguinte produo (em quilogramas) de antibiticos por perodo de tempo (dias) indicados: Tempo (X = dias) Produo (Y = em kg.) 1 23 2 31 3 40 4 46 5 52 6 63
(12.1) Por vrias razes conveniente esquematizar a produo em ciclos de 4 dias. Estime o valor mdio da produo final de antibitico produzido em um perodo de 4 dias. Considere um intervalo de 95% de confiana. (12.2) Suponha que o processo de produo, no futuro, se desenvolver em 4 dias. Determine um intervalo de previso de 95% para a produo. Compare com o intervalo para a produo mdia de um perodo de 4 dias que foi obtido em (12.1). (13) Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente na idade de 18 anos. Os resultados obtidos esto abaixo: Na idade de 4 anos Na idade de 18 anos 40 68 43 74 40 70 40 68 42 70
(13.1) Determine o coeficiente de correlao entre as duas categorias de alturas. (13.2) Teste a hiptese de que existe uma relao linear entre a altura aos 4 anos de idade e a altura aos 18 anos de idade. (13.3) Se fosse feito o grfico de toda a populao de alturas, calculando-se a correspondente reta dos mnimos quadrados, qual seria o seu coeficiente angular? Responda com um intervalo suficientemente amplo que permita uma aposta de 95%. (13.4) Repita o item 13.3 s que para o coeficiente linear. (14) A equao de regresso estimada abaixo resume um estudo da relao entre o uso do fumo e a incidncia de cncer pulmonar, relacionando o nmero X de anos que uma pessoa fumou com a percentagem Y de incidncia de cncer pulmonar em cada grupo.
= -2 + 1,70.X e r = 0,60. Y (14.1) Explique o significado das estimativas -2 e 1,70 na equao de regresso. (14.2) Qual a taxa de incidncia de cncer pulmonar para as pessoas que fumam h 20 anos? (14.3) Se r fosse igual a um seria possvel concluir que o fumo a nica causa de cncer pulmonar? (14.4) Suponha-se que a equao estimada tenha sido obtida de uma amostra aleatria de 50 fumantes. Teste a hiptese de que o coeficiente de correlao seja igual a zero a uma significncia de 1%.
(15) Explique se concorda ou no com as seguintes afirmativas: (15.1) Um coeficiente de correlao de +1,0 entre duas variveis X e Y indica que X causa Y, mas um coeficiente de correlao de -1,0 significa que X no causa Y. (15.2) Se o coeficiente de regresso zero, o coeficiente de correlao tambm zero. (15.3) Se o coeficiente angular 1 (um), isto significa que existe perfeita correlao entre X e Y. (15.4) possvel que o coeficiente de correlao amostral seja positivo, quando no existe, de fato, nenhuma correlao entre as variveis X e Y.
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/
24
(15.5) No se pode utilizar a tcnica da regresso pelo mtodo dos mnimos quadrados quando a relao bsica entre X e Y no for linear. (16) Um estudo de duas safras forneceu as seguintes informaes: Safra A: Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B: Y = 50 + 1,20X, r = 0,9 e S = 20, onde Y a produo por alqueire e X a quantidade de chuva (em polegadas) no perodo da safra. (16.1) Se no houvesse chuva, estas duas equaes poderiam ser usadas para predizer a quantidade produzida nas duas safras? Por qu? (16.2) Qual das duas safras tira mais proveito do aumento das chuvas? Por qu? (16.3) Para qual das duas safras possvel predizer a produo com melhor aproximao? Por qu? (17) Os dados abaixo foram obtidos de cinco fbricas diferentes de uma determinada indstria. Custo total (Y = em milhes) Produo (X = toneladas) 80 12 44 4 51 6 70 11 61 8
(17.1) Determine um intervalo de confiana de 90% para o custo fixo dessa indstria. (17.2) Determine um intervalo de confiana de 95% para o custo marginal dessa indstria. (17.3) Faa uma previso, atravs de um intervalo, para o custo total mdio dessa indstria, para uma produo de 15t, utilizando uma confiana de 95%. (17.4) Faa uma previso, atravs de um intervalo, para o custo total dessa indstria, para uma produo de 15t, utilizando uma confiana de 95%. (17.5) possvel afirmar, com uma significncia de 1%, que o custo total dessa indstria est linearmente relacionado ao nvel de produo? (17.6) Testar se o custo fixo pode ser considerado menor do que 30. (17.7) Testar se o custo marginal pode ser considerado menor do que 5. (18) Qual o tamanho mnimo da amostra necessria para que se possa concluir que um coeficiente de correlao de 0,32 difere significativamente de zero ao nvel de 0,05? (19) Um coeficiente de correlao, baseado em uma amostra de tamanho n = 18, foi calculado como sendo 0,32. Pode-se concluir aos nveis de significncia (19.1) 0,05 e (19.2) 0,01, que o coeficiente de correlao, correspondente na populao diferente de zero? (20) Se o coeficiente de correlao entre X e Y 0,80, que percentagem da variao total permanece no-explicada pela equao de regresso? (21) Examine os cinco pares de pontos dados na tabela X Y -2 4 -1 1 0 0 1 1 2 4
(21.1) Qual a relao matemtica entre X e Y? (21.2) Determine o valor de r. (21.3) Mostre que calculando-se a linha de regresso de Y em relao a X tem-se b = 0. (21.4) Por que, aparentemente, no existe relao entre X e Y como esto indicando b e r? (22) Os dados abaixo representam o nmero de rendas pessoais tributveis e o registro de automveis de passageiros, em uma determinada regio. X = nmero de rendas tributveis (em milhares) Y = Nmero de carros de passageiros (milhares)
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/
192 23
80 11
162 13
246 31
310 91
25
(22.1) Verificar se existe correlao entre as duas variveis. (22.2) Determine a equao de regresso de Y em funo de X, caso o coeficiente de correlao seja significativamente diferente de zero. (22.3) Faa uma previso do nmero de carros se o nmero de contribuintes tributveis for de 500 mil. (22.4) Determine a equao de regresso de X em funo de Y.
26
4. RESPOSTAS
(01) (01.1) Correlao (01.4) Correlao (02) (02.1) 4,80 s.m. (03) (03.1) Y = -5 + 2.X
(01.3) Regresso
(04) (04.1) Neste caso, com base no diagrama, uma linha reta no adequada.
4000 3500 3000 2500 2000 1500 1000 500 0 0 20 Custo total X Tamanho do Pedido
40
60
80
(04.2) Neste caso, uma linha adequada e sua equao est sobre o grfico abaixo.
35 30 25 20 15 10 5 0 0 100 200 300 400 500 600 700 800 y = 0.0178x + 14.675
Vendas X Lucro
(05) (05.3) Populao X 1 4 2 2 3 5 17 Y Yc 2 1.62 6 7.15 4 3.46 3 3.46 5 5.31 10 9.00 30 30.00 Erro 0.38 -1.15 0.54 -0.46 -0.31 1.00 0.00 Amostra X 4 2 3 5 Y 6 4 5 10
27
(06) Basta mostrar que o ponto ( X , Y ) satisfaz a equao de regresso Y = a + bX. Se substituirmos X por X na equao o resultado dever ser Y . Mas a + b.X = a + b. X = Y - b X + b. X = Y . Uma vez que a = Y - b X . (07) (07.1) Y = 4,2589 + 26,2770.X (07.2) a = Custo fixo b = Custo marginal. (07.3) s = 0,37. O intervalo de confiana de 95% para o "custo fixo" : [3,09; 5,42] que contm o valor "5". Portanto no se pode afirmar, a 5% de significncia que o custo fixo seja diferente do que 5 unidades. (08) (08.1) Y = 9200 (09) (09.1)
Y
(08.4) No
= 3 + 0,48X
(09.3) 17,25 4,36 (11.2) S = 1,24 (12.1) [42,14; 50,54] (13.2) t3 = 3,00 (13.4) 8,50 65,26 (11.3) t13 = 3,83
(10) [0,19; 0,77] (11) (11.1) Y = 4,30 + 1,50X (r = 0,73) (12) (12.1) [44,69; 47,99] (13) (13.1) r = 0,87 (13.3) 1,50 1,59
(14) (14.1) -2 seria a taxa de incidncia de cncer pulmonar que no est relacionada ao hbito de fumar, ou de quem nunca fumou. 1,70 a variao na taxa de cncer pulmonar para cada ano que a pessoa fumou. = -2 + 1,70.20 = 32. (14.2) Y (14.3) No, pois "r" indica associao na amostra e pode ser o mesmo na populao. (14.4) t48 = 5,20 que significativo a 1%. (15) (15.1) Tanto um coeficiente de "+1" quanto um de "-1" indicam correlao perfeita entre as variveis. (15.2) Coeficiente de regresso igual a zero implica em correlao tambm zero. (15.3) No necessariamente, pois neste caso "1" o valor de inclinao da linha e no grau de associao linear entre as duas variveis. (15.4) Sim possvel.
Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/
28
(15.5) A tcnica dos mnimos quadrados pode ser utilizado para ajustar vrios tipos de equao. (16) (16.1) Neste caso, a interpretao deve ser mais cuidadosa, pois tanto o excesso de chuvas quanto a falta vo distorcer os dados e estas equaes podem no ser mais vlidas. (16.2) A safra B tira mais proveito, provavelmente por ser uma cultura que precisa de mais chuvas. (16.3) Para a safra B pois existe uma melhor aderncia dos dados a equao. (17) (17.1) 26,28 7,56 (17.4) [78,45; 101,87] (18) n = 36 (19) tc = 1,35. Este valor no significativo nem 5% e nem a 1%. (20) 2 = 64%, portanto no-explicada ser: 1 - 2 = 36% (21) (21.1)
y = x2 - 5x-15
4.5 4 3.5 3 2.5 2 1.5 1 0.5 0
-2.5
-2
-1.5
-1
-0.5
0.5
1.5
2.5
(21.2) r = 0 (21.3)
4.5 4 3.5 3 2.5 2 1.5 1 0.5 0
y=2
-2.5
-2
-1.5
-1
-0.5
0.5
1.5
2.5
(21.4) Porque a correlao mostra apenas o relacionamento linear e, neste caso, o relacionamento do tipo parbola (equao do segundo grau). (22) (22.1) r = 0,8544 (22.2) Y = -30,4980 + 0,3247X (22.3) Y = 132 mil (22.4) X = 122,01 + 2,25.Y
29
5. REFERNCIAS
[BUS86] BUSSAB, Wilton O, MORETTIN, Pedro A. Estatstica Bsica. 3a ed. So Paulo, Atual, 1986. [DOW89] DOWNING, Douglas, CLARK, Jeff. Statistics the Easy Way. Barrons Educational Series, Inc. New York, 1989. [FON76] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade, TOLEDO, Geraldo Luciano. Estatstica Aplicada. So Paulo: Editora Atlas, 1976. [FON80] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatstica. So Paulo: Editora Atlas S. A., 1980. [HOF80] HOFFMAN, Rodolfo. Estatstica para Economistas. So Paulo. Livraria Pioneira Editora, 1980. [KLE78] KLEIBAUM, David G., KUPPER, Lawrence L. Applied Regression Analysis and Other Multivariable Methods. North Scituate, Massachusetts: Duxbury Press, 1978. [MAR87] MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications to Managerial Decision Making. New York: John Wiley & Sons, 1987. 827p. [MAS90] MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And Economics. IRWIN, Boston, 1990. [MEY78] MEYER, Paul L. Probabilidade: aplicaes Estatstica. Traduo do Prof. Ruy C. B. Loureno Filho. Rio de Janeiro, Livros Tcnicos e Cientficos Editora S.A., 1978. [MIL90] MILLER, Charles D., HEEREN, Vern E., HORNSBY Jr., E. John. Mathematical Ideas. USA: Harper Collins Publishers, 1990. [REA93] The Statistics Problem Solver. Jersey, 1993. [ROT91] ROTHENBERG, Ronald I. Publishers, Orlando, Florida, 1991. Research and Education Association, Piscataway, New Probability and Statistics. Hartcourt Brace Jovanovich,
[SAL82] SALVATORE, Dominick. Estatstica e Econometria. Traduo Newton Boer, reviso tcnica Marco Antnio S. de Vasconcelos. So Paulo: McGraw-Hill do Brasil, 1982.
30