Вы находитесь на странице: 1из 10

Lista 1 - Gabarito

Prof. Erica Castilho Rodrigues


Disciplina: Modelos Lineares Generalizados
29 de Abril

1. (Concurso Petrobrs - 2011) Em um modelo de regresso logstica, o que indica se o


modelo se ajusta bem aos dados a(o)
a) funo logito;
b) funo probito;
c) razo de chances;
d) estatstica deviance;
e) coeciente de determinao.
Resosta: D.
2. Encontre a funo deviance para o modelo Binomial.
Resposta: Exerccio feito em sala.
3. Considere-se uma amostra aleatria Y1 , ..., Yn com a distribuio exponencial
f (yi , i ) = i exp(yii ).
Encontre a funo deviance para essa distribuio.
Respota:
A log-verossimilhana dada por
l(y, ) =

log(i )

yi i

para o modelo cheio fazemos E(Yi ) = 1/i = yi ou seja i = 1/yi


l(y, i ) =

log(1/yi )

para o modelo sob pesquisa fazemos i = 1/


yi
l(y, ) =

log(1/
yi )

yi /
yi

temos ento que


[
D=2

log(1/yi )

log(1/
yi )

) ]
yi i = 2

]
( )
yi yi
log
1
yi yi

4. Os dados a seguir referem-se a tempo de vida de pacientes. A varivel resposta (yi )


o tempo de vida do paciente em semanas e a varivel explicativa (xi ) sua presso
sangunea inicial.
a) Faa o grco de Y em funo de X. Existe algum padro nesse grco?
Resposta: Y descresce de maneira exponencial quando x aumenta.
b) Uma possvel especicao da E(Yi )
E(Yi ) = exp (0 + 1 xi )
o que garante que a esperana de Yi ser positiva para todos valores dos parmetros e das varivel explicativas. Qual a funo de ligao nesse caso?
Resposta: Temos que
log(i ) = 0 + 1 xi = i
portanto a funo de ligao o logaritmo.
Vamos supor que Yi tem distribuio exp(). Essa suposio razovel? Por que?
Ajuste esse modelo utilizando um software e escreva o resultado obtido.
Resposta: Como Yi tempo de vida de pacientes podemos modelar por uma
distribuio exponencial, visto que s assume valores negativos e tem probabilidade baixa de assumir valores altos. O modelo ajustado dado por
yi = 8.4775 1.1093xi .
Verique se a varivel Xi signicativa comparando as Deviances dos modelo que
incluem e no incluem Xi .
Respota: A diferena das Deviances dada por
D = 26, 282 19, 457 = 6, 825

Figura 1: Tempo de vida dos pacientes em funo da presso sangunea.


comparando como valor crtico da x21 (com = 5%) notamos que 6, 825 > 3, 84.
Conclumos ento que com 5% de signicncia podemos armar que a varivel
presso sangunea signicativa para explicar o tempo de vida dos pacientes.
5. Deseja-se investigar como a radiao est relacionada a morte de pacientes por leucemia.
A tabela a seguir mostra um conjunto de dados coletados em que se registrou o nmero
de mortes para diferentes faixas de intensidade da radiao.
Obtenha um modelo do tipo dose-resposta para modelar a relao a radiao e a
proporo de pessoas que morrem devido a leucemia. (Para cada intervalo de radiao
considere a dose como aquela correspondente ao limite inferior. Por exemplo, para o
intervalode de radiao de 1-9 a dose refrente 1). Faa um grco de disperso de da
proporo de pessoas que morreram por leucemia em funo da radiao e acrescente
a curva ajustada pelo modelo. O modelo est bem ajustado? Qual estatstica pode ser
usada para vericar isso? Qual valor de radiao estimado para o qual espera-se que
10% das pessoas morrem por leucemia.
Resposta:
Seja Yi o nmero de pessoas que morrem com leucemia, seja mi o nmero total de
pessoas que morrem por cancer e vamos denotar por xi a dose de radiao qual o
i-simo grupo foi exposto. Vamos ajustar um modelo Binomial tal que
Yi Bin(mi , i )
onde

i =

1+
O script a seguir ajusta o modelo no R:

e0 +1 xi

x=c(0,1,10,50,100,200)
y=c(13,5,5,3,4,18)
m=c(391,205,156,50,35,51)
modelo=glm(cbind(y,m-y)~x,family="binomial")

Figura 2:
Os resultados do modelo so mostrados a seguir
> summary(modelo)
Call:
glm(formula = cbind(y, m - y) ~ x, family = "binomial")
Deviance Residuals:
1
2
3
0.41428 -0.48994 -0.13991

4
0.02835

5
0.00048

6
0.00269

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.488973
0.204062 -17.098 < 2e-16 ***
x
0.014410
0.001817
7.932 2.15e-15 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 54.35089
Residual deviance: 0.43206
AIC: 26.097

on 5
on 4

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


O modelo ajustado dado por
i) =
E(y

1
1+

e3.488+0.014xi

A Figura 3 mostra o grco de disperso e a reta ajustada. A curva parece se ajustar


bem aos dados.
A Deviance calculada do modelo foi de 0,432 com um p-valor de 0,9797692. Isso indica
que o modelo est bem ajustado.
Para estimarmos a radiao para a qual 50% das pessoas morrem por leucemia, devemos
4

0.35
0.30
0.25
0.20
0.15
0.10
0.05

Proporo de pessoas que morreram por leucemia

50

100

150

200

Figura 3: Grco da proporo de pessoas que morreram de leucemia em funo da raciao.


isolar o xi na equao
(
log

i
1 i
(

xi = (log

)
= 3.488 + 0.014xi

i
1 i

)
+ 3.488)/0.014 .

Basta fazer i = 0, 1 e temos assim que


(
xi = (log

0, 1
1 0, 1

)
+ 3.488)/0.014 = 92.19 .

Portanto a dose tal que espera-se que 10% das pessoas morram por leucemia de 92,19.
6. Entre os conjuntos de dados disponveis no pacote MASS encontra-se a data frame
menarche. Trata-se dos resultados dum estudo efetuado na Polnia (veja- a referncia
bibliogrca atravs do comando help(menarche)) em 1965, no qual se registou a
idade mdia da primeira menstruao (menarca) em grupos (homogneos) de jovens
de Varsvia. A tabela contm trs colunas, indicando a idade mdia do grupo, o
nmero total de jovens no grupo e, nalmente, o nmero de jovens j com perodos
menstruais.
a) Construa um grco de idades mdias (eixo horizontal) vs. a proporo de jovens
psmenarca (eixo vertical). Discuta a forma da relao obtida.
5

Resposta: O cdigo usado para fazer o grco se encontra a seguir.


require(MASS)
data(menarche)
head(menarche)
attach(menarche)
plot(Age,Menarche/Total)

0.6
0.4
0.0

0.2

Menarche/Total

0.8

1.0

O grco apresentado na Figura ?? mostra que a relao entre a proporo de


jovens psmnearca e a idade se aproxima muito de uma curva logstica. Esse
um indcio de que o modelo logstico adequado neste caso.

10

12

14

16

Age

Figura 4:
b) Ajuste uma regresso logstica aos dados. Trace a curva ajustada por cima da
nuvem de pontos que obteve na alnea anterior. Teste a signicncia da varivel
e verique se o modelo est bem ajustado atravs da Deviance e do grco.
Resposta: O comando e o resultado do modleo so apresentados a seguir.
glm(cbind(Menarche,Total-Menarche)~Age, data=menarche, family="binomial")
6

glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = "binomial",


data = menarche)
Deviance Residuals:
Min
1Q
Median
-2.0363 -0.9953 -0.4900

3Q
0.7780

Max
1.3675

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -21.22639
0.77068 -27.54
<2e-16 ***
Age
1.63197
0.05895
27.68
<2e-16 ***
--(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3693.884
Residual deviance:
26.703
AIC: 114.76

on 24
on 23

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

Os comandos usados para traar a curva se encontram logo a seguir


data.new=data.frame("Age"=seq(from=9,to=18,length=39))
y_predicted=predict(modelo,data.new,type="response")
lines(data.new$Age,y_predicted)
Notamos que a varivel Idade parece ser signicativa. O valor observado da
Deviance de 26.703. Se compararmos com o valor crtico da X22 3, que dado
por 35.17246, notamos que 26.703 menor que o valor crtico, o que indica que o
modelo est bem ajustado, com 5% de signicncia.
O Figura ?? mostra que a curva se ajusta muito bem aos dados, dando mais um
indcio de adequao do modelo.
c) Interprete o valor encontrado para o parmetro no modelo anterior.
Resposta: O valor estimado para o parmetro 1 1 = 1.63197. Temos que
exp(1.63197) = 5.113939. Isso signica que para cada aumento em um ano na
idade da jovem, espera-se que a razo de chance da probabilidade de entrar na
menarca aumente em 411%.
7

1.0
0.8
0.6
0.4
0.0

0.2

Menarche/Total

10

12

14

16

Age

Figura 5:
d) Refaa o ajuste anterior, mas agora usando as ligaes probit e complemente loglog. Adicione no grco anterior a curva com o ajuste desses dois novos modelos.
Compare os resultados. Qual das ligaes voc escolheria?
Resposta: Os comandos utilizados para ajustar o modelo e traar a curva se
encontram a seguir.

modelo2=glm(cbind(Menarche,Total-Menarche)~Age, data=menarche, family=binomia


data.new=data.frame("Age"=seq(from=9,to=18,length=39))
y_predicted=predict(modelo2,data.new,type="response")
lines(data.new$Age,y_predicted,col=blue)

modelo2=glm(cbind(Menarche,Total-Menarche)~Age, data=menarche, family=binomia


data.new=data.frame("Age"=seq(from=9,to=18,length=39))
y_predicted=predict(modelo2,data.new,type="response")
lines(data.new$Age,y_predicted,col=red)

legend("topleft",c("Logit","Probit","C-log-log"),fill=c("black","blue","red")

Logit
Probit
Cloglog

0.6
0.4
0.0

0.2

Menarche/Total

0.8

1.0

A Figura ?? as curvas ajustadas usando os trs tipos de funo de ligao. Notamos que os ajustes so semelhantes entre si. Porm a curva logstica parece se
ajustar melhor aos dados. Alm disso, como o modelo logstico o nico para o
qual podemos interepretar os parmetros, esse o modelo mais adequado.

10

12

14

16

Age

Figura 6:

7. No pacote MASS encontra-se a data frame Trac, com os resultados dum estudo sobre
9

a aplicao e localizao de limites de velocidade nas estradas suecas, efectuado em


1961 (veja help(Trac) para mais detalhes).
(a) Ajuste um modelo para o nmero de acidentes registrados em cada dia. Considere como varivel explicativa a varivel categrica limit que indica se os limites de
velocidades estava ou no em vigor.
b) Verique se o modelo est bem ajustado usando a Deviance.
c) Interprete os parmetros do modelo.
d) Calcule o nmero esperado de acidentes para os dias que os limites de velocidade
estavam em vigor e para os dias que no estavam.
e) Discuta as vantagens comparativas de utilizar um modelo linear generalizado neste
caso, quando comparado com a abordagem alternativa de efectuar um teste t clssico
para comparar as mdias da varivel nmero de acidentes por dia nas duas populaes
denidas por haver, ou no, limites de velocidade.
Resposta: O teste t s pode ser aplicado para o caso em que a varivel tem distribuio
normal. Nessse caso o nmero de acidentes por dia, por ser uma contagem, no segue
distribuio normal.

10

Вам также может понравиться