Академический Документы
Профессиональный Документы
Культура Документы
MLGs (cont.)
modelo probit
modelo logit
modelos log-lineares
o prprio modelo linear.
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
204 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
205 / 406
i {1, ..., n} .
varivel aleatria;
da qual se recolhem n observaes independentes; e
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
206 / 406
X=
1
1
1
..
.
1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
x2(1)
x2(2)
x2(3)
..
.
x2(n)
..
.
xp(1)
xp(2)
xp(3)
..
.
xp(n)
2010-11
207 / 406
g( ) = g(E [Y]) = X
( i = 1 : n)
onde:
= X ,
sendo = (0 , 1 , 2 , ..., p ) o vector de coeficientes nas n
combinaes lineares (afins) das variveis preditoras definidas pelas n
observaes:
Modelao Estatstica II
Modelao Estatstica II
J. Cadima (DM/ISA)
J. Cadima (DM/ISA)
2010-11
208 / 406
Modelao Estatstica II
2010-11
209 / 406
MLGs (cont.)
g( ) = g(E [Y]) = X
g(i ) =
xti
j xj(i)
= E [Y] = g 1 (X )
i = g
xti
= g
j=0
J. Cadima (DM/ISA)
j xj(i)
j=0
Modelao Estatstica II
2010-11
210 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
211 / 406
y b( )
+c(y , )
a( )
onde
A famlia exponencial de distribuies vasta e inclui algumas das
mais importantes e conhecidas distribuies, contnuas e discretas.
Modelao Estatstica II
2010-11
212 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
213 / 406
A Normal
A Poisson
y
2
1 y 2
1
f (y| , ) = e 2 ( ) = e 2
2
+ln
1
2
P[Y = k] =
y2
2 2
f (y| ) = e
= 2
b( ) =
2
2
k
e .
k!
2
2
y
= e +y ln( )ln(y !)
y!
a( ) = = 2
2
2
c(y , ) = ln 1
2y = ln 12 2y 2
=1
b( ) = e =
a( ) = 1
c(y , ) = ln(y !)
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
214 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
215 / 406
A Bernoulli
A Binomial
p
1p
f (y|p) =
p
+ln(1p)
y ln(
1p )
n
+ln[(ny
)]
n
1
n
p ny (1 p)n(1y ) = e
ny
p
1p
= ln
=1
p
1p
1
n
b( ) = ln 1 + e = ln(1 p)
b( ) = ln 1 + e = ln(1 p)
a( ) = =
a( ) = 1
c(y , ) = ln
c(y , ) = 0
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
216 / 406
1
n
n
ny
J. Cadima (DM/ISA)
Modelao Estatstica II
A Gama
Funes de ligao
y 1 e = e
f (y | , ) =
( )
b( ) = ln
a( ) = =
1
217 / 406
= ln ( )
c(y , ) = ln ln ( ) + ( 1) ln y
2010-11
Modelao Estatstica II
2010-11
218 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
219 / 406
1) O Modelo Linear.
O Modelo Linear um caso particular de MLG, em que:
E [Yi ] = 1 pi + 0 (1 pi ) = pi
p(x) = g 1 xt .
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
220 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
221 / 406
A Regresso Logstica
2) A Regresso Logstica.
A funo de ligao cannica transforma
p no parmetro natural da
p
. Logo, a funo de ligao
distribuio Bernoulli: = ln 1p
cannica para variveis resposta de Bernoulli a funo logit:
p
g(p) = ln
1p
Com estas opes, o MLG conhecido por Regresso Logstica.
A funo de ligao logit o logaritmo do quociente entre a
probabilidade de Y tomar o valor 1 (xito) e a probabilidade de tomar
o valor 0 (fracasso). Esse quociente conhecido na literatura
anglo-saxnica por odds ratio.
1
t
1 + exi
Modelao Estatstica II
2010-11
222 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
223 / 406
(0 + 1 x)
1 + e(0 +1 x)
1.0
y=f(x)
0.8
p(x)
1 p(x)
2
e0 e1 x
0.0
4
Modelao Estatstica II
2010-11
224 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
225 / 406
j xj ,
j=0
Modelao Estatstica II
2010-11
226 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
227 / 406
A Regresso Probit
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
228 / 406
3) A Regresso Probit
Outro exemplo de MLG o modelo probit de Bliss (1935), muito
frequente em Toxicologia.
Tal como na Regresso Logstica, tem-se:
varivel resposta dictmica (com distribuio Bernoulli).
componente sistemtica, dada por combinao linear de variveis
preditoras.
Diferente da Regresso Logstica a funo de ligao.
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
g 1 xt
p(x; 0 , 1 ) = g 1 (0 + 1 x) = (0 + 1 x) =
,
(xt )
1.0
p(xt )
229 / 406
0.6
0.0
0.2
0.4
pnorm(x, m = 5, s = 2)
0.8
10
15
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
230 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
231 / 406
Inconvenientes:
no h interpretao fcil do significado dos parmetros j ;
a funo de ligao no-cannica.
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
232 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
233 / 406
Tem-se:
P[ Y = 1 | x ]
P[T x]
p(x)
p(xt )
g 1 xt
xt
1 ee
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
234 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
235 / 406
(+x))
= 0, = 0.5
0.4
0.6
= 0.5, = 1
0.2
y = f(x)
1.0
0.8
f(x) = 1 e(e
0.0
= 0.5, = 2
4
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
236 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
237 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
238 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
239 / 406
B(ni , pi )
J. Cadima (DM/ISA)
i = 1, ..., m
Modelao Estatstica II
2010-11
240 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
241 / 406
g( ) = ln( ) = xt
(xt ) = g 1 xt
= ex
t
Modelao Estatstica II
2010-11
242 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
243 / 406
Modelos log-lineares
(x) = e0 e1 x
(x) = e0 e1 x1 e2 x2 ep xp .
Um aumento de uma unidade no valor da varivel preditora Xj ,
mantendo as restantes variveis preditoras constantes, multiplica o
valor esperado de Y por ej .
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
244 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
245 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
V [Y ] =
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
Um nico preditor
g( ) = xt
g( ) =
J. Cadima (DM/ISA)
(xt ) = g 1 xt
1
xt
E [Y ] =
1
.
0 + 1 x
Modelao Estatstica II
1
= xt
247 / 406
2010-11
248 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
249 / 406
Um preditor transformado
E [Y ] =
x
1
,
=
0 + 1 /x
x 0 + 1
Modelao Estatstica II
2010-11
250 / 406
L( , ; y1 , y2 , ..., yn ) =
f (yi ; i , i )
ni=1
= e
yi i b(i )
+c(yi ,i )
a(i )
i=1
Modelao Estatstica II
2010-11
251 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
252 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
Tem-se:
pi
ln(1pi )+yi ln 1p
L(p ; y) = e
L ( ) =
yi xk (i) k ln
i=1 k =0
253 / 406
p
1 + ek =0 xk (i) k
i=1
i=1
e a log-verosimilhana por:
L (p ; y) =
ln(1 pi ) + yi ln
i=1
pi
1 pi
p
Uma vez que a funo de ligao dada por g(p) = ln 1p
= xt ,
tem-se a seguinte expresso para a log-verosimilhana como funo
dos parmetros (e considerando que a varivel x0 toma valores 1):
n
t
L ( ) = ln 1 + exi + yi xti
L ( )
=
j
ek =0 xk (i) k
yi xj(i)
p
k =0 xk (i) k
i=1 1 + e
i=1
xj(i) = 0
j = 0 : p
i=1
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
254 / 406
L( ; y) =
ek =0 xk (i) k
p
Xt y = Xt p
L ( ; y) =
iyi
yi !
2010-11
(i + yi ln i ln yi !)
i=1
255 / 406
E a log-verosimilhana por:
1 + ek =0 xk (i) k
e uma matriz X que (tal como no Modelo Linear) tem uma primeira
coluna de n uns e em cada uma de p colunas adicionais tem as n
observaes de uma das p variveis preditoras. Com esta notao, o
sistema de p + 1 equaes toma a forma:
J. Cadima (DM/ISA)
i=1
2010-11
de
Mas existe uma notao mnemnica, definindo o vector p
probabilidades estimadas, cuja i-sima componente dada por:
=
Modelao Estatstica II
i
p
J. Cadima (DM/ISA)
i
t
exi + yi xti ln (yi !)
i=1
256 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
257 / 406
L ( ) =
ek =0 xk (i) k + yi
xk (i) k
k =0
i=1
L ( )
=
j
xj(i)
h
yi
ek =0 xk (i) k
p
ek =0 xk (i) k
j = 0 : p
Xt y = Xt
i=1
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
258 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
Algoritmos de estimao
Designando por:
[0] , a soluo inicial para ;
L ( )
=0
j
j = 0 : p.
2010-11
260 / 406
Se h(x) =
Se h(x) =
xt Ax
Assim,
(at x)
tem-se h(x)
x = x = a.
(xt Ax)
, tem-se h(x)
=
x =
x
L [0] t
( )
[0] +
t
1
+
[0] H [0] [0]
L ( ) L0 ( ) = L ( [0] ) +
Modelao Estatstica II
[i+1]
2Ax.
tem-se a aproximao:
Tome-se:
2010-11
261 / 406
= [0] H 1[0]
[i] H 1[i]
L [i]
( )
Notas:
A possibilidade de aplicar com xito este algoritmo exige a
existncia e invertibilidade das matrizes Hessianas de L nos
sucessivos pontos [i];
L0
L [0]
( ) =
( ) + H [0] [0] .
L0
( ) = 0
259 / 406
J. Cadima (DM/ISA)
2010-11
L [0]
( ) .
Modelao Estatstica II
2010-11
262 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
263 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
264 / 406
Xt W[i]X
1
Xt W[i] z[i]
2010-11
265 / 406
onde:
z[i] uma linearizao da funo de ligao g(y), escrita como
funo dos parmetros ; e
W[i] uma matriz diagonal.
Modelao Estatstica II
2010-11
1
Xt W[i] idempotente.
J. Cadima (DM/ISA)
Modelao Estatstica II
[i+1]
J. Cadima (DM/ISA)
266 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
267 / 406
L ( )
j
L ( )
ek =0 xk (i) k
yi xj(i)
p
k =0 xk (i) k
i=1 1 + e
i=1
{z
=pi
xj(i) ,
j = 0 : p
= Xt y Xt p
n
2L
1
ek =0 xk (i) k
( ) = xj(i) xl(i)
p
p
xk (i) k
j l
k
=0
k
=0 xk (i) k
i=1
|1 + e {z
} |1 + e {z
}
= pi
= 1pi
= xj(i) xl(i) pi (1 pi )
i=1
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
268 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
269 / 406
I = Xt WX
[i+1]
J. Cadima (DM/ISA)
Logo, designando:
1
Xt y p[i]
[i] + Xt W[i] X
z [i]
1
Definindo o vector z[i] = X [i] + W[i]
y p[i] , tem-se:
[i+1]
A expresso indicada para o vector z[i] pode ser entendida como uma
aproximao linear da funo de ligao do Modelo Logit, em torno do
ponto p[i]. De facto,
p
1
.
g(p) = ln
= g (p) =
1p
p(1 p)
Xt W[i]X
1
g p [i] + g p [i] y p [i]
Xt W[i] z[i]
Modelao Estatstica II
2010-11
270 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
271 / 406
L ( )
j
xj(i)
i=1
i
p
yi ek =0 xk (i) k ,
{z
}
|
j = 0 : p
=yi i
L ( )
= Xt y Xt
H = Xt WX
J. Cadima (DM/ISA)
[i+1]
j, l = 0 : p
Modelao Estatstica II
2010-11
272 / 406
1
Xt y [i]
[i] + Xt W[i] X
Modelao Estatstica II
2010-11
273 / 406
Tambm aqui, z[i] pode ser entendido como uma aproximao linear
da funo de ligao do Modelo Log-Linear, em torno do ponto [i] :
1
=
g ( ) = .
g( ) = ln( )
Logo, considerando:
z [i] = g [i] + g [i] y [i]
tem-se, em termos matriciais, e recordando a definio da matriz W e
a ligao entre valor esperado de Y e parte sistemtica do Modelo:
1
y [i]
z[i] = X [i] + W[i]
Modelao Estatstica II
J. Cadima (DM/ISA)
GLMs no
J. Cadima (DM/ISA)
I = Xt WX
2010-11
274 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
275 / 406
GLMs no
(cont.)
GLMs no
(cont.)
family = binomial
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
276 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
Inferncia em GLMs
assintoticamente Normais;
assintoticamente centrados;
assintoticamente de matriz de varincias igual inversa da matriz
de informao de Fisher associada estimao.
Aplicando estes resultados gerais aos estimadores , obtm-se,
assintoticamente;
(p+1)
I 1
N(p+1) ( ,I
)
Modelao Estatstica II
Teorema
J. Cadima (DM/ISA)
2010-11
277 / 406
278 / 406
t
t
qa a
1
at I a
N (0, 1).
i1
t h
I 1 Ct
C C q2 .
Dada Cq(p+1) : C C
CI
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
279 / 406
sendo I 1
a inversa da matriz de informao de Fisher da
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
280 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
281 / 406
Inferncia no
Hipteses:
H0 : at = c
> summary(sangueu.glm)
Call: glm(formula = tempo ~ log(conc.plasma), family = poisson)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-2.5048 -1.3714
0.2999
0.9017
3.6696
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
5.48515
0.12805
42.84
<2e-16 ***
log(conc.plasma) -0.66633
0.04475 -14.89
<2e-16 ***
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 278.624 on 17 degrees of freedom
Residual deviance: 45.685 on 16 degrees of freedom
AIC: 141.71
Number of Fisher Scoring iterations: 4
H1 : at 6= c
vs.
Estatstica do Teste:
at at |H0
Z= q
at I 1
a
N (0, 1) ,
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
282 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
283 / 406
Teste de Wald
Para testar em simultneo hipteses sobre vrias combinaes
lineares dos parmetros, usa-se a estatstica de Wald (acetato 279),
substituindo a matriz desconhecida I por I .
> vcov(sangueu.glm)
(Intercept) log(conc.plasma)
(Intercept)
0.016397754
-0.005422905
log(conc.plasma) -0.005422905
0.002002123
H0 : C =
H1 : C 6=
vs.
Estatstica do Teste:
i1
t h
t
I 1
C
2 =
CI
C
C
q2 ,
2
Regio Crtica: Unilateral. Rejeitar H0 se calc
> 2 ;q .
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
284 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
285 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
286 / 406
Hipteses:
/ S vs. H1 : j
H0 : j = 0, j
/ S, t.q. j 6= 0
H0 : S = 0
vs. H1 : S 6= 0
[Submodelo OK]
vs. [Modelo melhor]
Estatstica do Teste:
t
S
I 1
1
(S,S)
2
pk
,
2
> 2 ;pk .
Regio Crtica: Unilateral. Rejeitar H0 se calc
Modelao Estatstica II
2010-11
287 / 406
H 1 : 1
vs.
Estatstica do Teste:
= 2 max L ( ; x)
0
max
(0 1 )
L ( ; x) q2 ,
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
288 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
289 / 406
Designando por:
pk
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
290 / 406
Modelao Estatstica II
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
291 / 406
Desvios
J. Cadima (DM/ISA)
2010-11
292 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
293 / 406
Desvios (cont.)
J. Cadima (DM/ISA)
Modelao Estatstica II
DS DM
2 ,
pk
2010-11
294 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
Estatstica do Teste:
g(E [Yi ]) = 0
E [Yi ] = g 1 (0 ),
i = 1 : n.
Hipteses:
H0 : j = 0, j = 1 : p vs. H1 : j = 1 : p, t.q. j 6= 0
[Modelo inutil]
vs. [Melhor que Modelo Nulo]
DN DM
p2 ,
295 / 406
calc > 2 ;p .
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
296 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
Seleco de Submodelos
A excluso sequencial
297 / 406
Modelao Estatstica II
2010-11
298 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
299 / 406
Algoritmos sequenciais no
No
Desvios na Poisson
M apenas como
i ) :
A log-verosimilhana da Poisson (escrevendo
i
LM ( M ) =
i
i + yi ln(
i ) ln(yi !)
i=1
T = yi , a sua log-verosimilhana :
Como no Modelo Saturado
i
LT ( T ) =
i=1
i=1
n
= 2 yi ln
i=1
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
300 / 406
Desvios na Binomial/n
Modelao Estatstica II
i )
(yi
2010-11
301 / 406
apenas como pi ) :
n
i
ni
p
i ) + yi ln
LM ( M ) = ni ln(1 p
+ ln
i
1p
ni yi
i=1
2010-11
n
1 yi
yi
+ (1 yi ) ln
2 ni yi ln
i
i
p
1p
i=1
D = 2 xi ln
+ (ni xi ) ln
,
i
i
ni
i=1
i representa a mdia estimada para a observao i.
i = ni p
onde
302 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
303 / 406
J. Cadima (DM/ISA)
J. Cadima (DM/ISA)
yi
i
D = 2(L (M ) L (T )) = 2
,
wi
i=1
"
Modelao Estatstica II
2010-11
304 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
305 / 406
wi ,
tem-se:
D = 2(L (M ) L (T )) = 2
i
wi h T M
yi (i i ) [b(iT ) b(iM ]
i=1
n
LM ( M ) =
ln i 2
2i2
i=1
iT = yi , pelo que a substituio na expresso
Num Modelo Saturado
anterior d apenas:
n
LT ( T ) =
i
ln i 2
i=1
ou seja,
D = 2
wi
i
yi (iT iM ) (b(iT ) b(iM )
D =
i=1
i=1
Modelao Estatstica II
2010-11
306 / 406
J. Cadima (DM/ISA)
i )2
(yi
i2
Modelao Estatstica II
2010-11
307 / 406
=
i2
= para
e a( ) = = 1 :
D = 2
i=1
(yi i )2
SQRE ,
Modelao Estatstica II
2010-11
i
yi
i
ln
yi
i
i=1
J. Cadima (DM/ISA)
i
i=1
308 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
309 / 406
Modelao Estatstica II
2010-11
V [Yi ]
310 / 406
b (i ) ,
J. Cadima (DM/ISA)
J. Cadima (DM/ISA)
b (i ) a(i ) .
Modelao Estatstica II
2010-11
311 / 406
Alguns exemplos
1) Na Normal,
3) Na Bernoulli,
b( ) = ln(1 + e ) ; logo
b( ) =
a( ) =
2 ;
2,
logo
b ( ) =
b ( ) = 1.
E [Yi ] = b (i ) = pi
V [Yi ] = b (i ) a(i ) = i2 .
b ( ) = b ( ) = e
a( ) = 1,
a( ) =
b ( ) =
p
1p
b ( ) =
e
1+e
b ( ) =
e V [Yi ] = b (i ) a(i ) = i .
Modelao Estatstica II
2010-11
(1+e )
, tem-se:
E [Yi ] = b (i ) = pi
312 / 406
(1+e )
E [Yi ] = b (i ) = i
J. Cadima (DM/ISA)
1
n ,
Como = ln
e V [Yi ] = b (i ) a(i ) = pi (1 pi ) .
4) Na Binomial/n,
b( ) = ln(1 + e ) ; logo
2) Na Poisson,
b( ) = e ; logo
e
1+e
a( ) = 1,
p
, tem-se:
Como = ln 1p
Como = , tem-se:
E [Yi ] = b (i ) = i
b ( ) =
J. Cadima (DM/ISA)
e V [Yi ] = b (i ) a(i ) =
pi (1 pi )
.
ni
Modelao Estatstica II
2010-11
313 / 406
As funes de varincia
5) Na Gama,
b( ) = ln( ) ; logo
a( ) = 1 ,
Como = 1
b ( ) = 1
b ( ) =
1
2
, tem-se:
E [Yi ] = b (i ) = i
J. Cadima (DM/ISA)
2
e V [Yi ] = b (i ) a(i ) = i .
i
Modelao Estatstica II
2010-11
314 / 406
fV ( ) = 1;
Poisson:
fV ( ) = ;
Bernoulli e Binomial/n:
Gama:
Modelao Estatstica II
2010-11
315 / 406
J. Cadima (DM/ISA)
fV ( ) = 2 .
n
i )2
wi (yi
1
,
n (p + 1) i=1 fv (i )
onde
i indica a estimativa do valor esperado de Yi ;
fv (
) indica a funo de varincia associada distribuio;
wi indicam possveis ponderaes.
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
316 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
317 / 406
Exemplos de estimao de
= 2 =
n
1
(yi i )2 ,
n (p + 1) i=1
2 =
n
i )2
1
1
wi (yi
=
=
.
n (p + 1) i=1
i
Modelao Estatstica II
i )2
wi (yi
.
fv (
i )
i=1
n
2010-11
318 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
319 / 406
O AIC
AIC = 2 L ( ; Y) + 2 (p + 1) .
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
320 / 406
resduos de Pearson; e os
resduos do desvio.
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
321 / 406
Resduos de Pearson
Resduos de Pearson
Seja Y1 , Y2 , ..., Yn uma amostra aleatria de uma Componente
Aleatria dum Modelo Linear Generalizado. Designa-se resduos de
Pearson de cada observao raz quadrada da contribuio de cada
observao para a estatstica de Pearson generalizada:
) wi
(Yi
p i
ri P =
fv (
i )
Normal: Tem-se fv (
i ) = 1. O resduo de Pearson o habitual
resduo do Modelo Linear:
i
riP = Yi
i ) = p
i (1 p
i ). O resduo de Pearson :
Bernoulli: Tem-se fv (p
riP = p
i
Yi p
i (1 p
i )
p
Modelao Estatstica II
2010-11
322 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
323 / 406
i ) = p
i (1 p
i ), mas definem-se
Binomial/n: Tem-se de novo fv (p
ponderaes wi = ni , pelo que o resduo de Pearson dado por:
i
Y p
riP = q i
i (1p
i )
p
ni
i ) =
i . O resduo de Pearson :
Poisson: Tem-se fv (
riP
i
Yi
= q
i
riP = q
i
Y
riP = i
i
riP
Modelao Estatstica II
Yi (xti )
(xti ) 1 (xti )
i2 . O resduo de Pearson :
Gama: Tem-se fv (
i ) =
J. Cadima (DM/ISA)
Yi (1 + exi ) 1
q
t
exi
riP =
2010-11
324 / 406
Resduos do Desvio
J. Cadima (DM/ISA)
xt
Yi 1 ee i
= r
1 ee
xt
i
xt
ee i
Modelao Estatstica II
2010-11
325 / 406
Concretizando:
i )2 . O resduo do Desvio vem:
Normal: Tem-se di = (yi
i
riD = yi
Resduos do Desvio
Seja Y1 , Y2 , ..., Yn uma amostra aleatria de uma Componente
Aleatria dum Modelo Linear Generalizado. Seja
D=
di
i ) + (1 yi ) ln(1 p
i )] =
di = 2 [yi ln(p
i=1
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
i )
2 ln(1 p
i )
2 ln(p
326 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
se
se
yi = 0
yi = 1
se
se
yi = 0
yi = 1
2010-11
327 / 406
Binomial/n: tem-se
(
di =
h
i
1yi
2ni yi ln pyi + (1 yi ) ln 1
pi
i
i ) (1 yi ) ln(1 p
i )]
2ni [yi ln(p
se
se
yi =
6 0, 1
yi {0, 1} .
2ni yi ln
yi
i
p
+ (1 yi ) ln
1yi
1
pi
i
)
i ) + (1 yi ) ln(1 p
i )]
2ni [yi ln(p
"
di = 2 yi ln
yi
se
yi 6= 0, 1
se
yi {0, 1} .
i
y
yi
ln i
i
i
di = 2
)
(yi
i
J. Cadima (DM/ISA)
v "
u
u
= sinal(yi i ) t2 yi ln
Modelao Estatstica II
yi
#
)
(yi
i
2010-11
328 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
329 / 406
Os Resduos estandardizados
Os Resduos estandardizados
ei
p
,
QMRE (1 hii )
onde
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
330 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
331 / 406
Os Resduos no
ri P
rP
q i
(1 hii )
i )
(Yi
(1 hii ) fv (
i )
riD
(1 hii )
J. Cadima (DM/ISA)
Os Resduos no
7
0.7903046
Modelao Estatstica II
2010-11
332 / 406
(cont.)
J. Cadima (DM/ISA)
7
0.7822631
Modelao Estatstica II
2010-11
333 / 406
7
0.8543712
7
0.8531218
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
334 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
335 / 406
p
para Y Poisson de parmetro ;
2
) para Y Bernoulli de parmetro p.
2arcsin(p
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
336 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
337 / 406
> plot(2*asin(sqrt(fitted(menarche.probit))),rstandard(menarche.probit),pch=16)
1.0
0.5
0.5 0.0
1.5
rstandard(menarche.probit)
1.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
2 * asin(sqrt(fitted(menarche.probit)))
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
338 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
339 / 406
0.5 0.0
0.5
1.0
: til para
4) mdulo dos resduos contra os valores ajustados de
estudar se a funo de varincia admitida plausvel, em cujo caso os
pontos devem dispersar-se numa banda horizontal, sem padro
evidente.
1.5
rstandard(menarche.probit)
1.5
10
12
14
16
menarche$Age
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
340 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
341 / 406
Observaes influentes
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
342 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
343 / 406
J. Cadima (DM/ISA)
1
n11
n21
..
.
n(a1),1
na1
n1
Nveis do Factor B
2
b1
n12
n1,(b1)
n22
n2,(b1)
..
...
...
.
n(a1),2 n(a1),(b1)
na2
na,(b1)
n2
n(b1)
Modelao Estatstica II
b
n1,b
n2,b
..
.
n(a1),b
na,b
nb
Marginal
de A
n1
n2
..
.
n(a1)
na
n = n..
2010-11
344 / 406
Modelao Estatstica II
2010-11
345 / 406
A hiptese de independncia
Uma vez que o valor da varivel resposta , neste caso, dada por um
produto, surge de forma natural a ideia de logaritmizar, gerando ento
a equao de base:
ln E [Yij ]
= ln(n) + ln(pi. ) + ln(p.j )
ln E [Yij ]
onde:
n o nmero total de observaes;
pij a probabilidade duma observao recair na clula (i,j);
pi. a probabilidade marginal associada ao nvel i do Factor A;
p.j a probabilidade marginal associada ao nvel j do Factor B.
J. Cadima (DM/ISA)
Modelao Estatstica II
+ i + j
2010-11
346 / 406
Modelao Estatstica II
2010-11
347 / 406
Consideramos
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
348 / 406
pi. p.j
p1. p.1
, i =1:a , j =1:b
J. Cadima (DM/ISA)
=j
Modelao Estatstica II
2010-11
349 / 406
= ln(11 ) e
i = ln pp1.i.
ei
p.j
j = ln p.1
ej
= 11
=
=
pi.
p1.
p.j
p.1
n n
= ln n 1. .1
n.. n..
ni.
i = ln
n
1.
n.j
j = ln
n.1
(i = 2 : a)
(j = 2 : b)
Modelao Estatstica II
2010-11
.j =
p
n.j
,
n..
pelo que
n p1. p.1
J. Cadima (DM/ISA)
ni.
n..
350 / 406
J. Cadima (DM/ISA)
=
Modelao Estatstica II
ln
n1. n.1
n..
2010-11
351 / 406
A estatstica 2 de Pearson
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
352 / 406
Modelao Estatstica II
2010-11
353 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
354 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
355 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
356 / 406
J. Cadima (DM/ISA)
i, j, k ;
diz-se que A, B e C so independentes se forem
pi.. p.jk
i, j, k
357 / 406
2010-11
Modelao Estatstica II
pi.|k p.j|k
i, j, k
pi.. p.j.
mutuamente independentes e
os trs pares (A,B), (A,C) e (B,C) forem marginalmente
independentes.
i, j
Modelao Estatstica II
2010-11
358 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
359 / 406
k =1
pijk =
k =1
Ou seja,
k =1
pij|k =
pi.|k =
= 1. A demonstrao
uma vez que necessariamente
anloga para qualquer outra das independncias conjuntas.
ck =1 p..k
j=1
pij|k = pi..
j=1
Modelao Estatstica II
2010-11
360 / 406
J. Cadima (DM/ISA)
a independncia marginal de A e C; e
a independncia marginal de B e C.
ou seja,
pijk = pij. p..k
, i, j, k .
, i, j, k .
3
pijk =
j=1
j=1
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
pi.|k p.j|k .
Modelao Estatstica II
2010-11
361 / 406
Notas
1
p.jk
= pi.. .
p..k
J. Cadima (DM/ISA)
362 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
363 / 406
n pijk
ln E [Yijk ]
E[Y111 ]
E[Yijk ]
ijk
Logaritmizando, tem-se
ln(ijk )
111
Modelao Estatstica II
2010-11
364 / 406
ln(111 )
ln(ijk )
=
=
J. Cadima (DM/ISA)
ln(E[Y111 ])
ln(E[Yijk ])
Modelao Estatstica II
2010-11
365 / 406
ln(ijk )
+ i + j + k
onde
= ln(111)
i..
i = ln pp1..
p.j.
j = ln p.1.
k = ln pp..k
..1
= 111
ei
ej
ek
J. Cadima (DM/ISA)
pi..
p1..
p.j.
p.1.
p..k
p..1
(i = 2 : a)
(j = 2 : b)
(k = 2 : c) .
Modelao Estatstica II
2010-11
366 / 406
J. Cadima (DM/ISA)
+ i + j + k + ( )jk .
Modelao Estatstica II
2010-11
368 / 406
Modelao Estatstica II
2010-11
369 / 406
367 / 406
2010-11
ln ijk
Modelao Estatstica II
J. Cadima (DM/ISA)
1j1 = E[Y1j1 ]
ln(1j1 )
p.j1
n p1j1 = n p1.. p.j1 = n p1.. p.j1
p.11
p.j1
p.j1
= + ln
ln(n p1.. p.11 ) + ln
p.11
p.11
| {z }
= j
ln(i11 )
p
npi11 = n pi.. p.11 = (n p1.. p.11 ) i..
p1..
pi..
pi..
ln(n p1.. p.11 ) + ln
= + ln
p1..
p1..
| {z }
ln(11k )
= i
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
p
n p11k = n p1.. p.1k = (n p1.. p.11 ) .1k
p.11
p.1k
p.1k
= + ln
ln(n p1.. p.11 ) + ln
p.11
p.11
| {z }
= k
370 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
371 / 406
ln(11k )
( )jk
Modelao Estatstica II
2010-11
372 / 406
Modelao Estatstica II
2010-11
Modelao Estatstica II
2010-11
373 / 406
J. Cadima (DM/ISA)
i = 2 : a, j = 2 : b, k = 2 : c .
sendo
= ( )jk
+ i + j + k + ( )jk ,
374 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
375 / 406
+ i + j + k
pijk
Modelao Estatstica II
2010-11
376 / 406
pi.k p.jk
p..k
Tendo este facto em conta, ser necessrio que existam dois termos
de dupla interaco num modelo log-linear associado a esta hiptese:
a interaco A-C e a interaco B-C, que so ambas necessrias para
se poder dispensar a tripla interaco.
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
377 / 406
( )ik
( )jk
pi.k p.jk
=n
.
p..k
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
378 / 406
p p
ln n 11. 1.1
p1..
pi.1
ln
i = 2 : a
(1 = 0)
p1.1
p.j1
(1 = 0)
j = 2 : b
ln
p.11
p1.k p.1k p..1
(1 = 0)
ln
i = 2 : a
p1.1 p.11 p..k
pi.k p1.1
i = 2 : a , k = 2 : c
ln
[( )1k = ( )i1 = 0]
p1.k pi.1
p.jk p.11
ln
[( )1k = ( )j1 = 0]
j = 2 : b , k = 2 : c
p.1k p.j1
J. Cadima (DM/ISA)
Modelao Estatstica II
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
380 / 406
2010-11
379 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
381 / 406
Tabela de independncias
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
382 / 406
Notao
(A,B,C)
(B:C)
(A:B)
(A:C)
Tipo de Modelo
Independncia Mtua
Ind. conjunta (B,C) com A
Ind. conjunta (A,B) com C
Ind. conjunta (A,C) com B
(A:C,B:C)
+ i + j + k + ( )ik + ( )jk
pijk =
(A:B,B:C)
+ i + j + k + ( )ij + ( )jk
pijk =
(A:B,A:C)
(A:B:C)
Modelo Saturado
J. Cadima (DM/ISA)
+ i + j + k + ( )ij + ( )ik
+ i + j + k + ( )ij + ( )ik + ( )jk + ( )ijk
Modelao Estatstica II
Relao-base
pijk = pi.. p.j. p..k
pijk = pi.. p.jk
pijk = pij. p..k
pijk = pi.k p.j.
pi.k p.jk
p..k
pij. p.jk
p.j.
pij. pi.k
pijk = p
i..
2010-11
383 / 406
Um exemplo famoso
Modelao Estatstica II
Negro
Raa Vtima
Branco
Negro
Branco
Negro
Sentena
Pena de Morte Outra Pena
19
132
0
9
11
52
6
97
J. Cadima (DM/ISA)
Raa Ru
Branco
2010-11
384 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
Coefficients:
Coefficients:
2010-11
386 / 406
Modelao Estatstica II
2010-11
Paradoxo de Simpson
J. Cadima (DM/ISA)
Modelao Estatstica II
385 / 406
J. Cadima (DM/ISA)
2010-11
2010-11
388 / 406
387 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
389 / 406
Tabelas parciais
Tabelas marginais
Raa Ru
Branco
Negro
Sentena
Pena de Morte Outra Pena
19
132
11
52
J. Cadima (DM/ISA)
Raa Ru
Branco
Negro
Sentena
Pena de Morte Outra Pena
0
9
6
97
Modelao Estatstica II
2010-11
390 / 406
Raa Ru
Branco
Negro
Freq. Marginal
J. Cadima (DM/ISA)
Sentena
Pena de Morte Outra Pena
19
141
17
149
36
290
Freq. marginal
160
166
326
Modelao Estatstica II
2010-11
391 / 406
O paradoxo de Simpson
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
392 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
393 / 406
Desde os Acetatos 216 e 217, quando se verificou que quer uma v.a.
Bernoulli, quer a transformao da Binomial representada por
Binomial/n, pertenciam famlia exponencial de distribuies, se
tornou claro que era possvel modelar de formas alternativas
componentes aleatrias que:
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
394 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
395 / 406
Log-verosimilhana da Binomial/n
j=1
log
pj
nj
+ nj log(1 pj ) + xj log
xj
1 pj
nj
j=1
Modelao Estatstica II
2010-11
396 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
397 / 406
J. Cadima (DM/ISA)
398 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
399 / 406
Modelao Estatstica II
2010-11
400 / 406
J. Cadima (DM/ISA)
x f
Modelao Estatstica II
2010-11
401 / 406
Um exemplo
Um exemplo (cont.)
Machos:
p = 1/(1 + e(2.9935+0.1750)+(0.9060+0.3529) log2 (dose) )
= 1/(1 + e2.8185+1.2589 log2 (dose) )
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
402 / 406
Um exemplo (cont.)
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
403 / 406
0.6
I2
g(E [Y ]) = 0 1n + 1 x + 0:2 I 2 + 1:2 x I
0.4
g(E [Y ]) = 0 1n + 1 x
0.2
Mortes/20
0.8
1.0
0.0
log(dose, 2)
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
404 / 406
Ainda o exemplo
No caso do exemplo anterior, esse teste produz os seguintes
resultados:
> anova(tabaco.glm, tabaco.glm.ancova)
Analysis of Deviance Table
Model 1:
Model 2:
Resid.
1
2
Modelao Estatstica II
2010-11
406 / 406
J. Cadima (DM/ISA)
Modelao Estatstica II
2010-11
405 / 406