Академический Документы
Профессиональный Документы
Культура Документы
CAMPINAS
2015
i
ii
Ficha catalogrfica
Universidade Estadual de Campinas
Biblioteca do Instituto de Matemtica, Estatstica e Computao Cientfica
Ana Regina Machado - CRB 8/5467
Ttulo em outro idioma: Censored regression models under the class of scale mixture of skew-
normal distributions
Palavras-chave em ingls:
Linear models (Statistics)
Regression analysis
Skew-normal distributions
Expectation-maximization algorithms
rea de concentrao: Estatstica
Titulao: Mestra em Estatstica
Banca examinadora:
Vctor Hugo Lachos Dvila [Orientador]
Filidor Edilfonso Vilca Labra
Luis Mauricio Castro Cepero
Data de defesa: 06-03-2015
Programa de Ps-Graduao: Estatstica
iv
This work aims to present the linear regression model with censored response variable under
the class of scale mixture of skew-normal distributions (SMSN), generalizing the well known Tobit
model as providing a more robust alternative to the normal distribution.
A study based on classic inference is developed to investigate these censored models under two
special cases of this family of distributions, normal and Students-t, using the EM algorithm for
obtaining maximum likelihood estimates and developing methods of diagnostic based on global
and local influence as suggested by Cook (1986) and Poom & Poon (1999). Under a Bayesian
approach, the censored regression model was studied under some special cases of SMSN class, such
as normal, Students-t, skew-normal, skew-t and skew-slash. In these cases, the Gibbs sampler was
the main tool used to make inference about the model parameters.
We also present some simulation studies for evaluating the developed methodologies that,
finally, are applied on two real data sets. The packages SMNCensReg,CensRegMod and BayesCR
implemented for the software R give computational support to this work.
Keywords: Linear regression Models; Censored response variable; Gibbs sampler; EM algo-
rithm; Local influence; Scale mixture of skew-normal distributions
Resumo
Este trabalho tem como objetivo principal apresentar os modelos de regresso lineares com
respostas censuradas sob a classe de distribuies de mistura de escala skew-normal (SMSN),
vii
visando generalizar o clssico modelo Tobit ao oferecer alternativas mais robustas distribuio
Normal.
Um estudo de inferncia clssico desenvolvido para os modelos em questo sob dois casos
especiais desta famlia de distribuies, a normal e a t de Student, utilizando o algoritmo EM para
obter as estimativas de mxima verossimilhana dos parmetros dos modelos e desenvolvendo
mtodos de diagnstico de influncia global e local com base na metodologia proposta por Cook
(1986) e Poom & Poon (1999). Sob o enfoque Bayesiano, o modelo de regresso para respostas
censuradas estudado sob alguns casos especiais da classe SMSN, como a normal, a t de Student, a
skew-normal, a skew-t e a skew-slash. Neste caso, o amostrador de Gibbs a principal ferramenta
utilizada para a inferncia sobre os parmetros do modelo.
Apresentamos tambm alguns estudos de simulao para avaliar a metodologia desenvolvida
que, por fim, aplicada em dois conjuntos de dados reais. Os pacotes SMNCensReg,CensRegMod e
BayesCR implementados em R do suporte computacional para este trabalho.
Este trabalho foi financiado pela Fundao de Amparo Pesquisa do Estado de So Paulo (FAPESP) atravs
do processo nmero 2012/18702-9.
viii
Sumrio
Dedicatria xiii
Agradecimentos xv
1 Preliminares 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Censura e truncamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Variveis censuradas e truncadas . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Distribuies truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 O algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Algoritmos MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Critrios para comparao de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 Critrios frequentistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Critrios Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7 Deteco de observaes influentes em estudos Bayesianos . . . . . . . . . . . . . . 19
1.8 Apresentao dos prximos captulos . . . . . . . . . . . . . . . . . . . . . . . . . . 22
ix
2.2 A famlia de mistura de escala normal (SMN) . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 A distribuio t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Definio dos modelos N-CR e t-CR . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Inferncia Bayesiana para os modelos N-CR e t-CR . . . . . . . . . . . . . . . . . . 31
2.4.1 Construo do amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.2 Aplicao I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5 Inferncia clssica para os modelos N-CR e t-CR . . . . . . . . . . . . . . . . . . . . 37
2.5.1 Construo do algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5.2 Aproximao da varincia dos estimadores dos parmetros da regresso . . . 44
2.5.3 Anlise de diagnstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.4 Estudo de simulao I: Robustez das estimativas EM . . . . . . . . . . . . . 54
2.5.5 Estudo de simulao II: Desvios padres dos estimadores EM . . . . . . . . . 55
2.5.6 Aplicao II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4 Consideraes finais 95
4.1 Produo tcnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.1 Artigos aceitos para publicao . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.2 Artigos submetidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.3 Pacotes para o software R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
x
Referncias Bibliogrficas 105
B Licena 117
B.1 Sobre a licena dessa obra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
xi
xii
Ao meu esposo Adriano, com todo o meu amor.
xiii
xiv
Agradecimentos
Ao meu esposo, Adriano Azinheira Massuia, o grande incentivador de minha graduao e mes-
trado. Obrigada por seu amor, seu companheirismo, sua pacincia e por suas ideias valiosas que
salvaram este trabalho inmeras vezes.
Ao meu orientador, Victor Hugo Lachos, pelos seus ensinamentos e compreenso e em especial
pela confiana depositada em mim.
Ao meu amigo Aldo Medina, por todo o suporte na construo desta dissertao e amizade ao
longo destes anos.
xv
xvi
Lista de Ilustraes
xvii
xviii
Lista de Tabelas
xix
xx
Captulo 1
Preliminares
1.1 Motivao
O modelo de regresso mais conhecido e utilizado para modelar variveis que podem assumir
valores negativos e/ou censurados o modelo Tobit (veja Tobin, 1958), onde a principal hiptese
assumida a de que os erros aleatrios seguem uma distribuio normal. Barros et al. (2010) faz
um estudo de inferncia e diagnstico para este modelo. No entanto, alguns conjuntos de dados
no so compatveis com a suposio de normalidade, seja pela falta de simetria ou pela presena
de valores atpicos. Neste sentido, Arellano-Valle et al. (2012) prope a distribuio t de Student
como alternativa normal no modelo Tobit e, generalizando este trabalho, Garay (2014) prope
utilizar a famlia de distribuies de mistura de escala normal dando ateno especial a alguns de
seus casos particulares, como a normal, a t de Student, a normal contaminada e a slash. Dado
que estas distribuies so todas simtricas, buscamos neste trabalho apresentar alternativas
1
distribuio normal no modelo Tobit que sejam capazes de incorporar parmetros de curtose e/ou
de assimetria: a chamada famlia de mistura de escala skew-normal (veja Branco & Dey, 2001).
Esta famlia engloba distribuies como a skew-normal, skew-t, skew-slash e tambm suas verses
simtricas, desta forma, ao adotar uma classe de distribuies mais genrica, conseguimos lidar
tanto com conjuntos de dados assimtricos e que contm observaes atpicas quanto com conjun-
tos de dados bem comportados.
Neste primeiro captulo faremos uma introduo sobre certos aspectos tericos relevantes para
o desenvolvimento dos captulos seguintes, como o conceito de censuras e truncamento, o algoritmo
EM, algoritmos MCMC e alguns mtodos para comparao de modelos e diagnstico.
1.2 Introduo
Comearemos este captulo introduzindo algumas notaes que sero utilizadas ao longo deste
trabalho. Em geral, adotaremos a conveno tradicional denotando uma varivel ou vetor aleatrio
por uma letra maiscula e sua realizao pela letra minscula correspondente. Vetores e matrizes
(aleatrios ou no) so representados por letras em negrito. X a transposio de X.
d
Sejam X e Y duas variveis aleatrias, a notao XY indica que so independentes e X = Y
indica que tm mesma distribuio. Denotaremos por f (x) a densidade de X, por F (x) sua funo
de distribuio acumulada, por f (x, y) a densidade conjunto de (X, Y ) e por f (x|y) a densidade
condicional de X|Y = y. Quando , o vetor de parmetros que indexa a distribuio de X, for
relevante (e considerado um valor fixo), a densidade de X ser denotada por f (x; ) e sua funo de
distribuio por F (x; ). O smbolo , como em X f (x), significa que X distribuda conforme
iid iid
f (x). O smbolo , como em X, Y f (x), denota que X e Y so independentes e identicamente
distribudas segundo f (x). EX [h(X)] e VarX [h(X)] denotam respectivamente a esperana e a
varincia da funo h(X) em relao densidade da varivel aleatria X. Embora sejam um tanto
abusivas, estas notaes facilitaro o desenvolvimento matemtico deste trabalho.
Denotamos por Np (, ) a distribuio normal pvariada com vetor de locao e ma-
triz de varincia-covarincia , com densidade p ( ; , ) e funo de distribuio acumulada
2
p( ; , ). Tp ( ; , , ) denota a funo de distribuio acumulada de uma t de Student
pvariada, com vetor de parmetros de locao , matriz de escala e grau de liberdade ; a
respectiva densidade denotada por tp (0 , 0 , ). Se o subescrito p for omitido, ento estas fun-
es referem-se verso univariada destas distribuies, e neste caso, se forem tambm omitidos
os parmetros e , estamos nos referindo sua verso padro (com parmetro de locao 0 e de
escala 1). G(, ) denota a distribuio gama com esperana / e IG(, ) denota a distribuio
gama inversa com esperana /( 1).
A notao 11A (x) denota a funo indicadora em x no conjunto A, isto , 11A (x) = 1 se x A
e 11A (x) = 0 caso contrrio. () denota a funo gama. Abreviaremos funo de distribuio de
probabilidade por pdf e funo de distribuio acumulada por cdf.
Em diversos campos da cincia nos deparamos com situaes em que a varivel de interesse no
pode ser completamente observada para todos os indivduos do experimento, mas, ao invs disso
observa-se somente um intervalo em que esta varivel est contida, caracterizando o que chamamos
de censuras.
Existem trs tipos de censura, o mais comum a censura direita, que ocorre quando o intervalo
observado do tipo [a, ) para alguma constante finita a conhecida, isto , quando sabemos que
o verdadeiro valor da varivel de interesse maior do que o valor observado a. Este tipo de
censura ocorre com muita frequncia quando a varivel de interesse o tempo at a ocorrncia
de um evento, como nos estudos clnicos sobre o tempo de sobrevida ou remisso de pacientes
ou em estudos sobre o tempo de vida til de equipamentos eletrnicos. Nestes casos, as censuras
correspondem aos indivduos que no experimentaram o evento de interesse antes do trmino do
estudo. Um outro exemplo de censura direita que no envolve a varivel tempo ocorre quando
um instrumento de medio tem uma capacidade mxima fixa e no fornece a quantia de interesse
quando esta ultrapassada.
3
O segundo tipo de censura a censura esquerda, quando o verdadeiro valor da varivel de
interesse menor do que o valor observado a. Neste caso, o intervalo observado do tipo (, a],
onde a uma constante finita e conhecida. Este tipo de censura ocorre, por exemplo, em testes
para detectar o vrus HIV, onde a carga viral de um indivduo portador no pode ser mensurada
se for menor do que um determinado ponto limtrofe.
O ltimo tipo de censura a intervalar, que ocorre quando s possvel observar um intervalo
finito do tipo [a, b] no qual o verdadeiro valor da varivel est contida, com |a|< , |b|< e
a < b. Esta censura menos comum que os outros dois tipos e costuma aparecer em experimentos
nos quais no h vigilncia contnua das unidades experimentais e o interesse estudar o tempo
at a ocorrncia de um evento, de forma que existe a possibilidade de que o evento de interesse
ocorra entre uma inspeo e outra.
O truncamento ocorre quando algumas observaes (seja na varivel resposta ou nas regres-
soras) no esto disponveis. Ao contrrio das censuras, onde a perda de informao parcial,
no truncamento simplesmente no h qualquer registro para a varivel em questo. Um exemplo
de dados truncados retratado em Colosimo & Giolo (2006), onde usado um banco de dados
da previdncia social para estudar a expectativa de vida dos moradores de uma certa localidade
- neste caso, somente moradores que atingiram a idade da aposentadoria fazem parte da amostra
e indivduos mais jovens so automaticamente excludos do estudo. Outros exemplos de trunca-
mento podem ser encontrados em Nelson (1990) e Kalbfleisch & Lawless (1992).
Neste trabalho daremos enfoque a modelos para dados com censuras direita e esquerda,
porm os resultados so expansveis para conjuntos de dados com censura intervalar.
Seja X uma varivel aleatria com densidade f (), funo de distribuio acumulada F () e
suporte . Se esta varivel sujeita a censura, ento observar o intervalo A = a, b como
produto desta censura quer dizer que obtivemos uma nova informao que deve ser incorporada
4
funo de densidade de f (), a de que X A. Este processo gera o que chamamos de distribuio
truncada. Aqui, a notao , expressa um intervalo cujo cada extremo pode ser tanto aberto
quanto fechado.
Desta forma, denotando por T f ( ; A ) a verso truncada da distribuio f () no intervalo A,
temos a seguinte relao: se X f (), ento X|X A T f ( ; A ) e
f (x)
T f (x ; A) = 11{axb} .
F (b) F (a)
f (x)
Note que se X for censurada direita, ento b = e T f (x ; A) = 11
1F (a) {xa}
e, se for
f (x)
censurada esquerda, ento a = e T f (x ; A) = 11
F (b) {xb}
.
1.4 O algoritmo EM
Na rea de inferncia estatstica clssica bastante comum lidar com problemas de maximi-
zao de funes a fim de estimar os parmetros desconhecidos do modelo. Em muitos destes casos
no h forma analtica fechada para tais estimadores e mtodos iterativos de maximizao tornam-
se uma boa alternativa. Dentre estes mtodos, o algoritmo EM (Expectation-Maximization,
Dempster et al. (1977)) uma alternativa relativamente simples pois no requer o clculo de se-
gundas derivadas e pode ser empregado sempre que existir uma representao dos dados em termos
de uma varivel latente.
Cada iterao do algoritmo consiste em duas etapas. Na primeira etapa, E ou Expectation, os
dados observados e a estimativa atual do parmetro so utilizados para encontrar a distribuio dos
dados latentes, enquanto na segunda etapa, M ou Maximization, uma re-estimao do parmetro
feita sob a hiptese de que a distribuio da varivel latente encontrada no passo anterior de
fato sua distribuio verdadeira.
Denote por o vetor de parmetros de interesse, por Y o vetor com os dados observveis
e por (; y) a funo de log-verossimilhana assumida pelo modelo estatstico. Suponha que
cada componente do vetor aleatrio observvel Y possa ser escrita como uma funo do vetor de
variveis latentes Z. Mais especificamente, assumimos que existe uma funo h : Z Y tal que
h(Z) = Y , de forma que, uma vez observado Y = y, a nica coisa que sabemos sobre Z que este
5
vetor aleatrio est restrito ao espao determinado por Z(y) Z, o subespao de Z determinado
pela equao h(Z) = y.
A estratgia deste algoritmo considerar os chamados dados aumentados, isto , tomar o
vetor de variveis latentes Z como se este fosse observvel. Desta forma conhecemos a funo de
distribuio deste vetor, f (z; ), e temos disposio a funo de log-verossimilhana completa,
c (; z) log f (z; ). Pode-se tambm calcular a distribuio condicional de Z dado Y = y,
f (z|y; ), da seguinte forma:
f (y, z; )
f (z|y; ) =
f (y; )
f (y|z; )f (z; )
=
f (y; )
f (z; )
= , z Z(y), (1.4.1)
f (y; )
sendo que a segunda igualdade vem do Teorema de Bayes e a terceira igualdade vem do fato de
que o vetor Y fica completamente determinado se temos a informao de que Z = z, de forma que
f (y|z; ) uma distribuio que atribui probabilidade 1 em Y = h(z) e 0 em qualquer outro lugar.
Estes dois passos so repetidos at que alguma medida de convergncia seja satisfeita, como
por exemplo || (t+1) (t) ||< , para algum > 0 suficientemente pequeno.
6
atualizao da estimativa no deve ser menor do que se avaliada em estimativas anteriores. Esta
propriedade formulada no Teorema 1.
Prova:
Aplicando o log em ambos os lados da equao 1.4.1, temos:
Tomando a esperana em ambos os lados da Equao (1.4.3) com relao distribuio f (z|y; (t) ),
temos:
! "
|y Q(| (t) ) = H(| (t) ), (1.4.4)
onde H(| (t) ) = EZ|Y log f (z|y; ) | y, (t) . Agora,
H( (t) | (t) ) H(| (t) ) = EZ|Y ,(t) log f (z|y; (t) ) | y, (t) EZ|Y ,(t) log f (z|y; ) | y, (t)
S A B -- T
f (z|y; ) -
- y, (t) V
= EZ|Y ,(t) U log
f (z|y; (t) ) -
-
Q C - DR
f (z|y; ) --
log aEZ|Y ,(t) - y, (t) b , pela Desigualdade de Jensen
f (z|y; (t) ) -
f (z|y; )
= log f (z|y; (t) ) dz
Z(y) f (z|y; (t) )
= log f (z|y; ) dz
Z(y)
0,
7
e, portanto, H( (t) | (t) ) H(| (t) ). Desta forma, substituindo este resultado na Equao
(1.4.4):
! "
|y Q(| (t) ) = H(| (t) )
1 2
H( (t) | (t) ) = (t) |y Q( (t) | (t) ),
logo,
! " 1 2
|y (t) |y Q(| (t) ) Q( (t) | (t) ). (1.4.5)
Em outras palavras, a Equao (1.4.5) nos diz que ao escolhermos um valor de que aumente o
valor da funo Q(| (t) ) alm da constante Q( (t) | (t) ), estaremos aumentando tambm o valor da
! " 1 2
funo |y alm da constante (t) |y em pelo menos o mesmo tanto. Desta forma acabamos
de provar que o algoritmo EM correto no sentido de que, ao maximizar a funo Q(| (t) ) em
cada iterao, maximiza tambm a funo de verossimilhana e, na convergncia, deve encontrar
as estimativas de mxima verossimilhana do parmetro (supondo que no h problemas graves
de multimodalidade que possam desviar a convergncia para um mximo local).
Para finalizar a demonstrao do Teorema 1, note que, ao atualizarmos o valor da estimativa
com (t+1) = arg max Q(| (t) ), temos por definio que Q( (t+1) | (t) ) Q(| (t) ) ,
inclusive para = . Logo, Q( (t+1) | (t) ) Q( (t) | (t) ) e a igualdade s satisfeita se (t+1) =
(t)
8
(1990)).
s
para alguma funo p(, ), onde p(x, x) = 0 e r(x) = 1 Rd p(x, z)dz representa a probabilidade
de a cadeia permanecer no estado x. Se a funo p(, ) satisfizer a condio de reversibilidade, isto
, se existir uma funo () com domnio em Rd tal que:
ento dizemos que () a funo de densidade invariante de P (x, ) (Tierney (1994)). O resultado
interessante desta propriedade, que ser explorado pelos algoritmos MCMC, que, se a cadeia
for irredutvel e aperidica, () tambm a distribuio estacionria de P (x, ), o que quer dizer
que aps um nmero suficientemente grande de passos (mudanas de estado), este kernel converge
para ().
9
1.5.1 Metropolis-Hastings
Inicializao:
Na iterao t, t = 1, 2, 3 . . .:
10
Passo 3: Faa X (t) = y com probabilidade (x(t1) , y) ou X (t) = x(t1) com probabilidade 1
(x(t1) , y).
Inicializao:
11
(0) (0) (0)
Passo 1: Escolha um valor inicial x(0) = (x1 , x2 , . . . , xd )
Na iterao t, t = 1, 2, 3 . . . , para i = 1, 2, . . . , d:
(t1) (t)
Passo 1: Gere yi de q(xi , | xi ).
Gelman (1992) sugere um mtodo para avaliar a convergncia do kernel de transio da cadeia
para a distribuio estacionria. Este mtodo requer que pelo menos duas cadeias sejam rodadas
paralelamente, de preferncia a partir de valores iniciais distintos, pois compara a varincia inter
e intra cadeias. Desta forma, seja xij a isima observao proveniente da jsima cadeia, com
1 qM 1 q
i = 1, 2, . . . , M e j = 1, 2, . . . , J. Denote por xj = M i=1 xij e x = JM i,j xij . Calculamos as
varincias inter (W) e intra (B) cadeias da seguinte forma:
S T
1 J
1 M
M J
W = U (xij xj )2 V e B= (xj x )2 .
J j=1 M 1 i=1 J 1 j=1
12
Espera-se que R
seja prximo de 1 para assegurar a convergncia das cadeias.
Sobre a sequncia de amostras retornadas, uma prtica comum e bastante eficiente eliminar
os valores resultantes das primeiras iteraes do algoritmo, realizadas antes de a convergncia
ser atingida (conhecida como burn-in). Alm disso, existe uma dependncia entre observaes
sucessivas, fruto da origem markoviana do mtodo. O que se faz, no sentido de eliminar ou
minimizar esta correlao, guardar as observaes espaadas utilizando um passo constante, cujo
tamanho pode ser facilmente determinado atravs da construo de grficos de auto-correlao
para a amostra gerada (processo conhecido como thinning).
Para a demonstrao de que o kernel construdo no algoritmo de Metropolis-Hastings converge
para a distribuio alvo, veja Hastings (1970). Chib & Greenberg (1995) discute problemas de
implementao deste algoritmo, como a escolha da distribuio proposta.
Inicializao:
13
(0) (0) (0)
Passo 1: Escolha um valor inicial x(0) = (x1 , x2 , . . . , xd ) .
Na iterao t, t = 1, 2, 3 . . . , para i = 1, 2, . . . , d:
+ qcn ,
2()
14
cn /log(n) 0 quando n . Neste trabalho utilizaremos cn = 0.2 n, conforme sugerido por
Bai et al. (1989).
Para a maioria dos modelos a estatstica CPOi no possui uma forma analtica fechada. No
entanto pode-se obter uma aproximao desta estatstica usando uma amostra MCMC de f (|z),
a distribuio a posteriori de : {1 , 2 , . . . , Q } (aps o processo de burn-in e thinning). dado
em Dey et al. (1997) que:
Q R1
\ 1 Q
1
CPOi = a b . (1.6.2)
Q j=1 f (zi |j )
Quanto maior o valor de LMPL, melhor a adequao do modelo proposto ao conjunto de dados.
15
Os critrios DIC, EAIC, EBIC e WAIC ponderam a qualidade do ajuste do modelo e sua
complexidade. Para defini-los vamos primeiramente definir uma medida de qualidade de ajuste, o
deviance, dada por:
Q R
n
D() = 2 log a f (zi |)b .
i=1
O DIC (deviance information criterion, Spiegelhalter et al. (2002)) pondera o deviance com
uma medida relacionada com a complexidade do modelo, o nmero de parmetros efetivos, definida
por:
DIC = D() D(),
= 2D() D().
DIC = 2DIC + D()
Quanto menor o valor do DIC, mais adequado o modelo ao conjunto de dados. O clculo
da integral D() pode ser bastante complexo, por isso, pode-se usar tambm aqui uma amostra
MCMC {1 , 2 , . . . , Q } de f (|z) para estimar o valor do DIC. Desta forma, aproximamos D()
pela mdia amostral a posteriori dos desvios D():
Q R
2 Q n
D() = log a (zi |j )b . (1.6.3)
Q j=1 i=1
DIC
= 2 D()
D().
Mais recentemente Watanabe (2010) introduziu outro critrio para seleo de modelos, o WAIC
(Watanabe-Akaike information criterion). Para defini-lo, vamos primeiramente definir a log-
16
densidade preditiva, dada por:
n
p(z) = log f (zi |)f (|z) d.
i=1
Basicamente, o WAIC calcula p(z) e adiciona uma correo relacionada ao nmero efetivo de
parmetros do modelo, a fim de compensar um possvel superajuste. Gelman et al. (2014) sugere
duas maneiras de calcular esta correo. A primeira muito parecida com a utilizada em DIC e
dada por
WAIC1 = 2 p(z) + D().
Quanto menor for o valor do WAIC, mais adequado o modelo ao conjunto de dados.
importante notar que na definio original de Watanabe o critrio WAIC foi definido somente por
p(z)/n adicionada a uma correo. Aqui, seguindo a sugesto dada por Gelman et al. (2014),
este termo foi multiplicado por 2 de forma a ficar na mesma escala que os critrios DIC, EAIC
e EBIC.
Novamente, computar o WAIC envolve envolve calcular integrais que geralmente no so di-
retas ou so computacionalmente custosas. Desta forma, possvel aproximar o valor deste cri-
trio como foi feito para o DIC: utilizando uma amostra MCMC da densidade a posteriori de ,
{1 , 2 , . . . , Q }. Primeiramente, aproximamos p(z) da seguinte forma:
Q R
n
1 Q
p(z) =
log a f (zi |j )b ,
i=1 Q j=1
\ 1 = 2 p(z)
WAIC
+ 2 D().
17
\ 2 , pode ser calculada considerando a vari-
A aproximao da segunda verso do WAIC, WAIC
1 qQ 1 qQ
ncia amostral Vj=1
Q
(x) = Q1 j=1 (x x) como uma estimativa da varincia, onde x = Q j=1 xj ,
e utilizando a amostra MCMC da densidade posteriori de para aproximar o valor de f (zi |),
i = 1, 2, . . . , n, fazendo:
1 Q
f\
(zi |) = f (zi |j ).
Q j=1
Outros critrios podem ser usados para comparar a adequao de modelos distintos a um
mesmo conjunto de dados: o EAIC (expected Akaike information criterion), veja Brooks (2002),
e o EBIC (expected Bayesian information criterion), veja Carlin & Louis (2001). Estes critrios
so definidos por:
EAIC = D() + 2q e EBIC = D() + q log (n) ,
onde q o nmero de parmetros livres a serem estimados no modelos. Quanto menor o valor do
EAIC ou do EBIC, mais adequado o modelo ao conjunto de dados. Substituindo D() por D(),
pode-se obter uma estimativa destes critrios.
O p-valor Bayesiano preditivo, denotado por pB , definido como a porcentagem de vezes em que
1 2
T (zpr , ) maior do que T (z, ) em L conjuntos de dados simulados, isto , pB = P T (zpr ,
! "
T z, ) | Z = z , onde zpr a amostra simulada da distribuio preditiva posteriori. Se o modelo
for adequado, pB deve ser prximo de 0.5 sendo que valores muito alto ou muito baixos indicam
uma m especificao do modelo.
18
1.7 Deteco de observaes influentes em estudos Baye-
sianos
Nesta Seo iremos abordar algumas medidas Bayesianas de diagnstico para detectar observa-
es extremas, que exercem uma influncia desproporcionalmente grande nos resultados do ajuste.
A abordagem que utilizaremos uma das mais conhecidas, o mtodo de deleo de casos.
Um modo bastante comum em estudos Bayesianos para quantificar a influncia de uma de-
terminada observao calcular alguma medida de divergncia entre a distribuio posteriori
obtida com o conjunto de dados completo e excluindo-se dele tal observao. Se obtivermos uma
medida significativamente grande, ento esta observao considerada influente. Desta forma,
seja z = {z1 , z2 , . . . , zn } a amostra observada e I um subconjunto de {1, 2, . . . , n}. Considere o
conjunto zI = {zi ; i I}, denotando por zI seu complementar em z. A fim de estabelecer uma
medida de divergncia apropriada, denote por f (|z; M0 ) e f (|z; M1 ) as distribuies a posteriori
de sob os modelos M0 e M1 respectivamente. Para comparar o quo parecidos so estes dois
modelos em termos da inferncia final sobre , definimos a funo de perturbao entre M0 e M1
como:
f (|z; M1 )
m(; M0 , M1 ) = .
f (|z; M0 )
A partir desta funo de perturbao Csiszr (1967) define a medida q-divergente entre os
modelos M0 e M1 da seguinte forma:
! " # $
dq m(; M0 , M1 ) = EM0 q(m(; M0 , M1 )) (1.7.1)
f (|zI )
mI () = m(; M0 , M1 ) = . (1.7.2)
f (|z)
19
A medida q-divergente pode tambm ser definida para a funo de perturbao do conjunto I da
seguinte forma:
dq (z, zI ) = E|Z [q(mI ())]. (1.7.3)
Para a maioria dos modelos bastante complicado calcular a esperana da Equao (1.7.3),
logo, conveniente considerar uma aproximao MCMC das medidas de influncia citadas. Neste
sentido, enunciamos a seguinte proposio:
CP OI
mI () = .
f (zI |)
Prova:
Segundo a definio dada na Equao (1.7.2),
mI () = f (|zI )f (|z)1
f ()f (zI |) f (z)
=
f (zI ) f ()f (z|)
3 41
f (z)
= f (zI |)f () d (1.7.4)
f (zI |)
3 41
f (z)
= f (z|)f (zI |) f () d
1
(1.7.5)
f (zI |)
A B1
f ()f (z|)
= f (zI |) 1
f (zI |)1 d
f (z)
3 41
= f (zI |) 1
f (zI |) f (|z) d
1
CP OI
= ,
f (zI |)
20
onde a Equao (2.2.5) foi obtida atravs das igualdades f (zI |)/f (z|) = f (zI |)1 e
s
f (zI ) = f (zI |)f () d e, multiplicando-se o integrando por f (zI |)/f (zI |), obtm-se a
Equao (2.2.6).
Com a Proposio 1 encontramos uma maneira de aproximar mi () para uma dada observao
i, i = 1, 2, . . . , n, e com isso obter tambm uma aproximao das medidas de influncia citadas
para tal observao. Basta-nos aproximar a funo mi () atravs de uma amostra MCMC da
distribuio a posteriori de , {1 , 2 , . . . , Q } da seguinte forma:
Q R1
[ 1 Q
i () = CP
m Oi a f (zi |j )b ,
Q j=1
[
onde CP Oi exibido na Equao (1.6.2). Em seguida, a aproximao da medida de influncia
dada por:
1 Q
d (z, z
q i ) = i (j )).
q(m
Q j=1
Note que preciso estabelecer um ponto limiar a partir do qual estas medidas classificam uma
dada observao como influente. Neste sentido, Peng & Dey (1995) and Vidal & Castro (2010)
fazem analogia a um experimento clssico para determinar este ponto limiar, o lanamento de uma
moeda: suponha que uma moeda com probabilidade p [0, 1] de cara arremessada. A varivel
aleatria X representa o resultado do lanamento, sendo que X = 1 significa que o experimento
resultou em cara e X = 0, em coroa. Sob o ponto da inferncia frequentista, seja M0 o modelo no
qual no feita nenhuma suposio a respeito de p e M1 o modelo no qual a moeda considerada
justa, ou seja, no qual consideramos p = 0.5. A distribuio associada a X sob o modelo M0
f0 (x; p) = px (1 p)1x e, sob o modelo M1 , f1 (x; p) = 0.5, com x {0, 1} em ambos os casos.
Da Equao (1.7.1), a medida qdivergente entre estes dois modelos dada por:
Note que dq (M0 , M1 ) aumenta conforme p se afasta de 0.5, simtrica em torno de 0.5 e atinge
seu ponto de mnimo tambm em p = 0.5 (onde os modelos so iguais). Se estabelecermos o
21
critrio de que uma estimativa para p maior do que 0.8 (ou menor do que 0.2) sugere fortes
evidncias de que a moeda no justa, ento dq (0.8) seria um ponto limiar acima do qual uma
observao seria considerada influente pela medida qdivergente. Calculando dq (0.8) para as
medidas particulares apontadas, temos dKL (0.8) .0.2231 para K-L, dJ (0.80) 0.4159 para a
distncia J e dL1 (0.8) = 0.6 para a distncia L1 .
22
importante destacar que todas as aplicaes e estudos de simulao apresentados neste tra-
balho foram desenvolvidos no software R.
23
24
Captulo 2
2.1 Introduo
Neste segundo captulo definiremos o modelo Tobit, denotado neste trabalho por N-CR (nor-
mal censored regression) e apresentaremos a famlia de distribuies de mistura de escala normal,
introduzindo a distribuio t de Student como alternativa normal para os erros aleatrios do
25
N-CR, dando origem ao modelo t-CR (t de Student censored regression). Faremos um estudo de
inferncia clssica e Bayesiana para estes modelos, apresentando algoritmos iterativos para estimar
seus parmetros e desenvolvendo medidas de diagnstico. Por fim, aplicaremos ambos os modelos
a um conjunto de dados reais e apresentaremos alguns estudos de simulao que visam comparar
a performance dos modelos normal e t de Student para dados censurados.
Definio 1. Dizemos que a varivel aleatria X tem distribuio pertencente famlia de mistura
de escala normal, com parmetro de locao R, de escala 2 > 0 e de forma se ela pode ser
escrita da seguinte forma:
onde () uma fuo real positiva e U uma varivel aleatria positiva, cuja funo de distribuio
acumulada, H( ; ), indexada pelo vetor de parmetros . Denotamos X SM N (, 2 ; H).
fcil ver na Equao (2.2.1) que X|(U ) = (u) N (, (u) 2 ), portanto, a densidade de
X dada por:
fSM N (x) = (x ; , (u) 2 ) dH(u). (2.2.2)
0
Alguns dos casos especiais mais conhecidos desta classe de distribuio so alcanados quando
(U ) = 1/U . Fixando a funo () desta forma, se tomarmos na Equao (2.2.1):
26
ii) U Beta(, 1), temos X distribuda de acordo com uma Slash, com parmetros de locao
, escala 2 e forma .
iv) U G(1 /2, 2 /2), ento X segue a distribuio Pearson VII com locao , escala 2 e
forma = (1 , 2 ). Note que, se 1 = 2 := , ento a distribuio de X se reduz t de
Student com graus de liberdade e mesmos parmetros de locao e escala. Se = 1, temos
a Cauchy.
Como discutido anteriormente, a suposio do modelo N-CR de que os erros i em (2.3.2), para
i = 1, 2, . . . , n, so normalmente distribudos pode prejudicar o processo de inferncia se houver
valores extremos no conjunto de dados. Diante deste problema, introduziremos aqui a distribuio
t de Student visando a substituio da distribuio Normal no modelo de regresso para dados
censurados, na tentativa de, ao utilizar uma distribuio mais robusta, conseguir comportar a
existncia de valores considerados extremos sob a distribuio Normal. Little (1999) e Lange
et al. (1989), por exemplo, utilizaram a distribuio t de Student para modelagem robusta. A
seguir, apresentamos a densidade da distribuio t de Student e desenvolvemos algumas de suas
propriedades.
Definio 2. Dizemos que a varivel aleatria X tem distribuio t de Student, com parmetro
de locao , de escala 2 e graus de liberdade, denotada por t(, 2 , ), se sua densidade dada
por:
A B( +1 )
( +1 ) d(x)2 2
f (x) = 2
1+ , x R, (2.2.3)
(/2)
27
(x)
onde d(x) =
.
Na Figura 2.1 mostramos a densidade da t de Student para diferentes valores dos parmetros
2 e . importante destacar no primeiro grfico como o valor de influencia na curtose da
distribuio, sendo que valores menores de geram caudas mais pesadas. A distribuio Normal
o caso limite da t de Student quando .
t(0,1) t(0,2)
=1 22=1, =1
=3 2=2, =3
2=3, =5
=5 2=4, =7
=10 =5, =9
4 2 0 2 4 12 6 0 6 12
X = + U 1/2 Z, (2.2.4)
Prova:
Seja X uma varivel aleatria como na Equao (2.2.4). Ento, dado que a densidade condi-
cional de X|U = u N (, 2 /u), podemos utilizar a relao f (x, u) = f (x|u)f (u) para calcular a
28
densidade marginal de X:
f (x) = (x ; , 2 ) Gama(u ; /2, /2) du
0
; <
(/2)/2 +1 1 u
= u 2 exp (d(x)2 + )
2 (/2) 0 2
A B A B +1
(/2)/2 +1 d(x)2 + 2
= (2.2.5)
2 (/2) 2 2
1 2 A B +1
d(x)2
+1 2
2
= 1+ , (2.2.6)
(/2)
onde Gama( ; , ) denota a funo de densidade de uma G(, ), d(x) como na Definio 2 e a
2
Equao (2.2.5) foi obtida completando a densidade de uma G( +1
2
, d(x)2 + ) em u na integral, de
forma que o resultado desta integral fosse 1. Em (2.2.6) vemos que a densidade de X corresponde
a uma t(, 2 , ), conforme a Definio 2.2.3. Agora,
= EU [] = .
Alm disso,
= EU [ 2 U 1 ] + VarU []
= 2 , > 2, (2.2.7)
2
aqui, a Equao (2.2.7) foi obtida usando o seguinte resultado (cuja demonstrao ser omitida):
se U G(, ), ento a distribuio de U 1 uma Inversa Gama com parmetros de forma e
de escala , cuja esperana
1
.
29
em que, para i = 1, 2, . . . , n, Yi a resposta para o indivduo i, i a varivel aleatria representando
o erro da regresso, xi = [xi1 , xi2 , . . . , xip ] um vetor p 1 de variveis explicativas para este
indivduo e = [1 , 2 , ..., p ] o vetor de parmetros da regresso.
O modelo acima supe que a varivel Y pode ser observada para todos os indivduos no estudo.
Porm neste trabalho estamos interessados no caso em que Y sujeita censura, isto , no caso em
que existem indivduos na amostra para o qual o valor assumido por Y no conhecido, somente
observa-se o intervalo A em que ele est contido. Se a varivel resposta censurada direita,
A = [a, ) e, se censurada esqueda, A = (, a], para a uma constante representando o valor
limtrofe observado para Y . Neste contexto, a varivel aleatria passvel de observao e que ser
modelada V , uma funo de Y dada por:
Y
_
_
] ai se Y i ai
Vi = _ (2.3.2)
_[ Yi = x
i + i se Yi < ai ,
para i = 1, 2, . . . , n e {ai }ni=1 o conjunto de valores limiares fixos e conhecidos. Note que, a partir
do conhecimento deste conjunto de valores limiares, ao observar Vi observa-se tambm a varivel
indicadora Ci , que assume o valor 1 quando a resposta do indivduo i censurada (Vi = ai ) e 0,
quando no (Vi = ai ), com i = 1, 2, . . . , n.
As Equaes (2.3.1) e (2.3.2) definem o modelo de regresso para dados censurados. Se as-
iid
sumirmos na Equao (2.3.1) que i N (0, 2 ) obtemos o modelo N-CR, e, se consideramos
iid
i tv (0, 2 ), o modelo t-CR. Para mais detalhes sobre o modelo N-CR veja Barros et al. (2010),
onde desenvolvido um estudo de inferncia e diagnstico.
30
varincia 2 , no caso do t-CR, a uma varivel aleatria que segue uma distribuio t(x
i , 2 , ).
Se considerssemos censuras direita, a funo de log-verossimilhana seria bastante anloga:
n
n
# $ # $
(; v) = log 1 FSM N (vi ; ) 11[ai ,) (vi ) + log fSM N (vi ; ) 11(,ai ) (vi ), (2.3.4)
i=1 i=1
Nas prximas duas Sees ser desenvolvido um estudo de inferncia e diagnstico para estes
modelos sob as ticas Bayesianas e frequentistas, respectivamente.
Nesta Seo desenvolveremos o amostrador de Gibbs para fazer inferncia para os modelos
N-CR e t-CR sob um ponto de vista Baysiano. Os modelos sero ento aplicados em um conjunto
de dados reais e estudos de simulao sero realizados para avaliar a qualidade do processo de
estimao e a robustez dos dois modelos.
O primeiro passo para fazer inferncia Bayesiana para os modelos N-CR e t-CR, definidos na
Seo 2.3, definir uma densidade priori para o vetor de parmetros . Para o N-CR, =
(
, 2 ) e para o t-CR = (
, 2 , ) . Aqui, usaremos a suposio priori de independncia
entre os parmetros do modelos, portanto a densidade conjunta priori do vetor ser o produto
das densidades priori de cada um de seus elementos. Para ambos os modelos assumiremos
priori que Np (0 , 0 ), com hiperparmetros fixos e conhecidos 0 Rp e 0 uma matriz
p p diagonal e definida positiva, e que 2 tem como densidade priori uma GI(a2 , b2 ), onde
a2 > 0 e b2 > 0 so hiperparmetros fixos e conhecidos.
No caso do modelo t-CR preciso ainda definir uma priori para . Neste sentido, existe
um grande nmero de sugestes como a clssica exponencial, a exponencial truncada, Geweke
(1993), a priori de Jeffreys, Fonseca et al. (2008) e a exponencial hierrquica, Cabral & Madruga
(2012). Esta discusso sumarizada em um estudo de simulao feito em Garay et al. (2013)
que guia nossa escolha pela exponencial truncada hierrquica, ou seja, neste trabalho assumimos
31
T exp( ; (2, ) ) e U nif (c, d), onde T exp( ; A) denota uma distribuio exponencial de
parmetro truncada no intervalo A e, U nif [c, d], uma distribuio uniforme no intervalo [c, d].
Aqui, o truncamento da exponencial serve principalmente para assegurar que todos os valores ge-
rados da amostra posteriori de caiam em um intervalo para o qual o segundo momento da t
de Student exista.
(k) (k)
Passo 1: Para i = 1, 2, . . . , n, se ci = 0 tome yi = vi . Caso contrrio, se ci = 1, gere yi
(independentemente) de uma normal truncada:
(k1) (k1)
N T (xi , 2(k1) /ui ; A),
32
esquerda.
(k)
Passo 3: Para i = 1, 2, . . . , n, gere ui independentemente de uma gama:
Q Q RR
(k)
c
(k1)
+1 1 a (k1) (yi x ) bd
(k1) 2
Ga , + i
b.
2 2 2(k)
onde o parmetro de locao desta distribuio candidata dado por (k1) = (k1)
q1 ( (k1) ) 1
q2 ( (k1) )
e o de escala por (k1) = q2 ( (k1) )
, onde:
d (k)
q1 () = log f ( | y (k) , u(k) , , 2(k) . (k) ),
d
d2 (k)
q2 () = 2
log f ( | y (k) , u(k) , , 2(k) . (k) ),
d
33
respectivamente a primeira e segunda derivadas da condicional completa de . As escolhas
dos parmetros de locao e de escala da distribuio candidata foram baseadas no trabalho
de Abanto-Valle et al. (2013) e o truncamento foi feito no intervalo (2, ) para garantir a
existncia dos primeiros dois momentos da t de Student utilizando o candidato gerado como
graus de liberdade.
O amostrado de Gibbs construdo sob o modelo N-CR como o anterior, porm considerando
ui = 1 em todos os passos e iteraes e descartando-se os passos 3, 5 e 6.
2.4.2 Aplicao I
34
Seo 1.5), R, foi calculada para avaliar a convergncia da cadeia. Os resultados esto mostrados
na Tabela 2.1
Modelos
N-CR t-CR
Tabela 2.1: Insulation life data with censoring times. Mdia a posteriori, desvio padro posteriori
(SD), intervalo HPD (95%) e estatstica de Gelman-Rubin (R) sob os modelos N-CR e t-CR.
Como o valor estimado para 1 positivo nos dois modelos, podemos concluir que o logaritmo
na base 10 do tempo de vida til do isolamento (e, consequentemente, o prprio tempo de vida)
diminui conforme aumenta-se a temperatura do teste (note que a varivel explicativa funo de-
crescente da temperatura). Desta forma, para uma dada temperatura t, o tempo mdio de vida
estimado em 106.498+1674/(t+273.2) pelo modelo N-CR e em 106.372+1515/(t+273.2) pelo modelo t-CR.
Note que o valor alto estimado para sob o t-CR indica que o modelo N-CR (seu caso limite
quando ) pode ser adequado para este conjunto de dados.
Na Tabela 2.2 mostramos a comparao entre a adequao dos dois modelos ajustados atravs
dos critrios descritos na Subseo 1.6.2. Todos os critrios utilizados do preferncia para o ajuste
promovido pelo N-CR, embora seus valores no apresentem uma diferena to grande comparados
com os calculados sob o t-CR. Os p-valores Bayesianos no indicam m especificao de nenhum
dos dois modelos.
No intuito de identificar observaes que exercem alguma influncia desproporcional na infe-
rncia final, calculamos as medidas de divergncia de Kullback-Leibler, a distncia J e a distncia
L1 (veja Subseo 1.7), apresentadas nos grficos da Figura 2.2. Estas medidas no identificaram
nenhuma observao influente no conjunto de dados, para qualquer um dos dois modelos ajustados.
35
Modelo LPML DIC EAIC EBIC WAIC1 WAIC2 pB
N-CR -23.164 46.132 44.642 48.019 45.914 46.288 0.405
t-CR -23.422 46.912 46.327 51.393 46.483 46.812 0.530
Tabela 2.2: Insulation life data with censoring times. Comparao entre os modelos N-CR e t-CR.
NCR tCR
0.50
0.50
Divergncia KL
Divergncia KL
0.25
0.25
0.00
0.00
0 10 20 30 40 0 10 20 30 40
Index Index
NCR tCR
0.6
0.6
Distncia J
Distncia J
0.3
0.3
0.0
0.0
0 10 20 30 40 0 10 20 30 40
Index Index
NCR tCR
0.8
0.8
Distncia L
Distncia L
0.4
0.4
0.0
0.0
0 10 20 30 40 0 10 20 30 40
Index Index
Figura 2.2: Insulation life data with censoring times. Divergncia de Kullback-Leibler e distncias
J e L1 sob os modelos N-CR e t-CR.
36
A avaliao da qualidade das estimativas pontuais obtidas com o amostrador de Gibbs e da
robustez dos modelos N-CR e t-CR ser feita juntamente com a dos modelos assimtricos no
prximo captulo (Sees 3.5), atravs de um estudo de simulao.
Nesta Seo desenvolveremos o algoritmo EM para fazer inferncia para os modelos N-CR e
t-CR sob um ponto de vista frequentista (veja Seo 1.4 para mais detalhes sobre este algoritmo).
Discutiremos diagnstico de influncia para estes modelos com base em tcnicas de deleo de ca-
sos e influncia local. A performance dos dois modelos e a qualidade das estimativas obtidas com
o algoritmo EM sero ento avaliados atravs de estudos de simulao. Por fim, as tcnicas aqui
desenvolvidas sero aplicadas em um conjunto de dados reais. No intuito de simplificar a notao,
nesta Seo denotaremos respectivamente por E [Y ] e por V ar [Y ], a esperana e varincia de
Y calculadas sob a suposio de que a distribuio de Y indexada pelo vetor de parmetros ,
quando esta for uma informao relevante.
Os modelos N-CR e t-CR j foram definidos anteriormente na Seo 2.3, portanto, comearemos
esta Seo enunciando alguns resultados que sero bastante teis na construo do algoritmo EM
para os modelos N-CR e t-CR. Os dois lemas seguintes encontram-se demonstrados em Gen (2013)
(veja tambm Kim, 2008a) e apresentam os dois primeiros momentos das distribuies Normal e
t de Student truncadas (veja a Subseo 1.3.2 para a definio deste tipo de distribuies).
() ()
EY [Y ] = + ,
() ()
# $ # $
2 2 2 () () + 2 () () + () ()
EY [Y ] = + ,
() ()
onde = a
e= b
.
37
Lema 2. Se Y Tt(, 2 , ; (a, b)), ento:
EY [Y ] = + G() ( + 2 )(1)/2 ( + 2 )(1)/2 , > 1,
; <
2 2 2 2 (1)/2 2 (1)/2
EY [Y ] = + A() + G() ( + ) ( + )
+2G() ( + 2 )(1)/2 ( + 2 )(1)/2 , > 2,
A B
T ( ; 0, 1, ) T ( ; 0, 1, ) (( 1)/2) /2
onde A() = , G() = ,
2 T (; 0, 1, ) T (; 0, 1, ) 2(T (; 0, 1, ) T (; 0, 1, )) (/2) (1/2)
= a , = b , = , = .
(2)/ (2)/
38
2.5.1 Construo do algoritmo EM
2
Yi |Ui = ui N(xi , u1
i ), (2.5.1)
onde Ui = 1 com probabilidade 1 sob o modelo N-CR e Ui G(/2, /2) sob o modelo t-CR, para
i = 1, 2, . . . , n.
Assim como no estudo de inferncia Bayesiano feito Seo 2.4, tambm no caso frequentista a
chave para o desenvolvimento do algoritmo de estimao ser considerar os dados aumentados,
isto , considerar que o vetor de variveis sujeita censura Y = (Y1 , Y2 , . . . , Yn ) e, no caso do
modelo t-CR, tambm o vetor de variveis latentes U = (U1 , U2 , . . . , Un ) poderiam ser de fato ob-
servados. Sob este esquema, usamos a Equao (2.5.1) para obter a funo de log-verossimilhana
39
completa, dada por:
n n 2 n n
1 n
2
n
c (; y, u) = log(2) log + log ui 2 ui (yi xi ) +
log h(ui ), (2.5.2)
2 2 2 i=1 2 i=1 i=1
onde h(ui ) a densidade de Ui , isto , 11{1} (ui ) se estamos trabalhando sob o N-CR ou a
densidade G(/2, /2), se sob o t-CR, para i = 1, 2, . . . , n.
No que segue, o sobrescrito (k) indica a estimativa do respectivo parmetro na ksima iterao
do algoritmo. No passo E do algoritmo EM, obtemos a funo Q(| (k) ):
j que E(k) [log Ui |v] e E(k) [log h(Ui )|v] dependem somente de , que suposto conhecido. Desta
forma, como o interesse maximizar a funo Q(| (k) ) em relao a , podemos omitir os termos
constantes em e escrever tal funo de uma forma mais sinttica:
n 1 n
Q(| (k) ) = log 2 2 E2i ( (k) ) 2E1i ( (k) )xi + E0i ( (k) )(xi )2 . (2.5.4)
2 2 i=1
Os dois seguintes Lemas tm como intuito apresentar o formato das esperanas Esi ( (k) ) sob os
modelos N-CR e t-CR.
Lema 4. Suponha que Y t(, 2 , ), de forma que vale a representao estocstica apresentada
na Definio 1, com U G(/2, /2). Ento:
+1
E[U |Y = y] = , (2.5.5)
+ d2 (y)
( + 1)( + 3)
E[U 2 |Y = y] = ! " , (2.5.6)
+ d2 (y) 2
2( + 1)
V ar[U |Y = y] = , (2.5.7)
+ d2 (y)
40
Prova:
Para m = 1, 2, temos que:
1
E[U |y] =
m
uf (y|u)f (u) du
f (y)
Y C DZ
(/2) (/2) ] u (y ) 2
^
= exp +
+1+2m
1
u 2 du
2 2 f (y) (/2) [ 2 2 2 \
C D(+1)/2 ; <
(/2)(+1)/2 d2 (y) u
= 1+ exp d2 (y) + du.
+1+2m
1
1 2 u 2
+1 2
2
Defina:
+ 1 + 2m 1
a= e b= + d2 (y) ,
2 2
ento:
A B(+1)/2
(/2)(+1)/2 2b
E[U |y] =
m 1 2 ua1 exp{b u} du
+1
2
A B(+1)/2
(/2)(+1)/2 2b (a)
= 1 2
+1 ba
2
A BA Bm
(/2)m +1 d2 (y)
= +m 1+ .
( +1
2
) 2
Simplificando a ltima equao para m = 1 e m = 2 obtemos as expresses para E[U |Y = y] e
E[U 2 |Y = y]. A V ar[U |Y = y] pode ento ser facilmente calculada atravs da relao: V ar[X] =
E[X 2 ] E2 [X].
Lema 5. Considere o modelo de regresso para respostas censuradas definidos em (2.3.1) e (2.3.2)
e suponha que Yi admite a representao estocstica dada na Definio1, de forma que, sob os
modelos N-CR e t-CR, vale o resultado em (2.5.1). Seja Esi ( (k) ) conforme definido em (2.5.3),
ento, para s = 0, 1, 2:
41
Se a isima observao censurada:
# $
Esi ( (k) ) = E(k) Yis |Yi Ai , sob o modelo N-CR, (2.5.10)
C D
(k) ( + 1)Yi s
Esi ( ) = E(k) |Yi Ai , sob o modelo t-CR, (2.5.11)
+ d2 ( (k) , Yi )
Prova:
Primeiro, suponha que estamos trabalhando sob o modelo N-CR, de forma que a distribuio
de Yi seja uma N (x
i
(k)
, 2(k) ) e que Ui = 1 com probabilidade 1 na Definio 1, i = 1, 2, . . . , n.
Desta forma, se a isima observao no censurada, Yi = Vi e Esi ( (k) ) = E(k) [Yis |Yi = vi ] = vis ,
para s = 1, 2. Agora, se a isima observao censurada, Yi Ai , onde Ai como especificado no
Lema 5, portanto Esi ( (k) ) = E(k) [Yis |Yi Ai ]. Esta esperana corresponde ao ssimo momento
de uma distribuio N T (x
i
(k)
, 2(k) ; Ai ), que pode ser facilmente calculado atravs do Lema 1.
Suponha agora que estamos trabalhando sob o modelo t-CR, ento Yi t(x
i
(k) 2(k)
, ) e
Ui G(/2, /2), i = 1, 2, . . . , n. Se a isima observao no censurada, Yi = Vi e:
vi x (k)
onde d( (k) , vi ) = i
(k)
e a Equao (2.5.12) foi obtida utilizando o Lema 4.
Por outro lado, se a observao i for censurada, temos que Yi Ai , onde Ai como especificado
42
no Lema 5. Desta forma:
onde a Equao (2.5.14) vem do fato de que, se Yi estivesse disponvel, seria uma realizao
de uma distribuio t(xi , 2 , ) e a integral mais interna da Equao (2.5.13) seria igual
esperana E(k) [Ui |Yi = yi ], dada no Lema 4. Finalmente, a esperana em (2.5.15) pode ser
calculada facilmente atravs do Lema 3, j que a distribuio de Yi |Yi Ai uma Tt(xi , 2 , ; Ai ).
Aps determinarmos estas esperanas, maximizar a funo Q(| (k) ), relativamente simples,
bastando-nos igualar a 0 as primeiras derivadas parciais desta funo em relao a e a 2 (e veri-
ficar que de fato os argumentos encontrados so pontos de mximo atravs da anlise das derivadas
segundas desta funo), de forma que os argumentos encontrados neste processo de maximizao
consistem no passo M do algoritmo. Desta forma, considerando a funo Q(| (k) ) dada na Equa-
o (2.5.4), temos que a iterao (k + 1) do algoritmo EM pode ser sumarizada da seguinte forma:
Passo E: Dado = (k) , calcule Esi ( (k) ) para i = 1, 2, . . . , n e para s = 0, 1, 2, utilizando o Lema
5.
Passo M : Atualize o valor de (k) maximizando Q(| (k) ) em relao a , que leva s seguintes
expresses:
Q R1
n n
(k+1)
= a E0i ( (k) )xi x b ixi E1i ( (k) ), (2.5.16)
i=1 i=1
(k+1) 1n
(k+1) (k+1) 2
2 = E2i ( (k) ) 2E1i ( (k) )xi + E0i ( (k) )(xi ) . (2.5.17)
n i=1
43
Este processo deve ser repetido at que alguma distncia envolvendo duas avaliaes sucessi-
vas da log-verossimilhana seja pequena o suficiente, como por exemplo, ||( (k+1) ) ( (k) )|| ou
||( (k+1) )/( (k) ) 1||.
44
(veja a Seo 1.4). Desta forma, o vetor score dado por:
(; v)
w(v; ) = = log f (y; ) dy
R
s
(y;
f ) dy
= sR (2.5.21)
R f (y; ) dy
s
f (y;)
R f (y;) f (y; ) dy
= (2.5.22)
f (v; )
c (; y) f (y; )
= dy
R f (v; )
C D
c (; y)
= EY |V |v , (2.5.23)
onde f (y; ) representa a primeira derivada de f (y; ) com relao a , a Equao (2.5.22) foi
e
C D
c (; Yi , Ui )
w2 (vi ; ) = E |Vi = vi
2
1 1 1 2
2
= + E2i () 2x
E1i () + (x
) E0i () , (2.5.25)
2 2 2 4 i i
onde as esperanas Esi () = E[Yis Ui |Vi = vi ], para s = 0, 1, 2, so dadas para os modelos N-CR e
t-CR no Lema 5.
45
a matriz de informao em-
Substituindo por sua estimativa de mxima verossimilhana, ,
prica observada pode ser calculada atravs das Equaes (2.5.18), (2.5.24) e (2.5.25). Finalmente,
a matriz de varincia-covarincia do estimador de mxima verossimilhana de estimada como
Ie1 ().
46
ento o isimo caso considerado influente no processo de estimao e requer ateno especial.
Como a obteno dos valores i necessria para todo i {1, 2, . . . , n}, o esforo computacional
necessrio pode ser bastante grande j que tais estimativas so alcanadas atravs de um algoritmo
iterativo. Para tentar driblar este problema, apresentamos i
, uma pseudo-aproximao de i
que pode ser obtida em um nico passo (veja Cook & Weisberg, 1982):
i
= + {Q(| 1 Q (|
)}
i
),
(2.5.26)
onde
2 Q(|) = Qi (|) |
Q(| =
) | e Q ( )
| (2.5.27)
,
=
i =
so respectivamente a matriz Hessiana e o vetor gradiente da funo Q(|) avaliados em = ,
2 Q(|)
1 n
x ,
Q (| =
) | = E0i ()xi i (2.5.30)
= 2 i=1
2 Q(|)
Q2 (|
)}
= |
2 C2 = D
1 n
2 1 2
2
= 1 E2i () 2E1i ()xi + E0i ()(xi )
, (2.5.31)
2 4 i=1 2
2 Q(|)
1 n
Q (|)} =
2
| = x E1i () 0i
x .
E ()x (2.5.32)
2 =
i i i
4 i=1
47
(k) (k)
Utilizando as expresses dadas em (2.5.16) e (2.5.17) com a substituio de (k) = ( , 2 )
por ,
pode-se mostrar que Q 2 (|
um vetor pdimensional nulo. Isto significa que a matriz
)}
onde Q (| e Q 2 (|
)
so dados em (2.5.30) e (2.5.31), respectivamente.
)
Com estes resultados, podemos aplicar a aproximao dada em (2.5.26) e obter frmulas con-
cisas para as aproximaes de i = ( i , 2 i ) , i = 1, 2, . . . , n,. O Teorema seguinte nos
mostra esta relao entre as estimativas paramtricas obtidas com o conjunto de dados completo
e excluindo-se dele a isima observao. Sua prova ser omitida pois trata-se simplesmente de
manipulaes algbricas.
Dado o resultado apresentado no Teorema 2, resta-nos agora escolher mtricas adequadas para
comparar as estimativas i e ,
a fim de acessar a influncia que a isima observao exerce
sobre a inferncia final. Baseando-nos na mtrica proposta por Zhu et al. (2001), iremos considerar
primeiramente a distncia generalizada de Cook, definida por:
GDi = (i )
{Q(|
)}(
),
i
i = 1, 2, . . . , n. (2.5.33)
48
Substituindo (2.5.26) em (2.5.33), obtemos a seguinte aproximao para esta mtrica:
GDi = Qi (|
)
{Q(| 1 Q (|
)}
i
),
i = 1, 2, . . . , n.
Uma vez em que Q(| uma matriz bloco-diagonal, GD pode ser decomposta na soma:
)
i
onde
GDi ( ) = Qi (| {Q (|
)
)}
1 Q
i (|)
S T1
1 n
x V E
=
E(1)i U E0i ()xi (1)i
i e
2 i=1
GDi ( 2 ) = Qi2 (| {Q 2 (|
)
1 Q 2 (|
)}
i
)
C D
1
n
2 1 2
2 1
= 1 E2i ()
2E1i ()x
+ E0i ()(x
)
22
i i
i=1 2
so medidas da influncia exercida pela isima observao nas estimativas dos parmetros e
2 , respectivamente, funcionando como verses da distncia generalizada de Cook para cada um
destes parmetros.
Outra mtrica que pode ser utilizada para nosso objetivo principal, que comparar i e ,
a chamada distncia-Q. Esta medida, bastante anloga distncia pela verossimilhana LDi
(Cook & Weisberg, 1982), definida como:
QDi = 2{Q(|
)
Q( |)}.
i
(2.5.34)
Note que necessrio especificar um ponto limite acima do qual estas mtricas classificam
uma observao como influente. Neste sentido, faremos aqui uma adaptao da sugesto dada por
Barros et al. (2010) e usaremos 2(p + 1)/n como ponto limtrofe para GDi , 2p/n para GDi ( ) e
2/n para GDi ( 2 ), para i = 1, 2, . . . , n, onde p a dimenso do vetor .
49
Medidas de influncia local
= E [ (, !; Y, U )|v] e
Q(, !|) c
(!) = arg max Q(, !|)
= ( (!) ,
2 (!)) .
O grfico de influncia ento definido como (!) = (! , fQ (!)) , onde fQ (!) a chamada
funo de afastamento, dada por:
fQ (!) = 2 Q(|
)
Q((!)|
.
)
Seguindo o trabalho de Cook (1986) e Zhu & Lee (2001), a curvatura normal CfQ ,d do grfico
(!) no ponto ! = ! 0 na direo de um vetor unitrio d pode ser utilizada para sumarizar
o comportamento local da funo de afastamento (para detalhes sobre a definio de curvatura
normal de superfcies, veja do Carmo (2006)). Sejam
2 Q(, !|)
2 Q((!)|
)
!= | e Q! 0 = |! =! 0 .
! = !!
50
onde Q(| como definido em (2.5.27).
)
Seguindo o mesmo procedimento adotado por Cook (1986), a informao proveniente da ma-
triz simtrica Q! 0 bastante til para detectar observaes influentes. Primeiro, considere a
decomposio espectral desta matriz:
g
2Q! 0 = k "k "
k,
k=1
e seja M (0)l =
qr 2 a lsima componente do vetor M (0). A deteco de observaes in-
k=1 k kl
Utilizar a curvatura normal em sua forma original para avaliar a influncia de uma determinada
observao pode gerar alguns problemas, uma vez em que CfQ ,d pode assumir qualquer valor na
reta e no invariante a mudanas de escala uniformes. Desta forma, com base no trabalho de
Poom & Poon (1999) e de Zhu & Lee (2001), utilizaremos a curvatura normal conforme, dada por:
CfQ ,d
BfQ ,d = ,
tr[2Q! 0 ]
cujo clculo bastante simples e tambm possui a propriedade de que 0 BfQ ,d 1. Seja dl um
vetor de zeros, exceto pela lsima componente que igual a 1. Zhu & Lee (2001) mostraram que
M (0)l = BfQ ,dl para todo l. Desta forma, pode-se obter M (0)l via BfQ ,dl .
At o momento no foi dada nenhuma sugesto na literatura sobre uma regra geral para deter-
minar um ponto limtrofe para M (0)l , acima do qual a observao correspondente seria considerada
51
influente. Denote ento por M (0) e por SM (0) a mdia e o desvio padro de {M (0)l ; l = 1, . . . , g},
respectivamente. Utilizando o fato de que os vetores "k so ortonormais, no difcil provar que
M (0) = 1/g. Poom & Poon (1999) propuseram utilizar 2M (0) como um ponto limtrofe para
M (0), enquanto Zhu & Lee (2001) propuseram utilizar M (0) + 2SM (0) como tal, a fim de levar
em considerao tambm a varincia de {M (0)l ; l = 1, . . . , g}. H inmeras escolhas de funes
de M (0) que servem como ponto limtrofe, de fato, segundo Lee & Xu (2004), a escolha de M (0)
como tal funo subjetiva, por isso eles propuseram utilizar M (0) + c SM (0), onde c uma
constante apropriada cuja escolha depende da aplicao. Neste trabalho adotaremos esta sugesto
utilizando c = 3.5.
!0 = ( 2 ) ,
,
onde
2 Q(, !|)
2 Q(, !|)
= | Rpg e 2 = | R1g .
! =(! 0 ) 2 ! =(! 0 )
52
Ponderao de casos
Neste esquema de perturbao temos que ! 0 = (1, . . . , 1) = 1n . Alm disso, possvel mostrar
que a influncia local sob ponderao de casos equivalente ao mtodo de deleo de casos discutido
anteriormente, portanto (! 0 ) = and 2 (! 0 ) = 2 . A funo Q(, !|),
a verso perturbada
de Q(|),
dada por:
n
n
= E [ (, !; Y , U )|v] =
Q(, !|) i E[ci (; Y , U )|v] = i Qi (|),
c
i=1 i=1
onde Qi (|)
representa o termo da funo Q(|)
relativo isima observao, isto :
= 1 log 2 1 E ()
2
Qi (|) 2i
2E ()x
1i
+ E ()(x
0i
) .
2 2 2 i i
1
= X diag{E1 ()}
A ,
2
I J
1 1
2 = 1n B ,
2 2 2
para j = 1, 2, X uma matriz com linhas dada pelos vetores xi (isto , a matriz de desenho) e
B um vetor ndimensional com coordenadas Bi = E2i ()
2E ()x
1i
+ E ()(x
i 0i
i ) , para
2
i = 1, 2, . . . , n.
Perturbao na escala
A fim de identificar observaes que influenciam de forma significativa nas estimativas pa-
ramtricas quando a hiptese de homocedasticidade no vlida, consideramos a perturbao
2 (i ) = i1 2 , para i = 1, 2, . . . , n., isto , sob esta perturbao cada erro aleatrio do modelo
dado na Equao (2.3.1) segue uma distribuio Normal ou t de Student (dependendo do modelo
assumido) com parmetro de escala 2 (i ), gerando um cenrio homocedstico. claro que o
53
vetor relacionado ao modelo no perturbado dado por ! 0 = 1n . Alm disso, Q(, !|)
como
O objetivo deste estudo de simulao comparar a sensibilidade dos estimadores EM obtidos sob
os modelos N-CR e t-CR quando ocorre uma perturbao na varivel resposta, gerando observaes
atpicas. Para isso, geramos 1000 conjuntos de dados de tamanho 100 cada sob o modelo N-CR
especificado nas Equaes (2.3.1) e (2.3.2), com i N(0, 2 ) e fixando
= (1 , 2 ) = (1, 4),
2 = 2 e x
i = (1, xi ), com xi gerado aleatoriamente de uma distribuio uniforme no intervalo
(2, 20), para i = 1, 2, . . . , n. importante destacar que estes valores foram fixados para as 1000
simulaes. Aps gerado, cada conjunto teve sua varivel resposta censurada direita a um nvel
de 8%.
Para avaliar o quanto as estimativas EM so afetadas pela presena de observaes atpicas
substitumos (em todos os 1000 conjuntos de dados) a observao y50 por y50 () = y50 , com
= 1, 2, . . . , 10. Para cada conjunto de dados obtido (incluindo os originais e aqueles com os
10 padres de perturbao) foram ajustados os modelos N-CR e t-CR, com {3, 6, 8, 10, 12}.
Estamos interessados em avaliar a mudana relativa mdia sofrida pelas estimativas como uma
funo de . Para cada um dos 1000 conjuntos de dados originais, a mudana relativa sofrida pelo
parmetro sob uma perturbao definida como:
RC() = |(()
|.
)/ (2.5.35)
onde ()
a estimativa EM do parmetro obtida com o conjunto de dados perturbado em e
com o conjunto de dados original.
,
54
A Tabela 2.3 e a Figura 2.3 descrevem os valores mdios das mudanas relativas sofridas pelos
parmetros 1 , 2 e 2 em funo de , sob cada modelo ajustado. O que observamos que, para
todos os parmetros, as mudanas relativas mdias aumentam bruscamente sob o N-CR conforme
cresce o valor de , enquanto que, sob o modelo t-CR, este aumento bastante sutil (para todos
os valores de ). Este cenrio mostra a maior sensibilidade das estimativas do modelo N-CR na
presena de observaes atpicas e a robustez do modelo t-CR para lidar com este tipo de problema.
Alm disso, pode-se notar que as estimativas dos parmetros 1 e 2 so as mais afetadas pela
presena do outlier, enquanto a de 2 se mantm mais estvel, com mudanas relativas mdias
de menor amplitude.
1 2 2
1.0
50
50
NCR NCR NCR
Mudana relativa mdia (em %)
40
tCR (=10) tCR (=10) tCR (=10)
tCR (=12) tCR (=12) tCR (=12)
0.6
30
30
0.4
20
20
0.2
10
10
0.0
0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 2.3: Estudo de simulao I. Mudana relativa mdia nas estimaes para diferentes conta-
minaes .
Neste estudo de simulao avaliaremos a qualidade do mtodo sugerido na Subseo 2.5.2 para
aproximar a varincia dos estimadores de mxima verossimilhana dos parmetros e 2 sob os
modelos N-CR e t-CR, sob diferentes nveis de censura. Para isso, fixamos 1 = 2, 2 = 1, 2 = 1
e a matriz de desenho X igual a (1
100 , t 110 ), onde t = (1.0, 1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8) e
1p um vetor pdimensional com elementos iguais a 1, e geramos geramos 1000 conjuntos de dados
de tamanho 100 segundo o modelo em (2.3.1) sob a distribuio Normal e outros 1000 tambm de
tamanho 100 sob a distribuio t-Student com graus de liberdade igual a 4. Aps gerado, cada
55
Modelos 1 2 3 4 5 6 7 8 9 10
1 N-CR 6.89 13.35 19.37 24.95 30.11 34.85 39.19 43.14 46.72 49.94
t-CR ( = 3) 2.71 4.60 5.40 5.43 5.17 4.88 4.65 4.47 4.34 4.25
t-CR ( = 6) 6.05 10.39 12.70 13.41 13.21 12.62 11.94 11.29 10.74 10.29
t-CR ( = 8) 2.60 4.82 6.32 7.09 7.32 7.25 7.04 6.78 6.51 6.25
t-CR ( = 10) 3.67 6.84 9.13 10.48 11.09 11.20 11.03 10.73 10.37 10.00
t-CR ( = 12) 0.78 1.60 2.37 2.99 3.45 3.77 3.98 4.11 4.19 4.23
2 N-CR 0.08 0.17 0.25 0.33 0.40 0.47 0.54 0.60 0.67 0.72
t-CR ( = 3) 0.05 0.09 0.11 0.11 0.10 0.10 0.09 0.09 0.09 0.09
t-CR ( = 6) 0.03 0.06 0.08 0.09 0.09 0.08 0.08 0.08 0.07 0.07
t-CR ( = 8) 0.01 0.02 0.03 0.04 0.04 0.04 0.04 0.04 0.04 0.04
t-CR ( = 10) 0.02 0.05 0.07 0.08 0.09 0.09 0.09 0.09 0.08 0.08
t-CR ( = 12) 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02
2 N-CR 1.29 3.00 5.50 9.04 13.73 19.61 26.68 34.88 44.19 54.61
t-CR ( = 3) 1.78 3.10 3.97 4.55 4.98 5.31 5.54 5.70 5.82 5.90
t-CR ( = 6) 1.60 3.17 4.57 5.74 6.70 7.47 8.07 8.52 8.85 9.09
t-CR ( = 8) 1.55 3.12 4.63 6.07 7.35 8.44 9.32 10.01 10.54 10.95
t-CR ( = 10) 1.52 3.09 4.75 6.44 8.01 9.38 10.53 11.46 12.19 12.78
t-CR ( = 12) 1.49 3.18 4.97 6.74 8.46 10.05 11.43 12.60 13.56 14.33
Tabela 2.3: Estudo de simulao I. Mudana relativa mdia nas estimaes dos parmetros 1 , 2
e 2 para diferentes contaminaes (em %).
conjunto de 100 observaes da varivel resposta foi censurado direita em nveis de 5%, 10%, 20%
e 50%.
Para cada conjunto de dados foi ajustado o modelo adequado (N-CR ou t-CR), calculando
as estimativas EM dos parmetros envolvidos, a aproximao dos desvios padres para 1 e 2
segundo os desenvolvimentos da Subseo 2.5.2 (cujo valor mdio para as 1000 amostras deno-
tado por IM SE), e tambm um intervalo de 95% de confiana para tais parmetros, utilizando a
hiptese de normalidade assinttica. Em seguida, calculamos o desvio padro observado para as
1000 estimativas de 1 e de 2 (denotado por SE), a fim de compar-lo com o IM SE calculado.
Tambm foi calculada a cobertura mdia dos intervalos calculados (supondo normalidade assint-
56
tica dos estimadores), denotada por COV, isto , a porcentagem dos 1000 intervalos de confiana
assintticos que continham o verdadeiro valor do parmetro. Os resultados esto apresentados na
Tabela 2.4, sugerindo que, de fato, o mtodo da Subseo 2.5.2 apropriado sob os dois modelos e
para os quatro nveis de censura considerados. Nota-se, no entanto, que a porcentagem de cober-
tura um pouco prejudicada para os intervalos contrudos para 2 , principalmente sob o t-CR, o
que compreensvel j que a normalidade assinttica pode no ser vlida para o estimador deste
parmetro.
N-CR t-CR
Tabela 2.4: Estudo de simulao II. Valores mdios (em 1000 amostras) do desvio padro com-
putado via matriz de informao emprica (IM SE), desvio padro observado para os estimadores
(SE), e cobertura mdia dos intervalos assintticos de 95% de confiana (COV).
2.5.6 Aplicao II
Nesta Subseo ajustaremos os modelos N-CR e t-CR via algoritmo EM ao conjunto de dados
descrito em Mroz (1987), Wage Rate. Tambm faremos um estudo de diagnstico destes modelos
57
com base na metodologia descrita nas Sees 2.5.3. O respaldo computacional desta aplicao
feito pelos pacotes CensRegMod e SMNCensReg, descritos na Subseo 4.1.3.
O conjunto de dados Wage Rate descreve os ganhos por hora (em dlares) de 753 mulheres
brancas e casadas com idades entre 30 e 60 anos no ano de 1975, sendo que 325 destas mulheres
no trabalharam neste ano e seus ganhos so tidos como 0. Algumas caractersticas pessoais e
familiares destas mulheres tambm foram gravadas e funcionaro como variveis explicativas para
o nosso modelo.
Para ajustar o modelo de regresso para dados censurados teremos como objetivo modelar
o ganho potencial destas mulheres, de forma que se um indivduo trabalhou no ano de 1975
seu ganho potencial sua prpria renda, porm, se este no for o caso, seu ganho potencial
um valor negativo, representando o quanto deixou de ganhar por no ter trabalhado. Assim, o
ganho potencial uma varivel aleatria sujeita a censura esquerda, pois s conseguimos observar
seu valor real se o indivduo exerceu alguma atividade remunerada durante o ano de 1975, caso
contrrio somente sabemos que seu ganho potencial pertence ao intervalo (, 0].
Dito isto, modelaremos a varivel censurada esquerda Yi , definida como o ganho potencial do
indivduo i em funo das variveis explicativas:
x4 : idade,
x5 : anos de estudo,
58
de forma que o vetor de covariveis para o indivduo i dado por xi = (1, x2i , x3i , . . . , x9i ), com
i = 1, 2, . . . , 753.
O algoritmo EM desenvolvido na Subseo 2.5.1 foi aplicado para ajustar os modelos N-CR
e t-CR a este conjunto de dados. Para o modelo t-CR, os graus de liberdade foram fixados em
= 2.3, escolha justificada atravs da Figura 2.4, que mostra os valores assumidos pela funo de
log-verossimilhana avaliada nas estimativas EM obtidas fixando nos valores 2, 2.1, 2.2, . . . , 10.
1299
logverossimilhana
1309
1319
1329
2.3 4 6 8 10
Na Tabela 2.5 esto apresentadas as estimativas paramtricas obtidas nos ajustes dos modelos
N-CR e t-CR via algoritmo EM, bem como a aproximao dos desvios padres para os estimadores
dos efeitos fixos, denotada por SD (veja Subseo 2.5.2). Nesta tabela podemos notar que os desvios
padres estimados sob o t-CR so sempre menores do que sob o N-CR, indicando que o modelo
t-CR produz estimativas mais precisas. Alm disso, o pequeno valor de escolhido para os graus
da liberdade da t de Student reflete um cenrio em que o modelo N-CR pode no ser o mais
adequado para este conjunto de dados, o que comprovado pelos critrios de seleo de modelos
apresentados na Tabela 2.6.
Para avaliar a adequao dos dois modelos ajustados, realizaremos uma anlise de resduos
baseada em grficos de envelope (veja Atkinson, 1985). Aqui, optamos por utilizar os resduos
deviance para gerar os envelopes pois, ao contrrio de resduos mais clssicos (como os de Pear-
son), estes so capazes de incorporar informao sobre as censuras e, segundo Ortega et al. (2003),
59
Modelos
N-CR t-CR
Tabela 2.5: Wage rates data. Resultados dos ajustes dos modelos N-CR e t-CR via algoritmo EM.
Tabela 2.6: Wage rate data. Comparao entre os modelos N-CR e t-CR.
onde F () a cdf da verso padro da densidade dos erros aleatrios (em nosso caso, N(0, 1) para o
N-CR ou t (0, 1) para o t-CR) e ci uma funo indicadora de censura, isto , ci = 1 se a isima
60
observao censurada ou ci = 0, se no . Finalmente o resduo deviance para este indivduo
definido como:
) *1/2
di = sign(mi ) 2 (1 ci ) log(1 ci mi ) + mi .
Os grficos de envelope gerados esto apresentados na Figura 2.5, onde podemos ver claramente
que o modelo t-CR se ajusta melhor aos dados do que o N-CR, apesar de ainda apresentar indcios
de m especificao (provavelmente relacionado presena de assimetria dos dados).
NCR tCR
2
1
0
Resduos deviance
Resduos deviance
0
2
1
4
2
6
3 2 1 0 1 2 3 3 2 1 0 1 2 3
Figura 2.5: Wage rates data. Grficos de envelope baseados nos resduos deviance para os ajustes
dos modelos N-CR e t-CR.
A robustez dos modelos N-CR e t-CR podem ser avaliadas atravs da influncia que uma nica
observao atpica exerce sobre as estimativas EM do vetor de parmetros . Em particular, pode-
mos investigar a mudana relativa sofrida nas estimativas de ao adicionar-se unidades em uma
nica observao yi , substituindo-se yi por yi () = yi + . Aqui, utilizaremos a mesma definio de
mudana relativa dada na Equao (2.5.35). A Figura 2.6 mostra as mudanas relativas sofridas
pelas estimativas de 1 , 2 , . . . , 9 sob ambos os modelos ao contaminarmos a observao nmero
44 (no censurada) com valores de variando entre 0 e 40 em passos de tamanho 0.5. Como
esperado, as estimativas do modelo t-CR so menos afetadas pelas contaminaes e a robustez
deste modelo em comparao com o N-CR fica mais clara medida que aumenta-se o valor de .
A fim de verificar se existem obervaes no conjunto de dados capazes de influenciar (de modo
desproporcional) os ajustes dos dois modelos, prosseguimos com a anlise de diagnstico conforme
61
1 2 3
12
18
3
8
1
6
0
0
0 10 20 30 40 0 10 20 30 40 0 10 20 30 40
4 5 6
3
3
NCR NCR NCR
3
2
2
1
1
1
0
0
0 10 20 30 40 0 10 20 30 40 0 10 20 30 40
7 8 9
6
4
2
2
0
0 10 20 30 40 0 10 20 30 40 0 10 20 30 40
Figura 2.6: Wage rates data. Mudanas relativas nas estimativas EM de sob os modelos N-CR
e t-CR, para diferentes contaminaes .
62
como influente (linha vermelha). Em todos estes cenrios podemos observar uma quantidade muito
menor de observaes influentes sob o t-CR do que sob o N-CR, refletindo mais uma vez a maior
robustez do t-CR.
0.050
0.050
1.8
1.2
0.025
0.025
GD
GD
GD
0.6
0.000
0.000
0.0
0.050
0.6
0.4
GD()
GD()
GD()
0.025
0.025
0.2
0.000
0.000
0.0
0.0250
1.2
0.8
GD(2)
GD(2)
GD(2)
0.0125
0.0125
0.4
0.0000
0.0000
0.0
Figura 2.7: Wage rate data. Na primeira linha, distncia generalizada de Cook GDi sob os modelos
N-CR e t-CR. Na segunda linha, GDi para o subconjunto de parmetros sob os modelos N-CR
e t-CR. Na terceira linha, GDi para 2 sob os modelos N-CR e t-CR.
63
NCR Ponderaao de casos tCR Ponderaao de casos
0.030
0.15
0.10
0.015
M(0)
M(0)
0.05
0.000
0.00
0.015
M(0)
M(0)
0.05
0.000
0.00
Figura 2.8: Wage rate data. Grficos de M (0)i , i = 1, 2, . . . , n, sob os esquemas de perturbao:
ponderao de casos (primeira linha) e perturbao na escala (segunda linha), para os modelos
N-CR e t-CR.
64
Captulo 3
3.1 Introduo
Conforme discutido no incio do Captulo 2, o modelo Tobit, frequentemente usado para modelar
conjuntos de dados sujeitos censura, pode no ser adequado se a varivel resposta apresentar
indcios de desvio da normalidade. Neste sentido, o captulo anterior apresentou a t de Student
generalizada como alternativa normal, visando sanar problemas relacionados existncia de
valores extremos nos dados, j que esta possui caudas mais pesadas do que a distribuio normal.
65
Neste captulo ser apresentada a classe SMSN e suas principais propriedades com o intuito
de fazer um estudo de inferncia Bayesiana para o modelo de regresso com respostas censuradas
sob esta famlia de distribuies. Em seguida, faremos a aplicao deste modelo a dados reais e
tambm desenvolveremos alguns estudos de simulao para comparar a performance dos diferentes
modelos na presena de valores extremos e de assimetria, variando o nvel de censura dos dados.
Definio 3. Uma varivel aleatria X tem distribuio skew-normal com parmetro de locao
R, de escala 2 > 0 e de forma R, denotada por X SN (, 2 , ), se sua densidade
dada por:
A B A B
2 x (x )
f (x) = , x R, (3.2.1)
aqui o parmetro de forma controla a assimetria da distribuio, de forma que valores positivos
de indicam assimetria direita e valores negativos indicam assimetria esquerda, alm disso, o
grau de assimetria da distribuio aumenta conforme aumenta-se o valor absoluto de . Se = 0
e 2 = 1, dizemos que X tem distribuio skew-normal padro com parmetro de forma .
66
SN(0,1,)
= 0
= 1
=1
= 4
=4
4 2 0 2 4
III) X
SN (0, 1, )
IV) X SN (, 2 , )
d
VII) |X|= |Z|
Prova:
No desenvolveremos a prova completa destas propriedades, porm faremos um esboo. As
propriedades de I) a IV ) seguem diretamente da densidade em (3.2.1), sendo que para as propri-
edades III) e IV ) simples utilizar o mtodo do Jacobiano para encontrar a distribuio de X
67
Uma funo no negativa g() duas vezes difencivel e com domnio em um intervalo contnuo
log-cncava se e somente se:
onde g (x) e g (x) denotam respectivamente a primeira e segunda derivada de g(x) em relao a
x. Desta forma, para provar o resultado basta-nos provar que a densidade da normal com locao
e escala 2 log-cncava, o que feito utilizando o terceiro resultado acima. As propriedades
de V I) a IX) so provadas em Azzalini (1985).
Uma discusso mais detalhada das propriedades da distribuio skew-normal podem ser vistas
em Bayes (2005) e Basso (2009).
tao:
1 2
X = + |T0 |+(1 2 )1/2 T1 , (3.2.3)
onde =
1+2
.
Prova:
Seja Y como em (3.2.3) e tome = 0 e 2 = 1. Note que Y | |T0 |= t N (t, (1 2 )) com
|T0 | T N (0, 1; [0, )). Ento, pelo Lema A.2 apresentado em Basso (2009), temos que:
f (y) = (x; t, (1 2 ))2(t)dt
0
= 2 (x; 0, 1)(t; x, (1 2 ))dt
0
x
= 2(x; 0, 1) ( ),
1 2
68
Proposio 5. A funo geradora de momentos da varivel aleatria Y SN (, 2 , ) dada
por:
t2 2
MY (t) = 2et+ 2 (t).
Prova:
Provemos primeiramente o resultado para a skew-normal padro. Assim, considere Z SN (0, 1, ).
Utilizando o Lema A.1 apresentado em Basso (2009), com a = t, B = , = = 0 e = = 1
MZ (t) = EZ [eZt ] = 2 ezt (z) (z)dz
1 1 2
= 2 e 2 (z 2zt) (z)dz
2
2 1 1 2
= 2et /2 e 2 (zt) (z)dz
2
2 /2
= 2et (x) (x + t)dx, x = z t, dx = dz
2 /2
= 2et E[ (x + t)]
2 /2
= 2et EX [ (X + t)]
2 t 0
= 2et /2 ( )
1 + 2
2 /2
= 2et (t), = .
1 + 2
Corolrio 1. Se Y SN (, 2 , ), ento:
A B
2 2 2
E[Y ] = + , V ar[Y ] = 1 2 .
69
Uma vez definida a skew-normal, podemos agora definir a classe de distribuies de mistura de
escala skew-normal, objetivo principal desta Seo.
Definio 4. Dizemos que uma varivel aleatria Y possui densidade pertencente famlia de
distribuies de mistura de escala skew-normal se ela pode ser escrita da seguinte forma:
Y = + (U )1/2 Z, U Z, (3.2.4)
iid
onde = , = (1 2 ) 2 , =
1+2
, T = (U )1/2 |T0 |, T0 , T1 N (0, 1) e || denota valor
absoluto.
A varivel aleatria U pode ser discreta ou contnua e sua distribuio determina diretamente a
distribuio de Y . Neste captulo focaremos em trs membros da classe de distribuies SMSN: a
skew-normal, denotada por SN (, 2 , ), a skew-t, denotada por St(, 2 , , ) e a skew-slash,
denotada por SSL(, 2 , , ). Existem outros exemplos de distribuies pertencentes a esta
famlia, tal como a skew-normal-contaminada, a skew-Cauchy, a skew-Perason VII e todas as
verses simtricas das mesmas. Usando a representao dada na Definio 4 fcil ver que
70
Y |U = u SN (, (u) 2 , ), portanto, integrando a densidade conjunta de (Y, U ) em relao
a U obtemos a densidade marginal de Y , dada por:
A B
2 (y )
f (y) = 2 (y; , (u) ) dH(u), (3.2.6)
0 (u)1/2
Y |T = t, U = u N ( + t , (u) ),
f (y) = f (y|t, u)f (t|u)f (u) dt du
= 2 (y ; + t , (u) ) (t ; 0, (u)) dt dH(u). (3.2.8)
0 0
Proposio 6. Seja Y SMSN(, 2 , ; H). Ento, a cdf da varivel aleatria Y pode ser escrita
de duas formas distintas:
1 y 2
a) F (y) = 2 (t ; 0, 1) 1 1 + 2 t ; 0, 1 dt dH(u), (3.2.9)
0 0 (u)1/2
1 2
b) F (y) = 2 2 y(u) ; , dH(u), (3.2.10)
0
Q R
2
c d
onde y(u) = ((u)1/2 y, 0) , = (, 0) , =c
a
d.
b
1
Prova:
71
Seja Y SM SN (, 2 , ; H). Dada a pdf de Y na Equao (3.2.8), temos que:
y
F (y) = f (z)dz
y
= 2(z ; + t, (u) )(t ; 0, (u)) dt dH(u) dz
0 0
C D
y
= 2 (z ; + t, (u) ) dz (t ; 0, (u)) dt dH(u) (3.2.11)
0 0
C D
y
1/2
= 2 (z ; + (u) x, (u) ) dz (x ; 0, 1) dx dH(u) (3.2.12)
0 0
Q R
y (u)1/2 x
= 2 a ; 0, 1b (x ; 0, 1) dx dH(u)
0 0 (u)1/2 1/2
Q R
y
= 2 a x ; 0, 1b (x ; 0, 1) dx dH(u)
0 0 (u) 1
1/2 2 1 2
Q R
(y ) 1 + 2
= 2 a x ; 0, 1b (x ; 0, 1) dx dH(u), (3.2.13)
0 0 (u)1/2
onde a Equao (3.2.13) consequncia das relaes = , = 2 (1 2 ) e = / 1 + 2 .
Desta forma, est provada a parte (a) da Proposio 6. A parte (b) obtida se continuarmos
desenvolvendo a Equao (3.2.11) escrevendo a expresso completa para ():
y
1
F (y) = 2
0 0 2(u) 1/2
I J
1 2 2 2
exp (z ) + ( + )t 2(z ) t dz dt dH(u)
2(u)
y
1
= 2
0 0 2(u) 1 2
Y C D Z
1 ] (z )2 t2 2 ^
exp + (z )t dz dt dH(u)
[ 2(1 2 ) (u) 2 (u) (u) \
y
1
= 2
0 0 2||1/2
Y Q R Q RZ
_
_ _
_
_ _
1c z d
] c z d^
exp c d 1 c d dz dt dH(u) (3.2.14)
_
_
_ 2 a
t
b a
t
b_
_
_
[ \
! "
Note que, se considerarmos o vetor de variveis aleatrias (X, W ) N2 (, 0) , , ento a
integrao em z e t na Equao (3.2.14) representa P(X y , W 0) , que, por simetria,
72
equivalente a P(X y , W 0). Desta forma, podemos reescrever esta Equao da seguinte
forma:
F (y) = 2 2 (y ; , ) dH(u),
0
Prova:
Da Definio 4 temos que Y |U = u SN (, u1 2 , ). Considerando ento propriedades da
esperana condicional e a Proposio 5, temos que:
73
Prova:
Da Definio 4, do Corolrio 1 e da suposio de independncia entre U e Z, temos que:
EY [Y ] = + E(Z,U ) [U 1/2 Z]
Apresentaremos agora alguns casos particulares da classe SMSN, com os quais trabalharemos
no restante deste captulo. Para cada um dos casos desenvolveremos as respectivas pdf, cdf e a
esperana km = EU [U m/2 ], m N, til na implementao do amostrador de Gibbs para o modelo
de regresso censurado sob esta famlia de distribuies.
Skew-normal: Este caso obtido quando U uma varivel aleatria degenerada em 1, isto
, quando P (U = 1) = 1, desta forma, km = 1. A densidade de Y SN (, 2 , ) definida
em (3.2.1) e, usando a parte (b) da Proposio 6, sua cdf dada por:
1 2
F (y) = 2 2 y ; , , (3.2.16)
Q R
2
c d
onde y = (y, 0) , = (, 0) e =c
a
d.
b
1
74
A B +1 Q R
2 ( +1 ) d(y)2 2
+1
f (y|, 2 , ; ) = 2 1+ T1 a d(y) ; 0, 1, + 1b , y R,
( 2 ) + d(y)2
(3.2.17)
onde d(y) = (y )/. A demonstrao deste resultado encontra-se no Apndice A. Um
caso particular da distribuio skew-t a skewCauchy, obtida quando = 1. Alm disso,
quando , obtemos a skew-normal como caso limite.
F (y) = 2 T2 (y ; , , ) , (3.2.18)
onde y(u) , e so como na Proposio 6 (com (u) = 1/u). A skew-slash tem caudas
mais pesadas do que a skew-normal, tendendo a esta distribuio quando . Aplicaes
desta distribuio podem ser encontradas em Wang & Genton (2006).
A Figura 3.2 compara as distribuies skew-normal, skew-t e skew-slash para diferentes valores
de e . No grfico da esquerda consideramos = 2 e = 3, no grfico do centro, = 0 e = 4 e
no grfico da direita, = 2 e = 5. Nestes grficos podemos ver claramente que as distribuies
75
skew-t e skew-slash possuem caudas mais pesadas do que a skew-normal. importante destacar
que todos os trs grficos tm o eixo y com a mesma escala.
4 2 0 2 4 4 2 0 2 4 4 2 0 2 4
Mtodos para estimar os parmetros das distribuies SMSN podem ser encontrados em Basso
et al. (2010), a partir do mtodo dos momentos, e em Garay (2009), a partir do algoritmo EM.
Nestas duas referncias a estimao feita supondo um valor conhecido, porm possvel adaptar
o algoritmo EM de Garay (2009) para estimar este parmetro: em cada iterao, aps calcular o
valor das estimativas de , 2 e , a estimativa de escolhida como o argumento que maximiza a
funo de log-verossimilhana vista somente como funo de , substituindo os outros parmetros
por suas estimativas atuais. Esta verso do algoritmo EM conhecida como ECM (expectation
conditional maximization).
76
EY [Y ] = x
i .
Nesta Seo iremos fazer inferncia Bayesiana para o modelo de regresso com respostas cen-
suradas sob trs distribuies da famlia SMSN: a skew-normal, a skew-t e a skew-slash. Para
isto, seguindo a sugesto de Cancho et al. (2011), consideraremos uma reparametrizao da classe
SMSN baseada na representao 3.2.5, o que simplificar a construo do algoritmo mencionado.
Seja ento ! = (
, , , ) o vetor de parmetros com o qual trabalharemos. importante
destacar que existe uma correspondncia
um a um entre este vetor e o vetor de parmetros original
1 2 2
= , 2 , , , uma vez que = R e = > 0, sendo possvel obter 2 e
2 + 1 2+1
f (!) = f ( ) f ( ) f ( ) f () . (3.3.1)
77
Embora a hiptese de independncia possa no ser realista para alguns conjuntos de parmetros,
ela leva a propriedades interessantes para as distribuies posteriori, como a conjugao, e fa-
cilita o desenvolvimento de um algoritmo para amostrar destas distribuies, alm disso, se esta
hiptese realmente no for verdadeira, ela ser corrigida posteriori e no ir prejudicar o processo
de inferncia.
Yi |Ui = ui , Ti = ti N(xi + i ),
ti , u1
Ti |Ui = ui TN(, u1
i ; (, )),
Ui H(|),
78
Passo 1: Para i = 1, 2, . . . , n, se isima observao no for censurada, faa yi(m) = vi , caso contrrio
gere yi(m) (independentemente) de f (yi | vi , ti , ui , , , ), que uma distribuio normal
truncada:
TN(x
i (m1) + (m1) ti(m1) , (m1) /ui(m1) ; A),
1 2
Passo 3: Gere (m) de f ( | v, y, t, u, , , ), que Np ( m 1), (m1)
, onde
Q R
X(m1) y(m1) (m1) X(m1) t(m1)
(m1) =
(m1)
a 1 0 +
0 b,
(m1) (m1)
Q R1
X(m1) X(m1)
(m1) = a + 1 b
0 ,
(m1)
t(m1) o vetor composto por ti(m1) = ui(m1) ti(m) , i = 1, 2, . . . , n, y(m1)
o vetor com
elementos yi(m1)
= ui(m1) yi(m) , i = 1, 2, . . . , n e X(m1)
a matriz composta por linhas
dadas pelos vetores xi(m1) = ( ui(m1) xi1 , . . . , ui(m1) xip ) para i = 1, 2, . . . , n.
1 2
Passo 4: Gere (m) de f ( | v, y, t, u, , , ), que N (m1) , 2(m1) com
Q R
2 1 n
(m1) = (m1) a + ui(m1) ti(m) (yi(m) x (m) )
b,
2 (m1) i=1 i
Q R1
1 n
1
2(m1) = a ui(m1) t2i(m) + 2 b .
(m1) i=1
79
Passo 6: Para o caso skew-normal, faa ui(m) = 1, i = 1, 2, . . . , n. Para a skew-t e skew-slash gere
ui(m) para i = 1, 2, . . . , n (independentemente) de f (ui | vi , yi , ti , , , , ), que :
Passo 7: Para os casos skew-slash ou skew-t, precisamos ainda gerar (m) e (m) , atravs do seguinte
procedimento:
f ( | v, y, t, u, , , , )
Q! " Rn Y Q RZ
/2 /2 b ] 1 n ^ n
exp a ui(m) + (m) b 11(2,) (). (3.3.2)
2
1
a ui(m)
(/2) [ 2 i=1 \
i=1
d
q1 () = log f ( | y(m) , t(m) , u(m) , (m) , (m) , (m) , (m) ),
d
d2
q2 () = log f ( | y(m) , t(m) , u(m) , (m) , (m) , (m) , (m) ),
d 2
80
respectivamente a primeira e segunda derivadas da condicional completa de . As
escolhas dos parmetros de locao e escala da distribuio candidata foram basea-
das no trabalho de Abanto-Valle et al. (2013) e o truncamento foi feito no intervalo
(2, ) para garantir a existncia dos primeiros dois momentos da t de Student uti-
lizando o candidato gerado como graus de liberdade. Assim, (m) tomado como o
valor candidato gerado com probabilidade:
I J
f ( )g((m1) )
((m1) ) = min f ((m1) )g( ) ; 1 ,
forma independente a partir de uma uniforme em (1, 3), para i = 1, 2, . . . , n; supomos tambm
que
= (1 , 2 ) = (10, 15). Aps gerado, o conjunto de dados teve sua varivel resposta
censurada esquerda a um nvel de 10% do total de observaes. Perturbamos ento as observaes
#3 (y3 = 43.22178), #66 (y66 = 51.17056) e #92 (y92 = 31.82169), escolhidas aleatoriamente
81
dentre as no censuradas, aumentando aos valores de y em % de seus valores originais, para
= 10, 20, 30, . . . , 150. Desta forma, se y denota o valor original da varivel resposta, seu valor
perturbado y dado por: A B
y = 1+
y.
100
Para cada um dos 15 padres de perturbao e para o conjunto de dados no perturbado,
foram ajustados os modelos SN-CR, St-CR e SSL-CR, computando em cada ajuste os valores dos
critrios LPML, DIC, EAIC, EBIC e WAIC2 (veja Seo 1.6.2) e tambm a mudana relativa na
estimao pontual de j , j = 1, 2, dada por:
- -
-
- j0 jk -
-
RC(j )k = - -, j = 1, 2 k = 1, 2, . . . , 15,
j0 -
- -
-
A Figura 3.3 mostra os resultados em relao s mudanas relativas. Para 1 vemos que para
perturbaes menores do que 100% as mudanas relativas no so muito significativas (menores
do que 5%) e no obedecem um padro, porm conforme torna-se maior do que 100 vemos
que a mudana relativa para 1 sob os modelos St-CR e SSL-CR parecem se estabilizar perto dos
5%, enquanto que sob o modelo SN-CR ela apresenta um padro crescente, atingindo 10% para
= 150. Em relao a 2 , pode-se observar que para pequenas perturbaes ( {10, 20, 30})
os trs modelos se comportam de formas muito parecidas, porm conforme aumenta o modelo
SN-CR perde performance em relao aos outros dois modelos, que se comportam de forma muito
parecida entre si. Isto confirma que o modelo SN-CR menos robusto do que o St-CR e o SSL-CR
para lidar com observaes atpicas.
O cenrio descrito acima confirmado nos critrios mostrados na Figura 3.4, onde o modelo
SN-CR se mostra to bom quanto os outros (ou at prefervel) para pequenas perturbaes, o que
esperado j que os dados so gerados de um modelo skew-normal, porm conforme aumentamos
as perturbaes os modelos St-CR e SSL-CR mostram-se superiores ao N-CR (e com performances
bastante parecidas entre si).
82
1 2
15
15
SN CR SN CR
St CR St CR
SSL CR SSL CR
Mudana relativa ( % )
Mudana relativa ( % )
10
10
5
5
0
0
0 30 60 90 120 150 0 30 60 90 120 150
Figura 3.3: Estudo de simulao III. Mudana relativa (em %) para 1 e 2 para os modelos
SN-CR, SSL-CR e St-CR, sob diferentes nveis de perturbao .
SN CR SN CR SN CR
St CR St CR St CR
650
650
SSL CR SSL CR SSL CR
260
WAIC2
LPML
DIC
550
550
300
340
450
450
EAIC EBIC
SN CR SN CR
St CR St CR
650
650
SSL CR SSL CR
EAIC
EBIC
550
550
450
450
Figura 3.4: Estudo de simulao III. Critrios LPML, DIC, WAIC, EAIC e EBIC para os modelos
SN-CR, SSL-CR e St-CR, sob diferentes nveis de perturbao .
Com estes resultados confirmamos a hiptese de que os modelos St-CR e SSL-CR so mais
robustos para lidar com observaes atpicas do que o SN-CR.
83
3.5 Estudo de simulao IV: qualidade das estimativas dos
modelos SMSN-CR
O foco principal deste estudo de simulao investigar o impacto na inferncia final dos modelos
SMSN-CR (sob um ponto de vista Bayesiano) quando a hiptese de normalidade inapropriada,
para diferentes nveis de censura nos dados. Para isto, geramos uma varivel elatria Y conforme
o modelo geral de regresso para dados censurados definidos em (2.3.1) e (2.3.2) usando n=200,
= (1 , 2 ) = (10, 2) , X uma matriz 200 2 cuja primeira coluna tem todos os elementos
iguais a 1 e os elementos da segunda coluna so gerados de forma independente a partir de uma
distribuio uniforme em (0, 4), alm disso, os erros i , i = 1, 2, . . . , n, foram gerados de forma
independente de uma distribuio normal inversa gaussiana com parmetros = 0 = 5, =
0 = 4.9, = 0 = 2 e = 0 = (aqui usamos a notao para os parmetros da normal
2 2
inversa gaussiana conforme definida em Barndorff-Nielsen (1997), onde pode-se encontrar maiores
detalhes sobre esta distribuio. Note que o parmetro de escala foi definido de forma a garantir
que EYi [Yi ] = x
i , i = 1, 2, . . . , n). A distribuio dos erros, conforme foi gerada, apresenta
assimetria e valores atpicos em relao distribuio normal e sua densidade est graficada na
Figura 3.5.
NIG(0, 0, 0, 0)
20 0 20 40
Figura 3.5: Estudo de simulao IV. Densidade da normal inversa gaussiana com parmetros
= 0 = 5, = 0 = 4.9, = 0 = 2 e = 0 = .
2 2
84
censura: 10%, 25%, 40% e 50% do total de observaes. Desta forma, cada um dos 150 conjunto
de dados gerou novos quatro conjuntos, sendo o original descartado. Os algoritmos de Gibbs
desenvolvidos nas Sees 2.4 e 3.3 foram aplicados em cada um destes conjuntos de dados a fim
de ajustar a eles os modelos N-CR, t-CR, SN-CR, St-CR e SSL-CR, sendo que a especificao das
distribuies priori foi feita conforme a discusso nas mesmas Sees, com 0 = 02 , 0 = 100 I2 ,
= 0, 2 = 100,a = 2.1, b = 3, c = 0.02 e d = 0.49 para o modelo t-CR e St-CR e c = 0.02 e
d = 0.9 para o modelo SSL-CR. Aqui, 02 denota um vetor de tamanho 2 com todos os componentes
iguais a zero e I2 denota a matriz identidade com dimenso 2 2. Foram rodadas 60000 iteraes
do Gibbs, com um burn-in de 18000 e um thinning de 3, gerando cadeias finais de tamanho 14000.
Em cada um dos ajustes as estimativas pontuais dos parmetros foram gravadas (mdia da
cadeia MCMC gerada, aps burn-in e thinning), de forma que pudemos calcular o erro mdio
absoluto (MAE) e o erro mdio quadrtico (MSE) para as estimativas dos coeficientes de regresso
de cada modelo sob cada um dos quatro nveis de censura. Definimos o MAE e o MSE para o
parmetro j , j = 1, 2, como:
150 150
1 1
| j | ( j )2
(i) (i)
M AE = , M SE =
150 i=1 j 150 i=1 j
1, 2, . . . , 150.
A Figura 3.6 apresenta o MAE e o MSE para as estimativas de 1 e 2 para os cinco modelos
ajustados e para os quatro nveis de censura. A Figura 3.7 sumariza via box-plot as 150 estimativas
pontuais obtidas para 1 and 2 , comparando-as com o verdadeiro valor destes parmetros para
os diferentes modelos ajustados e diferentes nveis de censura.
Na Figura 3.6 observamos que as estimativas do intercepto 1 a que mais sofre impacto quando
muda-se o modelo ajustado, sendo que os modelos simtricos (N-CR e t-CR) so os que apresentam
maiores valores do MAE e MSE, enquanto os modelos St-CR e SSL-CR possuem performances
muito parecidas e significativamente melhor do que o SN-CR. Enquanto isso, os valores do MAE
e MSE para o parmetro 2 so pequenos sob todos os modelos e no apresentam diferenas sig-
nificativas. importante notar que todos os modelos perdem performance conforme aumentamos
85
1 2 2 (escala ampliada)
1.0
N CR N CR N CR
SN CR SN CR SN CR
t CR t CR t CR
St CR St CR St CR
SSL CR SSL CR SSL CR
MAE
MAE
MAE
2
0.5
0.0
0
0
10 20 30 40 50 10 20 30 40 50 10 20 30 40 50
% de censura % de censura % de censura
1 2 2 (escala ampliada)
20
20
1.0
N CR N CR N CR
SN CR SN CR SN CR
t CR t CR t CR
St CR St CR St CR
SSL CR SSL CR SSL CR
MSE
MSE
MSE
10
10
0.5
0.0
0
10 20 30 40 50 10 20 30 40 50 10 20 30 40 50
% de censura % de censura % de censura
Figura 3.6: Estudo de simulao IV. MAE e MSE das estimativas pontuais de 1 e 2 para cinco
modelos SMSN-CR e quatro diferentes nveis de censura.
o nvel de censura, porm este aumento parece afetar com menor intensidade a qualidade das
estimativas obtidas sob os modelos St-CR e SSL-CR.
A Figura 3.7 nos mostra um cenrio parecido: comparando os modelos simtricos com suas
verses assimtricas vemos uma melhora na qualidade das estimativas, o que tambm acontece
quando comparamos modelos menos robustos com mais robustos (N-CR com t-CR e SN-CR com
St-CR e SSL-CR). Novamente, os modelos St-CR e SSL-CR se comportam de forma muito seme-
lhante e possuem estimativas mais precisas do que os outros modelos. Nestes box-plots notamos
mais uma vez que todos os modelos so prejudicados pelo aumento do nvel de censura.
Com este estudo mostramos como as inferncias finais para um modelo de regresso para dados
censurados podem ser prejudicadas quando h desvio da normalidade e um modelo adequado, capaz
de acomodar assimetria e/ou observaes atpicas, no for escolhido.
86
1 NCR 1 SNCR 1 tCR 1 StCR 1 SSLCR
5
5
10
10
10
10
10
15
15
15
15
15
20
20
20
20
20
10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50
% of censoring % of censoring % of censoring % of censoring % of censoring
6
4
4
2
2
0
0
10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50
% of censoring % of censoring % of censoring % of censoring % of censoring
Figura 3.7: Estudo de simulao IV. Box-plot para as 150 estimativas pontuais de 1 e 2 para
os modelos N-CR, SN-CR, t-CR, St-CR e SSL-CR e diferentes nveis de censura, em comparao
com o valor verdadeiro dos parmetros (linha vermelha).
Nesta Seo ajustaremos o modelo de regresso para dados censurados sob as distribuies nor-
mal, t de Student, skew-normal, skew-t e skew-slash ao conjunto de dados Wage Rate, descrito
na Subseo 2.5.6, utilizando os algoritmos desenvolvidos nas Sees 2.4 e 3.3. Tambm faremos
um estudo de diagnstico destes modelos com base na metodologia descrita nas Sees 1.6.2 e
1.7. Nesta aplicao ser utilizado o pacote BayesCR (veja sua descrio na Subseo 4.1.3) como
respaldo computacional.
x2 : idade,
x3 : anos de estudo,
87
x4 : nmero de filhos (em casa) com menos de 6 anos,
de forma que o vetor de covariveis para o indivduo i dado por xi = (1, x2i , x3i , x4i , x5i ), com
i = 1, 2, . . . , 753.
Para o processo de estimao utilizaremos as densidades priori definidas na Seo 3.3 com
0 = 02 , 0 = 100 I2 , = 0, 2 = 100,a = 2.1, b = 3, c = 0.02, d = 0.49 (St-CR) e d = 0.9
(SSL-CR). O amostrador de Gibbs foi utilizado para gerar duas cadeias MCMC da distribuio
posteriori do vetor de parmetros, de forma que pudemos analisar a convergncia destas cadeias
utilizando a estatstica de Gelman-Rubin (veja Seo 1.5). Cada cadeia MCMC tem tamanho
inicial 400,000 e, considerando um burn-in de 100,000 e um thinning de 30, tamanho final igual a
10,000.
A Tabela 3.1 mostra a mdia a posteriori (Mdia), o desvio padro (SD), o intervalo HPD
(95%) e a estatstica de Gelman-Rubin (R) para os parmetros de cada um dos modelos ajustados.
Pode-se notar que a mais impactante diferena entre os modelos ajustados a significncia do
intercepto: somente sob o modelo SSL-CR o intervalo HPD para 1 no contm o 0. Um outro
aspecto a se observar os valores pequenos das estimativas pontuais de sob os modelos t-CR,
St-CR e SSL-CR, indicando que o modelo N-CR ou SN-CR podem no ser adequados para este
conjunto de dados, j que a distribuio t de Student tende normal e a skew-t e skew-slash
tendem skew-normal conforme . Sobre a interpretao dos parmetros, todos os modelos
concordam que o ganho potencial de uma mulher aumenta conforme mais anos de escolaridade ela
tem e diminui conforme aumenta sua idade e/ou o nmero de filhos.
A Tabela 3.2 compara os ajustes dos cinco modelos considerados usando os critrios discutidos
na Seo 1.6.2. Note que os modelos com caudas pesadas tm uma perfomance significativa-
mente melhor (comparando-se o N-CR com o t-CR e tambm o SN-CR com o St-CR e SSL-CR),
alm disso os modelos assimtricos so tambm mais adequados do que suas verses simtricas
(comparando-se o N-CR com o SN-CR e o t-CR com o St-CR). De fato o pvalor Bayesiano indica
que os modelos simtricos e/ou no robustos (N-CR, SN-CR e t-CR) no so uma boa escolha
88
Modelos
N-CR T-CR
1 -2.752 1.748 (-6.133; 0.665) 1.000003 -1.184 1.433 (-3.937; 1.669) 1.000005
2 -0.106 0.028 (-0.161;-0.051) 1.000007 -0.111 0.023 (-0.155;-0.066) 1.000001
3 0.731 0.084 ( 0.569; 0.896) 0.999999 0.655 0.073 ( 0.514; 0.794) 1.000001
4 -3.056 0.448 (-3.923;-2.188) 1.000000 -3.166 0.398 (-3.951;-2.404) 0.999999
5 -0.215 0.153 (-0.521; 0.077) 1.000003 -0.294 0.130 (-0.548;-0.037) 1.000001
2 21.325 1.5999 (18.222;24.483) 1.000010 11.644 1.019 (9.773;13.739) 1.000082
5.351 0.626 ( 4.557; 6.578) 1.000451
SN-CR ST-CR
SSL-CR
Tabela 3.1: Wage rate data. Mdia e desvio padro a posteriori, intervalo HPD (95%) e estatstica
de Gelman-Rubin sob os modelos N-CR, t-CR, SN-CR, St-CR e SSL-CR.
89
para este conjunto de dados. Dentre todos os modelos, o SSL-CR mostra-se o mais adequado.
90
NCR
tCR
0.9
0.9
408
0.6
0.6
KL divergence
349
KL divergence
185
0.3
0.3
394
0.0
0.0
0 150 300 450 600 750 0 150 300 450 600 750
Index Index
SNCR
StCR
0.9
0.9
0.6
0.6
KL divergence
408
KL divergence
185 349
0.3
0.3
0.0
0.0
0 150 300 450 600 750 0 150 300 450 600 750
Index Index
SSLCR
0.9
0.6
KL divergence
0.3
0.0
Index
Figura 3.8: Wage rate data. Divergncia de Kullback-Lieber para os modelos SMSN-CR.
todas estas observaes so excludas. Assim, defina a mudana relativa na estimatica do parmetro
- -
por RC = --( (I) )/-- 100, onde denota a estimativa pontual de utilizando toda a amostra
e (I) , excluindo-se o conjunto I de observaes. O resultado deste procedimento encontra-se na
Tabela 3.3, onde o smbolo indica parmetros que no eram significativos no ajuste original e
passaram a ser quando determinada observao foi removida. Nesta Tabela podemos observar
que o intercepto 1 o mais impactado por estas observaes quando comparado com os outros
coeficientes de regresso. Todas as mudanas relativas sob o modelo SSL-CR so menores do que
o N-CR, alm disso nenhum parmetro teve sua significncia estatstica alterada sob o ajuste do
91
NCR
tCR
1.5
1.5
408
349
1.0
1.0
J distance
J distance
185
394
0.5
0.5
0.0
0.0
0 150 300 450 600 750 0 150 300 450 600 750
Index Index
SNCR StCR
1.5
1.5
408
1.0
1.0
J distance
J distance
185 349
0.5
0.5
394
0.0
0.0
0 150 300 450 600 750 0 150 300 450 600 750
Index Index
SSLCR
1.5
1.0
J distance
0.5
0.0
Index
modelo SSL-CR, enquanto sob o N-CR o parmetro 5 , que no era considerado significativo no
ajuste original, passou a ser quando removemos a observao #185 e tambm quando todas as
observaes influentes foram removidas. Estes fatos confirmar mais uma vez que o SSL-CR mais
robusto do que o N-CR, conforme j era esperado.
92
NCR
tCR
1.2
1.2
408
349
0.8
0.8
185
L distance
L distance
0.4
0.4
0.0
0.0
0 150 300 450 600 750 0 150 300 450 600 750
Index Index
SNCR StCR
1.2
1.2
408
0.8
0.8
L distance
L distance
185 349
0.4
0.4
0.0
0.0
0 150 300 450 600 750 0 150 300 450 600 750
Index Index
SSLCR
1.2
0.8
L distance
0.4
0.0
Index
93
Modelos
N-CR SSL-CR
Conjunto I 1 2 3 4 5 1 2 3 4 5
{#185} 2.43 3.63 0.86 3.30 3.56 2.46 2.27 0.22 1.11 1.91
{#349} 22.59 10.19 1.01 0.44 19.85 0.37 0.06 0.19 0.62 0.59
{#394} 8.46 3.14 4.09 2.07 5.65 1.16 1.52 0.49 0.32 2.64
{#408} 7.16 0.36 0.80 3.48 19.47 2.06 1.42 0.14 0.39 1.65
{#185, #349, #394, #408} 33.15 1.02 7.36 0.46 35.53 7.79 6.37 0.20 3.23 3.57
Tabela 3.3: Wage rate data. Mudana relativa (em %) para os coeficientes de regresso sob os
modelos N-CR e SSL-CR.
94
Captulo 4
Consideraes finais
Este artigo referente Subseo 2.5 desta dissertao e apresenta um estudo de inferncia
frequentista para o modelo t-CR com base no algoritmo EM e em tcnicas de diagnsticos atravs
de influncia global e local.
Bayesian Analysis of Censored Linear Regression Models with Scale Mixtures of Skew-
Normal Distributions
95
Autores: Monique Bettio Massuia, Aldo Medina Garay, Victor Hugo Lachos Dvila e Celso
Rmulo Cabral.
CensRegMod
Este pacote foi desenvolvido para dar suporte computacional aos desenvolvimentos da Subse-
o 2.5 e ao artigo Massuia et al. (2014), estimando os parmetros dos modelos t-CR e N-CR
via algoritmo EM, aproximando os erros padres dos estimadores dos coeficientes de regresso
atravs do mtodo mostrado na Subseo 2.5.2 e calculando as medidas de diagnstico local
e global conforme foi feito na Subseo 2.5.3. Este pacote calcula tambm os critrios AIC,
BIC e EDC para seleo de modelos e encontra-se disponvel para download gratuito no site:
http://cran.r-project.org/web/packages/CensRegMod/index.html.
Descrio
O comando principal a ser utilizado neste pacote da seguinte forma:
Cdigos em R
x: matriz de desenho.
96
nu: valor inicial para os graus de liberdade (ou NULL, se for o modelos N-CR a ser ajustado).
Exemplo
Cdigos em R
> library(CensRegMod)
> data(wage.rates)
> attach(wage.rates)
> N_CR = em.cens(cc,-x,-y,dist="Normal",diagnostic=TRUE,typediag=1)
> t_CR = em.cens(cc,-x,-y,nu=5,dist="T")
Observao: Ao contrrio do desenvolvimento da Seo 2.5, este pacote estima o valor do pa-
rmetro no caso do modelo t-CR, tomando como estimativa em cada iterao o argumento que
maximiza a funo verossimilhana, j avaliada nas estimativas calculadas para e 2 . No en-
tanto, a anlise de diagnstico feita considerando um valor fixo, tomado como o valor estimado
ao final do algoritmo EM. importante notar tambm que, embora este pacote tenha sido desen-
volvido para lidar com censuras direita, pode-se fazer uma adaptao para o ajuste do modelo
censurado esquerda, passando como argumento para a funo em.cens o vetor y e a matriz x
ao invs de seus valores originais.
SMNCensReg
97
Este pacote foi desenvolvido em conjunto com Aldo Medina Garay e d suporte computacional
Subseo 2.5, assim como sua tese de doutorado (veja Garay, 2014). Este pacote ajusta modelos
de regresso para respostas censuradas sob as seguintes distribuies da classe SMN (mistura de
escala normal) a saber: Normal, t de Student, Pearson VII, Slash e Normal Contaminada. Os erros
padres para os estimadores dos coeficientes de regresso so estimados atravs do mtodo descrito
na Subseo 2.5.2. Tambm faz o grfico de envelope com base nos resduos deviance para a anlise
de diagnstico e calcula os critrios AIC, BIC e EDC para seleo de modelos. Disponvel para
download gratuito no site http://cran.r-project.org/web/packages/SMNCensReg/index.html.
Descrio
O comando principal a ser utilizado neste pacote da seguinte forma:
Cdigos em R
CensReg.SMN(cc,x,y,LS,nu,delta,cens,dist,show.envelope,error,iter.max)
x: matriz de desenho.
nu: valor inicial para os graus de liberdade da t de Student, Pearson VII ou Slash. Um vetor
bidimensional com os valores iniciais dos parmetros da Normal Contaminada.NULL, para a
distribuio Normal.
delta: valor inicial para o segundo parmetro da distribuio Pearson VII (ou NULL, para as
outras distribuies).
98
cens: left, se a varivel resposta for censurada esquerda, right, se for direita e interval,
se a censura for intervalar.
dist: Normal, se a distribuio assumida para os erros do modelo for Normal, T, se for t de
Student, PearsonVII, se for Pearson VII, Slash, se for Slash e, finalmente, NormalC, se for
Normal contaminada.
show.envelope: TRUE, caso queira que o grfico de envelope seja mostrado ou FALSE, caso
contrrio.
error: preciso para que o critrio de convergncia seja atingido. O padro do pacote
0.0001.
Exemplo
Cdigos em R
> library(SMNCensReg)
> data(wage.rates)
> attach(wage.rates)
> y = wage.rates$wage
> x = cbind(wage.rates$age,wage.rates$educ,wage.rates$kidslt6,wage.rates$kidsge6)
> cc = c(rep(0,428),rep(1,325))
> N_CR = CensReg.SMN(cc,x,y,cens="left",dist="Normal")
> t_CR = CensReg.SMN(cc,x,y,nu=3,cens="left",dist="T",show.envelope="TRUE")
BayesCR
Este pacote foi desenvolvido em conjunto com Aldo Medina Garay e d suporte computacional
ao estudo de inferncia Bayesiana para as Subsees 3.3 e 2.4.1, assim como sua tese de doutorado
(veja Garay, 2014). Com este pacote possvel ajustar, via amostrador de Gibbs, modelos de
regresso para dados censurados ( direita ou esquerda) sob as seguintes distribuie da classe
99
SMSN (mistura de escala skew-normal): Normal, Skew-Normal, t de Student, Skew t de Student,
Slash, Skew-Slash e Normal Contaminada. O pacote tambm calcula os seguintes critrios de
seleo de modelos: LPML, DIC, EAIC, EBIC, WAIC1 e WAIC2 , alm das medidas de divergncia
de Kullback-Lieber, e as distncia J, L1 e Chi. Alm disso, o pacote pode ser utilizado para gerar
observaes das distribuies SMSN consideradas.
Descrio
O comando que ajusta os modelos SMSN-CR via amostrador de Gibbs da seguinte forma:
Cdigos em R
Bayes.CR(cc,x,y,cens,dist,influence,criteria,spacing,prior,hyper,n.thin,burnin,
n.iter,n.chains,chain)
x: matriz de desenho.
dist: Normal, se a distribuio assumida para os erros do modelo for Normal, SN, se for Skew-
Normal, T, se for t de Student, ST, se for Skew-t, Slash, se for Slash, SSL se for Skew-Slash
e, finalmente, NormalC, se for Normal contaminada.
criteria: TRUE, caso queira que sejam computados os critrios LPML, DIC, EAIC, EBIC,
WAIC1 e WAIC2 ou FALSE caso contrrio.
100
spacing: Somente deve ser fornecido se influence=TRUE ou criteria=TRUE, especificando o
lag entre observaes da cadeia final a ser utilizado para o clculo das medidas de influncia
e/ou dos critrios de seleo de modelos.
prior: Distribuio priori a ser considerada para os graus de liberdade no caso da distri-
buio t de Student, sendo Exp para a priori exponencial, Jeffreys para a de Jeffreys, Unif
para a uniforme ou Hierar para a priori hierrquica, utilizada nesta dissertao (veja Garay
(2014)).
chain: TRUE, caso as cadeias finais devam ser armazenadas para anlise ou FALSE, caso
contrrio.
Alm disso, possvel gerar observaes das distribuies consideradas a partir da seguinte
funo:
Cdigos em R
rSMSN(n,mu,sigma2,lambda,nu,dist)
101
lambda: parmetro de forma relativo assimetria.
nu: graus de liberdade para as distribuies t de Student, Slash e suas verses assimtricas.
dist: distribuio da qual se quer gerar. Normal, para Normal, SN, para Skew-Normal, T,
para t de Student, ST,para Skew-t, Slash, para Slash, SSL para Skew-Slash e, finalmente,
NormalC, para Normal contaminada.
Exemplo
Cdigos em R
> library(BayesCR)
> data(wage.rates)
> attach(wage.rates)
> y = wage.rates$wage
> x = cbind(wage.rates$age,wage.rates$educ,wage.rates$kidslt6,wage.rates$kidsge6)
> cc = c(rep(0,428),rep(1,325))
> t_CR = Bayes.CR(cc,x,y,cens="left",dist="T",influence=FALSE,criteria=FALSE,
prior="Hierar, n.thin=10, burnin=10000,n.iter=100000,n.chains=1,chain=FALSE)
102
4.3 Concluso
Sob a perspectiva frequentista, demos ateno especial aos modelos N-CR e t-CR no captulo
2, desenvolvendo o algoritmo EM para a estimao paramtrica destes modelos e tambm um
estudo de diagnstico baseados em medidas de influncia local e global. Os pacotes CensRegMod
e SMNCensReg do suporte computacional a este problema e esto disponveis para download no
repositrio CRAN. Foram feitos dois estudos de simulao, o primeiro compara a robustez das
estimativas EM obtidas sob os modelos N-CR e t-CR quando uma perturbao feita no conjunto
de dados, mostrando que as estimativas do modelo t-CR so menos sensveis perturbao do que
as do modelo N-CR. O segundo estudo de simulao avaliou a consistncia do mtodo utilizado
para estimar o desvio padro dos estimadores EM dos parmetros de regresso, que mostrou-se
bastante adequado. Os modelos foram ento ajustados ao conjunto de dados de Mroz (1987)
utilizando os pacotes citados e, como esperado, o modelo t-CR mostrou-se bem mais adequado do
que o N-CR para acomodar observaes atpicas.
Sob a perspectiva Bayesiana, consideramos o modelo de regresso linear para dados censu-
rados sob diversas distribuies da famlia SMSN: a normal, normal assimtria, t de Student, t
de Student assimtrica, e, finalmente, slash assimtrica. A estimao paramtrica foi feita com
base no amostrador de Gibbs e a anlise de diagnstico, com base nas medidas q-divergentes.
O pacote BayesCR d respaldo computacional ao problema e foi utilizado nas aplicaes I e III,
assim como nos estudos de simulao III e IV, que compararam a qualidade das estimativas dos
modelos citados na presena de observaes atpicas e/ou assimetria, mostrando o impacto sofrido
pelas estimativas dos modelos quando utilizada uma distribuio que no consegue acomodar
103
tais caractersticas presentes no conjunto de dados.
104
Referncias Bibliogrficas
Abanto-Valle, C. A., Lachos, V. H. & Dey, D. K. (2013). Bayesian estimation of a skew-t stochastic
volatility model. Methodology: Computing in Applied Probability (revision invited).
Ando, T. (2010). Bayesian Model Selection and Statistical Modeling. Chapman & Hall/CRC.
Andrews, D. R. & Mallows, C. L. (1974). Scale mixtures of normal distributions. Journal of the
Royal Statistical Society, 36, 99102.
Arellano-Valle, R. B., Castro, L. M., Faras, G. G. & Gajardo, K. A. M. (2012). Student-t censored
regression model: properties and inference. Statistical Methods and Applications, 21(4), 453473.
Azzalini, A. (1985). A class of distributions which includes the normal ones. Scandinavian Journal
of Statistics, 12, 171178.
Azzalini, A. & Genton, M. G. (2008). Robust likelihood methods based on the skew-t and related
distributions. International Statistical Review, 76, 14901507.
Bagnoli, M. & Bergstrom, T. (2005). Log-concave probability and its applications. Economic
Theory, 24(2), 445469.
Bai, Z. D., krishnaiah, P. R. & Zhao, L. C. (1989). On rates of convergence of efficient detection
criteria in signal processing with white noise. IEEE Transactions on Information Theory, 35,
380388.
105
Barndorff-Nielsen, O. E. (1997). Normal inverse gaussian distributions and stochastic volatility
modelling. Scandinavian Journal of Statistics, 24, 113.
Barros, M., Galea, M., Gonzlez, M. & Leiva, V. (2010). Influence diagnostics in the tobit censored
response model. Statistical Methods & Applications, 19, 716723.
Basso, R. M., Lachos, V. H., Cabral, C. R. B. & Ghosh, P. (2010). Robust mixture modeling based
on scale mixtures of skew-normal distributions. Computational Statistics and Data Analysis, 54,
29262941.
Brooks, S. P. (2002). Discussion on the paper by spiegelhalter, best, carlin, and van der linde
(2002). JRSSB, 64(4), 616618.
Cancho, V. G., Dey, D. K., Lachos, V. H. & Andrade, M. G. (2011). Bayesian nonlinear regres-
sion models with scale mixtures of skew-normal distributions: Estimation and case influence
diagnostics. Computational Statistics and Data Analysis, 55, 588602.
Carlin, B. P. & Louis, T. A. (2001). Bayes and Empirical Bayes Methods for Data Analysis.
Chapman & Hall/CRC, Boca Raton, second edition.
Chib, S. & Greenberg, E. (1995). Understanding the metropolis-hastings algorithm. The American
Statistician, 49, 327335.
106
Colosimo, E. & Giolo, S. (2006). Anlise de sobrevivncia aplicada. ABE - Projeto Fisher.
Cook, R. D. (1986). Assessment of local influence. Journal of the Royal Statistical Society, 48,
133169.
Cook, R. D. & Weisberg, S. (1982). Residuals and influence in regression. Chapman and Hall.
Dempster, A. P., Laird, N. M. & Rubin., D. B. (1977). Maximum likelihood from incomplete data
via the em algorithm. Journal of the Royal Statistical Society, 39, 138.
Dey, D. K., Chen, M. H. & Chang, H. (1997). Bayesian approach for the nonlinear random effects
models. Biometrics, 53, 12391252.
Fernandez, C. & Steel, M. J. F. (1999). Multivariate student-t regression models: pitfalls and
inference. Biometrika, 86, 153157.
Fonseca, T. C. O., Ferreira, M. A. R. & Migon, H. S. (2008). Objective bayesian analysis for the
student-t regression model. Biometrika, 95, 325333.
Garay, A. M. (2009). Modelos no lineares sob a classe de distribuies misturas da escala skew-
normal. Dissertao de mestrado, Instituto de Matemtica, Estatstica e Computao Cientfica,
IMECC - UNICAMP.
Garay, A. M. (2014). Modelos de regresso para dados censurados sob distribuies simtricas.
Tese de doutorado, Instituto de Matemtica e Estatstica, IME - USP.
107
Garay, A. M., Lachos, V. H., Bolfarine, H. & Cabral, C. R. B. (2013). Bayesian analysis censored
linear regression models with scale mixtures of normal distributions. Technical Report 14,
Universidade Estadual de Campinas.
Gelfand, A. E., Dey, D. & Chang, H. (1992). odel determination using predictive distributions
with implementation via sampling-based methods. Bayesian Statistics, 4, 147167.
Gelman, A. (1992). Iterative and non-iterative simulation algorithm. Computing Science and
Statistics, 7, 457511.
Gelman, A., Carlin, J. B., Stern, H. S. & Rubin, D. B. (2004). Bayesian data analysis. Chapman
& Hall/CRC.
Gelman, A., Hwang, J. & Vehtari, A. (2014). Understanding predictive information criteria for
bayesian models. Statistics and Computing, 24, 9971016.
Geweke, J. (1993). Bayesian treatment of the independent student-t linear model. Journal of
Applied Econometrics, 8, S19S40.
Hastings, W. K. (1970). Monte carlo sampling methods using markov chains and their applications.
JBiometrika, 57, 97109.
Kalbfleisch, J. & Lawless, J. (1992). Some useful statistical methods for truncated data. Journal
of Quality and Technology, 24(3), 145152.
Kim, H. J. (2008a). Moments of truncated student-t distribution. Journal of the Korean Statistical
Society, 37, 8187.
108
Kim, H. M. (2008b). A note on scale mixtures of skew normal distribution. Statistics and Probability
Letters, 78, 16941701.
Lange, K. L., Little, J. A. & Taylor, M. G. J. (1989). Robust modeling using the t distribution.
Journal of the American Statistical Association, 84, 881896.
Lee, S. Y. & Xu, L. (2004). R influence analysis of nonlinear mixed-effects models. Computational
Statistics and Data Analysis, 45, 321341.
Lin, T. I., Lee, J. C. & Hsieh, W. J. (2007). Robust mixture modelling using the skew t distribution.
Statistics and Computing, 17, 8192.
Little, R. J. A. (1999). Robust estimation of the mean and covariance matrix from data with
missing values. Applied Statistics, 37, 2338.
Louis, T. A. (1982). Finding the observed information matrix when using the em. Journal of the
Royal Statistical Society, 44, 226233.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. & Teller, E. (1953). Equations
of state calculations by fast computing machines. Journal of Chemical Physics, 21, 10871092.
Meza, C., Osorio, F. & la Cruz, R. D. (2012). Estimation in nonlinear mixed-effects models using
heavy-tailed distributions. Statistics and Computing, 22, 121139.
109
Mroz, T. A. (1987). The sensitivity of an empirical model of married womens hours of work to
economic and statistical assumptions. Econometrica, 55, 765799.
Nelson, W. (1990). Hazard plotting of left truncated life data. Journal of Quality and Technology,
22(3), 230238.
Ortega, E. M., Bolfarine, H. & Paula, G. A. (2003). Influence diagnostics in generalized log-gamma
regression models. Computational Statistics and Data Analysis, 42, 165186.
Peng, F. & Dey, D. K. (1995). Bayesian analysis of outlier problems using divergence measures.
The Canadian Journal of Statistics, 23, 199213.
Poom, W. Y. & Poon, Y. S. (1999). Conformal normal curvature and assessment of local influence.
Journal of the Royal Statistical Society, 61, 5161.
Schmee, J. & Hahn, G. J. (1979). A simple method for regression analysis with censored data.
Technometrics, 21, 417432.
Spiegelhalter, D. J., Best, N. G., Carlin, B. P. & van der Linde, A. (2002). A bayesian measure of
model complexity and fit (with discussion). Journal of Royal Statistical Society, 64, 583639.
Tan, M., Tian, G. L. & Ng, K. W. (2009). Bayesian Missing Data Problems: EM, Data Augmen-
tation and Noniterative Computation. Chapman & Hall/CRC Biostatistics Series, Boca Raton,
NY.
Tanner, M. A. & Wong, W. H. (1987). The calculation of posterior distributions by data augmen-
tation. Journal of the Maerican Statistical Association, 82, 528549.
Tierney, L. (1994). Markov chains for exploring posterior distributions (with discussion). Annals
of Statistics, 22, 17011762.
Tobin, J. (1958). Estimation of relationships for limited dependent variables. Econometrica, 26,
2436.
110
Vidal, I. & Castro, L. M. (2010). Influential observations in the independent Student-t measure-
ment error model with weak nondifferential error. Chilean Journal of Statistics, 1, 1734.
Wang, J. & Genton, M. G. (2006). The multivariate skew-slash distribution. Journal of Statistical
Planning and Inference, 136, 209220.
Watanabe, S. (2010). Asymptotic equivalence of bayes cross validation and widely applicable
information criterion in singular learning theory. The Journal of Machine Learning Research,
11, 35713594.
Zhu, H. & Lee, S. (2001). Local influence for incomplete-data models. Journal of the Royal
Statistical Society, 63, 111126.
Zhu, H., Lee, S., Wei, B. & Zhou, J. (2001). Case-deletion measures for models with incomplete
data. Biometrika, 88, 727737.
Zhu, H., Ibtahim, J. G. & Shi, X. (2009). Diagnostic measures for generalized linear models with
missing covariates. Scandinavian Journal of Statistics, 36, 686712.
111
112
Apndice A
Nesta Seo derivaremos a forma fechada da pdf e cdf da distribuio skew-t. Para isso,
considere o seguinte Lema:
Lema 6. Seja U G (, ), > 0 and > 0. Ento, para qualquer vetor fixo w Rp , temos
que:
Q R
5 1 26
EU p U w ; , = Tp a w ; , , 2b .
Prova:
113
Considere o vetor aleatrio V Np (, ) independente de U G(, ), ento:
5 1 26
EU p U w ; , = EU P(V w U )
S A BT
V
= EU UP w V
U
S Q RT
W V 1 X
= EU UP a wbV
2U 2
S Q RT
W c V dX
= EU W
UP a w bX
V
/U
S Q RT
W bX
= EU UP aX w V with X tp (, , 2) (A.0.1)
A B
= Tp w ; , , 2 ,
aqui, a Equao (A.0.1) foi obtida usando os seguintes resultados (os quais no sero demonstra-
dos):
Se V Np (, ) independente de U , ento X = V tp (, , ),
U/
Agora, considerando o formato geral da pdf da classe SMSN dada na Equao (3.2.6), a den-
sidade da skew-t dada por:
A B ; <
1 2 (y ) (/2)/2 /21
f (y) = 2 (y ; , u ) ; 0, 1 u exp u du
0 u 1/2 (/2) 2
Y A BZ
2 (/2)/2 1 ] d(y)2 ^ 1 2
= u 2 exp [u + d(y) u du
(/2) 0 2 2 \
A B A B +1 5 1
2(/2)/2 +1 + d(y)2 2 26
= EX d(y) X ; 0, 1 ,
(/2) 2 2
114
3 4
+1 +d(y)2
onde d(y) = y
e X Gamma 2
, 2 . Utilizando o Lema 6, temos que:
A B +1 Q R
2 ( +1 ) d(y)2 2
+1
f (y) = 2
1+ T1 a d(y) ; + 1b .
(/2) + d(y)2
onde U Gamma(/2, /2), y(u) e so definidas na parte (b) da Proposio (6). Desta
forma, pelo Lema 6, temos que:
QQ R R
cc y d d
c d
F (y) = 2 T2 cc d ; , , d .
aa b b
0
115
116
Apndice B
Licena
117
fazer uso comercial da obra.
Atribuio Voc deve creditar a obra da forma especificada pelo autor ou licenciante
(mas no de maneira que sugira que estes concedem qualquer aval a voc ou ao seu uso
da obra).
118