Академический Документы
Профессиональный Документы
Культура Документы
44 45 dos algarves
Estimação de Modelos Lineares Gerais Mistos utilizando o SAS®
Para além destes métodos, têm Em geral, a matriz de variâncias e guinte: dado o vector de dados y, como
sido utilizados no passado recente covariâncias de y é uma função linear é que se pode predizer os valores dos
outros métodos para a estimação das de parâmetros desconhecidos a serem efeitos aleatórios que poderiam a ele
componentes de variância no contexto estimados. Assim, quanto mais ade- estar associados, ou seja, qual é “um”
do MLGM. Destaca-se o método de quada for a matriz G, escolhida a priori, estimador da média condicional E(u|y)
ajustamento de constantes (Hender- mais os resultados das estimativas de ? No caso do MLGM (1) tem-se que
son, 1953; Fuller e Battese, 1973). β e u se aproximarão de soluções BLUE o melhor preditor linear de u sob a
Existe, no entanto, evidência empí- (Best Linear Unbiased Estimator) e normalidade é dado por:
~
rica (Swallow e Monaham, 1984) que BLUP (Best Linear Unbiased Predictor), U=E(u|y)=GZ' V-1(y-Xβ). (4)
favorece a utilização dos métodos de respectivamente. Combinando os conceitos de
verosimilhança. O principal obstáculo predição e de melhor estimador linear
à sua utilização reside no grande peso Estimação dos efeitos fixos não enviesado, tem-se que o melhor
computacional que poderá impedir a Na análise do MLGM tem-se, em ge- preditor linear não enviesado, ou seja,
convergência ao trabalhar com conjun- ral, interesse na estimação e testes de o BLUP de u, é dado por:
~ ^
tos de dados de grande dimensão. hipóteses dos efeitos fixos. Entretan- u=GZ' V-1(y-Xβ). (5)
Este trabalho tem como objectivos to, para a estimativa de uma função Quando os parâmetros de θ são
^
apresentar métodos de estimação das estimável dos parâmetros de efeitos conhecidos, β é o melhor estimador
componentes de variância disponíveis fixos é necessário o conhecimento linear centrado de β e û é o melhor
no procedimento “proc mixed” do das estimativas das componentes de preditor linear centrado de u (a este
sistema computacional SAS versão 9.0 variância. Assim, as estimativas dos respeito ver Searle, 1971; Harville,
e ilustrar a utilização desse procedi- parâmetros de efeitos fixos dependem 1990; Robinson, 1991, McLean, Sanders
mento na estimação de MLGM com dos métodos utilizados na obtenção e Stroup, 1991). Quando as componen-
dois factores desbalanceados. das estimativas das componentes tes de variância são conhecidas, o
de variância. O Método dos Mínimos cálculo do BLUP de u não apresenta
METODOLOGIA Quadrados Generalizados (MMQG), dificuldades e pode ser obtido através
que minimiza , das conhecidas equações normais
Considerações iniciais (y-Xβ)'V-1 (y-Xβ) fornece o sistema (Henderson, 1984):
Neste estudo adopta-se a forma de equações normais generalizadas . X'X' X'Y β X'y K'y~N(φ,K
matricial para apresentar o MLGM, X'V-1 Xβ=X'V-1y Assim, para o Z'XZ'Z+σ2G -1 u Z'y . (6)
descrita em Searle (1987), Searle et al. modelo (1) tem-se que o BLUE de β é Resolvendo-se esse sistema de
(1992), Littell et al. (2006), entre outros: dado por: equações, obtêm-se as soluções
~
y = Xβ + Zu + ε, (1) β(θ)=(X'V-1(θ)X) - X'V-1(θ)y, (2) para os efeitos fixos β , e as predições
~
onde y é o vector das observações onde θ é um vector de parâmetros for- para os efeitos aleatórios, u. Para o
da variável dependente de dimensão mado pelas componentes de variância desenvolvimento precedente, assume-
(nx1); X é a matriz não estocástica de e (X'V-1X) - é uma qualquer matriz in- se que V é conhecida. Quando não é
n valores de p variáveis explicativas, versa generalizada de X'V-1X (Searle, esse o caso, então essas variâncias
de dimensão (nxp); β é o vector dos 1971). Desse modo, as componentes devem ser estimadas utilizando-se um
efeitos fixos, desconhecido, de dimen- de variância são consideradas nas esti- dos métodos disponíveis na literatura,
são (px1); Z é a matriz de desenho mativas dos efeitos fixos. Contudo, nas como por exemplo o método da ML ou
^
dos efeitos aleatórios, conhecida, de aplicações práticas, as componentes da REML. Então, substituindo V por V,
dimensão (nxq); u é o vector de efeitos de variância são desconhecidas. Nes- tem-se que as soluções das equações
aleatórios, desconhecido, de dimensão ses casos, uma estratégia interessante normais são dadas por:
^ ^ ^
(qx1) e ε é o vector de erros aleatórios e conveniente consiste em obter esti- β (X'V-1) -X'V-1y
~ ^ ^ -1 ^
não observáveis, de dimensão (nx1). mativas das componentes de variân- u GZ'V (y-X β) . (7)
Assim, para o modelo misto (1), as- cia, as quais são utilizadas em vez das Assim, utilizando-se a expres-
sumindo que os efeitos aleatórios u e componentes em V. Substituindo θ por são (7) obtém-se as estimativas dos
ε têm distribuição normal, com média θ na expressão (2) tem-se que: efeitos fixos e as predições dos efeitos
^ ^ ^ ^ ~ ~
zero, e matrizes de variâncias e cova- β(θ)=(X'V-1 (θ) X) - X'V-1 (θ) y . (3) aleatórios, β e u, respectivamente. Um
riâncias G e R = σ 2 I respectivamente, aspecto interessante das equações
o vector y terá distribuição normal mul- Predição dos efeitos aleatórios normais é que elas podem ser utiliza-
tivariada, com média Xβ e matriz de No MLGM (1) o vector u é um vector das em procedimentos iterativos para
variâncias e covariâncias V = ZGZ + σ 2 I, de variáveis aleatórias. Uma questão os cálculos das estimativas ML e REML
ou seja, y ~ N (Xβ,V). que se coloca frequentemente é a se- das componentes de variância. Alguns
detalhes do relacionamento entre A expressão (12) é a função ob- verosimilhança de cada parte.
essas equações e as estimativas ML jectivo para a ML utilizada pelo “proc O método REML tem sido conside-
e REML são apresentados em Harville mixed” do SAS. Minimizando-se essa rado o método preferido para estimar
(1977) e Searle et al. (1992). função sobre todos os parâmetros componentes de variância de dados
desconhecidos, obtém-se um sistema desbalanceados (Harville, 1977; Hen-
Estimação das componentes de equações cuja solução fornece as derson, 1984; Searle et al., 1992, entre
de variância estimativas ML. Essas equações são outros). As razões para essa preferên-
Para a obtenção do BLUE de β e do não lineares e são resolvidas numeri- cia são justificadas pelas propriedades
BLUP de u, exige-se o conhecimento camente, em geral por processos itera- desses estimadores. O método REML
das estimativas dos componentes de tivos como o algoritmo de Newton-Ra- supõe a normalidade dos dados, é
variância. Um problema relacionado phson. O processo é repetido até que iterativo e fornece sempre estimati-
com a estimação das componentes de o critério de convergência adoptado vas não negativas das componentes
variância para dados desbalanceados seja satisfeito. Assim, o método da de variância, como o método ML. No
assenta na dificuldade de escolher um ML supõe normalidade dos dados, é entanto, considera a perda de graus
método de estimação entre os muitos iterativo e fornece sempre estimativas de liberdade devido aos efeitos fixos,
métodos de estimação disponíveis. não negativas de componentes de fornecendo estimadores não enviesa-
Apresentam-se de seguida alguns mé- variância, mas estas são enviesadas, dos e de variância mínima para dados
todos de estimação das componentes pois o método não considera a perda balanceados. A principal diferença
de variância disponíveis no procedi- de graus de liberdade resultante da entre os métodos ML e REML é que
mento “proc mixed” do SAS: ML, REML, estimação dos efeitos fixos do modelo. o ML usa a função de verosimilhança
MIVQUE0. de K'y ou o logaritmo desta função,
Método da Máxima Verosimilhança enquanto o REML adopta a função de
Método da Máxima Verosimilhança Restrita (REML) verosimilhança de , o qual é um vector
(ML) Patterson e Thompson (1971) propu- de combinações lineares das observa-
Hartley e Rao (1967) aplicaram o seram uma modificação do método da ções (com média nula), que representa
método da ML ao MLGM. Este método ML para MLGM. Os estimadores REML efectivamente as observações ajusta-
consiste em maximizar a função de maximizam a função de verosimi- das para os efeitos fixos.
K'VK) verosimilhança, em relação aos efeitos lhança de um vector de combinações
fixos e às componentes de variância. lineares das observações que são Método de Estimação Quadrática
Assim, para o MLGM (1), assumindo invariantes a Xβ. Seja K'y esse vector. Não Enviesada de Variância Míni-
y ~ N (Xβ,V) com V=ZGZ'+σ2 I, a função Então K'y=K'Xβ+K'Zu+K'ε é invariante ma (MIVQUE)
de verosimilhança é dada por: a Xβ se e somente se K'X=φ . Com Rao (1971; 1972) propôs um método
n 1 y~N(Xβ,V), tem-se que para K'X=φ de estimação que é derivado de modo
L = (2π) 2 V 2 exp - 1
- -
(y-x β)'V-1 (y-x β)
2 , , K'y~N(φ,K'VK). As equações REML que o estimador seja uma forma
(8) também podem ser deduzidas das quadrática das observações, não
onde |V| é o determinante de V. O equações ML substituindo-se: y por enviesado e de variância mínima. O
logaritmo da função de verosimilhança K'y, X por K'X=0, Z por K'Z e V por K'VK. seu desenvolvimento envolve álgebra
é dado por: O procedimento “proc mixed” do SAS extensiva e o seu conceito utiliza
-2 logL= nlog(2π)+log V +(y-Xa)'V
^ -1
(y-X a^ ), (9) implementa o método REML cons- valores escolhidos, a priori, para as
O “proc mixed” implementa o método truindo a função -2 log da função de componentes de variância a estimar.
ML através da construção de uma verosimilhança restrita, dada por: Assim, diferentes valores a priori po-
função objectivo para ML minimizando ~ ~
-2logL R=(n-k)log(2π)+log|V|+(y-Xβ)'V-1(y-Xβ)+log|X'V-1X| dem levar a diferentes estimativas para
-2l, ou seja, minimizando: , (13) um mesmo conjunto de dados. Obtém-
-2 logL= nlog(2π)+log V +(y-X β)'V-1 (y-X β) onde k é a característica da matriz X e se portanto “um” estimador MIVQUE e
~ ~ ~
. (10) β=(X'V-1X) -X'V-1y, com e a repre- não “o” estimador MIVQUE.
Minimizando a expressão (10) relati- sentar as estimativas REML de β e V, Swallow e Monahan (1984) utiliza-
vamente a β obtém-se: respectivamente. ram o procedimento MIVQUE com a
~ ~ ~
β=(X'V-1X) -X'V-1y , (11) No método REML a função de vero- hipótese a priori de que a matriz de
~ ~
onde β e V representam as estima- similhança é dividida em duas partes variâncias e covariâncias é a matriz
tivas ML de β e V, respectivamente. independentes, uma referente aos identidade, MIVQUE0.
~
Substituindo β na expressão (10), efeitos fixos e outra aos aleatórios, de Sob normalidade, a estimação
tem-se que: maneira que a função de verosimilhan- das componentes de variância pelo
~ ~ ~ ~
-2logL nlog(2π)+log V +(y-x β)'V-1 (y-x β) . (12) ça é dada pela soma das funções de método MIVQUE0 é feita com base na
46 47 dos algarves
Estimação de Modelos Lineares Gerais Mistos utilizando o SAS®
Factor A
Factor B = Local de residência bém as suas variâncias e covariâncias.
Género Para além disso, este procedimento
Urbano (j=1) Semiurbano (j=2) Rural (j=3)
permite uma especificação geral da
176 153 207 matriz de variâncias e covariâncias dos
erros e que as componentes de erro
229 173 177
Masculino sejam correlacionados e oferece, ain-
197 189 185
(i=1) da, várias opções para a estrutura de
212 195 220
variâncias e covariâncias dos efeitos
190 - - aleatórios, sendo que essas podem ser
235 220 230
estimadas, por exemplo, através dos
métodos MIVQUE0, ML e REML.
266 252 249
Feminino
280 - 199
(i=2) ESTUDO EMPÍRICO
293 - -
48 49 dos algarves
Estimação de Modelos Lineares Gerais Mistos utilizando o SAS®
Referências Bibliográficas
50 51 dos algarves