V Simpsio da Sociedade Brasileira de Melhoramento Animal
8 e 9 de julho de 2004- Pirassununga, SP
INFERNCIA BAYESIANA NA ESTIMAO DE COMPONENTES DE VARINCIA DE BOVINOS SIMENTAL 1
GILMARA BRUSCHI SANTOS 2 , HENRIQUE NUNES DE OLIVEIRA 3 , GUILHERME JORDO DE MAGAHES ROSA 4 , LUIS FERNANDO AARO MARQUES 5
1 Parte da dissertao de mestrado do primeiro autor, bolsista da FAPESP 2 Doutoranda em produo animal, Faculdade de Medicina Veterinria e Zootecnia, UNESP, Botucatu 3 Professor da Faculdade de Medicina Veterinria e Zootecnia, UNESP, Botucatu 4 Professor da Universidade de Michigan 5 Professor da Universidade Estadual do Esprito Santo
RESUMO - Os pesos idade de 730 dias foram analisados para verificao da presena de heterogeneidade de varincia e posterior estimao dos componentes de varincia. O objetivo do trabalho foi comparar modelos gaussianos e um modelo com distribuio normal contaminada para estimao dos componentes de varincia. Esta ltima distribuio menos sensvel a observaes com valores discrepantes e pode gerar predies mais acuradas dos valores genticos. Foi utilizada uma abordagem Bayesiana para implementao das anlises. Os resultados sugerem que, embora os clculos sejam um pouco mais trabalhosos para o modelo misto, ele pode apresentar inferncias mais robustas em situaes tanto com presena de heterogeneidade de varincias quanto com presena de observaes discrepantes.
PALAVRAS-CHAVE: distribuio normal contaminada, Heterogeneidade de varincias, modelo robusto
BAYESIAN INFERENCE ON VARIANCE COMPONENTS ESTIMATION OF SIMENTAL CATTLE
ABSTRACT - Weight at day 730 were analysed to account for variance heterogeneity and variance components estimation. The aim of this study was to compare gaussian and a robust model for estimation of variance components. This late distribution is less sensible with outliers and have more accurately predictions of breeding values. It was used a Bayesian approach for analysis. Results sugest that, athouth calcules are a little more dificult for the mixed model, it may have more robust inferences either on situations with variance heterogeneity or outliers.
KEYWORDS: contaminated normal distribution, robust model, Variance heterogeneity
INTRODUO A heterogeneidade de varincias do resduo ou presena de valores discrepantes (outliers) pode influenciar na distribuio dos dados, o que pode levar a estimativas equivocadas dos componentes de varincia do modelo adotado. Algumas alternativas podem ser usadas para se corrigir possveis erros nas estimativas. Entre elas destaca-se a utilizao de modelos robustos que tm sido aplicados atravs de mtodos Bayesianos. Entre os modelos para estimao robusta deve-se considerar aqueles que utilizam as distribuies normal-independentes, que representam um interessante grupo de distribuies de caudas longas (leptocrticas) (Rogers e Tukey, 1972). Algumas destas distribuies, tais como a normal contaminada e a t de Student tm sido testadas como alternativas distribuio normal em modelos mistos (Strandn and Gianola, 1999; Rosa, 1999; Pereira 2001). Ser discutida neste trabalho a distribuio normal contaminada. O objetivo deste trabalho foi verificar a aplicabilidade do modelo robusto, utilizando a distribuio normal contaminada em abordagem Bayesiana, na estimao de componentes de varincia, na caracterstica peso aos 730 dias de animais da raa Simental.
MATERIAL E MTODOS Os dados utilizados nas anlises so provenientes dos servios de Genealogia e de Controle de Desenvolvimento Ponderal, dos arquivos da Associao Brasileira de Criadores da Raa Simental (ABCRS). O arquivo de pedigree continha 29.872 animais. O arquivo referente ao peso aos 730 dias continha dados de 3.559 animais, filhos de 526 touros e 1885 vacas, distribudos em 574 grupos de contemporneos. Estes dados foram submetidos a uma anlise crtica atravs do programa computacional (Statistical Analysis System), verso 6.12 (SAS, 1996). Procedeu-se assim V Simpsio da Sociedade Brasileira de Melhoramento Animal
8 e 9 de julho de 2004- Pirassununga, SP
eliminao de registros inconsistentes e formao dos grupos de contemporneos a serem considerados como efeitos fixos (ambiente) nos modelos estatsticos. Estes grupos foram definidos como animais de mesmo sexo, nascidos no mesmo ano-estao, criados sob igual regime alimentar, na mesma fazenda. Em seguida realizou-se a prova de Kolmogorov-Smirnov para verificar a normalidade das curvas de distribuio dos dados. Para verificao da presena de heterogeneidade de varincias foi utilizado o teste de Levene, numa modificao originalmente proposta por Brown & Forsythe (1974). A qual consiste em usar a mediana no lugar da mdia para calcular os desvios, o que torna o teste bem mais robusto. A estimao dos componentes de varincia foi feita, num primeiro momento pelo mtodo frequentista REML (restricted maximum likelihood) sendo as anlises implementadas por meio do software MTDFREML (Multiple Trait Derivative-Free Restricted Maximum Likelihood) desenvolvido por Boldman et al.(1993). Foi utilizado um modelo animal, supondo-se distribuio gaussiana dos resduos. No mais do que trs reincios, utilizando-se os resultados da rodada anterior como valor inicial na rodada subseqente, foram necessrios para garantir a convergncia a um mximo global. Para representao das anlises por este modelo, a sigla GML foi utilizada. Para o uso da abordagem bayesiana na estimao dos componentes de (co) varincia sob modelo animal tambm com distribuio gaussiana dos resduos foi usado o software MTGSAM (Multiple Trait Gibbs Sampling in Animal Models), desenvolvido por Van Tassel e Van Vleck (1995). Assumiu-se que as distribuies a priori para os componentes de varincia e efeitos fixos eram desconhecidas (priores flat ou no informativas). Os valores para iterao na rodada inicial foram obtidos na literatura. As densidades marginais dos componentes de varincia foram estimadas a partir das amostras geradas pelo amostrador de Gibbs. A inspeo grfica e o programa Gibanal (VanKaam, 1998) foram usados para determinar a convergncia. Foram realizadas no total 750.000 iteraes do amostrador de Gibbs. As 1.000 primeiras iteraes foram descartadas para permitir que a distribuio inicial, fornecida como priori, no interferisse nos resultados; e para evitar a redundncia das informaes, causada pela correlao serial entre amostras geradas subseqentemente, foi tomada apenas uma amostra a cada 350 geradas. Para este modelo utilizou- se a sigla BG para sua representao. Como alternativa aos modelos acima descritos, foi utilizado um programa de computador especfico para estas anlises com o modelo robusto e distribuio normal contaminada. Este programa uma modificao efetuada por Pereira (2001) em Fortran 77, a partir de um programa desenvolvido pelo pesquisador Daniel Sorensen no Instituto Dinamarqus de Cincia Animal, para anlise Bayesiana com modelos Gaussianos. As mesmas condies usadas para o modelo gaussiano foram tambm adotadas neste modelo. Para o modelo robusto utilizou-se a sigla BM para sua representao.
RESULTADOS E DISCUSSO A representao grfica das distribuies da caracterstica peso aos 730 dias de idade e de seus desvios em relao mdia dos contemporneos est na Figura 1. Esto apresentadas as distribuies de freqncia das caractersticas na forma de histogramas e as distribuies normais esperadas com mdia e varincia iguais s estimadas para as caractersticas na forma de linhas contnuas. Embora no seja aparente na distribuio da caracterstica observada, fica claro, no caso em que so apresentados os desvios em relao mdia dos contemporneos a forma leptocrtica (caudas longas) da distribuio. Em relao distribuio normal nota-se que h um excesso na regio da moda, o que tpico desta forma de distribuio. Possivelmente existe uma heterogeneidade de varincias e/ou valores discrepantes na caracterstica estudada. Pode-se inferir, de acordo com estes resultados que a pressuposio de normalidade pode no ser a mais adequada para a estimao dos componentes de varincia para a caracterstica. Os valores discrepantes podem influenciar de maneira muito significativa estes resultados. Encontram-se, na Tabela 1, os componentes de varincia e herdabilidade estimados com o modelo GML e as mdias posteriores pelos modelos BG e BM. As estimativas de e para o modelo BM foram 0,2747 e 0,1083. Esta caracterstica apresentou pequena proporo de indivduos da populao com maior varincia, o que pode ser devido ao descarte seletivo que tende a homogeneizar os rebanhos, ou ainda excluso de certos rebanhos onde o cuidado com a coleta de dados menor e onde, possivelmente, as pesagens so interrompidas mais cedo. A varincia da populao contaminante 9,23 vezes o valor da populao base. Aproximadamente 28% dos animais apresentaram varincia residual maior. Pereira (2001), trabalhando com peso ao nascimento de bovinos Simental encontrou diferenas muito maiores de varincia entre as subpopulaes. Entretanto, o autor atribuiu tal discrepncia baixa qualidade do conjunto de dados. Mais uma vez, as mdias das distribuies posteriores dos componentes de varincia do modelo BG diferiram das dos outros dois modelos. O componente de V Simpsio da Sociedade Brasileira de Melhoramento Animal
8 e 9 de julho de 2004- Pirassununga, SP
varincia gentica foi mais alto e o de varincia residual mais baixo, resultando em herdabilidade bem mais alta por este modelo. Em cada iterao do amostrador de Gibbs, os animais com registro de produo so classificados como sendo de uma das subpopulaes. A observao do nmero proporcional de vezes que o animal foi classificado na populao de varincia mais alta permitiu identificar erros na formao de grupos de contemporneos para o peso aos 730 dias. Os animais classificados erroneamente apareciam como observaes discrepantes dentro dos grupos, e nos modelos gaussianos, parte do desvio em relao aos contemporneos era atribuda ao valor gentico destes animais. Este dado emprico indica que o modelo BM pode acomodar melhor as observaes discrepantes do que os modelos gaussianos. Pereira (2001) em estudo de simulao j havia observado que este modelo bem superior ao modelo gaussiano em situaes em que h heterogeneidade de varincia no sistemtica.
CONCLUSES As estimativas de varincias genticas produzidas pelo modelo robusto utilizado no presente trabalho foram semelhantes s estimativas de mxima verossimilhana restrita em modelo gaussiano, enquanto que para o resduo foi identificada uma mistura de distribuies normais com diferentes varincias.
REFERNCIAS BIBLIOGRFICAS PEREIRA, I. G. Estudo se simulao e aplicao de modelos lineares mistos com distribuio normal contaminada no melhoramento gentico animal. Botucatu, FMVZ/UNESP, 2001. 91p. (Tese Doutorado em Zootecnia). ROGERS, W. H.; TUKEY, J . W. Understanding some long-tailed distributions. Statistica Neerlandia, v.26, p.211-226, 1972. ROSA, G. J . M. Anlise bayesiana de modelos lineares mistos robustos via amostrador de Gibbs. Piracicaba, ESALQ, 1998. 57p. (Tese Doutorado em Estatstica). SAS . Users Guide: Statistics, Cary: SAS INSTITUTE. 956p., 1996 STRANDN, I. J . Robust mixed effects linear models with t distributions and application to dairy cattle breeding. Madison, 1996. 176p. Thesis (PhD) University of Wisconsin. VanKAAM, J . B. C. H. M. (1998). Disponvel em: <http://www.student.wau.nl/~janthijs/breedingsite/eadgibanal.html>
V Simpsio da Sociedade Brasileira de Melhoramento Animal
8 e 9 de julho de 2004- Pirassununga, SP
FIGURA 1. Distribuio de freqncia do peso aos 730 dias de bovinos Simental ( esquerda) e das freqncias de seus desvios em relao a media dos contemporneos
TABELA 1. Estimativas dos componentes de varincia e herdabilidade pelo modelo GML e mdias a posteriori, pelos modelos BG e BM para a caracterstica peso aos 730 dias. A Primeira populao; B Segunda populao; C Mdia ponderada das duas populaes
MODELO 2 g
2 e
2 h
GML 1586,29 2747,38 0,37 BG 2330,65 2290,33 0,50 BM A 1428,29 919,42 0,60 BM B 1428,29 8489,56 0,14 BM C 1428,29 2998,93 0,32