Академический Документы
Профессиональный Документы
Культура Документы
Data da Defesa :
Visto do Orientador:
USP-So Carlos
Maro de 2008
11/02/2008
Dedicatria
A minha famlia, especialmente aos meus pais e a minha irm, pela compreenso,
carinho e incansvel apoio ao longo do perodo dos meus estudos de ps-graduao.
Agradecimentos
Ao Prof. Dr. Alexandre Cludio Botazzo Delbem, que, no decorrer deste doutorado, contribuiu para meu crescimento cientco e intelectual.
Ao Prof. Dr. Andr C.P.L.F. Carvalho, pela ateno e apoio durante as etapas
inicias do meu trabalho.
Resumo
No
entanto, esse problema tem se mostrado muito difcil uma vez que o espao de
busca das possveis rvores muito grande.
logentica tm sido propostos.
mxima parcimnia e mxima verossimilhana. Tais solues apresentam um compromisso entre os dois objetivos.
Abstract
phylogenies, which often conict with each other. In this context, a multi-objective
approach for phylogeny reconstruction can be useful since it could produce a set
of optimal trees according to mdicultultiple criteria.
In this thesis, a multi-objective evolutionary algorithm for phylogenetic reconstruction, called PhyloMOEA, is proposed. PhyloMOEA uses the parsimony
and likelihood criteria, which are two of the most used phylogenetic reconstruction methods. PhyloMOEA was tested using four datasets of nucleotide sequences
found in the literature. For each dataset, the proposed algorithm found a Pareto
front representing a trade-o between the used criteria.
Trees in the Pareto front were statistically validated using the SH-test, which
has shown that a number of intermediate solutions from PhyloMOEA are consistent
with solutions found by phylogenetic methods using one criterion. Moreover, clade
support values from trees found by PhyloMOEA was compared to clade posterior
probabilities obtained by Mr.Bayes. Results indicate a correlation between these
probabilities for several clades.
In summary, PhyloMOEA is able to nd diverse intermediate solutions, which
are not statistically worse than the best solutions for the maximum parsimony
and maximum likelihood criteria.
trade-o between these criteria.
Sumrio
Lista de Figuras
vi
Lista de Tabelas
viii
Lista de Abreviaturas
ix
Lista de Smbolos
xi
Introduo
Reconstruo logentica
2.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Seqncias e grafos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
Reconstruo logentica . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.4
Mxima parcimnia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.4.1
18
2.4.2
. . . . . .
22
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.5
Mxima verossimilhana
. . . . . . . . . . .
24
. . . . . . . . . . . . .
27
30
2.6
32
2.7
34
2.7.1
Anlise de
34
2.7.2
O teste de Shimodaira-Hasegawa
2.7.3
Inferncia Bayesiana
2.8
2.5.1
2.5.2
2.5.3
bootstrap
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
36
. . . . . . . . . . . . . . . . . . . . . . . . . .
37
Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
41
3.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.2
Computao evolutiva
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.3
Algoritmos genticos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.4
3.5
3.3.1
. . . . . . . . . . . . . . . . . . . . . .
46
3.3.2
47
3.3.3
Operador de seleo
. . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.3.4
Operador de recombinao . . . . . . . . . . . . . . . . . . . . . . .
49
3.3.5
Operador de mutao . . . . . . . . . . . . . . . . . . . . . . . . . .
50
3.3.6
Exemplo do uso de um AG . . . . . . . . . . . . . . . . . . . . . . .
51
3.3.7
. .
53
. . . . . . . . . . . . . . . . . .
55
. . . .
55
3.4.2
60
Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
63
4.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.2
Otimizao multi-objetivo
. . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.3
4.4
4.2.1
Formulao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.2.2
Solues Pareto-timas . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.2.3
66
4.2.4
. . . . . . . . . .
66
67
4.3.1
Somatrio de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
4.3.2
Mtodo de restries
4.3.3
4.3.4
. . . . . . . . . . . . . . . . . . . . . . . . .
68
. . . . . . . . . . . . . . . . . . . . . . . .
69
. . . . . . . . .
71
. . . . . . . . . . . . . .
71
Algoritmo NSGA-II . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.5
. . . . . . . . . . . . . .
76
4.6
Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
79
5.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.2
PhyloMOEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.2.1
Representao de solues
. . . . . . . . . . . . . . . . . . . . . . .
80
5.2.2
Funes de aptido . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
5.2.3
. . . . . . . . . . . . . . . . . . . . . .
86
5.2.4
86
ii
5.2.5
5.3
87
Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
Experimentos e resultados
91
6.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6.2
Conjuntos de seqncias
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6.3
Condies iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
6.4
94
6.4.1
6.5
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
95
. . . . . . . . . . . . . . . . 101
6.5.1
. . . . 104
6.5.2
6.6
113
Referncias Bibliogrcas
119
iii
iv
Lista de Figuras
2.1
2.2
Exemplos de grafos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.3
10
2.4
11
2.5
. . . . .
12
2.6
17
2.7
Exemplo do mtodo
. . . . . . . . . . . . . . . . . . . .
19
2.8
. . . . . . . . . . . . . . . . . . . .
20
2.9
20
21
28
. . . . . . . . . . . . . . . . . . . . . . . .
35
3.1
49
3.2
3.3
3.4
stepwise addition
bootstrap
f (x, y)
. . . . . . .
51
. . . . . . . . .
53
. . . . . . . . . . . .
54
3.5
. . . . . . . . . . . .
56
3.6
58
3.7
58
3.8
. . . . .
60
4.1
Exemplo do preo-desempenho . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.2
. . . . . . . . .
66
4.3
Mtodo de restries
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4.4
70
4.5
75
f (x, y).
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
4.6
77
5.1
80
5.2
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
5.3
82
5.4
83
5.5
. . . . . . . . . . . . . . . . .
87
5.6
88
6.1
6.2
6.3
6.4
6.5
rbcL_55. . . .
mtDN A_186.
RDP II _218.
ZILLA_500.
6.9
. . . . . . . . . . . . . . .
95
. . . . . . . . . . . . . . .
96
. . . . . . . . . . . . . . .
96
rbcL_55.
. . . . . . . . . . . . . 102
mtDN A_186. .
. . . . . . . . . . 102
6.8
95
6.7
. . . . . . . . . . . . . . .
RDP II _218.
. . . . . . . . . . . 102
ZILLA_500.
rbcL_55. . . . . . . .
mtDN A_186. . . . .
RDP II _218. . . . .
ZILLA_500. . . . .
. . . . . . . . . . . 102
. . . . . . . . . . . 105
. . . . . . . . . . . 105
. . . . . . . . . . . 105
. . . . . . . . . . . 105
rbcL_55.
. . . . . . . . . . . . . 110
mtDN A_186. .
. . . . . . . . . . 110
RDP II _218.
. . . . . . . . . . . 110
vi
ZILLA_500.
. . . . . . . . . . . 110
Lista de Tabelas
2.1
2.2
3.1
. . .
13
. . . . . . . .
15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.2
52
3.3
52
3.4
53
4.1
73
6.1
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2
6.3
. . . . . . . . . . .
94
6.4
95
6.5
97
6.6
97
6.7
6.8
. . . . . . . . . . . . . . .
93
. . . . . . . . . . . . . . . . . . . . . . . 100
6.9
rbcL_55.
. . . . . . . . . . . . .
93
rbcL_55.
. . . . . . . . . . . . . . . . . . . . . . . . . . . 100
mtDN A_186.
. . . . . . . . . . . . . . . . . . . . 100
mtDN A_186.
. . . . . . . . . . . . . . . . . . . . . . . . 100
RDP II _218.
vii
. . . . . . . . . . . . . . . . . . . . 101
RDP II _218.
. . . . . . . . . . . . . . . . . . . . . . . . . 101
ZILLA_500. .
. . . . . . . . . . . . . . . . . . . . 101
ZILLA_500.
. . . . . . . . . . . . . . . . . . . . . . . . . 101
. . . . . . . . . . 103
6.17 Resumo dos resultados das execues do PhyloMOEA considerando ASRV. 104
6.18 Resumo do nmero de solues encontradas nas execues do PhyloMOEA
considerando ASRV.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
rbcL_55.
. . . . . . . . . . . . . 107
rbcL_55.
. . . . . . . . . . . . . . . . . . 108
mtDN A_186. .
. . . . . . . . . . 108
mtDN A_186.
. . . . . . . . . . . . . . . 108
RDP II _218.
. . . . . . . . . . . 108
RDP II _218.
. . . . . . . . . . . . . . . 109
ZILLA_500.
. . . . . . . . . . . 109
ZILLA_500.
viii
. . . . . . . . . . . . . . . 109
Lista de Abreviaturas
AE
Algoritmo Evolutivo
AG
Algoritmo Gentico
ASRV
(do ingls
DNA
Acido dexoxiribonucleico
GTR
Model)
HYK85
(do
ingls
General Time-Reversible
MCMC
MOEA
MOOP
NJ
NNI
NSGA-II
ix
SPR
TBR
SubTree
Lista de Smbolos
G(V, E)
Grafo
conjunto de ramos
espcies
P ar( )
P arj
Cvj ,uj
e o
n
Nsit
vj
para o estado
uj
Freqncia do estado
dos
Px,y (t)
no conjunto de da-
D
x
L()
= {, B, M}
no tempo
Verossimilhana do modelo
para o
uma topolo-
o conjunto de comprimento
M o modelo de substituio
de seqncias.
Lj
LEj
Lrj (rj )
Verossimilhana no stio
xi
da su-
LEjr (rj )
p(i )
O valor
determinado
pelo teste SH
P(i , |D)
Pj
x = (x1 , . . . , xNvar )
f (x) = [f1 (x), . . . , fNobj (x)]
Sf act
Probabilidade posterior de
Populao do AG na gerao
Vetor de
Nvar
dado
variveis de deciso
xii
Captulo
1
Introduo
A biologia molecular uma cincia que apresentou avanos muito signicativos nas ltimas
dcadas. Os bilogos freqentemente trabalham com uma grande quantidade de informao gerada a partir de experimentos em laboratrio. Dada a necessidade de manipular essa
informao, surgiu a bioinformtica, que aplica tcnicas computacionais, matemticas e
estatsticas para tratar os problemas da biologia molecular.
Um dos principais problemas nesta rea a inferncia logentica (Setubal e Meidanis,
1997). Esse problema consiste em determinar, empregando um conjunto de dados moleculares ou morfolgicos, as relaes evolutivas de um conjunto de espcies. Tais relaes
evolutivas so apresentadas usualmente em uma forma de rvore, conhecida como rvore
logentica.
Assim, o objetivo principal da inferncia logentica determinar a rvore que reete
satisfatoriamente a histria evolutiva das espcies consideradas (Felsenstein, 2004). Este
problema relevante tanto do ponto de vista biolgico quanto do ponto de vista computacional. Dado que no se possui informaes sucientes a respeito as espcies extintas,
deve-se considerar cada rvore logentica apenas como uma hiptese possvel. Encontrar
a melhor rvore logentica (ou rvore verdadeira) um problema muito difcil devido ao
nmero de rvores a serem avaliados crescer muito rapidamente conforme ao nmero de
espcies estudadas aumenta (Felsenstein, 2004).
Nesse contexto, uma srie de mtodos de inferncia logentica tm sido propostos
na literatura (Felsenstein, 2004; Swoord et al., 1996). Alguns mtodos transformam a
informao molecular em matrizes de distncia para, nalmente, empregar algum algoritmo de agrupamento que resulta em uma rvore. Outros mtodos denem um critrio
CAPTULO 1.
INTRODUO
de otimalidade que permita avaliar cada rvore possvel para encontrar a soluo tima
conforme ao critrio denido. Dois dos principais mtodos de reconstruo logentica
que empregam critrio de otimalidade so a mxima parcimnia (Fitch, 1972) e a mxima
verossimilhana (Felsenstein, 1981a).
O mtodo de mxima parcimnia avalia cada rvore conforme ao nmero de mudanas
de estado requeridos pela sua topologia (Swoord et al., 1996). Dessa forma, procura-se
pela rvore (denominada como rvore de mxima parcimnia) que minimize o nmero
total de tais mudanas. Embora a parcimnia seja um critrio simples e muito utilizado
pelos pesquisadores, h muita polmica na comunidade em relao a sua validade.
A mxima verossimilhana procura a rvore que maximize a probabilidade de os dados
moleculares adequarem-se a um determinado modelo de evoluo.
de reconstruo leva a recuperao de rvores que possuem partes conitantes entre sim.
Como os resultados da inferncia logentica so muito variveis e dependentes das condies do experimento, no existe uma consenso a respeito de qual o melhor mtodo a
ser empregado.
Uma diculdade inerente aos mtodos de otimalidade procurar pela rvore tima
no espao de busca que cresce rapidamente. Os mtodos que garantem a soluo tima
podem ser aplicados apenas para rvores com um nmero de espcies reduzido.
Para
conjuntos de dados maiores, apenas mtodos de busca heurstica podem ser utilizados.
Os mtodos heursticos para busca da melhor rvore comeam, basicamente, por determinar uma rvore inicial que represente uma boa aproximao a soluo tima (Swoord
et al., 1996).
soluo inicial. Tais passos so repetidos iterativamente at que no seja possvel atingir
uma melhor soluo. Este procedimento geral implementado na maioria dos principais
programas de inferncia logentica como PAUP* (Swoord, 2000), PHYLIP (Felsenstein,
2000b), RAxML (Stamatakis, 2005), NONA (Golobo, 1999b), entre outros.
Um outro grupo de heursticas aplicadas em logenia incluem os algoritmos evolutivos (AEs).
dos princpios de evoluo, gentica e seleo natural. Uma srie de estudos envolvendo
aplicaes dos AEs em problemas de reconstruo logentica tm sido desenvolvidos,
3
mostrando resultados relevantes (Gogarten e Lewis, 2002; Katoh et al., 2001; Lemmon e
Milinkovitch, 2002a; Lewis, 1998; Matsuda, 1996; Zwickl, 2006). Em tais estudos, mostrase os benefcios de aplicar AEs empregando um determinado critrio de otimalidade (como
parcimnia, verossimilhana ou distncia mnima). Os resultados mostraram um melhor
desempenho tanto em tempo de computao quanto na qualidade das solues encontradas pelos AEs em comparao com as solues encontradas por programas tradicionais
como PHYLIP e PAUP*.
serem otimizados so conitantes entre si, ou seja, se uma soluo melhor para um
objetivo, piorado outro objetivo.
O AE multi-objetivo desenvol-
CAPTULO 1.
INTRODUO
decorrer da presente tese abre uma nova linha de pesquisa que amplia o espectro da
aplicao de abordagens multi-objetivo, investiga mtodos de reconstruo logentica
como AEs, tcnicas de anlise de logenias por mltiplos critrios, bem como a relevncia
do PhyloMOEA para diferentes bases de dados da biologia molecular.
Esta tese est organizada em sete Captulos.
5
Captulo 4 detalha noes bsicas dos problemas de otimizao multi-objetivo e a aplicao dos AEs em tais problemas. O Captulo 5 apresenta detalhadamente o PhyloMOEA,
o modelo proposto de AE multi-objetivo para o problema de reconstruo logentica. O
Captulo 6 mostra os resultados da aplicao do modelo proposto em bancos de seqncias
de teste. Finalmente, o Captulo 7 apresenta as principais concluses trabalho e sugestes
de pesquisas futuras.
CAPTULO 1.
INTRODUO
Captulo
2
Reconstruo logentica
2.1 Introduo
A Filogenia uma rea de pesquisa da biologia que estuda as relaes evolutivas entre
os organismos (espcies). Segundo Graur e Li (2000), os estudos logenticos apontam a
trs objetivos:
Para explicar os mecanismos de evoluo das espcies, foram propostas vrias teorias.
Dentre elas, destacam-se as teorias de Lamarck, Darwin e a Teoria Sinttica da Evoluo
(ou Neodarwinismo).
Em 1.809, Joseph Lamarck publicou o seu livro Filosoa Zoolgica".
Nele, pos-
ancestralidade
teoria foi muito ousada para o seu tempo e terminou sendo esquecida.
A teoria de
. Contudo, esta
CAPTULO 2.
RECONSTRUO FILOGENTICA
O ingls Charles Darwin retomou o interesse pela evoluo como conseqncia das suas
viagens ao redor do mundo a bordo do navio H.M.S.
Beagle
Darwin coletou vrios exemplares de animais, plantas e fsseis e fez observaes sobre as
diferenas encontradas entre indivduos da mesma espcie. A comparao de fsseis de
diferentes camadas geolgicas revelou a Darwin que as espcies estavam modicando-se
ao longo do tempo e que algumas caractersticas de espcies extintas so conservadas nas
atuais. Alm disso, Darwin observou que os fsseis de camadas geolgicas mais recentes
apresentam uma maior semelhana com as espcies vivas.
Uma outra questo de interesse para Darwin estava relacionada com o crescimento
populacional das espcies. Por um lado, a grande capacidade de reproduo garantia um
aumento de nmero de indivduos, segundo uma progresso geomtrica. No obstante, os
meios de subsistncia seguiam apenas uma progresso aritmtica. Na prtica, o aumento
de tamanho da populao era menor que o predito teoricamente. Darwin concluiu ento
que deveria existir um mtodo de
seleo
de indivduos.
Esta questo foi abordada por Mendel, que armou que as diferenas nas ca-
ractersticas fsicas dos organismos, como cor, tamanho, forma eram devidas a fatores
hereditrios que Mendel denominou genes. Os resultados de Mendel foram publicados em
1.867, mas s aps 1.940 uma teoria evolucionista mais consistente foi desenvolvida.
A Teoria Sinttica da Evoluo ou Neodarwinismo (Ridley, 1996) baseia-se nos mecanismos de seleo natural, mutao e recombinao gnica.
2.2.
SEQNCIAS E GRAFOS
Seo 2.3 apresenta a rea de reconstruo logentica. As Sees 2.4 e 2.5 descrevem os
mtodos de reconstruo logentica de mxima parcimnia e mxima verossimilhana,
respectivamente. A Seo 2.6 apresenta uma reviso bibliogrca dos principais estudos
que comparam os diversos mtodos para logenia. A Seo 2.7 descreve os principais testes
de condncia para rvores logenticas.
pontos apresentados neste Captulo mostrando como eles motivam a pesquisa proposta.
Uma
seqncia s
uma sucesso
s1 s2 s3 s4 . . . sn
de caracteres pertencentes a um
conjunto nito denominado alfabeto (Felsenstein, 2004; Setubal e Meidanis, 1997). Por
exemplo, as seqncias de DNA esto compostas de uma sucesso de nucleotdeos. Existem quatro tipos de nucleotdeos: adenina (A) citocina (C), timina (T) e guanina (G).
Os nucleotdeos de tipo A e G so denominados purinas; enquanto os dos tipos C e T so
denominados pirimidinas.
Cada posio
TGCAGGGAC
ARRHASTKL
grafo
junto de ns (vrtices)
e um conjunto ramos
grau
a 1; enquanto o grau do n e 3.
Um
caminho
10
CAPTULO 2.
c
e
RECONSTRUO FILOGENTICA
f
e
V = {a, b, c, d, e, f }
E = {(e, a), (e, b), (e, f ), (f, c), f, d)}
V = {a, b, c, d, e, f }
E = {(e, a), (e, b), (e, c), (e, f ), (f, c), f, d)}
(a)
(b)
acclico
conexo
rvore
1
c.
(e, c)
(e, f, c)
so dois caminhos
G(V, E)
externos
classicados como ns
caso contrrio.
os
{e, f }
(ou
folhas
so internos.
{a, b, c, d}
internos
so externos, enquanto
(e, f )
{a, b}
(a)
(b)
topologia
{c, d}.
2.3.
RECONSTRUO FILOGENTICA
11
Um n
dito ancestral do n
na Figura 2.3(a), o n
v,
se
ancestral de
a,
pois o n
est no caminho
u. Por exemplo,
(r, e, a). Deve-se
clado
um grupo de
binria
o ancestral e
so as espcies
nas folhas, 2 para a raiz (se houver) e 3 para os demais ns internos, a rvore
binria
estritamente
logentica
rvore
hipotticos
As folhas representam as
espcies atuais
e os ns internos, os ancestrais
ou espcies extintas.
gibo
orangotango
gorila
humano
chimpanz
Figura 2.4: Uma rvore logentica para um grupo de primatas (Page e Holmes, 1998).
12
CAPTULO 2.
RECONSTRUO FILOGENTICA
Em geral, constri-se uma rvore logentica apenas a partir dos dados das espcies
atualmente existentes. Desta forma, as rvores construdas so sempre hipotticas.
importante salientar que as rvores logenticas podem ter ou no raiz.
A raiz
da rvore indica o ancestral comum da qual todas as demais espcies descendem e, portanto, implica uma direo de tempo de evoluo.
da raiz, mais antiga esta .
outgroup
lugar onde a raiz inserida, so geradas diferentes rvores enraizadas, conforme ilustrado
na Figura 2.5. Observe que uma raiz e duas arestas adjacentes devem substituir uma das
arestas da rvore sem raiz. Para a rvore da Figura 2.5, h 7 passibilidades de insero
de raiz.
a
1
5
6
3
7
rvore 1
rvore 2
rvore 3
r
rvore 5
bc
rvore 4
r
rvore 6
b e c
rvore 7
Figura 2.5: As 7 possveis rvores geradas da rvore sem raiz de 5 seqncias. A rvore
i (i = 1, . . . , 7)
Holmes, 1998).
(Page e
2.3.
RECONSTRUO FILOGENTICA
13
n3
n
Y
(2i 5) = 1 3 5 . . . (2n 5).
(2.1)
i=3
A Equao 2.1 pode ser explicada intuitivamente da seguinte forma:
Para
n = 3,
existe apenas uma possvel rvore sem raiz com 3 ramos internos. Uma
n = 4,
folhas possui
2n 3
ramos;
n = 4,
temos
possveis;
em cada um dos
2(n 1) 3 = 2n 5
n espcies,
basta inserir
n1
folhas.
2n 3
n
Y
(2n 3) (2i 5).
(2.2)
i=3
A Equao 2.2 tambm implica que o nmero de rvores sem raiz de
ao nmero de rvores com raiz para
n1
folhas igual
folhas.
Tabela 2.1: Nmero de rvores possveis sem raiz e com raiz para 2 a 10 espcies (Page
e Holmes, 1998).
2
3
4
5
6
7
8
9
10
A Tabela 2.1 mostra o nmero total de rvores com raiz e sem raiz para
variando
14
CAPTULO 2.
RECONSTRUO FILOGENTICA
Devido s rvores logenticas representarem hipteses da histria evolutiva das espcies, a inferncia da rvore que se adequa melhor aos dados obtidos uma tarefa complicada. O grande nmero de rvores possveis a serem analisadas complica mais ainda este
objetivo. Existem vrios mtodos para a inferncia de rvores logenticas, os quais so
classicados de diversas formas na literatura pesquisada (Morrison, 1996; Page e Holmes,
1998; Setubal e Meidanis, 1997; Swoord et al., 1996). Neste trabalho foi adotada a classicao elaborada por Swoord et al. (1996). Segundo essa classicao, os mtodos de
reconstruo logentica podem ser divididos em duas classes: os mtodos
critrios de otimalidade
Mtodos de agrupamento ou algortmicos:
os mtodos baseados em
algortmicos
includos os mtodos que utilizam agrupamentos por pares tais como o UPGMA (Michener e Sokal, 1957) e o Neighbor Joining (NJ) (Saitou e Nei, 1987). Tais algoritmos
fornecem respostas rpidas dado que no requerem a avaliao de grandes quantidades de possveis solues. Em geral, esses mtodos produzem apenas uma rvore
como resposta;
funo objetivo
Portanto, o critrio
Os mtodos baseados em
lhana (Felsenstein, 1981a) so dois do mtodos mais empregados em inferncia logentica. Esses critrios so de maior interesse para o presente trabalho e sero apresentados
nas sees seguintes.
2.4.
MXIMA PARCIMNIA
15
Tabela 2.2: Principais mtodos para construo de rvores logenticas. Tabela baseada
em (Morrison, 1996).
Mtodo
UPGMA
Neighbor-joining (NJ)
Referncias
(Michener e Sokal, 1957)
(Saitou e Nei, 1987)
Neighborliness
(Fitch, 1981; Sattath e Tversky, 1977)
Evoluo Mnima
(Edwards e Cavalli-Sforza, 1964)
Parcimnia de Wagner
(Farris, 1970)
Mnimos Quadrados
(Fitch e Margoliash, 1967)
Mxima Parcimnia
(Farris, 1972; Fitch, 1972)
Parcimnia Ponderada
(Farris, 1969; Sanko, 1975)
Compatibilidade
(Quesne, 1969, 1982)
Mxima Verossimilhana (Felsenstein, 1973a,b, 1981a,b)
Invariantes
(Cavender e Felsenstein, 1987; Lake, 1987)
Anlise Espectral
(Hendy e Penny, 1993; Penny et al., 1987)
Inferncia Bayesiana
(Mau e Newton, 1997; Rannala e Yang, 1996)
(Larget e Simon, 1999; Li et al., 2000)
Tipo
agrupamento
agrupamento
agrupamento
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
mxima parcimnia
reconstruo logentica, embora tenha sido preterida mais recentemente por mtodos
mais robustos (Swoord e Sullivan, 2003) como a mxima verossimilhana (Felsenstein,
1981a) ou a inferncia Bayesiana (Huelsenbeck et al., 2001). O objetivo da mxima parcimnia procurar a rvore (ou rvores) cujo nmero total de mudanas evolutivas seja
mnima. Tais mudanas referem-se as diferenas entre os estados dos ns conectados em
cada ramo. A justicativa do mtodo de mxima parcimnia possuem bases loscas:
se existem vrias hipteses que forneam explicaes igualmente vlidas para algum fenmeno, deve-se escolher a mais simples delas. Este princpio conhecido como a navalha
de Occam (Felsenstein, 2004). Assim, na reconstruo logentica, a parcimnia estabelece uma correspondncia entre o nmero de mudanas evolutivas e a complexidade das
hipteses.
estatsticos (de Queiroz e Poe, 2001; Swoord e Sullivan, 2003; Tuey e Steel, 1997) expressam que a conexo entre mudanas evolutivas e complexidade da hiptese muito
fraca.
Seja
um conjunto de seqncias de
espcies e
Nsit
dada pela
seguinte expresso:
P ar( ) =
Nsit
X
j=1
P arj ,
(2.3)
16
CAPTULO 2.
onde
P arj
RECONSTRUO FILOGENTICA
j.
das diferenas dos estados entre cada par de ns conetados nos ramos de
Assim,
P arj
P arj =
Cvj ,uj ,
(2.4)
(v,u)E
o conjunto de ramos
Cx,y = 1,
x 6= y
se
Cx,y = 0,
D.
Porm,
para calcular o valor de parcimnia de uma rvore, preciso obter os estados dos ns
internos de forma que
Sk
e seus descendentes
w, Sv
expresso:
(
Sv =
Su Sw ,
Su Sw ,
se
Su Sw 6=
(2.5)
caso contrrio
v,
o estado
uj
Sr .
(
uj =
vj , se vj Su
x, tal que x Su ,
caso contrrio.
(2.6)
2.4.
MXIMA PARCIMNIA
17
Assim, mediante o percurso pr-ordem, uma das possveis atribuies de estados que
P arj
stios j ,
determinada.
ferentes
P ar( ).
P arj
minimizam
Sk
obtidos no
percurso ps-ordem; enquanto as duas rvores da direita mostram duas possveis atribuies dos estados internos que minimizam
P arj .
rvore indica uma diferena entre os estados dos ns conetados a tais ramos. A descrio
detalhada do algoritmo de Fitch mostrado no Algoritmo 1.
{CG}
{ACG}*
{CG}*
{AC}*
G C
G C
1
2
3
4
5
stios
stio
n interno com lhos e percorrendo em ps-ordem
faa
m
6
7
8
rj = {x|x Sr
para cada
Determinar
uj
faa
m
m
Calcular
P ar( )
18
CAPTULO 2.
RECONSTRUO FILOGENTICA
P ars( )
tal que
Tal problema
i 1 espcies.
i-sima
espcie
que todas as espcies sejam consideradas e, nalmente, a rvore com a melhor topologia
a soluo tima.
(Hendy e
stepwise addition
star decomposition
Decomposio de estrela (
2.4.
MXIMA PARCIMNIA
19
rvore inicial
A
C
A
B
C
D
E
stepwise addition
Os mtodos de adio por passos e decomposio por estrela raramente levam rvore
tima.
modicao topolgica:
):
essa tcnica trabalha com os ramos interiores da rvore. Cada ramo dene 4 subrvores vizinhas conectadas aos seus extremos. Cada um dos extremos possui um par
de subrvores. O NNI troca subrvores vizinhos de pares diferentes modicando a
rvore inicial. Todas as operaes NNI so efetuadas nos ramos da rvores original
e, nalmente, a melhor soluo retornada. O NNI provoca pequenas modicaes
20
CAPTULO 2.
RECONSTRUO FILOGENTICA
topolgicas, sendo adequado para uma busca na vizinhana da rvore inicial (Swofford e Sullivan, 2003). A Figura 2.8 mostra essa operao;
B
A
C
trocar
): esta
D
A
E
B
B
F
I
I
G
F
inserir
H
H
podar
):
essa tcnica elimina um ramo interno da rvore original, separando-a em duas subrvores. Seguidamente, tais subrvores so reconectadas, criando um novo ramo
que conecta as duas subrvores. Todas as subrvores e todas as reconexes possveis
so examinadas, retornado a melhor rvore encontrada. O TBR permite explorar
um maior nmero de solues que o SPR (Swoord e Sullivan, 2003). A Figura 2.10
mostra o emprego do TBR.
2.4.
MXIMA PARCIMNIA
21
C
A
E
B
F
I
sub-rvore
G
sub-rvore
H
C
A
H
B
E
I
criar conexo
H,B
F,B
G,B
A
D
A
D
B
E
B
E
A
D
B
E
Caso seja encontrada uma melhor soluo, esta usada como novo ponto de
timo locais (Swoord et al., 1996; Swoord e Sullivan, 2003). Uma forma de obter melhores resultados aplicar o mesmo procedimento em diversas pontos de partida (rvores
iniciais). Estas topologias so geradas por meio de vrias aplicaes da adio por passos,
com as espcies sendo adicionadas em ordem diferente em cada aplicao. Porm, os autores (Golobo e Farris, 2001; Swoord e Sullivan, 2003) concordam em que tal abordagem
efetiva em conjuntos de dados de at 100 espcies.
Deve-se observar que os mtodos heursticos de busca topolgica descritos nesta seo so independentes do critrio de otimalidade, podendo ser empregados em buscas de
22
CAPTULO 2.
RECONSTRUO FILOGENTICA
rvore de mxima parcimnia, mxima verossimilhana, entre outras. As heursticas especicamente desenvolvidas para a busca de rvore de mxima parcimnia so brevemente
explicadas na Seo 2.4.2.
A topologia
inicial pode ser obtida usando tanto adio de espcies quanto empregando um mtodo
de distncia como NJ (Saitou e Imanishi, 1989).
ser do tipo SPR, TBR ou NNI, alm de possibilitar a restrio da forma em que tais
operaes so aplicadas. possvel efetuar vrias rplicas da busca, podendo inclusive
calcular graus de suporte a cada ramo mediante tcnicas de amostragem de dados como
o
bootstrap
Um subconjunto de stios
escolhido, modicando os pesos de cada stio (por exemplo, adicionando 1 para os pesos
dos stios escolhidos). A seguir, modicaes topolgicas de tipo TBR so aplicadas aos
dados considerando os novos pesos. As melhores rvores nessa busca so mantidas e, posteriormente, aplica-se uma busca com o operador TBR em tais rvores, mas considerando
os dados originais (todos os stios com os mesmos pesos). Na prxima iterao, um outro
grupo de stios escolhido e todo o processo repetido. O mtodo Ratchet foi implementado nos programas PAUP* (Swoord, 2000) e NONA (Golobo, 1999b) mostrando que
o tempo para encontrar as rvores timas consideravelmente reduzido.
Os trabalhos de Golobo (1993, 1996, 1999a), Ronquist (1998) e Gladstein (1997)
descrevem vrias estratgias para melhorar o desempenho da busca da rvore de mxima
parcimnia. Em tais trabalhos so descritos mtodos que permitem calcular o valor de
2.4.
MXIMA PARCIMNIA
23
a priori
mente os ns afetados pela aplicao das operaes SPR ou TBR (Golobo, 1993, 1996).
Alm disso, apresentado um mtodo que permite detectar rvores subtimas que so
produto de modicaes SPR e TBR antes de tais alteraes serem realizadas. Com isso,
consegue-se uma reduo no tempo de execuo signicativa, uma vez que as mudanas
subtimas no so efetuadas.
Golobo tambm fez importantes contribuies nas heursticas para busca da melhor
topologia de mxima parcimnia (Golobo, 1999a). O autor critica o emprego da tcnica
de adio por passos e modicaes topolgicas TBR (ver Seo 2.4.1), armando que
so inecientes para encontrar a melhor soluo quando o conjunto de dados tem mais de
100 espcies. Assim, ele props trs novas abordagens de busca topolgica:
Tree-Fusing
duas rvores distintas, desde que ambas as subrvores possuam as mesmas espcies.
Tal mtodo produz melhores rvores se as subrvores combinadas possuam valores
de parcimnia timos ou quase-timos;
2. Buscas Setoriais Aleatrias (RSS, do ingls
): neste m-
Tree-Drifting
) (Golobo e
24
CAPTULO 2.
RECONSTRUO FILOGENTICA
mxima verossimilhana
tstica (Bryant et al., 2005). O conceito de verossimilhana lida com situaes em que
hipteses ou modelos referentes a um conjunto de dados so avaliados.
Na inferncia
Tais modelos so
apresentados a seguir.
processos estocsticos. Para calcular tal distncia preciso denir um modelo de substituio que descreva esses processos (Strimmer e von Haeseler, 2003).
Nesta subseo
Q,
onde
Qi,j
i para o estado j
durante um intervalo de tempo innitesimal. A forma mais usual de expressar essa matriz
a seguinte:
4
X
Q1,j
j=2
gA
Q=
hA
jA
aC
4
X
Q2,j
bG
cT
dG
eT
j=1,j6=2
iC
4
X
Q3,j
f T
j=1,j6=3
kC
lG
3
X
Q4,j
(2.7)
j=1
A, C, G e T
de A para C .
de
Os
parmetros
2.5.
MXIMA VEROSSIMILHANA
nucleotdios.
Ento,
relativa de mudana de
25
para
C, b a
A , C , G
para
taxa
e
T
D.
x;
i)
seja zero.
contnuos no tempo, os quais possuem as seguintes caractersticas (Strimmer e von Haeseler, 2003):
para o estado
A ,C ,G
T (A , C , G
T ,
respectivamente) esto em
equilbrio.
Uma outra propriedade muito importante de vrios modelos de substituio de DNA
que so reversveis no tempo. Em outras palavras, para um ramo na rvore, a probabilidade de que o estado de um extremo do ramo seja
(2.8)
no tempo t. O valor
):
4
X
Q1,j
j=2
aA
Q=
bA
cA
aC
4
X
Q2,j
bG
cT
dG
eT
j=1,j6=2
dC
4
X
Q3,j
f T
j=1,j6=3
eC
f G
3
X
j=1
Q4,j
(2.9)
26
CAPTULO 2.
RECONSTRUO FILOGENTICA
Q.
relativas constantes (a
= b = c = d = e = f = 1).
(b = e =
a = c = d = f = 1).
Outros
modelos so tambm casos particulares do modelo GTR (Strimmer e von Haeseler, 2003;
Swoord et al., 1996).
Uma vez obtida a matriz
um comprimento de ramo
t,
Q,
denotada como
P(t)
calculada como:
P(t) = eQt .
A matriz
(2.10)
em seus autovalores e
Q = ADA1 ,
onde
(2.11)
Q.
A matriz
1/2
a matriz cujas
Q = B,
onde
A matriz
(2.12)
Q = (1/2 U)D(1/2 U) 1,
(2.13)
onde a matriz
2.5.
MXIMA VEROSSIMILHANA
27
s).
um con-
Cada seqncia
L=
N
sit
Y
P(D(j) |),
(2.14)
j=1
Lj =
XX
Lj
rj Prj ,sj (trs )Prj ,vj (trv )Pvj ,uj (tvu )Pvj ,wj (tvw )
(2.15)
rj vj
onde
rj , vj
r e v , tij
o comprimento
28
CAPTULO 2.
RECONSTRUO FILOGENTICA
r
trv
trs
tvu
tvw
r,
denotada como,
Lrj (rj ),
s,
Lrj (rj ) =
rj .
vj
a,
seja
Assim, se o n
tem
temos que:
e para as folhas
no stio
onde o estado
(2.16)
sj
aj
fornecido por
(
Laj (x) =
1,
0,
se
D,
temos que:
aj = x,
caso contrrio.
(2.17)
Para o exemplo relativo rvore mostrada na Figura 2.11, tem-se pela Equao 2.17
que
Lj =
rj Lrj (rj )
(2.18)
rj
Para calcular a verossimilhana total conforme a Equao 2.14 necessrio fazer o
produto dos valores
Lj
tratar tais nmeros calculando os seus logaritmos naturais. Assim, aplicando logaritmo
natural a ambos lados da Equao 2.14, tem-se que:
ln L =
Nsit
X
ln Lj
(2.19)
j=1
As Equaes 2.18 e 2.16 denem uma forma recursiva de calcular a verossimilhana
para rvores logenticas, no qual as verossimilhanas condicionais de cada subrvore em-
2.5.
MXIMA VEROSSIMILHANA
29
pregando um percurso ps-ordem. Tal procedimento foi proposto por Felsenstein (1981a),
e apresentado no Algoritmo 2.
v
Calcular Lj (vj ), conforme a Equao 2.16.
3
probabilidades de
stio
n interno com lhos e percorrendo em ps-ordem
faa
m
Calcular
Lj
m
Calcular
ln L
O modelo de substituio
dados
evoluem com taxas diferentes. Quando a variao das taxas entre stios (denotada como
ASRV, do ingls
Basica-
mente, existem duas formas de incorporar o ASRV (Stamatakis, 2006a; Zwickl, 2006):
taxas de heterogeneidade especcas por stios e taxas de heterogeneidade Gama.
No modelo de taxas especcas por stio, incorpora-se ao modelo
W=
stio j . A
um vetor
a priori
a serem estimados.
No modelo de taxa de heterogeneidade Gama,
calculada por:
Z
Lj =
(2.20)
0
onde
a verossimilhana do stio
P(D(j) |, j = x)
seja x. Na prtica, o
30
CAPTULO 2.
RECONSTRUO FILOGENTICA
(j)
Lj =
0
onde a distribuio
xk
N
cat
X
k P(D(j) |, j = xk ),
(2.21)
k=1
para as taxas dos stios discretizada em
k = 1 . . . Ncat
categorias,
a probabilidade da categoria
k.
Lj =
N
cat
X
k rj Lrj (rj , xk ),
(2.22)
k=1 rj
Lrj (rj , j = xk ) obtida da mesma forma que Lrj (rj ) na Equao 2.16, multiplicando
xi os comprimentos de ramo trv e trs . Dessa forma, possvel adaptar o Algoritmo 2
onde
por
so
O programa DNAML, includo no PHYLIP (Felsenstein, 2000b), para a determinao de logenias por mxima verossimilhana incorpora heursticas de busca topolgica
similares ao DNAPARS, visto na Seo 2.4.2. A otimizao de todos os comprimentos
de ramo efetuada a cada modicao topolgica da rvores, embora na verso mais
recente (3.67) essa abordagem tenha sido substituda pela otimizao dos ramos somente
na vizinhana onde as mudanas aconteceram.
2.5.
MXIMA VEROSSIMILHANA
31
ponto de partida para uma nova iterao do algoritmo, que continua at que no haja
mais modicaes a serem aplicadas. Finalmente, os comprimentos de ramos e parmetros do modelo so reotimizados. Tal procedimento emprega o mtodo de otimizao de
Brent (1973), o qual no precisa do clculo de derivadas. Extenses para o PHYML, que
utilizam as modicaes topolgicas SPR ao invs da NNI original tm sido propostas
na literatura (Hordijk e Gascuel, 2005), embora ainda no tenham sido acrescentadas ao
programa.
A srie de programas RAxML (Stamatakis, 2005, 2006b; Stamatakis et al., 2005a,b,
2002b; Stamatakis e Meier, 2004) (cujas verses iniciais foram fortemente baseadas no
fastDNAml) implementam heursticas que aceleram o clculo da verossimilhana (Stamatakis et al., 2002a) e a obteno da topologia de mxima verossimilhana. No RAxML,
a topologia da rvore obtida mediante um algoritmo de adio por passos empregando
o critrio de mxima parcimnia. Os parmetros e comprimentos de ramos so tambm
otimizados neste etapa inicial. Posteriormente, so aplicadas modicaes do tipo SPR,
onde uma subrvore removida e logo reinserida em uma outra posio da rvore.
RAxML aplica tais movimentaes de forma que a distncia da onde rvore removida
e inserida no sobrepassa um certo limite. Alm disso, apenas os comprimentos de ramo
que so afetados pela reinsero da rvore so otimizados.
As 20 melhores topologias
32
CAPTULO 2.
RECONSTRUO FILOGENTICA
As novas verses do
Outras referncias da aplicao de busca heurstica para determinar a rvore de mxima verossimilhana, podem ser consultadas em (Adachi e Hasegawa, 1996; Hordijk e
Gascuel, 2005; Jobb, 2007; Larget e Simon, 1998; Pond e Muse, 2004; Pupko e Graur,
2002; Stamatakis, 2005; Strimmer e von Haesler, 1996; Vinh e von Haeseler, 2004; Yang,
1997).
priori
Empregando simulao.
Um exemplo do primeiro tipo de estudo o trabalho Hillis et al. (1992 apud Yang,
2006). Foram evoludos bacterifagos T7 no laboratrio, assim, tanto a logenia como os
estados de todas as espcies (incluindo as ancestrais) so conhecidas
a priori
. Todos os
a priori
2.6.
33
Nei, 1987), evoluo mnima (Rzhetsky e Nei, 1992), mxima parcimnia (Fitch, 1972) e
mxima verossimilhana (Felsenstein, 1981a). Os bancos usados apresentaram variadas
caractersticas como o tamanho do banco, distncia entre seqncias e stios informativos.
Os experimentos foram realizados com vrias tipos de distncias e, para o mtodo de
parcimnia, testou-se as variantes de parcimnia simples (Fitch, 1972) e com pesos (Sanko, 1975). Os desempenhos das tcnicas foram determinados utilizando uma medida de
distncia topolgica (Rzhetsky e Nei, 1992) em relao rvore correta. Os resultados
mostraram que todos os mtodos foram capazes de obter a rvore verdadeira para alguns
bancos; enquanto que para outros bancos, nenhum mtodo foi capaz de atingir a rvore
correta.
entrada para uma nova avaliao. Nesse casso, todos os mtodos encontraram a rvore
verdadeira. Duas concluses signicativas so destacadas pelos autores: os mtodos mais
simples como NJ (Saitou e Nei, 1987) produziram resultados comparveis a outros mtodos mais complexos, e a escolha dos dados adequados ou de grandes bancos de dados
produzem melhores resultados independentemente do mtodo de inferncia usado.
A importncia da simulao de dados para avaliar diversos mtodos de reconstruo
logentica foi destacado no trabalho de Huelsenbeck (1995).
rvore de 4 espcies e simulou um conjunto de 1.296 rvores, todas com a mesma topologia e diferentes combinaes de comprimentos de ramos.
uma amostragem representativa das diferentes condies em que os mtodos so testados. Para comparar o desempenho dos mtodos avaliados (UPGMA (Michener e Sokal,
1957), invariantes (Lake, 1987), parcimnia (Fitch, 1972), NJ (Saitou e Nei, 1987), mnimos quadrados (Cavalli-Sforza e Edwards, 1967) e mxima verossimilhana (Felsenstein,
1981a) foram utilizados 3 critrios: consistncia, robustez e ecincia. A consistncia de
um mtodo mostra a capacidade de estimar a rvore correta quando h dados sucientes.
A ecincia a rapidez com que o mtodo converge para a rvore correta. A robustez
do mtodo a capacidade de achar a rvore correta se os requisitos do mtodo no so
satisfeitos.
quadrados melhorou signicativamente o desempenho de tais mtodos. Segundo Huelsenbeck, a concluso mais importante de seu trabalho que, se os requisitos de um mtodo
so satisfeitos, tal mtodo apresenta o ser melhor desempenho.
Existem outros trabalhos na literatura (Jin e Nei, 1990; Kuhner e Felsenstein, 1994; Nei
et al., 1994; Saitou e Imanishi, 1989; Sourdis e Nei, 1988; Tateno et al., 1994) comparando
diversos mtodos de reconstruo logentica. Yang (2006) sintetiza algumas concluses
relevantes dos trabalhos nessa rea:
34
CAPTULO 2.
RECONSTRUO FILOGENTICA
O nvel de divergncia entre as seqncias contidas nos dados tem uma inuncia
determinante no desempenho dos mtodos de reconstruo.
Conjuntos de dados
Nesta seo so
revisadas brevemente tcnicas para avaliao dos componentes (clados) de uma determinada rvore bem como os principais testes estatsticos disponveis para avaliar um
conjunto de rvores alternativas.
bootstrap
avaliao de clados de uma rvore inferida. Felsenstein foi o primeiro a sugerir tal tcnica
2.7.
35
bootstrap
pode ser
bootstrap
a partir de uma amostragem dos stios dos dados originais. Os conjuntos de seqncias
gerados pelo
bootstrap
stios que as seqncias originais. Em cada rplica, cada stio escolhido aleatoriamente
a partir dos dados originais.
i-simo.
j-
inicial (inferida a partir dos dados originais) presente nas rvores das rplicas. Tal valor
mede a probabilidade de um clado ser recuperado em no conjunto de replicas.
Uma outra forma de processar as rvores inferidas a partir das rplicas calculando
uma rvore de consenso (Swoord e Sullivan, 2003), A proporo de cada clado de dita
rvore conhecida como grau de suporte ou proporo de
um diagrama da aplicao do
bootstrap
1
AGGCTCCCAT
AGGTTCGAAT
AGCCCGATAA
ATTTCCGATC
100
80
100
100
AAAGCGGCAC
AAAGTGGAAC
AAACCGGTAG
AAATTTTATC
4
rvore inferida da rplica 2
GGGTTTTTCT
GGGTTTTTGT
GGCCCAAAAA
TTTCCCCCGC
Rplica Nrep
1
2
3
4
100
Rplica 2
1
2
3
4
Valores de bootstrap na
rvore original
Rplica 1
1
2
3
4
Dados originais
1
2
3
4
bootstrap
AGGTTCCAAT
AGGTTCCAAT
AGGCCGGTAA
ATTCCCCGTC
bootstrap
36
CAPTULO 2.
Embora o
bootstrap
RECONSTRUO FILOGENTICA
clados da rvore inferida, os graus de suporte calculados podem ser propensos a erros
se o mtodo de inferncia no for empregado corretamente (Van de Peer, 2003).
outro inconveniente o tempo necessrio para realizar a anlise de
bootstrap
Um
. Dado que
bootstrap
pleton (1983) e Kishino e Hasegawa (1989) tm sido aplicados para comparar topologias
alternativas inferidas com os critrios de parcimnia e verossimilhana respectivamente.
Porm, Shimodaira e Hasegawa (1999), bem como Goldman et al. (2000) apontam que
a aplicao de tais testes incorreta estatisticamente. Alm disso, tem-se observado que
tais testes rejeitam muitas topologias vlidas (Felsenstein, 2004).
Assim, Shimodaira e
T de Narv
por ln L(i ).
denotada
gera-se um conjunto de
valor
ln Lj (i ),
dados. Para a
Nrep
i-sima
rvore e
Ri,j ,
rvore. A
bootstrap
replica, obtem-se
Ri,j ,
j -sima
replica dos
j -sima
i-sima
Ri,j
entre a verossimilhana de
a replica
Nrep
1 X
ln Lk (i )
= ln Lj (i )
Nrep k=1
Oi,j
(2.23)
Rk, j
para
isto :
Oi,j =
k=1...Narv
(2.24)
2.7.
O valor
A expresso para
dada por:
tal que
(2.25)
Oi,j , que so
(denotada por ) e a
37
0, 05),
SH que pode ser muito conservador. Por outro lado, existem outros testes que podem
diminuir este efeito (Shimodaira, 2002; Yang, 2006).
a posteriori
NT
um conjunto de dados,
espcies, e
P(i |D) =
P(D|i , )P(i , )
NT Z
X
(2.26)
P(D|j , )P(j , )d
j=0
a priori
conjuntos de dados. Para resolver este problema emprega-se o mtodo de Monte Carlo
baseado cadeias de Markov (MCMC) (Yang, 2006). Um esquema do mtodo MCMC
mostrado no Algoritmo 3.
38
CAPTULO 2.
RECONSTRUO FILOGENTICA
de
4
5
6
k
i=i+1
at i = Niter
A cada
iteraes, armazenar
e valores
parmetros. A topologia com maior probabilidade aquela que foi visitada mas vezes durante as iteraes do MCMC. As probabilidades para as outras topologias tambm podem
ser calculadas da amostragem realizada.
2.8.
CONSIDERAES FINAIS
39
40
CAPTULO 2.
RECONSTRUO FILOGENTICA
Captulo
3
Algoritmos evolutivos aplicados
logenia
3.1 Introduo
A Computao Evolutiva uma rea de pesquisa que tem evoludo signicativamente nas
ltimas dcadas. Embora as primeiras pesquisas nessa rea so da dcada de 1.930, a
partir da dcada de 1.960 que os trabalhos diversicaram-se devido, entre outras coisas, ao
maior acesso a computadores (De Jong, 2006). Assim, vrios tipos de Algoritmos Evolutivos (AEs) que imitam mecanismos de evoluo existentes na natureza foram propostos. A
aplicao de tais abordagens tem-se destacado principalmente na resoluo de problemas
de otimizao computacionalmente complexos (Deb, 2001). O problema de reconstruo
logentica pode ser visto como um problema de otimizao, no qual se deve determinar
a rvore tima segundo algum critrio.
A determinao de logenias um problema complicado dado que o nmero possvel
de rvores logentica cresce muito rapidamente com o nmero de espcies analisadas
(ver Captulo 2). Assim, o emprego dos AEs surge como uma alternativa vivel para este
tipo de problema. Alm disso, diversos trabalhos na literatura tm mostrado resultados
relevantes de AEs aplicados logenia (Katoh et al., 2001; Lemmon e Milinkovitch, 2002a;
Lewis, 1998; Zwickl, 2006).
Este captulo est organizado conforme segue. A Seo 3.2 apresenta os principais conceitos da Computao Evolutiva. A Seo 3.3 mostra mais detalhadamente os Algoritmos
41
42
CAPTULO 3.
Genticos (AGs), um dos AEs mais utilizados. A Seo 3.4 contm uma reviso da literatura sobre o emprego de AGs no problemas de reconstruo logentica, considerando
trabalhos que empregam como funo objetivo os critrios de parcimnia e verossimilhana. Finalmente, na Seo 3.5, apresenta-se as consideraes nais deste captulo.
indivduos
genes
).
3.2.
COMPUTAO EVOLUTIVA
(1 + )
43
G(0, )
mutao
G(0, ).
para cada parmetro do problema. Esta uma caracterstica fundamental das EEs, que
permite o auto-ajuste de seus parmetros.
Uma srie de inconvenientes da proposta original como escalabilidade para problemas
de alta dimenso e de superfcies multimodais, gerenciamento de interao entre os pa-
(1 + )-EE: a
( + )-EE e a (, )-EE. Na primeira, indivduos reproduzem-se gerando descendentes, obtendo uma
(conjunto de solues) temporria de ( + ) indivduos,
dos quais so escolhidos os melhores indivduos da prxima gerao. Na (, )-EE,
indivduos reproduzem-se produzindo descendentes, com < , sendo que a nova
populao de indivduos selecionada dos descendentes. Esta ltima abordagem
rmetros foram identicados. Assim, surgiram duas extenses do modelo
populao
tempo em funo da realimentao obtida pela interao com o ambiente onde operam (De Jong, 2006).
Assim, as solues do
recombinao
codicao decodicao
(
) dos parmetros
44
CAPTULO 3.
aptido
para unicar as diversas tendncias. Na prxima seo, os principais conceitos dos AEs
so explicados com base nos AGs, os quais so de maior interesse no presente trabalho.
estejam bem distribudas no espao de busca. Cada uma dessas solues (indivduo) representada em uma estrutura de dados chamada
cromossomo
. Em geral, os cromossomos
funo objetivo
do problema. Com base em tal valor, calculada a aptido dos indivduos, que indica
quais indivduos dentro da populao so os mais aptos (as melhores solues para o
problema). Esses indivduos so fortes candidatos para se reproduzirem e transferirem as
suas caractersticas para novos indivduos, os quais podero formar uma nova populao
(tambm chamada de
gerao
).
O operador de seleo para reproduo utiliza a aptido dos indivduos para escolher
as melhores solues encontradas para o problema.
lista de reproduo
3.3.
ALGORITMOS GENTICOS
45
Repetida-
Parmetros do AG
Sada:
Pf inal
1 j =1
2 Gerar a populao inicial Pj
3 Avaliar a aptido das solues em Pj empregando f
4 enquanto
faa
5
Aplicar o operador de seleo em Pj
6
Gerar a nova populao Pj+1 utilizando os operadores
de recombinao e
mutao.
7
8
j =j+1
Avaliar a aptido das solues em
Pj
empregando
m
Pf inal = Pj
No desenvolvimento de um AG para um problema particular deve-se especicar os
seguintes componentes:
Funo de aptido para classicar as solues em termos de sua adaptao ao ambiente (sua capacidade de resolver o problema);
Determinao dos diversos parmetros do AG, tamanho da populao, probabilidades de aplicao dos operadores genticos e outros.
46
CAPTULO 3.
[0; 1]
que
[0, 55; 0, 11; 0, 95; 0, 63] sero representados pela cadeia 100 000 111 101.
limites so
Em contrapartida, empregar
representaes fenotpicas supe o desenvolvimento de operadores de recombinao e mutao especcos ao problema tratado (De Jong, 2006).
A codicao uma das etapas mais crticas na denio de um AG. A denio
inadequada da codicao pode acarretar diversos problemas, entre esses um dos mais
3.3.
ALGORITMOS GENTICOS
47
Tabela 3.1: Tabela de converso de parmetros contnuos para binrio (Haupt e Haupt,
1998).
1,000
0,875
0,750
0,625
0,500
0,375
0,250
0,125
0,000
Valor da varivel
0,55 0,11 0,95 0,63
111
0,9375
110
0,8125
101
100
0,6875
0,5625
011
0,4375
010
0,3125
001
0,1875
000
0,0625
otimizao com restrio, a codicao adotada pode fazer com que indivduos modicados pela recombinao ou mutao sejam invlidos. Nesses casos, cuidados especiais so
necessrios na denio da codicao e/ou dos operadores (Michalewicz, 1996).
00 s
do que
10 s,
tal informao
pode ser utilizada. Por outro lado, em problemas com restries, deve-se tomar cuidado
para no gerar indivduos invlidos na etapa de inicializao.
48
CAPTULO 3.
probi =
Apti
N
ind
X
(3.1)
Apti
i=1
sendo que
Apti
a aptido da soluo
de cpias do indivduo
Nind
na lista de reproduo
probi Nind .
aptido muito maior comparado com o resto da populao, esta super-soluo ter uma
probabilidade de escolha perto de 1, e ter cpias muitas cpias. Caso todas as solues
possuam valores similares de aptido, a probabilidade de serem escolhidas ser a mesma,
e cada uma ser copiada na lista de reproduo. Isso equivalente a no realizar operao
de seleo.
A estratgia de seleo pelo
ranking
ranking
ranking N
rank ). O nmero
3.3.
ALGORITMOS GENTICOS
49
ranking
Esse procedimento
trocando as cadeias parciais dos pais. Assim, um descendente (lho 1) formado pela
combinao das subcadeias nas posies
1...j
do pai 1, e
j + 1...n
do pai 2. O outro
j + 1...n
1...j
do
ponto.
Antes do
cruzamento
Pai
11011010100
Aps o
cruzamento
11011010010
Filho 1
00101010100
Filho 2
posio do
cruzamento
Me 00101010010
50
CAPTULO 3.
Com a combinao das caractersticas dos pais esperado que as solues descendentes possuam um melhor valor aptido que os seus ancestrais. O motivo de tal espectativa
que as solues pais sejam escolhidas pela seleo, a qual enfatiza os melhores indivduos. Solues pais representam indivduos que sobreviveram seleo e, portanto, a sua
aptido relativamente boa. Contudo, nem sempre so gerados descendentes superiores
aos pais, pois o ponto de corte pode dividir o indivduo de forma que os segmentos de
boa aptido sejam quebrados. Em tal caso, tais indivduos tendem a ser eliminados na
prxima operao de seleo (Deb, 2001).
Uma extenso simples da recombinao de um ponto empregar dois ou mais pontos
de corte. Para esta classe de operadores de recombinao a diversidade produzida pela gerao de descendentes depende do nmero de pontos de corte e da semelhana das solues
pais. A diversidade na populao introduzida pela recombinao diminui no decorrer das
iteraes dado que o operador de seleo faz com que os indivduos da populao sejam
mais homogneos, pois os melhores indivduos produzem mais descendentes espalhando
suas caractersticas pela populao (De Jong, 2006). Outro tipo de recombinao muito
comum denominada uniforme (Sywerda, 1989). Em tal operador, o valor de qualquer
posio do cromossomo de um dos descendentes pode ser obtido tanto de um pai quanto
do outro (tal deciso feita estocasticamente para cada posio). Conseqentemente, a
recombinao uniforme permite combinar caractersticas dos pais independentemente da
sua posio no cromossomo.
No caso das representaes fenotpicas, h uma srie de operadores de recombinao
especcos propostos na literatura (Deb, 2001). Por exemplo, no caso de nmero reais,
tm sido propostos a recombinao aritmtica, de mistura, simulao binria,
fuzzy
, en-
tre outras (Deb, 2001). De acordo com Deb (2001), o desempenho de um determinado
tipo de recombinao fortemente dependente do tipo de problema. Assim, um tipo de
operador que particularmente eciente para uma determinada classe de problemas pode
ser ineciente para outras.
3.3.
ALGORITMOS GENTICOS
51
ser zero aps a aplicao da mutao e viceversa. No caso das representaes fenotpicas,
como vetores de nmeros reais, existe uma srie de tipos de mutao propostos na literatura (Deb, 2001) tal como uniforme, no uniforme, ou Gaussiana (similar ao operador
empregado nas EEs).
Enquanto o operador de recombinao explora as regies trocando informaes das
solues j encontradas; a mutao introduz continuamente mudanas que pode aumentar
a diversidade entre os indivduos, permitindo a explorao de novas regies do espao de
busca. Tanto nos AGs como nos outros tipos de AEs, importante que exista um equilbrio
entre a explorao de novas regies e o renamento de solues em regies mais exploradas
do espao de busca. Assim, o nvel de renamento pode ser controlado basicamente pelo
operador de seleo; enquanto o grau de explorao pode se ajustado pela escolha dos
mecanismos de recombinao e mutao (De Jong, 2006).
x e y.
(3.2)
sentam o ponto de mximo da funo. A superfcie gerada por esta funo possui vrios
picos e vales, caracterizando assim um problema com possibilidades de convergncia para
pontos de mximo local. A Figura 3.2 ilustra uma projeo suavizada desta superfcie.
40
35
30
25
20
15
10
5
0
-2
10
12
4.2
4.4
4.6
f (x, y)
4.8
5.2
5.4
5.6
5.8
52
CAPTULO 3.
1
2
3
4
5
6
7
8
9
10
8,55696 4,84176
-2,14217 5,44308
1,96259 4,79317
-0,40211 4,26638
-0,53782 5,08256
10,91246 5,41764
-1,36431 5,46409
3,44358 4,88583
1,88679 5,47073
6,35054 5,38383
Aptido mdia
Aptido
29,51089
25,88302
18,61883
17,46505
17,22745
16,63308
15,91625
15,80166
14,35801
10,87223
18,22865
1
2
3
4
5
6
7
8
9
10
8,55305 5,42428
8,55281 5,42428
1,00293 5,43068
8,55696 4,59307
8,55305 5,68915
8,55696 4,57343
-2,14217 4,26627
-1,78296 4,79338
-0,40211 5,96177
-0,40211 4,26607
Aptido mdia
Aptido
32,20755
32,18789
26,62459
25,17936
23,20583
22,56428
19,95104
18,84688
18,30942
17,50904
23,65859
3.3.
ALGORITMOS GENTICOS
53
Soluo
1
2
3
4
5
6
7
8
9
10
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42407
8,55305 5,42407
8,52355 5,42428
8,78899 5,42428
8,55305 4,57426
Aptido mdia
Aptido
32,20755
32,20755
32,20755
32,20755
32,20755
32,20368
32,20368
29,40521
22,78260
22,21939
29,98523
Aptido
Ger 0
Ger 50
Ger 100
Ger 150
Ger 200
40
35
30
25
20
15
10
5
0
4
x
10
12
5.8
5.6
5.4
5.2
5
4.8
y
4.6
4.4
4.2
f (x, y).
O fato dos AGs poderem empregar representao binria que codica os parmetros
de um problema determinado, permite a sua aplicao para um escopo de aplicaes
bastante amplo;
54
CAPTULO 3.
Aptido
30
25
20
15
10
5
0
0
50
100
Geraes
Mdia
Max
150
200
Min
Desv.Padro
Os AGs trabalham com uma populao de solues ao invs de uma nica soluo.
Em cada iterao os AGs processam um
conjunto de solues
, esta caracterstica
denominada de paralelismo implcito. O processo de busca , portanto, multidirecional, com a manuteno de solues candidatas que representam a busca em vrias
partes do domnio e com troca de informaes entre essas solues;
a priori
Os AGs empregam regras probabilsticas para guiar sua busca. Por exemplo, o operador de seleo baseado na aleatoriedade de duas solues (seleo pelo torneio),
ou na probabilidade de escolha (seleo proporcional) dessas solues. O operador
de mutao procura evitar que os AGs parem em timos locais, mudando a busca
para outra regio do espao. Alm disso, as solues da populao inicial so escolhidas aleatoriamente. Em contrapartida, uma tcnica de otimizao determinstica
no ter como escapar de timos locais, em caso de uma deciso ruim sobre a direo
da busca.
3.4.
55
A maioria dos
).
Diferentemente do
valor predeterminado Aps a avaliao dos indivduos pelo operador de seleo baseado
em
ranking ,
subrvores de duas solues pais a m de gerar duas novas solues. O GAML possui dois
operadores de mutao: um operador de mutao topolgica que faz uma movimentao
de tipo SPR na rvore e um operador de mutao de comprimentos de ramos, que vai
alterando tais valores durante a execuo do AG.
Nos experimentos, o GAML foi comparado com o software PAUP* (Swoord, 2000)
(verso 3.1).
tempo de execuo muito menor. O GAML serviu de base para futuros desenvolvimentos
do algoritmo (Brauer et al., 2002) e novas propostas de AEs (Mak e Lam, 2003; Zwickl,
2006).
56
CAPTULO 3.
Pai 1
Pai 2
A
H
F
C
A
E
C
G
A
G
remover
O GA-mt ava-
estado
A nova soluo
gerada entra na populao se a sua aptido for melhor que a aptido de algum outro indivduo. Assim, o GA-mt fornece um conjunto de solues alternativas (no duplicadas).
As rvores da populao inicial so geradas pelos algoritmos de distncia NJ (Saitou e Nei,
1987) ou WNJ (Bruno et al., 2000). O operador de recombinao no GA-mt similar ao
proposto no GAML; enquanto o operador de mutao faz uma modicao topolgica do
tipo TBR ou NNI. Segundo os autores, garantir a diversidade das solues um processo
de alto custo computacional, razo pela qual tal processo efeituado em paralelo. Nos
experimentos, o GA-mt mostrou-se muito rpido em relao a heursticas implementadas
nos programas MOLPHY (Adachi e Hasegawa, 1996), fastDNAML (Olsen et al., 1994) e
PHYLIP (Felsenstein, 2000b). Alm disso, o GA-mt foi comparado com mtodos de inferncia baseados em distncias como NJ (Saitou e Nei, 1987) e WNJ (Bruno et al., 2000),
mostrando resultados mais consistentes quando se considerou o tamanho do conjunto de
dados testado.
O trabalho de Lemmon e Milinkovitch (2002a,b) descreve o algoritmo METAPIGA, o
qual introduz vrias inovaes em relao aos trabalhos anteriores. O METAPIGA um
AG que possui vrias subpopulaes (chamadas meta-populaes) que ao invs de evoluir
3.4.
57
independentemente, colaboram na busca da rvore de mxima verossimilhana. As rvores das populaes iniciais podem ser geradas por mtodos aleatrios ou por amostragem
de dados
jacknif e
NJ (Saitou e Nei, 1987). METAPIGA tambm permite escolher entre vrias abordagens
para o mtodo de seleo. Um outro elemento chave no algoritmo o processo denominado
(CP, do ingls
consensus prunning
Ge-
para a hete-
58
CAPTULO 3.
E
A
E
B
G
D
I
L
O
J
J
N
M
operaes permitidas
regies de consenso
operaes no permitidas
Figura 3.6: Exemplo do consenso por poda para duas rvores. As regies de consenso
denem as operaes de troca de ramos e folhas que so permitidas (Lemmon
e Milinkovitch, 2002a).
G
G
E
C
E
G
E
C
E
F
filho 1
A
filho 2
3.4.
59
ranking
b , que
b .
diminudo progressivamente no
decorrer das iteraes do GARLI at que um certo valor mnimo atingido. A Figura 3.8
mostra um exemplo do processo de otimizao de comprimento de ramos adotado no
GARLI. Aps uma modicao topolgica SPR, so otimizados os ramos indicados pelas
linhas ponteadas (b1 da subrvore podada e b2, que dividido em b1a e b2a aps a
reinsero). Posteriormente, os ramos adjacentes a b1,b2a, e b2b (indicados com setas)
so otimizados recursivamente.
Existem 3 critrios de parada da execuo do GARLI:
1. Se as modicaes topolgicas no encontram uma soluo signicativamente melhor
durante um nmero especicado de iteraes;
2. Se as melhoras atingidas forem menores que um certo valor;
3. Se o parmetro
60
CAPTULO 3.
Modificao SPR
b2
b1
b1
b2a
b2b
No lugar do
operador de mutao, realizada uma busca de tipo NNI e TBR nas solues encontradas
pelo algoritmo. Assim, enquanto o AG dene a regio do espao de busca que contm
a soluo tima, o operador de busca local permite chegar a tal timo de forma rpida.
Uma outra contribuio relevante desse trabalho a proposta de uma abordagem eciente
para calcular o valor de parcimnia mediante operaes lgicas de bits. De acordo com
o autor, o desempenho do PARSIGAL foi comparvel a de programas que empregam o
critrio de parcimnia como o NONA (Golobo, 1999a,b) e o Hennig86 (Farris, 1988).
3.5.
CONSIDERAES FINAIS
61
uma alternativa vivel para tratar este problema devido a suas diculdades inerentes.
Uma reviso bibliogrca da aplicao dos AEs para encontrar as rvores de mxima
verossimilhana e mxima parcimnia foi apresentada. Em tais trabalhos, a aplicao dos
AEs est restringido ao emprego de um critrio de otimalidade para avaliar as topologias.
Contudo, problemas com vrios objetivos so comuns em aplicaes reais.
de AEs pode ser estendido para tais problemas.
O emprego
62
CAPTULO 3.
Captulo
4
Algoritmos evolutivos para
otimizao multi-objetivo
4.1 Introduo
A otimizao multi-objetivo aborda os problemas de otimizao que possuem vrios objetivos a serem simultaneamente atingidos. Para este tipo de problema, existe um conjunto
de solues que representa um compromisso entre os objetivos. Diversas tcnicas de otimizao tradicionais tm sido propostas na literatura (Coello et al., 2002; Deb, 2001).
Embora essas tcnicas garantam encontrar o conjunto de solues timas, em geral, precisam de bastante conhecimento sobre o espao de busca do problema.
Devido a esta
63
64
CAPTULO 4.
4.2.1 Formulao
Um MOOP possui um conjunto de funes objetivo a serem otimizadas (maximizar ou
minimizar).
Alm disso, possui restries que devem de ser satisfeitas para que uma
soluo seja factvel para o problema. O enunciado geral de um MOOP o seguinte (Deb,
2001):
maximizar/minimizar
restrita a
onde
um vetor de
Nvar
soluo
so espao de deciso S
minado de
fm (x),
gj (x) 0,
hk (x) = 0,
(sup)
(inf )
xi xi ,
xi
m = 1, 2, . . . , Nobj
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,
(4.1)
x = (x1 , x2 , . . . , xNvar )T
tambm deno(sup)
xi
representam os limites inferior e superior,
variveis de deciso
(inf )
. Os valores xi
e
Cada funo
fm (x)
f (x)
espao de objetivos
Sobj .
em
Nobj ).
(de dimenso
f (x) : R
Nvar
Nobj
Nvar )
e um vetor
f (x)
ento
(de
f (x)
4.2.
OTIMIZAO MULTI-OBJETIVO
65
x 1 x2 )
x1
x2 ,
diz-se que
x1
domina a
x2
1. A soluo
x1
2. A soluo
x1
superior a
x2
x2
conitantes
a mesma importncia, no h como armar, por exemplo, que certa reduo do preo
compensa certa perda de desempenho. Assim, existe um conjunto de solues que possuem
vantagens em desempenho mas que no so melhores em custo e vice-versa. Ou seja, existe
um conjunto de alternativas timas que so
e desempenho.
no dominadas
conjunto Pareto-timo
de Pareto
fronteira
timo.
Fronteira de Pareto
10.000
Preo
7500
Relaes de dominncia
3 2, 5 1, 5 2
Conjunto Pareto-timo = {3, 4, 5}
1
5
5.000
2.500
20
40
60
80
100
Performance
Figura 4.1: Exemplo que ilustra o preo e a desempenho de vrias opes (15) de
compra de computadores.
66
CAPTULO 4.
diversidade dentro das solues uma meta especca para a otimizao multi-objetivo.
A Figura 4.2(a) mostra uma distribuio quase uniforme de solues na fronteira de Pareto. A Figura 4.2(b) apresenta a fronteira com as solues apenas em algumas regies,
isto , com baixa diversidade. necessrio assegurar a maior cobertura possvel da fronteira, buscando um conjunto de solues comprometidas com os objetivos desejados.
Como em MOOP trabalha-se com o espao de decises e o espao de objetivos, tambm
desejvel que as solues estejam adequadamente distribudas em ambos os espaos. Em
geral, a diversidade em um desses espaos garante tambm a diversidade no outro. Para
alguns problemas, entretanto, isso no acontece.
f2
f2
Fronteira dePareto
f1
(a)
Fronteira dePareto
f1
(b)
4.3.
67
no implica
metas (Seo 4.3.3). A Seo 4.3.4 discute as vantagens e desvantagens de tais tcnicas.
F (x)
que soma os objetivos normalizados e multiplicados por seus respectivos pesos. Assim,
um MOOP pode ser formulado como segue:
68
CAPTULO 4.
Nobj
minimizar
F (x) =
wm fm (x),
m=1
restrita a
onde
wm [0, 1]
gj (x) 0,
hk (x) = 0,
(inf )
(sup)
xi
xi xi ,
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,
fm .
(4.2)
wm .
Embora esse mtodo seja simples, precisa de vrias iteraes para atingir toda a fronteira de Pareto.
minimizar
restrita a
onde cada
fu (x),
fm (x) m ,
gj (x) 0,
hk (x) = 0,
(L)
(U )
xi xi xi ,
f1
f2 .
Escolhe-se
f2
(4.3)
m = 1, 2, . . . , Nobj e
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,
m 6= u;
e mantm-se
fm . Seja
f1 com a
f 1 1 .
1 . O mnimo para
c
f2 depende da escolha do . Por exemplo, usando 1 , o valor mnimo para f2 ponto C.
A Figura 4.3 apresenta o espao de objetivos e vrios valores para
timas independentemente de o espao de objetivos ser convexo, no convexo ou discreto (Deb, 2001). Este mtodo necessita que a escolha do vetor
factvel para cada objetivo. Por exemplo, na Figura 4.3, se for escolhido
a1 , ento nenhuma
soluo ser obtida. Assim, como no somatrio de pesos, so precisas vrios iteraes para
4.3.
69
f2
B
C
a
1
b
1
c
1
d
1
f1
(Deb, 2001).
no garante
desvios
em relao s metas.
Nobj
Nobj
objetivos, formula-
70
CAPTULO 4.
Nobj
minimizar
(j j + j j )
j=1
fj (x) j + j = zj , j = 1, 2, . . . , Nobj
x Sf act ,
j , j 0,
j = 1, 2, . . . , Nobj ,
restrita a
onde
para o
-simo objetivo,
zj
fj
Sf act
j ,
(4.4)
respectivamente)
o espao de deciso
factvel. As solues obtidas por este mtodo dependem consideravelmente da escolha dos valores para
j .
f1
f2 .
Se
metas lexicogrcas.
f2
A
B
C
D
E
f1
4.4.
71
Minimizar
restrita a
(4.5)
j e j so os desvios positivos e
negativos para cada objetivo, respectivamente e j e j representam os pesos para
cada desvio. Este mtodo requer tambm a escolha dos pesos j e j .
onde
j j + j j ,
j = 1, 2, . . . , Nobj
fj (x) j + j = zj , j = 1, 2, . . . , Nobj
x Sf act ,
j , j 0,
j = 1, 2, . . . , Nobj ,
Todas
adicionais. A escolha desses parmetros afeta diretamente os resultados obtidos. Cada vez
que os parmetros so modicados, necessrio resolver um novo problema de otimizao
simples.
Se
esta no convexa, o mtodo do somatrio dos pesos no encontra certas solues, independentemente dos pesos escolhidos.
Finalmente, todos as tcnicas descritas precisam de parmetros adicionais, tais como
pesos, metas, e vetores de restrio. A distribuio uniforme destes parmetros no garante a diversidade das solues Pareto-timas. Porm, existem tcnicas alternativas para
tratar MOOPs.
apresentam vrios aspectos positivos que motivam a aplicao dos mesmos. Na prxima
Seo, ser tratada a aplicao de AEs em MOOPs.
rithm
) foi proposta por Schaer (1985). O modelo sugerido foi denominado VEGA (do
72
CAPTULO 4.
ingls
).
permitia obter uma diversidade adequada nas solues ao longo da fronteira de Pareto.
Goldberg (1989) props vrias abordagens para estender a aplicaes de AGs para
MOOPs. Uma das propostas utiliza um procedimento para ordenao de solues baseado
no conceito de dominncia.
i domina.
no calculam um valor de aptido. A aplicao dos MOEAs para MOOPs apresenta trs
grandes vantagens com relao s tcnicas tradicionais descritas na Seo 4.3 (Coello,
2001):
4.4.
73
realizado por Zitzler et al. (2000) conclui que o elitismo melhora as solues encontradas por um modelo MOEA. A partir deste trabalho, os novos modelos passam a
incorporam alguma estratgia de elitismo.
Sigla
VEGA (Vector Evaluated Genetic Algorithm)
WBGA (Weight Based Genetic Algorithm)
MOGA (Multiple Objective Genetic Algorithm)
onary Algorithm)
NSGA-II
gorithm)
Algo-
Nome do modelo
(Schaer, 1985)
(Hajela e Lin, 1992)
(Fonseca e Fleming,
1993)
(Srinivas e Deb, 1994)
(Horn et al., 1994)
(Laumanns et al.,
1998)
(Rudolph, 2001)
Elistista
No
No
No
Sim
No
No
No
Sim
Sim
Sim
Sim
netic Algorithm)
) (Deb et al.,
F1 , F2 , . . . Fk
M F1 , F3
M.
em diversas fronteiras
Assim, a fronteira
F2 possui
M (F1 F2 ) e
A fronteira
contm as solues de
). Esse pro-
F1
as soassim
sucessivamente.
O procedimento de ordenao por dominncia proposto por Deb et al. (2000) mostrado no Algoritmo 5. Para cada soluo
ndi ,
contida em
i;
74
CAPTULO 4.
Ui ,
i.
ndi = 0
ndj
de cada soluo
em
Ui
Ui
Alm disso,
diminudo em 1. Se
F2 ).
F1 .
M.
ndj = 0,
de
F1 .
ento a soluo
O contador
pertence a
solues estejam classicadas em uma fronteira. A Figura 4.5 ilustra este procedimento
aplicado a solues que minimizam
f1
f2 .
1
2
3
4
5
6
M , um conjunto de solues
Sada: F1 , F2 , . . . Fk , as fronteiras que classicam
para cada
i M faa
ndi = 0
Ui =
para cada
j 6= i j M faa
se i j ento Up = Up {j}
se j i ento ndi = ndi + 1
soluo
soluo
as solues de
M.
m
se
ndi = 0
ento
F1 = F1 {i}
m
8 k= 1
9 enquanto Fk 6= faa
10
T emp =
11
para cada
i Fk faa
12
para cada
j Ui faa
13
nj = nj 1
14
se nj = 0 ento T emp = T emp {j}
soluo
soluo
m
m
15
16
k =k+1
Fk = T emp
m
Q de tama-
4.4.
75
f2
1
2
1
3
2
1
1
f1
Figura 4.5: Ordenao por dominncia (Deb, 2001).
mdia da distncia das duas solues adjacentes a cada indivduo para todos os objetivos.
Esse valor denominado distncia de multido. O Algoritmo 6 mostra os passos a seguir
(denotado
tal indivduo.
M,
uma conjunto de
Sada:
disti ,
Nsol
solues
soluo
1 para
i = 1, 2, . . . Nsol faa
2 para m = 1, 2, . . . , N obj faa
3
Classicar M por fm
4
dist1 = distNsol =
5
para i = 2 . . . Nsol 1 faa
M.
disti = 0
1.
ranki = k ,
2.
disti ,
o valor de ranking
Fk
qual pertence;
i.
O NSGA-II emprega um processo de seleo por torneio. Em tal abordagem, duas solues so comparadas para escolher qual delas vai gerar descendentes na nova populao.
Uma soluo
1.
j,
se:
ou seja,
76
CAPTULO 4.
i possui um
disti > distj ).
ranki = rankj
Pi+1
Algoritmo 7: NSGA-II
Entrada: Conjunto de parmetros relevantes ao NSGA-II
Sada: Solues na populaes
Pf inal
Qf inal .
Inicializao
1
2
3
para cada
P1
de
Nind
indivduos
por dominncia
4
5
6
7
8
9
P1
P1
Q1
de
Nind
gerao t = 2, . . . , N
Aplicar o Algoritmo 5 em
iter faa
Rt = Pt Qt
k=1
|Pt+1 + Fk | Nind faa
Aplicar o Algoritmo 6 em Fk
Pt+1 = Pt+1 Fk
k =k+1
enquanto
m
10
11
12
13
Aplicar o Algoritmo 6 em
Classicar a
Fk
Fk
Copiar as primeiras
em
Pt+1
m
14
15
Pf inal = Pt
Qf inal = Qt
4.5.
ordenao por
dominncia
77
Nova populao
Pt
P t+1
2
distncia de
multido
3
...
Qt
solues
rejeitadas
Rt
Figura 4.6: Esquema do modelo NSGA-II (Deb, 2001).
ming
Rate of Return
Compromise ProgramMarginal
) (Zeleny, 1973 apud Deb, 2001) e Taxa Marginal de Retorno (do ingls
das por ambas as tcnicas mostraram-se melhores que a obtida pelo mtodo NJ (Saitou e
Nei, 1987). A comparao com o NJ devida ao fato deste mtodo considerar os critrios
de evoluo mnima e mnimos quadrados no algoritmo.
78
CAPTULO 4.
o NSGA-II, foi tambm descrito detalhadamente. Alm disso, foi realizada uma reviso
das principais abordagens multi-objetivo para reconstruo logentica encontradas na
literatura.
Como descrito no Captulo 2, a aplicao de diversos mtodos de reconstruo resulta
em rvores logenticas com critrios de avaliao conitantes entre sim. Por outro lado,
no Captulo 3 mostrou que o emprego de AEs em logenia tem mostrado resultados
relevantes. Tais fatos motivam a proposta de uma abordagem de MOEA do problema da
inferncia logentica, a qual explorada no prximo captulo.
Captulo
5
Algoritmo evolutivo multi-objetivo
para o problema de reconstruo de
rvores logenticas
5.1 Introduo
Este Captulo apresenta o PhyloMOEA, que o modelo de MOEA para o problema de reconstruo logentica desenvolvido nesta pesquisa. O PhyloMOEA baseado no NSGAII (Deb et al., 2000), um dos modelos de MOEA mais importantes descritos na literatura.
Os critrios de otimalidade empregados pelo PhyloMOEA so a mxima parcimnia e
mxima verossimilhana.
5.2 PhyloMOEA
O objetivo fundamental do PhyloMOEA encontrar rvores na Fronteira de Pareto considerando os critrios de mxima parcimnia e mxima verossimilhana.
A Figura 5.1
79
80
CAPTULO 5.
PhyloMOEA
rvores Pareto-timas
Conjunto
seqncias
Algoritmo
NSGA-II
otimizao
comp. ramos
verossimilhana
rvores
inicias
Fronteira de Pareto
parcimnia
As Sees 5.2.15.2.5 apresentam caractersticas especcas do PhyloMOEA como representao de solues, funes de aptido, gerao de solues inicias, operadores de
recombinao, mutao e otimizao dos comprimentos de ramos.
mais empregada por programas de inferncia logentica tais como PHYLIP (Felsenstein,
2000b), PAML (Yang, 1997), PHYML (Guindon e Gascuel, 2003), entre outros.
O PhyloMOEA emprega a estrutura de dados de lista de adjacncias (Cormen, 2001)
para a representao das rvores logenticas. Uma das razes para escolher tal representao que existe uma grande variedade de implementaes prontas com essa estrutura.
Duas bibliotecas de cdigo aberto na linguagem C++ foram avaliadas: a BGL (
Graph Library
Boost
5.2.
PHYLOMOEA
81
Representao interna
Ns Arestas
A
F
B
F
C
G
D
G
E
H
F
A, B, H
G
C, D, H
H
F, G, E
Figura 5.2: Representao interna empregada pelo PhyloMOEA para uma rvore sem
raiz.
A estrutura de dados desenvolvida foi amadurecendo no decorrer da pesquisa possibilitando o aprimoramento da capacidade de calcular parties de cada rvore. Assim,
empregou-se o algoritmo de Day (Day, 1985) que permite obter as parties das rvores
com um custo timo em tempo de execuo e na utilizao de memria.
O PhyloMOEA emprega o formato Newick (Felsenstein, 2000a) para mostrar as rvores
encontradas no nal da execuo do algoritmo. Nesse formato, uma rvore representada
por uma cadeia de caracteres terminada em ponto e virgula.
Os descendentes do n interno
funcionamento de tais algoritmos foi apresentado em rvores com raiz. As mudanas requeridas para que esses algoritmos funcionem em rvores no enraizadas so apresentadas
a seguir.
82
CAPTULO 5.
Clculo de parcimnia
No caso de rvores no enraizadas, o algoritmo de Fitch (Fitch, 1972) foi modicado
conforme aos seguintes passos:
conetada a um n interno
v.
O n interno
dene uma subrvore que contm todos as folhas da rvore com exceo de
u,
serve como raiz da rvore. Em outros termos, a rvore pendurada pela folha
que
u;
Se o estado do n
u no stio j
v;
v (uj Sv ),
P arj .
e, nalmente, obtem-
se o valor de parcimnia da rvore. A Figura 5.3 mostra o esquema das modicaes aplicadas no algoritmo de Fitch. Vrios trabalhos na literatura (Gladstein, 1997; Golobo,
1996, 1999a; Ronquist, 1998) mostram como aumentar a ecincia do algoritmo de Fitch
quando se trabalha com grandes bancos de seqncias. Tais trabalhos explicam basicamente como reaproveitar clculos realizados anteriormente para encontrar o novo valor
de parcimnia de solues modicadas topologicamente, reduzindo bastante o nmero de
vezes que executa-se o algoritmo de Fitch. O foco de desenvolvimento do PhyloMOEA foi
o aumento de diversidade de solues Pareto-timas. Assim, melhorias de desempenho
no foram implementadas no modelo proposto, representando uma interessante linha de
pesquisa futura.
u j ={A}*
folha (u)
n interno (v)
A
v
v
={C,G}*
Algoritmo
de Fitch
C
C
{G}
C
G
{C,G}*
G
5.2.
PHYLOMOEA
83
Clculo de verossimilhana
O clculo da verossimilhana apresentado no Algoritmo 2 (ver Captulo 2) pode ser tambm aplicado em rvores sem raiz devido a propriedade de reversibilidade dos modelos
de substituio de seqncias.
Lj =
rj Lrj (rj )
(5.1)
rj
A verossimilhana condicional do n
(ver
Lj =
XXX
rj Prj ,vj (trv )Prj ,sj (trs )Lvj (vj )Lsj (sj ).
(5.2)
rj vj sj
Pela propriedade de reversibilidade (ver Equao 2.8 do Captulo 2) tem-se que:
(5.3)
Lj =
XXX
vj Pvj ,rj (trv )Prj ,sj (trs )Lvj (vj )Lsj (sj ).
(5.4)
rj vj sj
r
y
t
v
rs
=t
vs
w
z
t rv =0
deslocar o n
trs
seja igual a
prximo ao n
tvs .
84
CAPTULO 5.
Pvj ,sj (trv + trs ) = Pvj ,rj (trv )Prj ,sj (trs ),
(5.5)
r pode ser deslocada em qualquer posio do ramo (v, s) sem alterar o valor
Substituindo trv = 0 e Prj ,sj (trs ) = Pvj ,sj (tvs ) na Equao 5.4 tem-se que:
ou seja, a raiz
de
Lj .
XXX
Lj =
(5.6)
rj vj sj
O termo
igual a 1 se
rj = vj
XX
Lj =
(5.7)
vj sj
Deve-se notar que as Equaes 5.7 e 5.2 so equivalentes e, conseqentemente, pode-se
aplicar o Algoritmo 2 em rvores sem raiz, escolhendo um n interno arbitrrio como raiz
da rvore.
Vrios autores reportam problemas na preciso numrica no clculo da verossimilhana quando se empregam bancos de dados que contm mais de 100 espcies (Guindon,
2003; Yang, 2000). Tal fenmeno foi conrmado nos experimentos realizados com o PhyloMOEA, os quais apresentaram grandes erros de preciso na verossimilhana.
Isso
Lrj (rj )
s,
a verossimilhana condicional
vj
Se os valores de
e lhos
Lrj (rj ) =
Lvj (vj )
(5.8)
sj
e/ou
Lsj (sj )
LEjr (rj ),
LEjr (rj ) =
vj
onde
Lvj (vj )
j (v)
sj
Lsj (sj )
j (s)
(5.9)
s,
respectivamente. Ao dividir
5.2.
PHYLOMOEA
85
como:
LEj =
X
1
rj Lrj (rj ).
j (vj )j (sj ) r
(5.10)
j , denotada como Lj
(5.11)
86
CAPTULO 5.
[0; 0, 05]
(Lewis, 1998).
convergncia do PhyloMOEA.
Uma forma de resolver este problema foi possibilitar a insero de rvores geradas por
outros programas na populao inicial (no formato Newick).
bootstrap
2 ,
1 ,
denotada como
10
10 ;
da rvore
2 .
0
denotada como 2 ;
3. Escolhe um ramo de
20
10 ,
5.2.
PHYLOMOEA
87
rvore pai
B
subrvore
D
G
H
D
F
inserir
remover
rvore pai
A
E
H
rvore filha
G
E
C
rvore
algoritmo implementado nesse trabalho, faz a otimizao dos comprimentos ramo por
ramo. Da Equao 5.7 pode ser vericado que o valor de
primento de ramo
tvs ,
Lj
Lj
com relao a
tvs ,
conforme a
seguinte equao:
XX
Lj
=
vj P0vj ,sj (tvs )Lvj (vj )Lsj (sj ),
tvs v s
j
j
2
X
X
L
j
L00j = 2 =
vj P00vj ,sj (tvs )Lvj (vj )Lsj (sj ),
tvs
v s
L0j =
P0vj ,sj (tvs ) e P00vj ,sj (tvs ) dependem do modelo de evoluo de DNA escolhido.
todas as j posies das seqncias, as primeiras e segundas derivadas de ln L so:
onde
(5.12)
Para
88
CAPTULO 5.
ln L X L0j
=
tvs
Lj
j
2
X
Lj L00j (L0j )2
ln L
ln L00 =
.
=
2
t2vs
L
j
j
ln L0 =
(5.13)
tvs
(denotado como
t0vs = tvs +
onde
L0 /L00
a direo Newton e
t0vs )
dado por:
L0
L00
(5.14)
o tamanho do passo.
u
r
rs
=t
vs
t rv =0
(a) Otimizao de tvs
r 'y
=0
r'
t
y
v
r 'v
=t
yv
r
s
z
w
(b) Otimizao de tyv
tvw ,
reversibilidade do modelo de evoluo de seqncias de DNA e a equao de ChapmanKolmogorov permitem que o clculo da verossimilhana seja independente da n escolhido
Lj da Equao 5.7
corresponde a inserir um n raiz r no ramo (v, s) tal que trv = 0 e trs = tvs (ver Figura 5.6(a)). Para otimizar um novo ramo, por exemplo, o ramo (v, y), deve-se criar uma
0
nova raiz r , tal que tr 0 y = 0 e tr 0 v = tuv . O valor de Lj para a nova topologia mostrada
5.2.
PHYLOMOEA
89
Lj =
XX
(5.15)
yj vj
Deve-se observar que enquanto na Figura 5.6(a), o n
descendentes
e
z.
z,
na Figura 5.6(b), o n
v
Assim, o signicado da verossimilhana condicional de tal n (Lj (vj )) tem um valor
diferente nas Equaes 5.7 e 5.15. Conseqentemente, cada vez que se otimiza um novo
ramo, necessrio tambm modicar as verossimilhanas condicionais no caminho entre
a nova raiz
r0
e a antiga raiz
r.
todos os ramos da rvore podem ser necessrios (Yang, 2006). O Algoritmo 8 mostra o
procedimento de otimizao de ramos implementado no PhyloMOEA.
Algoritmo 8:
MOEA.
Entrada:
, uma rvore
B , o conjunto de comprimentos
tol, valor de tolerncia
Sada: ln L
de ramo de
repita
1
2
3
4
5
6
7
8
para cada
ramo (v, s) em
para um ramo
(v, s)
faa
ln L0 e ln L00 conforme a
0
Calcular tvs conforme a Equao
= + |t0vs tvs |
0
Escolher a nova raiz r
Calcular
Equao 5.13
5.14
r0
r=r
m
at
< tol
ln L.
Retornar
90
CAPTULO 5.
Captulo
6
Experimentos e resultados
6.1 Introduo
Neste captulo so apresentados os resultados da aplicao do PhyloMOEA para 4 bancos
de seqncias de DNA. O objetivo dos experimentos mostrar o desempenho de vrias
execues do PhyloMOEA para encontrar um conjunto de rvores que representem um
compromisso entre os critrios de mxima parcimnia e mxima verossimilhana.
As demais Sees deste captulo esto organizadas como segue. A Seo 6.2 apresenta
os conjuntos de teste empregados nos experimentos.
91
92
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
PHYML (Guindon e Gascuel, 2003), GAML (Lewis, 1998), RAxML (Stamatakis et al.,
2005b), IQPNNI (Vinh e von Haeseler, 2004), e TNT (Golobo et al., 2004).
1. O banco
rbcL_55
mtDN A_186
genome Database
3. O banco
RDP II _218
RDP II
(Cole
et al., 2005; Guindon e Gascuel, 2003; Stamatakis et al., 2005b; Vinh e von Haeseler,
2004));
4. O banco
gen rbcL de plantas (Chase et al., 1993; Golobo e Farris, 2001; Guindon e Gascuel,
2003; Stamatakis et al., 2005b; Vinh e von Haeseler, 2004).
bootstrap
cionado no Captulo 5, o PhyloMOEA pode gerar solues inciais aleatrias, porm usualmente tais solues encontram-se muito longe da fronteira de Pareto. Isso retarda notavelmente a convergncia do algoritmo sobretudo nos bancos de seqncias maiores. A anlise
de parcimnia foi efetuado com o programa NONA (Golobo, 1999b); enquanto a anlise
de mxima verossimilhana foi efetuada empregando o programa RAxML-V (Stamatakis
e Meier, 2004).
A incluso de solues geradas por meio da anlise de
bootstrap
bootstrap
(Felsenstein, 1985) na
(Felsenstein, 1985)
foi empregado o programa PHYML (Guindon e Gascuel, 2003). Assim, as solues iniciais
correspondentes a populao inicial do PhyloMOEA so:
6.3.
CONDIES INICIAIS
93
bootstrap
Banco
NONA
RAxML-V
Parcimnia Verossimilhana Parcimnia Verossimilhana
rbcL_55
4.874
-24.627,848
4.894
-24.583,331
mtDN A_186
2.438
-41.049,768
2.450
-40.894,550
RDP II _218
41.534
-170.831,121
42.631
-156.595,873
ZILLA_500
16.219
-87.361,484
16.276
-86.993,826
nho de populao devido a este banco conter um maior nmero de espcies, o que aumenta
signicativamente o espao de busca.
modelo de substituio de seqncias HKY85 (Hasegawa et al., 1985) (ver Captulo 2).
Tal modelo extensivamente empregado na literatura consultada (Guindon e Gascuel,
2003; Lemmon e Milinkovitch, 2002a; Lewis, 1998; Stamatakis e Meier, 2004).
Como visto no Captulo 5, o PhyloMOEA possui os operadores de mutao topolgica
NNI, SPR e TBR. Os resultados de experimentos preliminares (no mostrados nesta
Captulo), no indicaram uma diferena signicativa entre os trs operadores.
Assim,
optou-se por operador NNI por ser a forma mais simples de modicao topolgica. Os
parmetros de taxa de recombinao e mutao apresentados na Tabela 6.2 mostraram
um desempenho adequado nos experimentos.
Parmetro
Geraes
Valor
500 (rbcL_55, mtDN A_186, e RDP II _218)
2.000 (ZILLA_500)
Tamanho da Populao 50 (rbcL_55, mtDN A_186, e RDP II _218)
e 100 (ZILLA_500)
Taxa de Cruzamento
0,8
Taxa de Mutao
0,05
Operador de Mutao
NNI
Modelo Evolutivo
HKY85
94
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
cluster
Rocks Linux
Atlhon
64
mtDN A_186
No
obteve-se resultados
500_ZILLA
a melhora
Pontuao de
Pontuao de
Parcimnia
Verossimilhana
Banco
Melhor
Mdia
Melhor
Mdia
rbcL_55
4.874 4.874,00 0,00 -24.583,330 -24.583,330 0,00
mtDN A_186
2.436
2.437,10 0,64
-40.894,343
-40.894,528 0,06
218_RDP II
41.534 41.534,00 0,00 -156.595,850 -156.595,850 0,00
500_ZILLA
16.219 16.219,00 0,00 -86.991,649 -86.993,561 0,66
O PhyloMOEA encontra dois conjuntos de solues:
As Solues Finais, as quais mantm todas as solues no dominadas alm daquelas que possuem valores iguais para o critrio de parcimnia. Tais solues so
importantes uma vez que possvel que duas topologias possuam o mesmo valor
de parcimnia e valores de verossimilhana diferentes. Nesse caso, se for aplicado o
critrio de dominncia de Pareto, seria eliminada a soluo com menor verossimilhana. Porm, ambas as solues so relevantes do ponto de vista do critrio de
parcimnia e, portanto, so guardadas pelo PhyloMOEA.
A Tabela 6.4 mostra os valores mximo, mdia e desvio padro do nmero de Solues Pareto-timas e Finais encontradas pelo PhyloMOEA. Pode-se observar um comportamento estvel em todas as execues do algoritmo dado que os valores de desvio so
relativamente pequenos.
6.4.
95
Solues Pareto-timas
Solues Finais
Banco
Mximo Mdia Mximo
Mdia
rbcL_55
10
7,05 1,39
54 48,20 3,00
mtDN A_186
12
9,05 1,23
55 48,95 2,61
218_RDP II
35 28,75 2,97
85 77,40 4,15
500_ZILLA
24 18.50 2.52
121 102.40 7.99
As Figuras 6.1, 6.2, 6.3 e 6.4 mostram a fronteira de Pareto obtida de uma execuo
do PhyloMOEA para os bancos
ZILLA_500,
respectivamente. O eixo horizontal representa a pontuao de parcimnia e o eixo vertical representa a pontuao de verossimilhana. Devido ao fato de que as pontuaes de
parcimnia so nmeros inteiros, a Fronteira de Pareto formada por pontos descontnuos. Tais pontos foram unidos por linhas para facilitar a visualizao da fronteira. Se
o intervalo de valores correspondentes a parcimnia for pequeno, so esperadas poucas
solues intermedirias entre os pontos extremos da fronteira. Tal fenmeno observado
nas Figuras 6.1 e
6.2.
Pareto na Tabela 6.4. Por outro lado, se o intervalo for maior, como acontece para bancos maiores (RDP II _218 e
observado nas Figuras
24570
ZILLA_500),
Solues Paretotimas
Solues Finais
40900
24590
Verossimilhana
Verossimilhana
24580
Solues Paretotimas
Solues Finais
24600
24610
40950
41000
41050
24620
24630
41100
4874
4876
4878
4880
4882
Parcimnia
4884
4886
Pareto-timas
rbcL_55.
4888
do
2436
2438
2440
2442 2444
Parcimnia
2446
2448
2450
Pareto-timas
do
mtDN A_186.
As Tabelas 6.5 e
96
CAPTULO 6.
86900
Solues Paretotimas
Solues Finais
156000
EXPERIMENTOS E RESULTADOS
Solues Paretotimas
Solues Finais
87000
87100
Verossimilhana
Verossimilhana
158000
160000
162000
87200
87300
87400
164000
87500
166000
41400 41600 41800 42000 42200 42400 42600 42800 43000 43200
Parcimnia
Pareto-timas
do
87600
16220 16230 16240 16250 16260 16270 16280 16290
Parcimnia
RDP II _218.
banco
Pareto-timas
do
ZILLA_500.
rbcL_55
pontuaes das solues intermedirias esto prximas aos dos pontos extremos (melhores
solues encontradas para cada critrio) da fronteira e, portanto, o teste SH no rejeita
tais solues. No caso dos bancos
RDP II _218
ZILLA_500
de solues rejeitadas uma vez que as pontuaes das solues intermedirias encontramse afastadas dos melhores pontuaes para cada objetivo.
casos existem solues intermedirias que no so rejeitadas pelo teste SH para ambos os
critrios.
Na Tabela 6.6 observa-se um alto nmero de Solues Finais rejeitadas nos bancos
ZILLA_500.
No caso do banco
mtDN A_186,
existe um alto
traram que existem solues intermedirias que so consistentes tanto com a soluo de
mxima parcimnia quanto com a soluo de mxima verossimilhana. Portanto, o Phy-
6.4.
97
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
10
0
10
0
mtDN A_186
8
0
4
4
RDP II _218
10
25
6
29
ZILLA_500
12
9
14
7
Total
40
34
34
40
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
16
37
17
36
mtDN A_186
37
8
22
23
RDP II _218
21
57
11
67
ZILLA_500
27
79
29
77
Total
101
181
79
203
O conjunto de rvores obtidas pelo PhyloMOEA nas Solues Pareto-timas e nas
Solues Finais permitem calcular tambm o grau de suporte para cada ramo.
Esses
resultados podem ser comparados com os graus de suporte de ramos calculados utilizando
a tcnica de
bootstrap
para os bancos
para o banco
98
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
Tipo III: o clado pertence somente a rvore de mxima parcimnia e as rvores das
solues intermedirias;
ZILLA_500,
respectivamente.
rbcL_55,
Os nmeros em negrito
O signicado de
PMOEA: a mdia do grau de suporte para cada tipo de clado das rvores calculadas
pelo PhyloMOEA;
PBayes: o grau de suporte para cada tipo de clado obtida pelo Mr.Bayes;
DPars:
[0, 1].
6.4.
99
Os resultados mostram que os clados comuns dar rvores encontradas pelo PhyloMOEA e o Mr.Bayes pertencem aos tipos I, III, V e VII. Deve-se observar tambm que
desses clados, apenas os de tipo V e VII mostram uma mdia de grau de suporte (colunas
PMOEA e PBayes) alta tanto no PhyloMOEA como no Mr.Bayes.
Ou seja, os clados
comuns melhor suportados correspondem as rvores intermedirias e as rvores de mxima parcimnia e/ou mxima verossimilhana. Os valores de distncia nas pontuaes
(colunas DPars e DVeross) mostram, na maioria dos casos, uma maior proximidade das
rvores que contm tais tipos de clados com a rvore de mxima verossimilhana.
Os
valores de distncia topolgica (colunas DTPars e DTVeross) mostram tambm uma menor distncia entre as rvores contendo os clados de tipo V e VII e a rvore de mxima
verossimilhana.
Os clados de tipo I e III apresentam o menor valor nas colunas PMOEA e PBayes.
A diferena entre os valores de ambas as colunas so tambm as maiores. Isso signica
que, os clados correspondentes apenas s solues intermedirias e/ou os clados correspondentes a rvore de mxima parcimnia so menos suportados pelo PhyloMOEA e pelo
Mr.Bayes. Uma exceo acontece para o banco
RDP II _218
onde a probabilidade posterior maior que 50% para os clados de tipo I e III. Os clados
de tipo II aparecem apenas no banco
100
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
rbcL_55.
rbcL_55.
mtDN A_186.
mtDN A_186.
6.5.
101
RDP II _218.
RDP II _218.
ZILLA_500.
ZILLA_500.
102
CAPTULO 6.
x
Clados Tipo V
Clados Tipo VII
x
Clados Tipo V
Clados Tipo VII
1.2
Suporte PhyloMOEA
Suporte PhyloMOEA
1.2
EXPERIMENTOS E RESULTADOS
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes
Figura 6.5: Grau de suporte do Phylo- Figura 6.6: Grau de suporte do PhyloMOEA
Probabilidade
MOEA
vs.
Probabilidade
as Solues Pareto-timas do
as Solues Pareto-timas do
banco
rbcL_55.
banco
x
Clados Tipo V
Clados Tipo VII
1.2
mtDN A_186.
x
Clados Tipo V
Clados Tipo VII
1.2
Suporte PhyloMOEA
Suporte PhyloMOEA
vs.
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes
vs.
Probabilidade
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes
vs.
Probabilidade
as Solues Pareto-timas do
as Solues Pareto-timas do
banco
RDP II _218.
banco
ZILLA_500.
assinalam que nos bancos de seqncias reais, os stios evoluem com taxas diferentes (Felsenstein, 2004; Yang, 2006). Quando esse fator empregado, os resultados da anlise de
verossimilhana podem ser sensivelmente melhorados (Yang, 2006).
Assim, no decorrer das pesquisas, incorporou-se o ASRV empregando a taxa de heterogeneidade Gama (ver Captulo 2) no modelo HKY85, resultando no modelo HYK85+.
A anlise de mxima verossimilhana foi efetuada para cada banco de teste empregando o
programa RAxML-V (Stamatakis e Meier, 2004) considerando o ASRV. Contudo, esse programa emprega uma aproximao do modelo HKY85+ denominado HKY85CAT (Stamatakis, 2006a).
6.5.
103
bootstrap
Gascuel, 2003).
A Tabela 6.15 mostra os valores de parcimnia e verossimilhana para as solues
calculadas pelo NONA e RAxML-V+PHYML para os 4 bancos de teste.
Deve-se ob-
ZILLA_500
mtDNA_186 RDPII_218
,
. Esse resultado indica que os pontos extremos da fronteira para tais bancos
Banco
rbcL_55
mtDNA_186
RDPII_218
ZILLA_500
NONA
RAxML-V + PHYML
Parcimnia Verossimilhana Parcimnia Verossimilhana
4.874
-21.989,580
4.893
-21.889,844
2.438
-40.010,941
2452
-39.896,442
41.534
-147.794,345
42.813
-134.696,535
16.219
-81.880,193
16.310
-81.018,060
Banco
rbcL_55
5,075 0,355
mtDN A_186 33,451 0,015
RDP II _218
2,719 0,533
ZILLA_500
3,890 0,950
104
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
mtDN A_186.
Tabela 6.17: Resumo dos resultados das execues do PhyloMOEA considerando ASRV.
Pontuao de
Parcimnia
Banco
Melhor
Mdia
rbcL_55
4.874 4.874,00 0,00
mtDN A_186
2.437
2.437,90 0,32
RDP II _218
41.534 41.534,00 0,00
ZILLA_500
16.219 16.219,00 0,00
Pontuao de
Verossimilhana
Melhor
Mdia
-21.889,844 -21.889,844 0,00
-39.896,441
-39.896,441 0,00
-134.696,535 -134.696,535 0,00
-81.018,060 -81.018,060 0,00
A Tabela 6.18 mostra os valores mximo, mdio e desvio padro do nmero de Solues Pareto-timas e Finais encontradas pelo PhyloMOEA. Pode-se observar um comportamento estvel em todas as execues do algoritmo, uma vez que os valores de desvio so
relativamente pequenos. Comparados aos resultados mostrados na Tabela 6.4, encontrou-
rbcL_55 e ZILLA_500 e
um menor nmero delas nos bancos mtDN A_186 e RDP II _218. O nmero de Solues
Finais foi maior apenas no banco RDP II _218. Este resultado mostrou que, embora os
se um maior nmero de solues Pareto-timas para os bancos
valores de verossimilhana das solues tenham melhorado, a diversidade das solues foi
afetada, embora levemente, tanto para as solues Pareto-timas como para as Solues
Finais.
Solues Pareto-timas
Solues Finais
Banco
Mximo Mdia Mximo Mdia
rbcL_55
13 10,30 1,49
61 52,50 5,74
mtDN A_186
10
8,50 1,43
59 50,80 4,44
RDP II _218
27 23,90 1,97
80 77,40 3,03
ZILLA_500
26 19,60 3,27
71 63,10 4,58
As Figuras
ZILLA_500,
respectivamente.
rbcL_55,
6.5.
Fronteira de Pareto
Solues Finais
21860
Fronteira de Pareto
Solues Finais
39850
21880
21900
Verossimilhana
Verossimilhana
105
21920
21940
39900
39950
40000
21960
40050
21980
22000
40100
4875
4880
4885
Parcimnia
4890
Pareto-timas
do
rbcL_55.
134000
banco
mtDN A_186.
80900
Fronteira de Pareto
Solues Finais
Fronteira de Pareto
Solues Finais
81000
135000
Verossimilhana
Verossimilhana
81100
136000
137000
138000
81200
81300
81400
81500
139000
81600
140000
81700
41600
41800
42600
42800
16220
16240
16260
16280
Parcimnia
16300
RDP II _218.
banco
ZILLA_500.
106
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
11
2
8
5
mtDN A_186
10
0
9
1
RDP II _218
2
25
4
23
ZILLA_500
9
17
8
18
Total
32
44
29
47
Tabela 6.20: Resultados do teste SH para as Solues Finais fornecidas pelo PhyloMOEA considerando ASRV.
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
19
40
18
41
mtDN A_186
41
13
29
25
RDP II _218
6
74
5
75
ZILLA_500
16
55
12
59
Total
82
182
64
200
Comparando as Tabelas 6.5 e 6.19, verica-se que o total de solues no rejeitadas
para parcimnia (verossimilhana) so 40 e 32 (34 e 29), respectivamente. Das Tabelas 6.6
e 6.20, observa-se que o total de solues no rejeitadas para parcimnia (verossimilhana)
caem de 101 para 82 (79 para 64). Comparando-se as Tabelas 6.1 e 6.15 (com as solues encontradas pelo NONA e RAxML-V), verica-se que os pontos extremos esto mais
prximos de uma forma geral na Tabela 6.15, que foi obtida considerando o ASRV. Claramente, o menor nmero de solues no rejeitadas est relacionado com o menor intervalo
entre os pontos extremos nos clculos utilizando ASRV.
Os resultados do teste SH mostraram, mais uma vez, que existem solues intermedirias que so consistentes com a soluo de mxima parcimnia e a soluo de mxima
verossimilhana. Portanto, o PhyloMOEA foi capaz de encontrar rvores alternativas que
representam um compromisso entre as melhores rvores para cada critrio.
As Tabelas 6.216.28 mostram os resultados da comparao do PhyloMOEA com
o Mr.Bayes para as Solues Pareto-timas e as Solues Finais dos bancos
ZILLA_500
rbcL_55,
possuem o mesmo signicado que os das colunas das Tabelas 6.76.14 (ver Seo 6.4).
Os resultados mostram que os tipos de clados usualmente encontrados correspondem
aos tipos I, III, V e VII. Todos esses tipos de clados pertencem as solues intermedirias,
podendo ou no estar na rvores de mxima parcimnia e/ou mxima verossimilhana.
Os clados de tipo V e VII possuem, em geral, os melhores valores de suporte e a menor di-
6.5.
107
ZILLA_500
pondncia entre ambas as quantidades observada para os clados de tipo VII, onde a
maioria dos pontos esto concentrados na regio direita da funo identidade.
Os resultados da comparao entre o PhyloMOEA e o Mr.Bayes realizada nesta Seo
so similares aos obtidos na Seo 6.4. Assim, os valores mostrados das Tabelas 6.21 6.28
so prximos dos mostrados nas Tabelas 6.7 6.14, encontrando-se pequenas diferenas
nos graus de suporte em alguns casos.
realizadas entre o PhyloMOEA e o Mr.Bayes favorece aqueles clados que esto prximos
rvore de mxima verossimilhana.
rbcL_55.
108
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
rbcL_55.
mtDN A_186.
mtDN A_186.
RDP II _218.
6.6.
CONSIDERAES FINAIS
109
RDP II _218.
ZILLA_500.
ZILLA_500.
nho e uma estabilidade adequadas em vrias execues do modelo para cada banco de
teste. O PhyloMOEA foi capaz de gerar solues da fronteira de Pareto que representam
alternativas intermedirias relevantes entre as rvores de mxima parcimnia e verossimilhana. Para obter melhores resultados, preciso que solues iniciais resultantes das
anlises de mxima parcimnia e mxima verossimilhana sejam includas na populao
inicial do PhyloMOEA. Caso contrrio, o mtodo desenvolvido mostra-se relativamente
lento para os casos em que as solues iniciais encontram-se muito longe da Fronteira de
110
CAPTULO 6.
x
Clados Tipo V
Clados Tipo VII
x
Clados Tipo V
Clados Tipo VII
1.2
Grau de Suporte PhyloMOEA
1.2
EXPERIMENTOS E RESULTADOS
1
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes
Figura 6.13: Grau de suporte do Phylo- Figura 6.14: Grau de suporte do PhyloMOEA vs.
MOEA vs.
Probabilidade
as Solues Pareto-timas do
as Solues Pareto-timas do
banco
rbcL_55.
banco
x
Clados Tipo V
Clados Tipo VII
mtDN A_186.
x
Clados Tipo V
Clados Tipo VII
1.2
Grau de Suporte PhyloMOEA
1.2
Grau de Suporte PhyloMOEA
Probabilidade
1
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes
Probabilidade
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes
Probabilidade
as Solues Pareto-timas do
as
banco
RDP II _218.
Solues
do banco
Pareto-timas
ZILLA_500.
Pareto. Alm disso, em alguns casos, o PhyloMOEA foi capaz de melhorar as solues
iniciais de mxima parcimnia e mxima verossimilhana obtidas por outros programas
de inferncia logentica.
A incorporao das taxas heterogeneidade entre stios, utilizando o modelo HKY85+,
melhorou signicativamente a verossimilhana da solues iniciais fornecidas ao PhyloMOEA, assim como os resultados nais.
Portanto, o PhyloMOEA
considerando o ASRV, pode encontrar solues melhores, bem como pode fornecer uma
diversidade de solues com compromisso adequado entre parcimnia e verossimilhana.
6.6.
CONSIDERAES FINAIS
111
112
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
Captulo
7
Concluses e trabalhos futuros
No decorrer do deste trabalho apresentou-se o problema de reconstruo de rvores logenticas como um dos principais da rea da bioinformtica.
reconstruir a rvore que melhor representa a histria das espcies envolvidas na anlise
tm sido propostas nesta rea de pesquisa. A mxima parcimnia e a mxima verossimilhana so dois dos principais mtodos de reconstruo logentica empregados pelos
pesquisadores. Tais mtodos denem critrios de otimalidade para avaliar as diferentes
solues no espao de busca.
113
114
CAPTULO 7.
dos principais trabalhos da aplicao de AEs em logenia, focando principalmente os trabalhos que empregaram como critrio de otimalidade a mxima parcimnia e mxima
verossimilhana.
Os AEs podem ser aplicados em problemas de otimizao com vrios objetivos a serem
atingidos simultaneamente. Em tais problemas de otimizao multi-objetivo (MOOPs),
usualmente os objetivos a serem otimizados so conitantes entre sim, ou seja, se um
objetivo melhorado usualmente outro objetivo prejudicado. Isso signica que em tais
casos, no existe apenas uma soluo tima, mais sim um conjunto de solues denominadas Pareto-timas que representam um compromisso entre os objetivos do problema. Os
AEs tm sido empregados satisfatoriamente em MOOPs, apresentando vrias vantagens
com relao a outras tcnicas de otimizao para este tipo de problemas.
Uma srie de trabalhos apresentados na reviso bibliogrca mostra que o emprego
de diferentes mtodos de reconstruo logentica para um conjunto de dados tm resultado em rvores conitantes. Assim, uma abordagem multi-objetivo da reconstruo
logentica surge como uma alternativa vivel para incorporar diversos critrio de otimalidade usualmente empregados neste problema.
bootstrap
115
clados das rvores encontradas pelo programa Mr.Bayes. Procurou-se analisar a natureza
das correspondncia e diferena entre ambos os valores.
Os experimentos testaram o desempenho do PhyloMOEA em 4 bancos de seqncias
de DNA que tm sido freqentemente empregados na literatura.
Devido ao comporta-
mento estocstico dos AEs, o PhyloMOEA foi executado vrias vezes para cada banco.
Os resultados indicaram que o modelo proposto teve um desempenho satisfatrio e um
comportamento estvel em todas as execues. Alm disso, O PhyloMOEA foi capaz de
gerar solues da fronteira de Pareto que representam rvores alternativas entre as solues de mxima parcimnia e verossimilhana. Contudo, para obter resultados aceitveis,
preciso que solues inicias sejam incorporadas na populao inicial. Assim, foi realizado
uma anlise previa de mxima parcimnia e mxima verossimilhana para cada banco de
dados. Adicionalmente, outras rvores foram obtidas utilizando a anlise de
bootstrap
. A
Propou-se
116
CAPTULO 7.
IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology, 2007. CIBCB '07
Best Student Paper
lutionary Algorithms", in
Alm disso, uma verso estendida de tais trabalhos foi aceita para publicao na revista
(Cancino e
O desempenho do PhyloMOEA pode ser melhorado em diversos aspectos, principalmente no emprego de heursticas de busca local (Guindon e Gascuel, 2003; Stamatakis e Meier, 2004) para uma melhor convergncia do algoritmo. Se as solues
iniciais so pobremente estimadas, o PhyloMOEA poderia requerer vrias horas de
execuo e no atingir resultados razoveis;
O mtodo proposto emprega o modelo de parcimnia mais simples, isto , o algoritmo de Fitch, que trabalha com custos unitrios para cada troca de estado. Porm,
117
existem vrios outros modelos de parcimnia que podem ser adequados conforme
o banco de seqncias empregado.
Diversas tcnicas de paralelizao de MOEAs tm sido propostas na literatura (Coello et al., 2002; Veldhuizen et al., 2003).
118
CAPTULO 7.
Referncias Bibliogrcas
MOLPHY version 2.3. Programs for Molecular Phylogenetics Based on Maximum Likelihood. in ishiguro
Ayala, F.
Raxml-
Parallel
and Distributed Processing Symposium, 2007. IPDPS 2007. IEEE International
cell: Parallel phylogenetic tree inference on the cell broadband engine.
In:
, 2007,
p. 1 10.
Brauer, M. J.; Holder, M. T.; Dries, L. A.; Zwickl, D. J.; Lewis, P. O.; Hillis,
D. M.
inference.
Brent, R.
Prentice-Hall, 1973.
Weighted neighbor joining:
Evolution
A likelihood-
logenetics.
, cp. 2,
rithms.
v. 2, n. 2, 2007a.
119
120
REFERNCIAS BIBLIOGRFICAS
In:
inference.
In:
, v.4403).
Evolution
Procedures.
states.
Journal of Classication
, v. 4, p. 5771, 1987.
Chase, M.; Soltis, D.; Olmstead, R.; Morgan, D.; Les, D.; Mishler, B.; Duvall, M.; Price, R.; Hills, H.; Qiu, Y.; Kron, K.; Rettig, J.; Conti, E.;
Palmer, J.; Manhart, J.; Sytsma, K.; Michaels, H.; Kress, W.; Karol, K.;
Clark, W.; Hedren, M.; Gaut, B.; Jansen, R.; Kim, K.; Wimpee, C.; Smith,
J.; Furnier, G.; Strauss, S.; Xiang, Q.; Plunkett, G.; Soltis, P.; Swensen,
S.; Williams, S.; Gadek, P.; Quinn, C.; Eguiarte, L.; Golenberg, E.; Learn,
G.; Graham, S.; Barrett, S.; Dayanandan, S.; Albert, V.
Phylogenetics of
Annals of
approach.
In:
optimization.
Coello, C.
In:
, Springer Berlin
, v.4643/2007).
, 2006, p. 294308.
ler, E.; Deb, K.; Thiele, L.; Coello, C. A. C.; Corne, D., eds.
In: Zitz-
First Internati-
, Springer-Verlag., 2001,
p. 2140 (
, v.1993).
New
REFERNCIAS BIBLIOGRFICAS
Congdon, C.
evolution.
121
In:
2002.
Congdon, C.; Greenfest, E.
tics.
In: Freitas, A. A.; Hart, W.; Krasnogor, N.; Smith, J., eds.
Data Mining
, 2000, p. 8588.
nolds, R.; Abbass, H.; Tan, K. C.; McKay, B.; Gedeon, T., eds.
Congress on
Cormen, T.
2001.
In:
E. D.; Wu, A.; Langdon, W.; Voigt, H.-M.; Gen, M.; Sen, S.; Dorigo, M.;
Proceedings of the
, v.1917).
, Springer-Verlag, 2002,
p. 720729.
Day, W.
Classication
Journal of
, v. 2, n. 1, p. 728, 1985.
gence approach
Evolutionary computation: a unied approach
.
De Jong, K.
Press, 2006.
Deb, K.
122
REFERNCIAS BIBLIOGRFICAS
KanGAL re-
In:
In: J.,
, Systematics Association, p.
6776, 1964.
A successive approximations approach to character weighting.
Farris, J.
Zoology
Systematic
Systematic Zoology
Farris, J.
, v. 19, n. 1,
p. 8392, 1970.
Estimating phylogenetic trees from distance matrices.
Farris, J.
American Naturalist
Farris, J.
http://www.cladistics.org/education/hennig86.html
Disponvel em:
(Acessado
em 11/2007)
Maximum-likelihood and minimum-steps methods for estimating evo-
Felsenstein, J.
Systematic Zoology
, v. 22, n. 3,
p. 240249, 1973a.
Maximum-likelihood estimation of evolutionary trees from continuous
Felsenstein, J.
characters.
Felsenstein, J.
Approach.
Felsenstein, J.
Evolution
Evolution
Felsenstein, J.
Disponvel em:
html
2000a.
http://evolution.genetics.washington.edu/phylip/newicktree.
REFERNCIAS BIBLIOGRFICAS
PHYLIP (Phylogeny Inference Package).
Felsenstein, J.
Disponvel em:
Inferring phylogenies
Systematic Zoology
Tree Topology.
Fitch, W.
2000b.
http://evolution.genetics.washington.edu/phylip.html
Felsenstein, J.
Fitch, W.
123
ons.
Science
, v. 155,
p. 279284, 1967.
Fogel, L.
Autonomous automata.
Industrial Research
Articial intelligence through simulated evolution
, v. 4, n. 1, p. 1419, 1962.
Proceedings of the
documentation
Disponvel em:
Futuyma, D.
http://infosun.fmi.uni-passau.de/GTL/
Biologia evolutiva
(Acessado em 11/2007)
1992.
Gascuel, O.
, v. 14, n. 7, p. 685695,
1997.
Geist, A.; Beguelin, A.; Dongarra, J.; Jiang, W.; Manchek, R.; Sunderam,
V.
Pvm: Parallel virtual machine a users' guide and tutorial for networked parallel
Cladistics
, v. 13, p. 2126,
1997.
Gogarten, J.; Lewis, P. O.
Lecture
http://carrot.mcb.uconn.edu/mcb372/index2.html
(Acessado em
124
REFERNCIAS BIBLIOGRFICAS
Goldberg, D.
Re-
Goldman, N.
tics.
, v. 265,
Systematic Biology
phylogenetics.
Goloboff, P.
Cladistics
, v. 9,
n. 4, p. 433436, 1993.
Goloboff, P.
Cladistics
, v. 12, n. 3, p. 199220,
1996.
Analyzing large data sets in reasonable times: Solutions for composite
Goloboff, P.
optima.
Cladistics
Goloboff, P.
Disponvel em:
Cladistics
, v. 17,
n. 1, p. S26S34, 2001.
Cladistics
Fundamentals of molecular evolution
Mthodes et algorithmes pour l'approche statistique en phylognie
Tnt.
Guindon, S.
2 ed.
Sinauer, 2000.
.
Tese
Systematic Biology
IEEE Transactions on
, v. 1, n. 3, p. 296297, 1971.
Structural Optimization
, v. 4, p. 99107, 1992.
Bioinformatics
, v. 4, n. 2, p. 289292, 2006.
REFERNCIAS BIBLIOGRFICAS
Hartigan, J.
125
Biometrics
, v. 29, n. 1, p. 5365,
1973.
Hasegawa, M.; Kishino, H.; Yano, T.
, v. 22,
p. 160174, 1985.
nary trees.
tion
Mathematical Biosciences
Journal of Classica-
Science
Experimental
1992.
Holland, J.
University of Michigan
Press, 1975.
Holland, J.
Bioinformatics
, v. 21, n. 24,
p. 43384347, 2005.
Horn, J.; Nafpliotis, N.; Goldberg, D.
Proceedings of the First IEEE Conference on Evolutionary Computation, IEEE World Congress on Computational Intelligence
Multiobjective Optimization.
In:
, Piscataway,
Biology
Systematic
formatics
Bioin-
mixed models.
Bioinformatics
126
REFERNCIAS BIBLIOGRFICAS
Bayesian inference
Science
, v. 294, p. 23102314,
2001.
mtDB: Human Mitochondrial Genome Database, a
, v. 34,
p. D749D751, 2006.
Limitations of the Evolutionary Parsimony Method of Phylogenetic
Analysis.
, v. 7, p. 82102, 1990.
Jobb, G.
Disponvel em:
2007.
http://www.treefinder.de/
(Acessado em 11/2007)
, v. 8, p. 275282,
1992.
Jukes, T.; Cantor, C.
molecules
In:
Evolution of protein
, v. 53, p. 477484,
2001.
Evaluation of the maximum likelihood estimate of the
evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea.
, v. 4, p. 170179, 1989.
Multi-Objective Optimization
NaturePPSN IV
in Computer Science
In:
Computation
In:
A New Base-
likelihood function.
Systematic Biology
, v. 11,
REFERNCIAS BIBLIOGRFICAS
Lake, J.
127
onary parsimony.
, v. 4, p. 167191, 1987.
.
Relatrio Tcnico,
of phylogenetic trees.
In:
Proceedings of
, 2002a, p. 1051610521.
milinkovitch(2002).
2002b.
http://www.ulb.ac.be/sciences/ueg/pdf_files/Lem&Milinko_02_
supp_data.pdf (Acessado em 11/2007)
Disponvel em:
Lewis, P. O.
, v. 15, n. 3, p. 277283,
1998.
Li, S.; Pearl, D.; Doss, H.
carlo.
hw/sw codesign.
(CSB'03)
Matsuda, H.
genetic algorithm.
In:
p. 512523.
Mau, B.; Newton, M.
, v. 6,
n. 1, p. 122131, 1997.
Michalewicz, Z.
3rd
128
REFERNCIAS BIBLIOGRFICAS
A quantitative approach to a problem in classication.
Evolution
, v. 12 de
Miettinen, K.
International Series in
1999.
Searching for Most Parsimonious Trees with Simulated Evolutionary
Moilanen, A.
Cladistics
Optimization.
Moilanen, A.
Cladistics
Phylogenetic tree-building.
2000.
Nei, M.; Takezaki, N.; Sitnikova, T.
Science
distics
Cla-
fastDNAml:
A tool
Page, R. D. M.;
Holmes, E. C.
tein Phylogeny
lihood Function.
Cold
, 1987, p. 857862.
In:
Soft Computing
Systematic Biology
REFERNCIAS BIBLIOGRFICAS
Prado, O.
129
Numerical recipes in
Press, 1992.
Pupko, T.; Graur, D.
Data Analysis
lihood and parsimony methods in the context of karl popper's writings on corroboration.
Systematic Biology
Quesne, W. L.
Zoology
Systematic
Quesne, W. L.
Linnean Society
, v. 43, n. 3,
p. 304311, 1996.
Rechenberg, I.
Relatrio
Tcnico 1122, Royal Aircraft Establishment, Library Translation Number 1122, Franborough, UK., 1965.
Reijmers, T.; Wehrens, R.; Daeyaert, F.; Lewi, P.; Buydens, L.
Using genetic
Biosystems
Articial intelligence
1991.
Ridley, M.
Evolution
mathematics VI
Combinatorial
Lecture Notes in Mathematics
, v.748).
In:
Systematic Biology
, v. 47, n. 1, p. 7789,
130
REFERNCIAS BIBLIOGRFICAS
Genome-Scale Approaches to
Nature
2003.
Ronquist, F.
Cladistics
, v. 14,
n. 4, p. 386400, 1998.
Ronquist, F.; Huelsenbeck, J.; Mark, P.
School of Com-
Rudolph, G.
In:
Evolution
trees.
Prentice Hall
, v. 9, p. 945967, 1992.
Evolution
, v. 6, p. 514525, 1989.
Phylogenetic Trees.
Sankoff, D.
matics
Sankoff, D.
Problems.
Psychometrika
, v. 42, p. 319345,
1977.
Schaffer, J.
In:
REFERNCIAS BIBLIOGRFICAS
Schwefel, H.
sendse, teil i.
131
Projekt mhd-staustrahlrohr: Experimentelle optimierung einer zweiphaRelatrio Tcnico 11.034/68, 35, AEG Forschungsinstitut, Berlin,
1968.
Setubal, J.; Meidanis, J.
Interna-
Shimodaira, H.
tematic Biology
Sys-
Disponvel em:
http://www.boost.org/libs/graph/doc/index.html
(Acessado em
11/07)
Skourikhine, A.
Evolution
, v. 5, p. 298311, 1988.
Multiobjective Optimization Using Nondominated Sorting in
Evolutionary Computation
Genetic Algorithms.
Stamatakis, A.
nealing.
In:
(IPDPS'05)
, v. 2, n. 3, p. 221248, 1994.
, 2005.
Stamatakis, A.
puting perspective.
In:
, 2006a, p. 8 pp.
Stamatakis, A.
Bioinformatics
2006b.
Stamatakis, A.; Ludwig, T.; Meier, H.
132
REFERNCIAS BIBLIOGRFICAS
Bioinformatics
, v. 21, n. 4,
p. 456463, 2005b.
Stamatakis, A.; Ludwig, T.; Meier, H.; Wolf, M.
In: CD,
, Baltimore, Maryland
2002a.
Stamatakis, A.; Ludwig, T.; Meier, H.; Wolf, M.
sequential and parallel phylogenetic tree calculations based on the maximun likelihood
method.
In:
(CSB2002)
In:
, 2004.
Protein Phylogeny
, v. 13, p. 407514,
1996.
Lecture 7: Phylogenetic trees reconstruction.
Sung, W.-K.
2002.
http://www.comp.nus.edu.sg/~ksung/cs5238/2002Sem1/note/
note_taking_list.htm (Acessado em 11/2007)
Disponvel
em:
Swofford, D.
University, 2000.
Swofford, D.; Olsen, G.; Waddell, P.; Hillis, D.
In:
Molecular Systematics
Phylogeny Reconstruction.
In:
The Phylogenetic
, cp. 7, Cambridge
In:
1989, p. 29.
REFERNCIAS BIBLIOGRFICAS
133
Relative Eciences of the Maximum-Likelihood,
Templeton, A.
Evolution
, v. 37,
n. 2, p. 221244, 1983.
Tuffley, C.; Steel, M.
, v. 59,
n. 3, p. 581607, 1997.
Veldhuizen, D. V.
Engineering. Graduate School of Engineering. Air Force Institute of Technology, WrightPatterson AFB, Ohio, 1999.
Veldhuizen, D. V.; Zydallis, J.; Lamont, G.
Computation
Weir, B.
Yang, Z.
Sinauer, 1996.
, v. 10, n. 6,
p. 13961401, 1993.
Yang, Z.
, v. 39,
n. 3, p. 306314, 1994.
Yang, Z.
lihood.
Yang, Z.
, v. 51,
n. 5, p. 423432, 2000.
Yang, Z.
134
Zeleny, M.
REFERNCIAS BIBLIOGRFICAS
Compromise programming.
In:
301.
Zitzler, E.; Deb, K.; Thiele, L.
Evolutionary Computation
SPEA2: Improving the Strength Pareto
, v. 8, n. 2, p. 173195, 2000.
Evolutionary Algorithm
Zwickl, D.
Tese de Doutoramento,