Tese Waldo Corregida

Algoritmos evolutivos multi-objetivo para a
reconstruo de rvores logenticas
Waldo Gonzalo Cancino Ticona

Orientador: Prof. Dr. Alexandre Cludio Botazzo Delbem
Tese apresentada ao Instituto de Cincias Matemticas e de

Computao - ICMC-USP como parte dos requisitos para obteno do ttulo de Doutor em Cincias, na rea de Cincias de
Computao e Matemtica Computacional.
VERSO REVISADA APS A DEFESA
Data da Defesa :
Visto do Orientador:
USP-So Carlos
Maro de 2008
11/02/2008
Algoritmos evolutivos multi-objetivo para a reconstruo

de rvores logenticas
Waldo Gonzalo Cancino Ticona
Dedicatria
A minha famlia, especialmente aos meus pais e a minha irm, pela compreenso,
carinho e incansvel apoio ao longo do perodo dos meus estudos de ps-graduao.
Aos meus queridos amigos, pelos momentos de convvio, trocas e afetos.
Agradecimentos
Ao Prof. Dr. Alexandre Cludio Botazzo Delbem, que, no decorrer deste doutorado, contribuiu para meu crescimento cientco e intelectual.
Ao Prof. Dr. Andr C.P.L.F. Carvalho, pela ateno e apoio durante as etapas
inicias do meu trabalho.
Fundao de Amparo Pesquisa do Estado de So Paulo pela concesso da bolsa

de doutorado e pelo apoio nanceiro para a realizao desta pesquisa (Nmero de
Processo: 02/13846-0).
Aos meus professores e colegas, sem distino, sou-lhes muito grato.
Resumo
O problema reconstruo logentica tm como objetivo determinar as relaes

evolutivas das espcies, usualmente representadas em estruturas de rvores.
No
entanto, esse problema tem se mostrado muito difcil uma vez que o espao de
busca das possveis rvores muito grande.
logentica tm sido propostos.
Diversos mtodos de reconstruo
Vrios desses mtodos denem um critrio de
otimalidade para avaliar as possveis solues do problema. Porm, a aplicao de

diferentes critrios resulta em rvores diferentes, inconsistentes entre sim. Nesse
contexto, uma abordagem multi-objetivo para a reconstruo logentica pode ser
til produzindo um conjunto de rvores consideradas adequadas por mais de um
critrio.
Nesta tese proposto um algoritmo evolutivo multi-objetivo, denominado PhyloMOEA, para o problema de reconstruo logentica. O PhyloMOEA emprega
os critrios de parcimnia e verossimilhana que so dois dos mtodos de reconstruo logentica mais empregados. Nos experimentos, o PhyloMOEA foi testado
utilizando quatro bancos de seqncias freqentemente empregados na literatura.
Para cada banco de teste, o PhyloMOEA encontrou as solues da fronteira de
Pareto que representam um compromisso entre os critrios considerados.
As rvores da fronteira de Pareto foram validadas estatisticamente utilizando
o teste SH. Os resultados mostraram que o PhyloMOEA encontrou um nmero
de solues intermedirias que so consistentes com as solues obtidas por anlises de mxima parcimnia e mxima verossimilhana realizados separadamente.
Alm disso, os graus de suporte dos clados pertencentes s rvores encontradas pelo
PhyloMOEA foram comparadas com a probabilidade posterior dos clados calculados pelo programa Mr.Bayes aplicados aos quatro bancos de teste. Os resultados
indicaram que h uma relao entre ambos os valores para vrios grupos de clados.
Em resumo, o PhyloMOEA capaz de encontrar uma diversidade de solues
intermedirias que so estatisticamente to boas quanto as melhores solues de
mxima parcimnia e mxima verossimilhana. Tais solues apresentam um compromisso entre os dois objetivos.
Abstract
The phylogeny reconstruction problem consists of determining the evolutionary

relationships (usually represented as a tree) among species. This is a very complex
problem since the tree search space is huge. Several phylogenetic reconstruction
methods have been proposed.
Many of them denes an optimality criterion for
evaluation of possible solutions.
However, dierent criteria may lead to distinct
phylogenies, which often conict with each other. In this context, a multi-objective
approach for phylogeny reconstruction can be useful since it could produce a set
of optimal trees according to mdicultultiple criteria.
In this thesis, a multi-objective evolutionary algorithm for phylogenetic reconstruction, called PhyloMOEA, is proposed. PhyloMOEA uses the parsimony
and likelihood criteria, which are two of the most used phylogenetic reconstruction methods. PhyloMOEA was tested using four datasets of nucleotide sequences
found in the literature. For each dataset, the proposed algorithm found a Pareto
front representing a trade-o between the used criteria.
Trees in the Pareto front were statistically validated using the SH-test, which
has shown that a number of intermediate solutions from PhyloMOEA are consistent
with solutions found by phylogenetic methods using one criterion. Moreover, clade
support values from trees found by PhyloMOEA was compared to clade posterior
probabilities obtained by Mr.Bayes. Results indicate a correlation between these
probabilities for several clades.
In summary, PhyloMOEA is able to nd diverse intermediate solutions, which
are not statistically worse than the best solutions for the maximum parsimony
and maximum likelihood criteria.
trade-o between these criteria.
Moreover, intermediate solutions represent a
Sumrio
Lista de Figuras
vi
Lista de Tabelas
viii
Lista de Abreviaturas
ix
Lista de Smbolos
xi
Introduo
Reconstruo logentica
2.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Seqncias e grafos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
Reconstruo logentica . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.4
Mxima parcimnia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.4.1
Estratgias de busca da rvore tima . . . . . . . . . . . . . . . . .
18
2.4.2
Heursticas para busca da rvore de mxima parcimnia
. . . . . .
22
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.5
Mxima verossimilhana
. . . . . . . . . . .
24
. . . . . . . . . . . . .
27
Heursticas para busca da rvore de mxima verossimilhana . . . .
30
2.6
Comparao de mtodos de inferncia logentica . . . . . . . . . . . . . .
32
2.7
Avaliao de clados e rvores alternativas . . . . . . . . . . . . . . . . . . .
34
2.7.1
Anlise de
34
2.7.2
O teste de Shimodaira-Hasegawa
2.7.3
Inferncia Bayesiana
2.8
2.5.1
Modelos de substituio de seqncias de DNA
2.5.2
Clculo de verossimilhana para uma rvore
2.5.3
bootstrap
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
36
. . . . . . . . . . . . . . . . . . . . . . . . . .
37
Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
Algoritmos evolutivos aplicados logenia
41
3.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.2
Computao evolutiva
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.3
Algoritmos genticos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.4
3.5
3.3.1
Representao das solues
. . . . . . . . . . . . . . . . . . . . . .
46
3.3.2
Denio da populao inicial . . . . . . . . . . . . . . . . . . . . .
47
3.3.3
Operador de seleo
. . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.3.4
Operador de recombinao . . . . . . . . . . . . . . . . . . . . . . .
49
3.3.5
Operador de mutao . . . . . . . . . . . . . . . . . . . . . . . . . .
50
3.3.6
Exemplo do uso de um AG . . . . . . . . . . . . . . . . . . . . . . .
51
3.3.7
Diferenas entre os AGs e as tcnicas de otimizao tradicionais
. .
53
. . . . . . . . . . . . . . . . . .
55
Algoritmos evolutivos aplicados a logenia

3.4.1
Aplicao de AEs com o critrio de mxima verossimilhana
. . . .
55
3.4.2
Aplicao de AEs com o critrio de mxima parcimnia . . . . . . .
60
61
AEs para otimizao multi-objetivo
63
4.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.2
Otimizao multi-objetivo
. . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.3
4.4
4.2.1
Formulao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.2.2
Solues Pareto-timas . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.2.3
Metas em otimizao multi-objetivo . . . . . . . . . . . . . . . . . .
66
4.2.4
Diferenas com a otimizao de objetivos simples
. . . . . . . . . .
66
Tcnicas tradicionais para MOOP . . . . . . . . . . . . . . . . . . . . . . .
67
4.3.1
Somatrio de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
4.3.2
Mtodo de restries
4.3.3
Programao por metas
4.3.4
Vantagens e desvantagens das tcnicas tradicionais
. . . . . . . . . . . . . . . . . . . . . . . . .
68
. . . . . . . . . . . . . . . . . . . . . . . .
69
. . . . . . . . .
71
. . . . . . . . . . . . . .
71
Algoritmo NSGA-II . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
AEs para problemas de otimizao multi-objetivo

4.4.1
4.5
Abordagens multi-objetivo aplicados em logenia
. . . . . . . . . . . . . .
76
4.6
78
MOEA para o problema de logenia
79
5.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.2
PhyloMOEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.2.1
Representao de solues
. . . . . . . . . . . . . . . . . . . . . . .
80
5.2.2
Funes de aptido . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
5.2.3
Gerao de solues iniciais
. . . . . . . . . . . . . . . . . . . . . .
86
5.2.4
Operadores de recombinao e mutao . . . . . . . . . . . . . . . .
86
ii
5.2.5
5.3
Otimizao dos comprimentos dos ramos . . . . . . . . . . . . . . .
87
90
Experimentos e resultados
91
6.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6.2
Conjuntos de seqncias
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6.3
Condies iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
6.4
Resultados das execues do PhyloMOEA
94
6.4.1
6.5
. . . . . . . . . . . . . . . . . .
Testes de rvores alternativas e clados
Incorporao da variao de taxas entre stios
. . . . . . . . . . . . . . . .
95
. . . . . . . . . . . . . . . . 101
6.5.1
Resultados das execues do PhyloMOEA utilizando ASRV
. . . . 104
6.5.2
Testes de rvores alternativas para as solues do PhyloMOEA considerando ASRV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.6
Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Concluses e trabalhos futuros
113
Referncias Bibliogrcas
119
iii
iv
Lista de Figuras
2.1
Exemplos de seqncias de DNA e protenas. . . . . . . . . . . . . . . . . .
2.2
Exemplos de grafos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.3
Exemplos de rvores com raiz. . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.4
Uma rvore logentica para um grupo de primatas. . . . . . . . . . . . . .
11
2.5
As 7 possveis rvores geradas da rvore sem raiz de 5 seqncias.
. . . . .
12
2.6
Aplicao do algoritmo de Fitch para um caracter. . . . . . . . . . . . . . .
17
2.7
Exemplo do mtodo
. . . . . . . . . . . . . . . . . . . .
19
2.8
Exemplo da aplicao do mtodo NNI.
. . . . . . . . . . . . . . . . . . . .
20
2.9
Exemplo da aplicao do mtodo SPR. . . . . . . . . . . . . . . . . . . . .
20
2.10 Exemplo do mtodo TBR. . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.11 rvore para o exemplo do clculo da verossimilhana. . . . . . . . . . . . .
28
2.12 Diagrama da anlise de
. . . . . . . . . . . . . . . . . . . . . . . .
35
3.1
Operador de Recombinao de um ponto. . . . . . . . . . . . . . . . . . . .
49
3.2
Superfcie suavizada da funo
3.3
Indivduos distribudos sobre a superfcie da funo
3.4
stepwise addition
bootstrap
f (x, y)
. . . . . . .
51
. . . . . . . . .
53
Grco da aptido calculada em relao as geraes.
. . . . . . . . . . . .
54
3.5
Operador de recombinao implementado no GAML.
. . . . . . . . . . . .
56
3.6
Exemplo do consenso por poda para duas rvores. . . . . . . . . . . . . . .
58
3.7
Operador de recombinao do METAPIGA.
58
3.8
Algoritmo para otimizao de comprimentos de ramos de GARLI
. . . . .
60
4.1
Exemplo do preo-desempenho . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.2
Diferentes distribuies de solues na fronteira de Pareto.
. . . . . . . . .
66
4.3
Mtodo de restries
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4.4
Mtodo da programao de metas lexicogrcas. . . . . . . . . . . . . . . .
70
4.5
Ordenao por dominncia.
75
(Haupt e Haupt, 1998).
f (x, y).
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
4.6
Esquema do modelo NSGA-II. . . . . . . . . . . . . . . . . . . . . . . . . .
77
5.1
Ilustrao do funcionamento do PhyloMOEA.
80
5.2
Representao interna empregada pelo PhyloMOEA para uma rvore sem

raiz.
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
5.3
Algoritmo de Fitch para rvore sem raiz. . . . . . . . . . . . . . . . . . . .
82
5.4
Clculo de verossimilhana em rvores com raiz e sem raiz. . . . . . . . . .
83
5.5
Operador de recombinao do PhyloMOEA.
. . . . . . . . . . . . . . . . .
87
5.6
Otimizao de dois comprimentos de ramo. . . . . . . . . . . . . . . . . . .
88
6.1
Solues Pareto-timas do banco
6.2
6.3
6.4
6.5
Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes
rbcL_55. . . .
mtDN A_186.
RDP II _218.
ZILLA_500.
para as Solues Pareto-timas do banco

6.6
6.9
. . . . . . . . . . . . . . .
95
. . . . . . . . . . . . . . .
96
. . . . . . . . . . . . . . .
96
rbcL_55.
. . . . . . . . . . . . . 102
mtDN A_186. .
. . . . . . . . . . 102

6.8
95

6.7
. . . . . . . . . . . . . . .
RDP II _218.
. . . . . . . . . . . 102
ZILLA_500.
rbcL_55. . . . . . . .
mtDN A_186. . . . .
RDP II _218. . . . .
ZILLA_500. . . . .
. . . . . . . . . . . 102
. . . . . . . . . . . 105
6.10 Solues Pareto-timas do banco

. . . . . . . . . . . 105
. . . . . . . . . . . 105
. . . . . . . . . . . 105
6.13 Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes

rbcL_55.
. . . . . . . . . . . . . 110

mtDN A_186. .
. . . . . . . . . . 110

RDP II _218.
. . . . . . . . . . . 110

vi
ZILLA_500.
. . . . . . . . . . . 110
Lista de Tabelas
2.1
Nmero de rvores possveis sem raiz e com raiz para 2 a 10 espcies.
2.2
Principais mtodos para construo de rvores logenticas.
3.1
Tabela de converso de parmetros contnuos para binrio (Haupt e Haupt,

1998).
. . .
13
. . . . . . . .
15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.2
Populao inicial do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.3
Segunda gerao do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.4
Dcima gerao do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.1
Diferentes modelos de MOEAs.
73
6.1
Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo

NONA e RAxML-V.
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2
Parmetros do PhyloMOEA para os experimentos.
6.3
Resumo dos resultados das execues do PhyloMOEA.
. . . . . . . . . . .
94
6.4
Resumo do nmero de solues encontradas nas execues do PhyloMOEA.
95
6.5
Resultados do teste SH para as Solues Pareto-timas. . . . . . . . . . . .
97
6.6
Resultados do teste SH para as Solues Finais.
97
6.7
Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues

Pareto-timas do banco
6.8
. . . . . . . . . . . . . . .
93
. . . . . . . . . . . . . . . . . . . . . . . 100

Finais do banco
6.9
rbcL_55.
. . . . . . . . . . . . .
93
rbcL_55.
. . . . . . . . . . . . . . . . . . . . . . . . . . . 100

mtDN A_186.
. . . . . . . . . . . . . . . . . . . . 100
6.10 Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues

Finais do banco
mtDN A_186.
. . . . . . . . . . . . . . . . . . . . . . . . 100

RDP II _218.
vii
. . . . . . . . . . . . . . . . . . . . 101

Finais do banco
RDP II _218.
. . . . . . . . . . . . . . . . . . . . . . . . . 101

ZILLA_500. .
. . . . . . . . . . . . . . . . . . . . 101

Finais do banco
ZILLA_500.
. . . . . . . . . . . . . . . . . . . . . . . . . 101
6.15 Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo

NONA e RAxML-V+PHYML (considerando o ASRV). . . . . . . . . . . . 103
6.16 Parmetros do modelo HKY85+ para os experimentos.
. . . . . . . . . . 103
6.17 Resumo dos resultados das execues do PhyloMOEA considerando ASRV. 104
6.18 Resumo do nmero de solues encontradas nas execues do PhyloMOEA
considerando ASRV.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.19 Resultados do teste SH para as Solues Pareto-timas fornecidas pelo

PhyloMOEA considerando ASRV. . . . . . . . . . . . . . . . . . . . . . . . 106
6.20 Resultados do teste SH para as Solues Finais fornecidas pelo PhyloMOEA
considerando ASRV.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.21 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes

rbcL_55.
. . . . . . . . . . . . . 107

para as Solues Finais do banco
rbcL_55.
. . . . . . . . . . . . . . . . . . 108

mtDN A_186. .
. . . . . . . . . . 108

mtDN A_186.
. . . . . . . . . . . . . . . 108

RDP II _218.
. . . . . . . . . . . 108

RDP II _218.
. . . . . . . . . . . . . . . 109

ZILLA_500.
. . . . . . . . . . . 109

ZILLA_500.
viii
. . . . . . . . . . . . . . . 109
Lista de Abreviaturas
AE
Algoritmo Evolutivo
AG
Algoritmo Gentico
ASRV
(do ingls
DNA
Acido dexoxiribonucleico
GTR
Modelo de substituio geral reversvel no

tempo
Model)
HYK85
Among Site Rate Variation
(do
ingls
General Time-Reversible
Modelo de substituio de DNA (Hasegawa et

al., 1985)
MCMC
Mtodo de Monte Carlo baseado cadeias de

Markov
MOEA
Algoritmo evolutivo multi-objetivo (do ingls
MOOP
Problema de otimizao multi-objetivo (do in-
Multi-Objective Evolutionary Algorith

Multi-objective Optimization Problem
gls
NJ
Mtodo Neighboor Joining
NNI
Troca dos vizinhos mais prximos (do ingls
Nearest Neighboor Interchange

Elitist Non-Dominated Sorting Genetic Algorithm II
)
NSGA-II
ix
SPR
TBR
Poda e insero de subrvore (do ingls
tree Prunning and Regrafting
Bisseo e reconexo de rvore (do ingls
Bisection and Reconnection
SubTree
Lista de Smbolos
G(V, E)
Grafo
conjunto de ramos
espcies
Nmero de stios de cada seqncias do conjunto de seqncias
P ar( )
P arj
Cvj ,uj
Valor de parcimnia para uma rvore

Valor de parcimnia para o stio
Custo de mudar do estado
no stio
e o
Conjunto de seqncias (DNA o proteinas) de
n
Nsit
descrito pelo conjunto de ns
vj
para o estado
uj
Matriz de taxas instantnea para um modelo

de substituio de DNA
Freqncia do estado
dos
Px,y (t)
no conjunto de da-
D
x
Probabilidade de mudar do estado

estado
L()
= {, B, M}
no tempo
Verossimilhana do modelo
Modelo evolutivo, onde onde

gia da rvore,
de ramos de
para o
uma topolo-
o conjunto de comprimento
M o modelo de substituio
de seqncias.
Lj
LEj
Lrj (rj )
Verossimilhana no stio
Verossimilhana escalonada no stio
Verossimilhana condicional no stio

brvore cuja raiz o n
xi
da su-
LEjr (rj )
Verossimilhana condicional escalonada no stio
p(i )
da subrvore cuja raiz o n
O valor
para uma topologia
determinado
pelo teste SH
P(i , |D)
Pj
x = (x1 , . . . , xNvar )
f (x) = [f1 (x), . . . , fNobj (x)]
Sf act

Probabilidade posterior de
Populao do AG na gerao
Vetor de
Nvar
dado
variveis de deciso
Vetor funes objetivo

Espao de busca de solues fatveis
Operador de dominncia de Pareto
xii
Captulo
1
Introduo
A biologia molecular uma cincia que apresentou avanos muito signicativos nas ltimas
dcadas. Os bilogos freqentemente trabalham com uma grande quantidade de informao gerada a partir de experimentos em laboratrio. Dada a necessidade de manipular essa
informao, surgiu a bioinformtica, que aplica tcnicas computacionais, matemticas e
estatsticas para tratar os problemas da biologia molecular.
Um dos principais problemas nesta rea a inferncia logentica (Setubal e Meidanis,
1997). Esse problema consiste em determinar, empregando um conjunto de dados moleculares ou morfolgicos, as relaes evolutivas de um conjunto de espcies. Tais relaes
evolutivas so apresentadas usualmente em uma forma de rvore, conhecida como rvore
logentica.
Assim, o objetivo principal da inferncia logentica determinar a rvore que reete
satisfatoriamente a histria evolutiva das espcies consideradas (Felsenstein, 2004). Este
problema relevante tanto do ponto de vista biolgico quanto do ponto de vista computacional. Dado que no se possui informaes sucientes a respeito as espcies extintas,
deve-se considerar cada rvore logentica apenas como uma hiptese possvel. Encontrar
a melhor rvore logentica (ou rvore verdadeira) um problema muito difcil devido ao
nmero de rvores a serem avaliados crescer muito rapidamente conforme ao nmero de
espcies estudadas aumenta (Felsenstein, 2004).
Nesse contexto, uma srie de mtodos de inferncia logentica tm sido propostos
na literatura (Felsenstein, 2004; Swoord et al., 1996). Alguns mtodos transformam a
informao molecular em matrizes de distncia para, nalmente, empregar algum algoritmo de agrupamento que resulta em uma rvore. Outros mtodos denem um critrio
CAPTULO 1.
INTRODUO
de otimalidade que permita avaliar cada rvore possvel para encontrar a soluo tima
conforme ao critrio denido. Dois dos principais mtodos de reconstruo logentica
que empregam critrio de otimalidade so a mxima parcimnia (Fitch, 1972) e a mxima
verossimilhana (Felsenstein, 1981a).
O mtodo de mxima parcimnia avalia cada rvore conforme ao nmero de mudanas
de estado requeridos pela sua topologia (Swoord et al., 1996). Dessa forma, procura-se
pela rvore (denominada como rvore de mxima parcimnia) que minimize o nmero
total de tais mudanas. Embora a parcimnia seja um critrio simples e muito utilizado
pelos pesquisadores, h muita polmica na comunidade em relao a sua validade.
A mxima verossimilhana procura a rvore que maximize a probabilidade de os dados
moleculares adequarem-se a um determinado modelo de evoluo.
Tal modelo possui,
basicamente, uma topologia de rvore, comprimentos dos ramos da rvore e parmetros

do modelo de substituio de seqncias escolhido.
Uma dos maiores problemas deste
mtodo o grande nmero de parmetros a serem estimados e o tempo computacional

necessrio para otimizar a verossimilhana de apenas uma topologia (Felsenstein, 2004).
Vrias pesquisas (Gogarten e Lewis, 2002; Huelsenbeck, 1995; Katoh et al., 2001;
Russo et al., 1996; Saitou e Imanishi, 1989; Sourdis e Nei, 1988; Tateno et al., 1994;
Zwickl, 2006) mostram que, a escolha do mtodo de inferncia empregado, inuencia na
rvore logentica recuperada.
Em outras palavras, a aplicao de diferentes mtodos
de reconstruo leva a recuperao de rvores que possuem partes conitantes entre sim.
Como os resultados da inferncia logentica so muito variveis e dependentes das condies do experimento, no existe uma consenso a respeito de qual o melhor mtodo a
ser empregado.
Uma diculdade inerente aos mtodos de otimalidade procurar pela rvore tima
no espao de busca que cresce rapidamente. Os mtodos que garantem a soluo tima
podem ser aplicados apenas para rvores com um nmero de espcies reduzido.
Para
conjuntos de dados maiores, apenas mtodos de busca heurstica podem ser utilizados.
Os mtodos heursticos para busca da melhor rvore comeam, basicamente, por determinar uma rvore inicial que represente uma boa aproximao a soluo tima (Swoord
et al., 1996).
Aps isso, so aplicadas vrias modicaes topolgicas para melhorar a
soluo inicial. Tais passos so repetidos iterativamente at que no seja possvel atingir
uma melhor soluo. Este procedimento geral implementado na maioria dos principais
programas de inferncia logentica como PAUP* (Swoord, 2000), PHYLIP (Felsenstein,
2000b), RAxML (Stamatakis, 2005), NONA (Golobo, 1999b), entre outros.
Um outro grupo de heursticas aplicadas em logenia incluem os algoritmos evolutivos (AEs).
Os AEs so tcnicas de busca e otimizao que emulam o comportamento
dos princpios de evoluo, gentica e seleo natural. Uma srie de estudos envolvendo
aplicaes dos AEs em problemas de reconstruo logentica tm sido desenvolvidos,
3
mostrando resultados relevantes (Gogarten e Lewis, 2002; Katoh et al., 2001; Lemmon e
Milinkovitch, 2002a; Lewis, 1998; Matsuda, 1996; Zwickl, 2006). Em tais estudos, mostrase os benefcios de aplicar AEs empregando um determinado critrio de otimalidade (como
parcimnia, verossimilhana ou distncia mnima). Os resultados mostraram um melhor
desempenho tanto em tempo de computao quanto na qualidade das solues encontradas pelos AEs em comparao com as solues encontradas por programas tradicionais
como PHYLIP e PAUP*.
Alm disso, esses trabalhos formularam novas formas de re-
presentao e modicao topolgica de rvores (Gogarten e Lewis, 2002; Lemmon e

Milinkovitch, 2002a; Matsuda, 1996) e procedimentos mais ecientes para a otimizao
de parmetros envolvidos no problema (Lewis, 1998; Zwickl, 2006).
Os AEs so tambm aplicados em problemas de otimizao que possuem vrias funes
objetivo (Coello et al., 2002; Deb, 2001).
Em tais problemas, em geral, os objetivos a
serem otimizados so conitantes entre si, ou seja, se uma soluo melhor para um
objetivo, piorado outro objetivo.
Uma exemplo tpico de objetivos conitantes a
relao custo/desempenho: enquanto necessrio diminuir custos, procura-se tambm

aumentar o desempenho em determinados processos.
Porm, a diminuio de custos
afeta negativamente no desempenho enquanto o ganho de desempenho implica em maiores

custos. Isso signica que, para tais problemas, no exista apenas uma soluo tima, mais
um grupo de solues que representam um compromisso para os objetivos do problema.
Recentemente, no trabalho de Handl et al. (2006), so discutidas as possveis aplicaes
de abordagens multi-objetivo para problemas de bioinformtica, sendo que vrios desses
problemas so de natureza multi-objetivo. Assim, uma abordagem multi-objetivo do problema de logenia uma contribuio relavante, pois as rvores encontradas resultariam
consistentes para os critrios considerados.
A principal motivao para a elaborao da presente tese a formulao da inferncia
logentica como problema de otimizao multi-objetivo. Esta proposta baseia-se no fato
de que diversos mtodos de inferncia logentica produzem rvores signicativamente
diferentes a partir dos mesmos dados.
Buscando lidar de forma sistemtica com essas
diferenas, prope-se a formulao do problema de logenia considerando vrios critrios

de mais de um mtodo de inferncia para serem otimizados simultaneamente. A soluo
de tal problema seria um conjunto de rvores logentica que representam um consenso
entre os critrios de otimalidade.
Os critrios considerados neste trabalho so os de mxima parcimnia e mxima verossimilhana. Ambos os critrios so baseados em princpios muito diferentes. A parcimnia
um critrio simples, emprico e possui as suas origens em idias loscas (princpio de
parcimnia). Por outro lado, a verossimilhana um critrio complexo e com bases estatsticas muito slidas.
Dentre as tcnicas existentes na literatura para resolver problemas multi-objetivo,
destacam-se os AEs (Coello et al., 2002; Deb, 2001).
O AE multi-objetivo desenvol-
CAPTULO 1.
INTRODUO
vido nesta pesquisa, denominado PhyloMOEA, permite resolver o problema de inferncia

multi-objetivo conforme proposto. O PhyloMOEA determina o conjunto de rvores correspondente s solues Pareto-timas. Tais rvores representam um consenso entre os
critrios de parcimnia e verossimilhana.
Deve-se notar que, tanto os principais programas de inferncia logentica quanto as
abordagens de AEs pesquisadas na literatura empregam apenas um critrio para avaliar as
rvores. Nesse sentido, a abordagem apresentada nesta tese representa uma contribuio
na literatura da rea.
O PhyloMOEA foi testado com 4 bancos de seqncias de DNA que so comummente
empregados na literatura para medir o desempenho de diversos mtodos de inferncia
logentica. importante destacar que, os resultados fornecidos pelo PhyloMOEA no
so diretamente comparveis a outros programas, uma vez que esses consideram apenas
um critrio (parcimnia ou verossimilhana). Assim, para avaliar o conjunto de solues
fornecidas pelo PhyloMOEA, foram utilizados o teste de Shimodaira e Hasegawa (1999)
(SH) e o mtodo de inferncia Bayesiana (Huelsenbeck e Ronquist, 2001).
O teste SH serve para determinar, a partir de um conjunto solues, aquelas rvores
que so estatisticamente signicativas. Nos testes, vericou-se que, parte das solues fornecidas pelo PhyloMOEA so signicativas tanto para os critrios de parcimnia quanto
para o critrio de verossimilhana, mostrando que existe uma diversidade de logenias
que so consistentes com mais de um critrio e que tais rvores podem ser obtidas simultaneamente por um AE multi-objetivo.
Por outro lado, o mtodo inferncia Bayesiana permite calcular, entre outras coisas,
as probabilidades tanto das rvores inferidas quanto das componentes (clados) de cada
rvore. Assim, foi possvel determinar se a probabilidade de cada clado consistente com
o grau de suporte obtida a partir do conjunto Pareto-timo fornecido pelo PhyloMOEA.
Os resultados mostraram que o PhyloMOEA foi consistente com a inferncia Bayesiana
para uma parte signicativa do clados.
Uma outra contribuio importante deste trabalho a denio de uma metodologia
de avaliao de logenias com mais de um critrio de otimalidade combinando o teste
SH com a inferncia Bayesiana.
Em resumo, pode-se dizer que a proposta descrita no
decorrer da presente tese abre uma nova linha de pesquisa que amplia o espectro da
aplicao de abordagens multi-objetivo, investiga mtodos de reconstruo logentica
como AEs, tcnicas de anlise de logenias por mltiplos critrios, bem como a relevncia
do PhyloMOEA para diferentes bases de dados da biologia molecular.
Esta tese est organizada em sete Captulos.
O Captulo 2 apresenta os principais
conceitos da rea de inferncia logentica, considerando principalmente os mtodos de

mxima parcimnia e mxima verossimilhana.
O Captulo 3 introduz os AEs, desta-
cando os algoritmos genticos (AGs) e a aplicao de AEs no problema de logenia. O
5
Captulo 4 detalha noes bsicas dos problemas de otimizao multi-objetivo e a aplicao dos AEs em tais problemas. O Captulo 5 apresenta detalhadamente o PhyloMOEA,
o modelo proposto de AE multi-objetivo para o problema de reconstruo logentica. O
Captulo 6 mostra os resultados da aplicao do modelo proposto em bancos de seqncias
de teste. Finalmente, o Captulo 7 apresenta as principais concluses trabalho e sugestes
de pesquisas futuras.
CAPTULO 1.
INTRODUO
Captulo
2
Reconstruo logentica
2.1 Introduo
A Filogenia uma rea de pesquisa da biologia que estuda as relaes evolutivas entre
os organismos (espcies). Segundo Graur e Li (2000), os estudos logenticos apontam a
trs objetivos:
A correta reconstruo das semelhanas genealgicas entre as entidades biolgicas;
A estimao do perodo de divergncia entre organismos, ou seja, a determinao do

tempo de formao dessas espcies aps compartilharem um antepassado comum;
O detalhamento da seqncia de eventos entre as diferentes lineagens evolutivas.
Para explicar os mecanismos de evoluo das espcies, foram propostas vrias teorias.
Dentre elas, destacam-se as teorias de Lamarck, Darwin e a Teoria Sinttica da Evoluo
(ou Neodarwinismo).
Em 1.809, Joseph Lamarck publicou o seu livro Filosoa Zoolgica".
Nele, pos-
tulou que os padres de semelhanas entre os organismos so devidos a modicaes

evolutivas (Ayala, 1979).
Essas modicaes respondem necessidade dos organismos
adaptarem-se s novas condies do meio em que vivem.
Assim, uma espcie adquiria
caractersticas novas, as quais seriam herdadas por os seus descendentes.

Lamarck sugere que as espcies compartilham relaes de
ancestralidade
teoria foi muito ousada para o seu tempo e terminou sendo esquecida.
A teoria de
. Contudo, esta
CAPTULO 2.
RECONSTRUO FILOGENTICA
O ingls Charles Darwin retomou o interesse pela evoluo como conseqncia das suas
viagens ao redor do mundo a bordo do navio H.M.S.
Beagle
. No decorrer da sua viagem,
Darwin coletou vrios exemplares de animais, plantas e fsseis e fez observaes sobre as
diferenas encontradas entre indivduos da mesma espcie. A comparao de fsseis de
diferentes camadas geolgicas revelou a Darwin que as espcies estavam modicando-se
ao longo do tempo e que algumas caractersticas de espcies extintas so conservadas nas
atuais. Alm disso, Darwin observou que os fsseis de camadas geolgicas mais recentes
apresentam uma maior semelhana com as espcies vivas.
Uma outra questo de interesse para Darwin estava relacionada com o crescimento
populacional das espcies. Por um lado, a grande capacidade de reproduo garantia um
aumento de nmero de indivduos, segundo uma progresso geomtrica. No obstante, os
meios de subsistncia seguiam apenas uma progresso aritmtica. Na prtica, o aumento
de tamanho da populao era menor que o predito teoricamente. Darwin concluiu ento
que deveria existir um mtodo de
seleo
de indivduos.
Este mtodo postula que, os
indivduos com caractersticas favorveis teriam uma maior descendncia em detrimento

de indivduos com caractersticas menos favorveis. Assim, com o tempo, essas caractersticas seriam cada vez mais diferenciadas, constituindo novas espcies. Como produto
das suas pesquisas, Darwin publicou, em 1.859, um dos mais inuentes livros da histria da cincia: A Origem das Espcies", no qual se estabelece que a seleo natural
o mecanismo que determina quais espcies sobrevivem e quais so extintas (Futuyma,
1992).
A seleo natural ainda no explica a variabilidade dentro dos indivduos da mesma
espcie.
Esta questo foi abordada por Mendel, que armou que as diferenas nas ca-
ractersticas fsicas dos organismos, como cor, tamanho, forma eram devidas a fatores
hereditrios que Mendel denominou genes. Os resultados de Mendel foram publicados em
1.867, mas s aps 1.940 uma teoria evolucionista mais consistente foi desenvolvida.
A Teoria Sinttica da Evoluo ou Neodarwinismo (Ridley, 1996) baseia-se nos mecanismos de seleo natural, mutao e recombinao gnica.
Esta teoria postula que
as variaes entre indivduos da mesma espcie devida recombinao de informaes

genticas dos seus progenitores. A recombinao nunca ocorre da mesma forma em descendentes distintos.
Alm disso, no processo de cpia de informaes genticas podem
acontecer mutaes ou erros, produzindo um aumento da variabilidade gentica. Essas

mutaes so geralmente insignicantes e no produzem mudanas perceptveis. Caso as
espcies j estejam adaptadas o suciente ao seu ambiente, algumas mutaes podem ser
indesejveis e, por isso, o mecanismo de seleo natural as elimina.
As teorias descritas anteriormente, permitem reconstruir a histria evolutiva dos organismos vivos mediante relaes ancestral/descendente. Os estudos logenticos clssicos
esto baseados, principalmente, em caractersticas fsicas (morfolgicas), como: tamanho,
cor, nmero de extremidades, etc. Por outro lado, os estudos atuais utilizam informao
2.2.
SEQNCIAS E GRAFOS
proveniente do material gentico (fundamentalmente, seqncias de DNA e protenas).

Desta forma, as relaes entre as espcies so deduzidas a partir de blocos bem conservados no alinhamento das seqncias provenientes das espcies estudadas (Sung, 2002).
As relaes evolutivas entre um grupo de espcies o foco de ateno da rea de logenia. Este problema interessante tanto do ponto de vista biolgico como computacional.
O escopo do presente Captulo apresentar os conceitos bsicos desta rea de pesquisa
que sero empregados no restante do presente trabalho.
Este Captulo est organizado em 8 Sees. A Seo 2.2 introduz conceitos teis sobre
grafos e seqncias, que sero extensivamente empregados no decorrer do trabalho.
Seo 2.3 apresenta a rea de reconstruo logentica. As Sees 2.4 e 2.5 descrevem os
mtodos de reconstruo logentica de mxima parcimnia e mxima verossimilhana,
respectivamente. A Seo 2.6 apresenta uma reviso bibliogrca dos principais estudos
que comparam os diversos mtodos para logenia. A Seo 2.7 descreve os principais testes
de condncia para rvores logenticas.
Finalmente, a Seo 2.7 revisa os principais
pontos apresentados neste Captulo mostrando como eles motivam a pesquisa proposta.
2.2 Seqncias e grafos

Existe uma grande quantidade de dados gerados pelos estudos de biologia molecular.
Grande parte desses dados so apresentados usualmente como seqncias de diversos tipos.
Uma
seqncia s
uma sucesso
s1 s2 s3 s4 . . . sn
de caracteres pertencentes a um
conjunto nito denominado alfabeto (Felsenstein, 2004; Setubal e Meidanis, 1997). Por
exemplo, as seqncias de DNA esto compostas de uma sucesso de nucleotdeos. Existem quatro tipos de nucleotdeos: adenina (A) citocina (C), timina (T) e guanina (G).
Os nucleotdeos de tipo A e G so denominados purinas; enquanto os dos tipos C e T so
denominados pirimidinas.
si de uma seqncia de DNA pode ter quatro

{A, C, T, G}. As seqncias proteicas consistem de uma
Cada posio
estados denidos no alfabeto:
sucesso de aminocidos, os quais podem assumir 20 estados diferentes (Felsenstein, 2004;

Setubal e Meidanis, 1997) . A Figura 2.1 mostra um exemplo de cada tipo de seqncia.
Seqncia de DNA :
Seqncia proteica :
TGCAGGGAC
ARRHASTKL
Figura 2.1: Exemplos de seqncias de DNA e protenas.

Um
grafo
G(V, E), descrito por um con(arestas) E , as quais unem pares de ns.
(Setubal e Meidanis, 1997), denotado por
junto de ns (vrtices)
e um conjunto ramos
A Figura 2.2 mostra exemplos de grafos.

O
grau
de um n denido pelo nmero de arestas que se conectam a tal n. Por
exemplo, na Figura 2.2(a) o grau do n
a 1; enquanto o grau do n e 3.
Um
caminho
10
CAPTULO 2.
c
e
f
e
V = {a, b, c, d, e, f }
E = {(e, a), (e, b), (e, f ), (f, c), f, d)}
V = {a, b, c, d, e, f }
E = {(e, a), (e, b), (e, c), (e, f ), (f, c), f, d)}
(a)
(b)
Figura 2.2: Exemplos de grafos.
(v1 , v2 , . . . , vk ) tal que (vi , vi+1 ) E para 1 i < k . Por exemplo, no

grafo da Figura 2.2(a), (a, e, f, c) o caminho entre os ns a e c. Se existe no mximo um
uma sucesso de ns
caminho entre cada par de ns, o grafo dito
acclico
. Assim, o grafo da Figura 2.2(a)
acclico; enquanto o da Figura 2.2(b) cclico dado que

possveis entre
um grafo
Uma
conexo
rvore
1
c.
(e, c)
(e, f, c)
so dois caminhos
Caso exista no mnimo um caminho entre cada par de ns, tem-se
(ambos os grafos mostrados na Figura 2.2 so conexos).

um grafo
G(V, E)
acclico e conexo. Algumas rvores podem ter um
n especial denominado raiz que usualmente desenhado no topo da rvore. Exemplos

de rvores com raiz so mostrados na Figura 2.3.
externos
classicados como ns
caso contrrio.
os
{e, f }
(ou
folhas
), se o grau de tais ns 1; e como ns
Na rvore da Figura 2.2(a), os ns
so internos.
Os ns de uma rvore podem ser
{a, b, c, d}
internos
so externos, enquanto
De forma similar, os ramos podem ser externos, se um dos ns
conectados uma folha; ou internos, se ambos os ns que o ramo conecta so internos.

Cada ramo da rvore divide o conjunto de espcies em duas parties. Por exemplo, na
Figura 2.2(a), o ramo
(e, f )
particiona as espcies nos subconjuntos
{a, b}
(a)
(b)
Figura 2.3: Exemplos de rvores com raiz.

1 Neste texto emprega-se tambm o termo
topologia
para referir-se a uma rvore.
{c, d}.
2.3.
11
A presena do n raiz dene relaes ancestral/descendente entre os ns da rvore.
Um n
dito ancestral do n
na Figura 2.3(a), o n
v,
se
ancestral de
est no caminho entre a raiz e
a,
pois o n
est no caminho
observar que o n raiz ancestral dos demais ns da rvore. Um
u. Por exemplo,
(r, e, a). Deve-se
clado
um grupo de
ns representando espcies com um ancestral comum. Por exemplo, na Figura 2.3(a), a

subrvore enraizada em
descendentes.
Uma rvore dita
dene um clado, onde
binria
o ancestral e
so as espcies
quando o grau dos ns no mximo 3. Se o grau dos ns 1
nas folhas, 2 para a raiz (se houver) e 3 para os demais ns internos, a rvore
binria
estritamente
. A Figuras 2.2(a) e 2.3(a) mostram rvores estritamente binrias no enraizadas e
enraizadas respectivamente. As rvores estritamente binrias so a forma mais utilizada

de representar solues ao problema de logenia.
As prximas Sees descrevem este
problema e os principais aspectos considerados na construo de solues para logenia.
2.3 Reconstruo logentica

Uma logenia comummente representada por uma rvore de grafo denominada
logentica
rvore
, que reete as relaes genticas entre um conjunto de espcies. Usualmente,
as rvores logenticas so rvores estritamente binrias.

Em uma rvore logentica, as folhas representam espcies. Todas as folhas so rotuladas, seja com o nome de uma espcie ou com caracteres provenientes da sua seqncia.
A Figura 2.4 ilustra uma rvore logentica mostrando a relao entre os humanos e
os primatas.
hipotticos
As folhas representam as
espcies atuais
e os ns internos, os ancestrais
ou espcies extintas.
gibo
orangotango
gorila
humano
chimpanz
Figura 2.4: Uma rvore logentica para um grupo de primatas (Page e Holmes, 1998).
Um dos principais problemas associados construo de uma rvore logentica

que geralmente no se possui informao suciente sobre as espcies ancestrais extintas.
12
CAPTULO 2.
Em geral, constri-se uma rvore logentica apenas a partir dos dados das espcies
atualmente existentes. Desta forma, as rvores construdas so sempre hipotticas.
importante salientar que as rvores logenticas podem ter ou no raiz.
A raiz
da rvore indica o ancestral comum da qual todas as demais espcies descendem e, portanto, implica uma direo de tempo de evoluo.
da raiz, mais antiga esta .
Quanto mais prxima uma espcie
Desta forma, as rvores com raiz mostram relaes ances-
tral/descendente das espcies.
Por exemplo, a rvore da Figura 2.4 indica que o ser
humano e o chimpanz tiveram um antepassado comum exclusivo deles.

Em contrapartida, as rvores sem raiz no indicam relaes de ancestralidade. No
obstante, possvel inserir uma raiz nessas rvores por meio de uma espcie, chamada de
outgroup
, que distante das espcies de interesse (Swoord et al., 1996). Dependendo do
lugar onde a raiz inserida, so geradas diferentes rvores enraizadas, conforme ilustrado
na Figura 2.5. Observe que uma raiz e duas arestas adjacentes devem substituir uma das
arestas da rvore sem raiz. Para a rvore da Figura 2.5, h 7 passibilidades de insero
de raiz.
a
1
5
6
3
7
rvore 1
rvore 2
rvore 3
r
rvore 5
bc
rvore 4
r
rvore 6
b e c
rvore 7
Figura 2.5: As 7 possveis rvores geradas da rvore sem raiz de 5 seqncias. A rvore
i (i = 1, . . . , 7)
Holmes, 1998).
resulta da insero da raiz no lugar do ramo
(Page e
2.3.
13
O nmero de rvores logenticas possveis cresce com nmero de folhas representando

as espcies. O total de rvores com
n3
folhas dado por (Felsenstein, 2004):
n
Y
(2i 5) = 1 3 5 . . . (2n 5).
(2.1)
i=3
A Equao 2.1 pode ser explicada intuitivamente da seguinte forma:
Para
n = 3,
existe apenas uma possvel rvore sem raiz com 3 ramos internos. Uma
rvore (estritamente binria) sem raiz de
Todas as rvores sem raiz, para

em cada ramo da rvore de
n = 4,
folhas possui
2n 3
ramos;
podem ser obtidas inserindo a quarta folha
folhas. Assim, para
n = 4,
temos
rvores sem raiz
possveis;
Em geral, para saber o nmero total de rvores sem raiz de

a folha
em cada um dos
2(n 1) 3 = 2n 5
n espcies,
ramos das rvores de
basta inserir
n1
folhas.
Desta forma, obtida a Equao 2.1.
Para obter o nmero total de rvores com raiz de

um dos
2n 3
n folhas basta inserir a raiz em cada
ramos das rvores sem raiz. Esse nmero dado por:
n
Y
(2n 3) (2i 5).
(2.2)
i=3
A Equao 2.2 tambm implica que o nmero de rvores sem raiz de
ao nmero de rvores com raiz para
n1
folhas igual
folhas.
Tabela 2.1: Nmero de rvores possveis sem raiz e com raiz para 2 a 10 espcies (Page
e Holmes, 1998).
2
3
4
5
6
7
8
9
10
Nmero de rvores Nmero de rvore

sem raiz
com raiz
1
1
1
3
3
15
15
105
105
945
945
10.395
10.395
135.135
135.135
2.027.025
2.027.025
34.459.425
A Tabela 2.1 mostra o nmero total de rvores com raiz e sem raiz para
variando
de 2 at 10. O nmero de rvores cresce muito rapidamente com o nmero de espcies.
14
CAPTULO 2.
Devido s rvores logenticas representarem hipteses da histria evolutiva das espcies, a inferncia da rvore que se adequa melhor aos dados obtidos uma tarefa complicada. O grande nmero de rvores possveis a serem analisadas complica mais ainda este
objetivo. Existem vrios mtodos para a inferncia de rvores logenticas, os quais so
classicados de diversas formas na literatura pesquisada (Morrison, 1996; Page e Holmes,
1998; Setubal e Meidanis, 1997; Swoord et al., 1996). Neste trabalho foi adotada a classicao elaborada por Swoord et al. (1996). Segundo essa classicao, os mtodos de
reconstruo logentica podem ser divididos em duas classes: os mtodos
critrios de otimalidade
Mtodos de agrupamento ou algortmicos:
os mtodos baseados em
algortmicos
esses mtodos formam uma srie de agru-
pamentos sucessivos das espcies at chegar a uma rvore.
Nesta categoria esto
includos os mtodos que utilizam agrupamentos por pares tais como o UPGMA (Michener e Sokal, 1957) e o Neighbor Joining (NJ) (Saitou e Nei, 1987). Tais algoritmos
fornecem respostas rpidas dado que no requerem a avaliao de grandes quantidades de possveis solues. Em geral, esses mtodos produzem apenas uma rvore
como resposta;
Mtodos de busca ou de critrio de otimalidade:
esses mtodos avaliam as possveis
rvores segundo algum critrio de otimalidade (descrito por uma

que reita a relao entre os dados e a rvore produzida.
funo objetivo
Portanto, o critrio
de otimalidade utilizado como uma mtrica da qualidade para qualquer rvore,

permitindo comparar diferentes solues alternativas.
Os mtodos baseados em
critrio de otimalidade devem resolver dois tipos de problemas:
Dada uma rvore e um conjunto de dados (espcies), avali-los segundo o

critrio de otimalidade considerado;
Encontrar a rvore, dentro de todas as rvores possveis, que possui a melhor

avaliao.
A utilizao de critrios de otimalidade implica na procura de solues timas dentro

de um espao de busca que cresce rapidamente com o aumento do conjunto de dados.
Desta forma, tal procura custosa computacionalmente e, portanto, so freqentemente
utilizadas uma srie de heursticas para se obter uma soluo razovel. Deve-se salientar
que o uso de heursticas no garante que se encontre a soluo tima.
A Tabela 2.3, baseada no trabalho de Morrison (1996), especica os principais mtodos
de reconstruo logentica.
A mxima parcimnia (Fitch, 1981) e mxima verossimi-
lhana (Felsenstein, 1981a) so dois do mtodos mais empregados em inferncia logentica. Esses critrios so de maior interesse para o presente trabalho e sero apresentados
nas sees seguintes.
2.4.
MXIMA PARCIMNIA
15
Tabela 2.2: Principais mtodos para construo de rvores logenticas. Tabela baseada
em (Morrison, 1996).
Mtodo
UPGMA
Neighbor-joining (NJ)
Referncias
(Michener e Sokal, 1957)
(Saitou e Nei, 1987)
Neighborliness
(Fitch, 1981; Sattath e Tversky, 1977)
Evoluo Mnima
(Edwards e Cavalli-Sforza, 1964)
Parcimnia de Wagner
(Farris, 1970)
Mnimos Quadrados
(Fitch e Margoliash, 1967)
Mxima Parcimnia
(Farris, 1972; Fitch, 1972)
Parcimnia Ponderada
(Farris, 1969; Sanko, 1975)
Compatibilidade
(Quesne, 1969, 1982)
Mxima Verossimilhana (Felsenstein, 1973a,b, 1981a,b)
Invariantes
(Cavender e Felsenstein, 1987; Lake, 1987)
Anlise Espectral
(Hendy e Penny, 1993; Penny et al., 1987)
Inferncia Bayesiana
(Mau e Newton, 1997; Rannala e Yang, 1996)
(Larget e Simon, 1999; Li et al., 2000)
Tipo
agrupamento
agrupamento
agrupamento
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
2.4 Mxima parcimnia

A
mxima parcimnia
(Farris, 1972; Fitch, 1972) um dos mtodos mais empregados na
reconstruo logentica, embora tenha sido preterida mais recentemente por mtodos
mais robustos (Swoord e Sullivan, 2003) como a mxima verossimilhana (Felsenstein,
1981a) ou a inferncia Bayesiana (Huelsenbeck et al., 2001). O objetivo da mxima parcimnia procurar a rvore (ou rvores) cujo nmero total de mudanas evolutivas seja
mnima. Tais mudanas referem-se as diferenas entre os estados dos ns conectados em
cada ramo. A justicativa do mtodo de mxima parcimnia possuem bases loscas:
se existem vrias hipteses que forneam explicaes igualmente vlidas para algum fenmeno, deve-se escolher a mais simples delas. Este princpio conhecido como a navalha
de Occam (Felsenstein, 2004). Assim, na reconstruo logentica, a parcimnia estabelece uma correspondncia entre o nmero de mudanas evolutivas e a complexidade das
hipteses.
Tal relao muito polmica, e vrios pesquisadores defensores de mtodos
estatsticos (de Queiroz e Poe, 2001; Swoord e Sullivan, 2003; Tuey e Steel, 1997) expressam que a conexo entre mudanas evolutivas e complexidade da hiptese muito
fraca.
Seja
um conjunto de seqncias de
espcies e
Nsit
stios (caracteres) para cada
seqncia. A contagem do nmero de mudanas de estado para uma rvore
dada pela
seguinte expresso:
P ar( ) =
Nsit
X
j=1
P arj ,
(2.3)
16
CAPTULO 2.
onde
P arj
representa o valor de parcimnia para o stio
j.
Tal valor calculado pela soma
das diferenas dos estados entre cada par de ns conetados nos ramos de
Assim,
P arj
pode ser calculado por:
P arj =
Cvj ,uj ,
(2.4)
(v,u)E
(v, u) de , vj e uj so os estados no stio j para as

seqncias correspondentes aos ns v e u, respectivamente. Cvj ,uj o custo de mudar do
estado vj para o estado uj no stio j . Pode-se observar das Equaes 2.3 e 2.4 que o valor
de parcimnia P ar( ) calculado para cada stio separadamente, dependendo unicamente
onde
o conjunto de ramos
da topologia da rvore e dos estados dos ns.

Existem uma srie de variantes do critrio de parcimnia (Felsenstein, 2004; Swoord
et al., 1996), sendo uma das mais simples e utilizadas a parcimnia de Fitch (Fitch,
1972; Hartigan, 1973). Em tal critrio, emprega-se um custo unitrio para cada troca de
estado, ou seja;
Cx,y = 1,
x 6= y
se
Cx,y = 0,
caso contrrio. Os estados dos ns folhas,
correspondentes s espcies, so determinados pelas seqncias contidas em
D.
Porm,
para calcular o valor de parcimnia de uma rvore, preciso obter os estados dos ns
internos de forma que
P ar( ) seja minimizada.
O problema da determinao dos estados
internos conhecido como pequeno problema de parcimnia. No caso da parcimnia de

Fitch, esse problema resolvido de forma eciente empregando o algoritmo proposto pelo
mesmo autor.
O algoritmo de Fitch comea determinando um conjunto
n interno
Sk
de estados para cada
da rvore. Tal procedimento realizado mediante um percurso ps-ordem.
Assim, dado um n interno
e seus descendentes
w, Sv
calculado pela seguinte
expresso:
(
Sv =
Su Sw ,
Su Sw ,
se
Su Sw 6=
(2.5)
caso contrrio
Su = {uj } e Sw = {wj }, ou seja,

esto determinados pelo conjunto de dados D . Cada vez que Su Sw 6= , o valor de P arj
incrementado em uma unidade. Uma vez determinados os conjuntos Sk para os ns
Caso os ns
estejam nas folhas das rvores,
internos da rvore, um segundo percurso na rvore, desta vez em pr-ordem, realizado

para determinar os estados de cada n interno. Para a raiz da rvore, pode-se atribuir
qualquer estado do seu conjunto
antecessor
v,
o estado
uj
Sr .
Para os demais ns internos
u com seu correspondente
determinado pela seguinte expresso:
(
uj =
vj , se vj Su
x, tal que x Su ,
caso contrrio.
(2.6)
2.4.
MXIMA PARCIMNIA
17
Assim, mediante o percurso pr-ordem, uma das possveis atribuies de estados que
P arj
stios j ,
determinada.
ferentes
repete-se o algoritmo de Fitch em cada posio obtendo nalmente o
valor mnimo para
P ar( ).
Dado que o clculo de
P arj
minimizam
independente para di-
A Figura 2.6 mostra um exemplo do algoritmo de Fitch: os
conjuntos junto aos ns internos na rvore da esquerda mostram os valores
Sk
obtidos no
percurso ps-ordem; enquanto as duas rvores da direita mostram duas possveis atribuies dos estados internos que minimizam
P arj .
Cada linha que corta um ramo de cada
rvore indica uma diferena entre os estados dos ns conetados a tais ramos. A descrio
detalhada do algoritmo de Fitch mostrado no Algoritmo 1.
{CG}
{ACG}*
{CG}*
{AC}*
G C
G C
Figura 2.6: Aplicao do algoritmo de Fitch para um caracter.
Algoritmo 1: Clculo do valor de parcimnia de Fitch.

Entrada:
1
2
3
4
5
, uma rvore com raiz r

D, um conjunto de dados contendo seqncias de Nsit
Sada: P ar( )
para cada
j = 1 . . . Nsit faa
P arj = 0.
para cada
v
u w
Calcular Sv , conforme a Equao 2.5.
se Su Sw 6= ento P arj = P arj + 1
stios
stio
n interno com lhos e percorrendo em ps-ordem
faa
m
6
7
8
rj = {x|x Sr
para cada
n interno u com ancestral v percorrendo em pr-ordem
Determinar
uj
faa
conforme a Equao 2.6
m
m
Calcular
P ar( )
conforme a Equao 2.3.
Alm do critrio de parcimnia de Fitch, h outras formas de parcimnia como a

de Wagner, Dollo, Camin-Sokal, entre outras (Felsenstein, 2004; Swoord et al., 1996).
Tais variantes diferenciam-se basicamente em como os custos das mudanas de estados
so quanticadas e a forma em que tais mudanas so consideradas (Swoord et al.,
1996). As diversas formas de parcimnia podem ser sintetizadas no modelo de parcimnia
18
CAPTULO 2.
generalizada. Neste modelo, o pequeno problema de parcimnia resolvido empregando

uma abordagem de programao dinmica, proposta por Sanko (Sanko, 1985).
O pequeno problema de parcimnia permite determinar o valor mnimo de
para uma determinada topologia
Porm, encontrar a rvore (ou rvores)
P ars( ) seja mnima no espao de rvores uma tarefa muito complexa.
P ars( )
tal que
Tal problema
conhecido como o grande problema de parcimnia, o qual NP-difcil (Felsenstein, 2004).

Para resolv-lo, podem ser usadas tcnicas exatas para um nmero moderado de espcies
ou tcnicas heursticas nos demais casos. Tais abordagens so tratadas na Seo 2.4.1.
2.4.1 Estratgias de busca da rvore tima

Encontrar a melhor rvore que otimize um determinado critrio um problema bastante
complexo devido ao grande tamanho do espao de busca de possveis rvores. Existem
duas formas de enfrentar tal problema: usando busca exata ou busca heurstica.
As tcnicas de busca exata, no pior caso, procuram a soluo tima em todo o espao
de busca.
Um exemplo desse tipo de busca a busca exaustiva, onde as espcies so
adicionadas uma a uma explorando todas as topologias possveis. Assim, a

adicionada em todas as rvores contendo
i 1 espcies.
i-sima
espcie
Tal procedimento repetido at
que todas as espcies sejam consideradas e, nalmente, a rvore com a melhor topologia
a soluo tima.
Uma outra tcnica, conhecida como
branch and bound
(Hendy e
Penny, 1982) avalia implicitamente todas as topologias do espao de busca, descartando

regies cuja explorao no levem a rvore tima. Uma vantagem dos mtodos exatos
que fornecem a topologia tima, embora essas abordagens sejam adequadas apenas para
conjuntos de dados com poucas espcies. Para outros conjuntos, tais tcnicas requerem
de muito tempo computacional, sendo inviveis em termos prticos (Swoord e Sullivan,
2003).
As tcnicas de busca heurstica, que so de maior interesse no presente trabalho,
comeam com uma rvore inicial no tima, sobre a qual so aplicadas vrias formas de
troca de ramos de forma iterativa buscando melhorar tal soluo. A construo da rvore
inicial pode empregar os seguintes mtodos (Nei e Kumar, 2000; Swoord, 2000):
Adio por passos (
stepwise addition
): comea com uma rvore de 3 espcies. As
demais espcies so adicionadas iterativamente. A posio onde a nova folha ser

inserida escolhida analisando todos os ramos onde esta pode ser inserida. Assim,
escolhe-se a melhor posio de insero conforme algum critrio de otimalidade.
Esse processo repetido at que todas as espcies estejam adicionadas na rvore.
A Figura 2.7 mostra uma aplicao deste mtodo;
star decomposition
Decomposio de estrela (
): essa tcnica comea com uma topolo-
gia de estrela, onde todas as espcies esto unidas a um n interno. Posteriormente,
2.4.
MXIMA PARCIMNIA
19
duas espcies so agrupadas e separadas da estrela mediante a criao de um novo

n interno. A seleo de tais espcies pode ser realizada aleatoriamente ou analisando todas as alternativas possveis. Tal processo repetido iterativamente at que
seja formada uma rvore.
rvore inicial
A
C
rvore tima (4 folhas)

A
rvore tima (5 folhas)
A
B
C
D
E
Figura 2.7: Exemplo do mtodo
stepwise addition
(Gogarten e Lewis, 2002).
Os mtodos de adio por passos e decomposio por estrela raramente levam rvore
tima.
Outras modicaes de rvore podem ser aplicadas para melhorar as solues
fornecidas por tais mtodos.
Swoord et al. (1996) descrevem trs formas usuais de
modicao topolgica:
Troca dos vizinhos mais prximos (NNI, do ingls
Nearest Neighboor Interchange
):
essa tcnica trabalha com os ramos interiores da rvore. Cada ramo dene 4 subrvores vizinhas conectadas aos seus extremos. Cada um dos extremos possui um par
de subrvores. O NNI troca subrvores vizinhos de pares diferentes modicando a
rvore inicial. Todas as operaes NNI so efetuadas nos ramos da rvores original
e, nalmente, a melhor soluo retornada. O NNI provoca pequenas modicaes
20
CAPTULO 2.
topolgicas, sendo adequado para uma busca na vizinhana da rvore inicial (Swofford e Sullivan, 2003). A Figura 2.8 mostra essa operao;
B
A
C
trocar
Figura 2.8: Exemplo do mtodo NNI (Gogarten e Lewis, 2002).
Poda e insero de subrvore (SPR, do ingls
Subtree Prunning and Regrafting
): esta
operao separa uma subrvore da soluo inicial e, posteriormente, reinserida em

todas as posies possveis. Tal processo repetido para todas as subrvores da soluo inicial, retornando a melhor soluo encontrada. O SPR realiza uma busca mais
abrangente que o NNI, permitindo avaliar um maior nmero de rvores (Swoord e
Sullivan, 2003). A Figura 2.9 mostra um exemplo do SPR;
D
A
E
B
B
F
I
I
G
F
inserir
H
H
podar
Figura 2.9: Exemplo do mtodo SPR (Gogarten e Lewis, 2002).
Bisseo e reconexo de rvore (TBR, do ingls
Tree Bisection and Reconnection
):
essa tcnica elimina um ramo interno da rvore original, separando-a em duas subrvores. Seguidamente, tais subrvores so reconectadas, criando um novo ramo
que conecta as duas subrvores. Todas as subrvores e todas as reconexes possveis
so examinadas, retornado a melhor rvore encontrada. O TBR permite explorar
um maior nmero de solues que o SPR (Swoord e Sullivan, 2003). A Figura 2.10
mostra o emprego do TBR.
2.4.
MXIMA PARCIMNIA
21
C
A
E
B
F
I
sub-rvore
G
sub-rvore
H
C
A
H
B
E
I
criar conexo
H,B
F,B
G,B
A
D
A
D
B
E
B
E
A
D
B
E
Figura 2.10: Exemplo do mtodo TBR (Gogarten e Lewis, 2002).
As modicaes topolgicas descritas anteriormente so aplicadas em forma iterativa.

Isto , aps a construo da rvore inicial, modicaes topolgicas so realizadas nesta
rvore.
Caso seja encontrada uma melhor soluo, esta usada como novo ponto de
partida para as prximas modicaes. Este processo repetido iterativamente at que

no seja possvel encontrar melhores solues.
A estratgia de obter uma rvore por busca heurstica (frequentemente usa-se a adio
por passos) e, em seguida, aplicar NNI, SPR ou TBR implementada na maioria dos programas de inferncia logentica, tais como PHYLIP (Felsenstein, 2000b), PAUP* (Swofford, 2000) e PAML (Yang, 1997).
Porm, tal estratgia usualmente leva a regies de
timo locais (Swoord et al., 1996; Swoord e Sullivan, 2003). Uma forma de obter melhores resultados aplicar o mesmo procedimento em diversas pontos de partida (rvores
iniciais). Estas topologias so geradas por meio de vrias aplicaes da adio por passos,
com as espcies sendo adicionadas em ordem diferente em cada aplicao. Porm, os autores (Golobo e Farris, 2001; Swoord e Sullivan, 2003) concordam em que tal abordagem
efetiva em conjuntos de dados de at 100 espcies.
Deve-se observar que os mtodos heursticos de busca topolgica descritos nesta seo so independentes do critrio de otimalidade, podendo ser empregados em buscas de
22
CAPTULO 2.
rvore de mxima parcimnia, mxima verossimilhana, entre outras. As heursticas especicamente desenvolvidas para a busca de rvore de mxima parcimnia so brevemente
explicadas na Seo 2.4.2.
2.4.2 Heursticas para busca da rvore de mxima parcimnia

O programa DNAPARS, includo no PHYLIP (Felsenstein, 2000b), calcula a topologia
inicial empregando o mtodo de adio por passos.
Aps a insero de uma espcie e
antes de adicionar uma outra, o DNAPARS aplica sistematicamente todos as modicaes

topolgicas de tipo NNI, e um nova topologia aceita desde que o seu valor de parcimnia
seja menor que a melhor soluo encontrada at momento. Uma vez que todas as espcies
foram adicionadas, o DNAPARS fornece uma opo para fazer modicaes topolgicas
adicionais empregando SPR. Felsenstein (2000b) recomenta rodar o DNAPARS vrias
vezes modicando a ordem com que as espcies so acrescentadas na rvore, dado que
assim possvel obter diferentes resultados em cada execuo e, possivelmente, escapar
de timos locais.
O programa PAUP , um dos programas mais empregados na inferncia logentica,

emprega heursticas muito similares ao DNAPARS, com a ventagem de oferecer ao usurio mais opes com relao a procedimentos de busca (Swoord, 2000).
A topologia
inicial pode ser obtida usando tanto adio de espcies quanto empregando um mtodo
de distncia como NJ (Saitou e Imanishi, 1989).
As modicaes topolgicas podem
ser do tipo SPR, TBR ou NNI, alm de possibilitar a restrio da forma em que tais
operaes so aplicadas. possvel efetuar vrias rplicas da busca, podendo inclusive
calcular graus de suporte a cada ramo mediante tcnicas de amostragem de dados como
o
bootstrap
(Felsenstein, 1985) (ver Seo 2.7).
Nixon (1999) props o mtodo chamado de Parcimnia Ratchet para a anlise de

grandes conjuntos de seqncias. O Ratchet comea com uma rvore inicial que pode ou
no ser submetida a operaes de modicao topolgica.
Um subconjunto de stios
escolhido, modicando os pesos de cada stio (por exemplo, adicionando 1 para os pesos
dos stios escolhidos). A seguir, modicaes topolgicas de tipo TBR so aplicadas aos
dados considerando os novos pesos. As melhores rvores nessa busca so mantidas e, posteriormente, aplica-se uma busca com o operador TBR em tais rvores, mas considerando
os dados originais (todos os stios com os mesmos pesos). Na prxima iterao, um outro
grupo de stios escolhido e todo o processo repetido. O mtodo Ratchet foi implementado nos programas PAUP* (Swoord, 2000) e NONA (Golobo, 1999b) mostrando que
o tempo para encontrar as rvores timas consideravelmente reduzido.
Os trabalhos de Golobo (1993, 1996, 1999a), Ronquist (1998) e Gladstein (1997)
descrevem vrias estratgias para melhorar o desempenho da busca da rvore de mxima
parcimnia. Em tais trabalhos so descritos mtodos que permitem calcular o valor de
2.4.
MXIMA PARCIMNIA
23
parcimnia da rvore, aps modicaes topolgicas serem aplicadas, sem necessidade de

aplicar o algoritmo de Fitch (Fitch, 1972). So propostas tambm vrios procedimentos
para determinar os estados dos ns internos
a priori
sem a necessidade examinar nova-
mente os ns afetados pela aplicao das operaes SPR ou TBR (Golobo, 1993, 1996).
Alm disso, apresentado um mtodo que permite detectar rvores subtimas que so
produto de modicaes SPR e TBR antes de tais alteraes serem realizadas. Com isso,
consegue-se uma reduo no tempo de execuo signicativa, uma vez que as mudanas
subtimas no so efetuadas.
Golobo tambm fez importantes contribuies nas heursticas para busca da melhor
topologia de mxima parcimnia (Golobo, 1999a). O autor critica o emprego da tcnica
de adio por passos e modicaes topolgicas TBR (ver Seo 2.4.1), armando que
so inecientes para encontrar a melhor soluo quando o conjunto de dados tem mais de
100 espcies. Assim, ele props trs novas abordagens de busca topolgica:
1. Fuso de rvore (TF, do ingls
Tree-Fusing
): esta estratgia combina subrvores de
duas rvores distintas, desde que ambas as subrvores possuam as mesmas espcies.
Tal mtodo produz melhores rvores se as subrvores combinadas possuam valores
de parcimnia timos ou quase-timos;
2. Buscas Setoriais Aleatrias (RSS, do ingls
Random Sectorial Searches
): neste m-
todo escolhe-se um setor da rvore (subrvore contendo um nmero determinado de

espcies) o qual analisado separadamente usando o mtodo de adio por passos
e TBR. Se um melhor valor de parcimnia para uma subrvore encontrado, essa
nova congurao do setor adicionada na rvore. As operaes TBR so realizadas
desde que o nmero de novas conguraes de setores encontradas sobrepasse um
determinado valor. A principal vantagem de tal mtodo que diversos setores da
rvores podem ser analisados bem mais rapidamente do que a rvore inteira;
3.
Tree-Drifting
(DFT): esta estratgia possibilita que modicaes topolgicas que
resultem em rvore subtimas sejam incorporadas ocasionalmente visando explorar

novas regies do espao de busca. A probabilidade de que uma soluo subtima
seja aceita depende da mtrica RFD (do ingls
Relative Fit Dierence
) (Golobo e
Farris, 2001) entre a rvore original e a rvore modicada.
Todas as heursticas apresentadas por Golobo foram implementadas nos programas

NONA (Golobo, 1999b) e TNT (Golobo et al., 2004). Os experimentos mostraram que
os novos mtodos de busca topolgica propostos foram signicativamente mais rpidos e
produziram rvores melhores que o mtodo de adio por passos com arranjos TBR.
24
CAPTULO 2.
2.5 Mxima verossimilhana

A
mxima verossimilhana
um dos estimadores mais empregados na inferncia esta-
tstica (Bryant et al., 2005). O conceito de verossimilhana lida com situaes em que
hipteses ou modelos referentes a um conjunto de dados so avaliados.
Na inferncia
logentica, tais hipteses incluem usualmente parmetros como topologia de rvore,

comprimento de ramos e um modelo de substituio de seqncias.
Tais modelos so
apresentados a seguir.
2.5.1 Modelos de substituio de seqncias de DNA

Uma tarefa fundamental na anlise logentica a determinao de distncia entre um
par de seqncias. Tais valores so importantes tanto para a aplicao dos mtodos de
agrupamento como UPGMA (Michener e Sokal, 1957) ou NJ (Saitou e Nei, 1987) quanto
de mtodos probabilsticos (como mxima verossimilhana e inferncia Bayesiana).
distncia entre duas seqncias determinada pelo nmero esperado de substituies

por stio.
As substituies de nucleotdeos e aminocidos so geralmente consideradas
processos estocsticos. Para calcular tal distncia preciso denir um modelo de substituio que descreva esses processos (Strimmer e von Haeseler, 2003).
Nesta subseo
so apresentados os modelos de substituio de DNA, enfatizando apenas o clculo das

probabilidades de transio de estados. Tais probabilidades so empregadas no clculo
da verossimilhana de uma rvore logentica (ver Seo 2.5.2).
Os modelos de substituio de DNA podem ser representados por uma matriz de
taxas instantnea
Q,
onde
Qi,j
representa a taxa de mudana do estado
i para o estado j
durante um intervalo de tempo innitesimal. A forma mais usual de expressar essa matriz
a seguinte:
4
X

Q1,j
j=2
gA
Q=
hA
jA
aC
4
X
Q2,j
bG
cT
dG
eT
j=1,j6=2
iC
4
X
Q3,j
f T
j=1,j6=3
kC
lG
3
X
Q4,j
(2.7)
j=1
A ordem das colunas e las de
A, C, G e T
de A para C .
seguem a ordem dos nucleotdeos
de
tal forma que
a taxa instantnea de mudana
Os
parmetros
so taxas relativas de mudana para cada par de
Q1,2 = QA,C representa

a, b, c, d, e, f, g, h, i, j, k e l
2.5.
MXIMA VEROSSIMILHANA
nucleotdios.
Ento,
relativa de mudana de
25
representa a taxa relativa de mudana de
para
C, b a
A , C , G
para
e assim sucessivamente. Os parmetros
taxa
e
correspondem as estimativas das freqncias dos nucleotdeos no conjunto de dados
T
D.
Os elementos no diagonais da matriz representam o uxo de sada a partir do nucleotdeo
x;
enquanto os elementos diagonais de
fazem com que a somatria dos elementos em
cada linha (o uxo total de sada a partir do nucleotdeo

Os modelos descritos pela matriz
i)
seja zero.
correspondem classe de processos de Markov
contnuos no tempo, os quais possuem as seguintes caractersticas (Strimmer e von Haeseler, 2003):
Para todos os stios das sequncias, a taxa de mudana do estado
para o estado
independente do estado anterior (propriedade dos processos Markov);
As taxas de substituio no mudam no tempo (propriedade de homogeneidade);
As freqncias dos estados
A ,C ,G
T (A , C , G
T ,
respectivamente) esto em
equilbrio.
Uma outra propriedade muito importante de vrios modelos de substituio de DNA
que so reversveis no tempo. Em outras palavras, para um ramo na rvore, a probabilidade de que o estado de um extremo do ramo seja
e o outro extremo tenha estado
a mesma probabilidade de o estado de um extremo de ramo ser
e terminar com estado
no outro extremo (Felsenstein, 2004). Tal propriedade expressada como:
x Px,y (t) = y Py,x (t),

onde
(2.8)
Px,y (t) a probabilidade de mudar do estado x para o estado y
no tempo t. O valor
representa o comprimento do ramo da rvore.
x Qx,y = y Qy,x (Bryant et al.,

2005). Isso signica que a taxa de mudana de i para j igual a taxa de mudana de j
para i (Bryant et al., 2005; Strimmer e von Haeseler, 2003). Assim, tem-se que a = g ,
b = h, c = j , d = i, e = k e f = l. Tais restries permitem obter a matriz Q para o
possvel mostrar que a Equao 2.8 implica que
modelo geral reversvel no tempo (GTR, do ingls
):
4
X

Q1,j
j=2
aA
Q=
bA
cA
General Time-Reversible Model
aC
4
X
Q2,j
bG
cT
dG
eT
j=1,j6=2
dC
4
X
Q3,j
f T
j=1,j6=3
eC
f G
3
X
j=1
Q4,j
(2.9)
26
CAPTULO 2.
Vrios dos modelos de substituio de DNA mais conhecidos na literatura aplicam

restries adicionais na matriz
Q.
O modelo mais simples, conhecido como modelo de
Jukes e Cantor (1969) (JC69) assume a igualdade das freqncias de nucleotdeos (A
C = G = T = 0, 25) e que todas as mudanas de estado acontecem com mesma taxa

relativa (a = b = c = d = e = f = 1) (Strimmer e von Haeseler, 2003). O modelo proposto
por
Felsenstein (1981a) (F81) permite diferentes freqncias de nucleotdeos com taxas
relativas constantes (a
= b = c = d = e = f = 1).
O modelo devido a Hasegawa et
al. (1985) (HKY85) permite diferenciar as taxas de mudana de transio (mudana de

purina para purina ou pirimidina para pirimidina) e transverso (mudana de purina para
pirimidina e viceversa) mediante o parmetro
(b = e =
a = c = d = f = 1).
Outros
modelos so tambm casos particulares do modelo GTR (Strimmer e von Haeseler, 2003;
Swoord et al., 1996).
Uma vez obtida a matriz
um comprimento de ramo
t,
Q,
a matriz de probabilidades de transio de estados para
denotada como
P(t)
calculada como:
P(t) = eQt .
A matriz
(2.10)
pode ser obtida mediante a descomposio da
em seus autovalores e
autovetores(Swoord et al., 1996) como mostrado pela seguinte expresso:
Q = ADA1 ,
onde
(2.11)
a matriz diagonal cujos elementos so os autovalores de
colunas so os autovetores direitos de
Q.
A matriz
so duas matrizes simtricas.
elementos correspondem s freqncias

os autovetores da matriz simtrica
1/2
a matriz cujas
pode ser expressada como:
Q = B,
onde
A matriz
(2.12)
uma matriz diagonal cujos
A , C , G e T . mostrado que, determinando

B1/2 , possvel expressar Q como:
Q = (1/2 U)D(1/2 U) 1,
(2.13)
U contm os autovetores direitos de 1/2 B1/2 . Os autovalores de Q esto

1/2
nos elementos diagonais da matriz D e os respectivos autovetores esto em
U. Dessa
forma, a matriz P(t) obtida substituindo na Equao 2.11, os elementos diagonais di,i
d t
da matriz D por e i,i .
onde a matriz
2.5.
27
2.5.2 Clculo de verossimilhana para uma rvore

P(D|) de o conjunto de dados D ajustar-se ao
modelo = {, B, M}, onde uma topologia da rvore, B o conjunto de comprimento
de ramos de e M o modelo de substituio de seqncias. O objetivo do critrio
de mxima verossimilhana encontrar os parmetros do modelo , tal que a funo de
verossimilhana denida como L() = P(D|) seja maximizada.
A verossimilhana fornece a probabilidade
A estimao da verossimilhana ilustrada empregando um exemplo. Seja

junto de dados correspondentes s seqncias de trs espcies (u,
s).
um con-
Cada seqncia
Nsit stios (colunas) tal que uj , wj , sj representam os estados da espcies u, w e s

no stio j , respectivamente. Tais estados esto denidos em um alfabeto de caracteres de
DNA = {A, G, C, T }. A Figura 2.11 mostra uma rvore com as trs espcies atuais
(u, w e s), duas espcies ancestrais (v e r ) e os respectivos comprimentos de ramo. Alm
possui
disso, supe-se a existncia de um modelo de substituio de seqncias que possibilite o

clculo das probabilidades de transio de estados. O clculo da verossimilhana precisa
de duas premissas (Felsenstein, 2004):
Os stios das seqncias evoluem de forma idntica e independente;
A ramicao da rvore um processo de Markov, ou seja, a probabilidade de um

n possuir um determinado estado funo apenas do estado anterior.
A primeira suposio permite que a verosimilhana seja descomposta num produto

conforme a seguinte equao:
L=
N
sit
Y
P(D(j) |),
(2.14)
j=1
P(D(j) |) representa a verossimilhana no stio j que ser denotada de agora em

diante por Lj . Essa quantidade igual a soma das probabilidades de cada cenrio possvel
onde
levando em conta todos os possveis estados dos ns internos (que so desconhecidos). A

independncia da ramicao da rvore permite que
Lj =
XX
Lj
seja expressada como:
rj Prj ,sj (trs )Prj ,vj (trv )Pvj ,uj (tvu )Pvj ,wj (tvw )
(2.15)
rj vj
onde
rj , vj
representam os possveis estados para os ns internos
r e v , tij
o comprimento
i e j , rj a freqncia do nucletido correspondente ao estado

rj no conjunto de seqncias D, e Px,y (t) a probabilidade da mudana do estado x para
o estado y aps um tempo t. As ltimas duas quantidades so fornecidas pelo modelo de
substituio M.
do ramo que conecta os ns
28
CAPTULO 2.
r
trv
trs
tvu
tvw
Figura 2.11: rvore para o exemplo do clculo da verossimilhana.

O clculo da verossimilhana pode ser efetuado recursivamente empregando as verossimilhanas condicionais de subrvores. A verossimilhana condicional da subrvore cuja
raiz o n
r,
denotada como,
Lrj (rj ),
a probabilidade dos eventos observados a partir
da tal subrvore, dado que o estado do n

descendentes
s,
Lrj (rj ) =
rj .
Prj ,vj (trv )Lvj (vj )
vj
a,
seja
Assim, se o n
tem
temos que:
e para as folhas
no stio
onde o estado
Prj ,sj (trs )Lsj (sj ) ,
(2.16)
sj
aj
fornecido por
(
Laj (x) =
1,
0,
se
D,
temos que:
aj = x,
caso contrrio.
(2.17)
Para o exemplo relativo rvore mostrada na Figura 2.11, tem-se pela Equao 2.17
que
Lvj (vj ) = Pvj ,uj (tvu )Pvj ,wj (tvw )
Lsj (sj ) = Prj ,sj (trs ).
Assim, substituindo os termos
nas Equaes 2.16 e 2.15 temos que:
Lj =
rj Lrj (rj )
(2.18)
rj
Para calcular a verossimilhana total conforme a Equao 2.14 necessrio fazer o
produto dos valores
Lj
para todos os stios.
Dado que tais valores so nmeros muito
pequenos podem ocorrer erros de preciso numrica.
Uma forma mais conveniente de
tratar tais nmeros calculando os seus logaritmos naturais. Assim, aplicando logaritmo
natural a ambos lados da Equao 2.14, tem-se que:
ln L =
Nsit
X
ln Lj
(2.19)
j=1
As Equaes 2.18 e 2.16 denem uma forma recursiva de calcular a verossimilhana
para rvores logenticas, no qual as verossimilhanas condicionais de cada subrvore em-
2.5.
29
pregando um percurso ps-ordem. Tal procedimento foi proposto por Felsenstein (1981a),
e apresentado no Algoritmo 2.
Algoritmo 2: Clculo da verossimilhana.

Entrada:
, uma rvore com raiz r.

B , o conjunto de comprimentos de ramo de
D, um conjunto de dados contendo seqncias de Nsit stios
M, o modelo de substituio de seqncias que dene a matriz
transio de estados P
Sada: ln L
1 para cada
j = 1 . . . Nsit faa
2
para cada
v
u w
v
Calcular Lj (vj ), conforme a Equao 2.16.
3
probabilidades de
stio
n interno com lhos e percorrendo em ps-ordem
faa
m
Calcular
Lj
conforme a Equao 2.18.
m
Calcular
ln L
conforme a Equao 2.19
O modelo de substituio
dados
emprega tacitamente a suposio de que os stios dos
evoluem a uma taxa constante. Porm, em bancos de seqncias reais, os stios
evoluem com taxas diferentes. Quando a variao das taxas entre stios (denotada como
ASRV, do ingls
among-site rate variation
) incorporada no modelo, os resultados da
anlise de verossimilhana podem ser sensivelmente melhorados (Yang, 2000).
Basica-
mente, existem duas formas de incorporar o ASRV (Stamatakis, 2006a; Zwickl, 2006):
taxas de heterogeneidade especcas por stios e taxas de heterogeneidade Gama.
No modelo de taxas especcas por stio, incorpora-se ao modelo
W=
stio j . A
um vetor
[1 , 2 , . . . , Nsit ] , onde j corresponde a taxa de evoluo correspondente ao

verossimilhana L calculada da mesma forma descrita anteriormente, mas multiplica-se
cada comprimento de ramo tij por j na obteno das verossimilhanas condicionais da
Equao 2.16. Uma vantagem dessa abordagem que o tempo de clculo da verossimilhana no acrescentado signicativamente (Stamatakis, 2006a). Porm, os valores de
devem ser fornecidos
a priori
, o que aumenta consideravelmente o nmero de parmetros
a serem estimados.
No modelo de taxa de heterogeneidade Gama,
uma distribuio contnua Gama () (Yang, 1993).

stio
uma varivel aleatria obtida de

Assim, a verossimilhana para um
calculada por:
Z
Lj =
P(D(j) |, j = x)f (x)dx,
(2.20)
0
onde
a funo de densidade de probabilidade com distribuio
a verossimilhana do stio
P(D(j) |, j = x)
seja x. Na prtica, o
condicionado a que o taxa de tal stio
30
CAPTULO 2.
clculo da integral da Equao 2.20 muito custosa computacionalmente. Devido a isso,

emprega-se uma distribuio discreta
que aproxima tal valor (Yang, 1994):
(j)
P(D |, j = x)f (x)dx
Lj =
0
onde a distribuio
xk
N
cat
X
k P(D(j) |, j = xk ),
(2.21)
k=1
para as taxas dos stios discretizada em
corresponde a taxa de evoluo da categoria
k = 1 . . . Ncat
categorias,
a probabilidade da categoria
k.
A Equao 2.21 pode ser escrita tambm da seguinte maneira:
Lj =
N
cat
X
k rj Lrj (rj , xk ),
(2.22)
k=1 rj
Lrj (rj , j = xk ) obtida da mesma forma que Lrj (rj ) na Equao 2.16, multiplicando
xi os comprimentos de ramo trv e trs . Dessa forma, possvel adaptar o Algoritmo 2
onde
por
para incorporar a heterogeneidade da taxa de substituio entre os stios.

A vantagem do modelo de taxa de heterogeneidade Gama que os valores
obtidos a partir da distribuio
so
Tal distribuio possui dois parmetros que so
, parmetro de escala. Na prtica, emprega-se apenas o parmetro

, sendo xado em 1/. Contudo, o clculo da verossimilhana torna-se mais lento pois
o clculo da Equao 2.22 realizado para as Ncat categorias empregadas.
parmetro de forma e
2.5.3 Heursticas para busca da rvore de mxima verossimilhana

Nesta seo apresentado um resumo das principais heursticas empregadas na busca da
rvore de mxima verossimilhana nos principais programas de inferncia logentica. As
principais diferenas nas estratgias adotadas por tais programas so:
A forma como uma topologia inicial gerada;
A maneira como as modicaes topolgicas da rvore inicial so aplicadas;
As tcnicas de otimizao de comprimentos de ramo e parmetros do modelo evolutivo empregado.
O programa DNAML, includo no PHYLIP (Felsenstein, 2000b), para a determinao de logenias por mxima verossimilhana incorpora heursticas de busca topolgica
similares ao DNAPARS, visto na Seo 2.4.2. A otimizao de todos os comprimentos
de ramo efetuada a cada modicao topolgica da rvores, embora na verso mais
recente (3.67) essa abordagem tenha sido substituda pela otimizao dos ramos somente
na vizinhana onde as mudanas aconteceram.
2.5.
31
As heursticas de busca topolgica para mxima verossimilhana implementadas no

PAUP* (Swoord, 2000) so as mesmas que nas aplicadas na busca da rvore de mxima
parcimnia. No PAUP* (Swoord, 2000), a determinao de comprimento de ramos iniciais e de parmetros do modelo baseada em reconstrues de mxima parcimnia (Rogers
e Swoord, 1998). Uma outra caracterstica importante, que na otimizao de parmetros de modelo evolutivo pode ser limitada s rvores cujas verossimilhanas no sejam
menores que a da melhor rvore encontrada. Assim, reduz-se o nmero de otimizaes
realizadas tornando o tempo de busca signicativamente menor.
O software PHYML (Guindon e Gascuel, 2003) emprega uma abordagem heurstica
que diminui notavelmente o tempo de execuo, fornecendo rvores comprveis s obtidas
mediante programas como PAUP
e fastDNAml (Olsen et al., 1994). Tal ganho de desem-
penho devido a um procedimento pelo qual, as modicaes topolgicas e a otimizao

dos comprimentos de ramos e parmetros esto fortemente relacionadas. A topologia inicial obtida mediante um mtodo de distncias conhecido como BIONJ (Gascuel, 1997).
Os parmetros do modelo de substituio de seqncias so inicialmente estimados pelo
mtodos de seo urea (Press et al., 1992). A seguir, so examinadas todas as modicaes topolgicas do tipo NNI, sendo apenas otimizado o comprimento do ramo envolvido
em tal operao. Dessa forma, todas as mudanas possveis so independentemente calculadas com um menor custo computacional. Aplica-se uma proporo das modicaes
que mais aumentaram a verossimilhana das rvores e, nalmente, recalculam-se os parmetros do modelo de substituio de seqncias.
A nova topologia obtida o novo
ponto de partida para uma nova iterao do algoritmo, que continua at que no haja
mais modicaes a serem aplicadas. Finalmente, os comprimentos de ramos e parmetros do modelo so reotimizados. Tal procedimento emprega o mtodo de otimizao de
Brent (1973), o qual no precisa do clculo de derivadas. Extenses para o PHYML, que
utilizam as modicaes topolgicas SPR ao invs da NNI original tm sido propostas
na literatura (Hordijk e Gascuel, 2005), embora ainda no tenham sido acrescentadas ao
programa.
A srie de programas RAxML (Stamatakis, 2005, 2006b; Stamatakis et al., 2005a,b,
2002b; Stamatakis e Meier, 2004) (cujas verses iniciais foram fortemente baseadas no
fastDNAml) implementam heursticas que aceleram o clculo da verossimilhana (Stamatakis et al., 2002a) e a obteno da topologia de mxima verossimilhana. No RAxML,
a topologia da rvore obtida mediante um algoritmo de adio por passos empregando
o critrio de mxima parcimnia. Os parmetros e comprimentos de ramos so tambm
otimizados neste etapa inicial. Posteriormente, so aplicadas modicaes do tipo SPR,
onde uma subrvore removida e logo reinserida em uma outra posio da rvore.
RAxML aplica tais movimentaes de forma que a distncia da onde rvore removida
e inserida no sobrepassa um certo limite. Alm disso, apenas os comprimentos de ramo
que so afetados pela reinsero da rvore so otimizados.
As 20 melhores topologias
32
CAPTULO 2.
resultantes das modicaes topolgicas so posteriormente otimizadas e a melhor delas

a nova topologia inicial para uma nova iterao do algoritmo.
As novas verses do
programa permitem inferncias de grandes conjuntos de dados (mais de 10.000 espcies),

o que possvel devido a vrios fatores:
Uma implementao eciente para armazenar topologias grandes;
A reutilizao de clculos prvios na verossimilhana;
Melhorias no desempenho dos clculos que incorporam heterogeneidade de taxas

dos stios (Stamatakis, 2006a);
Emprego de recursos de computao paralela (Blagojevic et al., 2007; Stamatakis,

2006b).
Outras referncias da aplicao de busca heurstica para determinar a rvore de mxima verossimilhana, podem ser consultadas em (Adachi e Hasegawa, 1996; Hordijk e
Gascuel, 2005; Jobb, 2007; Larget e Simon, 1998; Pond e Muse, 2004; Pupko e Graur,
2002; Stamatakis, 2005; Strimmer e von Haesler, 1996; Vinh e von Haeseler, 2004; Yang,
1997).
2.6 Comparao de mtodos de inferncia logentica

Na literatura, existem uma srie de trabalhos que comparam o desempenho dos diversos
mtodos de reconstruo logentica. Para que tais estudos sejam possveis necessrio
que a rvore verdadeira de um conjunto de dados seja conhecida ou bem estabelecida
priori
. Segundo Yang (2006), esses estudos tm sido realizados de 3 formas:
Gerando evoluo de espcies diretamente no laboratrio;
Utilizando logenias fortemente aceitas pelos pesquisadores e;
Empregando simulao.
Um exemplo do primeiro tipo de estudo o trabalho Hillis et al. (1992 apud Yang,
2006). Foram evoludos bacterifagos T7 no laboratrio, assim, tanto a logenia como os
estados de todas as espcies (incluindo as ancestrais) so conhecidas
a priori
. Todos os
mtodos testados conseguiram encontrar a rvore logentica correta e ainda, o mtodo

de parcimnia recuperou os estados ancestrais com grande preciso.
O trabalho de Russo et al. (1996) investigou a ecincia de diferentes mtodos de
reconstruo logentica.
Tais mtodos foram aplicados em 13 bancos de genes (ami-
nocidos e nucleotdeos) pertencentes a 11 espcies de vertebrados cuja logenia foi estabelecida
a priori
Os mtodos comparados foram: Neighboor Joining (NJ) (Saitou e
2.6.
COMPARAO DE MTODOS DE INFERNCIA FILOGENTICA
33
Nei, 1987), evoluo mnima (Rzhetsky e Nei, 1992), mxima parcimnia (Fitch, 1972) e
mxima verossimilhana (Felsenstein, 1981a). Os bancos usados apresentaram variadas
caractersticas como o tamanho do banco, distncia entre seqncias e stios informativos.
Os experimentos foram realizados com vrias tipos de distncias e, para o mtodo de
parcimnia, testou-se as variantes de parcimnia simples (Fitch, 1972) e com pesos (Sanko, 1975). Os desempenhos das tcnicas foram determinados utilizando uma medida de
distncia topolgica (Rzhetsky e Nei, 1992) em relao rvore correta. Os resultados
mostraram que todos os mtodos foram capazes de obter a rvore verdadeira para alguns
bancos; enquanto que para outros bancos, nenhum mtodo foi capaz de atingir a rvore
correta.
Repetiu-se os experimentos usando a concatenao de todos os bancos como
entrada para uma nova avaliao. Nesse casso, todos os mtodos encontraram a rvore
verdadeira. Duas concluses signicativas so destacadas pelos autores: os mtodos mais
simples como NJ (Saitou e Nei, 1987) produziram resultados comparveis a outros mtodos mais complexos, e a escolha dos dados adequados ou de grandes bancos de dados
produzem melhores resultados independentemente do mtodo de inferncia usado.
A importncia da simulao de dados para avaliar diversos mtodos de reconstruo
logentica foi destacado no trabalho de Huelsenbeck (1995).
O autor empregou uma
rvore de 4 espcies e simulou um conjunto de 1.296 rvores, todas com a mesma topologia e diferentes combinaes de comprimentos de ramos.
Tais combinaes possuem
uma amostragem representativa das diferentes condies em que os mtodos so testados. Para comparar o desempenho dos mtodos avaliados (UPGMA (Michener e Sokal,
1957), invariantes (Lake, 1987), parcimnia (Fitch, 1972), NJ (Saitou e Nei, 1987), mnimos quadrados (Cavalli-Sforza e Edwards, 1967) e mxima verossimilhana (Felsenstein,
1981a) foram utilizados 3 critrios: consistncia, robustez e ecincia. A consistncia de
um mtodo mostra a capacidade de estimar a rvore correta quando h dados sucientes.
A ecincia a rapidez com que o mtodo converge para a rvore correta. A robustez
do mtodo a capacidade de achar a rvore correta se os requisitos do mtodo no so
satisfeitos.
Os resultados mostraram que o mtodo de mxima verossimilhana obteve
um comportamento levemente melhor em relao aos outros; enquanto os mtodos de

UPGMA e invariantes mostraram diculdade para encontrar a rvore correta. Porm, o
autor destaca que todos os outros mtodos tiveram desempenho satisfatrio na maioria
dos experimentos.
O emprego de pesos no caso dos mtodos de parcimnia e mnimos
quadrados melhorou signicativamente o desempenho de tais mtodos. Segundo Huelsenbeck, a concluso mais importante de seu trabalho que, se os requisitos de um mtodo
so satisfeitos, tal mtodo apresenta o ser melhor desempenho.
Existem outros trabalhos na literatura (Jin e Nei, 1990; Kuhner e Felsenstein, 1994; Nei
et al., 1994; Saitou e Imanishi, 1989; Sourdis e Nei, 1988; Tateno et al., 1994) comparando
diversos mtodos de reconstruo logentica. Yang (2006) sintetiza algumas concluses
relevantes dos trabalhos nessa rea:
34
CAPTULO 2.
Os mtodos de mxima parcimnia e verossimilhana empregados com modelos

simples, so propensos ao problema de atrao de ramos longos. Porm, se a mxima
verossimilhana baseada em modelos mais complexos, a inferncia mais robusta;
O mtodo de mxima verossimilhana , na maioria dos casos, mais eciente que

mtodos de parcimnia para recuperar a rvore logentica;
O nvel de divergncia entre as seqncias contidas nos dados tem uma inuncia
determinante no desempenho dos mtodos de reconstruo.
Conjuntos de dados
com pouca divergncia possuem informao insuciente para ajudar na inferncia

da rvore correta. Por outro lado, dados muitos divergentes contm muito rudo.
O nvel de informao relevante para a reconstruo logentica melhor em nveis
mdios de divergncia (Goldman, 1998; Yang, 2006);
A topologia da rvore e os comprimentos de ramos possuem um efeito signicativo

no desempenho dos mtodos. rvores com ramos internos curtos e ramos externos
compridos distribudos em diferentes partes da rvore so difceis de reconstruir.
Nesses casos, tanto os mtodos de parcimnia, verossimilhana e distncias tm
problemas em inferir a soluo correta. rvores com ramos internos mais compridos
que os ramos externos so mais fceis de inferir. Nesse caso, todos os mtodos de
reconstruo logentica conseguem um desempenho satisfatrio.
Embora as armaes destacadas acima sejam geralmente aceitas, na literatura da

rea no existe um consenso sobre o desempenho dos diferentes mtodos de reconstruo
logentica. Alm disso, conforme apontado por Rokas et al. (2003), existem vrias outras
fontes de incongruncia na anlise logentica que podem inuenciar signicativamente
nos resultados.
2.7 Avaliao de clados e rvores alternativas

Uma vez obtida a rvore logentica empregando algum mtodo de reconstruo, desejvel utilizar alguma medida de conabilidade no resultado obtido.
Nesta seo so
revisadas brevemente tcnicas para avaliao dos componentes (clados) de uma determinada rvore bem como os principais testes estatsticos disponveis para avaliar um
conjunto de rvores alternativas.
2.7.1 Anlise de bootstrap

O
bootstrap
uma tcnica de reamostragem estatstica empregada freqentemente na
avaliao de clados de uma rvore inferida. Felsenstein foi o primeiro a sugerir tal tcnica
2.7.
AVALIAO DE CLADOS E RVORES ALTERNATIVAS
35
no mtodo de mxima verossimilhana (Felsenstein, 1985). Contudo, o
bootstrap
pode ser
empregado com outros mtodos de reconstruo logentica como a mxima parcimnia,

ou mtodos de agrupamento (Yang, 2006).
O mtodo de
bootstrap
consiste em gerar um determinado nmero de bancos de dados
a partir de uma amostragem dos stios dos dados originais. Os conjuntos de seqncias
gerados pelo
bootstrap
(chamados tambm de rplicas) possuem o mesmo nmero de
stios que as seqncias originais. Em cada rplica, cada stio escolhido aleatoriamente
a partir dos dados originais.
Assim, um conjunto gerado poder ter vrias cpias do
simo stio e no possuir cpias do
i-simo.
j-
Aps isso, cada rplica gerada empregada
como entrada para o mtodo de reconstruo logentica considerado e uma rvores

inferida por cada rplica.
Finalmente, calcula-se a proporo de cada clado da rvore
inicial (inferida a partir dos dados originais) presente nas rvores das rplicas. Tal valor
mede a probabilidade de um clado ser recuperado em no conjunto de replicas.
Uma outra forma de processar as rvores inferidas a partir das rplicas calculando
uma rvore de consenso (Swoord e Sullivan, 2003), A proporo de cada clado de dita
rvore conhecida como grau de suporte ou proporo de
um diagrama da aplicao do
bootstrap
1
AGGCTCCCAT
AGGTTCGAAT
AGCCCGATAA
ATTTCCGATC
100
80
100
100
rvore inferida da rplica 1
AAAGCGGCAC
AAAGTGGAAC
AAACCGGTAG
AAATTTTATC
4
rvore inferida da rplica 2
GGGTTTTTCT
GGGTTTTTGT
GGCCCAAAAA
TTTCCCCCGC
rvore inferida da rplica Nrep
Rplica Nrep
1
2
3
4
100
Rplica 2
1
2
3
4
Valores de bootstrap na
rvore original
rvore inferida original
Rplica 1
1
2
3
4
. A Figura 2.12 mostra
Dados originais
1
2
3
4
bootstrap
AGGTTCCAAT
AGGTTCCAAT
AGGCCGGTAA
ATTCCCCGTC
Figura 2.12: Diagrama da anlise de
bootstrap
(Van de Peer, 2003).
36
CAPTULO 2.
Embora o
bootstrap
seja uma tcnica simples e efetiva que mede a repetibilidade dos
clados da rvore inferida, os graus de suporte calculados podem ser propensos a erros
se o mtodo de inferncia no for empregado corretamente (Van de Peer, 2003).
outro inconveniente o tempo necessrio para realizar a anlise de
bootstrap
Um
. Dado que
um grande nmero de rplicas recomendado (entre 200 e 2.000), o tempo requerido de

inferncia de cada rplica pode ser invivel em termos prticos. Uma forma de resolver esse
problema empregar o mtodo de RELL (do
ingls Resampling Estimated Log Likelihoods

bootstrap
(Kishino e Hasegawa, 1989), que uma aproximao do
descrito nesta seo.
Tipicamente, os graus de suporte maiores que 70 ou 75% fornecem uma conabilidade

adequada aos clados inferidos (Van de Peer, 2003).
2.7.2 O teste de Shimodaira-Hasegawa

Um estudo logentico pode resultar em vrias rvores (por exemplo produzidas por um
anlise de
bootstrap
), possibilitando a realizao de anlises estatsticas. Os testes de Tem-
pleton (1983) e Kishino e Hasegawa (1989) tm sido aplicados para comparar topologias
alternativas inferidas com os critrios de parcimnia e verossimilhana respectivamente.
Porm, Shimodaira e Hasegawa (1999), bem como Goldman et al. (2000) apontam que
a aplicao de tais testes incorreta estatisticamente. Alm disso, tem-se observado que
tais testes rejeitam muitas topologias vlidas (Felsenstein, 2004).
Assim, Shimodaira e
Hasegawa (1999) desenvolveram o teste SH para comparar vrias topologias de acordo

com ao critrio de mxima verossimilhana.
Tal teste tem como objetivo determinar
quais topologias pertencem ao conjunto de conana, isto , as topologias que no podem

ser rejeitadas.
T de Narv
por ln L(i ).
Inicialmente, tem-se um conjunto

verossimilhana de
denotada
gera-se um conjunto de
valor
ln Lj (i ),
dados. Para a
Nrep
i-sima
rvore e
Ri,j ,
rvore. A
bootstrap
Apos isso, calcula-se o
replica, obtem-se
Ri,j ,
j -sima
replica dos
que representa a diferena
e a mdia das tais valores em todas as replicas:
A seguir, calcula-se o valor

e o valor de
j -sima
i-sima
A partir do conjunto de dados iniciais,
rplicas dos dados por
Ri,j
que representa a verossimilhana da i-sima rvore na
entre a verossimilhana de
a replica
rvores tal que
Nrep
1 X
ln Lk (i )
= ln Lj (i )
Nrep k=1
Oi,j
que representa a diferena entre o mximo
(2.23)
Rk, j
para
isto :
Oi,j =
max (Rk,j ) Ri,j
k=1...Narv
(2.24)
2.7.
AVALIAO DE CLADOS E RVORES ALTERNATIVAS
O valor
p para uma topologia i

i .
A expresso para
p(i ) = |{ Oi,j , j = 1 . . . Nrep

O valor
dada por:
tal que
Oi,j < ln L( ) ln L(i ) }|
(2.25)
para cada soluo indica a probabilidade da rvore correspondente no
ser signicativamente pior que a melhor rvore do conjunto.

abaixo de um determinado limite (usualmente
jeitada.
Oi,j , que so
(denotada por ) e a
determinado pela proporo de valores
menores que a diferena entre a verossimilhana da melhor rvore

verossimilhana de
37
0, 05),
Se tal valor encontra-se
a soluo analisada pode ser re-
O teste SH amplamente empregado em pesquisa logentica alm de estar
implementado nos principais programas de inferncia tais como PHYLIP (Felsenstein,

2000b), PAUP* (Swoord, 2000) ou PAML (Yang, 1997).
Uma desvantagem do teste
SH que pode ser muito conservador. Por outro lado, existem outros testes que podem
diminuir este efeito (Shimodaira, 2002; Yang, 2006).
2.7.3 Inferncia Bayesiana

A inferncia Bayesiana um mtodo estatstico de recente aplicao na inferncia logentica (Larget e Simon, 1999; Li et al., 2000; Mau e Newton, 1997; Rannala e Yang, 1996).
O objetivo principal desse mtodo calcular a probabilidade condicional (ou probabilidade
a posteriori
) das diferentes rvores e parmetros do modelo evolutivo em funo de
um conjunto de dados. Seja

total de
NT
i a i-sima topologia do conjunto

= {B, M} um modelo onde B o
um conjunto de dados,
topologias possveis para
espcies, e
i , e M os parmetros do modelo de substituio

posterior de i dado D expressada por:
conjunto de os comprimento de ramos de

de sequncias. A probabilidade
P(i |D) =
P(D|i , )P(i , )
NT Z
X
(2.26)
P(D|j , )P(j , )d
j=0
P(D|i , ) = P(D| = {i , }) a verossimilhana da rvore i com os comprimentos

de ramos B e parmetros do modelo de substituio contidos em M (ver Seo 2.5.2), e
P(D|j , ) o produto das probabilidades
da topologia j e os parmetros em .
onde
a priori
A escolha da distribuio de tais probabilidades subjetiva (Felsenstein, 2004; Guindon,

2003; Yang, 2006). O clculo do denominador da Equao 2.26 implica a somatria, para
todas as topologias existentes, da integral sobre todos os valores possveis dos parmetros
em
Na prtica, a determinao de tal valor diretamente possvel somente em pequenos
conjuntos de dados. Para resolver este problema emprega-se o mtodo de Monte Carlo
baseado cadeias de Markov (MCMC) (Yang, 2006). Um esquema do mtodo MCMC
mostrado no Algoritmo 3.
38
CAPTULO 2.
Algoritmo 3: Algoritmo MCMC.

Entrada:
, uma rvore inicial aleatria

= {B, M}, valores aleatrios para o conjunto de parmetros (comprimentos
ramo de e valores para o modelo de substituio de seqncias M)
D, um conjunto de dados contendo seqncias
Niter , nmero total de iteraes do algoritmo
k , nmero de iteraes para amostragem
Sada: Amostras de e
1 i=1
2 repita
3
Propor
uma mudana na topologia
de
empregando modicaes topolgicas
(como NNI,SPR ou TBR)
4
5
6
Propor mudanas nos valores dos parmetros em
k
i=i+1
at i = Niter
A cada
iteraes, armazenar
A idia fundamental do algoritmo MCMC realizar uma amostragem percorrendo os

espaos de topologias
e valores
para aproximar a probabilidade a posteriori de tais
parmetros. A topologia com maior probabilidade aquela que foi visitada mas vezes durante as iteraes do MCMC. As probabilidades para as outras topologias tambm podem
ser calculadas da amostragem realizada.
Se o nmero de espcies analisadas for muito
alto e os dados no fornecem informaes sucientes, possvel que as probabilidades

das rvores apresentem valores muito baixos (Yang, 2006). Uma forma de sumarizar os
resultados usar as rvores de amostra para calcular uma rvore de consenso. Para cada
clado na rvore de consenso, calcula-se a proporo de rvores da amostra que contm tal
clado. Esse valor denominado probabilidade posterior do clado. Embora esta forma de
sumarizar os resultados seja questionada por alguns autores, esta implementada nos programas de inferncia bayesiana como Mr.Bayes (Ronquist et al., 2005) e BAMBE (Larget
e Simon, 1998).
2.8 Consideraes nais

Neste captulo apresentou-se os principais conceitos da rea de inferncia logentica. A
reconstruo da rvore logentica que melhor explique as relaes evolutivas entre as espcies analisadas um problema bastante complexo, devido ao grande espao de busca e a
falta de informao sobre espcies ancestrais extintas. Uma srie de mtodos que buscam
reconstruir a melhor rvore tm sido propostos na literatura. A mxima parcimnia e a
mxima verossimilhana so dois dos mtodos de reconstruo logentica mais empregados pelos pesquisadores. Tais mtodos denem critrios de otimalidade diferentes. Os
2.8.
CONSIDERAES FINAIS
39
algoritmos de Fitch (Fitch, 1972) e Felsenstein (Felsenstein, 1981a) otimizam os critrios

de parcimnia e verossimilhana para uma determinada rvore.
Contudo, a busca pela rvore tima no espao de busca uma tarefa complexa. Assim, no decorrer deste Captulo foram descritas vrias estratgias heursticas descritas
na literatura. As heursticas apresentadas so tanto gerais (podendo ser aplicadas com
quaisquer dos critrios de otimalidade), quanto especcas para os critrios de parcimnia
e de verossimilhana. Uma das heursticas utilizadas neste problema so os Algoritmos
Evolutivos, que sero revisados no Captulo 3.
Embora existam vrias formas de recuperar a logenia de um conjunto de espcies,
a aplicao de diferentes mtodos podem produzir resultados distintos. Os estudos comparativos de tais mtodos mostram que os resultados so muito variveis e dependentes
das condies do experimento. A vericao de que a aplicao de diversos mtodos resulta em solues conitantes motiva a investigao de uma abordagem multi-objetivo do
problema da inferncia logentica. Em tal formulao, possvel obter um conjunto de
solues que representem um equilbrio entre os critrios empregados como objetivos. A
aplicao dos AEs para problemas multi-objetivo e a modelagem multi-objetivo do problema de reconstruo logentica so explorados nos Captulos 4 e 5, respectivamente.
O conjunto de solues obtidas pode ser avaliado estatisticamente mediante os testes descritos neste captulo.
(Captulo 6).
Esses testes so utilizados na parte experimental desta pesquisa
40
CAPTULO 2.
Captulo
3
Algoritmos evolutivos aplicados
logenia
3.1 Introduo
A Computao Evolutiva uma rea de pesquisa que tem evoludo signicativamente nas
ltimas dcadas. Embora as primeiras pesquisas nessa rea so da dcada de 1.930, a
partir da dcada de 1.960 que os trabalhos diversicaram-se devido, entre outras coisas, ao
maior acesso a computadores (De Jong, 2006). Assim, vrios tipos de Algoritmos Evolutivos (AEs) que imitam mecanismos de evoluo existentes na natureza foram propostos. A
aplicao de tais abordagens tem-se destacado principalmente na resoluo de problemas
de otimizao computacionalmente complexos (Deb, 2001). O problema de reconstruo
logentica pode ser visto como um problema de otimizao, no qual se deve determinar
a rvore tima segundo algum critrio.
A determinao de logenias um problema complicado dado que o nmero possvel
de rvores logentica cresce muito rapidamente com o nmero de espcies analisadas
(ver Captulo 2). Assim, o emprego dos AEs surge como uma alternativa vivel para este
tipo de problema. Alm disso, diversos trabalhos na literatura tm mostrado resultados
relevantes de AEs aplicados logenia (Katoh et al., 2001; Lemmon e Milinkovitch, 2002a;
Lewis, 1998; Zwickl, 2006).
Este captulo est organizado conforme segue. A Seo 3.2 apresenta os principais conceitos da Computao Evolutiva. A Seo 3.3 mostra mais detalhadamente os Algoritmos
41
42
CAPTULO 3.
ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA
Genticos (AGs), um dos AEs mais utilizados. A Seo 3.4 contm uma reviso da literatura sobre o emprego de AGs no problemas de reconstruo logentica, considerando
trabalhos que empregam como funo objetivo os critrios de parcimnia e verossimilhana. Finalmente, na Seo 3.5, apresenta-se as consideraes nais deste captulo.
3.2 Computao evolutiva

A Computao Evolutiva abrange um conjunto de algoritmos (AEs) baseados na simulao dos princpios de evoluo e seleo natural (Deb, 2001). Cientistas da rea de biologia
interessaram-se pelos AEs para diversas aplicaes como o teste de processos evolutivos
e a simulao de modelos de evoluo natural. Cientistas de computao e engenheiros
estudam o potencial de tais algoritmos para resolver uma srie de problemas complexos,
principalmente na rea de otimizao, aprendizado de mquina, e vida articial (De Jong,
2006).
Uma vez que os AEs so fortemente inspirados em processos evolutivos que ocorrem
na natureza, preciso explorar as bases de tais processos. De Jong (2006) identica os
principais componentes dos sistemas evolutivos darwinianos:
Uma ou mais populaes de indivduos concorrendo por recursos limitados;
A noo de mudanas dinmicas nas populaes devido ao nascimento e morte dos

indivduos;
O conceito de aptido, que reete a habilidade do indivduo para sobreviver e

reproduzir-se;
A variao na hereditariedade, ou seja, os novos indivduos possuem muitas das

caractersticas de os seus pais, embora no sejam idnticos.
Os processos evolutivos descritos acima so de natureza iterativa. Dadas as condies

iniciais, o processo segue uma trajetria no tempo em um espao de estados evolutivos. A
idia de embutir processos evolutivos em algoritmos para resoluo de problemas foi explorado paralelamente por vrios pesquisadores produzindo vrios tipos de AEs. De Jong
(2006) classica as principais tipos de AEs em Estratgias Evolutivas, Programao Evolutiva e Algoritmos Genticos.
As Estratgias Evolutivas (EEs) foram propostas por Rechenberg e Schwefel (Rechenberg, 1965; Schwefel, 1968 apud Deb, 2001) na Universidade Tcnica de Berlim. O foco
principal das EEs a resoluo de problemas de otimizao de funes cujos parmetros
so nmeros reais. Em tais problemas os
indivduos
, os quais representam uma soluo
para tal problema, so armazenados como um vetor de nmeros reais (chamados
genes
).
3.2.
COMPUTAO EVOLUTIVA
A proposta inicial foi um modelo denominado

descendentes e a melhor das
de solues.
(1 + )
43
(1 + )-EE, onde uma soluo pai produz
solues escolhida para ser o pai do novo conjunto
Os descendentes so obtidos por mutao dos genes do pai.
em geral utiliza uma perturbao Gaussiana
G(0, )
mutao
de mdia nula e desvio padro
Os estudos preliminares indicaram que o desempenho das EEs dependem da escolha da
G(0, ).
Assim, a representao dos indivduos foi estendida para incorporar um valor
para cada parmetro do problema. Esta uma caracterstica fundamental das EEs, que
permite o auto-ajuste de seus parmetros.
Uma srie de inconvenientes da proposta original como escalabilidade para problemas
de alta dimenso e de superfcies multimodais, gerenciamento de interao entre os pa-
(1 + )-EE: a
( + )-EE e a (, )-EE. Na primeira, indivduos reproduzem-se gerando descendentes, obtendo uma
(conjunto de solues) temporria de ( + ) indivduos,
dos quais so escolhidos os melhores indivduos da prxima gerao. Na (, )-EE,
indivduos reproduzem-se produzindo descendentes, com < , sendo que a nova
populao de indivduos selecionada dos descendentes. Esta ltima abordagem
rmetros foram identicados. Assim, surgiram duas extenses do modelo
populao
dita geracional, pois o perodo de vida de cada indivduo de uma gerao.

Fogel (1962); Fogel et al. (1966), na Universidade de Califrnia, iniciou os estudos de
mtodos de Programao Evolutiva (PE) os quais foram aplicados a problemas de Inteligncia Computacional (Rich e Knight, 1991; Russell e Norvig, 1995). Em tal aplicao,
agentes inteligentes foram representados como mquinas de estado nito, as quais evoluram em melhores mquinas no decorrer da execuo do algoritmo. A abordagem de PE
N indivduos pais, cada um dos quais gera

um indivduo descendente. A nova gerao de N pais determinada combinando pais e
descendentes em uma populao de tamanho 2N , classicando tais indivduos pelo valor
de aptido e, posteriormente, permitindo a sobrevivncia de apenas N deles. Os indiv-
focada nos modelos de populaes xas de
duos so submetidos a diferentes tipos de mutao que simplesmente alteram aspectos

da soluo de acordo com uma distribuio estatstica que pondera variaes menores ou
maiores conforme a proximidade dos indivduos do timo global.
Os Algoritmos Genticos (AGs) foram introduzidos por Holland (1975), na Universidade de Michigan.
Holland enfatizou na necessidade de sistemas auto-adaptativos no
tempo em funo da realimentao obtida pela interao com o ambiente onde operam (De Jong, 2006).
Os estudos inicias de AGs propuseram modelos geracionais, nos
quais, uma populao de
pais produz uma nova populao de
descendentes que subs-
tituem incondicionalmente os pais. Diferentemente das EEs e PEs, o desenvolvimento dos

AGs teve como objetivo ser independente do problema tratado.
Assim, as solues do
problema (os indivduos da populao) so codicados em cadeias de caracteres binrios

de comprimento xo. A reproduo dos indivduos realizada por operadores genticos de
mutao e
recombinao
sobre tais cadeias. A
codicao decodicao
(
) dos parmetros
44
CAPTULO 3.
do problema para (a partir) de cadeias de bits dependente do problema analisado. Uma

outra caracterstica importante dos AGs que os pais so selecionados estocasticamente
conforme ao seu valor de
aptido
Desta forma, os indivduos com maior aptido con-
tribuem signicativamente na gerao dos descendentes. Os AGs foram aplicados a um

grande nmero de problemas de otimizao (De Jong, 2006; Deb, 2001). Tais aplicaes
evidenciaram vrios problemas na proposta original de AGs. Com o decorrer das pesquisas, mudanas signicativas referentes aos mecanismos de seleo, elitismo e representao
de indivduos foram realizadas.
Embora EEs, PEs, e AGs tenham sido desenvolvidas separadamente, compartilham
muitos conceitos e idias comuns. O surgimento de uma viso geral e abrangente envolvendo essas tcnicas foi produto das principais conferncias e encontros entre os pesquisadores de tais abordagens.
O termo de Computao Evolutiva foi amplamente aceito
para unicar as diversas tendncias. Na prxima seo, os principais conceitos dos AEs
so explicados com base nos AGs, os quais so de maior interesse no presente trabalho.
3.3 Algoritmos genticos

Os AGs podem ser vistos como tcnicas de busca ou otimizao inspirados nos mecanismos de evoluo, seleo natural e nos princpios de gentica. Eles tm sido empregados
satisfatoriamente a uma grande variedade de problemas de diversas reas como: engenharia, otimizao, inteligncia computacional, bioinformtica, entre outras (De Jong, 2006;
Deb, 2001; Goldberg, 1989).
Considerando um problema de otimizao qualquer, os AGs inicializam a busca pela
melhor soluo a partir de um conjunto inicial de solues aleatrias, chamado de populao inicial.
Em princpio, desejvel que as solues aleatrias de tal populao
estejam bem distribudas no espao de busca. Cada uma dessas solues (indivduo) representada em uma estrutura de dados chamada
cromossomo
. Em geral, os cromossomos
so cadeias de caracteres binrios. A representao interna deve ser capaz de codicar

qualquer soluo fatvel do problema considerado.
A avaliao dos indivduos de uma populao realizada empregando a
funo objetivo
do problema. Com base em tal valor, calculada a aptido dos indivduos, que indica
quais indivduos dentro da populao so os mais aptos (as melhores solues para o
problema). Esses indivduos so fortes candidatos para se reproduzirem e transferirem as
suas caractersticas para novos indivduos, os quais podero formar uma nova populao
(tambm chamada de
gerao
).
O operador de seleo para reproduo utiliza a aptido dos indivduos para escolher
as melhores solues encontradas para o problema.
Tais indivduos recebem um maior
nmero de cpias dentro de uma
(conjunto de indivduos que iro se
lista de reproduo
3.3.
ALGORITMOS GENTICOS
45
reproduzir, pais); enquanto os piores indivduos dicilmente reproduzem-se.
Repetida-
mente, uma nova populao gerada utilizando os operadores genticos de recombinao

e mutao. Esses operadores so empregados segundo determinadas freqncias que devem ser fornecidas como parmetros da execuo do AG. O funcionamento de ambos os
operadores depende fortemente da representao interna das solues.
Empregando os operadores de seleo, recombinao e mutao, o AG gera uma nova
populao buscando melhorar a aptido dos indivduos de tal populao em relao
populao anterior.
Novas geraes so produzidas at que um critrio de parada seja
atingido, fornecendo solues do problema na populao nal. O funcionamento de um

AG apresentado no Algoritmo 4.
Algoritmo 4: Algoritmo Gentico.

Entrada:
Um problema de otimizao com funo objetivo
Parmetros do AG
Sada:
Pf inal
(populao nal de solues)
1 j =1
2 Gerar a populao inicial Pj
3 Avaliar a aptido das solues em Pj empregando f
4 enquanto
faa
5
Aplicar o operador de seleo em Pj
6
Gerar a nova populao Pj+1 utilizando os operadores
Critrio de parada no atingido
de recombinao e
mutao.
7
8
j =j+1
Avaliar a aptido das solues em
Pj
empregando
m
Pf inal = Pj
No desenvolvimento de um AG para um problema particular deve-se especicar os
seguintes componentes:
Codicao para as solues potenciais do problema;
Procedimento para criar uma populao inicial;
Funo de aptido para classicar as solues em termos de sua adaptao ao ambiente (sua capacidade de resolver o problema);
Denio dos operadores genticos com base na codicao utilizada;
Determinao dos diversos parmetros do AG, tamanho da populao, probabilidades de aplicao dos operadores genticos e outros.
As prximas Sees apresentam algumas caractersticas importantes dos principais

componentes dos AGs.
46
CAPTULO 3.
3.3.1 Representao das solues

importante que cada indivduo da populao seja capaz de representar completamente
uma possvel soluo do problema tratado. Para isso, todas as variveis da funo objetivo
devem estar representadas em cada indivduo.
Os trabalhos iniciais em AGs propuseram cromossomos formados por cadeias de caracteres binrios. A princpio, qualquer problema poderia ser tratado com operadores de
recombinao e mutao baseados na representao binria. O cromossomo precisa ser
decodicado antes de ser avaliado pela funo de aptido (Haupt e Haupt, 1998). A representao binria do tipo genotpica, dado que existe um mapeamento entre a cadeia de
caracteres (gentipo) e a decodicao de tal cadeia (fentipo), que depende do problema
a ser resolvido (De Jong, 2006). possvel empregar representao binria para codicar
parmetros como nmeros inteiros, reais ou outra estrutura relevante ao problema.
Como exemplo, considere um vetor de variveis contnuas no intervalo
deve ser representado por cadeias binrias de tamanho 3.
representao binria de valores contnuos.
[0; 1]
que
A Tabela 3.1 ilustra uma
De acordo com esta tabela, as variveis
[0, 55; 0, 11; 0, 95; 0, 63] sero representados pela cadeia 100 000 111 101.
A Tabela 3.1 for-
nece a decodicao de valores binrios para contnuos. Os nmeros esquerda e direita

representam os limites superior e inferior para cada trio binrio. Por exemplo, para 111 os
[0, 9375; 1, 000]. Assim, o mesmo indivduo, 100000111101, recuperado como

[0, 500; 0, 00; 0, 875; 0, 625], [0, 625; 0, 125; 1, 00; 0, 750] ou [0, 5625; 0, 0625; 0, 9375; 0, 6875]
limites so
quando se considera, respectivamente, os limites inferior, superior ou a mdia de ambos

os limites. Nota-se que a converso adiciona uma margem de erro a cada varivel.
A grande motivao para o emprego da codicao binria est na Teoria de Esquemas
(Holland, 1992), utilizada para justicar a ecincia dos AGs. Segundo Holland (1975),
a representao binria maximiza o paralelismo implcito inerente ao AG. Contudo, em
diversas aplicaes prticas a codicao binria leva a um desempenho insatisfatrio.
Nos problemas de otimizao com parmetros reais, Michalewicz (1996) e Deb (2001)
apresentam resultados de comparaes do desempenho de AGs com codicao binria
e com ponto utuante. Os resultados apresentados revelam a superioridade da codicao em ponto utuante. Assim, em problemas de otimizao numrica com parmetros
reais, pode-se empregar diretamente o vetor de parmetros numricos ou reais da funo
para determinar os indivduos.
A representao que emprega diretamente as variveis
do problema no indivduo dita fenotpica.
Neste tipo de representao no se tem a
preocupao da decodicao de gentipo para fentipo.
Em contrapartida, empregar
representaes fenotpicas supe o desenvolvimento de operadores de recombinao e mutao especcos ao problema tratado (De Jong, 2006).
A codicao uma das etapas mais crticas na denio de um AG. A denio
inadequada da codicao pode acarretar diversos problemas, entre esses um dos mais
3.3.
ALGORITMOS GENTICOS
47
Tabela 3.1: Tabela de converso de parmetros contnuos para binrio (Haupt e Haupt,
1998).
1,000
0,875
0,750
0,625
0,500
0,375
0,250
0,125
0,000
Valor da varivel
0,55 0,11 0,95 0,63
111
0,9375
110
0,8125
101
100
0,6875
0,5625
011
0,4375
010
0,3125
001
0,1875
000
0,0625
importantes o problema de convergncia prematura.
Em uma srie de problemas de
otimizao com restrio, a codicao adotada pode fazer com que indivduos modicados pela recombinao ou mutao sejam invlidos. Nesses casos, cuidados especiais so
necessrios na denio da codicao e/ou dos operadores (Michalewicz, 1996).
3.3.2 Denio da populao inicial

O mtodo geralmente utilizado na criao da populao a inicializao aleatria dos
indivduos.
Se algum conhecimento inicial a respeito do problema estiver disponvel,
pode ser utilizado na inicializao da populao.
Por exemplo, no caso de codicao
binria, se sabido que a soluo nal vai apresentar mais
00 s
do que
10 s,
tal informao
pode ser utilizada. Por outro lado, em problemas com restries, deve-se tomar cuidado
para no gerar indivduos invlidos na etapa de inicializao.
3.3.3 Operador de seleo

No operador de seleo, os indivduos so escolhidos para participar da produo dos
descendentes da prxima gerao. Indivduos com melhor valor de aptido tm a maior
probabilidade de gerar um ou mais descendentes para a gerao seguinte. Este operador
a verso articial da seleo das espcies do Darwinismo, que estabelece que os seres mais
48
CAPTULO 3.
aptos tm maio probabilidade de sobreviver, ou seja, os mais fortes e menos vulnerveis

aos predadores e doenas.
O objetivo principal da seleo copiar as melhores solues e eliminar solues de
baixa aptido, mantendo tamanho da populao constante (Deb, 2001). Isso realizado
utilizando os seguintes passos:
1. Identicar os melhores indivduos na populao;

2. Realizar mltiplas cpias das solues com aptado mais alta ou de informaes
dessas solues;
3. Eliminar indivduos de baixa aptido da populao.
Os melhores indivduos so armazenados em uma lista de reproduo a ser empregada

pelos operadores de recombinao e mutao. Existem vrias abordagens possveis para o
operador de seleo, sendo as mais comuns so a seleo pelo torneio, seleo proporcional,
e seleo por ranking.
Na seleo por torneio, duas ou mais solues so escolhidas aleatoriamente e a melhor
soluo copiada na lista de reproduo. Este processo repetido at preencher tal lista.
Deb (2001) mostrou que esta estratgia de seleo possui uma convergncia igual ou
melhor que outras abordagens, alm de possuir uma complexidade computacional menor.
Na estratgia de seleo proporcional, o nmero de cpias de uma soluo na lista
de reproduo proporcional ao seu valor de aptido. Para calcular o nmero de cpias
esperado, necessrio obter a probabilidade de cada soluo:
probi =
Apti
N
ind
X
(3.1)
Apti
i=1
sendo que
Apti
a aptido da soluo
de cpias do indivduo
Nind
na lista de reproduo
o tamanho da populao. O nmero
probi Nind .
Ou seja, as solues com
melhor valor de aptido tero mais cpias na lista de reproduo. O escalonamento um

problema associado com esta estratgia.
Quando existe uma soluo com um valor de
aptido muito maior comparado com o resto da populao, esta super-soluo ter uma
probabilidade de escolha perto de 1, e ter cpias muitas cpias. Caso todas as solues
possuam valores similares de aptido, a probabilidade de serem escolhidas ser a mesma,
e cada uma ser copiada na lista de reproduo. Isso equivalente a no realizar operao
de seleo.
A estratgia de seleo pelo
ranking
ranking
valor de aptido, desde a pior soluo (
ordena as solues da populao conforme ao seu

1) at a melhor (
ranking N
rank ). O nmero
3.3.
ALGORITMOS GENTICOS
49
de copias de uma soluo proporcional ao seu valor de
ranking
Esse procedimento
minimiza o problema apontado na estratgia anterior.

A escolha da estratgia de seleo importante devido inuncia na diversidade dos
indivduos da populao no decorrer do AG. Cada estratgia possui um certo grau de
presso de seleo, ou seja, a nfase com que o operador de seleo escolhe os melhores
indivduos da populao (Deb, 2001).
Uma forma de aumentar a presso de seleo
utilizando o elitismo, que consiste em copiar diretamente um ou vrios dos melhores

indivduos populao atual para a populao seguinte. Assim, as melhores solues so
sempre preservadas na gerao seguinte. Contudo, se a presso de seleo for muito forte,
provvel que o AG convirja para uma regio subtima do espao de busca, dado que
os indivduos da populao possuiro pouca diversidade (De Jong, 2006). Desta forma,
pode-se dizer que o mecanismo de seleo determina o grau de renamento das boas
solues, enquanto os operadores de recombinao e mutao inuenciam na explorao
do espao de busca.
3.3.4 Operador de recombinao

No operador de recombinao, em geral, so criados dois novos indivduos (lhos) empregando dois indivduos (pais) escolhidos da lista de reproduo. A idia intuitiva da
recombinao a troca de informao entre diferentes solues pais. Comumente atribuda uma probabilidade xa de ocorrer recombinao aos indivduos da populao. Uma
forma de recombinao muito empregada na representao binria a recombinao de
um ponto. Nesse operador, um ponto de corte na posio
vide os pais em dois segmentos cada um.
da cadeia de caracteres di-
Os dois indivduos descendentes so criados
trocando as cadeias parciais dos pais. Assim, um descendente (lho 1) formado pela
combinao das subcadeias nas posies
1...j
do pai 1, e
j + 1...n
do pai 2. O outro
descendente (lho 2) formado pela concatenao das subcadeias nas posies

pai 2, e
j + 1...n
1...j
do
do pai 1. A Figura 3.1 mostra um exemplo da recombinao de um
ponto.
Antes do
cruzamento
Pai
11011010100
Aps o
cruzamento
11011010010
Filho 1
00101010100
Filho 2
posio do
cruzamento
Me 00101010010
Figura 3.1: Operador de Recombinao de um ponto.
50
CAPTULO 3.
Com a combinao das caractersticas dos pais esperado que as solues descendentes possuam um melhor valor aptido que os seus ancestrais. O motivo de tal espectativa
que as solues pais sejam escolhidas pela seleo, a qual enfatiza os melhores indivduos. Solues pais representam indivduos que sobreviveram seleo e, portanto, a sua
aptido relativamente boa. Contudo, nem sempre so gerados descendentes superiores
aos pais, pois o ponto de corte pode dividir o indivduo de forma que os segmentos de
boa aptido sejam quebrados. Em tal caso, tais indivduos tendem a ser eliminados na
prxima operao de seleo (Deb, 2001).
Uma extenso simples da recombinao de um ponto empregar dois ou mais pontos
de corte. Para esta classe de operadores de recombinao a diversidade produzida pela gerao de descendentes depende do nmero de pontos de corte e da semelhana das solues
pais. A diversidade na populao introduzida pela recombinao diminui no decorrer das
iteraes dado que o operador de seleo faz com que os indivduos da populao sejam
mais homogneos, pois os melhores indivduos produzem mais descendentes espalhando
suas caractersticas pela populao (De Jong, 2006). Outro tipo de recombinao muito
comum denominada uniforme (Sywerda, 1989). Em tal operador, o valor de qualquer
posio do cromossomo de um dos descendentes pode ser obtido tanto de um pai quanto
do outro (tal deciso feita estocasticamente para cada posio). Conseqentemente, a
recombinao uniforme permite combinar caractersticas dos pais independentemente da
sua posio no cromossomo.
No caso das representaes fenotpicas, h uma srie de operadores de recombinao
especcos propostos na literatura (Deb, 2001). Por exemplo, no caso de nmero reais,
tm sido propostos a recombinao aritmtica, de mistura, simulao binria,
fuzzy
, en-
tre outras (Deb, 2001). De acordo com Deb (2001), o desempenho de um determinado
tipo de recombinao fortemente dependente do tipo de problema. Assim, um tipo de
operador que particularmente eciente para uma determinada classe de problemas pode
ser ineciente para outras.
3.3.5 Operador de mutao

A mutao um operador que produz uma alterao aleatria em um gene de um indivduo.
A probabilidade de aplicao deste operador denominada taxa de mutao.
Usualmente, so atribudos valores pequenos para este parmetro. A idia intuitiva do

operador de mutao criar uma variabilidade extra na populao, mas sem destruir o
progresso j obtido com a busca. Alm disso, as alteraes introduzidas pelos operador de
mutao podem evitar a convergncia prematura do AG, ou seja, que a populao esteja
estabilizada em regies subtimas do espao de busca.
Considerando a codicao binria, o operador de mutao geralmente inverte o valor
de uma posio do cromossomo. Se a posio escolhida tem valor um, o seu valor passar a
3.3.
ALGORITMOS GENTICOS
51
ser zero aps a aplicao da mutao e viceversa. No caso das representaes fenotpicas,
como vetores de nmeros reais, existe uma srie de tipos de mutao propostos na literatura (Deb, 2001) tal como uniforme, no uniforme, ou Gaussiana (similar ao operador
empregado nas EEs).
Enquanto o operador de recombinao explora as regies trocando informaes das
solues j encontradas; a mutao introduz continuamente mudanas que pode aumentar
a diversidade entre os indivduos, permitindo a explorao de novas regies do espao de
busca. Tanto nos AGs como nos outros tipos de AEs, importante que exista um equilbrio
entre a explorao de novas regies e o renamento de solues em regies mais exploradas
do espao de busca. Assim, o nvel de renamento pode ser controlado basicamente pelo
operador de seleo; enquanto o grau de explorao pode se ajustado pela escolha dos
mecanismos de recombinao e mutao (De Jong, 2006).
3.3.6 Exemplo do uso de um AG

Para exemplicar o funcionamento dos AGs, considere o problema de encontrar o mximo
da funo (Haupt e Haupt, 1998):
f (x, y) = 21, 5 + xsen(4x) + ysen(20y)

Suponha que a soluo que se busca tem coordenadas
x e y.
(3.2)
Essas coordenadas repre-
sentam o ponto de mximo da funo. A superfcie gerada por esta funo possui vrios
picos e vales, caracterizando assim um problema com possibilidades de convergncia para
pontos de mximo local. A Figura 3.2 ilustra uma projeo suavizada desta superfcie.
f(x,y) = 21.5+x*sin(4*pi*x) + y*sin(20*pi*y)
40
35
30
25
20
15
10
5
0
-2
10
12
Figura 3.2: Superfcie suavizada da funo
4.2
4.4
4.6
f (x, y)
4.8
5.2
5.4
5.6
5.8
(Haupt e Haupt, 1998).
52
CAPTULO 3.
Tabela 3.2: Populao inicial do AG.

Soluo
1
2
3
4
5
6
7
8
9
10
8,55696 4,84176
-2,14217 5,44308
1,96259 4,79317
-0,40211 4,26638
-0,53782 5,08256
10,91246 5,41764
-1,36431 5,46409
3,44358 4,88583
1,88679 5,47073
6,35054 5,38383
Aptido mdia
Aptido
29,51089
25,88302
18,61883
17,46505
17,22745
16,63308
15,91625
15,80166
14,35801
10,87223
18,22865
Tabela 3.3: Segunda gerao do AG.

Soluo
1
2
3
4
5
6
7
8
9
10
8,55305 5,42428
8,55281 5,42428
1,00293 5,43068
8,55696 4,59307
8,55305 5,68915
8,55696 4,57343
-2,14217 4,26627
-1,78296 4,79338
-0,40211 5,96177
-0,40211 4,26607
Aptido mdia
Aptido
32,20755
32,18789
26,62459
25,17936
23,20583
22,56428
19,95104
18,84688
18,30942
17,50904
23,65859
O AG utilizado segue as caractersticas do AG simples denido por Goldberg (1989).

Este algoritmo comea gerando uma populao inicial aleatria. Os indivduos so ordenados de acordo com o seu valor de aptido calculado pela Equao 3.2. Alguns, entre os
melhores, so selecionados para a recombinao. Os indivduos da nova populao tambm so ordenados. Aps esta etapa, os operadores de seleo, recombinao e mutao
so repetidos at a convergncia do algoritmo.
As Tabelas 3.2, 3.3 e 3.4 apresentam a
populao inicial e as populaes referentes segunda e dcima gerao respectivamente.

A Figura 3.3 ilustra a distribuio dos indivduos ao longo da superfcie. As geraes 0
(Ger 0), 50 (Ger 50), 100 (Ger 100), 150 (Ger 150) e 200 (Ger 200) tambm so mostradas
nesta gura. A Figura 3.4 apresenta um grco da funo aptido calculada em diferentes
geraes, incluindo os valores de mximo e mnimo, alm da mdia e desvio padro.
3.3.
ALGORITMOS GENTICOS
53
Tabela 3.4: Dcima gerao do AG.
Soluo
1
2
3
4
5
6
7
8
9
10
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42407
8,55305 5,42407
8,52355 5,42428
8,78899 5,42428
8,55305 4,57426
Aptido mdia
Aptido
32,20755
32,20755
32,20755
32,20755
32,20755
32,20368
32,20368
29,40521
22,78260
22,21939
29,98523
Geraes do Algoritmo Gentico

f(x,y) = 21.5+x*sin(4*pi*x) + y*sin(20*pi*y)
Aptido
Ger 0
Ger 50
Ger 100
Ger 150
Ger 200
40
35
30
25
20
15
10
5
0
4
x
10
12
5.8
5.6
5.4
5.2
5
4.8
y
4.6
4.4
4.2
Figura 3.3: Indivduos distribudos sobre a superfcie da funo
f (x, y).
3.3.7 Diferenas entre os AGs e as tcnicas de otimizao tradicionais

As principais caractersticas do funcionamento dos AGs descritos nas sees anteriores
mostram vrias diferenas dos AGs em relao s tcnicas de otimizao tradicionais.
Goldberg (1989) e Deb (2001) destacam as seguintes propriedades:
O fato dos AGs poderem empregar representao binria que codica os parmetros
de um problema determinado, permite a sua aplicao para um escopo de aplicaes
bastante amplo;
Os operadores de seleo, recombinao e mutao permitem o aproveitamento das

semelhanas entre cadeias binrias para uma busca efetiva no espao das solues;
54
CAPTULO 3.
Execuo do Algoritmo Gentico

40
35
Aptido
30
25
20
15
10
5
0
0
50
100
Geraes
Mdia
Max
150
200
Min
Desv.Padro
Figura 3.4: Grco da aptido calculada em relao as geraes.
Os AGs trabalham com uma populao de solues ao invs de uma nica soluo.
Em cada iterao os AGs processam um
conjunto de solues
, esta caracterstica
denominada de paralelismo implcito. O processo de busca , portanto, multidirecional, com a manuteno de solues candidatas que representam a busca em vrias
partes do domnio e com troca de informaes entre essas solues;
Os AGs no precisam de informao adicional (por exemplo, derivadas da funo

objetivo) a no ser o valor de aptido das solues. Isso torna possvel a aplicao
dos AGs a problemas nos quais no se tm informaes
a priori
Os AGs empregam regras probabilsticas para guiar sua busca. Por exemplo, o operador de seleo baseado na aleatoriedade de duas solues (seleo pelo torneio),
ou na probabilidade de escolha (seleo proporcional) dessas solues. O operador
de mutao procura evitar que os AGs parem em timos locais, mudando a busca
para outra regio do espao. Alm disso, as solues da populao inicial so escolhidas aleatoriamente. Em contrapartida, uma tcnica de otimizao determinstica
no ter como escapar de timos locais, em caso de uma deciso ruim sobre a direo
da busca.
A possibilidade de trabalhar com vrias solues simultaneamente, de no precisar de

informaes adicionais e poder evitar timos locais fazem dos AGs uma tcnica promissora
para ser empregada nos problemas de reconstruo logentica. A Seo 3.4 aborda este
tema.
3.4.
ALGORITMOS EVOLUTIVOS APLICADOS A FILOGENIA
55
3.4 Algoritmos evolutivos aplicados a logenia

A aplicao de AEs no problema de logenia relativamente recente.
A maioria dos
trabalhos de reconstruo logentica utilizando AEs empregam o critrio de mxima

verossimilhana, embora existam trabalhos dedicados ao critrio de parcimnia e distncias.
Nas prximas subsees, os principais trabalhos de AGs aplicados a logenia so
brevemente apresentados procurando destacar as principais contribuies de cada um.
3.4.1 Aplicao de AEs com o critrio de mxima verossimilhana

Matsuda (1996) foi o primeiro a propor um AG para a reconstruo de rvores logenticas. O AG proposto avalia as solues segundo o critrio de mxima verossimilhana
para seqncias de aminocidos. O AG emprega um operador de recombinao que troca
subrvores de duas solues baseando-se no princpio de evoluo mnima (Cavalli-Sforza
e Edwards, 1967). Um dos problemas deste operador que requer a otimizao prvia
dos comprimentos de ramos das rvores escolhidas para recombinao, o que resulta em
lentido no processo. Consequentemente, o AG no determina os comprimentos de ramos timos, seno que emprega tal informao para buscar a melhor topologia da rvore.
Matsuda comparou os resultados do seu modelo contra as solues obtidas a partir do
programa PHYLIP (Felsenstein, 2000b) e algoritmos de agrupamento, obtendo resultados
melhores ou comparveis.
Em um trabalho posterior, Lewis (1998) desenvolveu o software GAML (do ingls
Genetic Algorithm for Maximum Likelihood Phylogeny Inference
).
Diferentemente do
trabalho de Matsuda (1996), o GAML emprega seqncias de nucleotdeos para o calculo

da aptido das solues segundo o modelo de substituio HYK85 (Hasegawa et al., 1985).
No GAML, as rvores inicias so geradas aleatoriamente, os comprimentos dos ramos so
xados em valores arbitrrios, e o parmetro
do modelo HKY85 iniciado com um
valor predeterminado Aps a avaliao dos indivduos pelo operador de seleo baseado
em
ranking ,
o operador de recombinao (mostrado na Figura 3.5) efetua uma troca de
subrvores de duas solues pais a m de gerar duas novas solues. O GAML possui dois
operadores de mutao: um operador de mutao topolgica que faz uma movimentao
de tipo SPR na rvore e um operador de mutao de comprimentos de ramos, que vai
alterando tais valores durante a execuo do AG.
Nos experimentos, o GAML foi comparado com o software PAUP* (Swoord, 2000)
(verso 3.1).
O GAML foi capaz de fornecer resultados comparveis ao PAUP* num
tempo de execuo muito menor. O GAML serviu de base para futuros desenvolvimentos
do algoritmo (Brauer et al., 2002) e novas propostas de AEs (Mak e Lam, 2003; Zwickl,
2006).
56
CAPTULO 3.
Pai 1
Pai 2
A
H
F
C
A
E
C
G
A
G
remover
Figura 3.5: Operador de recombinao implementado no GAML (Lewis, 1998).
Katoh et al. (2001) desenvolveram o programa GA-mt, que uma implementao

paralela de um AE utilizando a biblioteca PVM (Geist et al., 1994).
O GA-mt ava-
lia a verossimilhana das solues (considerando a heterogeneidade de taxas nos stios)

conforme ao modelo de substituio JTT (Jones et al., 1992) aplicado a seqncias de
aminocidos. O AG implementado nesse programa da classe de algoritmos de
estacionrio steady state

(
estado
): aps a iterao inicial, cria-se apenas uma nova soluo para
nova gerao, mantendo o restante de solues da populao anterior.
A nova soluo
gerada entra na populao se a sua aptido for melhor que a aptido de algum outro indivduo. Assim, o GA-mt fornece um conjunto de solues alternativas (no duplicadas).
As rvores da populao inicial so geradas pelos algoritmos de distncia NJ (Saitou e Nei,
1987) ou WNJ (Bruno et al., 2000). O operador de recombinao no GA-mt similar ao
proposto no GAML; enquanto o operador de mutao faz uma modicao topolgica do
tipo TBR ou NNI. Segundo os autores, garantir a diversidade das solues um processo
de alto custo computacional, razo pela qual tal processo efeituado em paralelo. Nos
experimentos, o GA-mt mostrou-se muito rpido em relao a heursticas implementadas
nos programas MOLPHY (Adachi e Hasegawa, 1996), fastDNAML (Olsen et al., 1994) e
PHYLIP (Felsenstein, 2000b). Alm disso, o GA-mt foi comparado com mtodos de inferncia baseados em distncias como NJ (Saitou e Nei, 1987) e WNJ (Bruno et al., 2000),
mostrando resultados mais consistentes quando se considerou o tamanho do conjunto de
dados testado.
O trabalho de Lemmon e Milinkovitch (2002a,b) descreve o algoritmo METAPIGA, o
qual introduz vrias inovaes em relao aos trabalhos anteriores. O METAPIGA um
AG que possui vrias subpopulaes (chamadas meta-populaes) que ao invs de evoluir
3.4.
57
independentemente, colaboram na busca da rvore de mxima verossimilhana. As rvores das populaes iniciais podem ser geradas por mtodos aleatrios ou por amostragem
de dados
jacknif e
(Yang, 2006) usado conjuntamente com o mtodo de agrupamento
NJ (Saitou e Nei, 1987). METAPIGA tambm permite escolher entre vrias abordagens
para o mtodo de seleo. Um outro elemento chave no algoritmo o processo denominado
poda por consenso
(CP, do ingls
consensus prunning
), o qual identica as regies de
consenso (parties) das rvores contidas nas subpopulaes. As regies de consenso so

xadas no decorrer as iteraes tal que no podem ser modicadas pelos operadores de
recombinao ou mutao. Desta forma, os operadores genticos so guiados pelas comparaes das melhores solues entre as subpopulaes. Uma conseqncia da utilizao
do CP, que o nmero de regies de consenso aumenta a medida que o algoritmo itera;
enquanto o nmero de modicaes permitidas diminui. Conseqentemente, o espao de
busca progressivamente reduzido levando a uma convergncia rpida do algoritmo. A
Figura 3.6 mostra como funciona a poda por consenso em duas rvores, bem como as operaes permitidas nas regies de consenso. O operador de recombinao do METAPIGA
baseado na troca de regies de consenso entre duas solues, como mostrado na Figura 3.7. O METAPIGA fornece vrias formas mutao topolgica (alm das conhecidas
NNI, SPR e TBR) e de comprimento de ramos. As taxas dos operadores de recombinao
e mutao podem ser gerenciadas dinamicamente conforme a contribuio que cada operador faz para a melhora da aptido das solues. O critrio de parada por defeito naliza
a execuo do AG quando no existem mais modicaes topolgicas possveis, embora
seja permitido escolher outros critrios. Ao nal da execuo do METAPIGA, se realiza a
otimizao nal dos comprimentos de ramos e dos parmetros do modelo empregado. Nos
experimentos, o METAPIGA foi comparado com os programas PAUP* (Swoord, 2000) e
Mr.Bayes (Huelsenbeck e Ronquist, 2001) empregando conjuntos de dados de seqncias
de nucleotdeos. Os resultados mostraram que o METAPIGA bem mais rpido que as
heursticas convencionais, porm o ganho de desempenho depende do modelo substituio
utilizado. Alm disso, comparado a outras implementaes, o METAPIGA fornece uma
interface grca funcional e amigvel para o usurio.
Ge-
A tese de doutorado de Zwickl (2006) prope o algoritmo denominado GARLI (
netic Algorithm for Rapid Likelihood Inference
). O GARLI foi projetado para melhorar
o desempenho em relao a abordagens similares, permitindo analisar maiores bancos de

seqncias em perodos de tempo menor. Tais objetivos so atingidos mediante uma srie
de inovaes que permitem realizar a busca topolgica e a otimizao dos comprimentos
de ramo de forma eciente. Nessa ltima tarefa, reduz-se signicativamente o nmero de
operaes numricas requeridas. Na iterao inicial do GARLI, as solues da populao
inicial podem ser geradas aleatoriamente ou especicadas pelo usurio. Posteriormente,
so otimizados os parmetros do modelo substituio GTR, o parmetro
para a hete-
rogeneidade dos stios, a porcentagem de stios invariantes e os comprimentos de ramos
58
CAPTULO 3.
E
A
E
B
G
D
I
L
O
J
J
N
M
operaes permitidas
regies de consenso
operaes no permitidas
Figura 3.6: Exemplo do consenso por poda para duas rvores. As regies de consenso
denem as operaes de troca de ramos e folhas que so permitidas (Lemmon
e Milinkovitch, 2002a).
trocar regies de consenso

A
G
G
E
C
E
G
E
C
E
F
filho 1
A
filho 2
Figura 3.7: Operador de recombinao do METAPIGA (Lemmon e Milinkovitch,

2002a).
3.4.
das topologias iniciais. O GARLI emprega um esquema de seleo baseado em
59
ranking
que permite controlar a presso seletiva. A melhor soluo automaticamente escolhida

e copiada diretamente para nova populao (elitismo), enquanto os demais indivduos
so escolhidos aleatoriamente para serem processados pelos operadores de recombinao e
mutao. Os tipos de mutao implementados so topolgica, de parmetros de modelo e
de comprimentos de ramos. A mutao topolgica realiza mudanas do tipo NNI e SPR,
esta ltima pode ser controlada por um parmetro que limita a distncia entre os pontos
de poda e reinsero da subrvore. A mutao do parmetros do modelo de substituio
e dos comprimentos de ramos multiplica tais valores por um nmero aleatrio obtido de
uma distribuio
com mdia 1 e parmetro
especicado. As taxas de aplicao dos
operadores de mutao so modicadas dinmicamente no decorrer das iteraes. Assim,

os operadores de mutao do modelo de substituio, que so caros computacionalmente,
so efetuados apenas quando um ganho signicativo de aptido esperado.
Uma das contribuies mais importantes do GARLI o proposta de otimizao dos
comprimentos de ramos. Tal mtodo controlado por um parmetro, denominado
b , que
determina o ganho mnimo na verossimilhana aps aplicar otimizao para um ramo. Se

o ganho no ultrapassar
b , ento o ramo no otimizado.
Assim, o nmero de operaes
numricas necessrias consideravelmente reduzido. A otimizao de comprimentos de

ramos realizada em cada modicao topolgica do tipo SPR. Primeiramente, so otimizados os ramos diretamente afetados pelo operador SPR (ou seja, os ramos adjacentes
ao ponto de poda e reinsero da rvore). Aps isso, as otimizaes so propagadas em
ramos adjacentes aos anteriormente otimizados, de forma recursiva, desde que o ganho na
verossimilhana seja maior que
b .
Finalmente, todos os ramos que foram modicados
no processo anterior so reotimizados. O parmero
diminudo progressivamente no
decorrer das iteraes do GARLI at que um certo valor mnimo atingido. A Figura 3.8
mostra um exemplo do processo de otimizao de comprimento de ramos adotado no
GARLI. Aps uma modicao topolgica SPR, so otimizados os ramos indicados pelas
linhas ponteadas (b1 da subrvore podada e b2, que dividido em b1a e b2a aps a
reinsero). Posteriormente, os ramos adjacentes a b1,b2a, e b2b (indicados com setas)
so otimizados recursivamente.
Existem 3 critrios de parada da execuo do GARLI:
1. Se as modicaes topolgicas no encontram uma soluo signicativamente melhor
durante um nmero especicado de iteraes;
2. Se as melhoras atingidas forem menores que um certo valor;
3. Se o parmetro
atingiu um valor mnimo.
Ao nal da execuo do GARLI, feito um ltimo ajuste dos comprimentos de ramos

das solues contidas na populao nal.
Nos experimentos, comparou-se o desempe-
60
CAPTULO 3.
Modificao SPR
b2
b1
b1
b2a
b2b
Figura 3.8: Algoritmo para otimizao de comprimentos de ramos de GARLI (Zwickl,

2006).
nho do GARLI contra o PHYML (Guindon e Gascuel, 2003) e o RAxML (Stamatakis,

2005) (verso V) em vrios bancos de nucleotdeos de diferentes graus de diculdade.
Os resultados mostraram que o GARLI produz resultados mais consistentes em bancos
de seqncias maiores comparado aos concorrentes. O GARLI conta tambm com uma
verso paralela do tipo mestre-escravo, chamada de P-GARLI. O funes do processo
mestre so controlar a evoluo do algoritmo, coletar as solues dos processos escravos,
determinar a migrao de indivduos e efetuar o operador de recombinao das solues
encontradas. Os processos escravos realizam o mesmo procedimento que a verso serial
do algoritmo, comunicando-se com o mestre para enviar-lhe a melhor soluo encontrada.
Existem ainda outros trabalhos que utilizam AEs para o critrio de mxima verossimilhana. Mais informaes pode ser encontrada na literatura pertinente (Prado, 2002;
Skourikhine, 2000).
3.4.2 Aplicao de AEs com o critrio de mxima parcimnia

O trabalho de Moilanen (1999, 2001) apresenta o programa PARSIGAL, que emprega AGs
e o critrio de mxima parcimnia na construo de rvores logenticas. O PARSIGAL
um algoritmo hbrido que combina o operador recombinao com estratgias de busca
local.
O operador de recombinao baseado em troca de subrvores.
No lugar do
operador de mutao, realizada uma busca de tipo NNI e TBR nas solues encontradas
pelo algoritmo. Assim, enquanto o AG dene a regio do espao de busca que contm
a soluo tima, o operador de busca local permite chegar a tal timo de forma rpida.
Uma outra contribuio relevante desse trabalho a proposta de uma abordagem eciente
para calcular o valor de parcimnia mediante operaes lgicas de bits. De acordo com
o autor, o desempenho do PARSIGAL foi comparvel a de programas que empregam o
critrio de parcimnia como o NONA (Golobo, 1999a,b) e o Hennig86 (Farris, 1988).
3.5.
CONSIDERAES FINAIS
61
O programa GAPhyl descrito pela srie de trabalhos de Congdon (2002); Congdon

e Greenfest (2000); Congdon e Septor (2003). O AG proposto avalia as solues segundo
o critrio de parcimnia de Wagner (Farris, 1970). O GAPhyl usa vrias subpopulaes
que evoluem de forma independente.
A cada certo nmero de iteraes, um conjunto
de solues trocado entre as vrias subpopulaes.
O intervalo entre cada migrao
e o nmero de solues a serem migradas so fornecidos como parmetros do AG. Esse

mecanismo evita a convergncia prematura para solues subtimas. Nos experimentos,
o GAPhyl foi comparado como o PHYLIP (Felsenstein, 2000b) para seqncias de nucleotdeos. Porm, conforme aos autores do trabalho, os resultados obtidos no indicam os
possveis benefcios da aplicao do AG.
Existem ainda outros trabalhos relativos ao emprego de AEs no problema de logenia,
que utilizam critrios de otimalidade baseados em medidas de distncia (Cotta e Moscato,
2002; Reijmers et al., 1999).

Neste Captulo foi introduzida a Computao Evolutiva como uma rea de pesquisa que
abrange um conjunto de algoritmos que tem por base simular ou reproduzir princpios
da gentica e evoluo natural. Neste contexto, os AGs tm-se destacado como tcnicas
de busca e aprendizado de mquina que tm sido intensamente aplicadas a problemas
de otimizao. O funcionamento de um AG, os seus principais componentes, as formas
de representar as solues, os principais tipos de operadores de seleo, recombinao e
mutao foram apresentados. Alm disso, foram ressaltadas as principais caractersticas
dos AGs que os diferenciam de tcnicas de otimizao tradicionais.
Como explicado no Captulo 2, o problema de reconstruo logentica pode ser visto
como um problema de otimizao, onde um determinado critrio de otimalidade avalia
as solues no espao de busca de topologias.
Assim, o emprego de AEs surge como
uma alternativa vivel para tratar este problema devido a suas diculdades inerentes.
Uma reviso bibliogrca da aplicao dos AEs para encontrar as rvores de mxima
verossimilhana e mxima parcimnia foi apresentada. Em tais trabalhos, a aplicao dos
AEs est restringido ao emprego de um critrio de otimalidade para avaliar as topologias.
Contudo, problemas com vrios objetivos so comuns em aplicaes reais.
de AEs pode ser estendido para tais problemas.
O emprego
O prximo Captulo apresenta uma
abordagem de AEs para problemas com vrios objetivos a serem otimizados.
62
CAPTULO 3.
Captulo
4
Algoritmos evolutivos para
otimizao multi-objetivo
4.1 Introduo
A otimizao multi-objetivo aborda os problemas de otimizao que possuem vrios objetivos a serem simultaneamente atingidos. Para este tipo de problema, existe um conjunto
de solues que representa um compromisso entre os objetivos. Diversas tcnicas de otimizao tradicionais tm sido propostas na literatura (Coello et al., 2002; Deb, 2001).
Embora essas tcnicas garantam encontrar o conjunto de solues timas, em geral, precisam de bastante conhecimento sobre o espao de busca do problema.
Devido a esta
limitao uma srie de tcnicas heursticas e estocsticas tm sido desenvolvidas dentre

as quais tm-se destacado os AEs (Coello et al., 2002; Deb, 2001).
O restante deste Captulo est organizado em 5 sees.
principais conceitos tericos sobre otimizao multi-objetivo.
A Seo 4.2 apresenta os

A Seo 4.3 descreve as
principais tcnicas de otimizao tradicional empregadas nos problemas de otimizao

multi-objetivo. A Seo 4.3 apresenta os AEs para otimizao multi-objetivo destacando
o algoritmo NSGA-II (Deb et al., 2000). A Seo 4.5 mostra uma reviso das principais
abordagens multi-objetivo aplicados a logenia.
principais pontos considerados neste Captulo.
63
Finalmente, a Seo 4.6, sintetiza os
64
CAPTULO 4.
AES PARA OTIMIZAO MULTI-OBJETIVO
4.2 Otimizao multi-objetivo

Esta Seo introduz vrios conceitos e propriedades dos problemas de otimizao multiobjetivo (MOOPs, do ingls
Multi-objective Optimization Problems
) (Coello et al., 2002;
Deb, 2001) envolvendo a modelagem formal de MOOPs, as caractersticas das solues

para esses problemas e as diferenas entre otimizao simples de multi-objetivo.
4.2.1 Formulao
Um MOOP possui um conjunto de funes objetivo a serem otimizadas (maximizar ou
minimizar).
Alm disso, possui restries que devem de ser satisfeitas para que uma
soluo seja factvel para o problema. O enunciado geral de um MOOP o seguinte (Deb,
2001):
maximizar/minimizar
restrita a
onde
um vetor de
Nvar
soluo
so espao de deciso S
minado de
fm (x),
gj (x) 0,
hk (x) = 0,
(sup)
(inf )
xi xi ,
xi
m = 1, 2, . . . , Nobj
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,
(4.1)
x = (x1 , x2 , . . . , xNvar )T
tambm deno(sup)
xi
representam os limites inferior e superior,
variveis de deciso
(inf )
. Os valores xi
e
espao de variveis de deci-
xi . Esses limites denem o

ou
dec . As NR des desigualdades (gj ) e as NR igu igualdades (hk )
so chamadas de funes de restrio. Uma soluo x factvel satisfaz as NR igu + NR des
funes de restrio e os 2Nvar limites. Caso contrrio, a soluo no ser factvel. O
conjunto de todas as solues factveis formam a
ou
Sf act .
respectivamente, para a varivel
regio factvel espao de busca
Cada funo
fm (x)
pode ser maximizada ou minimizada. Porm, para trabalhar com
os algoritmos de otimizao, necessrio converter todas as funes para serem apenas

maximizao ou minimizao. O vetor funes objetivo
compe um espao multidimensional chamado
no espao de deciso, existe um
f (x)
espao de objetivos
Sobj .
em
f (x) = (f1 (x), f2 (x), . . . , fNobj (x)

Sobj . Para cada soluo
Esta uma diferena fundamental em
relao otimizao de objetivos simples, cujo espao de objetivos unidimensional. O

mapeamento ocorre ento entre um vetor
dimenso
Nobj ).
(de dimenso
Por exemplo, se cada elemento de
estaria mapeada como
f (x) : R
Nvar
Nobj
Nvar )
e um vetor
x e f (x) so nmeros reais,
f (x)
ento
(de
f (x)
4.2.
OTIMIZAO MULTI-OBJETIVO
65
4.2.2 Solues Pareto-timas

Em um MOOP, emprega-se o conceito de dominncia de Pareto para comparar duas
solues factveis do problema. Dadas duas solues
(denotado como
x 1 x2 )
x1
x2 ,
diz-se que
x1
domina a
x2
se as seguintes condies so satisfeitas:
1. A soluo
x1
pelo menos igual a
2. A soluo
x1
superior a
x2
x2
em todas funes objetivo;
em pelo menos uma funo objetivo.
As funes objetivo empregadas nos MOOPs so em geral
conitantes
entre sim. Uma
f1 conitante com uma outra funo f2 quando no possvel melhorar o

valor de f1 sem piorar o valor da funo f2 . Um exemplo prtico de objetivos conitantes
funo objetivo
so preo e desempenho na compra de equipamentos, por exemplo, de computadores.

Os computadores de maior custo so usualmente os de melhor desempenho e vice-versa.
Assim, em uma compra devem ser considerados vrios modelos de computadores com
diversos valores nos objetivos de preo e desempenho.
Se ambos os objetivos possuem
a mesma importncia, no h como armar, por exemplo, que certa reduo do preo
compensa certa perda de desempenho. Assim, existe um conjunto de solues que possuem
vantagens em desempenho mas que no so melhores em custo e vice-versa. Ou seja, existe
um conjunto de alternativas timas que so
e desempenho.
no dominadas
entre sim nos objetivos custo
Em um MOOP, o conjunto de solues no dominadas chamado de
conjunto Pareto-timo
de Pareto
, o qual representa as solues timas do problema.
fronteira
o conjunto de valores das funes objetivo das solues do conjunto Pareto-
timo.
A Figura 4.1 mostra os valores de preo e desempenho (de 0 a 100) de vrios
alternativas para o exemplo de compra de computadores. Nessa Figura so mostradas a

relao de dominncia entre as solues, o conjunto Pareto-timo e a fronteira do Pareto.
Fronteira de Pareto
10.000
Preo
7500
Relaes de dominncia
3 2, 5 1, 5 2
Conjunto Pareto-timo = {3, 4, 5}
1
5
5.000
2.500
20
40
60
80
100
Performance
Figura 4.1: Exemplo que ilustra o preo e a desempenho de vrias opes (15) de
compra de computadores.
66
CAPTULO 4.
4.2.3 Metas em otimizao multi-objetivo

Se a informao adicional sobre importncia relativa dos objetivos desconhecida, todas as
solues Pareto-timas so igualmente importantes. Deb (2001) assinala duas importantes
metas em otimizao multi-objetivo:
1. Encontrar um conjunto de solues que esteja o mais prximo possvel da fronteira
de Pareto;
2. Encontrar um conjunto de solues com a maior diversidade possvel.
A primeira meta comum a qualquer processo de otimizao.
tantes da fronteira de Pareto no so desejveis.
Solues muito dis-
Por outro lado, encontrar a maior
diversidade dentro das solues uma meta especca para a otimizao multi-objetivo.
A Figura 4.2(a) mostra uma distribuio quase uniforme de solues na fronteira de Pareto. A Figura 4.2(b) apresenta a fronteira com as solues apenas em algumas regies,
isto , com baixa diversidade. necessrio assegurar a maior cobertura possvel da fronteira, buscando um conjunto de solues comprometidas com os objetivos desejados.
Como em MOOP trabalha-se com o espao de decises e o espao de objetivos, tambm
desejvel que as solues estejam adequadamente distribudas em ambos os espaos. Em
geral, a diversidade em um desses espaos garante tambm a diversidade no outro. Para
alguns problemas, entretanto, isso no acontece.
f2
f2
Fronteira dePareto
f1
(a)
Fronteira dePareto
f1
(b)
Figura 4.2: Diferentes distribuies de solues na fronteira de Pareto.
4.2.4 Diferenas com a otimizao de objetivos simples

Deb (2001) identica trs importantes aspectos que diferenciam a otimizao multiobjetivo e a otimizao de objetivo simples:
4.3.
TCNICAS TRADICIONAIS PARA MOOP
67
1. Em problemas de otimizao com um nico objetivo, a meta encontrar uma soluo

tima global. Se a funo objetivo desses problemas fosse multimodal, pode existir
mais de um timo global. Neste caso, todos os timos so equivalentes. Por outro
lado, em MOOP, determinar o conjunto de solues da fronteira de Pareto to
importante quanto preservar a diversidade neste conjunto. Um algoritmo eciente
para otimizao multi-objetivo deve considerar ambos os aspectos;
2. Um MOOP trabalha com dois espaos (das variveis e dos objetivos) ao invs de
um. Problemas de objetivo simples trabalham unicamente no espao de variveis,
pois procuram apenas uma soluo no espao de objetivos. Manter a diversidade em
ambos espaos complica mais o problema, dado que a proximidade de duas solues
no espao de variveis
no implica
proximidade no espao de objetivos.
3. Os mtodos tradicionais de otimizao multi-objetivo reduzem o conjunto de funes

objetivo a uma funo simples a qual pondera cada objetivo. Estes mtodos podem
tambm tratar cada objetivo separadamente, utilizando os demais objetivos como
restries. Portanto, um MOOP pode ser convertido por meio de algumas tcnicas,
em um problema de otimizao simples.
4.3 Tcnicas tradicionais para MOOP

Nesta Seo sero descritas as principais tcnicas tradicionalmente utilizadas em MOOP:
somatrio de pesos (Seo 4.3.1), mtodo de restries
(Seo 4.3.2) e programao por
metas (Seo 4.3.3). A Seo 4.3.4 discute as vantagens e desvantagens de tais tcnicas.
4.3.1 Somatrio de pesos

O mtodo de somatrio dos pesos consiste em criar uma funo objetivo somando cada
objetivo multiplicado por um peso (Deb, 2001). Os pesos so fornecidos como parmetros.
A escolha dos pesos um problema importante que depende da relevncia de cada objetivo. necessrio realizar a normalizao de cada funo objetivo dado que os diferentes
objetivos podem ter diferentes magnitudes. Por exemplo, o preo de um carro pode variar
de R$4.000 a R$30.000; enquanto o conforto pode estar entre 0% e 100%.
Uma vez que os objetivos estejam normalizados, pode-se formular uma funo
F (x)
que soma os objetivos normalizados e multiplicados por seus respectivos pesos. Assim,
um MOOP pode ser formulado como segue:
68
CAPTULO 4.
Nobj
minimizar
F (x) =
wm fm (x),
m=1
restrita a
onde
wm [0, 1]
gj (x) 0,
hk (x) = 0,
(inf )
(sup)
xi
xi xi ,
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,
o peso para cada funo objetivo
fm .
(4.2)
Pode-se mostrar que a soluo
do problema na Equao 4.2 pertence ao conjunto Pareto-timo se os pesos so positivos

para todos os objetivos. Alm disso, garantido que quando um MOOP convexo (Deb,
2001), qualquer soluo Pareto-tima pode ser encontrada usando o mtodo de somatrio
dos pesos, empregados diferentes combinaes de valores de
wm .
Embora esse mtodo seja simples, precisa de vrias iteraes para atingir toda a fronteira de Pareto.
No caso de um MOOP no convexo, este mtodo no capaz de de-
terminar todas as solues. Alm disso, a aplicao de vetores de pesos uniformemente

distribudos no garante que seja obtido um conjunto de solues uniformemente distribudas.
4.3.2 Mtodo de restries

Haimes et al. (1971 apud Deb, 2001), sugeriram reformular um MOOP considerando qualquer objetivo, mantendo restritos os demais objetivos com valores denidos pelo usurio.
A formulao adotada a seguinte:
minimizar
restrita a
onde cada
fu (x),
fm (x) m ,
gj (x) 0,
hk (x) = 0,
(L)
(U )
xi xi xi ,
f1
f2 .
Escolhe-se
f2
(4.3)
denido pelo usurio representa um limite mximo para o valor de
um MOOP no convexo de dois objetivos

restrio
m = 1, 2, . . . , Nobj e
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,
m 6= u;
e mantm-se
fm . Seja
f1 com a
f 1 1 .
1 . O mnimo para
c
f2 depende da escolha do . Por exemplo, usando 1 , o valor mnimo para f2 ponto C.
A Figura 4.3 apresenta o espao de objetivos e vrios valores para
Ento, empregando valores diferentes de

Desta forma, o mtodo de restries
, encontra-se diferentes solues Pareto-timas.
pode ser usado para gerar as solues Pareto-
timas independentemente de o espao de objetivos ser convexo, no convexo ou discreto (Deb, 2001). Este mtodo necessita que a escolha do vetor
esteja em uma regio
factvel para cada objetivo. Por exemplo, na Figura 4.3, se for escolhido
a1 , ento nenhuma
soluo ser obtida. Assim, como no somatrio de pesos, so precisas vrios iteraes para
4.3.
TCNICAS TRADICIONAIS PARA MOOP
69
f2
B
C

a
1
b
1
c
1
Figura 4.3: Mtodo de restries
d
1
f1
(Deb, 2001).
determina a fronteira de Pareto e o uso de uma distribuio uniforme de
no garante
que um conjunto de solues com a mesma distribuio.
4.3.3 Programao por metas

Esta tcnica tenta encontrar solues que possam atingir uma meta predeterminada para
uma ou mais funes objetivo. Caso no exista uma soluo factvel que alcance as metas
para todos os objetivos, esta minimiza os
desvios
em relao s metas.
f (x) para ser minimizada dentro do espao de busca Sf act . Para

cada objetivo escolhido pelo usurio um valor meta z . Ento, o problema formulado
para encontrar uma soluo cujo valor em f seja igual a z . Formalmente:
Considere uma funo
meta (f (x) = z),

x Sf act
Para resolver um problema de programao de metas, cada meta convertida em uma
restrio de igualdade. Busca-se, ento, minimizar todos os desvios em relao as metas.
Existem vrias formas de trabalhar com esses problemas, as quais sero descritas a seguir:
Programao de metas com pesos: para um problema com

se uma funo somando os desvios para cada um dos
:
Nobj
Nobj
objetivos, formula-
objetivos. A forma geral
70
CAPTULO 4.
Nobj
minimizar
(j j + j j )
j=1
fj (x) j + j = zj , j = 1, 2, . . . , Nobj
x Sf act ,
j , j 0,
j = 1, 2, . . . , Nobj ,
restrita a
onde
para o
so os pesos dos desvios positivo e negativo (j e
-simo objetivo,
zj
a meta para a funo
fj
Sf act
j ,
(4.4)
respectivamente)
o espao de deciso
factvel. As solues obtidas por este mtodo dependem consideravelmente da escolha dos valores para
j .
Alm disso, segundo Deb (2001), este mtodo possui
diculdades similares ao mtodo do somatrio dos pesos;
Programao de metas lexicogrcas: aqui as metas so organizadas em vrios nveis

de prioridade.
metas.
Resolve-se seqencialmente vrios problemas de programao de
Inicialmente, as metas de primeira ordem de prioridade so consideradas
na formulao do problema. Caso existam mltiplas solues, as metas de segunda

ordem de prioridade so consideradas formulando outro problema para minimizar
apenas os desvios para as metas de segunda ordem. As metas de primeira ordem de
prioridade so usadas como restries. O processo continua com os demais nveis
de prioridade at que seja encontrada uma nica soluo. Utilizando este mtodo,
encontrada freqentemente uma soluo Pareto-tima. A Figura 4.4 mostra um
f1 mais importante, minimiza-se

f1 primeiro e obtm-se as solues das regies AB e CD nas quais f1 mnima.
Dado que existem mltiplas solues, minimiza-se f2 somente nas regies AB e
CD encontradas na iterao anterior. A soluo o ponto D, que corresponde ao
mnimo para f2 . Ento, D a soluo para todo o problema de programao de
espao de objetivos para as funes
f1
f2 .
Se
metas lexicogrcas.
f2
A
B
C
D
E
f1
Figura 4.4: Mtodo da programao de metas lexicogrcas (Deb, 2001).
4.4.
AES PARA PROBLEMAS DE OTIMIZAO MULTI-OBJETIVO
71
Programao de metas min-max: neste mtodo minimizado o mximo desvio em

relao s metas. A formulao adotada a seguinte:
Minimizar
restrita a
(4.5)
j e j so os desvios positivos e
negativos para cada objetivo, respectivamente e j e j representam os pesos para
cada desvio. Este mtodo requer tambm a escolha dos pesos j e j .
onde
j j + j j ,
j = 1, 2, . . . , Nobj
fj (x) j + j = zj , j = 1, 2, . . . , Nobj
x Sf act ,
j , j 0,
j = 1, 2, . . . , Nobj ,
o desvio mximo para qualquer meta,
4.3.4 Vantagens e desvantagens das tcnicas tradicionais

A principal vantagem das tcnicas tradicionais que possuem provas de convergncia que
garantem encontrar as solues Pareto-timas (Coello et al., 2002; Deb, 2001).
Todas
as tcnicas descritas neste Captulo reduzem um MOOP para um problema de objetivo

simples.
Cada tcnica utiliza uma forma diferente de reduo e introduz parmetros
adicionais. A escolha desses parmetros afeta diretamente os resultados obtidos. Cada vez
que os parmetros so modicados, necessrio resolver um novo problema de otimizao
simples.
Portanto, para encontrar cada soluo Pareto-tima, precisa-se solucionar um
problemas de objetivos simples.

Alguns mtodos no garantem solues ao longo de toda a fronteira de Pareto.
Se
esta no convexa, o mtodo do somatrio dos pesos no encontra certas solues, independentemente dos pesos escolhidos.
Finalmente, todos as tcnicas descritas precisam de parmetros adicionais, tais como
pesos, metas, e vetores de restrio. A distribuio uniforme destes parmetros no garante a diversidade das solues Pareto-timas. Porm, existem tcnicas alternativas para
tratar MOOPs.
Dentre dessas tcnicas, destacam-se os AEs (principalmente AGs) que
apresentam vrios aspectos positivos que motivam a aplicao dos mesmos. Na prxima
Seo, ser tratada a aplicao de AEs em MOOPs.
4.4 Algoritmos evolutivos para problemas otimizao

multi-objetivo
A primeira implementao de um MOEA (do ingls
rithm
Multi-Objective Evolutionary Algo-
) foi proposta por Schaer (1985). O modelo sugerido foi denominado VEGA (do
72
CAPTULO 4.
Vector Evaluated Genetic Algorithm
ingls
).
Schaer fez uma modicao no AG con-
vencional para avaliar cada objetivo separadamente.
Contudo, o mtodo proposto no
permitia obter uma diversidade adequada nas solues ao longo da fronteira de Pareto.
Goldberg (1989) props vrias abordagens para estender a aplicaes de AGs para
MOOPs. Uma das propostas utiliza um procedimento para ordenao de solues baseado
no conceito de dominncia.
Neste mtodo, o valor de aptido para uma soluo
proporcional ao nmero de solues que
i domina.
Desta forma, as solues no dominadas
so enfatizadas obtendo maior quantidade de cpias na lista de reproduo. Para manter a

diversidade das solues, Goldberg sugeriu o emprego de um mtodo de compartilhamento
(Goldberg, 1989), que permite levar em conta a densidade de solues em uma vizinhana
no espao de busca.
Assim, solues que estejam melhor espalhadas na fronteira de
Pareto tm um melhor valor de compartilhamento. Baseadas nessas idias iniciais, foram

propostos uma srie de modelos de MOEAs.
A diferena fundamental dos MOEAs em relao aos AEs tradicionais o operador
de seleo, dado que a comparao entre duas solues deve-se efeituar conforme o conceito de dominncia de Pareto. Em alguns mtodos, o valor de aptido proporcional
dominncia da soluo.
Outros mtodos utilizam apenas a dominncia de Pareto e
no calculam um valor de aptido. A aplicao dos MOEAs para MOOPs apresenta trs
grandes vantagens com relao s tcnicas tradicionais descritas na Seo 4.3 (Coello,
2001):
1. No introduzem parmetros adicionais no problema;

2. Trabalham diretamente com vrias funes usando o conceito de dominncia de
Pareto;
3. Um conjunto diversicado de solues pode ser encontrado apenas em uma execuo
do MOEA.
Os modelos de MOEA so classicados por Deb (2001) em dois tipos:
1. No elitistas: so aqueles modelos que, como o prprio nome indica, no utilizam

alguma forma de elitismo nas suas iteraes;
2. Elitistas: so os modelos que empregam alguma forma o elitismo. Alguns modelos,
como o SPEA (Zitzler e Thiele, 1998) e o PESA (Corne et al., 2000) (ver Tabela
4.1, que enumera os principais modelos de MOEAs), utilizam uma populao externa onde so armazenadas as solues no dominadas encontradas at o momento.
Outros mtodos, como o NSGA-II (Deb et al., 2000), combinam a populao atual
com a populao anterior para preservar as melhores solues de ambas. O estudo
4.4.
73
realizado por Zitzler et al. (2000) conclui que o elitismo melhora as solues encontradas por um modelo MOEA. A partir deste trabalho, os novos modelos passam a
incorporam alguma estratgia de elitismo.
Tabela 4.1: Diferentes modelos de MOEAs.
Sigla
VEGA (Vector Evaluated Genetic Algorithm)
WBGA (Weight Based Genetic Algorithm)
MOGA (Multiple Objective Genetic Algorithm)
NSGA (Non-Dominated Sorting Genetic Algorithm)

NPGA (Niched-Pareto Genetic Algorithm)
PPES (Predator-Prey Evolution Strategy)
REMOEA
(Rudolph's Elitist Multi-Objective Evoluti-
onary Algorithm)
NSGA-II
(Elitist Non-Dominated Sorting Genetic Al-
gorithm)
SPEA, SPEA2 (Strenght Pareto Evolutionary

rithm) 1 e 2
TGA (Thermodynamical Genetic Algorithm)
PAES (Pareto-Archived Evolutionary Strategy)
Algo-
Nome do modelo
(Schaer, 1985)
(Hajela e Lin, 1992)
(Fonseca e Fleming,
1993)
(Srinivas e Deb, 1994)
(Horn et al., 1994)
(Laumanns et al.,
1998)
(Rudolph, 2001)
Elistista
No
No
No
(Deb et al., 2000; Deb

e Sundar, 2006)
(Zitzler et al., 2001;
Zitzler e Thiele, 1998)
(Kita et al., 1996)
(Knowles e Corne,
1999)
(Veldhuizen, 1999)
Sim
No
No
No
Sim
Sim
Sim
Sim
MOMGA-I, MOMGA-II (Multi-Objective Messy GeSim

I e II
Micro-GA (Multi-Objective Micro-Genetic Algorithm) (Coello, 2001)
Sim
PESA-I, PESA-II (Pareto Envelope-Base Selection Al- (Corne et al., 2001, Sim
gorithm) I e II
2000)
netic Algorithm)
Na Seo 4.4.1 apresentado detalhadamente o NSGA-II, um dos principais modelos

elitistas de MOEAs encontrados na literatura (Zitzler et al., 2001).
4.4.1 Algoritmo NSGA-II

O algoritmo NSGA-II (do ingls
Non-dominated Sorting Genetic Algorithm

Pareto ranking
) (Deb et al.,
2000) baseado em uma ordenao elitista por dominncia (
cedimento consiste em classicar as solues de um conjunto
F1 , F2 , . . . Fk
conforme ao grau de dominncia de tais solues.
contm as solues no dominadas de todo o conjunto

lues no dominadas de
M F1 , F3
M.
em diversas fronteiras
Assim, a fronteira
F2 possui
M (F1 F2 ) e
A fronteira
contm as solues de
). Esse pro-
F1
as soassim
sucessivamente.
O procedimento de ordenao por dominncia proposto por Deb et al. (2000) mostrado no Algoritmo 5. Para cada soluo
ndi ,
contida em
o nmero de solues que dominam a soluo
so calculados dois valores:
i;
74
CAPTULO 4.
Ui ,
o conjunto de solues que so dominadas pela soluo
i.
As linhas 17 do Algoritmo 5 calculam tais valores para as solues em

as solues com
ndi = 0
esto contidas na fronteira
percorrem o conjunto de solues dominadas
ndj
de cada soluo
em
Ui
seguinte fronteira (neste caso
Ui
Alm disso,
Seguidamente, as linhas 916
para cada soluo
diminudo em 1. Se
F2 ).
F1 .
M.
ndj = 0,
de
F1 .
ento a soluo
O contador
pertence a
A iterao das linhas 916 repetido at que todas as
solues estejam classicadas em uma fronteira. A Figura 4.5 ilustra este procedimento
aplicado a solues que minimizam
f1
f2 .
Algoritmo 5: Algoritmo para Ordenao por Dominncia

Entrada:
1
2
3
4
5
6
M , um conjunto de solues
Sada: F1 , F2 , . . . Fk , as fronteiras que classicam
para cada
i M faa
ndi = 0
Ui =
para cada
j 6= i j M faa
se i j ento Up = Up {j}
se j i ento ndi = ndi + 1
soluo
soluo
as solues de
M.
m
se
ndi = 0
ento
F1 = F1 {i}
m
8 k= 1
9 enquanto Fk 6= faa
10
T emp =
11
para cada
i Fk faa
12
para cada
j Ui faa
13
nj = nj 1
14
se nj = 0 ento T emp = T emp {j}
soluo
soluo
m
m
15
16
k =k+1
Fk = T emp
m
O algoritmo NSGA-II trabalha com duas populaes, denotadas como
Q de tama-
Nind . Na primeira gerao, os indivduos inicias da populao P1 geram as solues

em Q1 mediante a aplicao da seleo, recombinao e mutao. Nas seguintes iteraes do algoritmo, estabelecido um processo competitivo para preencher Nind vagas na
populao Pt+1 entre 2Nind indivduos contidos em Rt = Pt Qt . Esta operao realizada usando ordenao por dominncia em Rt , encaminhando as solues no dominadas
nho
contidas nas fronteiras diretamente para a prxima gerao (elitismo).

Para garantir a diversidade na fronteira calculada o NSGA-II emprega uma estimativa
da densidade das solues que rodeiam cada indivduo da populao. Assim, calcula-se a
4.4.
75
f2
1
2
1
3
2
1
1
f1
Figura 4.5: Ordenao por dominncia (Deb, 2001).
mdia da distncia das duas solues adjacentes a cada indivduo para todos os objetivos.
Esse valor denominado distncia de multido. O Algoritmo 6 mostra os passos a seguir
disti o valor da distncia de multido do i-simo indivduo

como Mi ) e fm (Si ) o valor da m-sima funo objetivo para
para calcular tal valor, onde

do conjunto
(denotado
tal indivduo.
Algoritmo 6: Clculo da distncia de multido

Entrada:
M,
uma conjunto de
Sada:
disti ,
Nsol
solues
soluo
valores de distncia de multido das solues em
1 para
i = 1, 2, . . . Nsol faa
2 para m = 1, 2, . . . , N obj faa
3
Classicar M por fm
4
dist1 = distNsol =
5
para i = 2 . . . Nsol 1 faa
M.
disti = 0
disti = disti + fm (Mi+1 ) fm (Mi1 )

m
m
A aptido de cada soluo
1.
ranki = k ,
2.
disti ,
determinada pelos seguintes valores:
o valor de ranking
igual ao nmero da fronteira
o valor de distncia de multido de
Fk
qual pertence;
i.
O NSGA-II emprega um processo de seleo por torneio. Em tal abordagem, duas solues so comparadas para escolher qual delas vai gerar descendentes na nova populao.
Uma soluo
1.
escolhida sobre uma soluo
possui um ranking menor que
j,
se:
ou seja,
ranki < rankj ;
76
CAPTULO 4.
i possui um
disti > distj ).
2. Se ambas as solues possuem o mesmo ranking e

tncia de multido (ou seja,
ranki = rankj
maior valor de dis-
O clculo da distncia de multido permite que as solues melhor espalhadas passem

a ocupar as ltimas vagas disponveis de
Pi+1
garantindo a diversidade das solues.
A seqncia de passos seguido pelo NSGA-II descrita no Algoritmo 7. A Figura 4.6

mostra o esquema para uma iterao do NSGA-II.
Algoritmo 7: NSGA-II
Entrada: Conjunto de parmetros relevantes ao NSGA-II
Sada: Solues na populaes
Pf inal
Qf inal .
Inicializao
1
2
3
Criar uma populao de solues aleatrias

Ordenhar
para cada
P1
de
Nind
indivduos
por dominncia
Aplicar operadores genticos em

tamanho
4
5
6
7
8
9
P1
P1
para gerar uma nova populao,
Q1
de
Nind
gerao t = 2, . . . , N
Aplicar o Algoritmo 5 em
iter faa
Rt = Pt Qt
k=1
|Pt+1 + Fk | Nind faa
Aplicar o Algoritmo 6 em Fk
Pt+1 = Pt+1 Fk
k =k+1
enquanto
m
10
11
12
13
Aplicar o Algoritmo 6 em
Classicar a
Fk
Fk
pelo ranking e a distncia de multido
Copiar as primeiras
Nind |Pt+1 | solues de Fk para Pt+1

Qt+1 aplicando os operadores genticos
Gerar a nova populao
em
Pt+1
m
14
15
Pf inal = Pt
Qf inal = Qt
4.5 Abordagens multi-objetivo aplicados reconstruo logentica

Esta Seo apresenta dois trabalhos que aplicaram abordagens multi-objetivo em inferncia logentica.
Poladian e Jermiin (2006) estudam a utilizao otimizao multi-objetivo para determinar as solues da fronteira de Pareto obtidas a partir de bancos de seqncias
conitantes (de Queiroz e Poe, 2001). Os autores construram dois conjuntos de seqncias por simulao para 4 espcies de forma que as rvores resultantes da anlise de
4.5.
ABORDAGENS MULTI-OBJETIVO APLICADOS EM FILOGENIA
ordenao por
dominncia
77
Nova populao
Pt
P t+1
2
distncia de
multido
3
...
Qt
solues
rejeitadas
Rt
Figura 4.6: Esquema do modelo NSGA-II (Deb, 2001).
mxima verossimilhana em cada banco, por separado ou em conjunto, fossem diferentes.

Foi empregado um MOEA para calcular a fronteira de Pareto resultante para avaliar a
verossimilhana das topologias obtidas para os bancos simulados. As solues mostraram
diferenas topolgicas e de comprimento de ramos que deniram trs regies da fronteira
de Pareto. Os autores destacam a importncia do trabalho porque mostra como a otimizao multi-objetivo pode ajudar nos casos de bancos de dados conitantes. Alm disso,
o estudo do problema de 4 seqncias, pode ser usado em combinao com mtodos de
inferncia logentica que trabalham com quartetos de espcies (Strimmer e von Haesler,
1996).
Coelho et al. (2007) apresentaram uma aplicao do algoritmo omni-aiNet (Coelho e
Von Zuben, 2006) para o problema de logenia considerando os critrios de evoluo mnima (Edwards e Cavalli-Sforza, 1964) e mnimos quadrados (Fitch e Margoliash, 1967).
O omni-aiNet (Coelho e Von Zuben, 2006) uma abordagem de sistemas imunolgicos
articias (De Castro e Timmis, 2002) para otimizao de problemas com um ou vrios objetivos. Uma vez obtida a fronteira de Pareto, uma das rvores Pareto-timas escolhida
como resultado nal. Para esta tarefa, os autores empregaram dois tcnicas de toma de
decises conhecidas como Programao de Compromisso (do ingls
ming
Rate of Return
Compromise ProgramMarginal
) (Zeleny, 1973 apud Deb, 2001) e Taxa Marginal de Retorno (do ingls
) (Deb, 2001; Miettinen, 1999). As rvores da Fronteira de Pareto escolhi-
das por ambas as tcnicas mostraram-se melhores que a obtida pelo mtodo NJ (Saitou e
Nei, 1987). A comparao com o NJ devida ao fato deste mtodo considerar os critrios
de evoluo mnima e mnimos quadrados no algoritmo.
78
CAPTULO 4.

Neste Captulo foram introduzidos os conceitos bsicos otimizao multi-objetivo. Apresentou-se o modelo geral para um MOOP e as principais diferenas em relao ao problema
de otimizao de objetivo simples. Alm disso, foram descritas as tcnicas tradicionais
para resolver um MOOP, vericando as vantagens e desvantagens de cada uma.
Os AEs surgem como uma tcnica alternativa para tratar os MOOPs, apresentando
uma srie de vantagens em relao s tcnicas tradicionais. No decorrer deste captulo
foi explicada a utilizao de AEs em MOOPs.
Um dos principais modelos de MOEA,
o NSGA-II, foi tambm descrito detalhadamente. Alm disso, foi realizada uma reviso
das principais abordagens multi-objetivo para reconstruo logentica encontradas na
literatura.
Como descrito no Captulo 2, a aplicao de diversos mtodos de reconstruo resulta
em rvores logenticas com critrios de avaliao conitantes entre sim. Por outro lado,
no Captulo 3 mostrou que o emprego de AEs em logenia tem mostrado resultados
relevantes. Tais fatos motivam a proposta de uma abordagem de MOEA do problema da
inferncia logentica, a qual explorada no prximo captulo.
Captulo
5
Algoritmo evolutivo multi-objetivo
para o problema de reconstruo de
rvores logenticas
5.1 Introduo
Este Captulo apresenta o PhyloMOEA, que o modelo de MOEA para o problema de reconstruo logentica desenvolvido nesta pesquisa. O PhyloMOEA baseado no NSGAII (Deb et al., 2000), um dos modelos de MOEA mais importantes descritos na literatura.
Os critrios de otimalidade empregados pelo PhyloMOEA so a mxima parcimnia e
mxima verossimilhana.
Assim, o objetivo nal gerar um conjunto de solues que
representem um consenso entre tais critrios.

Este captulo est dividido em duas sees. A seo 5.2 descreve detalhadamente o
PhyloMOEA A Seo 5.3, apresenta-se as consideraes nais sobre este Captulo.
5.2 PhyloMOEA
O objetivo fundamental do PhyloMOEA encontrar rvores na Fronteira de Pareto considerando os critrios de mxima parcimnia e mxima verossimilhana.
A Figura 5.1
ilustra o funcionamento do PhyloMOEA destacando seus principais etapas e componentes.
79
80
CAPTULO 5.
MOEA PARA O PROBLEMA DE FILOGENIA
PhyloMOEA
rvores Pareto-timas
Conjunto
seqncias
Algoritmo
NSGA-II
otimizao
comp. ramos
verossimilhana
rvores
inicias
Fronteira de Pareto
parcimnia
Figura 5.1: Ilustrao do funcionamento do PhyloMOEA.
As Sees 5.2.15.2.5 apresentam caractersticas especcas do PhyloMOEA como representao de solues, funes de aptido, gerao de solues inicias, operadores de
recombinao, mutao e otimizao dos comprimentos de ramos.
5.2.1 Representao de solues

Na literatura foram propostas vrias formas para representar rvores logenticas como:
estruturas de dados baseadas em listas de adjacncias (Adachi e Hasegawa, 1996; Felsenstein, 2004), matriz de adjacncia (Prado, 2002) ou arranjos de nmeros inteiros (Cotta
e Moscato, 2002).
Dessas formas de representao, a estrutura baseada em grafos a
mais empregada por programas de inferncia logentica tais como PHYLIP (Felsenstein,
2000b), PAML (Yang, 1997), PHYML (Guindon e Gascuel, 2003), entre outros.
O PhyloMOEA emprega a estrutura de dados de lista de adjacncias (Cormen, 2001)
para a representao das rvores logenticas. Uma das razes para escolher tal representao que existe uma grande variedade de implementaes prontas com essa estrutura.
Duas bibliotecas de cdigo aberto na linguagem C++ foram avaliadas: a BGL (
Graph Library
Graph Template Library
) (Siek et al., 2002) a GTL (
Boost
) (Forster et al., 2004).
Ambas as bibliotecas possuem implementaes bastante completas de grafos, incluindo

mtodos ecientes para acesso a ns e ramos, assim como vrios algoritmos comuns da
teoria de grafos. A GTL mostrou-se como uma biblioteca que fornece uma forma mais
clara e simples de programar. Por essas razes, a implementao do PhyloMOEA est
baseada na biblioteca GTL. Deve-se ressaltar que o uso de grafos como estrutura de dados
implica a inferncia de rvores sem raiz que, como visto no Captulo 2, reduz o espao de
busca com relao inferncia de rvores enraizadas.
Alm das informaes da topologia da rvore, a GTL permite associar informaes
aos ns e ramos do grafo (por exemplo comprimentos de ramos) que permitem uma
5.2.
PHYLOMOEA
81
representao de todos os parmetros relevantes ao problema.
A Figura 5.2 mostra a
representao de uma rvore para o PhyloMOEA.
rvore sem raiz
Representao interna
Ns Arestas
A
F
B
F
C
G
D
G
E
H
F
A, B, H
G
C, D, H
H
F, G, E
Figura 5.2: Representao interna empregada pelo PhyloMOEA para uma rvore sem
raiz.
A estrutura de dados desenvolvida foi amadurecendo no decorrer da pesquisa possibilitando o aprimoramento da capacidade de calcular parties de cada rvore. Assim,
empregou-se o algoritmo de Day (Day, 1985) que permite obter as parties das rvores
com um custo timo em tempo de execuo e na utilizao de memria.
O PhyloMOEA emprega o formato Newick (Felsenstein, 2000a) para mostrar as rvores
encontradas no nal da execuo do algoritmo. Nesse formato, uma rvore representada
por uma cadeia de caracteres terminada em ponto e virgula.
Nessa cadeia, cada n
interno corresponde a um par de parnteses emparelhados. Tais parnteses podem estar

aninhados conforme os nveis de profundida de rvore.
so separados por vrgula.
Os descendentes do n interno
As folhas da rvore so representadas pelo nome das suas
espcies correspondentes. Os comprimentos de ramos so inseridos com dois pontos (:)

aps o nome da espcies (um n folha), ou do parnteses fechado (no caso do n interno),
seguido de o valor de tal comprimento. Por exemplo, a rvore da Figura 5.2 corresponde
a cadeia ((A,B),E,(C,D)); no formato Newick.
5.2.2 Funes de aptido

O PhyloMOEA emprega os algoritmos de Fitch e Felsenstein apresentados no Captulo 2
para calcular os valores de parcimnia e verossimilhana das solues encontradas.
funcionamento de tais algoritmos foi apresentado em rvores com raiz. As mudanas requeridas para que esses algoritmos funcionem em rvores no enraizadas so apresentadas
a seguir.
82
CAPTULO 5.
Clculo de parcimnia
No caso de rvores no enraizadas, o algoritmo de Fitch (Fitch, 1972) foi modicado
conforme aos seguintes passos:
Primeiramente, escolhe-se uma folha
conetada a um n interno
v.
O n interno
dene uma subrvore que contm todos as folhas da rvore com exceo de
u,
serve como raiz da rvore. Em outros termos, a rvore pendurada pela folha
que
u;
A seguir, aplica-se o percurso ps-ordem (linhas 16) do Algoritmo 1 de clculo de

parcimnia (ver Captulo 2) na subrvore com raiz em
Se o estado do n
u no stio j
v;
no est contido no conjunto de estados de
ento incrementa-se o valor de parcimnia
v (uj Sv ),
P arj .
Os passos descritos anteriormente so aplicados para cada stio
e, nalmente, obtem-
se o valor de parcimnia da rvore. A Figura 5.3 mostra o esquema das modicaes aplicadas no algoritmo de Fitch. Vrios trabalhos na literatura (Gladstein, 1997; Golobo,
1996, 1999a; Ronquist, 1998) mostram como aumentar a ecincia do algoritmo de Fitch
quando se trabalha com grandes bancos de seqncias. Tais trabalhos explicam basicamente como reaproveitar clculos realizados anteriormente para encontrar o novo valor
de parcimnia de solues modicadas topologicamente, reduzindo bastante o nmero de
vezes que executa-se o algoritmo de Fitch. O foco de desenvolvimento do PhyloMOEA foi
o aumento de diversidade de solues Pareto-timas. Assim, melhorias de desempenho
no foram implementadas no modelo proposto, representando uma interessante linha de
pesquisa futura.
u j ={A}*
folha (u)
n interno (v)
A
v
v
={C,G}*
Algoritmo
de Fitch
C
C
{G}
C
G
{C,G}*
G
Figura 5.3: Algoritmo de Fitch para rvore sem raiz.
5.2.
PHYLOMOEA
83
Clculo de verossimilhana
O clculo da verossimilhana apresentado no Algoritmo 2 (ver Captulo 2) pode ser tambm aplicado em rvores sem raiz devido a propriedade de reversibilidade dos modelos
de substituio de seqncias.
Por exemplo, considerando a rvore da Figura 5.4(a),
tem-se que a verossimilhana para o stio
determinada pela seguinte expresso (ver
Equao 2.18 do Captulo 2):
Lj =
rj Lrj (rj )
(5.1)
rj
A verossimilhana condicional do n
depende das subrvores dos ns
(ver
Figura 5.4(a)). Pela Equao 2.16 temos que:
Lj =
XXX
rj Prj ,vj (trv )Prj ,sj (trs )Lvj (vj )Lsj (sj ).
(5.2)
rj vj sj
Pela propriedade de reversibilidade (ver Equao 2.8 do Captulo 2) tem-se que:
rj Prj ,vj (trv ) = vj Pvj ,rj (trv ).
(5.3)
Substituindo a Equao 5.3 na Equao 5.2, tem-se que:
Lj =
XXX
vj Pvj ,rj (trv )Prj ,sj (trs )Lvj (vj )Lsj (sj ).
(5.4)
rj vj sj
r
y
t
v
rs
=t
vs
w
z
(a) rvore com raiz
t rv =0
(b) rvore sem raiz equivalente
Figura 5.4: Clculo de verossimilhana em rvores com raiz e sem raiz.

A rvore da Figura 5.4(a) pode-se transformar em uma rvore sem raiz eliminando o
n
e criando uma novo ramo
deslocar o n
trs
seja igual a
prximo ao n
tvs .
(v, s) com comprimento igual a trv + trs . Isso equivale a

v , como mostrado na Figura 5.4(b) tal que trv seja zero e
A equao de Chapman-Kolmogorov (Felsenstein, 2004) garante que:
84
CAPTULO 5.
Pvj ,sj (trv + trs ) = Pvj ,rj (trv )Prj ,sj (trs ),
(5.5)
r pode ser deslocada em qualquer posio do ramo (v, s) sem alterar o valor
Substituindo trv = 0 e Prj ,sj (trs ) = Pvj ,sj (tvs ) na Equao 5.4 tem-se que:
ou seja, a raiz
de
Lj .
XXX
Lj =
vj Pvj ,rj (0)Pvj ,sj (tvs )Lvj (vj )Lsj (sj ).
(5.6)
rj vj sj
O termo
Pvj ,rj (0)
igual a 1 se
rj = vj
e 0, caso contrrio. Aplicando esse resultado
na Equao 5.6 tem-se que:
XX
Lj =
vj Pvj ,sj (tvs )Lvj (vj )Lsj (sj ).
(5.7)
vj sj
Deve-se notar que as Equaes 5.7 e 5.2 so equivalentes e, conseqentemente, pode-se
aplicar o Algoritmo 2 em rvores sem raiz, escolhendo um n interno arbitrrio como raiz
da rvore.
Vrios autores reportam problemas na preciso numrica no clculo da verossimilhana quando se empregam bancos de dados que contm mais de 100 espcies (Guindon,
2003; Yang, 2000). Tal fenmeno foi conrmado nos experimentos realizados com o PhyloMOEA, os quais apresentaram grandes erros de preciso na verossimilhana.
Isso
devido ao fato de que, em grandes bancos de dados, as verossimilhanas condicionais so

muito pequenas para serem representadas em um computador comum. Para solucionar
esse problema, implementou-se um procedimento de escalonamento descrito em (Guindon,
2003; Yang, 2000).
Considerando uma subrvore com raiz
dessa subrvore no stio
Lrj (rj )
s,
a verossimilhana condicional
Prj ,vj (trv )Lvj (vj )
vj
Se os valores de
e lhos
pode ser expressada como (ver Equao 2.16 do Captulo 2):
Lrj (rj ) =
Lvj (vj )
Prj ,sj (trs )Lsj (sj ) .
(5.8)
sj
e/ou
Lsj (sj )
forem muito pequenos, pode ser difcil representar
no computador. Nesses casos, ao invs de calcular a verossimilhana condicional
original, calcula-se a verossimilhana condicional escalonada, denotada como
LEjr (rj ),
conforme seguinte expresso:
LEjr (rj ) =
vj
onde
j (v) = max{Lvj (vj )}
Prj ,vj (trv )
Lvj (vj )
j (v)
j (s) = max{Lsj (sj )}
Prj ,sj (trs )
sj
Lsj (sj )
j (s)
(5.9)
so os fatores de escalonamento das
verossimilhanas condicionais correspondentes aos ns
s,
respectivamente. Ao dividir
5.2.
PHYLOMOEA
85
pelos fatores de escalonamento, as verossimilhana condicional volta a ser representvel

no computador.
Se
a raiz da rvore, a verossimilhana escalonada no stio
pode ser calculada
como:
LEj =
X
1
rj Lrj (rj ).
j (vj )j (sj ) r
(5.10)
O termo do somatrio a equao 5.10 corresponde verossimilhana original (no

escalonada) no stio
j , denotada como Lj
(ver Equao 2.18 do Captulo 2). Substituindo
e aplicando logaritmo natural a ambos lados da Equao 5.10, temos:
ln(Lj ) = ln(LEj ) + ln(j (u)) + ln(j (w)).
(5.11)
Dessa forma possvel voltar ao valor da verossimilhana original empregando a

verossimilhana escalonada e os fatores de escalonamento sem ter os problemas de preciso numrica. O procedimento implementado no PhyloMOEA armazena os fatores de
escalonamento para todas as subrvores e todos os stios. Tais fatores so logo propagados at a raiz da rvore como mostrado na Equao 5.11 para calcular a verossimilhana
original.
Sem a aplicao de tal mtodo impossvel o emprego de bancos de seqncias maiores
nos experimentos. Assim, os valores de verossimilhana obtidos pelo PhyloMOEA foram
consistentes como os dos programas PHYML (Guindon e Gascuel, 2003) e PAML (Yang,
1997).
O clculo do valor de verossimilhana para rvores obtidas a partir de grandes bancos
de seqncias consome considerveis recursos computacionais (Felsenstein, 2004; Swofford et al., 1996). Na literatura existem vrios trabalhos que mostram como reduzir tal
custo pela reordenao dos dados (Kosakovsky e Muse, 2004), paralelizao do clculo
de verossimilhana (Stamatakis et al., 2002a,b; Stamatakis e Meier, 2004) ou aproximao numrica das probabilidades requeridas pelos modelos evolutivos (Pupko e Graur,
2002).
Alm disso, vrios trabalhos mostram como aproveitar os clculos previamente
realizados quando modicaes topolgicas so realizadas nas rvores. Programas como

PHYML (Guindon e Gascuel, 2003; Hordijk e Gascuel, 2005) ou RAX-ML (Stamatakis
et al., 2005b) so exemplos de programas que reaproveitam clculos anteriores.
O clculo da verossimilhana no PhyloMOEA no implementa tais melhorias, devendo
ser essas o foco de trabalhos futuros para aumentar a ecincia computacional do algoritmo atual.
86
CAPTULO 5.
5.2.3 Gerao de solues iniciais

O PhyloMOEA implementa a gerao aleatria de topologias iniciais utilizando o mtodo
de adio por passos (ver Captulo 2). Nesse mtodo a posio de insero de uma nova
espcies escolhida aleatoriamente. Para os comprimentos de ramos so atribudos valores
aleatrios no intervalo
[0; 0, 05]
(Lewis, 1998).
A estratgia de gerao de topologias aleatrias tem-se mostrado til para bancos

de seqncias muito pequenos.
Para conjuntos de dados maiores as rvores geradas
encontram-se muito afastadas das solues timas.
Isso prejudica consideravelmente a
convergncia do PhyloMOEA.
Uma forma de resolver este problema foi possibilitar a insero de rvores geradas por
outros programas na populao inicial (no formato Newick).
Assim, podem ser inseri-
das rvores resultantes das anlises de mxima parcimnia, mxima verossimilhana ou

rvores geradas utilizando
bootstrap
(Felsenstein, 1985). Tal procedimento freqente-
mente empregado na literatura referente a AEs (ver Captulo 3) aplicados ao problema de

reconstruo logentica, como o GARLI (Zwickl, 2006), Ga-mt (Katoh et al., 2001), METAPIGA (Lemmon e Milinkovitch, 2002a) ou PARSIGAL (Moilanen, 1999), mostrando
resultados relevantes.
5.2.4 Operadores de recombinao e mutao

O operador de recombinao implementado no PhyloMOEA a troca de subrvores implementado no GAML (Lewis, 1998) (ver Captulo 3). Dadas duas rvores pais
2 ,
esse operador de recombinao segue os seguintes passos:

1. Escolhe uma subrvore
1 ,
denotada como
2. Remove as espcies contidas em
10
10 ;
da rvore
2 .
A rvore resultante desta operao
0
denotada como 2 ;
3. Escolhe um ramo de
20
para inserir a subrvore
10 ,
resultando em uma nova rvore.
A Figura 5.5 mostra um exemplo do operador de recombinao. Existem dois tipos

de operadores de mutao implementados no PhyloMOEA:
1. Mutao topolgica: os operadores de mutao topolgica implementados no PhyloMOEA so o NNI, SPR e TBR (ver Captulo 2);
2. Modicao dos comprimentos de ramos: neste operador, uma parcela dos ramos
so escolhidos para serem modicados. O novo comprimento produto do seu valor
anterior multiplicado por um fator calculado usando a distribuio Gama (Lewis,
1998).
5.2.
PHYLOMOEA
87
rvore pai
B
subrvore
D
G
H
D
F
inserir
remover
rvore pai
A
E
H
rvore filha
G
E
C
rvore
Figura 5.5: Operador de recombinao do PhyloMOEA.
5.2.5 Otimizao dos comprimentos dos ramos

No nal da execuo do PhyloMOEA, espera-se que os valores de comprimento de ramos
fornecidos sejam aproximaes adequadas dos valores timos. Tais comprimentos podem
ser melhorados iterativamente aplicando tcnicas de otimizao convencionais, como nos
programas GA-mt (Lewis, 1998) e no METAPIGA (Lemmon e Milinkovitch, 2002a).
No PhyloMOEA, a otimizao dos comprimentos de ramos realizada usando o mtodo de Newton para uma varivel, tal como descrito no trabalho de Yang (2000).
algoritmo implementado nesse trabalho, faz a otimizao dos comprimentos ramo por
ramo. Da Equao 5.7 pode ser vericado que o valor de
primento de ramo
tvs ,
Lj
depende do apenas do com-
sendo que os demais ramos encontram-se xados. Dessa forma,
possvel calcular as primeiras e segundas derivadas de
Lj
com relao a
tvs ,
conforme a
seguinte equao:
XX
Lj
=
vj P0vj ,sj (tvs )Lvj (vj )Lsj (sj ),
tvs v s
j
j
2
X
X
L
j
L00j = 2 =
vj P00vj ,sj (tvs )Lvj (vj )Lsj (sj ),
tvs
v s
L0j =
P0vj ,sj (tvs ) e P00vj ,sj (tvs ) dependem do modelo de evoluo de DNA escolhido.
todas as j posies das seqncias, as primeiras e segundas derivadas de ln L so:
onde
(5.12)
Para
88
CAPTULO 5.
ln L X L0j
=
tvs
Lj
j
2
X
Lj L00j (L0j )2
ln L
ln L00 =
.
=
2
t2vs
L
j
j
ln L0 =
(5.13)
Empregando a Equao 5.13 possvel melhorar iterativamente o valor de tvs utilizando

o mtodo de Newton. Assim, o novo valor do
tvs
(denotado como
t0vs = tvs +
onde
L0 /L00
a direo Newton e
t0vs )
dado por:
L0
L00
(5.14)
o tamanho do passo.
u
r
rs
=t
vs
t rv =0
(a) Otimizao de tvs
r 'y
=0
r'
t
y
v
r 'v
=t
yv
r
s
z
w
(b) Otimizao de tyv
Figura 5.6: Otimizao de dois comprimentos de ramo.

Uma vez otimizado
tvw ,
procede-se com os demais ramos da rvore. A propriedade de
reversibilidade do modelo de evoluo de seqncias de DNA e a equao de ChapmanKolmogorov permitem que o clculo da verossimilhana seja independente da n escolhido
Lj da Equao 5.7
corresponde a inserir um n raiz r no ramo (v, s) tal que trv = 0 e trs = tvs (ver Figura 5.6(a)). Para otimizar um novo ramo, por exemplo, o ramo (v, y), deve-se criar uma
0
nova raiz r , tal que tr 0 y = 0 e tr 0 v = tuv . O valor de Lj para a nova topologia mostrada
como raiz (Felsenstein, 2004). Como visto na Seo 5.2.2, o valor de
na Figura 5.6(b) dada pela seguinte expresso:
5.2.
PHYLOMOEA
89
Lj =
XX
yj Pyj ,vj (tyv )Lyj (yj )Lvj (vj ).
(5.15)
yj vj
Deve-se observar que enquanto na Figura 5.6(a), o n
descendentes
e
z.
z,
na Figura 5.6(b), o n
a raiz da subrvore com
a raiz da subrvore com descendentes
v
Assim, o signicado da verossimilhana condicional de tal n (Lj (vj )) tem um valor
diferente nas Equaes 5.7 e 5.15. Conseqentemente, cada vez que se otimiza um novo
ramo, necessrio tambm modicar as verossimilhanas condicionais no caminho entre
a nova raiz
r0
e a antiga raiz
r.
Na prtica, os comprimentos de ramos no so independentes entre sim, ou seja, o

resultado de otimizar um determinado ramo pode levar outros ramos otimizados anteriormente a no terem valores timos.
Assim, vrios ciclos de otimizao envolvendo
todos os ramos da rvore podem ser necessrios (Yang, 2006). O Algoritmo 8 mostra o
procedimento de otimizao de ramos implementado no PhyloMOEA.
Algoritmo 8:
Otimizao de comprimento de ramos implementado no Phylo-
MOEA.
Entrada:
, uma rvore
B , o conjunto de comprimentos
tol, valor de tolerncia
Sada: ln L
de ramo de
repita
1
2
3
4
5
6
7
8
para cada
ramo (v, s) em
Escolher uma raiz
para um ramo
(v, s)
faa
ln L0 e ln L00 conforme a
0
Calcular tvs conforme a Equao
= + |t0vs tvs |
0
Escolher a nova raiz r
Calcular
Equao 5.13
5.14
Atualizar as verossimilhanas condicionais dos ns no caminho entre

0
r0
r=r
m
at
< tol
ln L.
Retornar
Vrias outras tcnicas de otimizao clssica tm sido empregadas na otimizao dos

ramos como, por exemplo o, mtodo de Newton para mltiplas variveis (Weir, 1996),
o mtodo de otimizao sem o emprego de derivadas (Brent, 1973) e de aproximaes
heursticas (Hordijk e Gascuel, 2005). Porm, encontrar os valores timos para os comprimentos de ramos tem-se mostrado como um fator limitante na anlise de mxima
verossimilhana dado que um processo que consume consideravelmente os recursos computacionais (Bryant et al., 2005).
90
CAPTULO 5.

Neste captulo foi apresentado o modelo de MOEA para o problema de reconstruo
de rvores logenticas. Os critrios de otimalidade empregados no PhyloMOEA so a
mxima parcimnia e a mxima verossimilhana. Os detalhes da adaptao do NSGAII (Deb et al., 2000) para ser aplicado a logenia foram tambm apresentados. O resultado
da execuo do PhyloMOEA um conjunto de rvores Pareto-timas correspondentes a
um compromisso entre os critrios de parcimnia e verossimilhana.
O desempenho do modelo proposto com diversos bancos de seqncias e a anlise de
resultados dos experimentos discutido no Captulo 6.
Captulo
6
Experimentos e resultados
6.1 Introduo
Neste captulo so apresentados os resultados da aplicao do PhyloMOEA para 4 bancos
de seqncias de DNA. O objetivo dos experimentos mostrar o desempenho de vrias
execues do PhyloMOEA para encontrar um conjunto de rvores que representem um
compromisso entre os critrios de mxima parcimnia e mxima verossimilhana.
As demais Sees deste captulo esto organizadas como segue. A Seo 6.2 apresenta
os conjuntos de teste empregados nos experimentos.
A Seo 6.3 detalha as condies
iniciais dos experimentos, enfatizando a gerao de solues iniciais e os parmetros do

PhyloMOEA empregados.
A Seo 6.4 mostra os resultados das execues do Phylo-
MOEA em cada banco de testes, destacando as melhores solues encontradas, a avaliao

estatstica das topologias alternativas e a comparao desses resultados com os obtidos
pelo programa Mr.Bayes (Ronquist et al., 2005). A Seo 6.5 mostra como a incorporao
da taxa de heterogeneidade de stios afeta os resultados das execues do PhyloMOEA.
Finalmente, a Seo 6.6 sintetiza os resultados mais relevantes deste Captulo.
6.2 Conjuntos de seqncias

O PhyloMOEA foi testado com 4 bancos de seqncias de DNA, os quais foram empregados como bancos de teste de programas de vrios inferncia logentica tais como:
91
92
CAPTULO 6.
EXPERIMENTOS E RESULTADOS
PHYML (Guindon e Gascuel, 2003), GAML (Lewis, 1998), RAxML (Stamatakis et al.,
2005b), IQPNNI (Vinh e von Haeseler, 2004), e TNT (Golobo et al., 2004).
1. O banco
rbcL_55
contendo 55 seqncias (de 1.314 nucleotdeos cada uma) do gen
rbcL de cloroplasto de plantas (Lemmon e Milinkovitch, 2002a; Lewis, 1998);

2. O banco
mtDN A_186
contendo 186 sequncias de DNA mitocondrial humano (de
The Human Mitochondrial
16.608 nucleotdeos cada uma) obtido do banco mtDB (
genome Database
3. O banco
(Ingman e Gyllensten, 2006));
RDP II _218
contendo 218 seqncias de RNA procaritico (de 4.182 nu-
cleotdeos) encontrado no projeto
RDP II
The Ribosomal Database Project II
(Cole
et al., 2005; Guindon e Gascuel, 2003; Stamatakis et al., 2005b; Vinh e von Haeseler,
2004));
4. O banco
ZILLA_500 contendo 500 seqncias (de 1.428 nucleotdeos cada uma) do
gen rbcL de plantas (Chase et al., 1993; Golobo e Farris, 2001; Guindon e Gascuel,
2003; Stamatakis et al., 2005b; Vinh e von Haeseler, 2004).
Os bancos so apresentados em ordem crescente de nmero de espcies considerada,

aumentando tambm a complexidade de busca topolgica.
6.3 Condies iniciais

As solues da populao inicial do PhyloMOEA foram obtidas utilizando anlises de
parcimnia, verossimilhana e
bootstrap
(Felsenstein, 1985) (ver Captulo 2). Como men-
cionado no Captulo 5, o PhyloMOEA pode gerar solues inciais aleatrias, porm usualmente tais solues encontram-se muito longe da fronteira de Pareto. Isso retarda notavelmente a convergncia do algoritmo sobretudo nos bancos de seqncias maiores. A anlise
de parcimnia foi efetuado com o programa NONA (Golobo, 1999b); enquanto a anlise
de mxima verossimilhana foi efetuada empregando o programa RAxML-V (Stamatakis
e Meier, 2004).
A incluso de solues geradas por meio da anlise de
bootstrap
bootstrap
(Felsenstein, 1985) na
populao inicial possibilita que o algoritmo encontre facilmente solues intermedirias

entre os extremos da fronteira de Pareto. Para a anlise de
(Felsenstein, 1985)
foi empregado o programa PHYML (Guindon e Gascuel, 2003). Assim, as solues iniciais
correspondentes a populao inicial do PhyloMOEA so:
uma rvore gerada pelo NONA (mxima parcimnia);
uma rvore gerada pelo RAxML-V (mxima verossimilhana);
6.3.
CONDIES INICIAIS
93
As demais rvores geradas por
bootstrap
empregando o programa PHYML.
A Tabela 6.1 mostra os valores de parcimnia e verossimilhana para as solues

calculadas pelo NONA e RAxML-V para os 4 bancos de teste. Tais valores representam os
pontos extremos (mxima parcimnia e mxima verossimilhana) da Fronteira de Pareto
a ser pesquisada pelo PhyloMOEA.
Tabela 6.1: Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo

NONA e RAxML-V.
Banco
NONA
RAxML-V
Parcimnia Verossimilhana Parcimnia Verossimilhana
rbcL_55
4.874
-24.627,848
4.894
-24.583,331
mtDN A_186
2.438
-41.049,768
2.450
-40.894,550
RDP II _218
41.534
-170.831,121
42.631
-156.595,873
ZILLA_500
16.219
-87.361,484
16.276
-86.993,826
A Tabela 6.2 mostra os parmetros do PhyloMOEA empregados nos experimentos.

Pode-se observar que o banco
ZILLA_500 requer um maior nmero de iteraes e tama-
nho de populao devido a este banco conter um maior nmero de espcies, o que aumenta
signicativamente o espao de busca.
Para o clculo da verossimilhana, emprega-se o
modelo de substituio de seqncias HKY85 (Hasegawa et al., 1985) (ver Captulo 2).
Tal modelo extensivamente empregado na literatura consultada (Guindon e Gascuel,
2003; Lemmon e Milinkovitch, 2002a; Lewis, 1998; Stamatakis e Meier, 2004).
Como visto no Captulo 5, o PhyloMOEA possui os operadores de mutao topolgica
NNI, SPR e TBR. Os resultados de experimentos preliminares (no mostrados nesta
Captulo), no indicaram uma diferena signicativa entre os trs operadores.
Assim,
optou-se por operador NNI por ser a forma mais simples de modicao topolgica. Os
parmetros de taxa de recombinao e mutao apresentados na Tabela 6.2 mostraram
um desempenho adequado nos experimentos.
Tabela 6.2: Parmetros do PhyloMOEA para os experimentos.
Parmetro
Geraes
Valor
500 (rbcL_55, mtDN A_186, e RDP II _218)
2.000 (ZILLA_500)
Tamanho da Populao 50 (rbcL_55, mtDN A_186, e RDP II _218)
e 100 (ZILLA_500)
Taxa de Cruzamento
0,8
Taxa de Mutao
0,05
Operador de Mutao
NNI
Modelo Evolutivo
HKY85
94
CAPTULO 6.
6.4 Resultados das execues do PhyloMOEA

Devido natureza estocstica dos AEs (De Jong, 2006), o PhyloMOEA foi executado
20 vezes por cada banco de teste.
o comportamento do algoritmo.
utilizado um
cluster
Tais execues permitem observar a estabilidade e
Para aumentar a quantidade de testes realizados foi
de 5 ns, cada n com um processador de dois ncleos
com 2Gb de RAM, rodando o sistema operacional
Rocks Linux
Atlhon
64
A Tabela 6.3 mostra os melhores valores de parcimnia e verossimilhana obtidos

nas execues do PhyloMOEA. Alm disso, mostrada a mdia e o desvio padro em
cada caso. Os nmeros indicados em negrito destacam os casos em que o PhyloMOEA
conseguiu melhorar as rvores de mxima parcimnia e mxima verossimilhana.
caso do critrio de parcimnia, apenas para o banco
mtDN A_186
No
obteve-se resultados
melhores em relao aos valores iniciais. No critrio de verossimilhana, o PhyloMOEA

melhorou esses valores para todos os bancos. No caso do banco
500_ZILLA
a melhora
foi mais signicativa.
Tabela 6.3: Resumo dos resultados das execues do PhyloMOEA.
Pontuao de
Pontuao de
Parcimnia
Verossimilhana
Banco
Melhor
Mdia
Melhor
Mdia
rbcL_55
4.874 4.874,00 0,00 -24.583,330 -24.583,330 0,00
mtDN A_186
2.436
2.437,10 0,64
-40.894,343
-40.894,528 0,06
218_RDP II
41.534 41.534,00 0,00 -156.595,850 -156.595,850 0,00
500_ZILLA
16.219 16.219,00 0,00 -86.991,649 -86.993,561 0,66
O PhyloMOEA encontra dois conjuntos de solues:
As Solues Pareto-timas, ou seja, solues que no so dominadas por nenhuma

soluo na populao nal;
As Solues Finais, as quais mantm todas as solues no dominadas alm daquelas que possuem valores iguais para o critrio de parcimnia. Tais solues so
importantes uma vez que possvel que duas topologias possuam o mesmo valor
de parcimnia e valores de verossimilhana diferentes. Nesse caso, se for aplicado o
critrio de dominncia de Pareto, seria eliminada a soluo com menor verossimilhana. Porm, ambas as solues so relevantes do ponto de vista do critrio de
parcimnia e, portanto, so guardadas pelo PhyloMOEA.
A Tabela 6.4 mostra os valores mximo, mdia e desvio padro do nmero de Solues Pareto-timas e Finais encontradas pelo PhyloMOEA. Pode-se observar um comportamento estvel em todas as execues do algoritmo dado que os valores de desvio so
relativamente pequenos.
6.4.
RESULTADOS DAS EXECUES DO PHYLOMOEA
95
Tabela 6.4: Resumo do nmero de solues encontradas nas execues do PhyloMOEA.
Solues Pareto-timas
Solues Finais
Banco
Mximo Mdia Mximo
Mdia
rbcL_55
10
7,05 1,39
54 48,20 3,00
mtDN A_186
12
9,05 1,23
55 48,95 2,61
218_RDP II
35 28,75 2,97
85 77,40 4,15
500_ZILLA
24 18.50 2.52
121 102.40 7.99
As Figuras 6.1, 6.2, 6.3 e 6.4 mostram a fronteira de Pareto obtida de uma execuo
do PhyloMOEA para os bancos
rbcL_55, mtDN A_186, RDP II _218
ZILLA_500,
respectivamente. O eixo horizontal representa a pontuao de parcimnia e o eixo vertical representa a pontuao de verossimilhana. Devido ao fato de que as pontuaes de
parcimnia so nmeros inteiros, a Fronteira de Pareto formada por pontos descontnuos. Tais pontos foram unidos por linhas para facilitar a visualizao da fronteira. Se
o intervalo de valores correspondentes a parcimnia for pequeno, so esperadas poucas
solues intermedirias entre os pontos extremos da fronteira. Tal fenmeno observado
nas Figuras 6.1 e
6.2.
Isso tambm indicado no nmero de solues na fronteira de
Pareto na Tabela 6.4. Por outro lado, se o intervalo for maior, como acontece para bancos maiores (RDP II _218 e
observado nas Figuras
24570
ZILLA_500),
existem vrias solues intermedirias, como
6.3 e 6.4, assim como na Tabela 6.4.

40850
Solues Paretotimas
Solues Finais
40900
24590
Verossimilhana
Verossimilhana
24580
Solues Paretotimas
Solues Finais
24600
24610
40950
41000
41050
24620
24630
41100
4874
4876
4878
4880
4882
Parcimnia
Figura 6.1: Solues

banco
4884
4886
Pareto-timas
rbcL_55.
4888
do
2436
2438
2440
2442 2444
Parcimnia
Figura 6.2: Solues

banco
2446
2448
2450
Pareto-timas
do
mtDN A_186.
6.4.1 Testes de rvores alternativas e clados

O teste SH (Shimodaira e Hasegawa, 1999) (ver Captulo 2) foi aplicado com os critrios de
parcimnia e verossimilhana separadamente para o conjunto de solues correspondentes
a execuo do PhyloMOEA com melhor resultado para cada banco.
As Tabelas 6.5 e
6.6 mostram os resultados do teste SH para as Solues Pareto-timas e as Solues

Finais, respectivamente. Os valores de tais tabelas referem-se ao nmero de solues no
96
CAPTULO 6.
86900
Solues Paretotimas
Solues Finais
156000
Solues Paretotimas
Solues Finais
87000
87100
Verossimilhana
Verossimilhana
158000
160000
162000
87200
87300
87400
164000
87500
166000
41400 41600 41800 42000 42200 42400 42600 42800 43000 43200
Parcimnia
Figura 6.3: Solues

banco
Pareto-timas
do
87600
16220 16230 16240 16250 16260 16270 16280 16290
Parcimnia
Figura 6.4: Solues
RDP II _218.
banco
Pareto-timas
do
ZILLA_500.
rejeitadas e solues rejeitadas pelo teste SH aplicado com os critrios de parcimnia e

verossimilhana.
Na Tabela 6.5 pode-se observar que no existem solues Pareto timas rejeitadas
para o banco
rbcL_55
nos critrios de parcimnia e verossimilhana. Isso indica que as
pontuaes das solues intermedirias esto prximas aos dos pontos extremos (melhores
solues encontradas para cada critrio) da fronteira e, portanto, o teste SH no rejeita
tais solues. No caso dos bancos
RDP II _218
ZILLA_500
existe um maior nmero
de solues rejeitadas uma vez que as pontuaes das solues intermedirias encontramse afastadas dos melhores pontuaes para cada objetivo.
Mesmo assim, em todos os
casos existem solues intermedirias que no so rejeitadas pelo teste SH para ambos os
critrios.
Na Tabela 6.6 observa-se um alto nmero de Solues Finais rejeitadas nos bancos
rbcL_55, RDP II _218
ZILLA_500.
No caso do banco
mtDN A_186,
existe um alto
nmero de Solues Finais no rejeitadas. Uma observao importante que, o nmero

de Solues Finais no rejeitadas em todos os bancos de dados maior que os mesmos
valores para as Solues Pareto-timas mostrados na Tabela 6.6. Esse resultado mostra
que, de certa forma, o critrio empregado para manter as solues relevantes para o
critrio de parcimnia tornou-se til para encontrar solues relevantes para o critrio de
verossimilhana. Comparando os valores de ambas as Tabelas 6.5 e 6.6, verica-se que
o nmero de Solues nais no rejeitadas mais que o dobro, na maioria dos casos, do
nmero de solues Pareto-timas.
importante ressaltar que o teste SH tem sido empregado em diferentes critrios de
otimalidade separadamente.
Ou seja, no um teste desenvolvido com a nalidade de
analisar solues contendo mltiplos critrios.
Porm, os resultados do teste SH mos-
traram que existem solues intermedirias que so consistentes tanto com a soluo de
mxima parcimnia quanto com a soluo de mxima verossimilhana. Portanto, o Phy-
6.4.
97
loMOEA foi capaz de encontrar rvores alternativas que representam um compromisso

entre as melhores rvore para cada critrio considerado separadamente.
Tabela 6.5: Resultados do teste SH para as Solues Pareto-timas.
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
10
0
10
0
mtDN A_186
8
0
4
4
RDP II _218
10
25
6
29
ZILLA_500
12
9
14
7
Total
40
34
34
40
Tabela 6.6: Resultados do teste SH para as Solues Finais.
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
rbcL_55
16
37
17
36
mtDN A_186
37
8
22
23
RDP II _218
21
57
11
67
ZILLA_500
27
79
29
77
Total
101
181
79
203
O conjunto de rvores obtidas pelo PhyloMOEA nas Solues Pareto-timas e nas
Solues Finais permitem calcular tambm o grau de suporte para cada ramo.
Esses
resultados podem ser comparados com os graus de suporte de ramos calculados utilizando
a tcnica de
bootstrap
(Felsenstein, 1985) ou com probabilidades posteriores dos ramos
calculados por inferncia Bayesiana (Lemmon e Milinkovitch, 2002a).

O grau de suporte do PhyloMOEA para cada clado a freqncia de tais clados nas
rvores das Solues Pareto-timas e Solues Finais. Para tal procedimento, foram empregadas as solues da melhor execuo do PhyloMOEA em cada banco de seqncias.
Os resultados foram comparados com as probabilidades posteriores calculadas pelo programa Mr.Bayes (Huelsenbeck e Ronquist, 2003; Huelsenbeck et al., 2001). O Mr.Bayes foi
executado com os 4 bancos de dados empregando os parmetros padres do programa, com
exceo do modelo HKY85 (Hasegawa et al., 1985) e o nmero de iteraes de 1.000.000
rbcL_55 e mtDN A_186, 1.500.000 para o banco RDP II _218 e 2.000.000

ZILLA_500. A sada do Mr.Bayes possui arquivos referentes ao estado da
para os bancos
para o banco
execuo do algoritmo, rvore de consenso, probabilidade posterior das rvores iteradas e

parmetros do modelo evolutivo empregado (Ronquist et al., 2005).
O conjunto de ramos comuns para as solues do PhyloMOEA e as solues do
Mr.Bayes foi classicado em vrias classes para facilitar a anlise:
98
CAPTULO 6.
Tipo I: o clado pertence apenas as rvores das solues intermedirias, no estando

presente nas rvores de mxima parcimnia ou mxima verossimilhana;
Tipo II: o clado pertence apenas a rvore de mxima parcimnia;
Tipo III: o clado pertence somente a rvore de mxima parcimnia e as rvores das
solues intermedirias;
Tipo IV: o clado pertence apenas a rvore de mxima verossimilhana;
Tipo V: o clado pertence somente a rvore de mxima verossimilhana e as rvores

das solues intermedirias;
Tipo VI: o clado pertence apenas a rvore de mxima parcimnia e a rvore de

mxima verossimilhana;
Tipo VII. o clado encontra-se nas rvores de mxima parcimnia, verossimilhana

e solues intermedirias.
As Tabelas 6.76.14 mostram os resultados da comparao do PhyloMOEA com

Mr.Bayes para as Solues Pareto-timas e as Solues Finais dos bancos
mtDN A_186, RDP II _218
ZILLA_500,
respectivamente.
rbcL_55,
Os nmeros em negrito
indicam os maiores graus de suporte do PhyloMOEA e do Mr.Bayes.
O signicado de
cada coluna nessas tabelas explicado a seguir:
Tipo: o tipo de clado referido;
Nm.: o nmero de clados encontrados para cada tipo;
PMOEA: a mdia do grau de suporte para cada tipo de clado das rvores calculadas
pelo PhyloMOEA;
PBayes: o grau de suporte para cada tipo de clado obtida pelo Mr.Bayes;
Dif.: o valor absoluto da diferena entre as colunas PMOEA e PBayes;
DPars:
para cada clado de um determinado tipo, calcula-se a diferena entre o
valor de parcimnia da rvore a qual o clado pertence e a pontuao de mxima

parcimnia encontrado. A mdia de tais valores depois normalizada no intervalo
[0, 1].
Dpars o valor normalizado;
DVeross: obtido de forma similar a DPars, utilizando os valores de verossimilhana

no lugar da parcimnia;
6.4.
99
DTPars: para cada clado de um determinado tipo, calcula-se a distncia topolgica

de Robinson-Foulds (Robinson e Foulds, 1979) entre a rvore de mxima parcimnia
e a rvore a qual o clado pertence. A mdia de tais valores correspondente a DTPars;
DTVeross: o clculo similar ao DTPars trocando os valores de parcimnia pelos

de verossimilhana.
Os resultados mostram que os clados comuns dar rvores encontradas pelo PhyloMOEA e o Mr.Bayes pertencem aos tipos I, III, V e VII. Deve-se observar tambm que
desses clados, apenas os de tipo V e VII mostram uma mdia de grau de suporte (colunas
PMOEA e PBayes) alta tanto no PhyloMOEA como no Mr.Bayes.
Ou seja, os clados
comuns melhor suportados correspondem as rvores intermedirias e as rvores de mxima parcimnia e/ou mxima verossimilhana. Os valores de distncia nas pontuaes
(colunas DPars e DVeross) mostram, na maioria dos casos, uma maior proximidade das
rvores que contm tais tipos de clados com a rvore de mxima verossimilhana.
Os
valores de distncia topolgica (colunas DTPars e DTVeross) mostram tambm uma menor distncia entre as rvores contendo os clados de tipo V e VII e a rvore de mxima
verossimilhana.
Os clados de tipo I e III apresentam o menor valor nas colunas PMOEA e PBayes.
A diferena entre os valores de ambas as colunas so tambm as maiores. Isso signica
que, os clados correspondentes apenas s solues intermedirias e/ou os clados correspondentes a rvore de mxima parcimnia so menos suportados pelo PhyloMOEA e pelo
Mr.Bayes. Uma exceo acontece para o banco
RDP II _218
(ver Tabelas 6.11 e 6.12),
onde a probabilidade posterior maior que 50% para os clados de tipo I e III. Os clados
de tipo II aparecem apenas no banco
rbcL_55 (mostrado na Tabela 6.7),
porm este tipo
de clado pouco suportado.

Os resultados das comparaes realizadas entre os clados comuns do PhyloMOEA e
o Mr.Bayes claramente favorecem aqueles clados que esto prximos rvore de mxima
verossimilhana. Tal resultado o esperado, pois a inferncia Bayesiana emprega o clculo
de verossimilhana e, quando as informaes a priori no inuenciam signicativamente,
os resultados concordam com os da mxima verossimilhana (Felsenstein, 2004).
Na ltima linha das Tabelas 6.76.14, encontra-se a somatria do nmero de clados
de cada tipo e as mdias correspondentes as demais colunas dessas tabelas. Em todos os
casos, os clados de tipo V e VII apresentaram uma maior freqncia que os demais de tipos.
A diferena das mdias gerais do grau de suporte do PhyloMOEA e da probabilidade do
Mr.Bayes pequena na maioria dos casos. Alm disso, as mdias gerais das distncias de
pontuaes e topolgicas so tambm muito prximas.
As Figuras 6.5, 6.6, 6.7 e 6.8 mostram a relao do grau de suporte do PhyloMOEA
(eixo vertical) e a probabilidade posterior do Mr.Bayes (eixo horizontal) dos clados do tipo
100
CAPTULO 6.
V e VII para os bancos
rbcL_55, mtDN A_186, RDP II _218 e ZILLA_500, respectiva-
mente. A maior correspondncia entre ambas as quantidades observada para os clados

do tipo VII, onde a maioria dos pontos esto concentrados e prximos da coordenada [1,1]
(maior grau de suporte para ambos os mtodos) da reta (funo identidade ilustrada por
uma linha).
Tabela 6.7: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues

rbcL_55.
Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.

I
2
0,1500 0,2590 0,1090 0,3750
0,1869
0,1779
0,0913
II
5
0,1000 0,1558 0,0558 0,0000
1,0000
0,0000
0,2500
III
4
0,4500 0,4554 0,0054 0,2321
0,4613
0,1174
0,1408
V
13
0,7231 0,7327 0,0096 0,6603
0,0708
0,2160
0,0392
VII
39
1,0000
0,9651
0,0349 0,5300
0,1878
0,1865
0,0692
Total.
63
0,4846 0,5136 0,0429 0,3595
0,3814
0,1396
0,1181

Finais do banco
rbcL_55.

I
3
0,0755 0,4268 0,3513 0,4295
0,3207
0,2935
0,1693
III
9
0,2558 0,2889 0,0332 0,4005
0,3459
0,1849
0,3245
V
13
0,5544 0,7327 0,1783 0,3320
0,2440
0,2873
0,1387
VII
39 0,8824 0,9651 0,0827 0,3654
0,2808
0,2669
0,1865
Total
64
0,4420 0,6034 0,1614 0,3818
0,2979
0,2582
0,2047

mtDN A_186.

I
8
0,1406 0,1900 0,0494 0,2411
0,8080
0,1192
0,1916
III
14
0,3304 0,1886 0,1418 0,1709
0,8427
0,0751
0,1985
V
34
0,6103 0,4472 0,1631 0,7339
0,1876
0,2039
0,0482
VII
139 0,9964 0,8994 0,0970 0,5281
0,4162
0,1614
0,1000
Total
195
0,5194 0,4313 0,1128 0,4185
0,5636
0,1399
0,1346

Finais do banco
mtDN A_186.

I
14
0,0492 0,1802 0,1310 0,3828
0,3554
0,1781
0,1791
III
14
0,4381 0,1886 0,2495 0,3600
0,4252
0,0817
0,2497
V
34
0,4471 0,4472 0,0002 0,3281
0,1916
0,2344
0,0890
VII
139 0,9573 0,8994 0,0579 0,3403
0,3058
0,1627
0,1673
Total
201
0,4729 0,4289 0,1096 0,3528
0,3195
0,1642
0,1713
6.5.
INCORPORAO DA VARIAO DE TAXAS ENTRE STIOS
101

RDP II _218.

I
6
0,1619 0,6169 0,4550 0,6329
0,3825
0,3840
0,2858
III
3
0,3905 0,5250 0,1345 0,1862
0,8031
0,1194
0,4933
V
61
0,5251 0,7265 0,2014 0,7378
0,2547
0,4429
0,2000
VII
78
0,9897
0,8590
0,1307 0,4941
0,4952
0,3039
0,3332
Total
148
0,5168 0,6818 0,2304 0,5127
0,4839
0,3126
0,3281

Finais do banco
RDP II _218.

I
8
0,1122 0,7111 0,5989 0,4732
0,5009
0,3491
0,3780
III
3
0,3974 0,5250 0,1276 0,2035
0,7734
0,1472
0,5059
V
61
0,4548 0,7265 0,2717 0,5888
0,2810
0,4407
0,2304
VII
78
0,9686
0,8590
0,1096 0,3992
0,5292
0,2959
0,3750
Total
150
0,4833 0,7054 0,2769 0,4162
0,5211
0,3082
0,3723

ZILLA_500.

I
4
0,0952 0,2358 0,1406 0,8274
0,2064
0,2297
0,0495
III
65
0,3575 0,3302 0,0274 0,3008
0,7482
0,0865
0,1860
V
99
0,6445 0,5472 0,0974 0,7605
0,2849
0,2095
0,0698
VII
355 0,9934 0,8287 0,1648 0,6227
0,4264
0,1745
0,1046
Total
523
0,5227 0,4854 0,1075 0,6278
0,4165
0,1750
0,1025

Finais do banco
ZILLA_500.

I
19
0,0323 0,2489 0,2166 0,5439
0,5033
0,2228
0,1184
III
65
0,3218 0,3302 0,0084 0,3602
0,6075
0,1005
0,2177
V
99
0,6403 0,5472 0,0931 0,4898
0,3836
0,2424
0,0879
VII
355 0,9750 0,8287 0,1463 0,4518
0,4473
0,2037
0,1252
Total
538
0,4923 0,4887 0,1161 0,4614
0,4854
0,1923
0,1373
6.5 Incorporao da variao de taxas entre stios

Os clculos de verossimilhana nos experimentos da Seo 6.4 no consideram a heterogeneidade da taxa de substituio (ASRV) entre os stios (ver Captulo 2). Vrios autores
102
CAPTULO 6.
x
Clados Tipo V
Clados Tipo VII
x
Clados Tipo V
Clados Tipo VII
1.2
Suporte PhyloMOEA
Suporte PhyloMOEA
1.2
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes
0.2
0.4
0.6
0.8
Figura 6.5: Grau de suporte do Phylo- Figura 6.6: Grau de suporte do PhyloMOEA
Probabilidade
MOEA
vs.
Probabilidade
Posterior do Mr.Bayes para
as Solues Pareto-timas do
banco
rbcL_55.
banco
x
Clados Tipo V
Clados Tipo VII
1.2
mtDN A_186.
x
Clados Tipo V
Clados Tipo VII
1.2
Suporte PhyloMOEA
Suporte PhyloMOEA
vs.
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
Figura 6.7: Grau de suporte do PhyloMOEA
vs.
Probabilidade
0.2
0.4
0.6
0.8
Figura 6.8: Grau de suporte do PhyloMOEA
vs.
Probabilidade
banco
RDP II _218.
banco
ZILLA_500.
assinalam que nos bancos de seqncias reais, os stios evoluem com taxas diferentes (Felsenstein, 2004; Yang, 2006). Quando esse fator empregado, os resultados da anlise de
verossimilhana podem ser sensivelmente melhorados (Yang, 2006).
Assim, no decorrer das pesquisas, incorporou-se o ASRV empregando a taxa de heterogeneidade Gama (ver Captulo 2) no modelo HKY85, resultando no modelo HYK85+.
A anlise de mxima verossimilhana foi efetuada para cada banco de teste empregando o
programa RAxML-V (Stamatakis e Meier, 2004) considerando o ASRV. Contudo, esse programa emprega uma aproximao do modelo HKY85+ denominado HKY85CAT (Stamatakis, 2006a).
As solues do RAxML-V foram submetidas a uma otimizao dos
comprimentos de ramos e parmetros do modelo HKY85+ utilizando o PHYML (Guin-
6.5.
103
don e Gascuel, 2003). Portanto, a anlise completa de verossimilhana realizada pela

combinao de RAxML-V+PHYML. Da mesma forma que nos experimentos da Seo 6.4,
a solues de mxima parcimnia so calculadas com o programa NONA e o restante das
solues iniciais obtida pela anlise de
bootstrap
empregando o PHYML (Guindon e
Gascuel, 2003).
A Tabela 6.15 mostra os valores de parcimnia e verossimilhana para as solues
calculadas pelo NONA e RAxML-V+PHYML para os 4 bancos de teste.
Deve-se ob-
servar que os valores de verossimilhana dessa tabela so signicativamente melhores

comparando com os valores correspondentes aos da Tabela 6.1. Ou seja, a incorporao
de ASRV utilizando o modelo HYK85+ melhorou signicativamente as pontuaes de
verossimilhana das solues obtidas pelo NONA e RAxML-V+PHYML.
Alm disso, as solues calculadas pelo RAxML-V+PHYML mostraram pequenas
variaes na pontuao de parcimnia comparada aos valores mostrados na Tabela 6.1. Os
valores de parcimnia de tais solues pioraram para os bancos
e
ZILLA_500
mtDNA_186 RDPII_218
,
. Esse resultado indica que os pontos extremos da fronteira para tais bancos
encontram-se mais distantes.
Tabela 6.15: Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo

NONA e RAxML-V+PHYML (considerando o ASRV).
Banco
rbcL_55
mtDNA_186
RDPII_218
ZILLA_500
NONA
RAxML-V + PHYML
Parcimnia Verossimilhana Parcimnia Verossimilhana
4.874
-21.989,580
4.893
-21.889,844
2.438
-40.010,941
2452
-39.896,442
41.534
-147.794,345
42.813
-134.696,535
16.219
-81.880,193
16.310
-81.018,060
Os parmetros da execuo do PhyloMOEA so os mesmos que os empregados na

Seo 6.4 (ver Tabela 6.2). Os parmetros
de teste so mostrados na Tabela 6.16.
Tais valores foram obtidos com o programa
do modelo HKY85+ para os 4 bancos
PHYML a partir das rvores de mxima verossimilhana do RAxML.
Tabela 6.16: Parmetros do modelo HKY85+ para os experimentos.
Banco
rbcL_55
5,075 0,355
mtDN A_186 33,451 0,015
RDP II _218
2,719 0,533
ZILLA_500
3,890 0,950
104
CAPTULO 6.
6.5.1 Resultados das execues do PhyloMOEA utilizando ASRV

O PhyloMOEA foi executado apenas 10 vezes por cada banco de teste, devido ao aumento
signicativo de tempo de execuo quando considera-se o ASRV. A Tabela 6.17 mostra os
melhores valores de parcimnia e verossimilhana obtidos nas execues do PhyloMOEA.
Alm disso, mostrada a mdia e o desvio padro em cada caso. Os nmeros indicados
em negrito mostram onde o PhyloMOEA conseguiu melhorar as rvores de mxima parcimnia e mxima verossimilhana em relao a populao inicial (ver Tabela 6.15). Os
resultados mostram uma pequena melhoria nos critrios de parcimnia e verossimilhana
apenas para o banco
mtDN A_186.
Tabela 6.17: Resumo dos resultados das execues do PhyloMOEA considerando ASRV.
Pontuao de
Parcimnia
Banco
Melhor
Mdia
rbcL_55
4.874 4.874,00 0,00
mtDN A_186
2.437
2.437,90 0,32
RDP II _218
41.534 41.534,00 0,00
ZILLA_500
16.219 16.219,00 0,00
Pontuao de
Verossimilhana
Melhor
Mdia
-21.889,844 -21.889,844 0,00
-39.896,441
-39.896,441 0,00
-134.696,535 -134.696,535 0,00
-81.018,060 -81.018,060 0,00
A Tabela 6.18 mostra os valores mximo, mdio e desvio padro do nmero de Solues Pareto-timas e Finais encontradas pelo PhyloMOEA. Pode-se observar um comportamento estvel em todas as execues do algoritmo, uma vez que os valores de desvio so
relativamente pequenos. Comparados aos resultados mostrados na Tabela 6.4, encontrou-
rbcL_55 e ZILLA_500 e
um menor nmero delas nos bancos mtDN A_186 e RDP II _218. O nmero de Solues
Finais foi maior apenas no banco RDP II _218. Este resultado mostrou que, embora os
se um maior nmero de solues Pareto-timas para os bancos
valores de verossimilhana das solues tenham melhorado, a diversidade das solues foi
afetada, embora levemente, tanto para as solues Pareto-timas como para as Solues
Finais.
Tabela 6.18: Resumo do nmero de solues encontradas nas execues do PhyloMOEA

considerando ASRV.
Solues Pareto-timas
Solues Finais
Banco
Mximo Mdia Mximo Mdia
rbcL_55
13 10,30 1,49
61 52,50 5,74
mtDN A_186
10
8,50 1,43
59 50,80 4,44
RDP II _218
27 23,90 1,97
80 77,40 3,03
ZILLA_500
26 19,60 3,27
71 63,10 4,58
As Figuras
6.9, 6.10, 6.11 e
6.12 mostram a fronteira de Pareto e algumas Solu-
es Finais obtidas de uma execuo do PhyloMOEA para os bancos de teste
ZILLA_500,
respectivamente.
rbcL_55,
6.5.

39800
Fronteira de Pareto
Solues Finais
21860
Fronteira de Pareto
Solues Finais
39850
21880
21900
Verossimilhana
Verossimilhana
105
21920
21940
39900
39950
40000
21960
40050
21980
22000
40100
4875
4880
4885
Parcimnia
Figura 6.9: Solues

banco
4890
2436 2438 2440 2442 2444 2446 2448 2450 2452

Parcimnia
Pareto-timas
do
Figura 6.10: Solues Pareto-timas do
rbcL_55.
134000
banco
mtDN A_186.
80900
Fronteira de Pareto
Solues Finais
Fronteira de Pareto
Solues Finais
81000
135000
Verossimilhana
Verossimilhana
81100
136000
137000
138000
81200
81300
81400
81500
139000
81600
140000
81700
41600
41800
42000 42200 42400

Parcimnia
42600
42800
16220
16240
16260
16280
Parcimnia
16300
Figura 6.11: Solues Pareto-timas do Figura 6.12: Solues Pareto-timas do

banco
RDP II _218.
banco
ZILLA_500.
6.5.2 Testes de rvores alternativas para as solues do PhyloMOEA considerando ASRV

Os resultados da fronteira de Pareto e as Solues Finais fornecidas pelo PhyloMOEA
(considerando ASRV) foram analisadas estatisticamente utilizando o teste SH (Shimodaira
e Hasegawa, 1999). As Tabelas 6.19 e 6.20 mostram os resultados do teste SH para as
Solues Pareto-timas e as Solues Finais, respectivamente. Tais tabelas apresentam
o nmero de solues no rejeitadas e solues rejeitadas pelo teste SH aplicado com os
critrios de parcimnia e verossimilhana.
Nas Tabelas 6.19 e 6.20 por um lado, mostram resultados semelhantes aos das Tabelas 6.5 e 6.6 (sem considerar ASRV). Para os bancos menores, poucas solues so
rejeitadas; enquanto para os bancos maiores o nmero de solues rejeitadas relativamente grande.
Mesmo para os bancos maiores, o nmero de solues no rejeitadas
signicativo, revelando a importncia das solues do PhyloMOEA.
106
CAPTULO 6.
Tabela 6.19: Resultados do teste SH para as Solues Pareto-timas fornecidas pelo

PhyloMOEA considerando ASRV.
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
rbcL_55
11
2
8
5
mtDN A_186
10
0
9
1
RDP II _218
2
25
4
23
ZILLA_500
9
17
8
18
Total
32
44
29
47
Tabela 6.20: Resultados do teste SH para as Solues Finais fornecidas pelo PhyloMOEA considerando ASRV.
Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
rbcL_55
19
40
18
41
mtDN A_186
41
13
29
25
RDP II _218
6
74
5
75
ZILLA_500
16
55
12
59
Total
82
182
64
200
Comparando as Tabelas 6.5 e 6.19, verica-se que o total de solues no rejeitadas
para parcimnia (verossimilhana) so 40 e 32 (34 e 29), respectivamente. Das Tabelas 6.6
e 6.20, observa-se que o total de solues no rejeitadas para parcimnia (verossimilhana)
caem de 101 para 82 (79 para 64). Comparando-se as Tabelas 6.1 e 6.15 (com as solues encontradas pelo NONA e RAxML-V), verica-se que os pontos extremos esto mais
prximos de uma forma geral na Tabela 6.15, que foi obtida considerando o ASRV. Claramente, o menor nmero de solues no rejeitadas est relacionado com o menor intervalo
entre os pontos extremos nos clculos utilizando ASRV.
Os resultados do teste SH mostraram, mais uma vez, que existem solues intermedirias que so consistentes com a soluo de mxima parcimnia e a soluo de mxima
verossimilhana. Portanto, o PhyloMOEA foi capaz de encontrar rvores alternativas que
representam um compromisso entre as melhores rvores para cada critrio.
As Tabelas 6.216.28 mostram os resultados da comparao do PhyloMOEA com
o Mr.Bayes para as Solues Pareto-timas e as Solues Finais dos bancos
ZILLA_500
rbcL_55,
respectivamente. As colunas de tais tabelas
possuem o mesmo signicado que os das colunas das Tabelas 6.76.14 (ver Seo 6.4).
Os resultados mostram que os tipos de clados usualmente encontrados correspondem
aos tipos I, III, V e VII. Todos esses tipos de clados pertencem as solues intermedirias,
podendo ou no estar na rvores de mxima parcimnia e/ou mxima verossimilhana.
Os clados de tipo V e VII possuem, em geral, os melhores valores de suporte e a menor di-
6.5.
107
ferena entre tais graus quando se comparam os resultados do PhyloMOEA e o Mr.Bayes.

Isso signica que, os clados com maior suporte e probabilidade posterior, so aqueles que
pertencem s solues intermedirias e a rvore de mxima verossimilhana. Na maioria
dos casos, as distncias de pontuao e topolgicas em relao a parcimnia so maiores
que as distncias referentes a verossimilhana.
Os clados de tipo III, embora sejam bem suportados pelo phyloMOEA, no possuem
o mesmo suporte pelo Mr.Bayes. Dessa forma, a diferena de grau de suporte de ambos
os programas considervel.
Outros tipos de clados no possuem valores de suporte
altos em nenhum dos programas. Conseqentemente, os clados correspondentes apenas

s solues intermedirias e os clados correspondentes rvore de mxima parcimnia so
menos suportados pelo PhyloMOEA e pelo Mr.Bayes. A diferena das mdias gerais do
grau de suporte do PhyloMOEA e da probabilidade do Mr.Bayes pequena na maioria
dos casos. Alm disso, as mdias gerais das distncias de pontuaes e topolgicas so
tambm muito prximas.
As Figuras 6.13, 6.14, 6.15 e 6.16 mostram a relao do grau de suporte do PhyloMOEA e a probabilidade posterior do Mr.Bayes dos clados do tipo V e VII para os bancos
rbcL_55, mtDN A_186, RDP II _218
ZILLA_500
respectivamente. A maior corres-
pondncia entre ambas as quantidades observada para os clados de tipo VII, onde a
maioria dos pontos esto concentrados na regio direita da funo identidade.
Os resultados da comparao entre o PhyloMOEA e o Mr.Bayes realizada nesta Seo
so similares aos obtidos na Seo 6.4. Assim, os valores mostrados das Tabelas 6.21 6.28
so prximos dos mostrados nas Tabelas 6.7 6.14, encontrando-se pequenas diferenas
nos graus de suporte em alguns casos.
Como esperado, o resultado das comparaes
realizadas entre o PhyloMOEA e o Mr.Bayes favorece aqueles clados que esto prximos
rvore de mxima verossimilhana.
Tabela 6.21: Comparao dos resultados (considerando ASRV) do PhyloMOEA e

Mr.Bayes para as Solues Pareto-timas do banco
rbcL_55.

I
1
0,2308 0,3535 0,1228 0,5439
0,2091
0,1154
0,0385
III
2
0,6538 0,1471 0,5067 0,3090
0,4973
0,0573
0,0647
V
6
0,5897 0,7648 0,1750 0,6287
0,1978
0,0970
0,0312
VII
46
0,9950
0,9229
0,0721 0,4325
0,3926
0,0722
0,0519
Total
55
0,6173 0,5471 0,2192 0,4785
0,3242
0,0855
0,0466
108
CAPTULO 6.

Mr.Bayes para as Solues Finais do banco
rbcL_55.

I
18
0,0231 0,1797 0,1566 0,3775
0,3478
0,2340
0,2147
III
2
0,5492 0,1471 0,4021 0,3848
0,3876
0,2135
0,2457
V
6
0,4912 0,7648 0,2735 0,4310
0,3599
0,2460
0,1840
VII
46 0,8146 0,9229 0,1082 0,3828
0,3537
0,2162
0,2050
Total
72
0,4696 0,5036 0,2351 0,3940
0,3623
0,2274
0,2123

mtDN A_186.

I
10
0,2091 0,1903 0,0187 0,3282
0,2927
0,1627
0,1446
II
5
0,0909 0,2148 0,1239 0,0000
1,0000
0,0000
0,2295
III
13
0,3776 0,1834 0,1942 0,2389
0,5245
0,0910
0,1759
IV
2
0,0909 0,0696 0,0213 1,0000
0,0000
0,2295
0,0000
V
35
0,6182 0,3627 0,2555 0,7092
0,0897
0,2002
0,0628
VII
138 0,9960 0,8730 0,1230 0,5347
0,2354
0,1655
0,1021
Total
203
0,3971 0,3156 0,1228 0,4685
0,3570
0,1415
0,1192

mtDN A_186.

I
101
0,0299 0,1435 0,1136 0,2775
0,2998
0,2017
0,1789
III
18
0,3002 0,1922 0,1080 0,2532
0,3457
0,1344
0,2335
V
37
0,4789 0,3468 0,1320 0,2980
0,2478
0,2302
0,1083
VII
138 0,9516 0,8730 0,0785 0,2847
0,2946
0,1953
0,1603
Total
294
0,4401 0,3889 0,1081 0,2783
0,2970
0,1904
0,1703

RDP II _218.

I
15
0,1544 0,3119 0,1576 0,7163
0,3176
0,5432
0,2168
III
10
0,4053 0,5405 0,1353 0,4087
0,7618
0,3293
0,4221
V
127
0,5864 0,8174 0,2310 0,7423
0,2770
0,5655
0,1903
VII
74 0,9968 0,9656 0,0312 0,6096
0,4589
0,4791
0,2855
Total
226
0,5357 0,6589 0,1387 0,6192
0,4538
0,4793
0,2787
6.6.
CONSIDERAES FINAIS
109

RDP II _218.

I
48
0,0398 0,3279 0,2881 0,5049
0,4500
0,4652
0,3564
III
10
0,4366 0,5405 0,1039 0,3389
0,6436
0,3143
0,4834
V
127
0,4830 0,8174 0,3344 0,5786
0,2995
0,5506
0,2452
VII
74
0,9668
0,9656
0,0012 0,4665
0,4673
0,4446
0,3611
Total
259
0,4815 0,6629 0,1819 0,4722
0,4651
0,4437
0,3615

ZILLA_500.

I
14
0,0842 0,1477 0,0634 0,7040
0,3398
0,1837
0,0727
III
64
0,3261 0,2820 0,0441 0,4364
0,6837
0,1106
0,1448
V
118
0,6554 0,5946 0,0608 0,7371
0,3031
0,1903
0,0648
VII
374 0,9964 0,9133 0,0832 0,6523
0,4063
0,1682
0,0869
Total
570
0,5155 0,4844 0,0629 0,6325
0,4332
0,1632
0,0923

ZILLA_500.

I
113
0,0117 0,1891 0,1775 0,4707
0,4205
0,1853
0,1247
III
63
0,3474 0,2764 0,0710 0,3545
0,5688
0,1178
0,1827
IV
119
0,6128 0,6035 0,0093 0,4865
0,2878
0,2196
0,0769
VII
373 0,9751 0,9113 0,0638 0,4429
0,3870
0,1845
0,1140
Total
668
0,4868 0,4951 0,0804 0,4386
0,4160
0,1768
0,1246

Neste Captulo foram apresentados os resultados da aplicao do PhyloMOEA em 4 bancos de seqncias de DNA usualmente empregados para avaliar programas de inferncia
logentica.
Os resultados indicaram que o modelo proposto apresentou um desempe-
nho e uma estabilidade adequadas em vrias execues do modelo para cada banco de
teste. O PhyloMOEA foi capaz de gerar solues da fronteira de Pareto que representam
alternativas intermedirias relevantes entre as rvores de mxima parcimnia e verossimilhana. Para obter melhores resultados, preciso que solues iniciais resultantes das
anlises de mxima parcimnia e mxima verossimilhana sejam includas na populao
inicial do PhyloMOEA. Caso contrrio, o mtodo desenvolvido mostra-se relativamente
lento para os casos em que as solues iniciais encontram-se muito longe da Fronteira de
110
CAPTULO 6.
x
Clados Tipo V
Clados Tipo VII
x
Clados Tipo V
Clados Tipo VII
1.2
Grau de Suporte PhyloMOEA
1.2
1
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes
0.2
0.4
0.6
0.8
Figura 6.13: Grau de suporte do Phylo- Figura 6.14: Grau de suporte do PhyloMOEA vs.
MOEA vs.
Probabilidade
banco
rbcL_55.
banco
x
Clados Tipo V
Clados Tipo VII
mtDN A_186.
x
Clados Tipo V
Clados Tipo VII
1.2
1.2
Probabilidade
1
0.8
0.6
0.4
0.2
1
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
Figura 6.15: Grau de suporte do PhyloMOEA vs.
Probabilidade
0.2
0.4
0.6
0.8
Figura 6.16: Grau de suporte do PhyloMOEA vs.
Probabilidade
as
banco
RDP II _218.
Solues
do banco
Pareto-timas
ZILLA_500.
Pareto. Alm disso, em alguns casos, o PhyloMOEA foi capaz de melhorar as solues
iniciais de mxima parcimnia e mxima verossimilhana obtidas por outros programas
de inferncia logentica.
A incorporao das taxas heterogeneidade entre stios, utilizando o modelo HKY85+,
melhorou signicativamente a verossimilhana da solues iniciais fornecidas ao PhyloMOEA, assim como os resultados nais.
Alm disso, o nmero de solues interme-
dirias no rejeitadas manteve-se em um nvel signicativo.
Portanto, o PhyloMOEA
considerando o ASRV, pode encontrar solues melhores, bem como pode fornecer uma
diversidade de solues com compromisso adequado entre parcimnia e verossimilhana.
6.6.
CONSIDERAES FINAIS
111
O teste SH realizado com as rvores correspondentes s Solues Pareto-timas e

Solues Finais do PhyloMOEA tambm mostrou que o modelo proposto foi capaz de encontrar rvores que so consistentes com os critrios de mxima verossimilhana e mxima
parcimnia. Finalmente, os resultados obtidos pelo PhyloMOEA para cada banco foi comparado com os resultados do programa de inferncia Bayesiana Mr.Bayes. Mostrou-se que,
os graus de suporte dos clados calculados com o PhyloMOEA concordam razoavelmente
com as probabilidades posteriores dos clados obtidas pelo Mr.Bayes.
As concluses nais deste trabalho de pesquisa e as propostas de trabalho futuras so
exploradas no Captulo 7.
112
CAPTULO 6.
Captulo
7
Concluses e trabalhos futuros
No decorrer do deste trabalho apresentou-se o problema de reconstruo de rvores logenticas como um dos principais da rea da bioinformtica.
Diversos mtodos para
reconstruir a rvore que melhor representa a histria das espcies envolvidas na anlise
tm sido propostas nesta rea de pesquisa. A mxima parcimnia e a mxima verossimilhana so dois dos principais mtodos de reconstruo logentica empregados pelos
pesquisadores. Tais mtodos denem critrios de otimalidade para avaliar as diferentes
solues no espao de busca.
Os algoritmos de Fitch (Fitch, 1972) e Felsenstein (Fel-
senstein, 1981a) permitem determinar as pontuaes de parcimnia e verossimilhana,

respectivamente. Contudo, a procura da rvore de mxima parcimnia ou mxima verossimilhana no espao de busca uma tarefa complexa. O tamanho de espao de busca,
o qual cresce rapidamente com o nmero de espcies analisados, impede a aplicao de
mtodos de busca exata para determinar a soluo tima para conjuntos de dados de
tamanho mediano e grande.
Assim, para tal tarefa so empregados mtodos de busca
baseados em heursticas que, embora no garantam encontrar uma soluo tima, tm

apresentado desempenho satisfatrio na prtica.
Os AEs constituem uma das principais heursticas empregadas na reconstruo de
rvores logentica. Esses algoritmos representam um conjunto de tcnicas que tem por
base simular princpios da gentica e evoluo natural. Neste contexto, os AGs tm-se
destacado para resolver tanto problemas de otimizao quanto problemas de aprendizado
de mquina. O problema de reconstruo logentica pode ser formulado como um problema de otimizao empregando um critrio de otimalidade para avaliar as rvores no
espao de busca de topologias. A utilizao de AEs em logenia tem se mostrado como
113
114
CAPTULO 7.
CONCLUSES E TRABALHOS FUTUROS
uma aplicao importante obtendo resultados comparveis aos principais programas de

inferncia logentica como PHYLIP e o PAUP*.
Foi realizada uma reviso extensiva
dos principais trabalhos da aplicao de AEs em logenia, focando principalmente os trabalhos que empregaram como critrio de otimalidade a mxima parcimnia e mxima
verossimilhana.
Os AEs podem ser aplicados em problemas de otimizao com vrios objetivos a serem
atingidos simultaneamente. Em tais problemas de otimizao multi-objetivo (MOOPs),
usualmente os objetivos a serem otimizados so conitantes entre sim, ou seja, se um
objetivo melhorado usualmente outro objetivo prejudicado. Isso signica que em tais
casos, no existe apenas uma soluo tima, mais sim um conjunto de solues denominadas Pareto-timas que representam um compromisso entre os objetivos do problema. Os
AEs tm sido empregados satisfatoriamente em MOOPs, apresentando vrias vantagens
com relao a outras tcnicas de otimizao para este tipo de problemas.
Uma srie de trabalhos apresentados na reviso bibliogrca mostra que o emprego
de diferentes mtodos de reconstruo logentica para um conjunto de dados tm resultado em rvores conitantes. Assim, uma abordagem multi-objetivo da reconstruo
logentica surge como uma alternativa vivel para incorporar diversos critrio de otimalidade usualmente empregados neste problema.
Esta abordagem representa a principal
motivao do presente trabalho de tese.

Neste trabalho foi desenvolvido o PhyloMOEA, um abordagem de MOEA para o problema de reconstruo de rvores logenticas baseado no modelo NSGA-II (Deb et al.,
2000). Os principais componentes do PhyloMOEA foram apresentados detalhadamente.
Os critrios considerados pelo PhyloMOEA so a mxima parcimnia e a mxima verossimilhana. O resultado da execuo do modelo proposto um conjunto de rvores
Pareto-timas correspondentes a um compromisso entre os critrios considerados.
Para avaliar o conjunto de rvores obtidos pelo PhyloMOEA empregou-se o teste estatstico SH, que permite determinar se as solues encontradas no so signicativamente
piores que as rvores de mxima parcimnia e mxima verossimilhana. Determinar solues Pareto-timas que no sejam rejeitas pelo teste SH um indicador de que as rvores
encontradas com o PhyloMOEA so consistentes com os critrios considerados. importante notar que as rvores encontradas no podem ser diretamente comparadas com as
encontradas por outros programas de inferncia logentica, dado que esses programas
consideram apenas um critrio (parcimnia ou verossimilhana).
Uma outra forma de validar os resultados dos experimentos comparar com mtodos
de inferncia logentica que permitam trabalhar com um conjunto de rvores alternativas. Para esse propsito podem ser empregados mtodos de amostragem como
bootstrap
ou o mtodo de inferncia bayesiana. Assim, optou-se por comparar os graus de suporte

dos clados pertencentes as rvores do PhyloMOEA com a probabilidade posterior dos
115
clados das rvores encontradas pelo programa Mr.Bayes. Procurou-se analisar a natureza
das correspondncia e diferena entre ambos os valores.
Os experimentos testaram o desempenho do PhyloMOEA em 4 bancos de seqncias
de DNA que tm sido freqentemente empregados na literatura.
Devido ao comporta-
mento estocstico dos AEs, o PhyloMOEA foi executado vrias vezes para cada banco.
Os resultados indicaram que o modelo proposto teve um desempenho satisfatrio e um
comportamento estvel em todas as execues. Alm disso, O PhyloMOEA foi capaz de
gerar solues da fronteira de Pareto que representam rvores alternativas entre as solues de mxima parcimnia e verossimilhana. Contudo, para obter resultados aceitveis,
preciso que solues inicias sejam incorporadas na populao inicial. Assim, foi realizado
uma anlise previa de mxima parcimnia e mxima verossimilhana para cada banco de
dados. Adicionalmente, outras rvores foram obtidas utilizando a anlise de
bootstrap
. A
incluso de tais rvores melhora consideravelmente o tempo de execuo e os resultados

obtidos pelo modelo proposto. O PhyloMOEA foi capaz, em alguns dos experimentos, de
encontrar rvore melhores considerando cada critrio separadamente.
A incorporao das taxas heterogeneidade entre stios, utilizando o modelo HKY85+,
melhorou signicativamente as pontuaes de verossimilhana da solues inicias, assim
como os resultados nais do PhyloMOEA. Contudo, os clculos de verossimilhana requeridos por este modelo, aumentam signicativamente o tempo de execuo do PhyloMOEA.
Observou-se tambm que o nmero de solues encontradas foi levemente diminudo com
o emprego desta abordagem.
O teste SH realizado nas Solues Pareto-timas e Solues Finais do PhyloMOEA
mostrou que o modelo proposto foi capaz de encontrar rvores que so consistentes com
os critrios de mxima verossimilhana e mxima parcimnia. Embora em alguns casos
o teste rejeitou certa porcentagem considervel das solues, encontrou-se sempre rvores
consistentes com os critrios considerados.
Os clados correspondentes as rvores encontradas pelo PhyloMOEA foram comparadas aos clados calculados pelo programa de inferncia Bayesiana Mr.Bayes. Mostrou-se
que, os graus de suporte dos clados calculados com o PhyloMOEA concordam razoavelmente com as probabilidades posteriores dos clados obtidas pelo Mr.Bayes.
Propou-se
uma classicao de clados conforme a sua presena em rvores de mxima parcimnia,

mxima verossimilhana e solues intermedirias. Calculou-se a mdia das distncias de
pontuao e topolgica entre as topologias contendo cada tipo de clado e as pontuaes
das rvores de mxima parcimnia e mxima verossimilhana. Mostrou-se que os clados
que pertencem tanto s solues intermedirias quanto s rvores de mxima parcimnia e mxima verossimilhana possuem um maior grau de suporte do PhyloMOEA e do
Mr.Bayes. As distncias topolgicas e de pontuao para esse tipo de clados encontram-se
mais prximos do ponto de mxima verossimilhana.
116
CAPTULO 7.
Resultados parciais decorrentes das pesquisas relativas ao presente trabalho foram

publicadas em dois congressos internacionais (Cancino e Delbem, 2007b,c):
Cancino, W. e Delbem, A.C.B. "A Multi-Objective Evolutionary Approach for Phy-
Fourth International Conference on Evolutionary MultiCriterion Optimization (EMO 2007)

logenetic Inference", in
. LNCS vol. 4403, pp. 428-442, 2007;
Cancino, W. e Delbem, A.C.B., "Multi-Criterion Phylogenetic Inference using Evo-
IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology, 2007. CIBCB '07
Best Student Paper
lutionary Algorithms", in
. pp. 351 - 358, 2007.
Neste ltimo evento realizou-se a apresentao oral do trabalho e o mesmo ganhou

o prmio de
Alm disso, uma verso estendida de tais trabalhos foi aceita para publicao na revista
International Journal of Information Technology and Intelligent Computing
(Cancino e
Delbem, 2007a), o qual respaldado pelo IEEE.

Embora os resultados obtidos pelo PhyloMOEA sejam encorajadores, ainda existem
vrios aspectos que merecem ser atendidos em pesquisa futura como:
O desempenho do PhyloMOEA pode ser melhorado em diversos aspectos, principalmente no emprego de heursticas de busca local (Guindon e Gascuel, 2003; Stamatakis e Meier, 2004) para uma melhor convergncia do algoritmo. Se as solues
iniciais so pobremente estimadas, o PhyloMOEA poderia requerer vrias horas de
execuo e no atingir resultados razoveis;
O clculo da verossimilhana um fator que inui fortemente no desempenho do

PhyloMOEA. No algoritmo proposto empregou-se o algoritmo de Felsenstein para
tal clculo. Tal algoritmo reduz drasticamente o nmero de operaes necessrias,
mas ainda pode ser lento para grandes bancos de seqncias. Alm disso, a natureza
dos AEs exige muitas avaliaes das solues na populao. Assim, o aumento do
desempenho do clculo da verossimilhana inuenciaria fortemente o desempenho
do PhyloMOEA. Na literatura, foram propostas vrias tcnicas para aumentar a
performance de tais clculos, as quais so empregadas em programas logenticos
mais recentes (Larget e Simon, 1998; Pond e Muse, 2004; Stamatakis e Meier, 2004).
O PhyloMOEA no otimiza os parmetros do modelo de substituio de seqncias

empregado no clculo da verossimilhana. Isso restringe o modelo a ser utilizado
quando so requeridos vrios parmetros.
Esses valores podem ser otimizados si-
multaneamente com as solues no decorrer das iteraes do PhyloMOEA;
O mtodo proposto emprega o modelo de parcimnia mais simples, isto , o algoritmo de Fitch, que trabalha com custos unitrios para cada troca de estado. Porm,
117
existem vrios outros modelos de parcimnia que podem ser adequados conforme
o banco de seqncias empregado.
A incluso desses modelos pode melhorar os
resultados (Felsenstein, 2004; Swoord et al., 1996);
Diversas tcnicas de paralelizao de MOEAs tm sido propostas na literatura (Coello et al., 2002; Veldhuizen et al., 2003).
Tais abordagens podem ser facilmente
implementados no PhyloMOEA visando melhorar o desempenho do modelo proposto.
Usualmente, os pesquisadores empregam diversas tcnicas de reconstruo logentica

para analisar os seus dados moleculares. Assim, um programa que permita sintetizar os
resultados da aplicao de vrios mtodos de reconstruo pode resultar em um aporte
muito signicativo na rea.
Em resumo, pode-se dizer que a pesquisa proposta foi realizada a contento, uma
vez que o PhyloMOEA tem obtido resultados condizentes com o esperado, bem como a
comunidade cientca da rea tem se mostrado bastante receptiva ao tratamento multiobjetivo para logenia proposto neste trabalho.
118
CAPTULO 7.
Referncias Bibliogrcas
MOLPHY version 2.3. Programs for Molecular Phylogenetics Based on Maximum Likelihood. in ishiguro
Adachi, J.; Hasegawa, M.
Computer Science Monographs 28,
The Institute of Statistical Mathematics, Tokyo, 1996.
Evolving: the theory and processes of organic evolution
Ayala, F.
Menlo Park, Calif:
Benjamin/Cummings Pub. Co., 1979.

Blagojevic, F.; Stamatakis, A.; Antonopoulos, C.; Nikolopoulos, D.
Raxml-
Parallel
and Distributed Processing Symposium, 2007. IPDPS 2007. IEEE International
cell: Parallel phylogenetic tree inference on the cell broadband engine.
In:
, 2007,
p. 1 10.
Brauer, M. J.; Holder, M. T.; Dries, L. A.; Zwickl, D. J.; Lewis, P. O.; Hillis,
D. M.
Genetic algorithms and parallel processing in maximum-likelihood phylogeny
Molecular Biology and Evolution

Algorithms for minimization without derivatives
inference.
, v. 19, n. 10, p. 17171726, 2002.

.
Brent, R.
Englewood Clis, NJ:
Prentice-Hall, 1973.
Weighted neighbor joining:
Bruno, W.; Socci, N.; Halpern, A.
based approach to distance-based phylogeny reconstruction.
Evolution
A likelihood-
Molecular Biology and
, v. 17, n. 1, p. 189197, 2000.
Bryant, D.; Galtier, N.; Poursat, M.
logenetics.
In: Gascuel, O., ed.
Likelihood calculation in molecular phy-
Mathematics of Evolution and Phylogeny
, cp. 2,
Oxford University Press, p. 3362, 2005.

Cancino, W.; Delbem, A.
rithms.
Inferring phylogenies by multi-objective evolutionary algo-
International Journal of Information Technology and Intelligent Computing
v. 2, n. 2, 2007a.
119
120
REFERNCIAS BIBLIOGRFICAS
Multi-criterion phylogenetic inference using evolutionary
Computational Intelligence and Bioinformatics and Computational

Biology, 2007. CIBCB '07. IEEE Symposium on
algorithms.
In:
, 2007b, p. 351 358.
inference.
A multi-objective evolutionary approach for phylogenetic
Evolutionary Multi-Criterion Optimization

Lecture Notes in Computer Science
In:
, Springer Berlin / Heidel-
berg, 2007c, p. 428442 (
, v.4403).
Cavalli-Sforza, L.; Edwards, A.
Evolution
Procedures.
, v. 21, n. 3, p. 550570, 1967.
Cavender, J.; Felsenstein, J.
states.
Phylogenetic Analysis: Models and Estimation
Invariants of phylogenies in a simple case with discrete
Journal of Classication
, v. 4, p. 5771, 1987.
Chase, M.; Soltis, D.; Olmstead, R.; Morgan, D.; Les, D.; Mishler, B.; Duvall, M.; Price, R.; Hills, H.; Qiu, Y.; Kron, K.; Rettig, J.; Conti, E.;
Palmer, J.; Manhart, J.; Sytsma, K.; Michaels, H.; Kress, W.; Karol, K.;
Clark, W.; Hedren, M.; Gaut, B.; Jansen, R.; Kim, K.; Wimpee, C.; Smith,
J.; Furnier, G.; Strauss, S.; Xiang, Q.; Plunkett, G.; Soltis, P.; Swensen,
S.; Williams, S.; Gadek, P.; Quinn, C.; Eguiarte, L.; Golenberg, E.; Learn,
G.; Graham, S.; Barrett, S.; Dayanandan, S.; Albert, V.
Phylogenetics of
seed plants - an analysis of nucleotide-sequences from the plastic gene rbcl.
the Missouri Botanical Garden
Annals of
, v. 80, n. 3, p. 528580, 1993.
Coelho, G.; Silva, A.; Zuben, F.
approach.
In:
Evolving phylogenetic trees: A multiobjective
Advances in Bioinformatics and Computational Biology

/ Heidelberg, 2007, p. 113125 (

Coelho, G.; Von Zuben, F.
optimization.
Coello, C.
In:
, Springer Berlin
, v.4643/2007).
Omni-ainet: An immune-inspired approach for omni
Articial Immune Systems
, 2006, p. 294308.
A Short Tutorial on Evolutionary Multiobjective Optimization.
ler, E.; Deb, K.; Thiele, L.; Coello, C. A. C.; Corne, D., eds.
In: Zitz-
First Internati-
onal Conference on Evolutionary Multi-Criterion Optimization

Evolutionary algorithms for solving
multi-objective problems
, Springer-Verlag., 2001,
p. 2140 (
, v.1993).
Coello, C.; Veldhuizen, D. V.; Lamont, G.
Genetic algorithms and evolutionary computation ; 5.
New
York: Kluwer Academic, 2002.

Cole, J.; Chai, B.; Farris, R.; Wang; Kulam, S.; McGarrell, D.; Garrity,
G.; Tiedje, J.
The Ribosomal Database Project (RDP-II): Sequences and Tools for
High-throughput rRNA Analysis.
Nucleic Acids Research
, v. 33, p. D294D296, 2005.
GAPHYL: An evolutionary algorithms approach for the study of natural
Congdon, C.
evolution.
121
In:
Genetic and Evolutionary Computation Conference (GECCO-2002)
2002.
Congdon, C.; Greenfest, E.
tics.
GAPHYL: A Genetic Algorithm Approach to Cladis-
In: Freitas, A. A.; Hart, W.; Krasnogor, N.; Smith, J., eds.
with Evolutionray Algorithms
Data Mining
, 2000, p. 8588.
Congdon, C.; Septor, K. J.
Phylogenetic trees using evolutionary search: Initial
progress in extending GAPHYL to work with genetic data.
In: Sarker, R.; Rey-
nolds, R.; Abbass, H.; Tan, K. C.; McKay, B.; Gedeon, T., eds.
Evolutionary Computation (CEC-2003)

Introduction to algorithms
Congress on
, IEEE Press, 2003, p. 320326.

.
2nd ed. ed.
Cambridge, Mass: MIT Press,
Corne, D.; Jerram, N.; Knowles, J.; Oates, M.
PESA-II: Region-based Selec-
Cormen, T.
2001.
tion in Evolutionary Multiobjective Optimization.
In:
Spector, L.; Goodman,
E. D.; Wu, A.; Langdon, W.; Voigt, H.-M.; Gen, M.; Sen, S.; Dorigo, M.;
Proceedings of the Genetic and Evolutionary Computation Conference (GECCO'2001)
Pezeshk, S.; Garzon, M. H.; Burke, E., eds.
, San Francisco, California: Morgan
Kaufmann Publishers, 2001, p. 283290.

Corne, D.; Knowles, J.; Oates, M.
for Multiobjective Optimization.
The Pareto Envelope-based Selection Algorithm
In: Schoenauer, M.; Deb, K.; Rudolph, G.;
Yao, X.; Lutton, E.; Merelo, J. J.; Schwefel, H.-P., eds.
Parallel Problem Solving from Nature VI Conference

839848 (
Proceedings of the
, Paris, France: Springer., 2000, p.
, v.1917).
Cotta, C.; Moscato, P.
In: Merelo, J., ed.
Inferring Phylogenetic Trees Using Evolutionary Algorithms.
Parallel Problem Solving From Nature VII
, Springer-Verlag, 2002,
p. 720729.
Day, W.
Optimal algorithms for comparing trees with labeled leaves.
Classication
Journal of
, v. 2, n. 1, p. 728, 1985.
De Castro, L.; Timmis, J.
Articial immune systems: a new computational intelli-
gence approach
Evolutionary computation: a unied approach
.
London: Springer, 2002.
De Jong, K.
Cambridge, Mass: MIT
Press, 2006.
Deb, K.
Multi-objective optimization using evolutionary algorithms
Wiley & Sons, 2001.
New York: John
122
A Fast Elitist Non-Dominated

Sorting Genetic Algorithm for Multi-Objective Optimization: NSGA-II
Deb, K.; Agrawal, S.; Pratab, A.; Meyarivan, T.
KanGAL re-
port 200001, Indian Institute of Technology, Kanpur, India, 2000.

Deb, K.; Sundar, J.
Reference point based multi-objective optimization using evo-
GECCO '06: Proceedings of the 8th annual conference on

Genetic and evolutionary computation
lutionary algorithms.
In:
, New York, NY, USA: ACM, 2006, p. 635642.
Edwards, A.; Cavalli-Sforza, L.

H. V. . M., ed.
Reconstruction of evolutionary trees.
Phenetic and Phylogenetic Classication
In: J.,
, Systematics Association, p.
6776, 1964.
A successive approximations approach to character weighting.
Farris, J.
Zoology
Systematic
, v. 18, p. 374385, 1969.
Systematic Zoology
Methods for computing wagner trees.
Farris, J.
, v. 19, n. 1,
p. 8392, 1970.
Estimating phylogenetic trees from distance matrices.
Farris, J.
American Naturalist
v. 106, n. 951, p. 645668, 1972.

Hennig86 documentation.
Farris, J.
Distribuido pelo autor., 1988.
http://www.cladistics.org/education/hennig86.html
Disponvel em:
(Acessado
em 11/2007)
Maximum-likelihood and minimum-steps methods for estimating evo-
Felsenstein, J.
Systematic Zoology
lutionary trees from data on discrete characters.
, v. 22, n. 3,
p. 240249, 1973a.
Maximum-likelihood estimation of evolutionary trees from continuous
Felsenstein, J.
characters.
American Journal of Human Genetics
Felsenstein, J.
Approach.
Evolutionary Trees from DNA Sequences: A Maximum Likelihood
Journal of Molecular Evolution
Felsenstein, J.
, v. 17, p. 368376, 1981a.
Evolutionary trees from gene frequencies and quantitative characters:
Finding maximum likelihood estimates.

Felsenstein, J.
Evolution
Evolution
, v. 35, n. 6, p. 12291242, 1981b.
Condence Limits on Phylogenies: An Approach Using the Bootstrap.
, v. 39, n. 4, p. 783791, 1985.
Felsenstein, J.
Disponvel em:
html
, v. 25, p. 471492, 1973b.
The newick tree format.
2000a.
http://evolution.genetics.washington.edu/phylip/newicktree.
PHYLIP (Phylogeny Inference Package).
Felsenstein, J.
Disponvel em:
Inferring phylogenies
Sunderland, Massachusetts: Sinauer, 2004.
Toward Dening the Course of Evolution: Minimum Change for a Specic
Systematic Zoology
Tree Topology.
Fitch, W.
2000b.
http://evolution.genetics.washington.edu/phylip.html
Felsenstein, J.
Fitch, W.
123
, v. 20, n. 4, p. 406416, 1972.
A non-sequential method for constructing trees and hierarchical classicati-
ons.
, v. 4, n. 18, p. 3037., 1981.
Science
Construction of phylogenetic trees.
Fitch, W.; Margoliash, E.
, v. 155,
p. 279284, 1967.
Fogel, L.
Autonomous automata.
Fogel, L.; Owens, A.; Walsh, M.
Industrial Research
Articial intelligence through simulated evolution
, v. 4, n. 1, p. 1419, 1962.
New York: Wiley, 1966.

Fonseca, C.; Fleming, P.
Genetic Algorithms for Multiobjective Optimization: For-
mulation, Discussion and Generalization.
In: Forrest, S., ed.
Fifth International Conference on Genetic Algorithms
Proceedings of the
, University of Illinois at Urbana-
Champaign, San Mateo, California: Morgan Kauman Publishers, 1993, p. 416423.

Forster, M.; Pick, A.; Raitner, M.; Bachmaier, C.
documentation
Disponvel em:
Futuyma, D.
Gtl - graph template library
University of Pasdau, 2004.
http://infosun.fmi.uni-passau.de/GTL/
Biologia evolutiva
(Acessado em 11/2007)
Ribero Preto, SP: Sociedade Brasileira de Gentica,
1992.
Gascuel, O.
BIONJ: An Improved Version of the NJ Algorithm Based on a Sample
Model of Sequence Data.
, v. 14, n. 7, p. 685695,
1997.
Geist, A.; Beguelin, A.; Dongarra, J.; Jiang, W.; Manchek, R.; Sunderam,
V.
Pvm: Parallel virtual machine a users' guide and tutorial for networked parallel
MIT Press, 1994.

Gladstein, D.
Ecient incremental character optimization.
Cladistics
, v. 13, p. 2126,
1997.
Gogarten, J.; Lewis, P. O.
Computer methods in molecular evolution.
Lecture
Notes. University of Connecticut, 2002.

Disponvel em:
11/2007)
http://carrot.mcb.uconn.edu/mcb372/index2.html
(Acessado em
124
Genetic algorithms in search, optimization, and machine learning
Goldberg, D.
Re-
ading, MA: Addison-Wesley Publishing Company, Inc., 1989.

Phylogenetic information and experimental design in molecular systema-
Goldman, N.
tics.
Proceedings of the Royal Society of London Series B-Biological Sciences
, v. 265,
n. 1407, p. 17791786, 1998.

Goldman, N.; Anderson, J.; Rodrigo, A.
Systematic Biology
phylogenetics.
Likelihood-based tests of topologies in
, v. 49, n. 4, p. 652670, 2000.
Character optimization and calculation of tree lengths.
Goloboff, P.
Cladistics
, v. 9,
n. 4, p. 433436, 1993.
Goloboff, P.
Methods for faster parsimony analysis.
Cladistics
, v. 12, n. 3, p. 199220,
1996.
Analyzing large data sets in reasonable times: Solutions for composite
Goloboff, P.
optima.
Cladistics
, v. 15, n. 4, p. 415428, 1999a.
NONA (no name) ver. 2.
Goloboff, P.
Disponvel em:
Distribuido pelo author, 1999b.
http://www.cladistics.com/aboutNona.htm (Acessado em 11/2007)
Goloboff, P.; Farris, J.
Methods for quick consensus estimation.
Cladistics
, v. 17,
n. 1, p. S26S34, 2001.
Cladistics
Fundamentals of molecular evolution
Mthodes et algorithmes pour l'approche statistique en phylognie
Tnt.
Goloboff, P.; Farris, J.; Nixon, K.
, v. 20, n. 1, p. 8484, 2004.

.
Graur, D.; Li, W.-H.
Guindon, S.
2 ed.
Sinauer, 2000.
.
Tese
de Doutoramento, U.F.R. Sciences de Montpellier. Universit de Montpellier II, 2003.

Guindon, S.; Gascuel, O.
A Simple, Fast, and Accurate Algorithm to Estimate Large
Phylogenies by Maximum Likelihood.
Systematic Biology
Haimes, Y.; Lasdon, L.; Wismer, D.
, v. 5, n. 52, p. 696704, 2003.
On a bicriterion formulation of the problems
of integrated system identication and system optimization.
Systems, Man, and Cybernetics
IEEE Transactions on
, v. 1, n. 3, p. 296297, 1971.
Hajela, P.; Lin, C. Y.
Structural Optimization
Genetic search strategies in multicriterion optimal design.
, v. 4, p. 99107, 1992.
Handl, J.; Kell, D.; Knowles, J.
nal Biology and Bioinformatics.
Bioinformatics
Multiobjective Optimization in Computatio-
IEEE Transactions on Computational Biology and
, v. 4, n. 2, p. 289292, 2006.
Hartigan, J.
125
Minimum mutation ts to a given tree.
Biometrics
, v. 29, n. 1, p. 5365,
1973.
Hasegawa, M.; Kishino, H.; Yano, T.
a Molecular Clock of Mitochondrial DNA.
Dating of the HumanApe Splitting by
, v. 22,
p. 160174, 1985.
Practical genetic algorithms
Haupt, R.; Haupt, S.
Hendy, M.; Penny, D.
nary trees.
tion
Branch and bound algorithms to determine minimal evolutio-
Mathematical Biosciences
Hendy, M.; Penny, D.
New York: Wiley, 1998.
, v. 60, p. 133142, 1982.
Spectral analysis of phylogenetic data.
Journal of Classica-
, v. 10, p. 524, 1993.
Hillis, D.; Bull, J.; White, M.; Badgett, M.; Molineux, I.
phylogenetics - generation of a known phylogeny.
Science
Experimental
, v. 255, n. 5044, p. 589592,
1992.
Holland, J.
Adaptation in natural and articial systems
University of Michigan
Press, 1975.
Adaptation in natural and articial systems: an introductory analysis with

applications to biology, control, and articial intelligence
Holland, J.
1st mit press ed. ed.
Complex adaptive systems,
Cambridge, Mass: MIT Press, 1992.

Improving the eciency of SPR moves in phylogene-
Hordijk, W.; Gascuel, O.
tic tree search methods based on maximun likelihood.
Bioinformatics
, v. 21, n. 24,
p. 43384347, 2005.
Horn, J.; Nafpliotis, N.; Goldberg, D.
A Niched Pareto Genetic Algorithm for
Proceedings of the First IEEE Conference on Evolutionary Computation, IEEE World Congress on Computational Intelligence
Multiobjective Optimization.
In:
, Piscataway,
New Jersey: IEEE Service Center, 1994, p. 8287.

Huelsenbeck, J.
Biology
Performance of Phylogenetic Methods in Simulation.
Systematic
, v. 44, p. 1748, 1995.
Huelsenbeck, J.; Ronquist, F.
formatics
MrBayes: Bayesian inference of phylogeny.
Bioin-
, v. 17, p. 754755, 2001.
Huelsenbeck, J.; Ronquist, F.
mixed models.
Bioinformatics
Mrbayes 3: Bayesian phylogenetic inference under
, v. 19, p. 15721574, 2003.
126
Bayesian inference
Huelsenbeck, J.; Ronquist, F.; Nielsen, R.; Bollback, J.
Science
of phylogeny and its impact on evolutionary biology.
, v. 294, p. 23102314,
2001.
mtDB: Human Mitochondrial Genome Database, a
Ingman, M.; Gyllensten, U.
Nucleic Acids Research
Resource for Population Genetics and Medical Sciences.
, v. 34,
p. D749D751, 2006.
Limitations of the Evolutionary Parsimony Method of Phylogenetic
Jin, L.; Nei, M.

Treender manual
Analysis.
, v. 7, p. 82102, 1990.
Jobb, G.
Disponvel em:
2007.
http://www.treefinder.de/
Jones, D.; Taylor, W.; Thorton, J.
from protein sequences.
(Acessado em 11/2007)
The rapid generation of mutation data matrices
Computer Applications in the Biosciences
, v. 8, p. 275282,
1992.
Jukes, T.; Cantor, C.
molecules
Mammalian protein metabolism.
In:
Evolution of protein
, Academic Press, p. 21120, 1969.
Katoh, K.; Kuma, K.; Miyata, T.
Analysis for Molecular Phylogeny.
Genetic Algorithm-Based Maximum-Likelihood
, v. 53, p. 477484,
2001.
Evaluation of the maximum likelihood estimate of the
Kishino, H.; Hasegawa, M.
evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea.
, v. 4, p. 170179, 1989.
Multi-Objective Optimization
Kita, H.; Yabumoto, Y.; Mori, N.; Nishikawa, Y.
by Means of the Thermodynamical Genetic Algorithm.

ling, W.; Rechenberg, I.; Schwefel, H.-P., eds.
NaturePPSN IV
in Computer Science
In:
Voigt, H.-M.; Ebe-
Parallel Problem Solving from

Lecture Notes
, Berlin, Germany: Springer-Verlag, 1996, p. 504512 (

, v.1).
Knowles, J.; Corne, D.
The Pareto Archived Evolution Strategy:
line Algorithm for Multiobjective Optimisation.
Computation
In:
A New Base-
1999 Congress on Evolutionary
, Washington, D.C.: IEEE Service Center, 1999, p. 98105.
Kosakovsky, S.; Muse, S.
likelihood function.
Column sorting: Rapid calculation of the phylogenetic
Systematic Biology
Kuhner, M.; Felsenstein, J.
, v. 53, n. 5, p. 685692, 2004.
A Simulation Comparison of Phylogeny Algorithms
under Equal and Unequal Evolutionary Rate.

p. 459468, 1994.
, v. 11,
Lake, J.
127
A rate-independent technique for analysis of nucleic acid sequences: Evoluti-
onary parsimony.

Faster likelihood calculations on trees
, v. 4, p. 167191, 1987.
.
Larget, B.; Simon, D.
Relatrio Tcnico,
Department of Mathematics and Computer Science. Duquesne University, 1998.

Larget, B.; Simon, D.
of phylogenetic trees.
Markov chain monte carlo algorithms for the bayesian analysis
, v. 16, n. 6, p. 750759, 1999.
Laumanns, M.; Rudolph, G.; Schwefel, H.
A Spatial Predator-Prey Approach
to Multi-Objective Optimization: A Preliminary Study.

nauer, M.; Schwefel, H.-P., eds.
In: Eiben, A. E.; Schoe-
Parallel Problem Solving From Nature PPSN
, Amsterdam, Holland: Springer-Verlag, 1998, p. 241249.
Lemmon, A. R.; Milinkovitch, M. C.
The Metapopulation Genetic Algorithm: An
Ecient Solution for the Problem of Large Phylogeny Estimation.
the National Academy of Sciences
In:
Proceedings of
, 2002a, p. 1051610521.
Lemmon, A. R.; Milinkovitch, M. C.
milinkovitch(2002).
Supporting information for lemmon and
2002b.
http://www.ulb.ac.be/sciences/ueg/pdf_files/Lem&Milinko_02_
supp_data.pdf (Acessado em 11/2007)
Disponvel em:
Lewis, P. O.
A Genetic Algorithm for Maximum-Likelihood Phylogeny Inference Using
Nucleotide Sequence Data.
, v. 15, n. 3, p. 277283,
1998.
Li, S.; Pearl, D.; Doss, H.
carlo.
Phylogenetic tree construction using markov chain monte
Journal of the American Statistical Association
Mak, T.; Lam, K.
hw/sw codesign.
(CSB'03)
, v. 95, n. 450, p. 493508, 2000.
High speed GAML-based phylogenetic tree reconstruction using

In:
Proceeding of the Computational Systems Bioinformatics
, IEEE Press, 2003, p. 470473.
Matsuda, H.
Construction of phylogenetic trees from amino acid sequences using a
genetic algorithm.
In:
Pacic Symposium on Biocomputing '96
, World Scientic, 1996,
p. 512523.
Mau, B.; Newton, M.
Phylogenetic inference for binary data on dendograms using
markov chain monte carlo.
Journal of Computational and Graphical Statistics
, v. 6,
n. 1, p. 122131, 1997.
Michalewicz, Z.
Genetic algorithms + data structures = evolution programs
rev. and extended ed. ed.
Berlin: Springer-Verlag, 1996.
3rd
128
A quantitative approach to a problem in classication.
Michener, C.; Sokal, R.
Evolution
, v. 11, p. 130162, 1957.
Nonlinear multiobjective optimization

Operations Research & Management Science
, v. 12 de
Miettinen, K.
International Series in
Boston: Kluwer Academic Publishers,
1999.
Searching for Most Parsimonious Trees with Simulated Evolutionary
Moilanen, A.
Cladistics
Optimization.
, v. 15, p. 3950, 1999.
Simulated evolutionary optimization and local search: Introduction and
Moilanen, A.
application to tree search.

Morrison, D. A.
Cladistics
, v. 17, p. S12S25, 2001.
Phylogenetic tree-building.
International Journal of Parasitology
v. 26, n. 6, p. 589617, 1996.

Nei, M.; Kumar, S.
Molecular evolution and phylogenetics
Oxford University Press,
2000.
Nei, M.; Takezaki, N.; Sitnikova, T.
Science
Assessing molecular phylogenies.
v. 267, p. 253255, 1994.

Nixon, K.
distics
The parsimony ratchet, a new method for rapid parsimony analysis.
Cla-
, v. 15, n. 4, p. 407414, 1999.
Olsen, G.; Matsuda, H.; Hagstrom, R.; Overbeek, R.
fastDNAml:
A tool
for construction of phylogenetic trees of DNA sequences using maximun likelihood.
Computer Applications in the Biosciences

Molecular evolution: A phylogenetic approach
, v. 10, n. 1, p. 4148, 1994.
Page, R. D. M.;
Holmes, E. C.
Blackwell Science Ltd., 1998.

Peer, Y.
Phylogeny inference based on distance methods.
damme, A., eds.
tein Phylogeny
In: Salemi, M.; Van-
The Phylogenetic Handbook: A Practical Approach to DNA and Pro-
, cp. 5, Cambridge University Press, p. 101136, 2003.
Penny, D.; Hendy, M.; Henderson, I.
Reliability of evolutionary trees.
Spring Harbor Symposium on Quantitative Biology
Poladian, L.; Jermiin, L.
lihood Function.
Cold
, 1987, p. 857862.
Multi-Objective Evolutionary Algorithms and Phylogenetic
Inference with Multiple Data Sets.

Pond, S. K.; Muse, S.
In:
Soft Computing
, v. 10, n. 4, p. 359368, 2006.
Column Sorting: Rapid Calculation of the Phylognetic Like-
Systematic Biology
, v. 53, n. 5, p. 685592, 2004.
Prado, O.
129
Computao evolutiva empregada na reconstruo de rvores logenticas
Dissertao de Mestrado, DCA-FEEC/Unicamp, 2002.
Numerical recipes in
Press, W.; Flannery, B.; Teukolsky, S.; Vetterling, W.
c: the art of scientic computing
2nd ed. ed.
Cambridge: Cambridge University
Press, 1992.
Pupko, T.; Graur, D.
Fast computation of maximum likelihood trees by numerical
approximation of amino acid replacement probabilities.
Data Analysis
Computational Statistics &
, v. 40, p. 285291, 2002.
Queiroz, K.; Poe, S.
Philosophy and phylogenetic inference: a comparison of like-
lihood and parsimony methods in the context of karl popper's writings on corroboration.
Systematic Biology
, v. 50, n. 3, p. 305321, 2001.
Quesne, W. L.
Zoology
A method of selection of characters in numerical taxonomy.
Systematic
, v. 18, p. 201205, 1969.
Quesne, W. L.
Linnean Society
Compatibility analysis and its applications.
Zoological Journal of the
, v. 74, p. 267275, 1982.

Probability distribution of molecular evolutionary trees: A
Rannala, B.; Yang, Z.
new method of phylogenetic inference.
, v. 43, n. 3,
p. 304311, 1996.
Cybernetic solution path of an experimental problem
Rechenberg, I.
Relatrio
Tcnico 1122, Royal Aircraft Establishment, Library Translation Number 1122, Franborough, UK., 1965.
Reijmers, T.; Wehrens, R.; Daeyaert, F.; Lewi, P.; Buydens, L.
Using genetic
algorithms for the construction of phylogenetic trees: Application to g-protein coupled

receptor sequences.
Rich, E.; Knight, K.
Biosystems
Articial intelligence
, v. 49, p. 3143, 1999.

.
2nd ed. ed.
New York: McGraw-Hill,
1991.
Ridley, M.
Evolution
2nd ed. ed.
Robinson, D.; Foulds, L.
mathematics VI
Cambridge, Mass., USA: Blackwell Science, 1996.
Combinatorial
Lecture Notes in Mathematics
Comparison of weighted labelled trees.
, Springer, 1979, p. 119126 (
Rogers, J.; Swofford, D.
, v.748).
A fast method for approximating maximun likelihoods of
phylogenetic trees from nucleotide sequences.

1998.
In:
Systematic Biology
, v. 47, n. 1, p. 7789,
130
Rokas, A.; Wiliams, B.; King, N.; Carroll, S.
Genome-Scale Approaches to
Nature
Resolving Incongrounce in Molecular Phylogenies.
, v. 425, n. 23, p. 798804,
2003.
Ronquist, F.
Cladistics
Fast tch-parsimony algorithms for large data sets.
, v. 14,
n. 4, p. 386400, 1998.
Ronquist, F.; Huelsenbeck, J.; Mark, P.
Mrbayes 3.1 manual
School of Com-
puter Science. Florida State University, 2005.
Proceedings of the International NAISO Congress on Information Science Innovations (ISI

2001)
Articial intelligence: a modern approach
Evolutionary Search under Partially Ordered Fitness Sets.
Rudolph, G.
In:
, ICSC Academic Press: Millet/Sliedrecht, 2001, p. 818822.
Russell, S.; Norvig, P.
series in articial intelligence.
Englewood Clis, N.J: Prentice Hall, 1995.
Russo, C.; Takezaki, N.; Nei, M.
Eciencies of dierent genes and dierent tree-
building methods in recovering a known vertebrate phylogeny.
Evolution
, v. 13, n. 3, p. 525536, 1996.
Rzhetsky, A.; Nei, M.
trees.
Prentice Hall
A simple method for estimating and testing minimum-evolution
, v. 9, p. 945967, 1992.
Relative eciencies of the tch-margoliash, maximum-
Saitou, N.; Imanishi, T.
parsimony, maximun-likelihood, minimum evolution, and neighbor-joining methods of

phylogenetic tree construction in obtaining the correct tree.
Evolution
, v. 6, p. 514525, 1989.
Saitou, N.; Nei, M.
Phylogenetic Trees.
The Neighbor-Joining Method: A New Method for Reconstructing

SIAM Journal of Applied Mathe, v. 4, n. 4, p. 406425, 1987.
Minimal mutation trees of sequences.
Sankoff, D.
matics
, v. 28, p. 3542, 1975.
Sankoff, D.
Problems.
Simultaneous Solution of the RNA Folding, Alignment and Proto-Sequence
SIAM Journal on Applied Mathematics
, v. 45, n. 5, p. 810825, 1985.
Sattath, S.; Tversky, A.
Additive similarity trees.
Psychometrika
, v. 42, p. 319345,
1977.
Schaffer, J.
Multiple Objective Optimization with Vector Evaluated Genetic Al-
Genetic Algorithms and their Applications: Proceedings of the First

International Conference on Genetic Algorithms
gorithms.
In:
, Lawrence Erlbaum, 1985, p. 93100.
Schwefel, H.
sendse, teil i.
131
Projekt mhd-staustrahlrohr: Experimentelle optimierung einer zweiphaRelatrio Tcnico 11.034/68, 35, AEG Forschungsinstitut, Berlin,
1968.
Setubal, J.; Meidanis, J.
Introduction to computational molecular biology
Interna-
tional Thomson, 1997.

An approximately unbiased test of phylogenetic tree selection.
Shimodaira, H.
tematic Biology
Sys-
, v. 51, n. 3, p. 492508, 2002.
Shimodaira, H.; Hasegawa, M.
Likelihood-Based Tests of Topologies in Phylogene-

The boost graph library: User guide and reference
manual
tics.
, v. 16, n. 8, p. 11141116, 1999.
Siek, J.; Lee, L.; Lumsdaine, A.
Addison-Wesley, Pearson Education Inc., 2002.
Disponvel em:
http://www.boost.org/libs/graph/doc/index.html
(Acessado em
11/07)
Skourikhine, A.
Phylogenetic tree reconstruction using self-adaptive genetic algorithm.
1st IEEE International Symposium on Bio-Informatic and Biomedical Engineering

(BIBE 2000)
In:
, IEEE Press, 2000, p. 193199.
Relative eciencies of the maximum parsimony and distance-
Sourdis, J.; Nei, M.
matrix methods in obtaining the correct phylogenetic tree.
Evolution
, v. 5, p. 298311, 1988.
Multiobjective Optimization Using Nondominated Sorting in
Srinivas, N.; Deb, K.
Evolutionary Computation
Genetic Algorithms.
Stamatakis, A.
nealing.
In:
(IPDPS'05)
, v. 2, n. 3, p. 221248, 1994.
An ecient program for phylogenetic inference using simulated an-
19th IEEE International Parallel and Distributed Processing Symposium
, 2005.
Stamatakis, A.
Phylogenetic models of rate heterogeneity: a high performance com-
puting perspective.
In:
2006. 20th International
Parallel and Distributed Processing Symposium, 2006. IPDPS
, 2006a, p. 8 pp.
Stamatakis, A.
Raxml-vi-hpc: Maximum likelihood-based phylogenetic analyses with
thousands of taxa and mixed models.
Bioinformatics
, v. 22, n. 21, p. 26882690,
2006b.
Stamatakis, A.; Ludwig, T.; Meier, H.
Raxml-ii: a program for sequential, pa-
rallel and distributed inference of large phylogenetic.
Practice & Experience
Concurrency and Computation-
, v. 17, n. 14, p. 17051723, 2005a.
132
Stamatakis, A.; Ludwig, T.; Meier, H.
RAxML-III: A fast program for maximum
Bioinformatics
likelihood based inference of large phylogenetic trees.
, v. 21, n. 4,
p. 456463, 2005b.
Stamatakis, A.; Ludwig, T.; Meier, H.; Wolf, M.
Accelerating parallel maximun
likelihood-based phylogenetic tree calculations using subtree equality vectors.

P., ed.
15th IEEE/ACM Supercomputing Conference (SC2002)
In: CD,
, Baltimore, Maryland
2002a.
Stamatakis, A.; Ludwig, T.; Meier, H.; Wolf, M.
AxML: A fast program for
sequential and parallel phylogenetic tree calculations based on the maximun likelihood
method.
In:
(CSB2002)
Proceedings of 1st IEEE Computer Society Bioinformatics Conference
, Palo Alto, California, 2002b, p. 2128.
Stamatakis, A.; Meier, H.
New Fast and Accurate Heuristics for Inference of Large
18th IEEE/ACM International Parallel and Distributed Processing Symposium (IPDPS2004)

Phylogenetic Trees.
In:
, 2004.
Nucleotide substitution models.
Strimmer, K.; Haeseler, A.

Vandamme, A., eds.
Protein Phylogeny
In: Salemi, M.;
The Phylogenetic Handbook: A Practical Approach to DNA and
, cp. 4, Cambridge University Press, p. 72100, 2003.
Strimmer, K.; Haesler, A.
Quartet puzzling: A quartet maximum-likelihood method
for reconstructing tree topologies.
, v. 13, p. 407514,
1996.
Lecture 7: Phylogenetic trees reconstruction.
Sung, W.-K.
2002.
http://www.comp.nus.edu.sg/~ksung/cs5238/2002Sem1/note/
note_taking_list.htm (Acessado em 11/2007)
Disponvel
em:
Swofford, D.
PAUP* Phylogenetic Analisys Using Parsimony.
CSIT Florida State
University, 2000.
Swofford, D.; Olsen, G.; Waddell, P.; Hillis, D.
In:
Molecular Systematics
Phylogeny Reconstruction.
, 3 ed, cp. 11, Sinauer, p. 407514, 1996.
Swofford, D.; Sullivan, J.
methods using paup*.
In:
Phylogeny inference based on parsimony and other

Salemi, M.; Vandamme, A., eds.
Handbook: A Practical Approach to DNA and Protein Phylogeny
The Phylogenetic
, cp. 7, Cambridge
University Press, p. 160206, 2003.

Sywerda, G.
Uniform crossover in genetic algorithms.
international conference on Genetic algorithms
In:
Proceedings of the third
, Morgan Kaufmann Publishers Inc.,
1989, p. 29.
133
Relative Eciences of the Maximum-Likelihood,
Tateno, Y.; Takezaki, N.; Nei, M.
Neighbor-Joining, and Maximum Parsimony Methods when Substitution Rate Varies

with Site.
, v. 11, p. 261267, 1994.
Templeton, A.
Phylogenetic inference from restriction endonuclease cleavage site maps
with particular reference to the evolution of humans and the apes.
Evolution
, v. 37,
n. 2, p. 221244, 1983.
Tuffley, C.; Steel, M.
Links between maximum likelihood and maximum parsimony
Bulletin of Mathematical Biology
under a simple model of site substitution.
, v. 59,
n. 3, p. 581607, 1997.
Multiobjective Evolutionary Algorithms: Classications, Analyses,

and New Innovations
Veldhuizen, D. V.
Tese de Doutoramento, Department of Electrical and Computer
Engineering. Graduate School of Engineering. Air Force Institute of Technology, WrightPatterson AFB, Ohio, 1999.
Veldhuizen, D. V.; Zydallis, J.; Lamont, G.
IEEE Transactions on Evolutionary
rallel multiobjective evolutionary algorithms.
Computation
Considerations in engineering pa-
, v. 7, n. 2, p. 144 173, 2003.
Vinh, L.; Haeseler, A.
Iqpnni: Moving fast through tree space and stopping in time.

Genetic data analysis ii
, v. 21, n. 8, p. 15651571, 2004.

.
Weir, B.
Yang, Z.
Sinauer, 1996.
Maximum-Likelihood Estimation of Phylogeny from DNA Sequences when
Substitution Rates Dier over Sites.
, v. 10, n. 6,
p. 13961401, 1993.
Yang, Z.
Maximum-likelihood phylogenetic estimation from DNA sequences with va-
Journal of Molecular evolution
riable rates over sites: Approximate methods.
, v. 39,
n. 3, p. 306314, 1994.
Yang, Z.
lihood.
Yang, Z.
PAML: A Program Package for Phylogenetic Analysis by Maximum Like-
Computer Applications in Biosciences
, v. 13, n. 5, p. 5556, 1997.
Maximum Likelihood Estimation on Large Phylogenies and Analysis of Adap-
tative Evolution in Human Inuenza Virus A.
, v. 51,
n. 5, p. 423432, 2000.
Yang, Z.
Computational molecular evolution
Oxford: Oxford University Press, 2006.
Oxford series in ecology and evolution.
134
Zeleny, M.
Compromise programming.
Multiple Criteria Decision Making
In:
Cochrane, J.; Zeleny, M., eds.
, University of South Carolina Press, 1973, p. 262
301.
Zitzler, E.; Deb, K.; Thiele, L.
rithms: Empirical Results.
Comparison of Multiobjective Evolutionary Algo-
Evolutionary Computation
SPEA2: Improving the Strength Pareto
, v. 8, n. 2, p. 173195, 2000.
Zitzler, E.; Laumanns, M.; Thiele, L.
Evolutionary Algorithm
Relatrio Tcnico 103, Computer Engineering and Networks
Laboratory (TIK), Swiss Federal Institute of Technology (ETH) Zurich, Gloriastrasse

35, CH-8092 Zurich, Switzerland, 2001.
An Evolutionary Algorithm for Multiobjective Optimization:

The Strength Pareto Approach
Zitzler, E.; Thiele, L.
Relatrio Tcnico 43, Computer Engineering and
Communication Networks Lab (TIK), Swiss Federal Institute of Technology (ETH),

Zurich, Switzerland, 1998.
Genetic algorithm approaches for the phylogenetic analysis of large biological

sequence datasets under the maximum likelihood criterion
Zwickl, D.
Faculty of the Graduate School. University of Texas., 2006.
Tese de Doutoramento,

Tese Waldo Corregida

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tese Waldo Corregida

Загружено:

Авторское право:

Доступные форматы

Algoritmos evolutivos multi-objetivo para a

reconstruo de rvores logenticas

Waldo Gonzalo Cancino Ticona

Tese apresentada ao Instituto de Cincias Matemticas e de

VERSO REVISADA APS A DEFESA

Algoritmos evolutivos multi-objetivo para a reconstruo

Waldo Gonzalo Cancino Ticona

Aos meus queridos amigos, pelos momentos de convvio, trocas e afetos.

Fundao de Amparo Pesquisa do Estado de So Paulo pela concesso da bolsa

Aos meus professores e colegas, sem distino, sou-lhes muito grato.

O problema reconstruo logentica tm como objetivo determinar as relaes

Diversos mtodos de reconstruo

Vrios desses mtodos denem um critrio de

otimalidade para avaliar as possveis solues do problema. Porm, a aplicao de

The phylogeny reconstruction problem consists of determining the evolutionary

Many of them denes an optimality criterion for

evaluation of possible solutions.

However, dierent criteria may lead to distinct

Moreover, intermediate solutions represent a

Estratgias de busca da rvore tima . . . . . . . . . . . . . . . . .

Heursticas para busca da rvore de mxima parcimnia

Heursticas para busca da rvore de mxima verossimilhana . . . .

Comparao de mtodos de inferncia logentica . . . . . . . . . . . . . .

Avaliao de clados e rvores alternativas . . . . . . . . . . . . . . . . . . .

Modelos de substituio de seqncias de DNA

Clculo de verossimilhana para uma rvore

Algoritmos evolutivos aplicados logenia

Representao das solues

Denio da populao inicial . . . . . . . . . . . . . . . . . . . . .

Diferenas entre os AGs e as tcnicas de otimizao tradicionais

Algoritmos evolutivos aplicados a logenia

Aplicao de AEs com o critrio de mxima verossimilhana

Aplicao de AEs com o critrio de mxima parcimnia . . . . . . .

AEs para otimizao multi-objetivo

Metas em otimizao multi-objetivo . . . . . . . . . . . . . . . . . .

Diferenas com a otimizao de objetivos simples

Tcnicas tradicionais para MOOP . . . . . . . . . . . . . . . . . . . . . . .

Programao por metas

Vantagens e desvantagens das tcnicas tradicionais

AEs para problemas de otimizao multi-objetivo

Abordagens multi-objetivo aplicados em logenia

MOEA para o problema de logenia

Gerao de solues iniciais

Operadores de recombinao e mutao . . . . . . . . . . . . . . . .

Otimizao dos comprimentos dos ramos . . . . . . . . . . . . . . .

Resultados das execues do PhyloMOEA

Testes de rvores alternativas e clados

Incorporao da variao de taxas entre stios

Resultados das execues do PhyloMOEA utilizando ASRV

Testes de rvores alternativas para as solues do PhyloMOEA considerando ASRV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Concluses e trabalhos futuros

Exemplos de seqncias de DNA e protenas. . . . . . . . . . . . . . . . . .

Exemplos de rvores com raiz. . . . . . . . . . . . . . . . . . . . . . . . . .

Uma rvore logentica para um grupo de primatas. . . . . . . . . . . . . .

As 7 possveis rvores geradas da rvore sem raiz de 5 seqncias.

Aplicao do algoritmo de Fitch para um caracter. . . . . . . . . . . . . . .

Exemplo da aplicao do mtodo NNI.

Exemplo da aplicao do mtodo SPR. . . . . . . . . . . . . . . . . . . . .

2.10 Exemplo do mtodo TBR. . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.11 rvore para o exemplo do clculo da verossimilhana. . . . . . . . . . . . .

2.12 Diagrama da anlise de

Operador de Recombinao de um ponto. . . . . . . . . . . . . . . . . . . .

Superfcie suavizada da funo

reconstruo de rvores logenticas

VERSO REVISADA APS A DEFESA

O problema reconstruo logentica tm como objetivo determinar as relaes

Vrios desses mtodos denem um critrio de

Many of them denes an optimality criterion for

However, dierent criteria may lead to distinct

Comparao de mtodos de inferncia logentica . . . . . . . . . . . . . .

Algoritmos evolutivos aplicados logenia

Denio da populao inicial . . . . . . . . . . . . . . . . . . . . .

Algoritmos evolutivos aplicados a logenia

Abordagens multi-objetivo aplicados em logenia

MOEA para o problema de logenia

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Uma rvore logentica para um grupo de primatas. . . . . . . . . . . . . .

Grco da aptido calculada em relao as geraes.

Mtodo da programao de metas lexicogrcas. . . . . . . . . . . . . . . .

Principais mtodos para construo de rvores logenticas.