Вы находитесь на странице: 1из 158

Algoritmos evolutivos multi-objetivo para a

reconstruo de rvores logenticas

Waldo Gonzalo Cancino Ticona


Orientador: Prof. Dr. Alexandre Cludio Botazzo Delbem

Tese apresentada ao Instituto de Cincias Matemticas e de


Computao - ICMC-USP como parte dos requisitos para obteno do ttulo de Doutor em Cincias, na rea de Cincias de
Computao e Matemtica Computacional.

VERSO REVISADA APS A DEFESA

Data da Defesa :

Visto do Orientador:

USP-So Carlos
Maro de 2008

11/02/2008

Algoritmos evolutivos multi-objetivo para a reconstruo


de rvores logenticas

Waldo Gonzalo Cancino Ticona

Dedicatria

A minha famlia, especialmente aos meus pais e a minha irm, pela compreenso,
carinho e incansvel apoio ao longo do perodo dos meus estudos de ps-graduao.

Aos meus queridos amigos, pelos momentos de convvio, trocas e afetos.

Agradecimentos

Ao Prof. Dr. Alexandre Cludio Botazzo Delbem, que, no decorrer deste doutorado, contribuiu para meu crescimento cientco e intelectual.

Ao Prof. Dr. Andr C.P.L.F. Carvalho, pela ateno e apoio durante as etapas
inicias do meu trabalho.

Fundao de Amparo Pesquisa do Estado de So Paulo pela concesso da bolsa


de doutorado e pelo apoio nanceiro para a realizao desta pesquisa (Nmero de
Processo: 02/13846-0).

Aos meus professores e colegas, sem distino, sou-lhes muito grato.

Resumo

O problema reconstruo logentica tm como objetivo determinar as relaes


evolutivas das espcies, usualmente representadas em estruturas de rvores.

No

entanto, esse problema tem se mostrado muito difcil uma vez que o espao de
busca das possveis rvores muito grande.
logentica tm sido propostos.

Diversos mtodos de reconstruo

Vrios desses mtodos denem um critrio de

otimalidade para avaliar as possveis solues do problema. Porm, a aplicao de


diferentes critrios resulta em rvores diferentes, inconsistentes entre sim. Nesse
contexto, uma abordagem multi-objetivo para a reconstruo logentica pode ser
til produzindo um conjunto de rvores consideradas adequadas por mais de um
critrio.
Nesta tese proposto um algoritmo evolutivo multi-objetivo, denominado PhyloMOEA, para o problema de reconstruo logentica. O PhyloMOEA emprega
os critrios de parcimnia e verossimilhana que so dois dos mtodos de reconstruo logentica mais empregados. Nos experimentos, o PhyloMOEA foi testado
utilizando quatro bancos de seqncias freqentemente empregados na literatura.
Para cada banco de teste, o PhyloMOEA encontrou as solues da fronteira de
Pareto que representam um compromisso entre os critrios considerados.
As rvores da fronteira de Pareto foram validadas estatisticamente utilizando
o teste SH. Os resultados mostraram que o PhyloMOEA encontrou um nmero
de solues intermedirias que so consistentes com as solues obtidas por anlises de mxima parcimnia e mxima verossimilhana realizados separadamente.
Alm disso, os graus de suporte dos clados pertencentes s rvores encontradas pelo
PhyloMOEA foram comparadas com a probabilidade posterior dos clados calculados pelo programa Mr.Bayes aplicados aos quatro bancos de teste. Os resultados
indicaram que h uma relao entre ambos os valores para vrios grupos de clados.
Em resumo, o PhyloMOEA capaz de encontrar uma diversidade de solues
intermedirias que so estatisticamente to boas quanto as melhores solues de

mxima parcimnia e mxima verossimilhana. Tais solues apresentam um compromisso entre os dois objetivos.

Abstract

The phylogeny reconstruction problem consists of determining the evolutionary


relationships (usually represented as a tree) among species. This is a very complex
problem since the tree search space is huge. Several phylogenetic reconstruction
methods have been proposed.

Many of them denes an optimality criterion for

evaluation of possible solutions.

However, dierent criteria may lead to distinct

phylogenies, which often conict with each other. In this context, a multi-objective
approach for phylogeny reconstruction can be useful since it could produce a set
of optimal trees according to mdicultultiple criteria.
In this thesis, a multi-objective evolutionary algorithm for phylogenetic reconstruction, called PhyloMOEA, is proposed. PhyloMOEA uses the parsimony
and likelihood criteria, which are two of the most used phylogenetic reconstruction methods. PhyloMOEA was tested using four datasets of nucleotide sequences
found in the literature. For each dataset, the proposed algorithm found a Pareto
front representing a trade-o between the used criteria.
Trees in the Pareto front were statistically validated using the SH-test, which
has shown that a number of intermediate solutions from PhyloMOEA are consistent
with solutions found by phylogenetic methods using one criterion. Moreover, clade
support values from trees found by PhyloMOEA was compared to clade posterior
probabilities obtained by Mr.Bayes. Results indicate a correlation between these
probabilities for several clades.
In summary, PhyloMOEA is able to nd diverse intermediate solutions, which
are not statistically worse than the best solutions for the maximum parsimony
and maximum likelihood criteria.
trade-o between these criteria.

Moreover, intermediate solutions represent a

Sumrio

Lista de Figuras

vi

Lista de Tabelas

viii

Lista de Abreviaturas

ix

Lista de Smbolos

xi

Introduo

Reconstruo logentica

2.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Seqncias e grafos

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Reconstruo logentica . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.4

Mxima parcimnia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.4.1

Estratgias de busca da rvore tima . . . . . . . . . . . . . . . . .

18

2.4.2

Heursticas para busca da rvore de mxima parcimnia

. . . . . .

22

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.5

Mxima verossimilhana

. . . . . . . . . . .

24

. . . . . . . . . . . . .

27

Heursticas para busca da rvore de mxima verossimilhana . . . .

30

2.6

Comparao de mtodos de inferncia logentica . . . . . . . . . . . . . .

32

2.7

Avaliao de clados e rvores alternativas . . . . . . . . . . . . . . . . . . .

34

2.7.1

Anlise de

34

2.7.2

O teste de Shimodaira-Hasegawa

2.7.3

Inferncia Bayesiana

2.8

2.5.1

Modelos de substituio de seqncias de DNA

2.5.2

Clculo de verossimilhana para uma rvore

2.5.3

bootstrap

. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .

36

. . . . . . . . . . . . . . . . . . . . . . . . . .

37

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

Algoritmos evolutivos aplicados logenia

41

3.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.2

Computao evolutiva

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

3.3

Algoritmos genticos

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

3.4

3.5

3.3.1

Representao das solues

. . . . . . . . . . . . . . . . . . . . . .

46

3.3.2

Denio da populao inicial . . . . . . . . . . . . . . . . . . . . .

47

3.3.3

Operador de seleo

. . . . . . . . . . . . . . . . . . . . . . . . . .

47

3.3.4

Operador de recombinao . . . . . . . . . . . . . . . . . . . . . . .

49

3.3.5

Operador de mutao . . . . . . . . . . . . . . . . . . . . . . . . . .

50

3.3.6

Exemplo do uso de um AG . . . . . . . . . . . . . . . . . . . . . . .

51

3.3.7

Diferenas entre os AGs e as tcnicas de otimizao tradicionais

. .

53

. . . . . . . . . . . . . . . . . .

55

Algoritmos evolutivos aplicados a logenia


3.4.1

Aplicao de AEs com o critrio de mxima verossimilhana

. . . .

55

3.4.2

Aplicao de AEs com o critrio de mxima parcimnia . . . . . . .

60

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

AEs para otimizao multi-objetivo

63

4.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

4.2

Otimizao multi-objetivo

. . . . . . . . . . . . . . . . . . . . . . . . . . .

64

4.3

4.4

4.2.1

Formulao

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

4.2.2

Solues Pareto-timas . . . . . . . . . . . . . . . . . . . . . . . . .

65

4.2.3

Metas em otimizao multi-objetivo . . . . . . . . . . . . . . . . . .

66

4.2.4

Diferenas com a otimizao de objetivos simples

. . . . . . . . . .

66

Tcnicas tradicionais para MOOP . . . . . . . . . . . . . . . . . . . . . . .

67

4.3.1

Somatrio de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

4.3.2

Mtodo de restries

4.3.3

Programao por metas

4.3.4

Vantagens e desvantagens das tcnicas tradicionais

. . . . . . . . . . . . . . . . . . . . . . . . .

68

. . . . . . . . . . . . . . . . . . . . . . . .

69

. . . . . . . . .

71

. . . . . . . . . . . . . .

71

Algoritmo NSGA-II . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

AEs para problemas de otimizao multi-objetivo


4.4.1

4.5

Abordagens multi-objetivo aplicados em logenia

. . . . . . . . . . . . . .

76

4.6

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

MOEA para o problema de logenia

79

5.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

5.2

PhyloMOEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

5.2.1

Representao de solues

. . . . . . . . . . . . . . . . . . . . . . .

80

5.2.2

Funes de aptido . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

5.2.3

Gerao de solues iniciais

. . . . . . . . . . . . . . . . . . . . . .

86

5.2.4

Operadores de recombinao e mutao . . . . . . . . . . . . . . . .

86

ii

5.2.5
5.3

Otimizao dos comprimentos dos ramos . . . . . . . . . . . . . . .

87

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

90

Experimentos e resultados

91

6.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

91

6.2

Conjuntos de seqncias

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

91

6.3

Condies iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

6.4

Resultados das execues do PhyloMOEA

94

6.4.1
6.5

. . . . . . . . . . . . . . . . . .

Testes de rvores alternativas e clados

Incorporao da variao de taxas entre stios

. . . . . . . . . . . . . . . .

95

. . . . . . . . . . . . . . . . 101

6.5.1

Resultados das execues do PhyloMOEA utilizando ASRV

. . . . 104

6.5.2

Testes de rvores alternativas para as solues do PhyloMOEA considerando ASRV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.6

Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Concluses e trabalhos futuros

113

Referncias Bibliogrcas

119

iii

iv

Lista de Figuras

2.1

Exemplos de seqncias de DNA e protenas. . . . . . . . . . . . . . . . . .

2.2

Exemplos de grafos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.3

Exemplos de rvores com raiz. . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.4

Uma rvore logentica para um grupo de primatas. . . . . . . . . . . . . .

11

2.5

As 7 possveis rvores geradas da rvore sem raiz de 5 seqncias.

. . . . .

12

2.6

Aplicao do algoritmo de Fitch para um caracter. . . . . . . . . . . . . . .

17

2.7

Exemplo do mtodo

. . . . . . . . . . . . . . . . . . . .

19

2.8

Exemplo da aplicao do mtodo NNI.

. . . . . . . . . . . . . . . . . . . .

20

2.9

Exemplo da aplicao do mtodo SPR. . . . . . . . . . . . . . . . . . . . .

20

2.10 Exemplo do mtodo TBR. . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.11 rvore para o exemplo do clculo da verossimilhana. . . . . . . . . . . . .

28

2.12 Diagrama da anlise de

. . . . . . . . . . . . . . . . . . . . . . . .

35

3.1

Operador de Recombinao de um ponto. . . . . . . . . . . . . . . . . . . .

49

3.2

Superfcie suavizada da funo

3.3

Indivduos distribudos sobre a superfcie da funo

3.4

stepwise addition
bootstrap

f (x, y)

. . . . . . .

51

. . . . . . . . .

53

Grco da aptido calculada em relao as geraes.

. . . . . . . . . . . .

54

3.5

Operador de recombinao implementado no GAML.

. . . . . . . . . . . .

56

3.6

Exemplo do consenso por poda para duas rvores. . . . . . . . . . . . . . .

58

3.7

Operador de recombinao do METAPIGA.

58

3.8

Algoritmo para otimizao de comprimentos de ramos de GARLI

. . . . .

60

4.1

Exemplo do preo-desempenho . . . . . . . . . . . . . . . . . . . . . . . . .

65

4.2

Diferentes distribuies de solues na fronteira de Pareto.

. . . . . . . . .

66

4.3

Mtodo de restries

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.4

Mtodo da programao de metas lexicogrcas. . . . . . . . . . . . . . . .

70

4.5

Ordenao por dominncia.

75

(Haupt e Haupt, 1998).

f (x, y).

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . .

4.6

Esquema do modelo NSGA-II. . . . . . . . . . . . . . . . . . . . . . . . . .

77

5.1

Ilustrao do funcionamento do PhyloMOEA.

80

5.2

Representao interna empregada pelo PhyloMOEA para uma rvore sem


raiz.

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

5.3

Algoritmo de Fitch para rvore sem raiz. . . . . . . . . . . . . . . . . . . .

82

5.4

Clculo de verossimilhana em rvores com raiz e sem raiz. . . . . . . . . .

83

5.5

Operador de recombinao do PhyloMOEA.

. . . . . . . . . . . . . . . . .

87

5.6

Otimizao de dois comprimentos de ramo. . . . . . . . . . . . . . . . . . .

88

6.1

Solues Pareto-timas do banco

6.2

Solues Pareto-timas do banco

6.3

Solues Pareto-timas do banco

6.4

Solues Pareto-timas do banco

6.5

Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes

rbcL_55. . . .
mtDN A_186.
RDP II _218.
ZILLA_500.

para as Solues Pareto-timas do banco


6.6

6.9

. . . . . . . . . . . . . . .

95

. . . . . . . . . . . . . . .

96

. . . . . . . . . . . . . . .

96

rbcL_55.

. . . . . . . . . . . . . 102

mtDN A_186. .

. . . . . . . . . . 102

Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes


para as Solues Pareto-timas do banco

6.8

95

Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes


para as Solues Pareto-timas do banco

6.7

. . . . . . . . . . . . . . .

RDP II _218.

. . . . . . . . . . . 102

Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes

ZILLA_500.
rbcL_55. . . . . . . .
mtDN A_186. . . . .
RDP II _218. . . . .
ZILLA_500. . . . .

para as Solues Pareto-timas do banco

. . . . . . . . . . . 102

Solues Pareto-timas do banco

. . . . . . . . . . . 105

6.10 Solues Pareto-timas do banco


6.11 Solues Pareto-timas do banco
6.12 Solues Pareto-timas do banco

. . . . . . . . . . . 105
. . . . . . . . . . . 105
. . . . . . . . . . . 105

6.13 Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes


para as Solues Pareto-timas do banco

rbcL_55.

. . . . . . . . . . . . . 110

6.14 Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes


para as Solues Pareto-timas do banco

mtDN A_186. .

. . . . . . . . . . 110

6.15 Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes


para as Solues Pareto-timas do banco

RDP II _218.

. . . . . . . . . . . 110

6.16 Grau de suporte do PhyloMOEA vs. Probabilidade Posterior do Mr.Bayes


para as Solues Pareto-timas do banco

vi

ZILLA_500.

. . . . . . . . . . . 110

Lista de Tabelas

2.1

Nmero de rvores possveis sem raiz e com raiz para 2 a 10 espcies.

2.2

Principais mtodos para construo de rvores logenticas.

3.1

Tabela de converso de parmetros contnuos para binrio (Haupt e Haupt,


1998).

. . .

13

. . . . . . . .

15

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

3.2

Populao inicial do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

3.3

Segunda gerao do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

3.4

Dcima gerao do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

4.1

Diferentes modelos de MOEAs.

73

6.1

Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo


NONA e RAxML-V.

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2

Parmetros do PhyloMOEA para os experimentos.

6.3

Resumo dos resultados das execues do PhyloMOEA.

. . . . . . . . . . .

94

6.4

Resumo do nmero de solues encontradas nas execues do PhyloMOEA.

95

6.5

Resultados do teste SH para as Solues Pareto-timas. . . . . . . . . . . .

97

6.6

Resultados do teste SH para as Solues Finais.

97

6.7

Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

6.8

. . . . . . . . . . . . . . .

93

. . . . . . . . . . . . . . . . . . . . . . . 100

Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

6.9

rbcL_55.

. . . . . . . . . . . . .

93

rbcL_55.

. . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

mtDN A_186.

. . . . . . . . . . . . . . . . . . . . 100

6.10 Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

mtDN A_186.

. . . . . . . . . . . . . . . . . . . . . . . . 100

6.11 Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

RDP II _218.
vii

. . . . . . . . . . . . . . . . . . . . 101

6.12 Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

RDP II _218.

. . . . . . . . . . . . . . . . . . . . . . . . . 101

6.13 Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

ZILLA_500. .

. . . . . . . . . . . . . . . . . . . . 101

6.14 Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

ZILLA_500.

. . . . . . . . . . . . . . . . . . . . . . . . . 101

6.15 Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo


NONA e RAxML-V+PHYML (considerando o ASRV). . . . . . . . . . . . 103
6.16 Parmetros do modelo HKY85+ para os experimentos.

. . . . . . . . . . 103

6.17 Resumo dos resultados das execues do PhyloMOEA considerando ASRV. 104
6.18 Resumo do nmero de solues encontradas nas execues do PhyloMOEA
considerando ASRV.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.19 Resultados do teste SH para as Solues Pareto-timas fornecidas pelo


PhyloMOEA considerando ASRV. . . . . . . . . . . . . . . . . . . . . . . . 106
6.20 Resultados do teste SH para as Solues Finais fornecidas pelo PhyloMOEA
considerando ASRV.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.21 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Pareto-timas do banco

rbcL_55.

. . . . . . . . . . . . . 107

6.22 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Finais do banco

rbcL_55.

. . . . . . . . . . . . . . . . . . 108

6.23 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Pareto-timas do banco

mtDN A_186. .

. . . . . . . . . . 108

6.24 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Finais do banco

mtDN A_186.

. . . . . . . . . . . . . . . 108

6.25 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Pareto-timas do banco

RDP II _218.

. . . . . . . . . . . 108

6.26 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Finais do banco

RDP II _218.

. . . . . . . . . . . . . . . 109

6.27 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Pareto-timas do banco

ZILLA_500.

. . . . . . . . . . . 109

6.28 Comparao dos resultados (considerando ASRV) do PhyloMOEA e Mr.Bayes


para as Solues Finais do banco

ZILLA_500.

viii

. . . . . . . . . . . . . . . 109

Lista de Abreviaturas

AE

Algoritmo Evolutivo

AG

Algoritmo Gentico

ASRV

(do ingls

DNA

Acido dexoxiribonucleico

GTR

Modelo de substituio geral reversvel no


tempo

Model)

HYK85

Among Site Rate Variation

(do

ingls

General Time-Reversible

Modelo de substituio de DNA (Hasegawa et


al., 1985)

MCMC

Mtodo de Monte Carlo baseado cadeias de


Markov

MOEA

Algoritmo evolutivo multi-objetivo (do ingls

MOOP

Problema de otimizao multi-objetivo (do in-

Multi-Objective Evolutionary Algorith


Multi-objective Optimization Problem
gls

NJ

Mtodo Neighboor Joining

NNI

Troca dos vizinhos mais prximos (do ingls

Nearest Neighboor Interchange


Elitist Non-Dominated Sorting Genetic Algorithm II
)

NSGA-II

ix

SPR

TBR

Poda e insero de subrvore (do ingls

tree Prunning and Regrafting

Bisseo e reconexo de rvore (do ingls

Bisection and Reconnection

SubTree

Lista de Smbolos

G(V, E)

Grafo

conjunto de ramos

espcies

Nmero de stios de cada seqncias do conjunto de seqncias

P ar( )
P arj
Cvj ,uj

Valor de parcimnia para uma rvore


Valor de parcimnia para o stio
Custo de mudar do estado
no stio

e o

Conjunto de seqncias (DNA o proteinas) de

n
Nsit

descrito pelo conjunto de ns

vj

para o estado

uj

Matriz de taxas instantnea para um modelo


de substituio de DNA

Freqncia do estado
dos

Px,y (t)

no conjunto de da-

D
x

Probabilidade de mudar do estado


estado

L()
= {, B, M}

no tempo

Verossimilhana do modelo

Modelo evolutivo, onde onde


gia da rvore,
de ramos de

para o

uma topolo-

o conjunto de comprimento

M o modelo de substituio

de seqncias.

Lj
LEj
Lrj (rj )

Verossimilhana no stio

Verossimilhana escalonada no stio

Verossimilhana condicional no stio


brvore cuja raiz o n

xi

da su-

LEjr (rj )

Verossimilhana condicional escalonada no stio

p(i )

da subrvore cuja raiz o n

O valor

para uma topologia

determinado

pelo teste SH

P(i , |D)
Pj
x = (x1 , . . . , xNvar )
f (x) = [f1 (x), . . . , fNobj (x)]
Sf act


Probabilidade posterior de

Populao do AG na gerao
Vetor de

Nvar

dado

variveis de deciso

Vetor funes objetivo


Espao de busca de solues fatveis
Operador de dominncia de Pareto

xii

Captulo

1
Introduo

A biologia molecular uma cincia que apresentou avanos muito signicativos nas ltimas
dcadas. Os bilogos freqentemente trabalham com uma grande quantidade de informao gerada a partir de experimentos em laboratrio. Dada a necessidade de manipular essa
informao, surgiu a bioinformtica, que aplica tcnicas computacionais, matemticas e
estatsticas para tratar os problemas da biologia molecular.
Um dos principais problemas nesta rea a inferncia logentica (Setubal e Meidanis,
1997). Esse problema consiste em determinar, empregando um conjunto de dados moleculares ou morfolgicos, as relaes evolutivas de um conjunto de espcies. Tais relaes
evolutivas so apresentadas usualmente em uma forma de rvore, conhecida como rvore
logentica.
Assim, o objetivo principal da inferncia logentica determinar a rvore que reete
satisfatoriamente a histria evolutiva das espcies consideradas (Felsenstein, 2004). Este
problema relevante tanto do ponto de vista biolgico quanto do ponto de vista computacional. Dado que no se possui informaes sucientes a respeito as espcies extintas,
deve-se considerar cada rvore logentica apenas como uma hiptese possvel. Encontrar
a melhor rvore logentica (ou rvore verdadeira) um problema muito difcil devido ao
nmero de rvores a serem avaliados crescer muito rapidamente conforme ao nmero de
espcies estudadas aumenta (Felsenstein, 2004).
Nesse contexto, uma srie de mtodos de inferncia logentica tm sido propostos
na literatura (Felsenstein, 2004; Swoord et al., 1996). Alguns mtodos transformam a
informao molecular em matrizes de distncia para, nalmente, empregar algum algoritmo de agrupamento que resulta em uma rvore. Outros mtodos denem um critrio

CAPTULO 1.

INTRODUO

de otimalidade que permita avaliar cada rvore possvel para encontrar a soluo tima
conforme ao critrio denido. Dois dos principais mtodos de reconstruo logentica
que empregam critrio de otimalidade so a mxima parcimnia (Fitch, 1972) e a mxima
verossimilhana (Felsenstein, 1981a).
O mtodo de mxima parcimnia avalia cada rvore conforme ao nmero de mudanas
de estado requeridos pela sua topologia (Swoord et al., 1996). Dessa forma, procura-se
pela rvore (denominada como rvore de mxima parcimnia) que minimize o nmero
total de tais mudanas. Embora a parcimnia seja um critrio simples e muito utilizado
pelos pesquisadores, h muita polmica na comunidade em relao a sua validade.
A mxima verossimilhana procura a rvore que maximize a probabilidade de os dados
moleculares adequarem-se a um determinado modelo de evoluo.

Tal modelo possui,

basicamente, uma topologia de rvore, comprimentos dos ramos da rvore e parmetros


do modelo de substituio de seqncias escolhido.

Uma dos maiores problemas deste

mtodo o grande nmero de parmetros a serem estimados e o tempo computacional


necessrio para otimizar a verossimilhana de apenas uma topologia (Felsenstein, 2004).
Vrias pesquisas (Gogarten e Lewis, 2002; Huelsenbeck, 1995; Katoh et al., 2001;
Russo et al., 1996; Saitou e Imanishi, 1989; Sourdis e Nei, 1988; Tateno et al., 1994;
Zwickl, 2006) mostram que, a escolha do mtodo de inferncia empregado, inuencia na
rvore logentica recuperada.

Em outras palavras, a aplicao de diferentes mtodos

de reconstruo leva a recuperao de rvores que possuem partes conitantes entre sim.
Como os resultados da inferncia logentica so muito variveis e dependentes das condies do experimento, no existe uma consenso a respeito de qual o melhor mtodo a
ser empregado.
Uma diculdade inerente aos mtodos de otimalidade procurar pela rvore tima
no espao de busca que cresce rapidamente. Os mtodos que garantem a soluo tima
podem ser aplicados apenas para rvores com um nmero de espcies reduzido.

Para

conjuntos de dados maiores, apenas mtodos de busca heurstica podem ser utilizados.
Os mtodos heursticos para busca da melhor rvore comeam, basicamente, por determinar uma rvore inicial que represente uma boa aproximao a soluo tima (Swoord
et al., 1996).

Aps isso, so aplicadas vrias modicaes topolgicas para melhorar a

soluo inicial. Tais passos so repetidos iterativamente at que no seja possvel atingir
uma melhor soluo. Este procedimento geral implementado na maioria dos principais
programas de inferncia logentica como PAUP* (Swoord, 2000), PHYLIP (Felsenstein,
2000b), RAxML (Stamatakis, 2005), NONA (Golobo, 1999b), entre outros.
Um outro grupo de heursticas aplicadas em logenia incluem os algoritmos evolutivos (AEs).

Os AEs so tcnicas de busca e otimizao que emulam o comportamento

dos princpios de evoluo, gentica e seleo natural. Uma srie de estudos envolvendo
aplicaes dos AEs em problemas de reconstruo logentica tm sido desenvolvidos,

3
mostrando resultados relevantes (Gogarten e Lewis, 2002; Katoh et al., 2001; Lemmon e
Milinkovitch, 2002a; Lewis, 1998; Matsuda, 1996; Zwickl, 2006). Em tais estudos, mostrase os benefcios de aplicar AEs empregando um determinado critrio de otimalidade (como
parcimnia, verossimilhana ou distncia mnima). Os resultados mostraram um melhor
desempenho tanto em tempo de computao quanto na qualidade das solues encontradas pelos AEs em comparao com as solues encontradas por programas tradicionais
como PHYLIP e PAUP*.

Alm disso, esses trabalhos formularam novas formas de re-

presentao e modicao topolgica de rvores (Gogarten e Lewis, 2002; Lemmon e


Milinkovitch, 2002a; Matsuda, 1996) e procedimentos mais ecientes para a otimizao
de parmetros envolvidos no problema (Lewis, 1998; Zwickl, 2006).
Os AEs so tambm aplicados em problemas de otimizao que possuem vrias funes
objetivo (Coello et al., 2002; Deb, 2001).

Em tais problemas, em geral, os objetivos a

serem otimizados so conitantes entre si, ou seja, se uma soluo melhor para um
objetivo, piorado outro objetivo.

Uma exemplo tpico de objetivos conitantes a

relao custo/desempenho: enquanto necessrio diminuir custos, procura-se tambm


aumentar o desempenho em determinados processos.

Porm, a diminuio de custos

afeta negativamente no desempenho enquanto o ganho de desempenho implica em maiores


custos. Isso signica que, para tais problemas, no exista apenas uma soluo tima, mais
um grupo de solues que representam um compromisso para os objetivos do problema.
Recentemente, no trabalho de Handl et al. (2006), so discutidas as possveis aplicaes
de abordagens multi-objetivo para problemas de bioinformtica, sendo que vrios desses
problemas so de natureza multi-objetivo. Assim, uma abordagem multi-objetivo do problema de logenia uma contribuio relavante, pois as rvores encontradas resultariam
consistentes para os critrios considerados.
A principal motivao para a elaborao da presente tese a formulao da inferncia
logentica como problema de otimizao multi-objetivo. Esta proposta baseia-se no fato
de que diversos mtodos de inferncia logentica produzem rvores signicativamente
diferentes a partir dos mesmos dados.

Buscando lidar de forma sistemtica com essas

diferenas, prope-se a formulao do problema de logenia considerando vrios critrios


de mais de um mtodo de inferncia para serem otimizados simultaneamente. A soluo
de tal problema seria um conjunto de rvores logentica que representam um consenso
entre os critrios de otimalidade.
Os critrios considerados neste trabalho so os de mxima parcimnia e mxima verossimilhana. Ambos os critrios so baseados em princpios muito diferentes. A parcimnia
um critrio simples, emprico e possui as suas origens em idias loscas (princpio de
parcimnia). Por outro lado, a verossimilhana um critrio complexo e com bases estatsticas muito slidas.
Dentre as tcnicas existentes na literatura para resolver problemas multi-objetivo,
destacam-se os AEs (Coello et al., 2002; Deb, 2001).

O AE multi-objetivo desenvol-

CAPTULO 1.

INTRODUO

vido nesta pesquisa, denominado PhyloMOEA, permite resolver o problema de inferncia


multi-objetivo conforme proposto. O PhyloMOEA determina o conjunto de rvores correspondente s solues Pareto-timas. Tais rvores representam um consenso entre os
critrios de parcimnia e verossimilhana.
Deve-se notar que, tanto os principais programas de inferncia logentica quanto as
abordagens de AEs pesquisadas na literatura empregam apenas um critrio para avaliar as
rvores. Nesse sentido, a abordagem apresentada nesta tese representa uma contribuio
na literatura da rea.
O PhyloMOEA foi testado com 4 bancos de seqncias de DNA que so comummente
empregados na literatura para medir o desempenho de diversos mtodos de inferncia
logentica. importante destacar que, os resultados fornecidos pelo PhyloMOEA no
so diretamente comparveis a outros programas, uma vez que esses consideram apenas
um critrio (parcimnia ou verossimilhana). Assim, para avaliar o conjunto de solues
fornecidas pelo PhyloMOEA, foram utilizados o teste de Shimodaira e Hasegawa (1999)
(SH) e o mtodo de inferncia Bayesiana (Huelsenbeck e Ronquist, 2001).
O teste SH serve para determinar, a partir de um conjunto solues, aquelas rvores
que so estatisticamente signicativas. Nos testes, vericou-se que, parte das solues fornecidas pelo PhyloMOEA so signicativas tanto para os critrios de parcimnia quanto
para o critrio de verossimilhana, mostrando que existe uma diversidade de logenias
que so consistentes com mais de um critrio e que tais rvores podem ser obtidas simultaneamente por um AE multi-objetivo.
Por outro lado, o mtodo inferncia Bayesiana permite calcular, entre outras coisas,
as probabilidades tanto das rvores inferidas quanto das componentes (clados) de cada
rvore. Assim, foi possvel determinar se a probabilidade de cada clado consistente com
o grau de suporte obtida a partir do conjunto Pareto-timo fornecido pelo PhyloMOEA.
Os resultados mostraram que o PhyloMOEA foi consistente com a inferncia Bayesiana
para uma parte signicativa do clados.
Uma outra contribuio importante deste trabalho a denio de uma metodologia
de avaliao de logenias com mais de um critrio de otimalidade combinando o teste
SH com a inferncia Bayesiana.

Em resumo, pode-se dizer que a proposta descrita no

decorrer da presente tese abre uma nova linha de pesquisa que amplia o espectro da
aplicao de abordagens multi-objetivo, investiga mtodos de reconstruo logentica
como AEs, tcnicas de anlise de logenias por mltiplos critrios, bem como a relevncia
do PhyloMOEA para diferentes bases de dados da biologia molecular.
Esta tese est organizada em sete Captulos.

O Captulo 2 apresenta os principais

conceitos da rea de inferncia logentica, considerando principalmente os mtodos de


mxima parcimnia e mxima verossimilhana.

O Captulo 3 introduz os AEs, desta-

cando os algoritmos genticos (AGs) e a aplicao de AEs no problema de logenia. O

5
Captulo 4 detalha noes bsicas dos problemas de otimizao multi-objetivo e a aplicao dos AEs em tais problemas. O Captulo 5 apresenta detalhadamente o PhyloMOEA,
o modelo proposto de AE multi-objetivo para o problema de reconstruo logentica. O
Captulo 6 mostra os resultados da aplicao do modelo proposto em bancos de seqncias
de teste. Finalmente, o Captulo 7 apresenta as principais concluses trabalho e sugestes
de pesquisas futuras.

CAPTULO 1.

INTRODUO

Captulo

2
Reconstruo logentica

2.1 Introduo
A Filogenia uma rea de pesquisa da biologia que estuda as relaes evolutivas entre
os organismos (espcies). Segundo Graur e Li (2000), os estudos logenticos apontam a
trs objetivos:

A correta reconstruo das semelhanas genealgicas entre as entidades biolgicas;

A estimao do perodo de divergncia entre organismos, ou seja, a determinao do


tempo de formao dessas espcies aps compartilharem um antepassado comum;

O detalhamento da seqncia de eventos entre as diferentes lineagens evolutivas.

Para explicar os mecanismos de evoluo das espcies, foram propostas vrias teorias.
Dentre elas, destacam-se as teorias de Lamarck, Darwin e a Teoria Sinttica da Evoluo
(ou Neodarwinismo).
Em 1.809, Joseph Lamarck publicou o seu livro Filosoa Zoolgica".

Nele, pos-

tulou que os padres de semelhanas entre os organismos so devidos a modicaes


evolutivas (Ayala, 1979).

Essas modicaes respondem necessidade dos organismos

adaptarem-se s novas condies do meio em que vivem.

Assim, uma espcie adquiria

caractersticas novas, as quais seriam herdadas por os seus descendentes.


Lamarck sugere que as espcies compartilham relaes de

ancestralidade

teoria foi muito ousada para o seu tempo e terminou sendo esquecida.

A teoria de

. Contudo, esta

CAPTULO 2.

RECONSTRUO FILOGENTICA

O ingls Charles Darwin retomou o interesse pela evoluo como conseqncia das suas
viagens ao redor do mundo a bordo do navio H.M.S.

Beagle

. No decorrer da sua viagem,

Darwin coletou vrios exemplares de animais, plantas e fsseis e fez observaes sobre as
diferenas encontradas entre indivduos da mesma espcie. A comparao de fsseis de
diferentes camadas geolgicas revelou a Darwin que as espcies estavam modicando-se
ao longo do tempo e que algumas caractersticas de espcies extintas so conservadas nas
atuais. Alm disso, Darwin observou que os fsseis de camadas geolgicas mais recentes
apresentam uma maior semelhana com as espcies vivas.
Uma outra questo de interesse para Darwin estava relacionada com o crescimento
populacional das espcies. Por um lado, a grande capacidade de reproduo garantia um
aumento de nmero de indivduos, segundo uma progresso geomtrica. No obstante, os
meios de subsistncia seguiam apenas uma progresso aritmtica. Na prtica, o aumento
de tamanho da populao era menor que o predito teoricamente. Darwin concluiu ento
que deveria existir um mtodo de

seleo

de indivduos.

Este mtodo postula que, os

indivduos com caractersticas favorveis teriam uma maior descendncia em detrimento


de indivduos com caractersticas menos favorveis. Assim, com o tempo, essas caractersticas seriam cada vez mais diferenciadas, constituindo novas espcies. Como produto
das suas pesquisas, Darwin publicou, em 1.859, um dos mais inuentes livros da histria da cincia: A Origem das Espcies", no qual se estabelece que a seleo natural
o mecanismo que determina quais espcies sobrevivem e quais so extintas (Futuyma,
1992).
A seleo natural ainda no explica a variabilidade dentro dos indivduos da mesma
espcie.

Esta questo foi abordada por Mendel, que armou que as diferenas nas ca-

ractersticas fsicas dos organismos, como cor, tamanho, forma eram devidas a fatores
hereditrios que Mendel denominou genes. Os resultados de Mendel foram publicados em
1.867, mas s aps 1.940 uma teoria evolucionista mais consistente foi desenvolvida.
A Teoria Sinttica da Evoluo ou Neodarwinismo (Ridley, 1996) baseia-se nos mecanismos de seleo natural, mutao e recombinao gnica.

Esta teoria postula que

as variaes entre indivduos da mesma espcie devida recombinao de informaes


genticas dos seus progenitores. A recombinao nunca ocorre da mesma forma em descendentes distintos.

Alm disso, no processo de cpia de informaes genticas podem

acontecer mutaes ou erros, produzindo um aumento da variabilidade gentica. Essas


mutaes so geralmente insignicantes e no produzem mudanas perceptveis. Caso as
espcies j estejam adaptadas o suciente ao seu ambiente, algumas mutaes podem ser
indesejveis e, por isso, o mecanismo de seleo natural as elimina.
As teorias descritas anteriormente, permitem reconstruir a histria evolutiva dos organismos vivos mediante relaes ancestral/descendente. Os estudos logenticos clssicos
esto baseados, principalmente, em caractersticas fsicas (morfolgicas), como: tamanho,
cor, nmero de extremidades, etc. Por outro lado, os estudos atuais utilizam informao

2.2.

SEQNCIAS E GRAFOS

proveniente do material gentico (fundamentalmente, seqncias de DNA e protenas).


Desta forma, as relaes entre as espcies so deduzidas a partir de blocos bem conservados no alinhamento das seqncias provenientes das espcies estudadas (Sung, 2002).
As relaes evolutivas entre um grupo de espcies o foco de ateno da rea de logenia. Este problema interessante tanto do ponto de vista biolgico como computacional.
O escopo do presente Captulo apresentar os conceitos bsicos desta rea de pesquisa
que sero empregados no restante do presente trabalho.
Este Captulo est organizado em 8 Sees. A Seo 2.2 introduz conceitos teis sobre
grafos e seqncias, que sero extensivamente empregados no decorrer do trabalho.

Seo 2.3 apresenta a rea de reconstruo logentica. As Sees 2.4 e 2.5 descrevem os
mtodos de reconstruo logentica de mxima parcimnia e mxima verossimilhana,
respectivamente. A Seo 2.6 apresenta uma reviso bibliogrca dos principais estudos
que comparam os diversos mtodos para logenia. A Seo 2.7 descreve os principais testes
de condncia para rvores logenticas.

Finalmente, a Seo 2.7 revisa os principais

pontos apresentados neste Captulo mostrando como eles motivam a pesquisa proposta.

2.2 Seqncias e grafos


Existe uma grande quantidade de dados gerados pelos estudos de biologia molecular.
Grande parte desses dados so apresentados usualmente como seqncias de diversos tipos.

Uma

seqncia s

uma sucesso

s1 s2 s3 s4 . . . sn

de caracteres pertencentes a um

conjunto nito denominado alfabeto (Felsenstein, 2004; Setubal e Meidanis, 1997). Por
exemplo, as seqncias de DNA esto compostas de uma sucesso de nucleotdeos. Existem quatro tipos de nucleotdeos: adenina (A) citocina (C), timina (T) e guanina (G).
Os nucleotdeos de tipo A e G so denominados purinas; enquanto os dos tipos C e T so
denominados pirimidinas.

si de uma seqncia de DNA pode ter quatro


{A, C, T, G}. As seqncias proteicas consistem de uma

Cada posio

estados denidos no alfabeto:

sucesso de aminocidos, os quais podem assumir 20 estados diferentes (Felsenstein, 2004;


Setubal e Meidanis, 1997) . A Figura 2.1 mostra um exemplo de cada tipo de seqncia.
Seqncia de DNA :
Seqncia proteica :

TGCAGGGAC
ARRHASTKL

Figura 2.1: Exemplos de seqncias de DNA e protenas.


Um

grafo

G(V, E), descrito por um con(arestas) E , as quais unem pares de ns.

(Setubal e Meidanis, 1997), denotado por

junto de ns (vrtices)

e um conjunto ramos

A Figura 2.2 mostra exemplos de grafos.


O

grau

de um n denido pelo nmero de arestas que se conectam a tal n. Por

exemplo, na Figura 2.2(a) o grau do n

a 1; enquanto o grau do n e 3.

Um

caminho

10

CAPTULO 2.

c
e

RECONSTRUO FILOGENTICA

f
e

V = {a, b, c, d, e, f }
E = {(e, a), (e, b), (e, f ), (f, c), f, d)}

V = {a, b, c, d, e, f }
E = {(e, a), (e, b), (e, c), (e, f ), (f, c), f, d)}

(a)

(b)

Figura 2.2: Exemplos de grafos.

(v1 , v2 , . . . , vk ) tal que (vi , vi+1 ) E para 1 i < k . Por exemplo, no


grafo da Figura 2.2(a), (a, e, f, c) o caminho entre os ns a e c. Se existe no mximo um
uma sucesso de ns

caminho entre cada par de ns, o grafo dito

acclico

. Assim, o grafo da Figura 2.2(a)

acclico; enquanto o da Figura 2.2(b) cclico dado que


possveis entre
um grafo
Uma

conexo
rvore
1

c.

(e, c)

(e, f, c)

so dois caminhos

Caso exista no mnimo um caminho entre cada par de ns, tem-se

(ambos os grafos mostrados na Figura 2.2 so conexos).


um grafo

G(V, E)

acclico e conexo. Algumas rvores podem ter um

n especial denominado raiz que usualmente desenhado no topo da rvore. Exemplos


de rvores com raiz so mostrados na Figura 2.3.

externos

classicados como ns
caso contrrio.
os

{e, f }

(ou

folhas

), se o grau de tais ns 1; e como ns

Na rvore da Figura 2.2(a), os ns

so internos.

Os ns de uma rvore podem ser

{a, b, c, d}

internos

so externos, enquanto

De forma similar, os ramos podem ser externos, se um dos ns

conectados uma folha; ou internos, se ambos os ns que o ramo conecta so internos.


Cada ramo da rvore divide o conjunto de espcies em duas parties. Por exemplo, na
Figura 2.2(a), o ramo

(e, f )

particiona as espcies nos subconjuntos

{a, b}

(a)

(b)

Figura 2.3: Exemplos de rvores com raiz.


1 Neste texto emprega-se tambm o termo

topologia

para referir-se a uma rvore.

{c, d}.

2.3.

RECONSTRUO FILOGENTICA

11

A presena do n raiz dene relaes ancestral/descendente entre os ns da rvore.

Um n

dito ancestral do n

na Figura 2.3(a), o n

v,

se

ancestral de

est no caminho entre a raiz e

a,

pois o n

est no caminho

observar que o n raiz ancestral dos demais ns da rvore. Um

u. Por exemplo,
(r, e, a). Deve-se

clado

um grupo de

ns representando espcies com um ancestral comum. Por exemplo, na Figura 2.3(a), a


subrvore enraizada em
descendentes.
Uma rvore dita

dene um clado, onde

binria

o ancestral e

so as espcies

quando o grau dos ns no mximo 3. Se o grau dos ns 1

nas folhas, 2 para a raiz (se houver) e 3 para os demais ns internos, a rvore

binria

estritamente

. A Figuras 2.2(a) e 2.3(a) mostram rvores estritamente binrias no enraizadas e

enraizadas respectivamente. As rvores estritamente binrias so a forma mais utilizada


de representar solues ao problema de logenia.

As prximas Sees descrevem este

problema e os principais aspectos considerados na construo de solues para logenia.

2.3 Reconstruo logentica


Uma logenia comummente representada por uma rvore de grafo denominada

logentica

rvore

, que reete as relaes genticas entre um conjunto de espcies. Usualmente,

as rvores logenticas so rvores estritamente binrias.


Em uma rvore logentica, as folhas representam espcies. Todas as folhas so rotuladas, seja com o nome de uma espcie ou com caracteres provenientes da sua seqncia.
A Figura 2.4 ilustra uma rvore logentica mostrando a relao entre os humanos e
os primatas.

hipotticos

As folhas representam as

espcies atuais

e os ns internos, os ancestrais

ou espcies extintas.

gibo

orangotango

gorila

humano

chimpanz

Figura 2.4: Uma rvore logentica para um grupo de primatas (Page e Holmes, 1998).

Um dos principais problemas associados construo de uma rvore logentica


que geralmente no se possui informao suciente sobre as espcies ancestrais extintas.

12

CAPTULO 2.

RECONSTRUO FILOGENTICA

Em geral, constri-se uma rvore logentica apenas a partir dos dados das espcies
atualmente existentes. Desta forma, as rvores construdas so sempre hipotticas.
importante salientar que as rvores logenticas podem ter ou no raiz.

A raiz

da rvore indica o ancestral comum da qual todas as demais espcies descendem e, portanto, implica uma direo de tempo de evoluo.
da raiz, mais antiga esta .

Quanto mais prxima uma espcie

Desta forma, as rvores com raiz mostram relaes ances-

tral/descendente das espcies.

Por exemplo, a rvore da Figura 2.4 indica que o ser

humano e o chimpanz tiveram um antepassado comum exclusivo deles.


Em contrapartida, as rvores sem raiz no indicam relaes de ancestralidade. No
obstante, possvel inserir uma raiz nessas rvores por meio de uma espcie, chamada de

outgroup

, que distante das espcies de interesse (Swoord et al., 1996). Dependendo do

lugar onde a raiz inserida, so geradas diferentes rvores enraizadas, conforme ilustrado
na Figura 2.5. Observe que uma raiz e duas arestas adjacentes devem substituir uma das
arestas da rvore sem raiz. Para a rvore da Figura 2.5, h 7 passibilidades de insero
de raiz.

a
1

5
6

3
7

rvore 1

rvore 2

rvore 3

r
rvore 5

bc

rvore 4

r
rvore 6

b e c

rvore 7

Figura 2.5: As 7 possveis rvores geradas da rvore sem raiz de 5 seqncias. A rvore

i (i = 1, . . . , 7)
Holmes, 1998).

resulta da insero da raiz no lugar do ramo

(Page e

2.3.

RECONSTRUO FILOGENTICA

13

O nmero de rvores logenticas possveis cresce com nmero de folhas representando


as espcies. O total de rvores com

n3

folhas dado por (Felsenstein, 2004):

n
Y
(2i 5) = 1 3 5 . . . (2n 5).

(2.1)

i=3
A Equao 2.1 pode ser explicada intuitivamente da seguinte forma:

Para

n = 3,

existe apenas uma possvel rvore sem raiz com 3 ramos internos. Uma

rvore (estritamente binria) sem raiz de

Todas as rvores sem raiz, para


em cada ramo da rvore de

n = 4,

folhas possui

2n 3

ramos;

podem ser obtidas inserindo a quarta folha

folhas. Assim, para

n = 4,

temos

rvores sem raiz

possveis;

Em geral, para saber o nmero total de rvores sem raiz de


a folha

em cada um dos

2(n 1) 3 = 2n 5

n espcies,

ramos das rvores de

basta inserir

n1

folhas.

Desta forma, obtida a Equao 2.1.

Para obter o nmero total de rvores com raiz de


um dos

2n 3

n folhas basta inserir a raiz em cada

ramos das rvores sem raiz. Esse nmero dado por:

n
Y
(2n 3) (2i 5).

(2.2)

i=3
A Equao 2.2 tambm implica que o nmero de rvores sem raiz de
ao nmero de rvores com raiz para

n1

folhas igual

folhas.

Tabela 2.1: Nmero de rvores possveis sem raiz e com raiz para 2 a 10 espcies (Page
e Holmes, 1998).

2
3
4
5
6
7
8
9
10

Nmero de rvores Nmero de rvore


sem raiz
com raiz
1
1
1
3
3
15
15
105
105
945
945
10.395
10.395
135.135
135.135
2.027.025
2.027.025
34.459.425

A Tabela 2.1 mostra o nmero total de rvores com raiz e sem raiz para

variando

de 2 at 10. O nmero de rvores cresce muito rapidamente com o nmero de espcies.

14

CAPTULO 2.

RECONSTRUO FILOGENTICA

Devido s rvores logenticas representarem hipteses da histria evolutiva das espcies, a inferncia da rvore que se adequa melhor aos dados obtidos uma tarefa complicada. O grande nmero de rvores possveis a serem analisadas complica mais ainda este
objetivo. Existem vrios mtodos para a inferncia de rvores logenticas, os quais so
classicados de diversas formas na literatura pesquisada (Morrison, 1996; Page e Holmes,
1998; Setubal e Meidanis, 1997; Swoord et al., 1996). Neste trabalho foi adotada a classicao elaborada por Swoord et al. (1996). Segundo essa classicao, os mtodos de
reconstruo logentica podem ser divididos em duas classes: os mtodos

critrios de otimalidade
Mtodos de agrupamento ou algortmicos:

os mtodos baseados em

algortmicos

esses mtodos formam uma srie de agru-

pamentos sucessivos das espcies at chegar a uma rvore.

Nesta categoria esto

includos os mtodos que utilizam agrupamentos por pares tais como o UPGMA (Michener e Sokal, 1957) e o Neighbor Joining (NJ) (Saitou e Nei, 1987). Tais algoritmos
fornecem respostas rpidas dado que no requerem a avaliao de grandes quantidades de possveis solues. Em geral, esses mtodos produzem apenas uma rvore
como resposta;

Mtodos de busca ou de critrio de otimalidade:

esses mtodos avaliam as possveis

rvores segundo algum critrio de otimalidade (descrito por uma


que reita a relao entre os dados e a rvore produzida.

funo objetivo

Portanto, o critrio

de otimalidade utilizado como uma mtrica da qualidade para qualquer rvore,


permitindo comparar diferentes solues alternativas.

Os mtodos baseados em

critrio de otimalidade devem resolver dois tipos de problemas:

 Dada uma rvore e um conjunto de dados (espcies), avali-los segundo o


critrio de otimalidade considerado;

 Encontrar a rvore, dentro de todas as rvores possveis, que possui a melhor


avaliao.

A utilizao de critrios de otimalidade implica na procura de solues timas dentro


de um espao de busca que cresce rapidamente com o aumento do conjunto de dados.
Desta forma, tal procura custosa computacionalmente e, portanto, so freqentemente
utilizadas uma srie de heursticas para se obter uma soluo razovel. Deve-se salientar
que o uso de heursticas no garante que se encontre a soluo tima.
A Tabela 2.3, baseada no trabalho de Morrison (1996), especica os principais mtodos
de reconstruo logentica.

A mxima parcimnia (Fitch, 1981) e mxima verossimi-

lhana (Felsenstein, 1981a) so dois do mtodos mais empregados em inferncia logentica. Esses critrios so de maior interesse para o presente trabalho e sero apresentados
nas sees seguintes.

2.4.

MXIMA PARCIMNIA

15

Tabela 2.2: Principais mtodos para construo de rvores logenticas. Tabela baseada
em (Morrison, 1996).

Mtodo
UPGMA
Neighbor-joining (NJ)

Referncias
(Michener e Sokal, 1957)
(Saitou e Nei, 1987)
Neighborliness
(Fitch, 1981; Sattath e Tversky, 1977)
Evoluo Mnima
(Edwards e Cavalli-Sforza, 1964)
Parcimnia de Wagner
(Farris, 1970)
Mnimos Quadrados
(Fitch e Margoliash, 1967)
Mxima Parcimnia
(Farris, 1972; Fitch, 1972)
Parcimnia Ponderada
(Farris, 1969; Sanko, 1975)
Compatibilidade
(Quesne, 1969, 1982)
Mxima Verossimilhana (Felsenstein, 1973a,b, 1981a,b)
Invariantes
(Cavender e Felsenstein, 1987; Lake, 1987)
Anlise Espectral
(Hendy e Penny, 1993; Penny et al., 1987)
Inferncia Bayesiana
(Mau e Newton, 1997; Rannala e Yang, 1996)
(Larget e Simon, 1999; Li et al., 2000)

Tipo
agrupamento
agrupamento
agrupamento
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade
otimalidade

2.4 Mxima parcimnia


A

mxima parcimnia

(Farris, 1972; Fitch, 1972) um dos mtodos mais empregados na

reconstruo logentica, embora tenha sido preterida mais recentemente por mtodos
mais robustos (Swoord e Sullivan, 2003) como a mxima verossimilhana (Felsenstein,
1981a) ou a inferncia Bayesiana (Huelsenbeck et al., 2001). O objetivo da mxima parcimnia procurar a rvore (ou rvores) cujo nmero total de mudanas evolutivas seja
mnima. Tais mudanas referem-se as diferenas entre os estados dos ns conectados em
cada ramo. A justicativa do mtodo de mxima parcimnia possuem bases loscas:
se existem vrias hipteses que forneam explicaes igualmente vlidas para algum fenmeno, deve-se escolher a mais simples delas. Este princpio conhecido como a navalha
de Occam (Felsenstein, 2004). Assim, na reconstruo logentica, a parcimnia estabelece uma correspondncia entre o nmero de mudanas evolutivas e a complexidade das
hipteses.

Tal relao muito polmica, e vrios pesquisadores defensores de mtodos

estatsticos (de Queiroz e Poe, 2001; Swoord e Sullivan, 2003; Tuey e Steel, 1997) expressam que a conexo entre mudanas evolutivas e complexidade da hiptese muito
fraca.
Seja

um conjunto de seqncias de

espcies e

Nsit

stios (caracteres) para cada

seqncia. A contagem do nmero de mudanas de estado para uma rvore

dada pela

seguinte expresso:

P ar( ) =

Nsit
X
j=1

P arj ,

(2.3)

16

CAPTULO 2.

onde

P arj

RECONSTRUO FILOGENTICA

representa o valor de parcimnia para o stio

j.

Tal valor calculado pela soma

das diferenas dos estados entre cada par de ns conetados nos ramos de

Assim,

P arj

pode ser calculado por:

P arj =

Cvj ,uj ,

(2.4)

(v,u)E

(v, u) de , vj e uj so os estados no stio j para as


seqncias correspondentes aos ns v e u, respectivamente. Cvj ,uj o custo de mudar do
estado vj para o estado uj no stio j . Pode-se observar das Equaes 2.3 e 2.4 que o valor
de parcimnia P ar( ) calculado para cada stio separadamente, dependendo unicamente
onde

o conjunto de ramos

da topologia da rvore e dos estados dos ns.


Existem uma srie de variantes do critrio de parcimnia (Felsenstein, 2004; Swoord
et al., 1996), sendo uma das mais simples e utilizadas a parcimnia de Fitch (Fitch,
1972; Hartigan, 1973). Em tal critrio, emprega-se um custo unitrio para cada troca de
estado, ou seja;

Cx,y = 1,

x 6= y

se

Cx,y = 0,

caso contrrio. Os estados dos ns folhas,

correspondentes s espcies, so determinados pelas seqncias contidas em

D.

Porm,

para calcular o valor de parcimnia de uma rvore, preciso obter os estados dos ns
internos de forma que

P ar( ) seja minimizada.

O problema da determinao dos estados

internos conhecido como pequeno problema de parcimnia. No caso da parcimnia de


Fitch, esse problema resolvido de forma eciente empregando o algoritmo proposto pelo
mesmo autor.
O algoritmo de Fitch comea determinando um conjunto
n interno

Sk

de estados para cada

da rvore. Tal procedimento realizado mediante um percurso ps-ordem.

Assim, dado um n interno

e seus descendentes

w, Sv

calculado pela seguinte

expresso:

(
Sv =

Su Sw ,
Su Sw ,

se

Su Sw 6=

(2.5)

caso contrrio

Su = {uj } e Sw = {wj }, ou seja,


esto determinados pelo conjunto de dados D . Cada vez que Su Sw 6= , o valor de P arj
incrementado em uma unidade. Uma vez determinados os conjuntos Sk para os ns
Caso os ns

estejam nas folhas das rvores,

internos da rvore, um segundo percurso na rvore, desta vez em pr-ordem, realizado


para determinar os estados de cada n interno. Para a raiz da rvore, pode-se atribuir
qualquer estado do seu conjunto
antecessor

v,

o estado

uj

Sr .

Para os demais ns internos

u com seu correspondente

determinado pela seguinte expresso:

(
uj =

vj , se vj Su
x, tal que x Su ,

caso contrrio.

(2.6)

2.4.

MXIMA PARCIMNIA

17

Assim, mediante o percurso pr-ordem, uma das possveis atribuies de estados que

P arj
stios j ,

determinada.

ferentes

repete-se o algoritmo de Fitch em cada posio obtendo nalmente o

valor mnimo para

P ar( ).

Dado que o clculo de

P arj

minimizam

independente para di-

A Figura 2.6 mostra um exemplo do algoritmo de Fitch: os

conjuntos junto aos ns internos na rvore da esquerda mostram os valores

Sk

obtidos no

percurso ps-ordem; enquanto as duas rvores da direita mostram duas possveis atribuies dos estados internos que minimizam

P arj .

Cada linha que corta um ramo de cada

rvore indica uma diferena entre os estados dos ns conetados a tais ramos. A descrio
detalhada do algoritmo de Fitch mostrado no Algoritmo 1.

{CG}

{ACG}*

{CG}*

{AC}*

G C

G C

Figura 2.6: Aplicao do algoritmo de Fitch para um caracter.

Algoritmo 1: Clculo do valor de parcimnia de Fitch.


Entrada:

1
2
3
4
5

, uma rvore com raiz r


D, um conjunto de dados contendo seqncias de Nsit
Sada: P ar( )
para cada
j = 1 . . . Nsit faa
P arj = 0.
para cada
v
u w
Calcular Sv , conforme a Equao 2.5.
se Su Sw 6= ento P arj = P arj + 1

stios

stio
n interno com lhos e percorrendo em ps-ordem

faa

m

6
7
8

rj = {x|x Sr
para cada

n interno u com ancestral v percorrendo em pr-ordem

Determinar

uj

faa

conforme a Equao 2.6

m
m

Calcular

P ar( )

conforme a Equao 2.3.

Alm do critrio de parcimnia de Fitch, h outras formas de parcimnia como a


de Wagner, Dollo, Camin-Sokal, entre outras (Felsenstein, 2004; Swoord et al., 1996).
Tais variantes diferenciam-se basicamente em como os custos das mudanas de estados
so quanticadas e a forma em que tais mudanas so consideradas (Swoord et al.,
1996). As diversas formas de parcimnia podem ser sintetizadas no modelo de parcimnia

18

CAPTULO 2.

RECONSTRUO FILOGENTICA

generalizada. Neste modelo, o pequeno problema de parcimnia resolvido empregando


uma abordagem de programao dinmica, proposta por Sanko (Sanko, 1985).
O pequeno problema de parcimnia permite determinar o valor mnimo de
para uma determinada topologia

Porm, encontrar a rvore (ou rvores)

P ars( ) seja mnima no espao de rvores uma tarefa muito complexa.

P ars( )

tal que

Tal problema

conhecido como o grande problema de parcimnia, o qual NP-difcil (Felsenstein, 2004).


Para resolv-lo, podem ser usadas tcnicas exatas para um nmero moderado de espcies
ou tcnicas heursticas nos demais casos. Tais abordagens so tratadas na Seo 2.4.1.

2.4.1 Estratgias de busca da rvore tima


Encontrar a melhor rvore que otimize um determinado critrio um problema bastante
complexo devido ao grande tamanho do espao de busca de possveis rvores. Existem
duas formas de enfrentar tal problema: usando busca exata ou busca heurstica.
As tcnicas de busca exata, no pior caso, procuram a soluo tima em todo o espao
de busca.

Um exemplo desse tipo de busca a busca exaustiva, onde as espcies so

adicionadas uma a uma explorando todas as topologias possveis. Assim, a


adicionada em todas as rvores contendo

i 1 espcies.

i-sima

espcie

Tal procedimento repetido at

que todas as espcies sejam consideradas e, nalmente, a rvore com a melhor topologia
a soluo tima.

Uma outra tcnica, conhecida como

branch and bound

(Hendy e

Penny, 1982) avalia implicitamente todas as topologias do espao de busca, descartando


regies cuja explorao no levem a rvore tima. Uma vantagem dos mtodos exatos
que fornecem a topologia tima, embora essas abordagens sejam adequadas apenas para
conjuntos de dados com poucas espcies. Para outros conjuntos, tais tcnicas requerem
de muito tempo computacional, sendo inviveis em termos prticos (Swoord e Sullivan,
2003).
As tcnicas de busca heurstica, que so de maior interesse no presente trabalho,
comeam com uma rvore inicial no tima, sobre a qual so aplicadas vrias formas de
troca de ramos de forma iterativa buscando melhorar tal soluo. A construo da rvore
inicial pode empregar os seguintes mtodos (Nei e Kumar, 2000; Swoord, 2000):

Adio por passos (

stepwise addition

): comea com uma rvore de 3 espcies. As

demais espcies so adicionadas iterativamente. A posio onde a nova folha ser


inserida escolhida analisando todos os ramos onde esta pode ser inserida. Assim,
escolhe-se a melhor posio de insero conforme algum critrio de otimalidade.
Esse processo repetido at que todas as espcies estejam adicionadas na rvore.
A Figura 2.7 mostra uma aplicao deste mtodo;

star decomposition

Decomposio de estrela (

): essa tcnica comea com uma topolo-

gia de estrela, onde todas as espcies esto unidas a um n interno. Posteriormente,

2.4.

MXIMA PARCIMNIA

19

duas espcies so agrupadas e separadas da estrela mediante a criao de um novo


n interno. A seleo de tais espcies pode ser realizada aleatoriamente ou analisando todas as alternativas possveis. Tal processo repetido iterativamente at que
seja formada uma rvore.

rvore inicial

A
C

rvore tima (4 folhas)


A

rvore tima (5 folhas)

A
B
C

D
E

Figura 2.7: Exemplo do mtodo

stepwise addition

(Gogarten e Lewis, 2002).

Os mtodos de adio por passos e decomposio por estrela raramente levam rvore
tima.

Outras modicaes de rvore podem ser aplicadas para melhorar as solues

fornecidas por tais mtodos.

Swoord et al. (1996) descrevem trs formas usuais de

modicao topolgica:

Troca dos vizinhos mais prximos (NNI, do ingls

Nearest Neighboor Interchange

):

essa tcnica trabalha com os ramos interiores da rvore. Cada ramo dene 4 subrvores vizinhas conectadas aos seus extremos. Cada um dos extremos possui um par
de subrvores. O NNI troca subrvores vizinhos de pares diferentes modicando a
rvore inicial. Todas as operaes NNI so efetuadas nos ramos da rvores original
e, nalmente, a melhor soluo retornada. O NNI provoca pequenas modicaes

20

CAPTULO 2.

RECONSTRUO FILOGENTICA

topolgicas, sendo adequado para uma busca na vizinhana da rvore inicial (Swofford e Sullivan, 2003). A Figura 2.8 mostra essa operao;

B
A
C

trocar

Figura 2.8: Exemplo do mtodo NNI (Gogarten e Lewis, 2002).

Poda e insero de subrvore (SPR, do ingls

Subtree Prunning and Regrafting

): esta

operao separa uma subrvore da soluo inicial e, posteriormente, reinserida em


todas as posies possveis. Tal processo repetido para todas as subrvores da soluo inicial, retornando a melhor soluo encontrada. O SPR realiza uma busca mais
abrangente que o NNI, permitindo avaliar um maior nmero de rvores (Swoord e
Sullivan, 2003). A Figura 2.9 mostra um exemplo do SPR;

D
A

E
B

B
F
I

I
G
F

inserir

H
H

podar

Figura 2.9: Exemplo do mtodo SPR (Gogarten e Lewis, 2002).

Bisseo e reconexo de rvore (TBR, do ingls

Tree Bisection and Reconnection

):

essa tcnica elimina um ramo interno da rvore original, separando-a em duas subrvores. Seguidamente, tais subrvores so reconectadas, criando um novo ramo
que conecta as duas subrvores. Todas as subrvores e todas as reconexes possveis
so examinadas, retornado a melhor rvore encontrada. O TBR permite explorar
um maior nmero de solues que o SPR (Swoord e Sullivan, 2003). A Figura 2.10
mostra o emprego do TBR.

2.4.

MXIMA PARCIMNIA

21
C

A
E
B
F
I
sub-rvore

G
sub-rvore

H
C
A

H
B

E
I
criar conexo
H,B

F,B

G,B

A
D

A
D

B
E

B
E

A
D

B
E

Figura 2.10: Exemplo do mtodo TBR (Gogarten e Lewis, 2002).

As modicaes topolgicas descritas anteriormente so aplicadas em forma iterativa.


Isto , aps a construo da rvore inicial, modicaes topolgicas so realizadas nesta
rvore.

Caso seja encontrada uma melhor soluo, esta usada como novo ponto de

partida para as prximas modicaes. Este processo repetido iterativamente at que


no seja possvel encontrar melhores solues.
A estratgia de obter uma rvore por busca heurstica (frequentemente usa-se a adio
por passos) e, em seguida, aplicar NNI, SPR ou TBR implementada na maioria dos programas de inferncia logentica, tais como PHYLIP (Felsenstein, 2000b), PAUP* (Swofford, 2000) e PAML (Yang, 1997).

Porm, tal estratgia usualmente leva a regies de

timo locais (Swoord et al., 1996; Swoord e Sullivan, 2003). Uma forma de obter melhores resultados aplicar o mesmo procedimento em diversas pontos de partida (rvores
iniciais). Estas topologias so geradas por meio de vrias aplicaes da adio por passos,
com as espcies sendo adicionadas em ordem diferente em cada aplicao. Porm, os autores (Golobo e Farris, 2001; Swoord e Sullivan, 2003) concordam em que tal abordagem
efetiva em conjuntos de dados de at 100 espcies.
Deve-se observar que os mtodos heursticos de busca topolgica descritos nesta seo so independentes do critrio de otimalidade, podendo ser empregados em buscas de

22

CAPTULO 2.

RECONSTRUO FILOGENTICA

rvore de mxima parcimnia, mxima verossimilhana, entre outras. As heursticas especicamente desenvolvidas para a busca de rvore de mxima parcimnia so brevemente
explicadas na Seo 2.4.2.

2.4.2 Heursticas para busca da rvore de mxima parcimnia


O programa DNAPARS, includo no PHYLIP (Felsenstein, 2000b), calcula a topologia
inicial empregando o mtodo de adio por passos.

Aps a insero de uma espcie e

antes de adicionar uma outra, o DNAPARS aplica sistematicamente todos as modicaes


topolgicas de tipo NNI, e um nova topologia aceita desde que o seu valor de parcimnia
seja menor que a melhor soluo encontrada at momento. Uma vez que todas as espcies
foram adicionadas, o DNAPARS fornece uma opo para fazer modicaes topolgicas
adicionais empregando SPR. Felsenstein (2000b) recomenta rodar o DNAPARS vrias
vezes modicando a ordem com que as espcies so acrescentadas na rvore, dado que
assim possvel obter diferentes resultados em cada execuo e, possivelmente, escapar
de timos locais.

O programa PAUP , um dos programas mais empregados na inferncia logentica,


emprega heursticas muito similares ao DNAPARS, com a ventagem de oferecer ao usurio mais opes com relao a procedimentos de busca (Swoord, 2000).

A topologia

inicial pode ser obtida usando tanto adio de espcies quanto empregando um mtodo
de distncia como NJ (Saitou e Imanishi, 1989).

As modicaes topolgicas podem

ser do tipo SPR, TBR ou NNI, alm de possibilitar a restrio da forma em que tais
operaes so aplicadas. possvel efetuar vrias rplicas da busca, podendo inclusive
calcular graus de suporte a cada ramo mediante tcnicas de amostragem de dados como
o

bootstrap

(Felsenstein, 1985) (ver Seo 2.7).

Nixon (1999) props o mtodo chamado de Parcimnia Ratchet para a anlise de


grandes conjuntos de seqncias. O Ratchet comea com uma rvore inicial que pode ou
no ser submetida a operaes de modicao topolgica.

Um subconjunto de stios

escolhido, modicando os pesos de cada stio (por exemplo, adicionando 1 para os pesos
dos stios escolhidos). A seguir, modicaes topolgicas de tipo TBR so aplicadas aos
dados considerando os novos pesos. As melhores rvores nessa busca so mantidas e, posteriormente, aplica-se uma busca com o operador TBR em tais rvores, mas considerando
os dados originais (todos os stios com os mesmos pesos). Na prxima iterao, um outro
grupo de stios escolhido e todo o processo repetido. O mtodo Ratchet foi implementado nos programas PAUP* (Swoord, 2000) e NONA (Golobo, 1999b) mostrando que
o tempo para encontrar as rvores timas consideravelmente reduzido.
Os trabalhos de Golobo (1993, 1996, 1999a), Ronquist (1998) e Gladstein (1997)
descrevem vrias estratgias para melhorar o desempenho da busca da rvore de mxima
parcimnia. Em tais trabalhos so descritos mtodos que permitem calcular o valor de

2.4.

MXIMA PARCIMNIA

23

parcimnia da rvore, aps modicaes topolgicas serem aplicadas, sem necessidade de


aplicar o algoritmo de Fitch (Fitch, 1972). So propostas tambm vrios procedimentos
para determinar os estados dos ns internos

a priori

sem a necessidade examinar nova-

mente os ns afetados pela aplicao das operaes SPR ou TBR (Golobo, 1993, 1996).
Alm disso, apresentado um mtodo que permite detectar rvores subtimas que so
produto de modicaes SPR e TBR antes de tais alteraes serem realizadas. Com isso,
consegue-se uma reduo no tempo de execuo signicativa, uma vez que as mudanas
subtimas no so efetuadas.
Golobo tambm fez importantes contribuies nas heursticas para busca da melhor
topologia de mxima parcimnia (Golobo, 1999a). O autor critica o emprego da tcnica
de adio por passos e modicaes topolgicas TBR (ver Seo 2.4.1), armando que
so inecientes para encontrar a melhor soluo quando o conjunto de dados tem mais de
100 espcies. Assim, ele props trs novas abordagens de busca topolgica:

1. Fuso de rvore (TF, do ingls

Tree-Fusing

): esta estratgia combina subrvores de

duas rvores distintas, desde que ambas as subrvores possuam as mesmas espcies.
Tal mtodo produz melhores rvores se as subrvores combinadas possuam valores
de parcimnia timos ou quase-timos;
2. Buscas Setoriais Aleatrias (RSS, do ingls

Random Sectorial Searches

): neste m-

todo escolhe-se um setor da rvore (subrvore contendo um nmero determinado de


espcies) o qual analisado separadamente usando o mtodo de adio por passos
e TBR. Se um melhor valor de parcimnia para uma subrvore encontrado, essa
nova congurao do setor adicionada na rvore. As operaes TBR so realizadas
desde que o nmero de novas conguraes de setores encontradas sobrepasse um
determinado valor. A principal vantagem de tal mtodo que diversos setores da
rvores podem ser analisados bem mais rapidamente do que a rvore inteira;
3.

Tree-Drifting

(DFT): esta estratgia possibilita que modicaes topolgicas que

resultem em rvore subtimas sejam incorporadas ocasionalmente visando explorar


novas regies do espao de busca. A probabilidade de que uma soluo subtima
seja aceita depende da mtrica RFD (do ingls

Relative Fit Dierence

) (Golobo e

Farris, 2001) entre a rvore original e a rvore modicada.

Todas as heursticas apresentadas por Golobo foram implementadas nos programas


NONA (Golobo, 1999b) e TNT (Golobo et al., 2004). Os experimentos mostraram que
os novos mtodos de busca topolgica propostos foram signicativamente mais rpidos e
produziram rvores melhores que o mtodo de adio por passos com arranjos TBR.

24

CAPTULO 2.

RECONSTRUO FILOGENTICA

2.5 Mxima verossimilhana


A

mxima verossimilhana

um dos estimadores mais empregados na inferncia esta-

tstica (Bryant et al., 2005). O conceito de verossimilhana lida com situaes em que
hipteses ou modelos referentes a um conjunto de dados so avaliados.

Na inferncia

logentica, tais hipteses incluem usualmente parmetros como topologia de rvore,


comprimento de ramos e um modelo de substituio de seqncias.

Tais modelos so

apresentados a seguir.

2.5.1 Modelos de substituio de seqncias de DNA


Uma tarefa fundamental na anlise logentica a determinao de distncia entre um
par de seqncias. Tais valores so importantes tanto para a aplicao dos mtodos de
agrupamento como UPGMA (Michener e Sokal, 1957) ou NJ (Saitou e Nei, 1987) quanto
de mtodos probabilsticos (como mxima verossimilhana e inferncia Bayesiana).

distncia entre duas seqncias determinada pelo nmero esperado de substituies


por stio.

As substituies de nucleotdeos e aminocidos so geralmente consideradas

processos estocsticos. Para calcular tal distncia preciso denir um modelo de substituio que descreva esses processos (Strimmer e von Haeseler, 2003).

Nesta subseo

so apresentados os modelos de substituio de DNA, enfatizando apenas o clculo das


probabilidades de transio de estados. Tais probabilidades so empregadas no clculo
da verossimilhana de uma rvore logentica (ver Seo 2.5.2).
Os modelos de substituio de DNA podem ser representados por uma matriz de
taxas instantnea

Q,

onde

Qi,j

representa a taxa de mudana do estado

i para o estado j

durante um intervalo de tempo innitesimal. A forma mais usual de expressar essa matriz
a seguinte:

4
X


Q1,j

j=2

gA

Q=

hA

jA

aC

4
X

Q2,j

bG

cT

dG

eT

j=1,j6=2

iC

4
X

Q3,j

f T

j=1,j6=3

kC

lG

3
X

Q4,j

(2.7)

j=1

A ordem das colunas e las de

A, C, G e T
de A para C .

seguem a ordem dos nucleotdeos

de

tal forma que

a taxa instantnea de mudana

Os

parmetros

so taxas relativas de mudana para cada par de

Q1,2 = QA,C representa


a, b, c, d, e, f, g, h, i, j, k e l

2.5.

MXIMA VEROSSIMILHANA

nucleotdios.

Ento,

relativa de mudana de

25

representa a taxa relativa de mudana de

para

C, b a
A , C , G

para

e assim sucessivamente. Os parmetros

taxa
e

correspondem as estimativas das freqncias dos nucleotdeos no conjunto de dados

T
D.

Os elementos no diagonais da matriz representam o uxo de sada a partir do nucleotdeo

x;

enquanto os elementos diagonais de

fazem com que a somatria dos elementos em

cada linha (o uxo total de sada a partir do nucleotdeo


Os modelos descritos pela matriz

i)

seja zero.

correspondem classe de processos de Markov

contnuos no tempo, os quais possuem as seguintes caractersticas (Strimmer e von Haeseler, 2003):

Para todos os stios das sequncias, a taxa de mudana do estado

para o estado

independente do estado anterior (propriedade dos processos Markov);

As taxas de substituio no mudam no tempo (propriedade de homogeneidade);

As freqncias dos estados

A ,C ,G

T (A , C , G

T ,

respectivamente) esto em

equilbrio.
Uma outra propriedade muito importante de vrios modelos de substituio de DNA
que so reversveis no tempo. Em outras palavras, para um ramo na rvore, a probabilidade de que o estado de um extremo do ramo seja

e o outro extremo tenha estado

a mesma probabilidade de o estado de um extremo de ramo ser

e terminar com estado

no outro extremo (Felsenstein, 2004). Tal propriedade expressada como:

x Px,y (t) = y Py,x (t),


onde

(2.8)

Px,y (t) a probabilidade de mudar do estado x para o estado y

no tempo t. O valor

representa o comprimento do ramo da rvore.

x Qx,y = y Qy,x (Bryant et al.,


2005). Isso signica que a taxa de mudana de i para j igual a taxa de mudana de j
para i (Bryant et al., 2005; Strimmer e von Haeseler, 2003). Assim, tem-se que a = g ,
b = h, c = j , d = i, e = k e f = l. Tais restries permitem obter a matriz Q para o
possvel mostrar que a Equao 2.8 implica que

modelo geral reversvel no tempo (GTR, do ingls

):

4
X


Q1,j

j=2

aA

Q=

bA

cA

General Time-Reversible Model

aC

4
X

Q2,j

bG

cT

dG

eT

j=1,j6=2

dC

4
X

Q3,j

f T

j=1,j6=3

eC

f G

3
X
j=1

Q4,j

(2.9)

26

CAPTULO 2.

RECONSTRUO FILOGENTICA

Vrios dos modelos de substituio de DNA mais conhecidos na literatura aplicam


restries adicionais na matriz

Q.

O modelo mais simples, conhecido como modelo de

Jukes e Cantor (1969) (JC69) assume a igualdade das freqncias de nucleotdeos (A

C = G = T = 0, 25) e que todas as mudanas de estado acontecem com mesma taxa


relativa (a = b = c = d = e = f = 1) (Strimmer e von Haeseler, 2003). O modelo proposto
por

Felsenstein (1981a) (F81) permite diferentes freqncias de nucleotdeos com taxas

relativas constantes (a

= b = c = d = e = f = 1).

O modelo devido a Hasegawa et

al. (1985) (HKY85) permite diferenciar as taxas de mudana de transio (mudana de


purina para purina ou pirimidina para pirimidina) e transverso (mudana de purina para
pirimidina e viceversa) mediante o parmetro

(b = e =

a = c = d = f = 1).

Outros

modelos so tambm casos particulares do modelo GTR (Strimmer e von Haeseler, 2003;
Swoord et al., 1996).
Uma vez obtida a matriz
um comprimento de ramo

t,

Q,

a matriz de probabilidades de transio de estados para

denotada como

P(t)

calculada como:

P(t) = eQt .
A matriz

(2.10)

pode ser obtida mediante a descomposio da

em seus autovalores e

autovetores(Swoord et al., 1996) como mostrado pela seguinte expresso:

Q = ADA1 ,
onde

(2.11)

a matriz diagonal cujos elementos so os autovalores de

colunas so os autovetores direitos de

Q.

A matriz

so duas matrizes simtricas.

elementos correspondem s freqncias


os autovetores da matriz simtrica

1/2

a matriz cujas

pode ser expressada como:

Q = B,
onde

A matriz

(2.12)

uma matriz diagonal cujos

A , C , G e T . mostrado que, determinando


B1/2 , possvel expressar Q como:

Q = (1/2 U)D(1/2 U) 1,

(2.13)

U contm os autovetores direitos de 1/2 B1/2 . Os autovalores de Q esto


1/2
nos elementos diagonais da matriz D e os respectivos autovetores esto em
U. Dessa
forma, a matriz P(t) obtida substituindo na Equao 2.11, os elementos diagonais di,i
d t
da matriz D por e i,i .

onde a matriz

2.5.

MXIMA VEROSSIMILHANA

27

2.5.2 Clculo de verossimilhana para uma rvore


P(D|) de o conjunto de dados D ajustar-se ao
modelo = {, B, M}, onde uma topologia da rvore, B o conjunto de comprimento
de ramos de e M o modelo de substituio de seqncias. O objetivo do critrio
de mxima verossimilhana encontrar os parmetros do modelo , tal que a funo de
verossimilhana denida como L() = P(D|) seja maximizada.
A verossimilhana fornece a probabilidade

A estimao da verossimilhana ilustrada empregando um exemplo. Seja


junto de dados correspondentes s seqncias de trs espcies (u,

s).

um con-

Cada seqncia

Nsit stios (colunas) tal que uj , wj , sj representam os estados da espcies u, w e s


no stio j , respectivamente. Tais estados esto denidos em um alfabeto de caracteres de
DNA = {A, G, C, T }. A Figura 2.11 mostra uma rvore com as trs espcies atuais
(u, w e s), duas espcies ancestrais (v e r ) e os respectivos comprimentos de ramo. Alm
possui

disso, supe-se a existncia de um modelo de substituio de seqncias que possibilite o


clculo das probabilidades de transio de estados. O clculo da verossimilhana precisa
de duas premissas (Felsenstein, 2004):

Os stios das seqncias evoluem de forma idntica e independente;

A ramicao da rvore um processo de Markov, ou seja, a probabilidade de um


n possuir um determinado estado funo apenas do estado anterior.

A primeira suposio permite que a verosimilhana seja descomposta num produto


conforme a seguinte equao:

L=

N
sit
Y

P(D(j) |),

(2.14)

j=1

P(D(j) |) representa a verossimilhana no stio j que ser denotada de agora em


diante por Lj . Essa quantidade igual a soma das probabilidades de cada cenrio possvel
onde

levando em conta todos os possveis estados dos ns internos (que so desconhecidos). A


independncia da ramicao da rvore permite que

Lj =

XX

Lj

seja expressada como:

rj Prj ,sj (trs )Prj ,vj (trv )Pvj ,uj (tvu )Pvj ,wj (tvw )

(2.15)

rj vj
onde

rj , vj

representam os possveis estados para os ns internos

r e v , tij

o comprimento

i e j , rj a freqncia do nucletido correspondente ao estado


rj no conjunto de seqncias D, e Px,y (t) a probabilidade da mudana do estado x para
o estado y aps um tempo t. As ltimas duas quantidades so fornecidas pelo modelo de
substituio M.
do ramo que conecta os ns

28

CAPTULO 2.

RECONSTRUO FILOGENTICA

r
trv

trs

tvu

tvw

Figura 2.11: rvore para o exemplo do clculo da verossimilhana.


O clculo da verossimilhana pode ser efetuado recursivamente empregando as verossimilhanas condicionais de subrvores. A verossimilhana condicional da subrvore cuja
raiz o n

r,

denotada como,

Lrj (rj ),

a probabilidade dos eventos observados a partir

da tal subrvore, dado que o estado do n


descendentes

s,

Lrj (rj ) =

rj .

Prj ,vj (trv )Lvj (vj )

vj

a,

seja

Assim, se o n

tem

temos que:

e para as folhas

no stio

onde o estado

Prj ,sj (trs )Lsj (sj ) ,

(2.16)

sj

aj

fornecido por

(
Laj (x) =

1,
0,

se

D,

temos que:

aj = x,

caso contrrio.

(2.17)

Para o exemplo relativo rvore mostrada na Figura 2.11, tem-se pela Equao 2.17
que

Lvj (vj ) = Pvj ,uj (tvu )Pvj ,wj (tvw )

Lsj (sj ) = Prj ,sj (trs ).

Assim, substituindo os termos

nas Equaes 2.16 e 2.15 temos que:

Lj =

rj Lrj (rj )

(2.18)

rj
Para calcular a verossimilhana total conforme a Equao 2.14 necessrio fazer o
produto dos valores

Lj

para todos os stios.

Dado que tais valores so nmeros muito

pequenos podem ocorrer erros de preciso numrica.

Uma forma mais conveniente de

tratar tais nmeros calculando os seus logaritmos naturais. Assim, aplicando logaritmo
natural a ambos lados da Equao 2.14, tem-se que:

ln L =

Nsit
X

ln Lj

(2.19)

j=1
As Equaes 2.18 e 2.16 denem uma forma recursiva de calcular a verossimilhana
para rvores logenticas, no qual as verossimilhanas condicionais de cada subrvore em-

2.5.

MXIMA VEROSSIMILHANA

29

pregando um percurso ps-ordem. Tal procedimento foi proposto por Felsenstein (1981a),
e apresentado no Algoritmo 2.

Algoritmo 2: Clculo da verossimilhana.


Entrada:

, uma rvore com raiz r.


B , o conjunto de comprimentos de ramo de
D, um conjunto de dados contendo seqncias de Nsit stios
M, o modelo de substituio de seqncias que dene a matriz
transio de estados P
Sada: ln L
1 para cada
j = 1 . . . Nsit faa
2
para cada
v
u w

v
Calcular Lj (vj ), conforme a Equao 2.16.
3

probabilidades de

stio
n interno com lhos e percorrendo em ps-ordem

faa

m

Calcular

Lj

conforme a Equao 2.18.

m

Calcular

ln L

conforme a Equao 2.19

O modelo de substituio
dados

emprega tacitamente a suposio de que os stios dos

evoluem a uma taxa constante. Porm, em bancos de seqncias reais, os stios

evoluem com taxas diferentes. Quando a variao das taxas entre stios (denotada como
ASRV, do ingls

among-site rate variation

) incorporada no modelo, os resultados da

anlise de verossimilhana podem ser sensivelmente melhorados (Yang, 2000).

Basica-

mente, existem duas formas de incorporar o ASRV (Stamatakis, 2006a; Zwickl, 2006):
taxas de heterogeneidade especcas por stios e taxas de heterogeneidade Gama.
No modelo de taxas especcas por stio, incorpora-se ao modelo

W=
stio j . A

um vetor

[1 , 2 , . . . , Nsit ] , onde j corresponde a taxa de evoluo correspondente ao


verossimilhana L calculada da mesma forma descrita anteriormente, mas multiplica-se
cada comprimento de ramo tij por j na obteno das verossimilhanas condicionais da
Equao 2.16. Uma vantagem dessa abordagem que o tempo de clculo da verossimilhana no acrescentado signicativamente (Stamatakis, 2006a). Porm, os valores de
devem ser fornecidos

a priori

, o que aumenta consideravelmente o nmero de parmetros

a serem estimados.
No modelo de taxa de heterogeneidade Gama,

uma distribuio contnua Gama () (Yang, 1993).


stio

uma varivel aleatria obtida de


Assim, a verossimilhana para um

calculada por:

Z
Lj =

P(D(j) |, j = x)f (x)dx,

(2.20)

0
onde

a funo de densidade de probabilidade com distribuio

a verossimilhana do stio

P(D(j) |, j = x)
seja x. Na prtica, o

condicionado a que o taxa de tal stio

30

CAPTULO 2.

RECONSTRUO FILOGENTICA

clculo da integral da Equao 2.20 muito custosa computacionalmente. Devido a isso,


emprega-se uma distribuio discreta

que aproxima tal valor (Yang, 1994):

(j)

P(D |, j = x)f (x)dx

Lj =
0
onde a distribuio

xk

N
cat
X

k P(D(j) |, j = xk ),

(2.21)

k=1
para as taxas dos stios discretizada em

corresponde a taxa de evoluo da categoria

k = 1 . . . Ncat

categorias,

a probabilidade da categoria

k.

A Equao 2.21 pode ser escrita tambm da seguinte maneira:

Lj =

N
cat
X

k rj Lrj (rj , xk ),

(2.22)

k=1 rj

Lrj (rj , j = xk ) obtida da mesma forma que Lrj (rj ) na Equao 2.16, multiplicando
xi os comprimentos de ramo trv e trs . Dessa forma, possvel adaptar o Algoritmo 2

onde
por

para incorporar a heterogeneidade da taxa de substituio entre os stios.


A vantagem do modelo de taxa de heterogeneidade Gama que os valores
obtidos a partir da distribuio

so

Tal distribuio possui dois parmetros que so

, parmetro de escala. Na prtica, emprega-se apenas o parmetro


, sendo xado em 1/. Contudo, o clculo da verossimilhana torna-se mais lento pois
o clculo da Equao 2.22 realizado para as Ncat categorias empregadas.
parmetro de forma e

2.5.3 Heursticas para busca da rvore de mxima verossimilhana


Nesta seo apresentado um resumo das principais heursticas empregadas na busca da
rvore de mxima verossimilhana nos principais programas de inferncia logentica. As
principais diferenas nas estratgias adotadas por tais programas so:

A forma como uma topologia inicial gerada;

A maneira como as modicaes topolgicas da rvore inicial so aplicadas;

As tcnicas de otimizao de comprimentos de ramo e parmetros do modelo evolutivo empregado.

O programa DNAML, includo no PHYLIP (Felsenstein, 2000b), para a determinao de logenias por mxima verossimilhana incorpora heursticas de busca topolgica
similares ao DNAPARS, visto na Seo 2.4.2. A otimizao de todos os comprimentos
de ramo efetuada a cada modicao topolgica da rvores, embora na verso mais
recente (3.67) essa abordagem tenha sido substituda pela otimizao dos ramos somente
na vizinhana onde as mudanas aconteceram.

2.5.

MXIMA VEROSSIMILHANA

31

As heursticas de busca topolgica para mxima verossimilhana implementadas no


PAUP* (Swoord, 2000) so as mesmas que nas aplicadas na busca da rvore de mxima
parcimnia. No PAUP* (Swoord, 2000), a determinao de comprimento de ramos iniciais e de parmetros do modelo baseada em reconstrues de mxima parcimnia (Rogers
e Swoord, 1998). Uma outra caracterstica importante, que na otimizao de parmetros de modelo evolutivo pode ser limitada s rvores cujas verossimilhanas no sejam
menores que a da melhor rvore encontrada. Assim, reduz-se o nmero de otimizaes
realizadas tornando o tempo de busca signicativamente menor.
O software PHYML (Guindon e Gascuel, 2003) emprega uma abordagem heurstica
que diminui notavelmente o tempo de execuo, fornecendo rvores comprveis s obtidas
mediante programas como PAUP

e fastDNAml (Olsen et al., 1994). Tal ganho de desem-

penho devido a um procedimento pelo qual, as modicaes topolgicas e a otimizao


dos comprimentos de ramos e parmetros esto fortemente relacionadas. A topologia inicial obtida mediante um mtodo de distncias conhecido como BIONJ (Gascuel, 1997).
Os parmetros do modelo de substituio de seqncias so inicialmente estimados pelo
mtodos de seo urea (Press et al., 1992). A seguir, so examinadas todas as modicaes topolgicas do tipo NNI, sendo apenas otimizado o comprimento do ramo envolvido
em tal operao. Dessa forma, todas as mudanas possveis so independentemente calculadas com um menor custo computacional. Aplica-se uma proporo das modicaes
que mais aumentaram a verossimilhana das rvores e, nalmente, recalculam-se os parmetros do modelo de substituio de seqncias.

A nova topologia obtida o novo

ponto de partida para uma nova iterao do algoritmo, que continua at que no haja
mais modicaes a serem aplicadas. Finalmente, os comprimentos de ramos e parmetros do modelo so reotimizados. Tal procedimento emprega o mtodo de otimizao de
Brent (1973), o qual no precisa do clculo de derivadas. Extenses para o PHYML, que
utilizam as modicaes topolgicas SPR ao invs da NNI original tm sido propostas
na literatura (Hordijk e Gascuel, 2005), embora ainda no tenham sido acrescentadas ao
programa.
A srie de programas RAxML (Stamatakis, 2005, 2006b; Stamatakis et al., 2005a,b,
2002b; Stamatakis e Meier, 2004) (cujas verses iniciais foram fortemente baseadas no
fastDNAml) implementam heursticas que aceleram o clculo da verossimilhana (Stamatakis et al., 2002a) e a obteno da topologia de mxima verossimilhana. No RAxML,
a topologia da rvore obtida mediante um algoritmo de adio por passos empregando
o critrio de mxima parcimnia. Os parmetros e comprimentos de ramos so tambm
otimizados neste etapa inicial. Posteriormente, so aplicadas modicaes do tipo SPR,
onde uma subrvore removida e logo reinserida em uma outra posio da rvore.

RAxML aplica tais movimentaes de forma que a distncia da onde rvore removida
e inserida no sobrepassa um certo limite. Alm disso, apenas os comprimentos de ramo
que so afetados pela reinsero da rvore so otimizados.

As 20 melhores topologias

32

CAPTULO 2.

RECONSTRUO FILOGENTICA

resultantes das modicaes topolgicas so posteriormente otimizadas e a melhor delas


a nova topologia inicial para uma nova iterao do algoritmo.

As novas verses do

programa permitem inferncias de grandes conjuntos de dados (mais de 10.000 espcies),


o que possvel devido a vrios fatores:

Uma implementao eciente para armazenar topologias grandes;

A reutilizao de clculos prvios na verossimilhana;

Melhorias no desempenho dos clculos que incorporam heterogeneidade de taxas


dos stios (Stamatakis, 2006a);

Emprego de recursos de computao paralela (Blagojevic et al., 2007; Stamatakis,


2006b).

Outras referncias da aplicao de busca heurstica para determinar a rvore de mxima verossimilhana, podem ser consultadas em (Adachi e Hasegawa, 1996; Hordijk e
Gascuel, 2005; Jobb, 2007; Larget e Simon, 1998; Pond e Muse, 2004; Pupko e Graur,
2002; Stamatakis, 2005; Strimmer e von Haesler, 1996; Vinh e von Haeseler, 2004; Yang,
1997).

2.6 Comparao de mtodos de inferncia logentica


Na literatura, existem uma srie de trabalhos que comparam o desempenho dos diversos
mtodos de reconstruo logentica. Para que tais estudos sejam possveis necessrio
que a rvore verdadeira de um conjunto de dados seja conhecida ou bem estabelecida

priori

. Segundo Yang (2006), esses estudos tm sido realizados de 3 formas:

Gerando evoluo de espcies diretamente no laboratrio;

Utilizando logenias fortemente aceitas pelos pesquisadores e;

Empregando simulao.

Um exemplo do primeiro tipo de estudo o trabalho Hillis et al. (1992 apud Yang,
2006). Foram evoludos bacterifagos T7 no laboratrio, assim, tanto a logenia como os
estados de todas as espcies (incluindo as ancestrais) so conhecidas

a priori

. Todos os

mtodos testados conseguiram encontrar a rvore logentica correta e ainda, o mtodo


de parcimnia recuperou os estados ancestrais com grande preciso.
O trabalho de Russo et al. (1996) investigou a ecincia de diferentes mtodos de
reconstruo logentica.

Tais mtodos foram aplicados em 13 bancos de genes (ami-

nocidos e nucleotdeos) pertencentes a 11 espcies de vertebrados cuja logenia foi estabelecida

a priori

Os mtodos comparados foram: Neighboor Joining (NJ) (Saitou e

2.6.

COMPARAO DE MTODOS DE INFERNCIA FILOGENTICA

33

Nei, 1987), evoluo mnima (Rzhetsky e Nei, 1992), mxima parcimnia (Fitch, 1972) e
mxima verossimilhana (Felsenstein, 1981a). Os bancos usados apresentaram variadas
caractersticas como o tamanho do banco, distncia entre seqncias e stios informativos.
Os experimentos foram realizados com vrias tipos de distncias e, para o mtodo de
parcimnia, testou-se as variantes de parcimnia simples (Fitch, 1972) e com pesos (Sanko, 1975). Os desempenhos das tcnicas foram determinados utilizando uma medida de
distncia topolgica (Rzhetsky e Nei, 1992) em relao rvore correta. Os resultados
mostraram que todos os mtodos foram capazes de obter a rvore verdadeira para alguns
bancos; enquanto que para outros bancos, nenhum mtodo foi capaz de atingir a rvore
correta.

Repetiu-se os experimentos usando a concatenao de todos os bancos como

entrada para uma nova avaliao. Nesse casso, todos os mtodos encontraram a rvore
verdadeira. Duas concluses signicativas so destacadas pelos autores: os mtodos mais
simples como NJ (Saitou e Nei, 1987) produziram resultados comparveis a outros mtodos mais complexos, e a escolha dos dados adequados ou de grandes bancos de dados
produzem melhores resultados independentemente do mtodo de inferncia usado.
A importncia da simulao de dados para avaliar diversos mtodos de reconstruo
logentica foi destacado no trabalho de Huelsenbeck (1995).

O autor empregou uma

rvore de 4 espcies e simulou um conjunto de 1.296 rvores, todas com a mesma topologia e diferentes combinaes de comprimentos de ramos.

Tais combinaes possuem

uma amostragem representativa das diferentes condies em que os mtodos so testados. Para comparar o desempenho dos mtodos avaliados (UPGMA (Michener e Sokal,
1957), invariantes (Lake, 1987), parcimnia (Fitch, 1972), NJ (Saitou e Nei, 1987), mnimos quadrados (Cavalli-Sforza e Edwards, 1967) e mxima verossimilhana (Felsenstein,
1981a) foram utilizados 3 critrios: consistncia, robustez e ecincia. A consistncia de
um mtodo mostra a capacidade de estimar a rvore correta quando h dados sucientes.
A ecincia a rapidez com que o mtodo converge para a rvore correta. A robustez
do mtodo a capacidade de achar a rvore correta se os requisitos do mtodo no so
satisfeitos.

Os resultados mostraram que o mtodo de mxima verossimilhana obteve

um comportamento levemente melhor em relao aos outros; enquanto os mtodos de


UPGMA e invariantes mostraram diculdade para encontrar a rvore correta. Porm, o
autor destaca que todos os outros mtodos tiveram desempenho satisfatrio na maioria
dos experimentos.

O emprego de pesos no caso dos mtodos de parcimnia e mnimos

quadrados melhorou signicativamente o desempenho de tais mtodos. Segundo Huelsenbeck, a concluso mais importante de seu trabalho que, se os requisitos de um mtodo
so satisfeitos, tal mtodo apresenta o ser melhor desempenho.
Existem outros trabalhos na literatura (Jin e Nei, 1990; Kuhner e Felsenstein, 1994; Nei
et al., 1994; Saitou e Imanishi, 1989; Sourdis e Nei, 1988; Tateno et al., 1994) comparando
diversos mtodos de reconstruo logentica. Yang (2006) sintetiza algumas concluses
relevantes dos trabalhos nessa rea:

34

CAPTULO 2.

RECONSTRUO FILOGENTICA

Os mtodos de mxima parcimnia e verossimilhana empregados com modelos


simples, so propensos ao problema de atrao de ramos longos. Porm, se a mxima
verossimilhana baseada em modelos mais complexos, a inferncia mais robusta;

O mtodo de mxima verossimilhana , na maioria dos casos, mais eciente que


mtodos de parcimnia para recuperar a rvore logentica;

O nvel de divergncia entre as seqncias contidas nos dados tem uma inuncia
determinante no desempenho dos mtodos de reconstruo.

Conjuntos de dados

com pouca divergncia possuem informao insuciente para ajudar na inferncia


da rvore correta. Por outro lado, dados muitos divergentes contm muito rudo.
O nvel de informao relevante para a reconstruo logentica melhor em nveis
mdios de divergncia (Goldman, 1998; Yang, 2006);

A topologia da rvore e os comprimentos de ramos possuem um efeito signicativo


no desempenho dos mtodos. rvores com ramos internos curtos e ramos externos
compridos distribudos em diferentes partes da rvore so difceis de reconstruir.
Nesses casos, tanto os mtodos de parcimnia, verossimilhana e distncias tm
problemas em inferir a soluo correta. rvores com ramos internos mais compridos
que os ramos externos so mais fceis de inferir. Nesse caso, todos os mtodos de
reconstruo logentica conseguem um desempenho satisfatrio.

Embora as armaes destacadas acima sejam geralmente aceitas, na literatura da


rea no existe um consenso sobre o desempenho dos diferentes mtodos de reconstruo
logentica. Alm disso, conforme apontado por Rokas et al. (2003), existem vrias outras
fontes de incongruncia na anlise logentica que podem inuenciar signicativamente
nos resultados.

2.7 Avaliao de clados e rvores alternativas


Uma vez obtida a rvore logentica empregando algum mtodo de reconstruo, desejvel utilizar alguma medida de conabilidade no resultado obtido.

Nesta seo so

revisadas brevemente tcnicas para avaliao dos componentes (clados) de uma determinada rvore bem como os principais testes estatsticos disponveis para avaliar um
conjunto de rvores alternativas.

2.7.1 Anlise de bootstrap


O

bootstrap

uma tcnica de reamostragem estatstica empregada freqentemente na

avaliao de clados de uma rvore inferida. Felsenstein foi o primeiro a sugerir tal tcnica

2.7.

AVALIAO DE CLADOS E RVORES ALTERNATIVAS

35

no mtodo de mxima verossimilhana (Felsenstein, 1985). Contudo, o

bootstrap

pode ser

empregado com outros mtodos de reconstruo logentica como a mxima parcimnia,


ou mtodos de agrupamento (Yang, 2006).
O mtodo de

bootstrap

consiste em gerar um determinado nmero de bancos de dados

a partir de uma amostragem dos stios dos dados originais. Os conjuntos de seqncias
gerados pelo

bootstrap

(chamados tambm de rplicas) possuem o mesmo nmero de

stios que as seqncias originais. Em cada rplica, cada stio escolhido aleatoriamente
a partir dos dados originais.

Assim, um conjunto gerado poder ter vrias cpias do

simo stio e no possuir cpias do

i-simo.

j-

Aps isso, cada rplica gerada empregada

como entrada para o mtodo de reconstruo logentica considerado e uma rvores


inferida por cada rplica.

Finalmente, calcula-se a proporo de cada clado da rvore

inicial (inferida a partir dos dados originais) presente nas rvores das rplicas. Tal valor
mede a probabilidade de um clado ser recuperado em no conjunto de replicas.
Uma outra forma de processar as rvores inferidas a partir das rplicas calculando
uma rvore de consenso (Swoord e Sullivan, 2003), A proporo de cada clado de dita
rvore conhecida como grau de suporte ou proporo de
um diagrama da aplicao do

bootstrap
1

AGGCTCCCAT
AGGTTCGAAT
AGCCCGATAA
ATTTCCGATC

100

80

100

100

rvore inferida da rplica 1

AAAGCGGCAC
AAAGTGGAAC
AAACCGGTAG
AAATTTTATC

4
rvore inferida da rplica 2

GGGTTTTTCT
GGGTTTTTGT
GGCCCAAAAA
TTTCCCCCGC

rvore inferida da rplica Nrep

Rplica Nrep
1
2
3
4

100

Rplica 2
1
2
3
4

Valores de bootstrap na
rvore original

rvore inferida original

Rplica 1
1
2
3
4

. A Figura 2.12 mostra

Dados originais
1
2
3
4

bootstrap

AGGTTCCAAT
AGGTTCCAAT
AGGCCGGTAA
ATTCCCCGTC

Figura 2.12: Diagrama da anlise de

bootstrap

(Van de Peer, 2003).

36

CAPTULO 2.
Embora o

bootstrap

RECONSTRUO FILOGENTICA

seja uma tcnica simples e efetiva que mede a repetibilidade dos

clados da rvore inferida, os graus de suporte calculados podem ser propensos a erros
se o mtodo de inferncia no for empregado corretamente (Van de Peer, 2003).
outro inconveniente o tempo necessrio para realizar a anlise de

bootstrap

Um

. Dado que

um grande nmero de rplicas recomendado (entre 200 e 2.000), o tempo requerido de


inferncia de cada rplica pode ser invivel em termos prticos. Uma forma de resolver esse
problema empregar o mtodo de RELL (do

ingls Resampling Estimated Log Likelihoods


bootstrap

(Kishino e Hasegawa, 1989), que uma aproximao do

descrito nesta seo.

Tipicamente, os graus de suporte maiores que 70 ou 75% fornecem uma conabilidade


adequada aos clados inferidos (Van de Peer, 2003).

2.7.2 O teste de Shimodaira-Hasegawa


Um estudo logentico pode resultar em vrias rvores (por exemplo produzidas por um
anlise de

bootstrap

), possibilitando a realizao de anlises estatsticas. Os testes de Tem-

pleton (1983) e Kishino e Hasegawa (1989) tm sido aplicados para comparar topologias
alternativas inferidas com os critrios de parcimnia e verossimilhana respectivamente.
Porm, Shimodaira e Hasegawa (1999), bem como Goldman et al. (2000) apontam que
a aplicao de tais testes incorreta estatisticamente. Alm disso, tem-se observado que
tais testes rejeitam muitas topologias vlidas (Felsenstein, 2004).

Assim, Shimodaira e

Hasegawa (1999) desenvolveram o teste SH para comparar vrias topologias de acordo


com ao critrio de mxima verossimilhana.

Tal teste tem como objetivo determinar

quais topologias pertencem ao conjunto de conana, isto , as topologias que no podem


ser rejeitadas.

T de Narv
por ln L(i ).

Inicialmente, tem-se um conjunto


verossimilhana de

denotada

gera-se um conjunto de
valor

ln Lj (i ),

dados. Para a

Nrep

i-sima

rvore e

Ri,j ,

rvore. A

bootstrap

Apos isso, calcula-se o

replica, obtem-se

Ri,j ,

j -sima

replica dos

que representa a diferena

e a mdia das tais valores em todas as replicas:

A seguir, calcula-se o valor


e o valor de

j -sima

i-sima

A partir do conjunto de dados iniciais,

rplicas dos dados por

Ri,j

que representa a verossimilhana da i-sima rvore na

entre a verossimilhana de

a replica

rvores tal que

Nrep
1 X
ln Lk (i )
= ln Lj (i )
Nrep k=1

Oi,j

que representa a diferena entre o mximo

(2.23)

Rk, j

para

isto :

Oi,j =

max (Rk,j ) Ri,j

k=1...Narv

(2.24)

2.7.

AVALIAO DE CLADOS E RVORES ALTERNATIVAS

O valor

p para uma topologia i


i .

A expresso para

p(i ) = |{ Oi,j , j = 1 . . . Nrep


O valor

dada por:

tal que

Oi,j < ln L( ) ln L(i ) }|

(2.25)

para cada soluo indica a probabilidade da rvore correspondente no

ser signicativamente pior que a melhor rvore do conjunto.


abaixo de um determinado limite (usualmente
jeitada.

Oi,j , que so
(denotada por ) e a

determinado pela proporo de valores

menores que a diferena entre a verossimilhana da melhor rvore


verossimilhana de

37

0, 05),

Se tal valor encontra-se

a soluo analisada pode ser re-

O teste SH amplamente empregado em pesquisa logentica alm de estar

implementado nos principais programas de inferncia tais como PHYLIP (Felsenstein,


2000b), PAUP* (Swoord, 2000) ou PAML (Yang, 1997).

Uma desvantagem do teste

SH que pode ser muito conservador. Por outro lado, existem outros testes que podem
diminuir este efeito (Shimodaira, 2002; Yang, 2006).

2.7.3 Inferncia Bayesiana


A inferncia Bayesiana um mtodo estatstico de recente aplicao na inferncia logentica (Larget e Simon, 1999; Li et al., 2000; Mau e Newton, 1997; Rannala e Yang, 1996).
O objetivo principal desse mtodo calcular a probabilidade condicional (ou probabilidade

a posteriori

) das diferentes rvores e parmetros do modelo evolutivo em funo de

um conjunto de dados. Seja


total de

NT

i a i-sima topologia do conjunto


= {B, M} um modelo onde B o

um conjunto de dados,

topologias possveis para

espcies, e

i , e M os parmetros do modelo de substituio


posterior de i dado D expressada por:

conjunto de os comprimento de ramos de


de sequncias. A probabilidade

P(i |D) =

P(D|i , )P(i , )
NT Z
X

(2.26)

P(D|j , )P(j , )d

j=0

P(D|i , ) = P(D| = {i , }) a verossimilhana da rvore i com os comprimentos


de ramos B e parmetros do modelo de substituio contidos em M (ver Seo 2.5.2), e
P(D|j , ) o produto das probabilidades
da topologia j e os parmetros em .
onde

a priori

A escolha da distribuio de tais probabilidades subjetiva (Felsenstein, 2004; Guindon,


2003; Yang, 2006). O clculo do denominador da Equao 2.26 implica a somatria, para
todas as topologias existentes, da integral sobre todos os valores possveis dos parmetros
em

Na prtica, a determinao de tal valor diretamente possvel somente em pequenos

conjuntos de dados. Para resolver este problema emprega-se o mtodo de Monte Carlo
baseado cadeias de Markov (MCMC) (Yang, 2006). Um esquema do mtodo MCMC
mostrado no Algoritmo 3.

38

CAPTULO 2.

RECONSTRUO FILOGENTICA

Algoritmo 3: Algoritmo MCMC.


Entrada:

, uma rvore inicial aleatria


= {B, M}, valores aleatrios para o conjunto de parmetros (comprimentos
ramo de e valores para o modelo de substituio de seqncias M)
D, um conjunto de dados contendo seqncias
Niter , nmero total de iteraes do algoritmo
k , nmero de iteraes para amostragem
Sada: Amostras de e
1 i=1
2 repita
3
Propor

uma mudana na topologia

de

empregando modicaes topolgicas

(como NNI,SPR ou TBR)

4
5
6

Propor mudanas nos valores dos parmetros em

k
i=i+1
at i = Niter
A cada

iteraes, armazenar

A idia fundamental do algoritmo MCMC realizar uma amostragem percorrendo os


espaos de topologias

e valores

para aproximar a probabilidade a posteriori de tais

parmetros. A topologia com maior probabilidade aquela que foi visitada mas vezes durante as iteraes do MCMC. As probabilidades para as outras topologias tambm podem
ser calculadas da amostragem realizada.

Se o nmero de espcies analisadas for muito

alto e os dados no fornecem informaes sucientes, possvel que as probabilidades


das rvores apresentem valores muito baixos (Yang, 2006). Uma forma de sumarizar os
resultados usar as rvores de amostra para calcular uma rvore de consenso. Para cada
clado na rvore de consenso, calcula-se a proporo de rvores da amostra que contm tal
clado. Esse valor denominado probabilidade posterior do clado. Embora esta forma de
sumarizar os resultados seja questionada por alguns autores, esta implementada nos programas de inferncia bayesiana como Mr.Bayes (Ronquist et al., 2005) e BAMBE (Larget
e Simon, 1998).

2.8 Consideraes nais


Neste captulo apresentou-se os principais conceitos da rea de inferncia logentica. A
reconstruo da rvore logentica que melhor explique as relaes evolutivas entre as espcies analisadas um problema bastante complexo, devido ao grande espao de busca e a
falta de informao sobre espcies ancestrais extintas. Uma srie de mtodos que buscam
reconstruir a melhor rvore tm sido propostos na literatura. A mxima parcimnia e a
mxima verossimilhana so dois dos mtodos de reconstruo logentica mais empregados pelos pesquisadores. Tais mtodos denem critrios de otimalidade diferentes. Os

2.8.

CONSIDERAES FINAIS

39

algoritmos de Fitch (Fitch, 1972) e Felsenstein (Felsenstein, 1981a) otimizam os critrios


de parcimnia e verossimilhana para uma determinada rvore.
Contudo, a busca pela rvore tima no espao de busca uma tarefa complexa. Assim, no decorrer deste Captulo foram descritas vrias estratgias heursticas descritas
na literatura. As heursticas apresentadas so tanto gerais (podendo ser aplicadas com
quaisquer dos critrios de otimalidade), quanto especcas para os critrios de parcimnia
e de verossimilhana. Uma das heursticas utilizadas neste problema so os Algoritmos
Evolutivos, que sero revisados no Captulo 3.
Embora existam vrias formas de recuperar a logenia de um conjunto de espcies,
a aplicao de diferentes mtodos podem produzir resultados distintos. Os estudos comparativos de tais mtodos mostram que os resultados so muito variveis e dependentes
das condies do experimento. A vericao de que a aplicao de diversos mtodos resulta em solues conitantes motiva a investigao de uma abordagem multi-objetivo do
problema da inferncia logentica. Em tal formulao, possvel obter um conjunto de
solues que representem um equilbrio entre os critrios empregados como objetivos. A
aplicao dos AEs para problemas multi-objetivo e a modelagem multi-objetivo do problema de reconstruo logentica so explorados nos Captulos 4 e 5, respectivamente.
O conjunto de solues obtidas pode ser avaliado estatisticamente mediante os testes descritos neste captulo.
(Captulo 6).

Esses testes so utilizados na parte experimental desta pesquisa

40

CAPTULO 2.

RECONSTRUO FILOGENTICA

Captulo

3
Algoritmos evolutivos aplicados
logenia

3.1 Introduo
A Computao Evolutiva uma rea de pesquisa que tem evoludo signicativamente nas
ltimas dcadas. Embora as primeiras pesquisas nessa rea so da dcada de 1.930, a
partir da dcada de 1.960 que os trabalhos diversicaram-se devido, entre outras coisas, ao
maior acesso a computadores (De Jong, 2006). Assim, vrios tipos de Algoritmos Evolutivos (AEs) que imitam mecanismos de evoluo existentes na natureza foram propostos. A
aplicao de tais abordagens tem-se destacado principalmente na resoluo de problemas
de otimizao computacionalmente complexos (Deb, 2001). O problema de reconstruo
logentica pode ser visto como um problema de otimizao, no qual se deve determinar
a rvore tima segundo algum critrio.
A determinao de logenias um problema complicado dado que o nmero possvel
de rvores logentica cresce muito rapidamente com o nmero de espcies analisadas
(ver Captulo 2). Assim, o emprego dos AEs surge como uma alternativa vivel para este
tipo de problema. Alm disso, diversos trabalhos na literatura tm mostrado resultados
relevantes de AEs aplicados logenia (Katoh et al., 2001; Lemmon e Milinkovitch, 2002a;
Lewis, 1998; Zwickl, 2006).
Este captulo est organizado conforme segue. A Seo 3.2 apresenta os principais conceitos da Computao Evolutiva. A Seo 3.3 mostra mais detalhadamente os Algoritmos

41

42

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Genticos (AGs), um dos AEs mais utilizados. A Seo 3.4 contm uma reviso da literatura sobre o emprego de AGs no problemas de reconstruo logentica, considerando
trabalhos que empregam como funo objetivo os critrios de parcimnia e verossimilhana. Finalmente, na Seo 3.5, apresenta-se as consideraes nais deste captulo.

3.2 Computao evolutiva


A Computao Evolutiva abrange um conjunto de algoritmos (AEs) baseados na simulao dos princpios de evoluo e seleo natural (Deb, 2001). Cientistas da rea de biologia
interessaram-se pelos AEs para diversas aplicaes como o teste de processos evolutivos
e a simulao de modelos de evoluo natural. Cientistas de computao e engenheiros
estudam o potencial de tais algoritmos para resolver uma srie de problemas complexos,
principalmente na rea de otimizao, aprendizado de mquina, e vida articial (De Jong,
2006).
Uma vez que os AEs so fortemente inspirados em processos evolutivos que ocorrem
na natureza, preciso explorar as bases de tais processos. De Jong (2006) identica os
principais componentes dos sistemas evolutivos darwinianos:

Uma ou mais populaes de indivduos concorrendo por recursos limitados;

A noo de mudanas dinmicas nas populaes devido ao nascimento e morte dos


indivduos;

O conceito de aptido, que reete a habilidade do indivduo para sobreviver e


reproduzir-se;

A variao na hereditariedade, ou seja, os novos indivduos possuem muitas das


caractersticas de os seus pais, embora no sejam idnticos.

Os processos evolutivos descritos acima so de natureza iterativa. Dadas as condies


iniciais, o processo segue uma trajetria no tempo em um espao de estados evolutivos. A
idia de embutir processos evolutivos em algoritmos para resoluo de problemas foi explorado paralelamente por vrios pesquisadores produzindo vrios tipos de AEs. De Jong
(2006) classica as principais tipos de AEs em Estratgias Evolutivas, Programao Evolutiva e Algoritmos Genticos.
As Estratgias Evolutivas (EEs) foram propostas por Rechenberg e Schwefel (Rechenberg, 1965; Schwefel, 1968 apud Deb, 2001) na Universidade Tcnica de Berlim. O foco
principal das EEs a resoluo de problemas de otimizao de funes cujos parmetros
so nmeros reais. Em tais problemas os

indivduos

, os quais representam uma soluo

para tal problema, so armazenados como um vetor de nmeros reais (chamados

genes

).

3.2.

COMPUTAO EVOLUTIVA

A proposta inicial foi um modelo denominado


descendentes e a melhor das
de solues.

(1 + )

43

(1 + )-EE, onde uma soluo pai produz

solues escolhida para ser o pai do novo conjunto

Os descendentes so obtidos por mutao dos genes do pai.

em geral utiliza uma perturbao Gaussiana

G(0, )

mutao

de mdia nula e desvio padro

Os estudos preliminares indicaram que o desempenho das EEs dependem da escolha da

G(0, ).

Assim, a representao dos indivduos foi estendida para incorporar um valor

para cada parmetro do problema. Esta uma caracterstica fundamental das EEs, que
permite o auto-ajuste de seus parmetros.
Uma srie de inconvenientes da proposta original como escalabilidade para problemas
de alta dimenso e de superfcies multimodais, gerenciamento de interao entre os pa-

(1 + )-EE: a
( + )-EE e a (, )-EE. Na primeira, indivduos reproduzem-se gerando descendentes, obtendo uma
(conjunto de solues) temporria de ( + ) indivduos,
dos quais so escolhidos os melhores indivduos da prxima gerao. Na (, )-EE,
indivduos reproduzem-se produzindo descendentes, com < , sendo que a nova
populao de indivduos selecionada dos descendentes. Esta ltima abordagem
rmetros foram identicados. Assim, surgiram duas extenses do modelo

populao

dita geracional, pois o perodo de vida de cada indivduo de uma gerao.


Fogel (1962); Fogel et al. (1966), na Universidade de Califrnia, iniciou os estudos de
mtodos de Programao Evolutiva (PE) os quais foram aplicados a problemas de Inteligncia Computacional (Rich e Knight, 1991; Russell e Norvig, 1995). Em tal aplicao,
agentes inteligentes foram representados como mquinas de estado nito, as quais evoluram em melhores mquinas no decorrer da execuo do algoritmo. A abordagem de PE

N indivduos pais, cada um dos quais gera


um indivduo descendente. A nova gerao de N pais determinada combinando pais e
descendentes em uma populao de tamanho 2N , classicando tais indivduos pelo valor
de aptido e, posteriormente, permitindo a sobrevivncia de apenas N deles. Os indiv-

focada nos modelos de populaes xas de

duos so submetidos a diferentes tipos de mutao que simplesmente alteram aspectos


da soluo de acordo com uma distribuio estatstica que pondera variaes menores ou
maiores conforme a proximidade dos indivduos do timo global.
Os Algoritmos Genticos (AGs) foram introduzidos por Holland (1975), na Universidade de Michigan.

Holland enfatizou na necessidade de sistemas auto-adaptativos no

tempo em funo da realimentao obtida pela interao com o ambiente onde operam (De Jong, 2006).

Os estudos inicias de AGs propuseram modelos geracionais, nos

quais, uma populao de

pais produz uma nova populao de

descendentes que subs-

tituem incondicionalmente os pais. Diferentemente das EEs e PEs, o desenvolvimento dos


AGs teve como objetivo ser independente do problema tratado.

Assim, as solues do

problema (os indivduos da populao) so codicados em cadeias de caracteres binrios


de comprimento xo. A reproduo dos indivduos realizada por operadores genticos de
mutao e

recombinao

sobre tais cadeias. A

codicao decodicao
(

) dos parmetros

44

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

do problema para (a partir) de cadeias de bits dependente do problema analisado. Uma


outra caracterstica importante dos AGs que os pais so selecionados estocasticamente
conforme ao seu valor de

aptido

Desta forma, os indivduos com maior aptido con-

tribuem signicativamente na gerao dos descendentes. Os AGs foram aplicados a um


grande nmero de problemas de otimizao (De Jong, 2006; Deb, 2001). Tais aplicaes
evidenciaram vrios problemas na proposta original de AGs. Com o decorrer das pesquisas, mudanas signicativas referentes aos mecanismos de seleo, elitismo e representao
de indivduos foram realizadas.
Embora EEs, PEs, e AGs tenham sido desenvolvidas separadamente, compartilham
muitos conceitos e idias comuns. O surgimento de uma viso geral e abrangente envolvendo essas tcnicas foi produto das principais conferncias e encontros entre os pesquisadores de tais abordagens.

O termo de Computao Evolutiva foi amplamente aceito

para unicar as diversas tendncias. Na prxima seo, os principais conceitos dos AEs
so explicados com base nos AGs, os quais so de maior interesse no presente trabalho.

3.3 Algoritmos genticos


Os AGs podem ser vistos como tcnicas de busca ou otimizao inspirados nos mecanismos de evoluo, seleo natural e nos princpios de gentica. Eles tm sido empregados
satisfatoriamente a uma grande variedade de problemas de diversas reas como: engenharia, otimizao, inteligncia computacional, bioinformtica, entre outras (De Jong, 2006;
Deb, 2001; Goldberg, 1989).
Considerando um problema de otimizao qualquer, os AGs inicializam a busca pela
melhor soluo a partir de um conjunto inicial de solues aleatrias, chamado de populao inicial.

Em princpio, desejvel que as solues aleatrias de tal populao

estejam bem distribudas no espao de busca. Cada uma dessas solues (indivduo) representada em uma estrutura de dados chamada

cromossomo

. Em geral, os cromossomos

so cadeias de caracteres binrios. A representao interna deve ser capaz de codicar


qualquer soluo fatvel do problema considerado.
A avaliao dos indivduos de uma populao realizada empregando a

funo objetivo

do problema. Com base em tal valor, calculada a aptido dos indivduos, que indica
quais indivduos dentro da populao so os mais aptos (as melhores solues para o
problema). Esses indivduos so fortes candidatos para se reproduzirem e transferirem as
suas caractersticas para novos indivduos, os quais podero formar uma nova populao
(tambm chamada de

gerao

).

O operador de seleo para reproduo utiliza a aptido dos indivduos para escolher
as melhores solues encontradas para o problema.

Tais indivduos recebem um maior

nmero de cpias dentro de uma

(conjunto de indivduos que iro se

lista de reproduo

3.3.

ALGORITMOS GENTICOS

45

reproduzir, pais); enquanto os piores indivduos dicilmente reproduzem-se.

Repetida-

mente, uma nova populao gerada utilizando os operadores genticos de recombinao


e mutao. Esses operadores so empregados segundo determinadas freqncias que devem ser fornecidas como parmetros da execuo do AG. O funcionamento de ambos os
operadores depende fortemente da representao interna das solues.
Empregando os operadores de seleo, recombinao e mutao, o AG gera uma nova
populao buscando melhorar a aptido dos indivduos de tal populao em relao
populao anterior.

Novas geraes so produzidas at que um critrio de parada seja

atingido, fornecendo solues do problema na populao nal. O funcionamento de um


AG apresentado no Algoritmo 4.

Algoritmo 4: Algoritmo Gentico.


Entrada:
Um problema de otimizao com funo objetivo

Parmetros do AG

Sada:

Pf inal

(populao nal de solues)

1 j =1
2 Gerar a populao inicial Pj
3 Avaliar a aptido das solues em Pj empregando f
4 enquanto
faa
5
Aplicar o operador de seleo em Pj
6
Gerar a nova populao Pj+1 utilizando os operadores

Critrio de parada no atingido

de recombinao e

mutao.

7
8

j =j+1
Avaliar a aptido das solues em

Pj

empregando

m

Pf inal = Pj
No desenvolvimento de um AG para um problema particular deve-se especicar os

seguintes componentes:

Codicao para as solues potenciais do problema;

Procedimento para criar uma populao inicial;

Funo de aptido para classicar as solues em termos de sua adaptao ao ambiente (sua capacidade de resolver o problema);

Denio dos operadores genticos com base na codicao utilizada;

Determinao dos diversos parmetros do AG, tamanho da populao, probabilidades de aplicao dos operadores genticos e outros.

As prximas Sees apresentam algumas caractersticas importantes dos principais


componentes dos AGs.

46

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

3.3.1 Representao das solues


importante que cada indivduo da populao seja capaz de representar completamente
uma possvel soluo do problema tratado. Para isso, todas as variveis da funo objetivo
devem estar representadas em cada indivduo.
Os trabalhos iniciais em AGs propuseram cromossomos formados por cadeias de caracteres binrios. A princpio, qualquer problema poderia ser tratado com operadores de
recombinao e mutao baseados na representao binria. O cromossomo precisa ser
decodicado antes de ser avaliado pela funo de aptido (Haupt e Haupt, 1998). A representao binria do tipo genotpica, dado que existe um mapeamento entre a cadeia de
caracteres (gentipo) e a decodicao de tal cadeia (fentipo), que depende do problema
a ser resolvido (De Jong, 2006). possvel empregar representao binria para codicar
parmetros como nmeros inteiros, reais ou outra estrutura relevante ao problema.
Como exemplo, considere um vetor de variveis contnuas no intervalo
deve ser representado por cadeias binrias de tamanho 3.
representao binria de valores contnuos.

[0; 1]

que

A Tabela 3.1 ilustra uma

De acordo com esta tabela, as variveis

[0, 55; 0, 11; 0, 95; 0, 63] sero representados pela cadeia 100 000 111 101.

A Tabela 3.1 for-

nece a decodicao de valores binrios para contnuos. Os nmeros esquerda e direita


representam os limites superior e inferior para cada trio binrio. Por exemplo, para 111 os

[0, 9375; 1, 000]. Assim, o mesmo indivduo, 100000111101, recuperado como


[0, 500; 0, 00; 0, 875; 0, 625], [0, 625; 0, 125; 1, 00; 0, 750] ou [0, 5625; 0, 0625; 0, 9375; 0, 6875]

limites so

quando se considera, respectivamente, os limites inferior, superior ou a mdia de ambos


os limites. Nota-se que a converso adiciona uma margem de erro a cada varivel.
A grande motivao para o emprego da codicao binria est na Teoria de Esquemas
(Holland, 1992), utilizada para justicar a ecincia dos AGs. Segundo Holland (1975),
a representao binria maximiza o paralelismo implcito inerente ao AG. Contudo, em
diversas aplicaes prticas a codicao binria leva a um desempenho insatisfatrio.
Nos problemas de otimizao com parmetros reais, Michalewicz (1996) e Deb (2001)
apresentam resultados de comparaes do desempenho de AGs com codicao binria
e com ponto utuante. Os resultados apresentados revelam a superioridade da codicao em ponto utuante. Assim, em problemas de otimizao numrica com parmetros
reais, pode-se empregar diretamente o vetor de parmetros numricos ou reais da funo
para determinar os indivduos.

A representao que emprega diretamente as variveis

do problema no indivduo dita fenotpica.

Neste tipo de representao no se tem a

preocupao da decodicao de gentipo para fentipo.

Em contrapartida, empregar

representaes fenotpicas supe o desenvolvimento de operadores de recombinao e mutao especcos ao problema tratado (De Jong, 2006).
A codicao uma das etapas mais crticas na denio de um AG. A denio
inadequada da codicao pode acarretar diversos problemas, entre esses um dos mais

3.3.

ALGORITMOS GENTICOS

47

Tabela 3.1: Tabela de converso de parmetros contnuos para binrio (Haupt e Haupt,
1998).

1,000
0,875
0,750
0,625
0,500
0,375
0,250
0,125
0,000

Valor da varivel
0,55 0,11 0,95 0,63
111

0,9375

110

0,8125

101
100

0,6875

0,5625

011

0,4375

010

0,3125

001

0,1875

000

0,0625

importantes o problema de convergncia prematura.

Em uma srie de problemas de

otimizao com restrio, a codicao adotada pode fazer com que indivduos modicados pela recombinao ou mutao sejam invlidos. Nesses casos, cuidados especiais so
necessrios na denio da codicao e/ou dos operadores (Michalewicz, 1996).

3.3.2 Denio da populao inicial


O mtodo geralmente utilizado na criao da populao a inicializao aleatria dos
indivduos.

Se algum conhecimento inicial a respeito do problema estiver disponvel,

pode ser utilizado na inicializao da populao.

Por exemplo, no caso de codicao

binria, se sabido que a soluo nal vai apresentar mais

00 s

do que

10 s,

tal informao

pode ser utilizada. Por outro lado, em problemas com restries, deve-se tomar cuidado
para no gerar indivduos invlidos na etapa de inicializao.

3.3.3 Operador de seleo


No operador de seleo, os indivduos so escolhidos para participar da produo dos
descendentes da prxima gerao. Indivduos com melhor valor de aptido tm a maior
probabilidade de gerar um ou mais descendentes para a gerao seguinte. Este operador
a verso articial da seleo das espcies do Darwinismo, que estabelece que os seres mais

48

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

aptos tm maio probabilidade de sobreviver, ou seja, os mais fortes e menos vulnerveis


aos predadores e doenas.
O objetivo principal da seleo copiar as melhores solues e eliminar solues de
baixa aptido, mantendo tamanho da populao constante (Deb, 2001). Isso realizado
utilizando os seguintes passos:

1. Identicar os melhores indivduos na populao;


2. Realizar mltiplas cpias das solues com aptado mais alta ou de informaes
dessas solues;
3. Eliminar indivduos de baixa aptido da populao.

Os melhores indivduos so armazenados em uma lista de reproduo a ser empregada


pelos operadores de recombinao e mutao. Existem vrias abordagens possveis para o
operador de seleo, sendo as mais comuns so a seleo pelo torneio, seleo proporcional,
e seleo por ranking.
Na seleo por torneio, duas ou mais solues so escolhidas aleatoriamente e a melhor
soluo copiada na lista de reproduo. Este processo repetido at preencher tal lista.
Deb (2001) mostrou que esta estratgia de seleo possui uma convergncia igual ou
melhor que outras abordagens, alm de possuir uma complexidade computacional menor.
Na estratgia de seleo proporcional, o nmero de cpias de uma soluo na lista
de reproduo proporcional ao seu valor de aptido. Para calcular o nmero de cpias
esperado, necessrio obter a probabilidade de cada soluo:

probi =

Apti
N
ind
X

(3.1)

Apti

i=1
sendo que

Apti

a aptido da soluo

de cpias do indivduo

Nind

na lista de reproduo

o tamanho da populao. O nmero

probi Nind .

Ou seja, as solues com

melhor valor de aptido tero mais cpias na lista de reproduo. O escalonamento um


problema associado com esta estratgia.

Quando existe uma soluo com um valor de

aptido muito maior comparado com o resto da populao, esta super-soluo ter uma
probabilidade de escolha perto de 1, e ter cpias muitas cpias. Caso todas as solues
possuam valores similares de aptido, a probabilidade de serem escolhidas ser a mesma,
e cada uma ser copiada na lista de reproduo. Isso equivalente a no realizar operao
de seleo.
A estratgia de seleo pelo

ranking
ranking

valor de aptido, desde a pior soluo (

ordena as solues da populao conforme ao seu


1) at a melhor (

ranking N

rank ). O nmero

3.3.

ALGORITMOS GENTICOS

49

de copias de uma soluo proporcional ao seu valor de

ranking

Esse procedimento

minimiza o problema apontado na estratgia anterior.


A escolha da estratgia de seleo importante devido inuncia na diversidade dos
indivduos da populao no decorrer do AG. Cada estratgia possui um certo grau de
presso de seleo, ou seja, a nfase com que o operador de seleo escolhe os melhores
indivduos da populao (Deb, 2001).

Uma forma de aumentar a presso de seleo

utilizando o elitismo, que consiste em copiar diretamente um ou vrios dos melhores


indivduos populao atual para a populao seguinte. Assim, as melhores solues so
sempre preservadas na gerao seguinte. Contudo, se a presso de seleo for muito forte,
provvel que o AG convirja para uma regio subtima do espao de busca, dado que
os indivduos da populao possuiro pouca diversidade (De Jong, 2006). Desta forma,
pode-se dizer que o mecanismo de seleo determina o grau de renamento das boas
solues, enquanto os operadores de recombinao e mutao inuenciam na explorao
do espao de busca.

3.3.4 Operador de recombinao


No operador de recombinao, em geral, so criados dois novos indivduos (lhos) empregando dois indivduos (pais) escolhidos da lista de reproduo. A idia intuitiva da
recombinao a troca de informao entre diferentes solues pais. Comumente atribuda uma probabilidade xa de ocorrer recombinao aos indivduos da populao. Uma
forma de recombinao muito empregada na representao binria a recombinao de
um ponto. Nesse operador, um ponto de corte na posio
vide os pais em dois segmentos cada um.

da cadeia de caracteres di-

Os dois indivduos descendentes so criados

trocando as cadeias parciais dos pais. Assim, um descendente (lho 1) formado pela
combinao das subcadeias nas posies

1...j

do pai 1, e

j + 1...n

do pai 2. O outro

descendente (lho 2) formado pela concatenao das subcadeias nas posies


pai 2, e

j + 1...n

1...j

do

do pai 1. A Figura 3.1 mostra um exemplo da recombinao de um

ponto.

Antes do
cruzamento
Pai

11011010100

Aps o
cruzamento
11011010010

Filho 1

00101010100

Filho 2

posio do
cruzamento
Me 00101010010

Figura 3.1: Operador de Recombinao de um ponto.

50

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Com a combinao das caractersticas dos pais esperado que as solues descendentes possuam um melhor valor aptido que os seus ancestrais. O motivo de tal espectativa
que as solues pais sejam escolhidas pela seleo, a qual enfatiza os melhores indivduos. Solues pais representam indivduos que sobreviveram seleo e, portanto, a sua
aptido relativamente boa. Contudo, nem sempre so gerados descendentes superiores
aos pais, pois o ponto de corte pode dividir o indivduo de forma que os segmentos de
boa aptido sejam quebrados. Em tal caso, tais indivduos tendem a ser eliminados na
prxima operao de seleo (Deb, 2001).
Uma extenso simples da recombinao de um ponto empregar dois ou mais pontos
de corte. Para esta classe de operadores de recombinao a diversidade produzida pela gerao de descendentes depende do nmero de pontos de corte e da semelhana das solues
pais. A diversidade na populao introduzida pela recombinao diminui no decorrer das
iteraes dado que o operador de seleo faz com que os indivduos da populao sejam
mais homogneos, pois os melhores indivduos produzem mais descendentes espalhando
suas caractersticas pela populao (De Jong, 2006). Outro tipo de recombinao muito
comum denominada uniforme (Sywerda, 1989). Em tal operador, o valor de qualquer
posio do cromossomo de um dos descendentes pode ser obtido tanto de um pai quanto
do outro (tal deciso feita estocasticamente para cada posio). Conseqentemente, a
recombinao uniforme permite combinar caractersticas dos pais independentemente da
sua posio no cromossomo.
No caso das representaes fenotpicas, h uma srie de operadores de recombinao
especcos propostos na literatura (Deb, 2001). Por exemplo, no caso de nmero reais,
tm sido propostos a recombinao aritmtica, de mistura, simulao binria,

fuzzy

, en-

tre outras (Deb, 2001). De acordo com Deb (2001), o desempenho de um determinado
tipo de recombinao fortemente dependente do tipo de problema. Assim, um tipo de
operador que particularmente eciente para uma determinada classe de problemas pode
ser ineciente para outras.

3.3.5 Operador de mutao


A mutao um operador que produz uma alterao aleatria em um gene de um indivduo.

A probabilidade de aplicao deste operador denominada taxa de mutao.

Usualmente, so atribudos valores pequenos para este parmetro. A idia intuitiva do


operador de mutao criar uma variabilidade extra na populao, mas sem destruir o
progresso j obtido com a busca. Alm disso, as alteraes introduzidas pelos operador de
mutao podem evitar a convergncia prematura do AG, ou seja, que a populao esteja
estabilizada em regies subtimas do espao de busca.
Considerando a codicao binria, o operador de mutao geralmente inverte o valor
de uma posio do cromossomo. Se a posio escolhida tem valor um, o seu valor passar a

3.3.

ALGORITMOS GENTICOS

51

ser zero aps a aplicao da mutao e viceversa. No caso das representaes fenotpicas,
como vetores de nmeros reais, existe uma srie de tipos de mutao propostos na literatura (Deb, 2001) tal como uniforme, no uniforme, ou Gaussiana (similar ao operador
empregado nas EEs).
Enquanto o operador de recombinao explora as regies trocando informaes das
solues j encontradas; a mutao introduz continuamente mudanas que pode aumentar
a diversidade entre os indivduos, permitindo a explorao de novas regies do espao de
busca. Tanto nos AGs como nos outros tipos de AEs, importante que exista um equilbrio
entre a explorao de novas regies e o renamento de solues em regies mais exploradas
do espao de busca. Assim, o nvel de renamento pode ser controlado basicamente pelo
operador de seleo; enquanto o grau de explorao pode se ajustado pela escolha dos
mecanismos de recombinao e mutao (De Jong, 2006).

3.3.6 Exemplo do uso de um AG


Para exemplicar o funcionamento dos AGs, considere o problema de encontrar o mximo
da funo (Haupt e Haupt, 1998):

f (x, y) = 21, 5 + xsen(4x) + ysen(20y)


Suponha que a soluo que se busca tem coordenadas

x e y.

(3.2)

Essas coordenadas repre-

sentam o ponto de mximo da funo. A superfcie gerada por esta funo possui vrios
picos e vales, caracterizando assim um problema com possibilidades de convergncia para
pontos de mximo local. A Figura 3.2 ilustra uma projeo suavizada desta superfcie.

f(x,y) = 21.5+x*sin(4*pi*x) + y*sin(20*pi*y)

40
35
30
25
20
15
10
5
0

-2

10

12

Figura 3.2: Superfcie suavizada da funo

4.2

4.4

4.6

f (x, y)

4.8

5.2

5.4

5.6

5.8

(Haupt e Haupt, 1998).

52

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Tabela 3.2: Populao inicial do AG.


Soluo

1
2
3
4
5
6
7
8
9
10

8,55696 4,84176
-2,14217 5,44308
1,96259 4,79317
-0,40211 4,26638
-0,53782 5,08256
10,91246 5,41764
-1,36431 5,46409
3,44358 4,88583
1,88679 5,47073
6,35054 5,38383
Aptido mdia

Aptido

29,51089
25,88302
18,61883
17,46505
17,22745
16,63308
15,91625
15,80166
14,35801
10,87223

18,22865

Tabela 3.3: Segunda gerao do AG.


Soluo

1
2
3
4
5
6
7
8
9
10

8,55305 5,42428
8,55281 5,42428
1,00293 5,43068
8,55696 4,59307
8,55305 5,68915
8,55696 4,57343
-2,14217 4,26627
-1,78296 4,79338
-0,40211 5,96177
-0,40211 4,26607
Aptido mdia

Aptido

32,20755
32,18789
26,62459
25,17936
23,20583
22,56428
19,95104
18,84688
18,30942
17,50904

23,65859

O AG utilizado segue as caractersticas do AG simples denido por Goldberg (1989).


Este algoritmo comea gerando uma populao inicial aleatria. Os indivduos so ordenados de acordo com o seu valor de aptido calculado pela Equao 3.2. Alguns, entre os
melhores, so selecionados para a recombinao. Os indivduos da nova populao tambm so ordenados. Aps esta etapa, os operadores de seleo, recombinao e mutao
so repetidos at a convergncia do algoritmo.

As Tabelas 3.2, 3.3 e 3.4 apresentam a

populao inicial e as populaes referentes segunda e dcima gerao respectivamente.


A Figura 3.3 ilustra a distribuio dos indivduos ao longo da superfcie. As geraes 0
(Ger 0), 50 (Ger 50), 100 (Ger 100), 150 (Ger 150) e 200 (Ger 200) tambm so mostradas
nesta gura. A Figura 3.4 apresenta um grco da funo aptido calculada em diferentes
geraes, incluindo os valores de mximo e mnimo, alm da mdia e desvio padro.

3.3.

ALGORITMOS GENTICOS

53

Tabela 3.4: Dcima gerao do AG.

Soluo

1
2
3
4
5
6
7
8
9
10

8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42428
8,55305 5,42407
8,55305 5,42407
8,52355 5,42428
8,78899 5,42428
8,55305 4,57426
Aptido mdia

Aptido

32,20755
32,20755
32,20755
32,20755
32,20755
32,20368
32,20368
29,40521
22,78260
22,21939

29,98523

Geraes do Algoritmo Gentico


f(x,y) = 21.5+x*sin(4*pi*x) + y*sin(20*pi*y)

Aptido

Ger 0
Ger 50
Ger 100
Ger 150
Ger 200

40
35
30
25
20
15
10
5
0

4
x

10

12

5.8
5.6
5.4
5.2
5
4.8
y
4.6
4.4
4.2

Figura 3.3: Indivduos distribudos sobre a superfcie da funo

f (x, y).

3.3.7 Diferenas entre os AGs e as tcnicas de otimizao tradicionais


As principais caractersticas do funcionamento dos AGs descritos nas sees anteriores
mostram vrias diferenas dos AGs em relao s tcnicas de otimizao tradicionais.
Goldberg (1989) e Deb (2001) destacam as seguintes propriedades:

O fato dos AGs poderem empregar representao binria que codica os parmetros
de um problema determinado, permite a sua aplicao para um escopo de aplicaes
bastante amplo;

Os operadores de seleo, recombinao e mutao permitem o aproveitamento das


semelhanas entre cadeias binrias para uma busca efetiva no espao das solues;

54

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Execuo do Algoritmo Gentico


40
35

Aptido

30
25
20
15
10
5
0
0

50

100
Geraes

Mdia
Max

150

200

Min
Desv.Padro

Figura 3.4: Grco da aptido calculada em relao as geraes.

Os AGs trabalham com uma populao de solues ao invs de uma nica soluo.
Em cada iterao os AGs processam um

conjunto de solues

, esta caracterstica

denominada de paralelismo implcito. O processo de busca , portanto, multidirecional, com a manuteno de solues candidatas que representam a busca em vrias
partes do domnio e com troca de informaes entre essas solues;

Os AGs no precisam de informao adicional (por exemplo, derivadas da funo


objetivo) a no ser o valor de aptido das solues. Isso torna possvel a aplicao
dos AGs a problemas nos quais no se tm informaes

a priori

Os AGs empregam regras probabilsticas para guiar sua busca. Por exemplo, o operador de seleo baseado na aleatoriedade de duas solues (seleo pelo torneio),
ou na probabilidade de escolha (seleo proporcional) dessas solues. O operador
de mutao procura evitar que os AGs parem em timos locais, mudando a busca
para outra regio do espao. Alm disso, as solues da populao inicial so escolhidas aleatoriamente. Em contrapartida, uma tcnica de otimizao determinstica
no ter como escapar de timos locais, em caso de uma deciso ruim sobre a direo
da busca.

A possibilidade de trabalhar com vrias solues simultaneamente, de no precisar de


informaes adicionais e poder evitar timos locais fazem dos AGs uma tcnica promissora
para ser empregada nos problemas de reconstruo logentica. A Seo 3.4 aborda este
tema.

3.4.

ALGORITMOS EVOLUTIVOS APLICADOS A FILOGENIA

55

3.4 Algoritmos evolutivos aplicados a logenia


A aplicao de AEs no problema de logenia relativamente recente.

A maioria dos

trabalhos de reconstruo logentica utilizando AEs empregam o critrio de mxima


verossimilhana, embora existam trabalhos dedicados ao critrio de parcimnia e distncias.

Nas prximas subsees, os principais trabalhos de AGs aplicados a logenia so

brevemente apresentados procurando destacar as principais contribuies de cada um.

3.4.1 Aplicao de AEs com o critrio de mxima verossimilhana


Matsuda (1996) foi o primeiro a propor um AG para a reconstruo de rvores logenticas. O AG proposto avalia as solues segundo o critrio de mxima verossimilhana
para seqncias de aminocidos. O AG emprega um operador de recombinao que troca
subrvores de duas solues baseando-se no princpio de evoluo mnima (Cavalli-Sforza
e Edwards, 1967). Um dos problemas deste operador que requer a otimizao prvia
dos comprimentos de ramos das rvores escolhidas para recombinao, o que resulta em
lentido no processo. Consequentemente, o AG no determina os comprimentos de ramos timos, seno que emprega tal informao para buscar a melhor topologia da rvore.
Matsuda comparou os resultados do seu modelo contra as solues obtidas a partir do
programa PHYLIP (Felsenstein, 2000b) e algoritmos de agrupamento, obtendo resultados
melhores ou comparveis.
Em um trabalho posterior, Lewis (1998) desenvolveu o software GAML (do ingls

Genetic Algorithm for Maximum Likelihood Phylogeny Inference

).

Diferentemente do

trabalho de Matsuda (1996), o GAML emprega seqncias de nucleotdeos para o calculo


da aptido das solues segundo o modelo de substituio HYK85 (Hasegawa et al., 1985).
No GAML, as rvores inicias so geradas aleatoriamente, os comprimentos dos ramos so
xados em valores arbitrrios, e o parmetro

do modelo HKY85 iniciado com um

valor predeterminado Aps a avaliao dos indivduos pelo operador de seleo baseado
em

ranking ,

o operador de recombinao (mostrado na Figura 3.5) efetua uma troca de

subrvores de duas solues pais a m de gerar duas novas solues. O GAML possui dois
operadores de mutao: um operador de mutao topolgica que faz uma movimentao
de tipo SPR na rvore e um operador de mutao de comprimentos de ramos, que vai
alterando tais valores durante a execuo do AG.
Nos experimentos, o GAML foi comparado com o software PAUP* (Swoord, 2000)
(verso 3.1).

O GAML foi capaz de fornecer resultados comparveis ao PAUP* num

tempo de execuo muito menor. O GAML serviu de base para futuros desenvolvimentos
do algoritmo (Brauer et al., 2002) e novas propostas de AEs (Mak e Lam, 2003; Zwickl,
2006).

56

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Pai 1

Pai 2
A

H
F
C

A
E

C
G

A
G

remover

Figura 3.5: Operador de recombinao implementado no GAML (Lewis, 1998).

Katoh et al. (2001) desenvolveram o programa GA-mt, que uma implementao


paralela de um AE utilizando a biblioteca PVM (Geist et al., 1994).

O GA-mt ava-

lia a verossimilhana das solues (considerando a heterogeneidade de taxas nos stios)


conforme ao modelo de substituio JTT (Jones et al., 1992) aplicado a seqncias de
aminocidos. O AG implementado nesse programa da classe de algoritmos de

estacionrio steady state


(

estado

): aps a iterao inicial, cria-se apenas uma nova soluo para

nova gerao, mantendo o restante de solues da populao anterior.

A nova soluo

gerada entra na populao se a sua aptido for melhor que a aptido de algum outro indivduo. Assim, o GA-mt fornece um conjunto de solues alternativas (no duplicadas).
As rvores da populao inicial so geradas pelos algoritmos de distncia NJ (Saitou e Nei,
1987) ou WNJ (Bruno et al., 2000). O operador de recombinao no GA-mt similar ao
proposto no GAML; enquanto o operador de mutao faz uma modicao topolgica do
tipo TBR ou NNI. Segundo os autores, garantir a diversidade das solues um processo
de alto custo computacional, razo pela qual tal processo efeituado em paralelo. Nos
experimentos, o GA-mt mostrou-se muito rpido em relao a heursticas implementadas
nos programas MOLPHY (Adachi e Hasegawa, 1996), fastDNAML (Olsen et al., 1994) e
PHYLIP (Felsenstein, 2000b). Alm disso, o GA-mt foi comparado com mtodos de inferncia baseados em distncias como NJ (Saitou e Nei, 1987) e WNJ (Bruno et al., 2000),
mostrando resultados mais consistentes quando se considerou o tamanho do conjunto de
dados testado.
O trabalho de Lemmon e Milinkovitch (2002a,b) descreve o algoritmo METAPIGA, o
qual introduz vrias inovaes em relao aos trabalhos anteriores. O METAPIGA um
AG que possui vrias subpopulaes (chamadas meta-populaes) que ao invs de evoluir

3.4.

ALGORITMOS EVOLUTIVOS APLICADOS A FILOGENIA

57

independentemente, colaboram na busca da rvore de mxima verossimilhana. As rvores das populaes iniciais podem ser geradas por mtodos aleatrios ou por amostragem
de dados

jacknif e

(Yang, 2006) usado conjuntamente com o mtodo de agrupamento

NJ (Saitou e Nei, 1987). METAPIGA tambm permite escolher entre vrias abordagens
para o mtodo de seleo. Um outro elemento chave no algoritmo o processo denominado

poda por consenso

(CP, do ingls

consensus prunning

), o qual identica as regies de

consenso (parties) das rvores contidas nas subpopulaes. As regies de consenso so


xadas no decorrer as iteraes tal que no podem ser modicadas pelos operadores de
recombinao ou mutao. Desta forma, os operadores genticos so guiados pelas comparaes das melhores solues entre as subpopulaes. Uma conseqncia da utilizao
do CP, que o nmero de regies de consenso aumenta a medida que o algoritmo itera;
enquanto o nmero de modicaes permitidas diminui. Conseqentemente, o espao de
busca progressivamente reduzido levando a uma convergncia rpida do algoritmo. A
Figura 3.6 mostra como funciona a poda por consenso em duas rvores, bem como as operaes permitidas nas regies de consenso. O operador de recombinao do METAPIGA
baseado na troca de regies de consenso entre duas solues, como mostrado na Figura 3.7. O METAPIGA fornece vrias formas mutao topolgica (alm das conhecidas
NNI, SPR e TBR) e de comprimento de ramos. As taxas dos operadores de recombinao
e mutao podem ser gerenciadas dinamicamente conforme a contribuio que cada operador faz para a melhora da aptido das solues. O critrio de parada por defeito naliza
a execuo do AG quando no existem mais modicaes topolgicas possveis, embora
seja permitido escolher outros critrios. Ao nal da execuo do METAPIGA, se realiza a
otimizao nal dos comprimentos de ramos e dos parmetros do modelo empregado. Nos
experimentos, o METAPIGA foi comparado com os programas PAUP* (Swoord, 2000) e
Mr.Bayes (Huelsenbeck e Ronquist, 2001) empregando conjuntos de dados de seqncias
de nucleotdeos. Os resultados mostraram que o METAPIGA bem mais rpido que as
heursticas convencionais, porm o ganho de desempenho depende do modelo substituio
utilizado. Alm disso, comparado a outras implementaes, o METAPIGA fornece uma
interface grca funcional e amigvel para o usurio.

Ge-

A tese de doutorado de Zwickl (2006) prope o algoritmo denominado GARLI (

netic Algorithm for Rapid Likelihood Inference

). O GARLI foi projetado para melhorar

o desempenho em relao a abordagens similares, permitindo analisar maiores bancos de


seqncias em perodos de tempo menor. Tais objetivos so atingidos mediante uma srie
de inovaes que permitem realizar a busca topolgica e a otimizao dos comprimentos
de ramo de forma eciente. Nessa ltima tarefa, reduz-se signicativamente o nmero de
operaes numricas requeridas. Na iterao inicial do GARLI, as solues da populao
inicial podem ser geradas aleatoriamente ou especicadas pelo usurio. Posteriormente,
so otimizados os parmetros do modelo substituio GTR, o parmetro

para a hete-

rogeneidade dos stios, a porcentagem de stios invariantes e os comprimentos de ramos

58

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

E
A

E
B

G
D
I

L
O

J
J

N
M

operaes permitidas

regies de consenso

operaes no permitidas

Figura 3.6: Exemplo do consenso por poda para duas rvores. As regies de consenso
denem as operaes de troca de ramos e folhas que so permitidas (Lemmon
e Milinkovitch, 2002a).

trocar regies de consenso


A

G
G
E

C
E

G
E

C
E
F
filho 1

A
filho 2

Figura 3.7: Operador de recombinao do METAPIGA (Lemmon e Milinkovitch,


2002a).

3.4.

ALGORITMOS EVOLUTIVOS APLICADOS A FILOGENIA

das topologias iniciais. O GARLI emprega um esquema de seleo baseado em

59

ranking

que permite controlar a presso seletiva. A melhor soluo automaticamente escolhida


e copiada diretamente para nova populao (elitismo), enquanto os demais indivduos
so escolhidos aleatoriamente para serem processados pelos operadores de recombinao e
mutao. Os tipos de mutao implementados so topolgica, de parmetros de modelo e
de comprimentos de ramos. A mutao topolgica realiza mudanas do tipo NNI e SPR,
esta ltima pode ser controlada por um parmetro que limita a distncia entre os pontos
de poda e reinsero da subrvore. A mutao do parmetros do modelo de substituio
e dos comprimentos de ramos multiplica tais valores por um nmero aleatrio obtido de
uma distribuio

com mdia 1 e parmetro

especicado. As taxas de aplicao dos

operadores de mutao so modicadas dinmicamente no decorrer das iteraes. Assim,


os operadores de mutao do modelo de substituio, que so caros computacionalmente,
so efetuados apenas quando um ganho signicativo de aptido esperado.
Uma das contribuies mais importantes do GARLI o proposta de otimizao dos
comprimentos de ramos. Tal mtodo controlado por um parmetro, denominado

b , que

determina o ganho mnimo na verossimilhana aps aplicar otimizao para um ramo. Se


o ganho no ultrapassar

b , ento o ramo no otimizado.

Assim, o nmero de operaes

numricas necessrias consideravelmente reduzido. A otimizao de comprimentos de


ramos realizada em cada modicao topolgica do tipo SPR. Primeiramente, so otimizados os ramos diretamente afetados pelo operador SPR (ou seja, os ramos adjacentes
ao ponto de poda e reinsero da rvore). Aps isso, as otimizaes so propagadas em
ramos adjacentes aos anteriormente otimizados, de forma recursiva, desde que o ganho na
verossimilhana seja maior que

b .

Finalmente, todos os ramos que foram modicados

no processo anterior so reotimizados. O parmero

diminudo progressivamente no

decorrer das iteraes do GARLI at que um certo valor mnimo atingido. A Figura 3.8
mostra um exemplo do processo de otimizao de comprimento de ramos adotado no
GARLI. Aps uma modicao topolgica SPR, so otimizados os ramos indicados pelas
linhas ponteadas (b1 da subrvore podada e b2, que dividido em b1a e b2a aps a
reinsero). Posteriormente, os ramos adjacentes a b1,b2a, e b2b (indicados com setas)
so otimizados recursivamente.
Existem 3 critrios de parada da execuo do GARLI:
1. Se as modicaes topolgicas no encontram uma soluo signicativamente melhor
durante um nmero especicado de iteraes;
2. Se as melhoras atingidas forem menores que um certo valor;
3. Se o parmetro

atingiu um valor mnimo.

Ao nal da execuo do GARLI, feito um ltimo ajuste dos comprimentos de ramos


das solues contidas na populao nal.

Nos experimentos, comparou-se o desempe-

60

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Modificao SPR

b2

b1

b1

b2a
b2b

Figura 3.8: Algoritmo para otimizao de comprimentos de ramos de GARLI (Zwickl,


2006).

nho do GARLI contra o PHYML (Guindon e Gascuel, 2003) e o RAxML (Stamatakis,


2005) (verso V) em vrios bancos de nucleotdeos de diferentes graus de diculdade.
Os resultados mostraram que o GARLI produz resultados mais consistentes em bancos
de seqncias maiores comparado aos concorrentes. O GARLI conta tambm com uma
verso paralela do tipo mestre-escravo, chamada de P-GARLI. O funes do processo
mestre so controlar a evoluo do algoritmo, coletar as solues dos processos escravos,
determinar a migrao de indivduos e efetuar o operador de recombinao das solues
encontradas. Os processos escravos realizam o mesmo procedimento que a verso serial
do algoritmo, comunicando-se com o mestre para enviar-lhe a melhor soluo encontrada.
Existem ainda outros trabalhos que utilizam AEs para o critrio de mxima verossimilhana. Mais informaes pode ser encontrada na literatura pertinente (Prado, 2002;
Skourikhine, 2000).

3.4.2 Aplicao de AEs com o critrio de mxima parcimnia


O trabalho de Moilanen (1999, 2001) apresenta o programa PARSIGAL, que emprega AGs
e o critrio de mxima parcimnia na construo de rvores logenticas. O PARSIGAL
um algoritmo hbrido que combina o operador recombinao com estratgias de busca
local.

O operador de recombinao baseado em troca de subrvores.

No lugar do

operador de mutao, realizada uma busca de tipo NNI e TBR nas solues encontradas
pelo algoritmo. Assim, enquanto o AG dene a regio do espao de busca que contm
a soluo tima, o operador de busca local permite chegar a tal timo de forma rpida.
Uma outra contribuio relevante desse trabalho a proposta de uma abordagem eciente
para calcular o valor de parcimnia mediante operaes lgicas de bits. De acordo com
o autor, o desempenho do PARSIGAL foi comparvel a de programas que empregam o
critrio de parcimnia como o NONA (Golobo, 1999a,b) e o Hennig86 (Farris, 1988).

3.5.

CONSIDERAES FINAIS

61

O programa GAPhyl descrito pela srie de trabalhos de Congdon (2002); Congdon


e Greenfest (2000); Congdon e Septor (2003). O AG proposto avalia as solues segundo
o critrio de parcimnia de Wagner (Farris, 1970). O GAPhyl usa vrias subpopulaes
que evoluem de forma independente.

A cada certo nmero de iteraes, um conjunto

de solues trocado entre as vrias subpopulaes.

O intervalo entre cada migrao

e o nmero de solues a serem migradas so fornecidos como parmetros do AG. Esse


mecanismo evita a convergncia prematura para solues subtimas. Nos experimentos,
o GAPhyl foi comparado como o PHYLIP (Felsenstein, 2000b) para seqncias de nucleotdeos. Porm, conforme aos autores do trabalho, os resultados obtidos no indicam os
possveis benefcios da aplicao do AG.
Existem ainda outros trabalhos relativos ao emprego de AEs no problema de logenia,
que utilizam critrios de otimalidade baseados em medidas de distncia (Cotta e Moscato,
2002; Reijmers et al., 1999).

3.5 Consideraes nais


Neste Captulo foi introduzida a Computao Evolutiva como uma rea de pesquisa que
abrange um conjunto de algoritmos que tem por base simular ou reproduzir princpios
da gentica e evoluo natural. Neste contexto, os AGs tm-se destacado como tcnicas
de busca e aprendizado de mquina que tm sido intensamente aplicadas a problemas
de otimizao. O funcionamento de um AG, os seus principais componentes, as formas
de representar as solues, os principais tipos de operadores de seleo, recombinao e
mutao foram apresentados. Alm disso, foram ressaltadas as principais caractersticas
dos AGs que os diferenciam de tcnicas de otimizao tradicionais.
Como explicado no Captulo 2, o problema de reconstruo logentica pode ser visto
como um problema de otimizao, onde um determinado critrio de otimalidade avalia
as solues no espao de busca de topologias.

Assim, o emprego de AEs surge como

uma alternativa vivel para tratar este problema devido a suas diculdades inerentes.
Uma reviso bibliogrca da aplicao dos AEs para encontrar as rvores de mxima
verossimilhana e mxima parcimnia foi apresentada. Em tais trabalhos, a aplicao dos
AEs est restringido ao emprego de um critrio de otimalidade para avaliar as topologias.
Contudo, problemas com vrios objetivos so comuns em aplicaes reais.
de AEs pode ser estendido para tais problemas.

O emprego

O prximo Captulo apresenta uma

abordagem de AEs para problemas com vrios objetivos a serem otimizados.

62

CAPTULO 3.

ALGORITMOS EVOLUTIVOS APLICADOS FILOGENIA

Captulo

4
Algoritmos evolutivos para
otimizao multi-objetivo

4.1 Introduo
A otimizao multi-objetivo aborda os problemas de otimizao que possuem vrios objetivos a serem simultaneamente atingidos. Para este tipo de problema, existe um conjunto
de solues que representa um compromisso entre os objetivos. Diversas tcnicas de otimizao tradicionais tm sido propostas na literatura (Coello et al., 2002; Deb, 2001).
Embora essas tcnicas garantam encontrar o conjunto de solues timas, em geral, precisam de bastante conhecimento sobre o espao de busca do problema.

Devido a esta

limitao uma srie de tcnicas heursticas e estocsticas tm sido desenvolvidas dentre


as quais tm-se destacado os AEs (Coello et al., 2002; Deb, 2001).
O restante deste Captulo est organizado em 5 sees.
principais conceitos tericos sobre otimizao multi-objetivo.

A Seo 4.2 apresenta os


A Seo 4.3 descreve as

principais tcnicas de otimizao tradicional empregadas nos problemas de otimizao


multi-objetivo. A Seo 4.3 apresenta os AEs para otimizao multi-objetivo destacando
o algoritmo NSGA-II (Deb et al., 2000). A Seo 4.5 mostra uma reviso das principais
abordagens multi-objetivo aplicados a logenia.
principais pontos considerados neste Captulo.

63

Finalmente, a Seo 4.6, sintetiza os

64

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

4.2 Otimizao multi-objetivo


Esta Seo introduz vrios conceitos e propriedades dos problemas de otimizao multiobjetivo (MOOPs, do ingls

Multi-objective Optimization Problems

) (Coello et al., 2002;

Deb, 2001) envolvendo a modelagem formal de MOOPs, as caractersticas das solues


para esses problemas e as diferenas entre otimizao simples de multi-objetivo.

4.2.1 Formulao
Um MOOP possui um conjunto de funes objetivo a serem otimizadas (maximizar ou
minimizar).

Alm disso, possui restries que devem de ser satisfeitas para que uma

soluo seja factvel para o problema. O enunciado geral de um MOOP o seguinte (Deb,
2001):

maximizar/minimizar
restrita a

onde

um vetor de

Nvar

soluo
so espao de deciso S
minado de

fm (x),
gj (x) 0,
hk (x) = 0,
(sup)
(inf )
xi xi ,
xi

m = 1, 2, . . . , Nobj
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,

(4.1)

x = (x1 , x2 , . . . , xNvar )T

tambm deno(sup)
xi
representam os limites inferior e superior,

variveis de deciso

(inf )
. Os valores xi
e

espao de variveis de deci-

xi . Esses limites denem o


ou
dec . As NR des desigualdades (gj ) e as NR igu igualdades (hk )
so chamadas de funes de restrio. Uma soluo x factvel satisfaz as NR igu + NR des
funes de restrio e os 2Nvar limites. Caso contrrio, a soluo no ser factvel. O
conjunto de todas as solues factveis formam a
ou
Sf act .

respectivamente, para a varivel

regio factvel espao de busca

Cada funo

fm (x)

pode ser maximizada ou minimizada. Porm, para trabalhar com

os algoritmos de otimizao, necessrio converter todas as funes para serem apenas


maximizao ou minimizao. O vetor funes objetivo
compe um espao multidimensional chamado

no espao de deciso, existe um

f (x)

espao de objetivos

Sobj .

em

f (x) = (f1 (x), f2 (x), . . . , fNobj (x)


Sobj . Para cada soluo

Esta uma diferena fundamental em

relao otimizao de objetivos simples, cujo espao de objetivos unidimensional. O


mapeamento ocorre ento entre um vetor
dimenso

Nobj ).

(de dimenso

Por exemplo, se cada elemento de

estaria mapeada como

f (x) : R

Nvar

Nobj

Nvar )

e um vetor

x e f (x) so nmeros reais,

f (x)

ento

(de

f (x)

4.2.

OTIMIZAO MULTI-OBJETIVO

65

4.2.2 Solues Pareto-timas


Em um MOOP, emprega-se o conceito de dominncia de Pareto para comparar duas
solues factveis do problema. Dadas duas solues
(denotado como

x 1  x2 )

x1

x2 ,

diz-se que

x1

domina a

x2

se as seguintes condies so satisfeitas:

1. A soluo

x1

pelo menos igual a

2. A soluo

x1

superior a

x2

x2

em todas funes objetivo;

em pelo menos uma funo objetivo.

As funes objetivo empregadas nos MOOPs so em geral

conitantes

entre sim. Uma

f1 conitante com uma outra funo f2 quando no possvel melhorar o


valor de f1 sem piorar o valor da funo f2 . Um exemplo prtico de objetivos conitantes
funo objetivo

so preo e desempenho na compra de equipamentos, por exemplo, de computadores.


Os computadores de maior custo so usualmente os de melhor desempenho e vice-versa.
Assim, em uma compra devem ser considerados vrios modelos de computadores com
diversos valores nos objetivos de preo e desempenho.

Se ambos os objetivos possuem

a mesma importncia, no h como armar, por exemplo, que certa reduo do preo
compensa certa perda de desempenho. Assim, existe um conjunto de solues que possuem
vantagens em desempenho mas que no so melhores em custo e vice-versa. Ou seja, existe
um conjunto de alternativas timas que so
e desempenho.

no dominadas

entre sim nos objetivos custo

Em um MOOP, o conjunto de solues no dominadas chamado de

conjunto Pareto-timo
de Pareto

, o qual representa as solues timas do problema.

fronteira

o conjunto de valores das funes objetivo das solues do conjunto Pareto-

timo.

A Figura 4.1 mostra os valores de preo e desempenho (de 0 a 100) de vrios

alternativas para o exemplo de compra de computadores. Nessa Figura so mostradas a


relao de dominncia entre as solues, o conjunto Pareto-timo e a fronteira do Pareto.

Fronteira de Pareto

10.000

Preo

7500

Relaes de dominncia
3  2, 5  1, 5  2
Conjunto Pareto-timo = {3, 4, 5}

1
5

5.000

2.500

20

40

60

80

100

Performance
Figura 4.1: Exemplo que ilustra o preo e a desempenho de vrias opes (15) de
compra de computadores.

66

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

4.2.3 Metas em otimizao multi-objetivo


Se a informao adicional sobre importncia relativa dos objetivos desconhecida, todas as
solues Pareto-timas so igualmente importantes. Deb (2001) assinala duas importantes
metas em otimizao multi-objetivo:
1. Encontrar um conjunto de solues que esteja o mais prximo possvel da fronteira
de Pareto;
2. Encontrar um conjunto de solues com a maior diversidade possvel.
A primeira meta comum a qualquer processo de otimizao.
tantes da fronteira de Pareto no so desejveis.

Solues muito dis-

Por outro lado, encontrar a maior

diversidade dentro das solues uma meta especca para a otimizao multi-objetivo.
A Figura 4.2(a) mostra uma distribuio quase uniforme de solues na fronteira de Pareto. A Figura 4.2(b) apresenta a fronteira com as solues apenas em algumas regies,
isto , com baixa diversidade. necessrio assegurar a maior cobertura possvel da fronteira, buscando um conjunto de solues comprometidas com os objetivos desejados.
Como em MOOP trabalha-se com o espao de decises e o espao de objetivos, tambm
desejvel que as solues estejam adequadamente distribudas em ambos os espaos. Em
geral, a diversidade em um desses espaos garante tambm a diversidade no outro. Para
alguns problemas, entretanto, isso no acontece.

f2

f2

Fronteira dePareto

f1

(a)

Fronteira dePareto

f1

(b)

Figura 4.2: Diferentes distribuies de solues na fronteira de Pareto.

4.2.4 Diferenas com a otimizao de objetivos simples


Deb (2001) identica trs importantes aspectos que diferenciam a otimizao multiobjetivo e a otimizao de objetivo simples:

4.3.

TCNICAS TRADICIONAIS PARA MOOP

67

1. Em problemas de otimizao com um nico objetivo, a meta encontrar uma soluo


tima global. Se a funo objetivo desses problemas fosse multimodal, pode existir
mais de um timo global. Neste caso, todos os timos so equivalentes. Por outro
lado, em MOOP, determinar o conjunto de solues da fronteira de Pareto to
importante quanto preservar a diversidade neste conjunto. Um algoritmo eciente
para otimizao multi-objetivo deve considerar ambos os aspectos;
2. Um MOOP trabalha com dois espaos (das variveis e dos objetivos) ao invs de
um. Problemas de objetivo simples trabalham unicamente no espao de variveis,
pois procuram apenas uma soluo no espao de objetivos. Manter a diversidade em
ambos espaos complica mais o problema, dado que a proximidade de duas solues
no espao de variveis

no implica

proximidade no espao de objetivos.

3. Os mtodos tradicionais de otimizao multi-objetivo reduzem o conjunto de funes


objetivo a uma funo simples a qual pondera cada objetivo. Estes mtodos podem
tambm tratar cada objetivo separadamente, utilizando os demais objetivos como
restries. Portanto, um MOOP pode ser convertido por meio de algumas tcnicas,
em um problema de otimizao simples.

4.3 Tcnicas tradicionais para MOOP


Nesta Seo sero descritas as principais tcnicas tradicionalmente utilizadas em MOOP:
somatrio de pesos (Seo 4.3.1), mtodo de restries

(Seo 4.3.2) e programao por

metas (Seo 4.3.3). A Seo 4.3.4 discute as vantagens e desvantagens de tais tcnicas.

4.3.1 Somatrio de pesos


O mtodo de somatrio dos pesos consiste em criar uma funo objetivo somando cada
objetivo multiplicado por um peso (Deb, 2001). Os pesos so fornecidos como parmetros.
A escolha dos pesos um problema importante que depende da relevncia de cada objetivo. necessrio realizar a normalizao de cada funo objetivo dado que os diferentes
objetivos podem ter diferentes magnitudes. Por exemplo, o preo de um carro pode variar
de R$4.000 a R$30.000; enquanto o conforto pode estar entre 0% e 100%.
Uma vez que os objetivos estejam normalizados, pode-se formular uma funo

F (x)

que soma os objetivos normalizados e multiplicados por seus respectivos pesos. Assim,
um MOOP pode ser formulado como segue:

68

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

Nobj
minimizar

F (x) =

wm fm (x),

m=1
restrita a

onde

wm [0, 1]

gj (x) 0,
hk (x) = 0,
(inf )
(sup)
xi
xi xi ,

j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,

o peso para cada funo objetivo

fm .

(4.2)

Pode-se mostrar que a soluo

do problema na Equao 4.2 pertence ao conjunto Pareto-timo se os pesos so positivos


para todos os objetivos. Alm disso, garantido que quando um MOOP convexo (Deb,
2001), qualquer soluo Pareto-tima pode ser encontrada usando o mtodo de somatrio
dos pesos, empregados diferentes combinaes de valores de

wm .

Embora esse mtodo seja simples, precisa de vrias iteraes para atingir toda a fronteira de Pareto.

No caso de um MOOP no convexo, este mtodo no capaz de de-

terminar todas as solues. Alm disso, a aplicao de vetores de pesos uniformemente


distribudos no garante que seja obtido um conjunto de solues uniformemente distribudas.

4.3.2 Mtodo de restries


Haimes et al. (1971 apud Deb, 2001), sugeriram reformular um MOOP considerando qualquer objetivo, mantendo restritos os demais objetivos com valores denidos pelo usurio.
A formulao adotada a seguinte:

minimizar
restrita a

onde cada

fu (x),
fm (x) m ,
gj (x) 0,
hk (x) = 0,
(L)
(U )
xi xi xi ,
f1

f2 .

Escolhe-se

f2

(4.3)

denido pelo usurio representa um limite mximo para o valor de

um MOOP no convexo de dois objetivos


restrio

m = 1, 2, . . . , Nobj e
j = 1, 2, . . . , NR des ;
k = 1, 2, . . . , NR igu ;
i = 1, 2, . . . , Nvar ,

m 6= u;

e mantm-se

fm . Seja
f1 com a

f 1 1 .

1 . O mnimo para
c
f2 depende da escolha do . Por exemplo, usando 1 , o valor mnimo para f2 ponto C.
A Figura 4.3 apresenta o espao de objetivos e vrios valores para

Ento, empregando valores diferentes de


Desta forma, o mtodo de restries

, encontra-se diferentes solues Pareto-timas.

pode ser usado para gerar as solues Pareto-

timas independentemente de o espao de objetivos ser convexo, no convexo ou discreto (Deb, 2001). Este mtodo necessita que a escolha do vetor

esteja em uma regio

factvel para cada objetivo. Por exemplo, na Figura 4.3, se for escolhido

a1 , ento nenhuma

soluo ser obtida. Assim, como no somatrio de pesos, so precisas vrios iteraes para

4.3.

TCNICAS TRADICIONAIS PARA MOOP

69

f2

B
C


a
1

b
1

c
1

Figura 4.3: Mtodo de restries

d
1

f1

(Deb, 2001).

determina a fronteira de Pareto e o uso de uma distribuio uniforme de

no garante

que um conjunto de solues com a mesma distribuio.

4.3.3 Programao por metas


Esta tcnica tenta encontrar solues que possam atingir uma meta predeterminada para
uma ou mais funes objetivo. Caso no exista uma soluo factvel que alcance as metas
para todos os objetivos, esta minimiza os

desvios

em relao s metas.

f (x) para ser minimizada dentro do espao de busca Sf act . Para


cada objetivo escolhido pelo usurio um valor meta z . Ento, o problema formulado
para encontrar uma soluo cujo valor em f seja igual a z . Formalmente:
Considere uma funo

meta (f (x) = z),


x Sf act
Para resolver um problema de programao de metas, cada meta convertida em uma
restrio de igualdade. Busca-se, ento, minimizar todos os desvios em relao as metas.
Existem vrias formas de trabalhar com esses problemas, as quais sero descritas a seguir:

Programao de metas com pesos: para um problema com


se uma funo somando os desvios para cada um dos
:

Nobj

Nobj

objetivos, formula-

objetivos. A forma geral

70

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

Nobj

minimizar

(j j + j j )

j=1

fj (x) j + j = zj , j = 1, 2, . . . , Nobj
x Sf act ,
j , j 0,
j = 1, 2, . . . , Nobj ,

restrita a

onde

para o

so os pesos dos desvios positivo e negativo (j e

-simo objetivo,

zj

a meta para a funo

fj

Sf act

j ,

(4.4)

respectivamente)

o espao de deciso

factvel. As solues obtidas por este mtodo dependem consideravelmente da escolha dos valores para

j .

Alm disso, segundo Deb (2001), este mtodo possui

diculdades similares ao mtodo do somatrio dos pesos;

Programao de metas lexicogrcas: aqui as metas so organizadas em vrios nveis


de prioridade.
metas.

Resolve-se seqencialmente vrios problemas de programao de

Inicialmente, as metas de primeira ordem de prioridade so consideradas

na formulao do problema. Caso existam mltiplas solues, as metas de segunda


ordem de prioridade so consideradas formulando outro problema para minimizar
apenas os desvios para as metas de segunda ordem. As metas de primeira ordem de
prioridade so usadas como restries. O processo continua com os demais nveis
de prioridade at que seja encontrada uma nica soluo. Utilizando este mtodo,
encontrada freqentemente uma soluo Pareto-tima. A Figura 4.4 mostra um

f1 mais importante, minimiza-se


f1 primeiro e obtm-se as solues das regies AB e CD nas quais f1 mnima.
Dado que existem mltiplas solues, minimiza-se f2 somente nas regies AB e
CD encontradas na iterao anterior. A soluo o ponto D, que corresponde ao
mnimo para f2 . Ento, D a soluo para todo o problema de programao de
espao de objetivos para as funes

f1

f2 .

Se

metas lexicogrcas.

f2

A
B
C
D

E
f1

Figura 4.4: Mtodo da programao de metas lexicogrcas (Deb, 2001).

4.4.

AES PARA PROBLEMAS DE OTIMIZAO MULTI-OBJETIVO

71

Programao de metas min-max: neste mtodo minimizado o mximo desvio em


relao s metas. A formulao adotada a seguinte:

Minimizar
restrita a

(4.5)

j e j so os desvios positivos e
negativos para cada objetivo, respectivamente e j e j representam os pesos para
cada desvio. Este mtodo requer tambm a escolha dos pesos j e j .
onde

j j + j j ,
j = 1, 2, . . . , Nobj
fj (x) j + j = zj , j = 1, 2, . . . , Nobj
x Sf act ,
j , j 0,
j = 1, 2, . . . , Nobj ,

o desvio mximo para qualquer meta,

4.3.4 Vantagens e desvantagens das tcnicas tradicionais


A principal vantagem das tcnicas tradicionais que possuem provas de convergncia que
garantem encontrar as solues Pareto-timas (Coello et al., 2002; Deb, 2001).

Todas

as tcnicas descritas neste Captulo reduzem um MOOP para um problema de objetivo


simples.

Cada tcnica utiliza uma forma diferente de reduo e introduz parmetros

adicionais. A escolha desses parmetros afeta diretamente os resultados obtidos. Cada vez
que os parmetros so modicados, necessrio resolver um novo problema de otimizao
simples.

Portanto, para encontrar cada soluo Pareto-tima, precisa-se solucionar um

problemas de objetivos simples.


Alguns mtodos no garantem solues ao longo de toda a fronteira de Pareto.

Se

esta no convexa, o mtodo do somatrio dos pesos no encontra certas solues, independentemente dos pesos escolhidos.
Finalmente, todos as tcnicas descritas precisam de parmetros adicionais, tais como
pesos, metas, e vetores de restrio. A distribuio uniforme destes parmetros no garante a diversidade das solues Pareto-timas. Porm, existem tcnicas alternativas para
tratar MOOPs.

Dentre dessas tcnicas, destacam-se os AEs (principalmente AGs) que

apresentam vrios aspectos positivos que motivam a aplicao dos mesmos. Na prxima
Seo, ser tratada a aplicao de AEs em MOOPs.

4.4 Algoritmos evolutivos para problemas otimizao


multi-objetivo
A primeira implementao de um MOEA (do ingls

rithm

Multi-Objective Evolutionary Algo-

) foi proposta por Schaer (1985). O modelo sugerido foi denominado VEGA (do

72

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

Vector Evaluated Genetic Algorithm

ingls

).

Schaer fez uma modicao no AG con-

vencional para avaliar cada objetivo separadamente.

Contudo, o mtodo proposto no

permitia obter uma diversidade adequada nas solues ao longo da fronteira de Pareto.
Goldberg (1989) props vrias abordagens para estender a aplicaes de AGs para
MOOPs. Uma das propostas utiliza um procedimento para ordenao de solues baseado
no conceito de dominncia.

Neste mtodo, o valor de aptido para uma soluo

proporcional ao nmero de solues que

i domina.

Desta forma, as solues no dominadas

so enfatizadas obtendo maior quantidade de cpias na lista de reproduo. Para manter a


diversidade das solues, Goldberg sugeriu o emprego de um mtodo de compartilhamento
(Goldberg, 1989), que permite levar em conta a densidade de solues em uma vizinhana
no espao de busca.

Assim, solues que estejam melhor espalhadas na fronteira de

Pareto tm um melhor valor de compartilhamento. Baseadas nessas idias iniciais, foram


propostos uma srie de modelos de MOEAs.
A diferena fundamental dos MOEAs em relao aos AEs tradicionais o operador
de seleo, dado que a comparao entre duas solues deve-se efeituar conforme o conceito de dominncia de Pareto. Em alguns mtodos, o valor de aptido proporcional
dominncia da soluo.

Outros mtodos utilizam apenas a dominncia de Pareto e

no calculam um valor de aptido. A aplicao dos MOEAs para MOOPs apresenta trs
grandes vantagens com relao s tcnicas tradicionais descritas na Seo 4.3 (Coello,
2001):

1. No introduzem parmetros adicionais no problema;


2. Trabalham diretamente com vrias funes usando o conceito de dominncia de
Pareto;
3. Um conjunto diversicado de solues pode ser encontrado apenas em uma execuo
do MOEA.

Os modelos de MOEA so classicados por Deb (2001) em dois tipos:

1. No elitistas: so aqueles modelos que, como o prprio nome indica, no utilizam


alguma forma de elitismo nas suas iteraes;
2. Elitistas: so os modelos que empregam alguma forma o elitismo. Alguns modelos,
como o SPEA (Zitzler e Thiele, 1998) e o PESA (Corne et al., 2000) (ver Tabela
4.1, que enumera os principais modelos de MOEAs), utilizam uma populao externa onde so armazenadas as solues no dominadas encontradas at o momento.
Outros mtodos, como o NSGA-II (Deb et al., 2000), combinam a populao atual
com a populao anterior para preservar as melhores solues de ambas. O estudo

4.4.

AES PARA PROBLEMAS DE OTIMIZAO MULTI-OBJETIVO

73

realizado por Zitzler et al. (2000) conclui que o elitismo melhora as solues encontradas por um modelo MOEA. A partir deste trabalho, os novos modelos passam a
incorporam alguma estratgia de elitismo.

Tabela 4.1: Diferentes modelos de MOEAs.

Sigla
VEGA (Vector Evaluated Genetic Algorithm)
WBGA (Weight Based Genetic Algorithm)
MOGA (Multiple Objective Genetic Algorithm)

NSGA (Non-Dominated Sorting Genetic Algorithm)


NPGA (Niched-Pareto Genetic Algorithm)
PPES (Predator-Prey Evolution Strategy)
REMOEA

(Rudolph's Elitist Multi-Objective Evoluti-

onary Algorithm)

NSGA-II

(Elitist Non-Dominated Sorting Genetic Al-

gorithm)

SPEA, SPEA2 (Strenght Pareto Evolutionary


rithm) 1 e 2
TGA (Thermodynamical Genetic Algorithm)
PAES (Pareto-Archived Evolutionary Strategy)

Algo-

Nome do modelo
(Schaer, 1985)
(Hajela e Lin, 1992)
(Fonseca e Fleming,
1993)
(Srinivas e Deb, 1994)
(Horn et al., 1994)
(Laumanns et al.,
1998)
(Rudolph, 2001)

Elistista
No
No
No

(Deb et al., 2000; Deb


e Sundar, 2006)
(Zitzler et al., 2001;
Zitzler e Thiele, 1998)
(Kita et al., 1996)
(Knowles e Corne,
1999)
(Veldhuizen, 1999)

Sim

No
No
No
Sim

Sim
Sim
Sim

MOMGA-I, MOMGA-II (Multi-Objective Messy GeSim


I e II
Micro-GA (Multi-Objective Micro-Genetic Algorithm) (Coello, 2001)
Sim
PESA-I, PESA-II (Pareto Envelope-Base Selection Al- (Corne et al., 2001, Sim
gorithm) I e II
2000)

netic Algorithm)

Na Seo 4.4.1 apresentado detalhadamente o NSGA-II, um dos principais modelos


elitistas de MOEAs encontrados na literatura (Zitzler et al., 2001).

4.4.1 Algoritmo NSGA-II


O algoritmo NSGA-II (do ingls

Non-dominated Sorting Genetic Algorithm


Pareto ranking

) (Deb et al.,

2000) baseado em uma ordenao elitista por dominncia (

cedimento consiste em classicar as solues de um conjunto

F1 , F2 , . . . Fk

conforme ao grau de dominncia de tais solues.

contm as solues no dominadas de todo o conjunto


lues no dominadas de

M F1 , F3

M.

em diversas fronteiras
Assim, a fronteira

F2 possui
M (F1 F2 ) e

A fronteira

contm as solues de

). Esse pro-

F1

as soassim

sucessivamente.
O procedimento de ordenao por dominncia proposto por Deb et al. (2000) mostrado no Algoritmo 5. Para cada soluo

ndi ,

contida em

o nmero de solues que dominam a soluo

so calculados dois valores:

i;

74

CAPTULO 4.

Ui ,

AES PARA OTIMIZAO MULTI-OBJETIVO

o conjunto de solues que so dominadas pela soluo

i.

As linhas 17 do Algoritmo 5 calculam tais valores para as solues em


as solues com

ndi = 0

esto contidas na fronteira

percorrem o conjunto de solues dominadas

ndj

de cada soluo

em

Ui

seguinte fronteira (neste caso

Ui

Alm disso,

Seguidamente, as linhas 916

para cada soluo

diminudo em 1. Se

F2 ).

F1 .

M.

ndj = 0,

de

F1 .

ento a soluo

O contador

pertence a

A iterao das linhas 916 repetido at que todas as

solues estejam classicadas em uma fronteira. A Figura 4.5 ilustra este procedimento
aplicado a solues que minimizam

f1

f2 .

Algoritmo 5: Algoritmo para Ordenao por Dominncia


Entrada:

1
2
3
4
5
6

M , um conjunto de solues
Sada: F1 , F2 , . . . Fk , as fronteiras que classicam
para cada
i M faa
ndi = 0
Ui =
para cada
j 6= i j M faa
se i  j ento Up = Up {j}
se j  i ento ndi = ndi + 1

soluo

soluo

as solues de

M.

m

se

ndi = 0

ento

F1 = F1 {i}

m
8 k= 1
9 enquanto Fk 6= faa
10
T emp =
11
para cada
i Fk faa
12
para cada
j Ui faa
13
nj = nj 1
14
se nj = 0 ento T emp = T emp {j}

soluo
soluo

m
m

15
16

k =k+1
Fk = T emp
m

O algoritmo NSGA-II trabalha com duas populaes, denotadas como

Q de tama-

Nind . Na primeira gerao, os indivduos inicias da populao P1 geram as solues


em Q1 mediante a aplicao da seleo, recombinao e mutao. Nas seguintes iteraes do algoritmo, estabelecido um processo competitivo para preencher Nind vagas na
populao Pt+1 entre 2Nind indivduos contidos em Rt = Pt Qt . Esta operao realizada usando ordenao por dominncia em Rt , encaminhando as solues no dominadas
nho

contidas nas fronteiras diretamente para a prxima gerao (elitismo).


Para garantir a diversidade na fronteira calculada o NSGA-II emprega uma estimativa
da densidade das solues que rodeiam cada indivduo da populao. Assim, calcula-se a

4.4.

AES PARA PROBLEMAS DE OTIMIZAO MULTI-OBJETIVO

75

f2
1

2
1

3
2

1
1

f1
Figura 4.5: Ordenao por dominncia (Deb, 2001).

mdia da distncia das duas solues adjacentes a cada indivduo para todos os objetivos.
Esse valor denominado distncia de multido. O Algoritmo 6 mostra os passos a seguir

disti o valor da distncia de multido do i-simo indivduo


como Mi ) e fm (Si ) o valor da m-sima funo objetivo para

para calcular tal valor, onde


do conjunto

(denotado

tal indivduo.

Algoritmo 6: Clculo da distncia de multido


Entrada:

M,

uma conjunto de

Sada:

disti ,

Nsol

solues

soluo

valores de distncia de multido das solues em

1 para
i = 1, 2, . . . Nsol faa
2 para m = 1, 2, . . . , N obj faa
3
Classicar M por fm
4
dist1 = distNsol =
5
para i = 2 . . . Nsol 1 faa

M.

disti = 0

disti = disti + fm (Mi+1 ) fm (Mi1 )


m
m

A aptido de cada soluo

1.

ranki = k ,

2.

disti ,

determinada pelos seguintes valores:

o valor de ranking

igual ao nmero da fronteira

o valor de distncia de multido de

Fk

qual pertence;

i.

O NSGA-II emprega um processo de seleo por torneio. Em tal abordagem, duas solues so comparadas para escolher qual delas vai gerar descendentes na nova populao.
Uma soluo

1.

escolhida sobre uma soluo

possui um ranking menor que

j,

se:

ou seja,

ranki < rankj ;

76

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

i possui um
disti > distj ).

2. Se ambas as solues possuem o mesmo ranking e


tncia de multido (ou seja,

ranki = rankj

maior valor de dis-

O clculo da distncia de multido permite que as solues melhor espalhadas passem


a ocupar as ltimas vagas disponveis de

Pi+1

garantindo a diversidade das solues.

A seqncia de passos seguido pelo NSGA-II descrita no Algoritmo 7. A Figura 4.6


mostra o esquema para uma iterao do NSGA-II.

Algoritmo 7: NSGA-II
Entrada: Conjunto de parmetros relevantes ao NSGA-II
Sada: Solues na populaes

Pf inal

Qf inal .

Inicializao

1
2
3

Criar uma populao de solues aleatrias


Ordenhar

para cada

P1

de

Nind

indivduos

por dominncia

Aplicar operadores genticos em


tamanho

4
5
6
7
8
9

P1

P1

para gerar uma nova populao,

Q1

de

Nind

gerao t = 2, . . . , N

Aplicar o Algoritmo 5 em

iter faa

Rt = Pt Qt

k=1
|Pt+1 + Fk | Nind faa
Aplicar o Algoritmo 6 em Fk
Pt+1 = Pt+1 Fk
k =k+1

enquanto

m

10
11
12
13

Aplicar o Algoritmo 6 em
Classicar a

Fk

Fk

pelo ranking e a distncia de multido

Copiar as primeiras

Nind |Pt+1 | solues de Fk para Pt+1


Qt+1 aplicando os operadores genticos

Gerar a nova populao

em

Pt+1

m

14
15

Pf inal = Pt
Qf inal = Qt

4.5 Abordagens multi-objetivo aplicados reconstruo logentica


Esta Seo apresenta dois trabalhos que aplicaram abordagens multi-objetivo em inferncia logentica.
Poladian e Jermiin (2006) estudam a utilizao otimizao multi-objetivo para determinar as solues da fronteira de Pareto obtidas a partir de bancos de seqncias
conitantes (de Queiroz e Poe, 2001). Os autores construram dois conjuntos de seqncias por simulao para 4 espcies de forma que as rvores resultantes da anlise de

4.5.

ABORDAGENS MULTI-OBJETIVO APLICADOS EM FILOGENIA

ordenao por
dominncia

77

Nova populao

Pt

P t+1
2

distncia de
multido
3

...

Qt

solues
rejeitadas

Rt
Figura 4.6: Esquema do modelo NSGA-II (Deb, 2001).

mxima verossimilhana em cada banco, por separado ou em conjunto, fossem diferentes.


Foi empregado um MOEA para calcular a fronteira de Pareto resultante para avaliar a
verossimilhana das topologias obtidas para os bancos simulados. As solues mostraram
diferenas topolgicas e de comprimento de ramos que deniram trs regies da fronteira
de Pareto. Os autores destacam a importncia do trabalho porque mostra como a otimizao multi-objetivo pode ajudar nos casos de bancos de dados conitantes. Alm disso,
o estudo do problema de 4 seqncias, pode ser usado em combinao com mtodos de
inferncia logentica que trabalham com quartetos de espcies (Strimmer e von Haesler,
1996).
Coelho et al. (2007) apresentaram uma aplicao do algoritmo omni-aiNet (Coelho e
Von Zuben, 2006) para o problema de logenia considerando os critrios de evoluo mnima (Edwards e Cavalli-Sforza, 1964) e mnimos quadrados (Fitch e Margoliash, 1967).
O omni-aiNet (Coelho e Von Zuben, 2006) uma abordagem de sistemas imunolgicos
articias (De Castro e Timmis, 2002) para otimizao de problemas com um ou vrios objetivos. Uma vez obtida a fronteira de Pareto, uma das rvores Pareto-timas escolhida
como resultado nal. Para esta tarefa, os autores empregaram dois tcnicas de toma de
decises conhecidas como Programao de Compromisso (do ingls

ming
Rate of Return

Compromise ProgramMarginal

) (Zeleny, 1973 apud Deb, 2001) e Taxa Marginal de Retorno (do ingls

) (Deb, 2001; Miettinen, 1999). As rvores da Fronteira de Pareto escolhi-

das por ambas as tcnicas mostraram-se melhores que a obtida pelo mtodo NJ (Saitou e
Nei, 1987). A comparao com o NJ devida ao fato deste mtodo considerar os critrios
de evoluo mnima e mnimos quadrados no algoritmo.

78

CAPTULO 4.

AES PARA OTIMIZAO MULTI-OBJETIVO

4.6 Consideraes nais


Neste Captulo foram introduzidos os conceitos bsicos otimizao multi-objetivo. Apresentou-se o modelo geral para um MOOP e as principais diferenas em relao ao problema
de otimizao de objetivo simples. Alm disso, foram descritas as tcnicas tradicionais
para resolver um MOOP, vericando as vantagens e desvantagens de cada uma.
Os AEs surgem como uma tcnica alternativa para tratar os MOOPs, apresentando
uma srie de vantagens em relao s tcnicas tradicionais. No decorrer deste captulo
foi explicada a utilizao de AEs em MOOPs.

Um dos principais modelos de MOEA,

o NSGA-II, foi tambm descrito detalhadamente. Alm disso, foi realizada uma reviso
das principais abordagens multi-objetivo para reconstruo logentica encontradas na
literatura.
Como descrito no Captulo 2, a aplicao de diversos mtodos de reconstruo resulta
em rvores logenticas com critrios de avaliao conitantes entre sim. Por outro lado,
no Captulo 3 mostrou que o emprego de AEs em logenia tem mostrado resultados
relevantes. Tais fatos motivam a proposta de uma abordagem de MOEA do problema da
inferncia logentica, a qual explorada no prximo captulo.

Captulo

5
Algoritmo evolutivo multi-objetivo
para o problema de reconstruo de
rvores logenticas

5.1 Introduo
Este Captulo apresenta o PhyloMOEA, que o modelo de MOEA para o problema de reconstruo logentica desenvolvido nesta pesquisa. O PhyloMOEA baseado no NSGAII (Deb et al., 2000), um dos modelos de MOEA mais importantes descritos na literatura.
Os critrios de otimalidade empregados pelo PhyloMOEA so a mxima parcimnia e
mxima verossimilhana.

Assim, o objetivo nal gerar um conjunto de solues que

representem um consenso entre tais critrios.


Este captulo est dividido em duas sees. A seo 5.2 descreve detalhadamente o
PhyloMOEA A Seo 5.3, apresenta-se as consideraes nais sobre este Captulo.

5.2 PhyloMOEA
O objetivo fundamental do PhyloMOEA encontrar rvores na Fronteira de Pareto considerando os critrios de mxima parcimnia e mxima verossimilhana.

A Figura 5.1

ilustra o funcionamento do PhyloMOEA destacando seus principais etapas e componentes.

79

80

CAPTULO 5.

MOEA PARA O PROBLEMA DE FILOGENIA

PhyloMOEA

rvores Pareto-timas

Conjunto
seqncias
Algoritmo
NSGA-II

otimizao
comp. ramos
verossimilhana

rvores
inicias

Fronteira de Pareto

parcimnia

Figura 5.1: Ilustrao do funcionamento do PhyloMOEA.

As Sees 5.2.15.2.5 apresentam caractersticas especcas do PhyloMOEA como representao de solues, funes de aptido, gerao de solues inicias, operadores de
recombinao, mutao e otimizao dos comprimentos de ramos.

5.2.1 Representao de solues


Na literatura foram propostas vrias formas para representar rvores logenticas como:
estruturas de dados baseadas em listas de adjacncias (Adachi e Hasegawa, 1996; Felsenstein, 2004), matriz de adjacncia (Prado, 2002) ou arranjos de nmeros inteiros (Cotta
e Moscato, 2002).

Dessas formas de representao, a estrutura baseada em grafos a

mais empregada por programas de inferncia logentica tais como PHYLIP (Felsenstein,
2000b), PAML (Yang, 1997), PHYML (Guindon e Gascuel, 2003), entre outros.
O PhyloMOEA emprega a estrutura de dados de lista de adjacncias (Cormen, 2001)
para a representao das rvores logenticas. Uma das razes para escolher tal representao que existe uma grande variedade de implementaes prontas com essa estrutura.
Duas bibliotecas de cdigo aberto na linguagem C++ foram avaliadas: a BGL (

Graph Library

Graph Template Library

) (Siek et al., 2002) a GTL (

Boost

) (Forster et al., 2004).

Ambas as bibliotecas possuem implementaes bastante completas de grafos, incluindo


mtodos ecientes para acesso a ns e ramos, assim como vrios algoritmos comuns da
teoria de grafos. A GTL mostrou-se como uma biblioteca que fornece uma forma mais
clara e simples de programar. Por essas razes, a implementao do PhyloMOEA est
baseada na biblioteca GTL. Deve-se ressaltar que o uso de grafos como estrutura de dados
implica a inferncia de rvores sem raiz que, como visto no Captulo 2, reduz o espao de
busca com relao inferncia de rvores enraizadas.
Alm das informaes da topologia da rvore, a GTL permite associar informaes
aos ns e ramos do grafo (por exemplo comprimentos de ramos) que permitem uma

5.2.

PHYLOMOEA

81

representao de todos os parmetros relevantes ao problema.

A Figura 5.2 mostra a

representao de uma rvore para o PhyloMOEA.

rvore sem raiz

Representao interna
Ns Arestas
A
F
B
F
C
G
D
G
E
H
F
A, B, H
G
C, D, H
H
F, G, E

Figura 5.2: Representao interna empregada pelo PhyloMOEA para uma rvore sem
raiz.

A estrutura de dados desenvolvida foi amadurecendo no decorrer da pesquisa possibilitando o aprimoramento da capacidade de calcular parties de cada rvore. Assim,
empregou-se o algoritmo de Day (Day, 1985) que permite obter as parties das rvores
com um custo timo em tempo de execuo e na utilizao de memria.
O PhyloMOEA emprega o formato Newick (Felsenstein, 2000a) para mostrar as rvores
encontradas no nal da execuo do algoritmo. Nesse formato, uma rvore representada
por uma cadeia de caracteres terminada em ponto e virgula.

Nessa cadeia, cada n

interno corresponde a um par de parnteses emparelhados. Tais parnteses podem estar


aninhados conforme os nveis de profundida de rvore.
so separados por vrgula.

Os descendentes do n interno

As folhas da rvore so representadas pelo nome das suas

espcies correspondentes. Os comprimentos de ramos so inseridos com dois pontos (:)


aps o nome da espcies (um n folha), ou do parnteses fechado (no caso do n interno),
seguido de o valor de tal comprimento. Por exemplo, a rvore da Figura 5.2 corresponde
a cadeia ((A,B),E,(C,D)); no formato Newick.

5.2.2 Funes de aptido


O PhyloMOEA emprega os algoritmos de Fitch e Felsenstein apresentados no Captulo 2
para calcular os valores de parcimnia e verossimilhana das solues encontradas.

funcionamento de tais algoritmos foi apresentado em rvores com raiz. As mudanas requeridas para que esses algoritmos funcionem em rvores no enraizadas so apresentadas
a seguir.

82

CAPTULO 5.

MOEA PARA O PROBLEMA DE FILOGENIA

Clculo de parcimnia
No caso de rvores no enraizadas, o algoritmo de Fitch (Fitch, 1972) foi modicado
conforme aos seguintes passos:

Primeiramente, escolhe-se uma folha

conetada a um n interno

v.

O n interno

dene uma subrvore que contm todos as folhas da rvore com exceo de

u,

serve como raiz da rvore. Em outros termos, a rvore pendurada pela folha

que

u;

A seguir, aplica-se o percurso ps-ordem (linhas 16) do Algoritmo 1 de clculo de


parcimnia (ver Captulo 2) na subrvore com raiz em

Se o estado do n

u no stio j

v;

no est contido no conjunto de estados de

ento incrementa-se o valor de parcimnia

v (uj Sv ),

P arj .

Os passos descritos anteriormente so aplicados para cada stio

e, nalmente, obtem-

se o valor de parcimnia da rvore. A Figura 5.3 mostra o esquema das modicaes aplicadas no algoritmo de Fitch. Vrios trabalhos na literatura (Gladstein, 1997; Golobo,
1996, 1999a; Ronquist, 1998) mostram como aumentar a ecincia do algoritmo de Fitch
quando se trabalha com grandes bancos de seqncias. Tais trabalhos explicam basicamente como reaproveitar clculos realizados anteriormente para encontrar o novo valor
de parcimnia de solues modicadas topologicamente, reduzindo bastante o nmero de
vezes que executa-se o algoritmo de Fitch. O foco de desenvolvimento do PhyloMOEA foi
o aumento de diversidade de solues Pareto-timas. Assim, melhorias de desempenho
no foram implementadas no modelo proposto, representando uma interessante linha de
pesquisa futura.

u j ={A}*

folha (u)
n interno (v)
A

v
v

={C,G}*
Algoritmo
de Fitch

C
C

{G}

C
G

{C,G}*
G

Figura 5.3: Algoritmo de Fitch para rvore sem raiz.

5.2.

PHYLOMOEA

83

Clculo de verossimilhana
O clculo da verossimilhana apresentado no Algoritmo 2 (ver Captulo 2) pode ser tambm aplicado em rvores sem raiz devido a propriedade de reversibilidade dos modelos
de substituio de seqncias.

Por exemplo, considerando a rvore da Figura 5.4(a),

tem-se que a verossimilhana para o stio

determinada pela seguinte expresso (ver

Equao 2.18 do Captulo 2):

Lj =

rj Lrj (rj )

(5.1)

rj
A verossimilhana condicional do n

depende das subrvores dos ns

(ver

Figura 5.4(a)). Pela Equao 2.16 temos que:

Lj =

XXX

rj Prj ,vj (trv )Prj ,sj (trs )Lvj (vj )Lsj (sj ).

(5.2)

rj vj sj
Pela propriedade de reversibilidade (ver Equao 2.8 do Captulo 2) tem-se que:

rj Prj ,vj (trv ) = vj Pvj ,rj (trv ).

(5.3)

Substituindo a Equao 5.3 na Equao 5.2, tem-se que:

Lj =

XXX

vj Pvj ,rj (trv )Prj ,sj (trs )Lvj (vj )Lsj (sj ).

(5.4)

rj vj sj

r
y

t
v

rs

=t

vs

w
z

(a) rvore com raiz

t rv =0

(b) rvore sem raiz equivalente

Figura 5.4: Clculo de verossimilhana em rvores com raiz e sem raiz.


A rvore da Figura 5.4(a) pode-se transformar em uma rvore sem raiz eliminando o
n

e criando uma novo ramo

deslocar o n

trs

seja igual a

prximo ao n

tvs .

(v, s) com comprimento igual a trv + trs . Isso equivale a


v , como mostrado na Figura 5.4(b) tal que trv seja zero e

A equao de Chapman-Kolmogorov (Felsenstein, 2004) garante que:

84

CAPTULO 5.

MOEA PARA O PROBLEMA DE FILOGENIA

Pvj ,sj (trv + trs ) = Pvj ,rj (trv )Prj ,sj (trs ),

(5.5)

r pode ser deslocada em qualquer posio do ramo (v, s) sem alterar o valor
Substituindo trv = 0 e Prj ,sj (trs ) = Pvj ,sj (tvs ) na Equao 5.4 tem-se que:

ou seja, a raiz
de

Lj .

XXX

Lj =

vj Pvj ,rj (0)Pvj ,sj (tvs )Lvj (vj )Lsj (sj ).

(5.6)

rj vj sj
O termo

Pvj ,rj (0)

igual a 1 se

rj = vj

e 0, caso contrrio. Aplicando esse resultado

na Equao 5.6 tem-se que:

XX

Lj =

vj Pvj ,sj (tvs )Lvj (vj )Lsj (sj ).

(5.7)

vj sj
Deve-se notar que as Equaes 5.7 e 5.2 so equivalentes e, conseqentemente, pode-se
aplicar o Algoritmo 2 em rvores sem raiz, escolhendo um n interno arbitrrio como raiz
da rvore.
Vrios autores reportam problemas na preciso numrica no clculo da verossimilhana quando se empregam bancos de dados que contm mais de 100 espcies (Guindon,
2003; Yang, 2000). Tal fenmeno foi conrmado nos experimentos realizados com o PhyloMOEA, os quais apresentaram grandes erros de preciso na verossimilhana.

Isso

devido ao fato de que, em grandes bancos de dados, as verossimilhanas condicionais so


muito pequenas para serem representadas em um computador comum. Para solucionar
esse problema, implementou-se um procedimento de escalonamento descrito em (Guindon,
2003; Yang, 2000).
Considerando uma subrvore com raiz
dessa subrvore no stio

Lrj (rj )

s,

a verossimilhana condicional

Prj ,vj (trv )Lvj (vj )

vj
Se os valores de

e lhos

pode ser expressada como (ver Equao 2.16 do Captulo 2):

Lrj (rj ) =

Lvj (vj )

Prj ,sj (trs )Lsj (sj ) .

(5.8)

sj

e/ou

Lsj (sj )

forem muito pequenos, pode ser difcil representar

no computador. Nesses casos, ao invs de calcular a verossimilhana condicional

original, calcula-se a verossimilhana condicional escalonada, denotada como

LEjr (rj ),

conforme seguinte expresso:

LEjr (rj ) =

vj
onde

j (v) = max{Lvj (vj )}

Prj ,vj (trv )

Lvj (vj )

j (v)

j (s) = max{Lsj (sj )}

Prj ,sj (trs )

sj

Lsj (sj )

j (s)

(5.9)

so os fatores de escalonamento das

verossimilhanas condicionais correspondentes aos ns

s,

respectivamente. Ao dividir

5.2.

PHYLOMOEA

85

pelos fatores de escalonamento, as verossimilhana condicional volta a ser representvel


no computador.
Se

a raiz da rvore, a verossimilhana escalonada no stio

pode ser calculada

como:

LEj =

X
1
rj Lrj (rj ).
j (vj )j (sj ) r

(5.10)

O termo do somatrio a equao 5.10 corresponde verossimilhana original (no


escalonada) no stio

j , denotada como Lj

(ver Equao 2.18 do Captulo 2). Substituindo

e aplicando logaritmo natural a ambos lados da Equao 5.10, temos:

ln(Lj ) = ln(LEj ) + ln(j (u)) + ln(j (w)).

(5.11)

Dessa forma possvel voltar ao valor da verossimilhana original empregando a


verossimilhana escalonada e os fatores de escalonamento sem ter os problemas de preciso numrica. O procedimento implementado no PhyloMOEA armazena os fatores de
escalonamento para todas as subrvores e todos os stios. Tais fatores so logo propagados at a raiz da rvore como mostrado na Equao 5.11 para calcular a verossimilhana
original.
Sem a aplicao de tal mtodo impossvel o emprego de bancos de seqncias maiores
nos experimentos. Assim, os valores de verossimilhana obtidos pelo PhyloMOEA foram
consistentes como os dos programas PHYML (Guindon e Gascuel, 2003) e PAML (Yang,
1997).
O clculo do valor de verossimilhana para rvores obtidas a partir de grandes bancos
de seqncias consome considerveis recursos computacionais (Felsenstein, 2004; Swofford et al., 1996). Na literatura existem vrios trabalhos que mostram como reduzir tal
custo pela reordenao dos dados (Kosakovsky e Muse, 2004), paralelizao do clculo
de verossimilhana (Stamatakis et al., 2002a,b; Stamatakis e Meier, 2004) ou aproximao numrica das probabilidades requeridas pelos modelos evolutivos (Pupko e Graur,
2002).

Alm disso, vrios trabalhos mostram como aproveitar os clculos previamente

realizados quando modicaes topolgicas so realizadas nas rvores. Programas como


PHYML (Guindon e Gascuel, 2003; Hordijk e Gascuel, 2005) ou RAX-ML (Stamatakis
et al., 2005b) so exemplos de programas que reaproveitam clculos anteriores.
O clculo da verossimilhana no PhyloMOEA no implementa tais melhorias, devendo
ser essas o foco de trabalhos futuros para aumentar a ecincia computacional do algoritmo atual.

86

CAPTULO 5.

MOEA PARA O PROBLEMA DE FILOGENIA

5.2.3 Gerao de solues iniciais


O PhyloMOEA implementa a gerao aleatria de topologias iniciais utilizando o mtodo
de adio por passos (ver Captulo 2). Nesse mtodo a posio de insero de uma nova
espcies escolhida aleatoriamente. Para os comprimentos de ramos so atribudos valores
aleatrios no intervalo

[0; 0, 05]

(Lewis, 1998).

A estratgia de gerao de topologias aleatrias tem-se mostrado til para bancos


de seqncias muito pequenos.

Para conjuntos de dados maiores as rvores geradas

encontram-se muito afastadas das solues timas.

Isso prejudica consideravelmente a

convergncia do PhyloMOEA.
Uma forma de resolver este problema foi possibilitar a insero de rvores geradas por
outros programas na populao inicial (no formato Newick).

Assim, podem ser inseri-

das rvores resultantes das anlises de mxima parcimnia, mxima verossimilhana ou


rvores geradas utilizando

bootstrap

(Felsenstein, 1985). Tal procedimento freqente-

mente empregado na literatura referente a AEs (ver Captulo 3) aplicados ao problema de


reconstruo logentica, como o GARLI (Zwickl, 2006), Ga-mt (Katoh et al., 2001), METAPIGA (Lemmon e Milinkovitch, 2002a) ou PARSIGAL (Moilanen, 1999), mostrando
resultados relevantes.

5.2.4 Operadores de recombinao e mutao


O operador de recombinao implementado no PhyloMOEA a troca de subrvores implementado no GAML (Lewis, 1998) (ver Captulo 3). Dadas duas rvores pais

2 ,

esse operador de recombinao segue os seguintes passos:


1. Escolhe uma subrvore

1 ,

denotada como

2. Remove as espcies contidas em

10

10 ;

da rvore

2 .

A rvore resultante desta operao

0
denotada como 2 ;
3. Escolhe um ramo de

20

para inserir a subrvore

10 ,

resultando em uma nova rvore.

A Figura 5.5 mostra um exemplo do operador de recombinao. Existem dois tipos


de operadores de mutao implementados no PhyloMOEA:
1. Mutao topolgica: os operadores de mutao topolgica implementados no PhyloMOEA so o NNI, SPR e TBR (ver Captulo 2);
2. Modicao dos comprimentos de ramos: neste operador, uma parcela dos ramos
so escolhidos para serem modicados. O novo comprimento produto do seu valor
anterior multiplicado por um fator calculado usando a distribuio Gama (Lewis,
1998).

5.2.

PHYLOMOEA

87

rvore pai
B

subrvore

D
G

H
D
F

inserir
remover

rvore pai
A

E
H

rvore filha

G
E
C

rvore

Figura 5.5: Operador de recombinao do PhyloMOEA.

5.2.5 Otimizao dos comprimentos dos ramos


No nal da execuo do PhyloMOEA, espera-se que os valores de comprimento de ramos
fornecidos sejam aproximaes adequadas dos valores timos. Tais comprimentos podem
ser melhorados iterativamente aplicando tcnicas de otimizao convencionais, como nos
programas GA-mt (Lewis, 1998) e no METAPIGA (Lemmon e Milinkovitch, 2002a).
No PhyloMOEA, a otimizao dos comprimentos de ramos realizada usando o mtodo de Newton para uma varivel, tal como descrito no trabalho de Yang (2000).

algoritmo implementado nesse trabalho, faz a otimizao dos comprimentos ramo por
ramo. Da Equao 5.7 pode ser vericado que o valor de
primento de ramo

tvs ,

Lj

depende do apenas do com-

sendo que os demais ramos encontram-se xados. Dessa forma,

possvel calcular as primeiras e segundas derivadas de

Lj

com relao a

tvs ,

conforme a

seguinte equao:

XX
Lj
=
vj P0vj ,sj (tvs )Lvj (vj )Lsj (sj ),
tvs v s
j
j
2
X
X

L
j
L00j = 2 =
vj P00vj ,sj (tvs )Lvj (vj )Lsj (sj ),
tvs
v s
L0j =

P0vj ,sj (tvs ) e P00vj ,sj (tvs ) dependem do modelo de evoluo de DNA escolhido.
todas as j posies das seqncias, as primeiras e segundas derivadas de ln L so:
onde

(5.12)

Para

88

CAPTULO 5.

MOEA PARA O PROBLEMA DE FILOGENIA

ln L X L0j
=
tvs
Lj
j
2
X
Lj L00j (L0j )2
ln L
ln L00 =
.
=
2
t2vs
L
j
j
ln L0 =

(5.13)

Empregando a Equao 5.13 possvel melhorar iterativamente o valor de tvs utilizando


o mtodo de Newton. Assim, o novo valor do

tvs

(denotado como

t0vs = tvs +
onde

L0 /L00

a direo Newton e

t0vs )

dado por:

L0
L00

(5.14)

o tamanho do passo.

u
r

rs

=t

vs

t rv =0
(a) Otimizao de tvs

r 'y

=0
r'
t
y
v

r 'v

=t

yv

r
s

z
w
(b) Otimizao de tyv

Figura 5.6: Otimizao de dois comprimentos de ramo.


Uma vez otimizado

tvw ,

procede-se com os demais ramos da rvore. A propriedade de

reversibilidade do modelo de evoluo de seqncias de DNA e a equao de ChapmanKolmogorov permitem que o clculo da verossimilhana seja independente da n escolhido

Lj da Equao 5.7
corresponde a inserir um n raiz r no ramo (v, s) tal que trv = 0 e trs = tvs (ver Figura 5.6(a)). Para otimizar um novo ramo, por exemplo, o ramo (v, y), deve-se criar uma
0
nova raiz r , tal que tr 0 y = 0 e tr 0 v = tuv . O valor de Lj para a nova topologia mostrada

como raiz (Felsenstein, 2004). Como visto na Seo 5.2.2, o valor de

na Figura 5.6(b) dada pela seguinte expresso:

5.2.

PHYLOMOEA

89

Lj =

XX

yj Pyj ,vj (tyv )Lyj (yj )Lvj (vj ).

(5.15)

yj vj
Deve-se observar que enquanto na Figura 5.6(a), o n
descendentes
e

z.

z,

na Figura 5.6(b), o n

a raiz da subrvore com

a raiz da subrvore com descendentes

v
Assim, o signicado da verossimilhana condicional de tal n (Lj (vj )) tem um valor

diferente nas Equaes 5.7 e 5.15. Conseqentemente, cada vez que se otimiza um novo
ramo, necessrio tambm modicar as verossimilhanas condicionais no caminho entre
a nova raiz

r0

e a antiga raiz

r.

Na prtica, os comprimentos de ramos no so independentes entre sim, ou seja, o


resultado de otimizar um determinado ramo pode levar outros ramos otimizados anteriormente a no terem valores timos.

Assim, vrios ciclos de otimizao envolvendo

todos os ramos da rvore podem ser necessrios (Yang, 2006). O Algoritmo 8 mostra o
procedimento de otimizao de ramos implementado no PhyloMOEA.

Algoritmo 8:

Otimizao de comprimento de ramos implementado no Phylo-

MOEA.

Entrada:

, uma rvore
B , o conjunto de comprimentos
tol, valor de tolerncia
Sada: ln L

de ramo de

repita

1
2
3
4
5
6
7
8

para cada

ramo (v, s) em

Escolher uma raiz

para um ramo

(v, s)

faa

ln L0 e ln L00 conforme a
0
Calcular tvs conforme a Equao
 =  + |t0vs tvs |
0
Escolher a nova raiz r
Calcular

Equao 5.13
5.14

Atualizar as verossimilhanas condicionais dos ns no caminho entre


0

r0

r=r
m
at

 < tol
ln L.

Retornar

Vrias outras tcnicas de otimizao clssica tm sido empregadas na otimizao dos


ramos como, por exemplo o, mtodo de Newton para mltiplas variveis (Weir, 1996),
o mtodo de otimizao sem o emprego de derivadas (Brent, 1973) e de aproximaes
heursticas (Hordijk e Gascuel, 2005). Porm, encontrar os valores timos para os comprimentos de ramos tem-se mostrado como um fator limitante na anlise de mxima
verossimilhana dado que um processo que consume consideravelmente os recursos computacionais (Bryant et al., 2005).

90

CAPTULO 5.

MOEA PARA O PROBLEMA DE FILOGENIA

5.3 Consideraes nais


Neste captulo foi apresentado o modelo de MOEA para o problema de reconstruo
de rvores logenticas. Os critrios de otimalidade empregados no PhyloMOEA so a
mxima parcimnia e a mxima verossimilhana. Os detalhes da adaptao do NSGAII (Deb et al., 2000) para ser aplicado a logenia foram tambm apresentados. O resultado
da execuo do PhyloMOEA um conjunto de rvores Pareto-timas correspondentes a
um compromisso entre os critrios de parcimnia e verossimilhana.
O desempenho do modelo proposto com diversos bancos de seqncias e a anlise de
resultados dos experimentos discutido no Captulo 6.

Captulo

6
Experimentos e resultados

6.1 Introduo
Neste captulo so apresentados os resultados da aplicao do PhyloMOEA para 4 bancos
de seqncias de DNA. O objetivo dos experimentos mostrar o desempenho de vrias
execues do PhyloMOEA para encontrar um conjunto de rvores que representem um
compromisso entre os critrios de mxima parcimnia e mxima verossimilhana.
As demais Sees deste captulo esto organizadas como segue. A Seo 6.2 apresenta
os conjuntos de teste empregados nos experimentos.

A Seo 6.3 detalha as condies

iniciais dos experimentos, enfatizando a gerao de solues iniciais e os parmetros do


PhyloMOEA empregados.

A Seo 6.4 mostra os resultados das execues do Phylo-

MOEA em cada banco de testes, destacando as melhores solues encontradas, a avaliao


estatstica das topologias alternativas e a comparao desses resultados com os obtidos
pelo programa Mr.Bayes (Ronquist et al., 2005). A Seo 6.5 mostra como a incorporao
da taxa de heterogeneidade de stios afeta os resultados das execues do PhyloMOEA.
Finalmente, a Seo 6.6 sintetiza os resultados mais relevantes deste Captulo.

6.2 Conjuntos de seqncias


O PhyloMOEA foi testado com 4 bancos de seqncias de DNA, os quais foram empregados como bancos de teste de programas de vrios inferncia logentica tais como:

91

92

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

PHYML (Guindon e Gascuel, 2003), GAML (Lewis, 1998), RAxML (Stamatakis et al.,
2005b), IQPNNI (Vinh e von Haeseler, 2004), e TNT (Golobo et al., 2004).

1. O banco

rbcL_55

contendo 55 seqncias (de 1.314 nucleotdeos cada uma) do gen

rbcL de cloroplasto de plantas (Lemmon e Milinkovitch, 2002a; Lewis, 1998);


2. O banco

mtDN A_186

contendo 186 sequncias de DNA mitocondrial humano (de

The Human Mitochondrial

16.608 nucleotdeos cada uma) obtido do banco mtDB (

genome Database
3. O banco

(Ingman e Gyllensten, 2006));

RDP II _218

contendo 218 seqncias de RNA procaritico (de 4.182 nu-

cleotdeos) encontrado no projeto

RDP II

The Ribosomal Database Project II

(Cole

et al., 2005; Guindon e Gascuel, 2003; Stamatakis et al., 2005b; Vinh e von Haeseler,
2004));
4. O banco

ZILLA_500 contendo 500 seqncias (de 1.428 nucleotdeos cada uma) do

gen rbcL de plantas (Chase et al., 1993; Golobo e Farris, 2001; Guindon e Gascuel,
2003; Stamatakis et al., 2005b; Vinh e von Haeseler, 2004).

Os bancos so apresentados em ordem crescente de nmero de espcies considerada,


aumentando tambm a complexidade de busca topolgica.

6.3 Condies iniciais


As solues da populao inicial do PhyloMOEA foram obtidas utilizando anlises de
parcimnia, verossimilhana e

bootstrap

(Felsenstein, 1985) (ver Captulo 2). Como men-

cionado no Captulo 5, o PhyloMOEA pode gerar solues inciais aleatrias, porm usualmente tais solues encontram-se muito longe da fronteira de Pareto. Isso retarda notavelmente a convergncia do algoritmo sobretudo nos bancos de seqncias maiores. A anlise
de parcimnia foi efetuado com o programa NONA (Golobo, 1999b); enquanto a anlise
de mxima verossimilhana foi efetuada empregando o programa RAxML-V (Stamatakis
e Meier, 2004).
A incluso de solues geradas por meio da anlise de

bootstrap
bootstrap

(Felsenstein, 1985) na

populao inicial possibilita que o algoritmo encontre facilmente solues intermedirias


entre os extremos da fronteira de Pareto. Para a anlise de

(Felsenstein, 1985)

foi empregado o programa PHYML (Guindon e Gascuel, 2003). Assim, as solues iniciais
correspondentes a populao inicial do PhyloMOEA so:

uma rvore gerada pelo NONA (mxima parcimnia);

uma rvore gerada pelo RAxML-V (mxima verossimilhana);

6.3.

CONDIES INICIAIS

93

As demais rvores geradas por

bootstrap

empregando o programa PHYML.

A Tabela 6.1 mostra os valores de parcimnia e verossimilhana para as solues


calculadas pelo NONA e RAxML-V para os 4 bancos de teste. Tais valores representam os
pontos extremos (mxima parcimnia e mxima verossimilhana) da Fronteira de Pareto
a ser pesquisada pelo PhyloMOEA.

Tabela 6.1: Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo


NONA e RAxML-V.

Banco

NONA
RAxML-V
Parcimnia Verossimilhana Parcimnia Verossimilhana
rbcL_55
4.874
-24.627,848
4.894
-24.583,331
mtDN A_186
2.438
-41.049,768
2.450
-40.894,550
RDP II _218
41.534
-170.831,121
42.631
-156.595,873
ZILLA_500
16.219
-87.361,484
16.276
-86.993,826

A Tabela 6.2 mostra os parmetros do PhyloMOEA empregados nos experimentos.


Pode-se observar que o banco

ZILLA_500 requer um maior nmero de iteraes e tama-

nho de populao devido a este banco conter um maior nmero de espcies, o que aumenta
signicativamente o espao de busca.

Para o clculo da verossimilhana, emprega-se o

modelo de substituio de seqncias HKY85 (Hasegawa et al., 1985) (ver Captulo 2).
Tal modelo extensivamente empregado na literatura consultada (Guindon e Gascuel,
2003; Lemmon e Milinkovitch, 2002a; Lewis, 1998; Stamatakis e Meier, 2004).
Como visto no Captulo 5, o PhyloMOEA possui os operadores de mutao topolgica
NNI, SPR e TBR. Os resultados de experimentos preliminares (no mostrados nesta
Captulo), no indicaram uma diferena signicativa entre os trs operadores.

Assim,

optou-se por operador NNI por ser a forma mais simples de modicao topolgica. Os
parmetros de taxa de recombinao e mutao apresentados na Tabela 6.2 mostraram
um desempenho adequado nos experimentos.

Tabela 6.2: Parmetros do PhyloMOEA para os experimentos.

Parmetro
Geraes

Valor
500 (rbcL_55, mtDN A_186, e RDP II _218)
2.000 (ZILLA_500)
Tamanho da Populao 50 (rbcL_55, mtDN A_186, e RDP II _218)
e 100 (ZILLA_500)
Taxa de Cruzamento
0,8
Taxa de Mutao
0,05
Operador de Mutao
NNI
Modelo Evolutivo
HKY85

94

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

6.4 Resultados das execues do PhyloMOEA


Devido natureza estocstica dos AEs (De Jong, 2006), o PhyloMOEA foi executado
20 vezes por cada banco de teste.
o comportamento do algoritmo.
utilizado um

cluster

Tais execues permitem observar a estabilidade e

Para aumentar a quantidade de testes realizados foi

de 5 ns, cada n com um processador de dois ncleos

com 2Gb de RAM, rodando o sistema operacional

Rocks Linux

Atlhon

64

A Tabela 6.3 mostra os melhores valores de parcimnia e verossimilhana obtidos


nas execues do PhyloMOEA. Alm disso, mostrada a mdia e o desvio padro em
cada caso. Os nmeros indicados em negrito destacam os casos em que o PhyloMOEA
conseguiu melhorar as rvores de mxima parcimnia e mxima verossimilhana.
caso do critrio de parcimnia, apenas para o banco

mtDN A_186

No

obteve-se resultados

melhores em relao aos valores iniciais. No critrio de verossimilhana, o PhyloMOEA


melhorou esses valores para todos os bancos. No caso do banco

500_ZILLA

a melhora

foi mais signicativa.

Tabela 6.3: Resumo dos resultados das execues do PhyloMOEA.

Pontuao de
Pontuao de
Parcimnia
Verossimilhana
Banco
Melhor
Mdia
Melhor
Mdia
rbcL_55
4.874 4.874,00 0,00 -24.583,330 -24.583,330 0,00
mtDN A_186
2.436
2.437,10 0,64
-40.894,343
-40.894,528 0,06
218_RDP II
41.534 41.534,00 0,00 -156.595,850 -156.595,850 0,00
500_ZILLA
16.219 16.219,00 0,00 -86.991,649 -86.993,561 0,66
O PhyloMOEA encontra dois conjuntos de solues:

As Solues Pareto-timas, ou seja, solues que no so dominadas por nenhuma


soluo na populao nal;

As Solues Finais, as quais mantm todas as solues no dominadas alm daquelas que possuem valores iguais para o critrio de parcimnia. Tais solues so
importantes uma vez que possvel que duas topologias possuam o mesmo valor
de parcimnia e valores de verossimilhana diferentes. Nesse caso, se for aplicado o
critrio de dominncia de Pareto, seria eliminada a soluo com menor verossimilhana. Porm, ambas as solues so relevantes do ponto de vista do critrio de
parcimnia e, portanto, so guardadas pelo PhyloMOEA.

A Tabela 6.4 mostra os valores mximo, mdia e desvio padro do nmero de Solues Pareto-timas e Finais encontradas pelo PhyloMOEA. Pode-se observar um comportamento estvel em todas as execues do algoritmo dado que os valores de desvio so
relativamente pequenos.

6.4.

RESULTADOS DAS EXECUES DO PHYLOMOEA

95

Tabela 6.4: Resumo do nmero de solues encontradas nas execues do PhyloMOEA.

Solues Pareto-timas
Solues Finais
Banco
Mximo Mdia Mximo
Mdia
rbcL_55
10
7,05 1,39
54 48,20 3,00
mtDN A_186
12
9,05 1,23
55 48,95 2,61
218_RDP II
35 28,75 2,97
85 77,40 4,15
500_ZILLA
24 18.50 2.52
121 102.40 7.99

As Figuras 6.1, 6.2, 6.3 e 6.4 mostram a fronteira de Pareto obtida de uma execuo
do PhyloMOEA para os bancos

rbcL_55, mtDN A_186, RDP II _218

ZILLA_500,

respectivamente. O eixo horizontal representa a pontuao de parcimnia e o eixo vertical representa a pontuao de verossimilhana. Devido ao fato de que as pontuaes de
parcimnia so nmeros inteiros, a Fronteira de Pareto formada por pontos descontnuos. Tais pontos foram unidos por linhas para facilitar a visualizao da fronteira. Se
o intervalo de valores correspondentes a parcimnia for pequeno, so esperadas poucas
solues intermedirias entre os pontos extremos da fronteira. Tal fenmeno observado
nas Figuras 6.1 e

6.2.

Isso tambm indicado no nmero de solues na fronteira de

Pareto na Tabela 6.4. Por outro lado, se o intervalo for maior, como acontece para bancos maiores (RDP II _218 e
observado nas Figuras
24570

ZILLA_500),

existem vrias solues intermedirias, como

6.3 e 6.4, assim como na Tabela 6.4.


40850

Solues Paretotimas
Solues Finais

40900

24590

Verossimilhana

Verossimilhana

24580

Solues Paretotimas
Solues Finais

24600

24610

40950

41000

41050

24620

24630

41100
4874

4876

4878

4880
4882
Parcimnia

Figura 6.1: Solues


banco

4884

4886

Pareto-timas

rbcL_55.

4888

do

2436

2438

2440

2442 2444
Parcimnia

Figura 6.2: Solues


banco

2446

2448

2450

Pareto-timas

do

mtDN A_186.

6.4.1 Testes de rvores alternativas e clados


O teste SH (Shimodaira e Hasegawa, 1999) (ver Captulo 2) foi aplicado com os critrios de
parcimnia e verossimilhana separadamente para o conjunto de solues correspondentes
a execuo do PhyloMOEA com melhor resultado para cada banco.

As Tabelas 6.5 e

6.6 mostram os resultados do teste SH para as Solues Pareto-timas e as Solues


Finais, respectivamente. Os valores de tais tabelas referem-se ao nmero de solues no

96

CAPTULO 6.

86900

Solues Paretotimas
Solues Finais

156000

EXPERIMENTOS E RESULTADOS

Solues Paretotimas
Solues Finais

87000
87100
Verossimilhana

Verossimilhana

158000

160000

162000

87200
87300
87400

164000

87500

166000
41400 41600 41800 42000 42200 42400 42600 42800 43000 43200
Parcimnia

Figura 6.3: Solues


banco

Pareto-timas

do

87600
16220 16230 16240 16250 16260 16270 16280 16290
Parcimnia

Figura 6.4: Solues

RDP II _218.

banco

Pareto-timas

do

ZILLA_500.

rejeitadas e solues rejeitadas pelo teste SH aplicado com os critrios de parcimnia e


verossimilhana.
Na Tabela 6.5 pode-se observar que no existem solues Pareto timas rejeitadas
para o banco

rbcL_55

nos critrios de parcimnia e verossimilhana. Isso indica que as

pontuaes das solues intermedirias esto prximas aos dos pontos extremos (melhores
solues encontradas para cada critrio) da fronteira e, portanto, o teste SH no rejeita
tais solues. No caso dos bancos

RDP II _218

ZILLA_500

existe um maior nmero

de solues rejeitadas uma vez que as pontuaes das solues intermedirias encontramse afastadas dos melhores pontuaes para cada objetivo.

Mesmo assim, em todos os

casos existem solues intermedirias que no so rejeitadas pelo teste SH para ambos os
critrios.
Na Tabela 6.6 observa-se um alto nmero de Solues Finais rejeitadas nos bancos

rbcL_55, RDP II _218

ZILLA_500.

No caso do banco

mtDN A_186,

existe um alto

nmero de Solues Finais no rejeitadas. Uma observao importante que, o nmero


de Solues Finais no rejeitadas em todos os bancos de dados maior que os mesmos
valores para as Solues Pareto-timas mostrados na Tabela 6.6. Esse resultado mostra
que, de certa forma, o critrio empregado para manter as solues relevantes para o
critrio de parcimnia tornou-se til para encontrar solues relevantes para o critrio de
verossimilhana. Comparando os valores de ambas as Tabelas 6.5 e 6.6, verica-se que
o nmero de Solues nais no rejeitadas mais que o dobro, na maioria dos casos, do
nmero de solues Pareto-timas.
importante ressaltar que o teste SH tem sido empregado em diferentes critrios de
otimalidade separadamente.

Ou seja, no um teste desenvolvido com a nalidade de

analisar solues contendo mltiplos critrios.

Porm, os resultados do teste SH mos-

traram que existem solues intermedirias que so consistentes tanto com a soluo de
mxima parcimnia quanto com a soluo de mxima verossimilhana. Portanto, o Phy-

6.4.

RESULTADOS DAS EXECUES DO PHYLOMOEA

97

loMOEA foi capaz de encontrar rvores alternativas que representam um compromisso


entre as melhores rvore para cada critrio considerado separadamente.

Tabela 6.5: Resultados do teste SH para as Solues Pareto-timas.

Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
10
0
10
0
mtDN A_186
8
0
4
4
RDP II _218
10
25
6
29
ZILLA_500
12
9
14
7
Total
40
34
34
40

Tabela 6.6: Resultados do teste SH para as Solues Finais.

Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
16
37
17
36
mtDN A_186
37
8
22
23
RDP II _218
21
57
11
67
ZILLA_500
27
79
29
77
Total
101
181
79
203
O conjunto de rvores obtidas pelo PhyloMOEA nas Solues Pareto-timas e nas
Solues Finais permitem calcular tambm o grau de suporte para cada ramo.

Esses

resultados podem ser comparados com os graus de suporte de ramos calculados utilizando
a tcnica de

bootstrap

(Felsenstein, 1985) ou com probabilidades posteriores dos ramos

calculados por inferncia Bayesiana (Lemmon e Milinkovitch, 2002a).


O grau de suporte do PhyloMOEA para cada clado a freqncia de tais clados nas
rvores das Solues Pareto-timas e Solues Finais. Para tal procedimento, foram empregadas as solues da melhor execuo do PhyloMOEA em cada banco de seqncias.
Os resultados foram comparados com as probabilidades posteriores calculadas pelo programa Mr.Bayes (Huelsenbeck e Ronquist, 2003; Huelsenbeck et al., 2001). O Mr.Bayes foi
executado com os 4 bancos de dados empregando os parmetros padres do programa, com
exceo do modelo HKY85 (Hasegawa et al., 1985) e o nmero de iteraes de 1.000.000

rbcL_55 e mtDN A_186, 1.500.000 para o banco RDP II _218 e 2.000.000


ZILLA_500. A sada do Mr.Bayes possui arquivos referentes ao estado da

para os bancos
para o banco

execuo do algoritmo, rvore de consenso, probabilidade posterior das rvores iteradas e


parmetros do modelo evolutivo empregado (Ronquist et al., 2005).
O conjunto de ramos comuns para as solues do PhyloMOEA e as solues do
Mr.Bayes foi classicado em vrias classes para facilitar a anlise:

98

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

Tipo I: o clado pertence apenas as rvores das solues intermedirias, no estando


presente nas rvores de mxima parcimnia ou mxima verossimilhana;

Tipo II: o clado pertence apenas a rvore de mxima parcimnia;

Tipo III: o clado pertence somente a rvore de mxima parcimnia e as rvores das
solues intermedirias;

Tipo IV: o clado pertence apenas a rvore de mxima verossimilhana;

Tipo V: o clado pertence somente a rvore de mxima verossimilhana e as rvores


das solues intermedirias;

Tipo VI: o clado pertence apenas a rvore de mxima parcimnia e a rvore de


mxima verossimilhana;

Tipo VII. o clado encontra-se nas rvores de mxima parcimnia, verossimilhana


e solues intermedirias.

As Tabelas 6.76.14 mostram os resultados da comparao do PhyloMOEA com


Mr.Bayes para as Solues Pareto-timas e as Solues Finais dos bancos

mtDN A_186, RDP II _218

ZILLA_500,

respectivamente.

rbcL_55,

Os nmeros em negrito

indicam os maiores graus de suporte do PhyloMOEA e do Mr.Bayes.

O signicado de

cada coluna nessas tabelas explicado a seguir:

Tipo: o tipo de clado referido;

Nm.: o nmero de clados encontrados para cada tipo;

PMOEA: a mdia do grau de suporte para cada tipo de clado das rvores calculadas
pelo PhyloMOEA;

PBayes: o grau de suporte para cada tipo de clado obtida pelo Mr.Bayes;

Dif.: o valor absoluto da diferena entre as colunas PMOEA e PBayes;

DPars:

para cada clado de um determinado tipo, calcula-se a diferena entre o

valor de parcimnia da rvore a qual o clado pertence e a pontuao de mxima


parcimnia encontrado. A mdia de tais valores depois normalizada no intervalo

[0, 1].

Dpars o valor normalizado;

DVeross: obtido de forma similar a DPars, utilizando os valores de verossimilhana


no lugar da parcimnia;

6.4.

RESULTADOS DAS EXECUES DO PHYLOMOEA

99

DTPars: para cada clado de um determinado tipo, calcula-se a distncia topolgica


de Robinson-Foulds (Robinson e Foulds, 1979) entre a rvore de mxima parcimnia
e a rvore a qual o clado pertence. A mdia de tais valores correspondente a DTPars;

DTVeross: o clculo similar ao DTPars trocando os valores de parcimnia pelos


de verossimilhana.

Os resultados mostram que os clados comuns dar rvores encontradas pelo PhyloMOEA e o Mr.Bayes pertencem aos tipos I, III, V e VII. Deve-se observar tambm que
desses clados, apenas os de tipo V e VII mostram uma mdia de grau de suporte (colunas
PMOEA e PBayes) alta tanto no PhyloMOEA como no Mr.Bayes.

Ou seja, os clados

comuns melhor suportados correspondem as rvores intermedirias e as rvores de mxima parcimnia e/ou mxima verossimilhana. Os valores de distncia nas pontuaes
(colunas DPars e DVeross) mostram, na maioria dos casos, uma maior proximidade das
rvores que contm tais tipos de clados com a rvore de mxima verossimilhana.

Os

valores de distncia topolgica (colunas DTPars e DTVeross) mostram tambm uma menor distncia entre as rvores contendo os clados de tipo V e VII e a rvore de mxima
verossimilhana.
Os clados de tipo I e III apresentam o menor valor nas colunas PMOEA e PBayes.
A diferena entre os valores de ambas as colunas so tambm as maiores. Isso signica
que, os clados correspondentes apenas s solues intermedirias e/ou os clados correspondentes a rvore de mxima parcimnia so menos suportados pelo PhyloMOEA e pelo
Mr.Bayes. Uma exceo acontece para o banco

RDP II _218

(ver Tabelas 6.11 e 6.12),

onde a probabilidade posterior maior que 50% para os clados de tipo I e III. Os clados
de tipo II aparecem apenas no banco

rbcL_55 (mostrado na Tabela 6.7),

porm este tipo

de clado pouco suportado.


Os resultados das comparaes realizadas entre os clados comuns do PhyloMOEA e
o Mr.Bayes claramente favorecem aqueles clados que esto prximos rvore de mxima
verossimilhana. Tal resultado o esperado, pois a inferncia Bayesiana emprega o clculo
de verossimilhana e, quando as informaes a priori no inuenciam signicativamente,
os resultados concordam com os da mxima verossimilhana (Felsenstein, 2004).
Na ltima linha das Tabelas 6.76.14, encontra-se a somatria do nmero de clados
de cada tipo e as mdias correspondentes as demais colunas dessas tabelas. Em todos os
casos, os clados de tipo V e VII apresentaram uma maior freqncia que os demais de tipos.
A diferena das mdias gerais do grau de suporte do PhyloMOEA e da probabilidade do
Mr.Bayes pequena na maioria dos casos. Alm disso, as mdias gerais das distncias de
pontuaes e topolgicas so tambm muito prximas.
As Figuras 6.5, 6.6, 6.7 e 6.8 mostram a relao do grau de suporte do PhyloMOEA
(eixo vertical) e a probabilidade posterior do Mr.Bayes (eixo horizontal) dos clados do tipo

100

CAPTULO 6.

V e VII para os bancos

EXPERIMENTOS E RESULTADOS

rbcL_55, mtDN A_186, RDP II _218 e ZILLA_500, respectiva-

mente. A maior correspondncia entre ambas as quantidades observada para os clados


do tipo VII, onde a maioria dos pontos esto concentrados e prximos da coordenada [1,1]
(maior grau de suporte para ambos os mtodos) da reta (funo identidade ilustrada por
uma linha).

Tabela 6.7: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

rbcL_55.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
2
0,1500 0,2590 0,1090 0,3750
0,1869
0,1779
0,0913
II
5
0,1000 0,1558 0,0558 0,0000
1,0000
0,0000
0,2500
III
4
0,4500 0,4554 0,0054 0,2321
0,4613
0,1174
0,1408
V
13
0,7231 0,7327 0,0096 0,6603
0,0708
0,2160
0,0392
VII
39
1,0000
0,9651
0,0349 0,5300
0,1878
0,1865
0,0692
Total.
63
0,4846 0,5136 0,0429 0,3595
0,3814
0,1396
0,1181

Tabela 6.8: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

rbcL_55.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
3
0,0755 0,4268 0,3513 0,4295
0,3207
0,2935
0,1693
III
9
0,2558 0,2889 0,0332 0,4005
0,3459
0,1849
0,3245
V
13
0,5544 0,7327 0,1783 0,3320
0,2440
0,2873
0,1387
VII
39 0,8824 0,9651 0,0827 0,3654
0,2808
0,2669
0,1865
Total
64
0,4420 0,6034 0,1614 0,3818
0,2979
0,2582
0,2047

Tabela 6.9: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

mtDN A_186.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
8
0,1406 0,1900 0,0494 0,2411
0,8080
0,1192
0,1916
III
14
0,3304 0,1886 0,1418 0,1709
0,8427
0,0751
0,1985
V
34
0,6103 0,4472 0,1631 0,7339
0,1876
0,2039
0,0482
VII
139 0,9964 0,8994 0,0970 0,5281
0,4162
0,1614
0,1000
Total
195
0,5194 0,4313 0,1128 0,4185
0,5636
0,1399
0,1346

Tabela 6.10: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

mtDN A_186.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
14
0,0492 0,1802 0,1310 0,3828
0,3554
0,1781
0,1791
III
14
0,4381 0,1886 0,2495 0,3600
0,4252
0,0817
0,2497
V
34
0,4471 0,4472 0,0002 0,3281
0,1916
0,2344
0,0890
VII
139 0,9573 0,8994 0,0579 0,3403
0,3058
0,1627
0,1673
Total
201
0,4729 0,4289 0,1096 0,3528
0,3195
0,1642
0,1713

6.5.

INCORPORAO DA VARIAO DE TAXAS ENTRE STIOS

101

Tabela 6.11: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

RDP II _218.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
6
0,1619 0,6169 0,4550 0,6329
0,3825
0,3840
0,2858
III
3
0,3905 0,5250 0,1345 0,1862
0,8031
0,1194
0,4933
V
61
0,5251 0,7265 0,2014 0,7378
0,2547
0,4429
0,2000
VII
78
0,9897
0,8590
0,1307 0,4941
0,4952
0,3039
0,3332
Total
148
0,5168 0,6818 0,2304 0,5127
0,4839
0,3126
0,3281

Tabela 6.12: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

RDP II _218.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
8
0,1122 0,7111 0,5989 0,4732
0,5009
0,3491
0,3780
III
3
0,3974 0,5250 0,1276 0,2035
0,7734
0,1472
0,5059
V
61
0,4548 0,7265 0,2717 0,5888
0,2810
0,4407
0,2304
VII
78
0,9686
0,8590
0,1096 0,3992
0,5292
0,2959
0,3750
Total
150
0,4833 0,7054 0,2769 0,4162
0,5211
0,3082
0,3723

Tabela 6.13: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Pareto-timas do banco

ZILLA_500.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
4
0,0952 0,2358 0,1406 0,8274
0,2064
0,2297
0,0495
III
65
0,3575 0,3302 0,0274 0,3008
0,7482
0,0865
0,1860
V
99
0,6445 0,5472 0,0974 0,7605
0,2849
0,2095
0,0698
VII
355 0,9934 0,8287 0,1648 0,6227
0,4264
0,1745
0,1046
Total
523
0,5227 0,4854 0,1075 0,6278
0,4165
0,1750
0,1025

Tabela 6.14: Comparao dos resultados do PhyloMOEA e Mr.Bayes para as Solues


Finais do banco

ZILLA_500.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
19
0,0323 0,2489 0,2166 0,5439
0,5033
0,2228
0,1184
III
65
0,3218 0,3302 0,0084 0,3602
0,6075
0,1005
0,2177
V
99
0,6403 0,5472 0,0931 0,4898
0,3836
0,2424
0,0879
VII
355 0,9750 0,8287 0,1463 0,4518
0,4473
0,2037
0,1252
Total
538
0,4923 0,4887 0,1161 0,4614
0,4854
0,1923
0,1373

6.5 Incorporao da variao de taxas entre stios


Os clculos de verossimilhana nos experimentos da Seo 6.4 no consideram a heterogeneidade da taxa de substituio (ASRV) entre os stios (ver Captulo 2). Vrios autores

102

CAPTULO 6.

x
Clados Tipo V
Clados Tipo VII

x
Clados Tipo V
Clados Tipo VII

1.2

Suporte PhyloMOEA

Suporte PhyloMOEA

1.2

EXPERIMENTOS E RESULTADOS

0.8
0.6
0.4
0.2

1
0.8
0.6
0.4
0.2

0
0

0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes

0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes

Figura 6.5: Grau de suporte do Phylo- Figura 6.6: Grau de suporte do PhyloMOEA

Probabilidade

MOEA

vs.

Probabilidade

Posterior do Mr.Bayes para

as Solues Pareto-timas do

as Solues Pareto-timas do

banco

rbcL_55.

banco

x
Clados Tipo V
Clados Tipo VII

1.2

mtDN A_186.
x
Clados Tipo V
Clados Tipo VII

1.2

Suporte PhyloMOEA

Suporte PhyloMOEA

vs.

Posterior do Mr.Bayes para

0.8
0.6
0.4
0.2

1
0.8
0.6
0.4
0.2

0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes

Figura 6.7: Grau de suporte do PhyloMOEA

vs.

Probabilidade

0.2
0.4
0.6
0.8
Probabilidade Posterior Mr.Bayes

Figura 6.8: Grau de suporte do PhyloMOEA

vs.

Probabilidade

Posterior do Mr.Bayes para

Posterior do Mr.Bayes para

as Solues Pareto-timas do

as Solues Pareto-timas do

banco

RDP II _218.

banco

ZILLA_500.

assinalam que nos bancos de seqncias reais, os stios evoluem com taxas diferentes (Felsenstein, 2004; Yang, 2006). Quando esse fator empregado, os resultados da anlise de
verossimilhana podem ser sensivelmente melhorados (Yang, 2006).
Assim, no decorrer das pesquisas, incorporou-se o ASRV empregando a taxa de heterogeneidade Gama (ver Captulo 2) no modelo HKY85, resultando no modelo HYK85+.
A anlise de mxima verossimilhana foi efetuada para cada banco de teste empregando o
programa RAxML-V (Stamatakis e Meier, 2004) considerando o ASRV. Contudo, esse programa emprega uma aproximao do modelo HKY85+ denominado HKY85CAT (Stamatakis, 2006a).

As solues do RAxML-V foram submetidas a uma otimizao dos

comprimentos de ramos e parmetros do modelo HKY85+ utilizando o PHYML (Guin-

6.5.

INCORPORAO DA VARIAO DE TAXAS ENTRE STIOS

103

don e Gascuel, 2003). Portanto, a anlise completa de verossimilhana realizada pela


combinao de RAxML-V+PHYML. Da mesma forma que nos experimentos da Seo 6.4,
a solues de mxima parcimnia so calculadas com o programa NONA e o restante das
solues iniciais obtida pela anlise de

bootstrap

empregando o PHYML (Guindon e

Gascuel, 2003).
A Tabela 6.15 mostra os valores de parcimnia e verossimilhana para as solues
calculadas pelo NONA e RAxML-V+PHYML para os 4 bancos de teste.

Deve-se ob-

servar que os valores de verossimilhana dessa tabela so signicativamente melhores


comparando com os valores correspondentes aos da Tabela 6.1. Ou seja, a incorporao
de ASRV utilizando o modelo HYK85+ melhorou signicativamente as pontuaes de
verossimilhana das solues obtidas pelo NONA e RAxML-V+PHYML.
Alm disso, as solues calculadas pelo RAxML-V+PHYML mostraram pequenas
variaes na pontuao de parcimnia comparada aos valores mostrados na Tabela 6.1. Os
valores de parcimnia de tais solues pioraram para os bancos
e

ZILLA_500

mtDNA_186 RDPII_218
,

. Esse resultado indica que os pontos extremos da fronteira para tais bancos

encontram-se mais distantes.

Tabela 6.15: Resultados de mxima parcimnia e mxima verossimilhana obtidos pelo


NONA e RAxML-V+PHYML (considerando o ASRV).

Banco
rbcL_55
mtDNA_186
RDPII_218
ZILLA_500

NONA
RAxML-V + PHYML
Parcimnia Verossimilhana Parcimnia Verossimilhana
4.874
-21.989,580
4.893
-21.889,844
2.438
-40.010,941
2452
-39.896,442
41.534
-147.794,345
42.813
-134.696,535
16.219
-81.880,193
16.310
-81.018,060

Os parmetros da execuo do PhyloMOEA so os mesmos que os empregados na


Seo 6.4 (ver Tabela 6.2). Os parmetros

de teste so mostrados na Tabela 6.16.

Tais valores foram obtidos com o programa

do modelo HKY85+ para os 4 bancos

PHYML a partir das rvores de mxima verossimilhana do RAxML.

Tabela 6.16: Parmetros do modelo HKY85+ para os experimentos.

Banco

rbcL_55
5,075 0,355
mtDN A_186 33,451 0,015
RDP II _218
2,719 0,533
ZILLA_500
3,890 0,950

104

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

6.5.1 Resultados das execues do PhyloMOEA utilizando ASRV


O PhyloMOEA foi executado apenas 10 vezes por cada banco de teste, devido ao aumento
signicativo de tempo de execuo quando considera-se o ASRV. A Tabela 6.17 mostra os
melhores valores de parcimnia e verossimilhana obtidos nas execues do PhyloMOEA.
Alm disso, mostrada a mdia e o desvio padro em cada caso. Os nmeros indicados
em negrito mostram onde o PhyloMOEA conseguiu melhorar as rvores de mxima parcimnia e mxima verossimilhana em relao a populao inicial (ver Tabela 6.15). Os
resultados mostram uma pequena melhoria nos critrios de parcimnia e verossimilhana
apenas para o banco

mtDN A_186.

Tabela 6.17: Resumo dos resultados das execues do PhyloMOEA considerando ASRV.

Pontuao de
Parcimnia
Banco
Melhor
Mdia
rbcL_55
4.874 4.874,00 0,00
mtDN A_186
2.437
2.437,90 0,32
RDP II _218
41.534 41.534,00 0,00
ZILLA_500
16.219 16.219,00 0,00

Pontuao de
Verossimilhana
Melhor
Mdia
-21.889,844 -21.889,844 0,00
-39.896,441
-39.896,441 0,00
-134.696,535 -134.696,535 0,00
-81.018,060 -81.018,060 0,00

A Tabela 6.18 mostra os valores mximo, mdio e desvio padro do nmero de Solues Pareto-timas e Finais encontradas pelo PhyloMOEA. Pode-se observar um comportamento estvel em todas as execues do algoritmo, uma vez que os valores de desvio so
relativamente pequenos. Comparados aos resultados mostrados na Tabela 6.4, encontrou-

rbcL_55 e ZILLA_500 e
um menor nmero delas nos bancos mtDN A_186 e RDP II _218. O nmero de Solues
Finais foi maior apenas no banco RDP II _218. Este resultado mostrou que, embora os
se um maior nmero de solues Pareto-timas para os bancos

valores de verossimilhana das solues tenham melhorado, a diversidade das solues foi
afetada, embora levemente, tanto para as solues Pareto-timas como para as Solues
Finais.

Tabela 6.18: Resumo do nmero de solues encontradas nas execues do PhyloMOEA


considerando ASRV.

Solues Pareto-timas
Solues Finais
Banco
Mximo Mdia Mximo Mdia
rbcL_55
13 10,30 1,49
61 52,50 5,74
mtDN A_186
10
8,50 1,43
59 50,80 4,44
RDP II _218
27 23,90 1,97
80 77,40 3,03
ZILLA_500
26 19,60 3,27
71 63,10 4,58
As Figuras

6.9, 6.10, 6.11 e

6.12 mostram a fronteira de Pareto e algumas Solu-

es Finais obtidas de uma execuo do PhyloMOEA para os bancos de teste

mtDN A_186, RDP II _218

ZILLA_500,

respectivamente.

rbcL_55,

6.5.

INCORPORAO DA VARIAO DE TAXAS ENTRE STIOS


39800

Fronteira de Pareto
Solues Finais

21860

Fronteira de Pareto
Solues Finais

39850

21880
21900

Verossimilhana

Verossimilhana

105

21920
21940

39900

39950

40000

21960
40050

21980
22000

40100
4875

4880

4885
Parcimnia

Figura 6.9: Solues


banco

4890

2436 2438 2440 2442 2444 2446 2448 2450 2452


Parcimnia

Pareto-timas

do

Figura 6.10: Solues Pareto-timas do

rbcL_55.

134000

banco

mtDN A_186.

80900

Fronteira de Pareto
Solues Finais

Fronteira de Pareto
Solues Finais

81000

135000

Verossimilhana

Verossimilhana

81100
136000

137000

138000

81200
81300
81400
81500

139000

81600

140000

81700
41600

41800

42000 42200 42400


Parcimnia

42600

42800

16220

16240

16260
16280
Parcimnia

16300

Figura 6.11: Solues Pareto-timas do Figura 6.12: Solues Pareto-timas do


banco

RDP II _218.

banco

ZILLA_500.

6.5.2 Testes de rvores alternativas para as solues do PhyloMOEA considerando ASRV


Os resultados da fronteira de Pareto e as Solues Finais fornecidas pelo PhyloMOEA
(considerando ASRV) foram analisadas estatisticamente utilizando o teste SH (Shimodaira
e Hasegawa, 1999). As Tabelas 6.19 e 6.20 mostram os resultados do teste SH para as
Solues Pareto-timas e as Solues Finais, respectivamente. Tais tabelas apresentam
o nmero de solues no rejeitadas e solues rejeitadas pelo teste SH aplicado com os
critrios de parcimnia e verossimilhana.
Nas Tabelas 6.19 e 6.20 por um lado, mostram resultados semelhantes aos das Tabelas 6.5 e 6.6 (sem considerar ASRV). Para os bancos menores, poucas solues so
rejeitadas; enquanto para os bancos maiores o nmero de solues rejeitadas relativamente grande.

Mesmo para os bancos maiores, o nmero de solues no rejeitadas

signicativo, revelando a importncia das solues do PhyloMOEA.

106

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

Tabela 6.19: Resultados do teste SH para as Solues Pareto-timas fornecidas pelo


PhyloMOEA considerando ASRV.

Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
11
2
8
5
mtDN A_186
10
0
9
1
RDP II _218
2
25
4
23
ZILLA_500
9
17
8
18
Total
32
44
29
47
Tabela 6.20: Resultados do teste SH para as Solues Finais fornecidas pelo PhyloMOEA considerando ASRV.

Teste SH
Teste SH
Parcimnia
Verossimilhana
Banco
No Rejeitadas Rejeitadas No Rejeitadas Rejeitadas
rbcL_55
19
40
18
41
mtDN A_186
41
13
29
25
RDP II _218
6
74
5
75
ZILLA_500
16
55
12
59
Total
82
182
64
200
Comparando as Tabelas 6.5 e 6.19, verica-se que o total de solues no rejeitadas
para parcimnia (verossimilhana) so 40 e 32 (34 e 29), respectivamente. Das Tabelas 6.6
e 6.20, observa-se que o total de solues no rejeitadas para parcimnia (verossimilhana)
caem de 101 para 82 (79 para 64). Comparando-se as Tabelas 6.1 e 6.15 (com as solues encontradas pelo NONA e RAxML-V), verica-se que os pontos extremos esto mais
prximos de uma forma geral na Tabela 6.15, que foi obtida considerando o ASRV. Claramente, o menor nmero de solues no rejeitadas est relacionado com o menor intervalo
entre os pontos extremos nos clculos utilizando ASRV.
Os resultados do teste SH mostraram, mais uma vez, que existem solues intermedirias que so consistentes com a soluo de mxima parcimnia e a soluo de mxima
verossimilhana. Portanto, o PhyloMOEA foi capaz de encontrar rvores alternativas que
representam um compromisso entre as melhores rvores para cada critrio.
As Tabelas 6.216.28 mostram os resultados da comparao do PhyloMOEA com
o Mr.Bayes para as Solues Pareto-timas e as Solues Finais dos bancos

mtDN A_186, RDP II _218

ZILLA_500

rbcL_55,

respectivamente. As colunas de tais tabelas

possuem o mesmo signicado que os das colunas das Tabelas 6.76.14 (ver Seo 6.4).
Os resultados mostram que os tipos de clados usualmente encontrados correspondem
aos tipos I, III, V e VII. Todos esses tipos de clados pertencem as solues intermedirias,
podendo ou no estar na rvores de mxima parcimnia e/ou mxima verossimilhana.
Os clados de tipo V e VII possuem, em geral, os melhores valores de suporte e a menor di-

6.5.

INCORPORAO DA VARIAO DE TAXAS ENTRE STIOS

107

ferena entre tais graus quando se comparam os resultados do PhyloMOEA e o Mr.Bayes.


Isso signica que, os clados com maior suporte e probabilidade posterior, so aqueles que
pertencem s solues intermedirias e a rvore de mxima verossimilhana. Na maioria
dos casos, as distncias de pontuao e topolgicas em relao a parcimnia so maiores
que as distncias referentes a verossimilhana.
Os clados de tipo III, embora sejam bem suportados pelo phyloMOEA, no possuem
o mesmo suporte pelo Mr.Bayes. Dessa forma, a diferena de grau de suporte de ambos
os programas considervel.

Outros tipos de clados no possuem valores de suporte

altos em nenhum dos programas. Conseqentemente, os clados correspondentes apenas


s solues intermedirias e os clados correspondentes rvore de mxima parcimnia so
menos suportados pelo PhyloMOEA e pelo Mr.Bayes. A diferena das mdias gerais do
grau de suporte do PhyloMOEA e da probabilidade do Mr.Bayes pequena na maioria
dos casos. Alm disso, as mdias gerais das distncias de pontuaes e topolgicas so
tambm muito prximas.
As Figuras 6.13, 6.14, 6.15 e 6.16 mostram a relao do grau de suporte do PhyloMOEA e a probabilidade posterior do Mr.Bayes dos clados do tipo V e VII para os bancos

rbcL_55, mtDN A_186, RDP II _218

ZILLA_500

respectivamente. A maior corres-

pondncia entre ambas as quantidades observada para os clados de tipo VII, onde a
maioria dos pontos esto concentrados na regio direita da funo identidade.
Os resultados da comparao entre o PhyloMOEA e o Mr.Bayes realizada nesta Seo
so similares aos obtidos na Seo 6.4. Assim, os valores mostrados das Tabelas 6.21 6.28
so prximos dos mostrados nas Tabelas 6.7 6.14, encontrando-se pequenas diferenas
nos graus de suporte em alguns casos.

Como esperado, o resultado das comparaes

realizadas entre o PhyloMOEA e o Mr.Bayes favorece aqueles clados que esto prximos
rvore de mxima verossimilhana.

Tabela 6.21: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Pareto-timas do banco

rbcL_55.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
1
0,2308 0,3535 0,1228 0,5439
0,2091
0,1154
0,0385
III
2
0,6538 0,1471 0,5067 0,3090
0,4973
0,0573
0,0647
V
6
0,5897 0,7648 0,1750 0,6287
0,1978
0,0970
0,0312
VII
46
0,9950
0,9229
0,0721 0,4325
0,3926
0,0722
0,0519
Total
55
0,6173 0,5471 0,2192 0,4785
0,3242
0,0855
0,0466

108

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

Tabela 6.22: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Finais do banco

rbcL_55.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
18
0,0231 0,1797 0,1566 0,3775
0,3478
0,2340
0,2147
III
2
0,5492 0,1471 0,4021 0,3848
0,3876
0,2135
0,2457
V
6
0,4912 0,7648 0,2735 0,4310
0,3599
0,2460
0,1840
VII
46 0,8146 0,9229 0,1082 0,3828
0,3537
0,2162
0,2050
Total
72
0,4696 0,5036 0,2351 0,3940
0,3623
0,2274
0,2123

Tabela 6.23: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Pareto-timas do banco

mtDN A_186.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
10
0,2091 0,1903 0,0187 0,3282
0,2927
0,1627
0,1446
II
5
0,0909 0,2148 0,1239 0,0000
1,0000
0,0000
0,2295
III
13
0,3776 0,1834 0,1942 0,2389
0,5245
0,0910
0,1759
IV
2
0,0909 0,0696 0,0213 1,0000
0,0000
0,2295
0,0000
V
35
0,6182 0,3627 0,2555 0,7092
0,0897
0,2002
0,0628
VII
138 0,9960 0,8730 0,1230 0,5347
0,2354
0,1655
0,1021
Total
203
0,3971 0,3156 0,1228 0,4685
0,3570
0,1415
0,1192

Tabela 6.24: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Finais do banco

mtDN A_186.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
101
0,0299 0,1435 0,1136 0,2775
0,2998
0,2017
0,1789
III
18
0,3002 0,1922 0,1080 0,2532
0,3457
0,1344
0,2335
V
37
0,4789 0,3468 0,1320 0,2980
0,2478
0,2302
0,1083
VII
138 0,9516 0,8730 0,0785 0,2847
0,2946
0,1953
0,1603
Total
294
0,4401 0,3889 0,1081 0,2783
0,2970
0,1904
0,1703

Tabela 6.25: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Pareto-timas do banco

RDP II _218.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
15
0,1544 0,3119 0,1576 0,7163
0,3176
0,5432
0,2168
III
10
0,4053 0,5405 0,1353 0,4087
0,7618
0,3293
0,4221
V
127
0,5864 0,8174 0,2310 0,7423
0,2770
0,5655
0,1903
VII
74 0,9968 0,9656 0,0312 0,6096
0,4589
0,4791
0,2855
Total
226
0,5357 0,6589 0,1387 0,6192
0,4538
0,4793
0,2787

6.6.

CONSIDERAES FINAIS

109

Tabela 6.26: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Finais do banco

RDP II _218.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
48
0,0398 0,3279 0,2881 0,5049
0,4500
0,4652
0,3564
III
10
0,4366 0,5405 0,1039 0,3389
0,6436
0,3143
0,4834
V
127
0,4830 0,8174 0,3344 0,5786
0,2995
0,5506
0,2452
VII
74
0,9668
0,9656
0,0012 0,4665
0,4673
0,4446
0,3611
Total
259
0,4815 0,6629 0,1819 0,4722
0,4651
0,4437
0,3615

Tabela 6.27: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Pareto-timas do banco

ZILLA_500.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
14
0,0842 0,1477 0,0634 0,7040
0,3398
0,1837
0,0727
III
64
0,3261 0,2820 0,0441 0,4364
0,6837
0,1106
0,1448
V
118
0,6554 0,5946 0,0608 0,7371
0,3031
0,1903
0,0648
VII
374 0,9964 0,9133 0,0832 0,6523
0,4063
0,1682
0,0869
Total
570
0,5155 0,4844 0,0629 0,6325
0,4332
0,1632
0,0923

Tabela 6.28: Comparao dos resultados (considerando ASRV) do PhyloMOEA e


Mr.Bayes para as Solues Finais do banco

ZILLA_500.

Tipo Num. PMOEA PBayes Dif. DPars. DVeross. DTPars. DTVeross.


I
113
0,0117 0,1891 0,1775 0,4707
0,4205
0,1853
0,1247
III
63
0,3474 0,2764 0,0710 0,3545
0,5688
0,1178
0,1827
IV
119
0,6128 0,6035 0,0093 0,4865
0,2878
0,2196
0,0769
VII
373 0,9751 0,9113 0,0638 0,4429
0,3870
0,1845
0,1140
Total
668
0,4868 0,4951 0,0804 0,4386
0,4160
0,1768
0,1246

6.6 Consideraes nais


Neste Captulo foram apresentados os resultados da aplicao do PhyloMOEA em 4 bancos de seqncias de DNA usualmente empregados para avaliar programas de inferncia
logentica.

Os resultados indicaram que o modelo proposto apresentou um desempe-

nho e uma estabilidade adequadas em vrias execues do modelo para cada banco de
teste. O PhyloMOEA foi capaz de gerar solues da fronteira de Pareto que representam
alternativas intermedirias relevantes entre as rvores de mxima parcimnia e verossimilhana. Para obter melhores resultados, preciso que solues iniciais resultantes das
anlises de mxima parcimnia e mxima verossimilhana sejam includas na populao
inicial do PhyloMOEA. Caso contrrio, o mtodo desenvolvido mostra-se relativamente
lento para os casos em que as solues iniciais encontram-se muito longe da Fronteira de

110

CAPTULO 6.

x
Clados Tipo V
Clados Tipo VII

x
Clados Tipo V
Clados Tipo VII

1.2
Grau de Suporte PhyloMOEA

Grau de Suporte PhyloMOEA

1.2

EXPERIMENTOS E RESULTADOS

1
0.8
0.6
0.4
0.2

1
0.8
0.6
0.4
0.2

0
0

0.2

0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes

0.2

0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes

Figura 6.13: Grau de suporte do Phylo- Figura 6.14: Grau de suporte do PhyloMOEA vs.

MOEA vs.

Probabilidade

Posterior do Mr.Bayes para

as Solues Pareto-timas do

as Solues Pareto-timas do

banco

rbcL_55.

banco

x
Clados Tipo V
Clados Tipo VII

mtDN A_186.
x
Clados Tipo V
Clados Tipo VII

1.2
Grau de Suporte PhyloMOEA

1.2
Grau de Suporte PhyloMOEA

Probabilidade

Posterior do Mr.Bayes para

1
0.8
0.6
0.4
0.2

1
0.8
0.6
0.4
0.2

0.2

0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes

Figura 6.15: Grau de suporte do PhyloMOEA vs.

Probabilidade

0.2

0.4
0.6
0.8
Probabilidade Posterior Mr. Bayes

Figura 6.16: Grau de suporte do PhyloMOEA vs.

Probabilidade

Posterior do Mr.Bayes para

Posterior do Mr.Bayes para

as Solues Pareto-timas do

as

banco

RDP II _218.

Solues

do banco

Pareto-timas

ZILLA_500.

Pareto. Alm disso, em alguns casos, o PhyloMOEA foi capaz de melhorar as solues
iniciais de mxima parcimnia e mxima verossimilhana obtidas por outros programas
de inferncia logentica.
A incorporao das taxas heterogeneidade entre stios, utilizando o modelo HKY85+,
melhorou signicativamente a verossimilhana da solues iniciais fornecidas ao PhyloMOEA, assim como os resultados nais.

Alm disso, o nmero de solues interme-

dirias no rejeitadas manteve-se em um nvel signicativo.

Portanto, o PhyloMOEA

considerando o ASRV, pode encontrar solues melhores, bem como pode fornecer uma
diversidade de solues com compromisso adequado entre parcimnia e verossimilhana.

6.6.

CONSIDERAES FINAIS

111

O teste SH realizado com as rvores correspondentes s Solues Pareto-timas e


Solues Finais do PhyloMOEA tambm mostrou que o modelo proposto foi capaz de encontrar rvores que so consistentes com os critrios de mxima verossimilhana e mxima
parcimnia. Finalmente, os resultados obtidos pelo PhyloMOEA para cada banco foi comparado com os resultados do programa de inferncia Bayesiana Mr.Bayes. Mostrou-se que,
os graus de suporte dos clados calculados com o PhyloMOEA concordam razoavelmente
com as probabilidades posteriores dos clados obtidas pelo Mr.Bayes.
As concluses nais deste trabalho de pesquisa e as propostas de trabalho futuras so
exploradas no Captulo 7.

112

CAPTULO 6.

EXPERIMENTOS E RESULTADOS

Captulo

7
Concluses e trabalhos futuros

No decorrer do deste trabalho apresentou-se o problema de reconstruo de rvores logenticas como um dos principais da rea da bioinformtica.

Diversos mtodos para

reconstruir a rvore que melhor representa a histria das espcies envolvidas na anlise
tm sido propostas nesta rea de pesquisa. A mxima parcimnia e a mxima verossimilhana so dois dos principais mtodos de reconstruo logentica empregados pelos
pesquisadores. Tais mtodos denem critrios de otimalidade para avaliar as diferentes
solues no espao de busca.

Os algoritmos de Fitch (Fitch, 1972) e Felsenstein (Fel-

senstein, 1981a) permitem determinar as pontuaes de parcimnia e verossimilhana,


respectivamente. Contudo, a procura da rvore de mxima parcimnia ou mxima verossimilhana no espao de busca uma tarefa complexa. O tamanho de espao de busca,
o qual cresce rapidamente com o nmero de espcies analisados, impede a aplicao de
mtodos de busca exata para determinar a soluo tima para conjuntos de dados de
tamanho mediano e grande.

Assim, para tal tarefa so empregados mtodos de busca

baseados em heursticas que, embora no garantam encontrar uma soluo tima, tm


apresentado desempenho satisfatrio na prtica.
Os AEs constituem uma das principais heursticas empregadas na reconstruo de
rvores logentica. Esses algoritmos representam um conjunto de tcnicas que tem por
base simular princpios da gentica e evoluo natural. Neste contexto, os AGs tm-se
destacado para resolver tanto problemas de otimizao quanto problemas de aprendizado
de mquina. O problema de reconstruo logentica pode ser formulado como um problema de otimizao empregando um critrio de otimalidade para avaliar as rvores no
espao de busca de topologias. A utilizao de AEs em logenia tem se mostrado como

113

114

CAPTULO 7.

CONCLUSES E TRABALHOS FUTUROS

uma aplicao importante obtendo resultados comparveis aos principais programas de


inferncia logentica como PHYLIP e o PAUP*.

Foi realizada uma reviso extensiva

dos principais trabalhos da aplicao de AEs em logenia, focando principalmente os trabalhos que empregaram como critrio de otimalidade a mxima parcimnia e mxima
verossimilhana.
Os AEs podem ser aplicados em problemas de otimizao com vrios objetivos a serem
atingidos simultaneamente. Em tais problemas de otimizao multi-objetivo (MOOPs),
usualmente os objetivos a serem otimizados so conitantes entre sim, ou seja, se um
objetivo melhorado usualmente outro objetivo prejudicado. Isso signica que em tais
casos, no existe apenas uma soluo tima, mais sim um conjunto de solues denominadas Pareto-timas que representam um compromisso entre os objetivos do problema. Os
AEs tm sido empregados satisfatoriamente em MOOPs, apresentando vrias vantagens
com relao a outras tcnicas de otimizao para este tipo de problemas.
Uma srie de trabalhos apresentados na reviso bibliogrca mostra que o emprego
de diferentes mtodos de reconstruo logentica para um conjunto de dados tm resultado em rvores conitantes. Assim, uma abordagem multi-objetivo da reconstruo
logentica surge como uma alternativa vivel para incorporar diversos critrio de otimalidade usualmente empregados neste problema.

Esta abordagem representa a principal

motivao do presente trabalho de tese.


Neste trabalho foi desenvolvido o PhyloMOEA, um abordagem de MOEA para o problema de reconstruo de rvores logenticas baseado no modelo NSGA-II (Deb et al.,
2000). Os principais componentes do PhyloMOEA foram apresentados detalhadamente.
Os critrios considerados pelo PhyloMOEA so a mxima parcimnia e a mxima verossimilhana. O resultado da execuo do modelo proposto um conjunto de rvores
Pareto-timas correspondentes a um compromisso entre os critrios considerados.
Para avaliar o conjunto de rvores obtidos pelo PhyloMOEA empregou-se o teste estatstico SH, que permite determinar se as solues encontradas no so signicativamente
piores que as rvores de mxima parcimnia e mxima verossimilhana. Determinar solues Pareto-timas que no sejam rejeitas pelo teste SH um indicador de que as rvores
encontradas com o PhyloMOEA so consistentes com os critrios considerados. importante notar que as rvores encontradas no podem ser diretamente comparadas com as
encontradas por outros programas de inferncia logentica, dado que esses programas
consideram apenas um critrio (parcimnia ou verossimilhana).
Uma outra forma de validar os resultados dos experimentos comparar com mtodos
de inferncia logentica que permitam trabalhar com um conjunto de rvores alternativas. Para esse propsito podem ser empregados mtodos de amostragem como

bootstrap

ou o mtodo de inferncia bayesiana. Assim, optou-se por comparar os graus de suporte


dos clados pertencentes as rvores do PhyloMOEA com a probabilidade posterior dos

115
clados das rvores encontradas pelo programa Mr.Bayes. Procurou-se analisar a natureza
das correspondncia e diferena entre ambos os valores.
Os experimentos testaram o desempenho do PhyloMOEA em 4 bancos de seqncias
de DNA que tm sido freqentemente empregados na literatura.

Devido ao comporta-

mento estocstico dos AEs, o PhyloMOEA foi executado vrias vezes para cada banco.
Os resultados indicaram que o modelo proposto teve um desempenho satisfatrio e um
comportamento estvel em todas as execues. Alm disso, O PhyloMOEA foi capaz de
gerar solues da fronteira de Pareto que representam rvores alternativas entre as solues de mxima parcimnia e verossimilhana. Contudo, para obter resultados aceitveis,
preciso que solues inicias sejam incorporadas na populao inicial. Assim, foi realizado
uma anlise previa de mxima parcimnia e mxima verossimilhana para cada banco de
dados. Adicionalmente, outras rvores foram obtidas utilizando a anlise de

bootstrap

. A

incluso de tais rvores melhora consideravelmente o tempo de execuo e os resultados


obtidos pelo modelo proposto. O PhyloMOEA foi capaz, em alguns dos experimentos, de
encontrar rvore melhores considerando cada critrio separadamente.
A incorporao das taxas heterogeneidade entre stios, utilizando o modelo HKY85+,
melhorou signicativamente as pontuaes de verossimilhana da solues inicias, assim
como os resultados nais do PhyloMOEA. Contudo, os clculos de verossimilhana requeridos por este modelo, aumentam signicativamente o tempo de execuo do PhyloMOEA.
Observou-se tambm que o nmero de solues encontradas foi levemente diminudo com
o emprego desta abordagem.
O teste SH realizado nas Solues Pareto-timas e Solues Finais do PhyloMOEA
mostrou que o modelo proposto foi capaz de encontrar rvores que so consistentes com
os critrios de mxima verossimilhana e mxima parcimnia. Embora em alguns casos
o teste rejeitou certa porcentagem considervel das solues, encontrou-se sempre rvores
consistentes com os critrios considerados.
Os clados correspondentes as rvores encontradas pelo PhyloMOEA foram comparadas aos clados calculados pelo programa de inferncia Bayesiana Mr.Bayes. Mostrou-se
que, os graus de suporte dos clados calculados com o PhyloMOEA concordam razoavelmente com as probabilidades posteriores dos clados obtidas pelo Mr.Bayes.

Propou-se

uma classicao de clados conforme a sua presena em rvores de mxima parcimnia,


mxima verossimilhana e solues intermedirias. Calculou-se a mdia das distncias de
pontuao e topolgica entre as topologias contendo cada tipo de clado e as pontuaes
das rvores de mxima parcimnia e mxima verossimilhana. Mostrou-se que os clados
que pertencem tanto s solues intermedirias quanto s rvores de mxima parcimnia e mxima verossimilhana possuem um maior grau de suporte do PhyloMOEA e do
Mr.Bayes. As distncias topolgicas e de pontuao para esse tipo de clados encontram-se
mais prximos do ponto de mxima verossimilhana.

116

CAPTULO 7.

CONCLUSES E TRABALHOS FUTUROS

Resultados parciais decorrentes das pesquisas relativas ao presente trabalho foram


publicadas em dois congressos internacionais (Cancino e Delbem, 2007b,c):

Cancino, W. e Delbem, A.C.B. "A Multi-Objective Evolutionary Approach for Phy-

Fourth International Conference on Evolutionary MultiCriterion Optimization (EMO 2007)


logenetic Inference", in 

. LNCS vol. 4403, pp. 428-442, 2007;

Cancino, W. e Delbem, A.C.B., "Multi-Criterion Phylogenetic Inference using Evo-

IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology, 2007. CIBCB '07
Best Student Paper
lutionary Algorithms", in

. pp. 351 - 358, 2007.

Neste ltimo evento realizou-se a apresentao oral do trabalho e o mesmo ganhou


o prmio de

Alm disso, uma verso estendida de tais trabalhos foi aceita para publicao na revista

International Journal of Information Technology and Intelligent Computing

 (Cancino e

Delbem, 2007a), o qual respaldado pelo IEEE.


Embora os resultados obtidos pelo PhyloMOEA sejam encorajadores, ainda existem
vrios aspectos que merecem ser atendidos em pesquisa futura como:

O desempenho do PhyloMOEA pode ser melhorado em diversos aspectos, principalmente no emprego de heursticas de busca local (Guindon e Gascuel, 2003; Stamatakis e Meier, 2004) para uma melhor convergncia do algoritmo. Se as solues
iniciais so pobremente estimadas, o PhyloMOEA poderia requerer vrias horas de
execuo e no atingir resultados razoveis;

O clculo da verossimilhana um fator que inui fortemente no desempenho do


PhyloMOEA. No algoritmo proposto empregou-se o algoritmo de Felsenstein para
tal clculo. Tal algoritmo reduz drasticamente o nmero de operaes necessrias,
mas ainda pode ser lento para grandes bancos de seqncias. Alm disso, a natureza
dos AEs exige muitas avaliaes das solues na populao. Assim, o aumento do
desempenho do clculo da verossimilhana inuenciaria fortemente o desempenho
do PhyloMOEA. Na literatura, foram propostas vrias tcnicas para aumentar a
performance de tais clculos, as quais so empregadas em programas logenticos
mais recentes (Larget e Simon, 1998; Pond e Muse, 2004; Stamatakis e Meier, 2004).

O PhyloMOEA no otimiza os parmetros do modelo de substituio de seqncias


empregado no clculo da verossimilhana. Isso restringe o modelo a ser utilizado
quando so requeridos vrios parmetros.

Esses valores podem ser otimizados si-

multaneamente com as solues no decorrer das iteraes do PhyloMOEA;

O mtodo proposto emprega o modelo de parcimnia mais simples, isto , o algoritmo de Fitch, que trabalha com custos unitrios para cada troca de estado. Porm,

117
existem vrios outros modelos de parcimnia que podem ser adequados conforme
o banco de seqncias empregado.

A incluso desses modelos pode melhorar os

resultados (Felsenstein, 2004; Swoord et al., 1996);

Diversas tcnicas de paralelizao de MOEAs tm sido propostas na literatura (Coello et al., 2002; Veldhuizen et al., 2003).

Tais abordagens podem ser facilmente

implementados no PhyloMOEA visando melhorar o desempenho do modelo proposto.

Usualmente, os pesquisadores empregam diversas tcnicas de reconstruo logentica


para analisar os seus dados moleculares. Assim, um programa que permita sintetizar os
resultados da aplicao de vrios mtodos de reconstruo pode resultar em um aporte
muito signicativo na rea.
Em resumo, pode-se dizer que a pesquisa proposta foi realizada a contento, uma
vez que o PhyloMOEA tem obtido resultados condizentes com o esperado, bem como a
comunidade cientca da rea tem se mostrado bastante receptiva ao tratamento multiobjetivo para logenia proposto neste trabalho.

118

CAPTULO 7.

CONCLUSES E TRABALHOS FUTUROS

Referncias Bibliogrcas

MOLPHY version 2.3. Programs for Molecular Phylogenetics Based on Maximum Likelihood. in ishiguro

Adachi, J.; Hasegawa, M.

Computer Science Monographs 28,

The Institute of Statistical Mathematics, Tokyo, 1996.

Evolving: the theory and processes of organic evolution

Ayala, F.

Menlo Park, Calif:

Benjamin/Cummings Pub. Co., 1979.


Blagojevic, F.; Stamatakis, A.; Antonopoulos, C.; Nikolopoulos, D.

Raxml-

Parallel
and Distributed Processing Symposium, 2007. IPDPS 2007. IEEE International
cell: Parallel phylogenetic tree inference on the cell broadband engine.

In:

, 2007,

p. 1  10.
Brauer, M. J.; Holder, M. T.; Dries, L. A.; Zwickl, D. J.; Lewis, P. O.; Hillis,
D. M.

Genetic algorithms and parallel processing in maximum-likelihood phylogeny

Molecular Biology and Evolution


Algorithms for minimization without derivatives

inference.

, v. 19, n. 10, p. 17171726, 2002.


.

Brent, R.

Englewood Clis, NJ:

Prentice-Hall, 1973.
Weighted neighbor joining:

Bruno, W.; Socci, N.; Halpern, A.

based approach to distance-based phylogeny reconstruction.

Evolution

A likelihood-

Molecular Biology and

, v. 17, n. 1, p. 189197, 2000.

Bryant, D.; Galtier, N.; Poursat, M.

logenetics.

In: Gascuel, O., ed.

Likelihood calculation in molecular phy-

Mathematics of Evolution and Phylogeny

, cp. 2,

Oxford University Press, p. 3362, 2005.


Cancino, W.; Delbem, A.

rithms.

Inferring phylogenies by multi-objective evolutionary algo-

International Journal of Information Technology and Intelligent Computing

v. 2, n. 2, 2007a.

119

120

REFERNCIAS BIBLIOGRFICAS

Cancino, W.; Delbem, A.

Multi-criterion phylogenetic inference using evolutionary

Computational Intelligence and Bioinformatics and Computational


Biology, 2007. CIBCB '07. IEEE Symposium on
algorithms.

In:

, 2007b, p. 351  358.

Cancino, W.; Delbem, A.

inference.

A multi-objective evolutionary approach for phylogenetic

Evolutionary Multi-Criterion Optimization


Lecture Notes in Computer Science

In:

, Springer Berlin / Heidel-

berg, 2007c, p. 428442 (

, v.4403).

Cavalli-Sforza, L.; Edwards, A.

Evolution

Procedures.

, v. 21, n. 3, p. 550570, 1967.

Cavender, J.; Felsenstein, J.

states.

Phylogenetic Analysis: Models and Estimation

Invariants of phylogenies in a simple case with discrete

Journal of Classication

, v. 4, p. 5771, 1987.

Chase, M.; Soltis, D.; Olmstead, R.; Morgan, D.; Les, D.; Mishler, B.; Duvall, M.; Price, R.; Hills, H.; Qiu, Y.; Kron, K.; Rettig, J.; Conti, E.;
Palmer, J.; Manhart, J.; Sytsma, K.; Michaels, H.; Kress, W.; Karol, K.;
Clark, W.; Hedren, M.; Gaut, B.; Jansen, R.; Kim, K.; Wimpee, C.; Smith,
J.; Furnier, G.; Strauss, S.; Xiang, Q.; Plunkett, G.; Soltis, P.; Swensen,
S.; Williams, S.; Gadek, P.; Quinn, C.; Eguiarte, L.; Golenberg, E.; Learn,
G.; Graham, S.; Barrett, S.; Dayanandan, S.; Albert, V.

Phylogenetics of

seed plants - an analysis of nucleotide-sequences from the plastic gene rbcl.

the Missouri Botanical Garden

Annals of

, v. 80, n. 3, p. 528580, 1993.

Coelho, G.; Silva, A.; Zuben, F.

approach.

In:

Evolving phylogenetic trees: A multiobjective

Advances in Bioinformatics and Computational Biology


Lecture Notes in Computer Science

/ Heidelberg, 2007, p. 113125 (


Coelho, G.; Von Zuben, F.

optimization.
Coello, C.

In:

, Springer Berlin

, v.4643/2007).

Omni-ainet: An immune-inspired approach for omni

Articial Immune Systems

, 2006, p. 294308.

A Short Tutorial on Evolutionary Multiobjective Optimization.

ler, E.; Deb, K.; Thiele, L.; Coello, C. A. C.; Corne, D., eds.

In: Zitz-

First Internati-

onal Conference on Evolutionary Multi-Criterion Optimization


Lecture Notes in Computer Science
Evolutionary algorithms for solving
multi-objective problems

, Springer-Verlag., 2001,

p. 2140 (

, v.1993).

Coello, C.; Veldhuizen, D. V.; Lamont, G.

Genetic algorithms and evolutionary computation ; 5.

New

York: Kluwer Academic, 2002.


Cole, J.; Chai, B.; Farris, R.; Wang; Kulam, S.; McGarrell, D.; Garrity,
G.; Tiedje, J.

The Ribosomal Database Project (RDP-II): Sequences and Tools for

High-throughput rRNA Analysis.

Nucleic Acids Research

, v. 33, p. D294D296, 2005.

REFERNCIAS BIBLIOGRFICAS

GAPHYL: An evolutionary algorithms approach for the study of natural

Congdon, C.

evolution.

121

In:

Genetic and Evolutionary Computation Conference (GECCO-2002)

2002.
Congdon, C.; Greenfest, E.

tics.

GAPHYL: A Genetic Algorithm Approach to Cladis-

In: Freitas, A. A.; Hart, W.; Krasnogor, N.; Smith, J., eds.

with Evolutionray Algorithms

Data Mining

, 2000, p. 8588.

Congdon, C.; Septor, K. J.

Phylogenetic trees using evolutionary search: Initial

progress in extending GAPHYL to work with genetic data.

In: Sarker, R.; Rey-

nolds, R.; Abbass, H.; Tan, K. C.; McKay, B.; Gedeon, T., eds.

Evolutionary Computation (CEC-2003)


Introduction to algorithms

Congress on

, IEEE Press, 2003, p. 320326.


.

2nd ed. ed.

Cambridge, Mass: MIT Press,

Corne, D.; Jerram, N.; Knowles, J.; Oates, M.

PESA-II: Region-based Selec-

Cormen, T.

2001.

tion in Evolutionary Multiobjective Optimization.

In:

Spector, L.; Goodman,

E. D.; Wu, A.; Langdon, W.; Voigt, H.-M.; Gen, M.; Sen, S.; Dorigo, M.;

Proceedings of the Genetic and Evolutionary Computation Conference (GECCO'2001)

Pezeshk, S.; Garzon, M. H.; Burke, E., eds.

, San Francisco, California: Morgan

Kaufmann Publishers, 2001, p. 283290.


Corne, D.; Knowles, J.; Oates, M.

for Multiobjective Optimization.

The Pareto Envelope-based Selection Algorithm

In: Schoenauer, M.; Deb, K.; Rudolph, G.;

Yao, X.; Lutton, E.; Merelo, J. J.; Schwefel, H.-P., eds.

Parallel Problem Solving from Nature VI Conference


Lecture Notes in Computer Science
839848 (

Proceedings of the

, Paris, France: Springer., 2000, p.

, v.1917).

Cotta, C.; Moscato, P.

In: Merelo, J., ed.

Inferring Phylogenetic Trees Using Evolutionary Algorithms.

Parallel Problem Solving From Nature VII

, Springer-Verlag, 2002,

p. 720729.
Day, W.

Optimal algorithms for comparing trees with labeled leaves.

Classication

Journal of

, v. 2, n. 1, p. 728, 1985.

De Castro, L.; Timmis, J.

Articial immune systems: a new computational intelli-

gence approach
Evolutionary computation: a unied approach
.

London: Springer, 2002.

De Jong, K.

Cambridge, Mass: MIT

Press, 2006.
Deb, K.

Multi-objective optimization using evolutionary algorithms

Wiley & Sons, 2001.

New York: John

122

REFERNCIAS BIBLIOGRFICAS

A Fast Elitist Non-Dominated


Sorting Genetic Algorithm for Multi-Objective Optimization: NSGA-II

Deb, K.; Agrawal, S.; Pratab, A.; Meyarivan, T.

KanGAL re-

port 200001, Indian Institute of Technology, Kanpur, India, 2000.


Deb, K.; Sundar, J.

Reference point based multi-objective optimization using evo-

GECCO '06: Proceedings of the 8th annual conference on


Genetic and evolutionary computation
lutionary algorithms.

In:

, New York, NY, USA: ACM, 2006, p. 635642.

Edwards, A.; Cavalli-Sforza, L.


H. V. . M., ed.

Reconstruction of evolutionary trees.

Phenetic and Phylogenetic Classication

In: J.,

, Systematics Association, p.

6776, 1964.
A successive approximations approach to character weighting.

Farris, J.

Zoology

Systematic

, v. 18, p. 374385, 1969.

Systematic Zoology

Methods for computing wagner trees.

Farris, J.

, v. 19, n. 1,

p. 8392, 1970.
Estimating phylogenetic trees from distance matrices.

Farris, J.

American Naturalist

v. 106, n. 951, p. 645668, 1972.


Hennig86 documentation.

Farris, J.

Distribuido pelo autor., 1988.

http://www.cladistics.org/education/hennig86.html

Disponvel em:

(Acessado

em 11/2007)
Maximum-likelihood and minimum-steps methods for estimating evo-

Felsenstein, J.

Systematic Zoology

lutionary trees from data on discrete characters.

, v. 22, n. 3,

p. 240249, 1973a.
Maximum-likelihood estimation of evolutionary trees from continuous

Felsenstein, J.

characters.

American Journal of Human Genetics

Felsenstein, J.

Approach.

Evolutionary Trees from DNA Sequences: A Maximum Likelihood

Journal of Molecular Evolution

Felsenstein, J.

, v. 17, p. 368376, 1981a.

Evolutionary trees from gene frequencies and quantitative characters:

Finding maximum likelihood estimates.


Felsenstein, J.

Evolution

Evolution

, v. 35, n. 6, p. 12291242, 1981b.

Condence Limits on Phylogenies: An Approach Using the Bootstrap.

, v. 39, n. 4, p. 783791, 1985.

Felsenstein, J.

Disponvel em:

html

, v. 25, p. 471492, 1973b.

The newick tree format.

2000a.

http://evolution.genetics.washington.edu/phylip/newicktree.

REFERNCIAS BIBLIOGRFICAS
PHYLIP (Phylogeny Inference Package).

Felsenstein, J.

Disponvel em:

Inferring phylogenies

Sunderland, Massachusetts: Sinauer, 2004.

Toward Dening the Course of Evolution: Minimum Change for a Specic

Systematic Zoology

Tree Topology.
Fitch, W.

2000b.

http://evolution.genetics.washington.edu/phylip.html

Felsenstein, J.
Fitch, W.

123

, v. 20, n. 4, p. 406416, 1972.

A non-sequential method for constructing trees and hierarchical classicati-

Journal of Molecular Evolution

ons.

, v. 4, n. 18, p. 3037., 1981.

Science

Construction of phylogenetic trees.

Fitch, W.; Margoliash, E.

, v. 155,

p. 279284, 1967.
Fogel, L.

Autonomous automata.

Fogel, L.; Owens, A.; Walsh, M.

Industrial Research
Articial intelligence through simulated evolution
, v. 4, n. 1, p. 1419, 1962.

New York: Wiley, 1966.


Fonseca, C.; Fleming, P.

Genetic Algorithms for Multiobjective Optimization: For-

mulation, Discussion and Generalization.

In: Forrest, S., ed.

Fifth International Conference on Genetic Algorithms

Proceedings of the

, University of Illinois at Urbana-

Champaign, San Mateo, California: Morgan Kauman Publishers, 1993, p. 416423.


Forster, M.; Pick, A.; Raitner, M.; Bachmaier, C.

documentation

Disponvel em:
Futuyma, D.

Gtl - graph template library

University of Pasdau, 2004.

http://infosun.fmi.uni-passau.de/GTL/

Biologia evolutiva

(Acessado em 11/2007)

Ribero Preto, SP: Sociedade Brasileira de Gentica,

1992.
Gascuel, O.

BIONJ: An Improved Version of the NJ Algorithm Based on a Sample

Model of Sequence Data.

Molecular Biology and Evolution

, v. 14, n. 7, p. 685695,

1997.
Geist, A.; Beguelin, A.; Dongarra, J.; Jiang, W.; Manchek, R.; Sunderam,
V.

Pvm: Parallel virtual machine a users' guide and tutorial for networked parallel

MIT Press, 1994.


Gladstein, D.

Ecient incremental character optimization.

Cladistics

, v. 13, p. 2126,

1997.
Gogarten, J.; Lewis, P. O.

Computer methods in molecular evolution.

Lecture

Notes. University of Connecticut, 2002.


Disponvel em:
11/2007)

http://carrot.mcb.uconn.edu/mcb372/index2.html

(Acessado em

124

REFERNCIAS BIBLIOGRFICAS

Genetic algorithms in search, optimization, and machine learning

Goldberg, D.

Re-

ading, MA: Addison-Wesley Publishing Company, Inc., 1989.


Phylogenetic information and experimental design in molecular systema-

Goldman, N.

tics.

Proceedings of the Royal Society of London Series B-Biological Sciences

, v. 265,

n. 1407, p. 17791786, 1998.


Goldman, N.; Anderson, J.; Rodrigo, A.

Systematic Biology

phylogenetics.

Likelihood-based tests of topologies in

, v. 49, n. 4, p. 652670, 2000.

Character optimization and calculation of tree lengths.

Goloboff, P.

Cladistics

, v. 9,

n. 4, p. 433436, 1993.
Goloboff, P.

Methods for faster parsimony analysis.

Cladistics

, v. 12, n. 3, p. 199220,

1996.
Analyzing large data sets in reasonable times: Solutions for composite

Goloboff, P.

optima.

Cladistics

, v. 15, n. 4, p. 415428, 1999a.

NONA (no name) ver. 2.

Goloboff, P.

Disponvel em:

Distribuido pelo author, 1999b.

http://www.cladistics.com/aboutNona.htm (Acessado em 11/2007)

Goloboff, P.; Farris, J.

Methods for quick consensus estimation.

Cladistics

, v. 17,

n. 1, p. S26S34, 2001.

Cladistics
Fundamentals of molecular evolution
Mthodes et algorithmes pour l'approche statistique en phylognie
Tnt.

Goloboff, P.; Farris, J.; Nixon, K.

, v. 20, n. 1, p. 8484, 2004.


.

Graur, D.; Li, W.-H.

Guindon, S.

2 ed.

Sinauer, 2000.
.

Tese

de Doutoramento, U.F.R. Sciences de Montpellier. Universit de Montpellier II, 2003.


Guindon, S.; Gascuel, O.

A Simple, Fast, and Accurate Algorithm to Estimate Large

Phylogenies by Maximum Likelihood.

Systematic Biology

Haimes, Y.; Lasdon, L.; Wismer, D.

, v. 5, n. 52, p. 696704, 2003.

On a bicriterion formulation of the problems

of integrated system identication and system optimization.

Systems, Man, and Cybernetics

IEEE Transactions on

, v. 1, n. 3, p. 296297, 1971.

Hajela, P.; Lin, C. Y.

Structural Optimization

Genetic search strategies in multicriterion optimal design.

, v. 4, p. 99107, 1992.

Handl, J.; Kell, D.; Knowles, J.

nal Biology and Bioinformatics.

Bioinformatics

Multiobjective Optimization in Computatio-

IEEE Transactions on Computational Biology and

, v. 4, n. 2, p. 289292, 2006.

REFERNCIAS BIBLIOGRFICAS
Hartigan, J.

125

Minimum mutation ts to a given tree.

Biometrics

, v. 29, n. 1, p. 5365,

1973.
Hasegawa, M.; Kishino, H.; Yano, T.

a Molecular Clock of Mitochondrial DNA.

Dating of the HumanApe Splitting by

Journal of Molecular Evolution

, v. 22,

p. 160174, 1985.

Practical genetic algorithms

Haupt, R.; Haupt, S.

Hendy, M.; Penny, D.

nary trees.

tion

Branch and bound algorithms to determine minimal evolutio-

Mathematical Biosciences

Hendy, M.; Penny, D.

New York: Wiley, 1998.

, v. 60, p. 133142, 1982.

Spectral analysis of phylogenetic data.

Journal of Classica-

, v. 10, p. 524, 1993.

Hillis, D.; Bull, J.; White, M.; Badgett, M.; Molineux, I.

phylogenetics - generation of a known phylogeny.

Science

Experimental

, v. 255, n. 5044, p. 589592,

1992.
Holland, J.

Adaptation in natural and articial systems

University of Michigan

Press, 1975.

Adaptation in natural and articial systems: an introductory analysis with


applications to biology, control, and articial intelligence

Holland, J.

1st mit press ed. ed.

Complex adaptive systems,

Cambridge, Mass: MIT Press, 1992.


Improving the eciency of SPR moves in phylogene-

Hordijk, W.; Gascuel, O.

tic tree search methods based on maximun likelihood.

Bioinformatics

, v. 21, n. 24,

p. 43384347, 2005.
Horn, J.; Nafpliotis, N.; Goldberg, D.

A Niched Pareto Genetic Algorithm for

Proceedings of the First IEEE Conference on Evolutionary Computation, IEEE World Congress on Computational Intelligence

Multiobjective Optimization.

In:

, Piscataway,

New Jersey: IEEE Service Center, 1994, p. 8287.


Huelsenbeck, J.

Biology

Performance of Phylogenetic Methods in Simulation.

Systematic

, v. 44, p. 1748, 1995.

Huelsenbeck, J.; Ronquist, F.

formatics

MrBayes: Bayesian inference of phylogeny.

Bioin-

, v. 17, p. 754755, 2001.

Huelsenbeck, J.; Ronquist, F.

mixed models.

Bioinformatics

Mrbayes 3: Bayesian phylogenetic inference under

, v. 19, p. 15721574, 2003.

126

REFERNCIAS BIBLIOGRFICAS
Bayesian inference

Huelsenbeck, J.; Ronquist, F.; Nielsen, R.; Bollback, J.

Science

of phylogeny and its impact on evolutionary biology.

, v. 294, p. 23102314,

2001.
mtDB: Human Mitochondrial Genome Database, a

Ingman, M.; Gyllensten, U.

Nucleic Acids Research

Resource for Population Genetics and Medical Sciences.

, v. 34,

p. D749D751, 2006.
Limitations of the Evolutionary Parsimony Method of Phylogenetic

Jin, L.; Nei, M.

Molecular Biology and Evolution


Treender manual

Analysis.

, v. 7, p. 82102, 1990.

Jobb, G.

Disponvel em:

2007.

http://www.treefinder.de/

Jones, D.; Taylor, W.; Thorton, J.

from protein sequences.

(Acessado em 11/2007)

The rapid generation of mutation data matrices

Computer Applications in the Biosciences

, v. 8, p. 275282,

1992.
Jukes, T.; Cantor, C.

molecules

Mammalian protein metabolism.

In:

Evolution of protein

, Academic Press, p. 21120, 1969.

Katoh, K.; Kuma, K.; Miyata, T.

Analysis for Molecular Phylogeny.

Genetic Algorithm-Based Maximum-Likelihood

Journal of Molecular Evolution

, v. 53, p. 477484,

2001.
Evaluation of the maximum likelihood estimate of the

Kishino, H.; Hasegawa, M.

evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea.

Journal of Molecular Evolution

, v. 4, p. 170179, 1989.
Multi-Objective Optimization

Kita, H.; Yabumoto, Y.; Mori, N.; Nishikawa, Y.

by Means of the Thermodynamical Genetic Algorithm.


ling, W.; Rechenberg, I.; Schwefel, H.-P., eds.

NaturePPSN IV
in Computer Science

In:

Voigt, H.-M.; Ebe-

Parallel Problem Solving from


Lecture Notes

, Berlin, Germany: Springer-Verlag, 1996, p. 504512 (


, v.1).

Knowles, J.; Corne, D.

The Pareto Archived Evolution Strategy:

line Algorithm for Multiobjective Optimisation.

Computation

In:

A New Base-

1999 Congress on Evolutionary

, Washington, D.C.: IEEE Service Center, 1999, p. 98105.

Kosakovsky, S.; Muse, S.

likelihood function.

Column sorting: Rapid calculation of the phylogenetic

Systematic Biology

Kuhner, M.; Felsenstein, J.

, v. 53, n. 5, p. 685692, 2004.

A Simulation Comparison of Phylogeny Algorithms

under Equal and Unequal Evolutionary Rate.


p. 459468, 1994.

Molecular Biology and Evolution

, v. 11,

REFERNCIAS BIBLIOGRFICAS
Lake, J.

127

A rate-independent technique for analysis of nucleic acid sequences: Evoluti-

onary parsimony.

Molecular Biology and Evolution


Faster likelihood calculations on trees

, v. 4, p. 167191, 1987.
.

Larget, B.; Simon, D.

Relatrio Tcnico,

Department of Mathematics and Computer Science. Duquesne University, 1998.


Larget, B.; Simon, D.

of phylogenetic trees.

Markov chain monte carlo algorithms for the bayesian analysis

Molecular Biology and Evolution

, v. 16, n. 6, p. 750759, 1999.

Laumanns, M.; Rudolph, G.; Schwefel, H.

A Spatial Predator-Prey Approach

to Multi-Objective Optimization: A Preliminary Study.


nauer, M.; Schwefel, H.-P., eds.

In: Eiben, A. E.; Schoe-

Parallel Problem Solving From Nature  PPSN

, Amsterdam, Holland: Springer-Verlag, 1998, p. 241249.

Lemmon, A. R.; Milinkovitch, M. C.

The Metapopulation Genetic Algorithm: An

Ecient Solution for the Problem of Large Phylogeny Estimation.

the National Academy of Sciences

In:

Proceedings of

, 2002a, p. 1051610521.

Lemmon, A. R.; Milinkovitch, M. C.

milinkovitch(2002).

Supporting information for lemmon and

2002b.

http://www.ulb.ac.be/sciences/ueg/pdf_files/Lem&Milinko_02_
supp_data.pdf (Acessado em 11/2007)

Disponvel em:

Lewis, P. O.

A Genetic Algorithm for Maximum-Likelihood Phylogeny Inference Using

Nucleotide Sequence Data.

Molecular Biology and Evolution

, v. 15, n. 3, p. 277283,

1998.
Li, S.; Pearl, D.; Doss, H.

carlo.

Phylogenetic tree construction using markov chain monte

Journal of the American Statistical Association

Mak, T.; Lam, K.

hw/sw codesign.

(CSB'03)

, v. 95, n. 450, p. 493508, 2000.

High speed GAML-based phylogenetic tree reconstruction using


In:

Proceeding of the Computational Systems Bioinformatics

, IEEE Press, 2003, p. 470473.

Matsuda, H.

Construction of phylogenetic trees from amino acid sequences using a

genetic algorithm.

In:

Pacic Symposium on Biocomputing '96

, World Scientic, 1996,

p. 512523.
Mau, B.; Newton, M.

Phylogenetic inference for binary data on dendograms using

markov chain monte carlo.

Journal of Computational and Graphical Statistics

, v. 6,

n. 1, p. 122131, 1997.
Michalewicz, Z.

Genetic algorithms + data structures = evolution programs

rev. and extended ed. ed.

Berlin: Springer-Verlag, 1996.

3rd

128

REFERNCIAS BIBLIOGRFICAS
A quantitative approach to a problem in classication.

Michener, C.; Sokal, R.

Evolution

, v. 11, p. 130162, 1957.

Nonlinear multiobjective optimization


Operations Research & Management Science

, v. 12 de

Miettinen, K.

International Series in

Boston: Kluwer Academic Publishers,

1999.
Searching for Most Parsimonious Trees with Simulated Evolutionary

Moilanen, A.

Cladistics

Optimization.

, v. 15, p. 3950, 1999.

Simulated evolutionary optimization and local search: Introduction and

Moilanen, A.

application to tree search.


Morrison, D. A.

Cladistics

, v. 17, p. S12S25, 2001.

Phylogenetic tree-building.

International Journal of Parasitology

v. 26, n. 6, p. 589617, 1996.


Nei, M.; Kumar, S.

Molecular evolution and phylogenetics

Oxford University Press,

2000.
Nei, M.; Takezaki, N.; Sitnikova, T.

Science

Assessing molecular phylogenies.

v. 267, p. 253255, 1994.


Nixon, K.

distics

The parsimony ratchet, a new method for rapid parsimony analysis.

Cla-

, v. 15, n. 4, p. 407414, 1999.

Olsen, G.; Matsuda, H.; Hagstrom, R.; Overbeek, R.

fastDNAml:

A tool

for construction of phylogenetic trees of DNA sequences using maximun likelihood.

Computer Applications in the Biosciences


Molecular evolution: A phylogenetic approach
, v. 10, n. 1, p. 4148, 1994.

Page, R. D. M.;

Holmes, E. C.

Blackwell Science Ltd., 1998.


Peer, Y.

Phylogeny inference based on distance methods.

damme, A., eds.

tein Phylogeny

In: Salemi, M.; Van-

The Phylogenetic Handbook: A Practical Approach to DNA and Pro-

, cp. 5, Cambridge University Press, p. 101136, 2003.

Penny, D.; Hendy, M.; Henderson, I.

Reliability of evolutionary trees.

Spring Harbor Symposium on Quantitative Biology

Poladian, L.; Jermiin, L.

lihood Function.

Cold

, 1987, p. 857862.

Multi-Objective Evolutionary Algorithms and Phylogenetic

Inference with Multiple Data Sets.


Pond, S. K.; Muse, S.

In:

Soft Computing

, v. 10, n. 4, p. 359368, 2006.

Column Sorting: Rapid Calculation of the Phylognetic Like-

Systematic Biology

, v. 53, n. 5, p. 685592, 2004.

REFERNCIAS BIBLIOGRFICAS
Prado, O.

129

Computao evolutiva empregada na reconstruo de rvores logenticas

Dissertao de Mestrado, DCA-FEEC/Unicamp, 2002.

Numerical recipes in

Press, W.; Flannery, B.; Teukolsky, S.; Vetterling, W.

c: the art of scientic computing

2nd ed. ed.

Cambridge: Cambridge University

Press, 1992.
Pupko, T.; Graur, D.

Fast computation of maximum likelihood trees by numerical

approximation of amino acid replacement probabilities.

Data Analysis

Computational Statistics &

, v. 40, p. 285291, 2002.

Queiroz, K.; Poe, S.

Philosophy and phylogenetic inference: a comparison of like-

lihood and parsimony methods in the context of karl popper's writings on corroboration.

Systematic Biology

, v. 50, n. 3, p. 305321, 2001.

Quesne, W. L.

Zoology

A method of selection of characters in numerical taxonomy.

Systematic

, v. 18, p. 201205, 1969.

Quesne, W. L.

Linnean Society

Compatibility analysis and its applications.

Zoological Journal of the

, v. 74, p. 267275, 1982.


Probability distribution of molecular evolutionary trees: A

Rannala, B.; Yang, Z.

new method of phylogenetic inference.

Journal of Molecular Evolution

, v. 43, n. 3,

p. 304311, 1996.

Cybernetic solution path of an experimental problem

Rechenberg, I.

Relatrio

Tcnico 1122, Royal Aircraft Establishment, Library Translation Number 1122, Franborough, UK., 1965.
Reijmers, T.; Wehrens, R.; Daeyaert, F.; Lewi, P.; Buydens, L.

Using genetic

algorithms for the construction of phylogenetic trees: Application to g-protein coupled


receptor sequences.
Rich, E.; Knight, K.

Biosystems
Articial intelligence

, v. 49, p. 3143, 1999.


.

2nd ed. ed.

New York: McGraw-Hill,

1991.
Ridley, M.

Evolution

2nd ed. ed.

Robinson, D.; Foulds, L.

mathematics VI

Cambridge, Mass., USA: Blackwell Science, 1996.

Combinatorial
Lecture Notes in Mathematics

Comparison of weighted labelled trees.

, Springer, 1979, p. 119126 (

Rogers, J.; Swofford, D.

, v.748).

A fast method for approximating maximun likelihoods of

phylogenetic trees from nucleotide sequences.


1998.

In:

Systematic Biology

, v. 47, n. 1, p. 7789,

130

REFERNCIAS BIBLIOGRFICAS

Rokas, A.; Wiliams, B.; King, N.; Carroll, S.

Genome-Scale Approaches to

Nature

Resolving Incongrounce in Molecular Phylogenies.

, v. 425, n. 23, p. 798804,

2003.
Ronquist, F.

Cladistics

Fast tch-parsimony algorithms for large data sets.

, v. 14,

n. 4, p. 386400, 1998.
Ronquist, F.; Huelsenbeck, J.; Mark, P.

Mrbayes 3.1 manual

School of Com-

puter Science. Florida State University, 2005.

Proceedings of the International NAISO Congress on Information Science Innovations (ISI


2001)
Articial intelligence: a modern approach
Evolutionary Search under Partially Ordered Fitness Sets.

Rudolph, G.

In:

, ICSC Academic Press: Millet/Sliedrecht, 2001, p. 818822.

Russell, S.; Norvig, P.

series in articial intelligence.

Englewood Clis, N.J: Prentice Hall, 1995.

Russo, C.; Takezaki, N.; Nei, M.

Eciencies of dierent genes and dierent tree-

Molecular Biology and

building methods in recovering a known vertebrate phylogeny.

Evolution

, v. 13, n. 3, p. 525536, 1996.

Rzhetsky, A.; Nei, M.

trees.

Prentice Hall

A simple method for estimating and testing minimum-evolution

Molecular Biology and Evolution

, v. 9, p. 945967, 1992.

Relative eciencies of the tch-margoliash, maximum-

Saitou, N.; Imanishi, T.

parsimony, maximun-likelihood, minimum evolution, and neighbor-joining methods of


phylogenetic tree construction in obtaining the correct tree.

Evolution

, v. 6, p. 514525, 1989.

Saitou, N.; Nei, M.

Phylogenetic Trees.

The Neighbor-Joining Method: A New Method for Reconstructing

Molecular Biology and Evolution


SIAM Journal of Applied Mathe, v. 4, n. 4, p. 406425, 1987.

Minimal mutation trees of sequences.

Sankoff, D.

matics

Molecular Biology and

, v. 28, p. 3542, 1975.

Sankoff, D.

Problems.

Simultaneous Solution of the RNA Folding, Alignment and Proto-Sequence

SIAM Journal on Applied Mathematics

, v. 45, n. 5, p. 810825, 1985.

Sattath, S.; Tversky, A.

Additive similarity trees.

Psychometrika

, v. 42, p. 319345,

1977.
Schaffer, J.

Multiple Objective Optimization with Vector Evaluated Genetic Al-

Genetic Algorithms and their Applications: Proceedings of the First


International Conference on Genetic Algorithms
gorithms.

In:

, Lawrence Erlbaum, 1985, p. 93100.

REFERNCIAS BIBLIOGRFICAS
Schwefel, H.

sendse, teil i.

131

Projekt mhd-staustrahlrohr: Experimentelle optimierung einer zweiphaRelatrio Tcnico 11.034/68, 35, AEG Forschungsinstitut, Berlin,

1968.
Setubal, J.; Meidanis, J.

Introduction to computational molecular biology

Interna-

tional Thomson, 1997.


An approximately unbiased test of phylogenetic tree selection.

Shimodaira, H.

tematic Biology

Sys-

, v. 51, n. 3, p. 492508, 2002.

Shimodaira, H.; Hasegawa, M.

Likelihood-Based Tests of Topologies in Phylogene-

Molecular Biology and Evolution


The boost graph library: User guide and reference
manual
tics.

, v. 16, n. 8, p. 11141116, 1999.

Siek, J.; Lee, L.; Lumsdaine, A.

Addison-Wesley, Pearson Education Inc., 2002.

Disponvel em:

http://www.boost.org/libs/graph/doc/index.html

(Acessado em

11/07)
Skourikhine, A.

Phylogenetic tree reconstruction using self-adaptive genetic algorithm.

1st IEEE International Symposium on Bio-Informatic and Biomedical Engineering


(BIBE 2000)
In:

, IEEE Press, 2000, p. 193199.

Relative eciencies of the maximum parsimony and distance-

Sourdis, J.; Nei, M.

matrix methods in obtaining the correct phylogenetic tree.

Evolution

, v. 5, p. 298311, 1988.
Multiobjective Optimization Using Nondominated Sorting in

Srinivas, N.; Deb, K.

Evolutionary Computation

Genetic Algorithms.
Stamatakis, A.

nealing.

Molecular Biology and

In:

(IPDPS'05)

, v. 2, n. 3, p. 221248, 1994.

An ecient program for phylogenetic inference using simulated an-

19th IEEE International Parallel and Distributed Processing Symposium

, 2005.

Stamatakis, A.

Phylogenetic models of rate heterogeneity: a high performance com-

puting perspective.

In:

2006. 20th International

Parallel and Distributed Processing Symposium, 2006. IPDPS

, 2006a, p. 8 pp.

Stamatakis, A.

Raxml-vi-hpc: Maximum likelihood-based phylogenetic analyses with

thousands of taxa and mixed models.

Bioinformatics

, v. 22, n. 21, p. 26882690,

2006b.
Stamatakis, A.; Ludwig, T.; Meier, H.

Raxml-ii: a program for sequential, pa-

rallel and distributed inference of large phylogenetic.

Practice & Experience

Concurrency and Computation-

, v. 17, n. 14, p. 17051723, 2005a.

132

REFERNCIAS BIBLIOGRFICAS

Stamatakis, A.; Ludwig, T.; Meier, H.

RAxML-III: A fast program for maximum

Bioinformatics

likelihood based inference of large phylogenetic trees.

, v. 21, n. 4,

p. 456463, 2005b.
Stamatakis, A.; Ludwig, T.; Meier, H.; Wolf, M.

Accelerating parallel maximun

likelihood-based phylogenetic tree calculations using subtree equality vectors.


P., ed.

15th IEEE/ACM Supercomputing Conference (SC2002)

In: CD,

, Baltimore, Maryland

2002a.
Stamatakis, A.; Ludwig, T.; Meier, H.; Wolf, M.

AxML: A fast program for

sequential and parallel phylogenetic tree calculations based on the maximun likelihood
method.

In:

(CSB2002)

Proceedings of 1st IEEE Computer Society Bioinformatics Conference

, Palo Alto, California, 2002b, p. 2128.

Stamatakis, A.; Meier, H.

New Fast and Accurate Heuristics for Inference of Large

18th IEEE/ACM International Parallel and Distributed Processing Symposium (IPDPS2004)


Phylogenetic Trees.

In:

, 2004.

Nucleotide substitution models.

Strimmer, K.; Haeseler, A.


Vandamme, A., eds.

Protein Phylogeny

In: Salemi, M.;

The Phylogenetic Handbook: A Practical Approach to DNA and

, cp. 4, Cambridge University Press, p. 72100, 2003.

Strimmer, K.; Haesler, A.

Quartet puzzling: A quartet maximum-likelihood method

for reconstructing tree topologies.

Molecular Biology and Evolution

, v. 13, p. 407514,

1996.
Lecture 7: Phylogenetic trees reconstruction.

Sung, W.-K.

2002.

http://www.comp.nus.edu.sg/~ksung/cs5238/2002Sem1/note/
note_taking_list.htm (Acessado em 11/2007)
Disponvel

em:

Swofford, D.

PAUP* Phylogenetic Analisys Using Parsimony.

CSIT Florida State

University, 2000.
Swofford, D.; Olsen, G.; Waddell, P.; Hillis, D.

In:

Molecular Systematics

Phylogeny Reconstruction.

, 3 ed, cp. 11, Sinauer, p. 407514, 1996.

Swofford, D.; Sullivan, J.

methods using paup*.

In:

Phylogeny inference based on parsimony and other


Salemi, M.; Vandamme, A., eds.

Handbook: A Practical Approach to DNA and Protein Phylogeny

The Phylogenetic

, cp. 7, Cambridge

University Press, p. 160206, 2003.


Sywerda, G.

Uniform crossover in genetic algorithms.

international conference on Genetic algorithms

In:

Proceedings of the third

, Morgan Kaufmann Publishers Inc.,

1989, p. 29.

REFERNCIAS BIBLIOGRFICAS

133
Relative Eciences of the Maximum-Likelihood,

Tateno, Y.; Takezaki, N.; Nei, M.

Neighbor-Joining, and Maximum Parsimony Methods when Substitution Rate Varies


with Site.

Molecular Biology and Evolution

, v. 11, p. 261267, 1994.

Templeton, A.

Phylogenetic inference from restriction endonuclease cleavage site maps

with particular reference to the evolution of humans and the apes.

Evolution

, v. 37,

n. 2, p. 221244, 1983.
Tuffley, C.; Steel, M.

Links between maximum likelihood and maximum parsimony

Bulletin of Mathematical Biology

under a simple model of site substitution.

, v. 59,

n. 3, p. 581607, 1997.

Multiobjective Evolutionary Algorithms: Classications, Analyses,


and New Innovations

Veldhuizen, D. V.

Tese de Doutoramento, Department of Electrical and Computer

Engineering. Graduate School of Engineering. Air Force Institute of Technology, WrightPatterson AFB, Ohio, 1999.
Veldhuizen, D. V.; Zydallis, J.; Lamont, G.

IEEE Transactions on Evolutionary

rallel multiobjective evolutionary algorithms.

Computation

Considerations in engineering pa-

, v. 7, n. 2, p. 144  173, 2003.

Vinh, L.; Haeseler, A.

Iqpnni: Moving fast through tree space and stopping in time.

Molecular Biology and Evolution


Genetic data analysis ii

, v. 21, n. 8, p. 15651571, 2004.


.

Weir, B.

Yang, Z.

Sinauer, 1996.

Maximum-Likelihood Estimation of Phylogeny from DNA Sequences when

Substitution Rates Dier over Sites.

Molecular Biology and Evolution

, v. 10, n. 6,

p. 13961401, 1993.
Yang, Z.

Maximum-likelihood phylogenetic estimation from DNA sequences with va-

Journal of Molecular evolution

riable rates over sites: Approximate methods.

, v. 39,

n. 3, p. 306314, 1994.
Yang, Z.

lihood.
Yang, Z.

PAML: A Program Package for Phylogenetic Analysis by Maximum Like-

Computer Applications in Biosciences

, v. 13, n. 5, p. 5556, 1997.

Maximum Likelihood Estimation on Large Phylogenies and Analysis of Adap-

tative Evolution in Human Inuenza Virus A.

Journal of Molecular Evolution

, v. 51,

n. 5, p. 423432, 2000.
Yang, Z.

Computational molecular evolution

Oxford: Oxford University Press, 2006.

Oxford series in ecology and evolution.

134
Zeleny, M.

REFERNCIAS BIBLIOGRFICAS
Compromise programming.

Multiple Criteria Decision Making

In:

Cochrane, J.; Zeleny, M., eds.

, University of South Carolina Press, 1973, p. 262

301.
Zitzler, E.; Deb, K.; Thiele, L.

rithms: Empirical Results.

Comparison of Multiobjective Evolutionary Algo-

Evolutionary Computation
SPEA2: Improving the Strength Pareto
, v. 8, n. 2, p. 173195, 2000.

Zitzler, E.; Laumanns, M.; Thiele, L.

Evolutionary Algorithm

Relatrio Tcnico 103, Computer Engineering and Networks

Laboratory (TIK), Swiss Federal Institute of Technology (ETH) Zurich, Gloriastrasse


35, CH-8092 Zurich, Switzerland, 2001.

An Evolutionary Algorithm for Multiobjective Optimization:


The Strength Pareto Approach

Zitzler, E.; Thiele, L.

Relatrio Tcnico 43, Computer Engineering and

Communication Networks Lab (TIK), Swiss Federal Institute of Technology (ETH),


Zurich, Switzerland, 1998.

Genetic algorithm approaches for the phylogenetic analysis of large biological


sequence datasets under the maximum likelihood criterion

Zwickl, D.

Faculty of the Graduate School. University of Texas., 2006.

Tese de Doutoramento,

Вам также может понравиться