Вы находитесь на странице: 1из 133

Bioinformtica

Prof. Eng. D.Sc. Emerson Cordeiro Morais


Rev. 18/02/2013
Prof. Eng. D.Sc. Emerson Cordeiro Morais
2
Ementa do Curso
Captulo I Fundamentos da Bioinformtica
Captulo II Dados Biolgicos e Recuperao da Informao
Captulo III Alinhamento de Sequncias
Captulo IV rvores Filogenticas
Captulo V Estruturas de Protenas
Captulo VI Introduo Protemica

Prof. Eng. D.Sc. Emerson Cordeiro Morais
3
Objetivos do Curso
! Uma compreenso sobre a natureza da grande quantidade disponvel de
informaes detalhadas sobre ns mesmos e sobre outras espcies;
! Uma ideia da abrangncia das aplicaes da Bioinformtica nas reas
de: Biologia Molecular, Agronomia, Medicina Clnica, Farmacologia,
Biotecnologia, Cincia Forense, Antropologia, entre outras;
! Um conhecimento til das tcnicas por meio das quais (atravs da
Web) obtemos acesso aos dados e aos mtodos para analis-los;


Prof. Eng. D.Sc. Emerson Cordeiro Morais
4
Objetivos do Curso
! Uma apreciao do papel dos computadores e da Cincia da
Computao nas investigaes e aplicaes dos dados;

! Confiana nas suas habilidades bsicas para recuperao de
informaes e clculo com os dados, e na capacidade de estender essas
habilidades para direcionar o seu trabalho de campo na web;
! Um sentimento de otimismo de que os dados e mtodos da
Bioinformtica ocasionaro avanos profundos em nossa compreenso
da vida e melhorias na sade de humanos e de outras formas de vida.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
5
Bibliografia Bsica
! Arthur M. Lesk. Introduo Bioinformtica. 2.
Edio. Porto Alegre: Artmed, 2008.
! David Mount. Bioinformatics: Sequence and
Genome Analysis. 2
nd
Edition. New York: Cold
Spring Harbor Laboratory Press, 2004.
! Joo Carlos Setubal & Joo Carlos Meidanis.
Introduction to Computational Molecular Biology.
Boston: PWS Publishing Company, 1997.
! Cynthia Gibas & Per Jambeck. Desenvolvendo
Bioinformtica: Ferramentas de Software para
Aplicaes em Biologia. Rio de Janeiro: Campus,
2003.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
6
Bibliografia Complementar
! Pavel A. Pevzner. Computational Molecular
Biology An Algorithmic Approach. London: The
Mit Press, 2000.
! Pierre Baldi & Sren Brunak. Bioinformatics
The Machine Learning Approach. 2
nd
Edition. The
Mit Press: The Mit Press, 2001.
! Neil C. Jones & Pavel A. Pevzner. An
Introduction to Bioinformatics Algorithms.
London: The Mit Press, 2004.
! Andr zej Pol anski & Mar ek Ki mmel .
Bioinformatics. New York: Springer-Verlag Berlin
Heidelberg, 2007.


Captulo I Fundamentos da
Bioinformtica
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Prof. Eng. D.Sc. Emerson Cordeiro Morais
O que Bioinformtica?
! Desenvolvimento de mtodos e algoritmos para organizar, integrar,
analisar e interpretar dados biolgicos e biomdicos.
! Estudo das estruturas inerentes e dos fluxos de informaes
biolgicas.
! Objetivos da Bioinformtica:
" Identificar padres;
" Classificar;
" Fazer predies;
" Criar modelos; e
" Utilizar melhor o conhecimento existente.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
O que Bioinformtica?
Surge da necessidade de se armazenar e analisar a enorme
quantidade de dados biolgicos provenientes do genoma
Prof. Eng. D.Sc. Emerson Cordeiro Morais
A Velha Biologia
A tarefa mais difcil para um cientista obter bons resultados!!!
Prof. Eng. D.Sc. Emerson Cordeiro Morais
11
A Nova Biologia
! A Biologia tem sido tradicionalmente uma cincia mais de observao
do que de deduo.
! Atualmente, possvel determinar a sequncia genmica de um nico
organismo no apenas de forma completa, mas tambm, em princpio, de
forma exata.
! Erros experimentais no podem ser inteiramente evitados, mas, no
sequenciamento moderno de genomas, eles so extremamente baixos.
! Porm, isto ainda no converte a Biologia em uma cincia dedutiva.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
12
A Nova Biologia
! Outra propriedade bvia dos dados de Bioinformtica o seu grande
volume.
! A figura mostra o crescimento do GenBank (BD de sequncias de cidos
nuclicos) e do Protein Data Bank (BD de estruturas de macromolculas).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
13
A Nova Biologia
! Objetivos ambiciosos dos cientistas:
" Entender aspectos integrados da Biologia dos organismos, visto como
sistemas complexos coerentes;
" Inter-relacionar sequncia, estrutura tridimensional, padres de
expresso, interaes e funo de protenas individuais, cidos
nuclicos e complexos protena-cidos nuclicos;
" Integrar os dados sobre diferentes aspectos da vida de uma clula ou
de um organismo, em termos de sistema, da sua estrutura e dinmica;
" Usar dados acerca de organismos contemporneos como base para
inferncias sobre o passado e o futuro destes organismos;
" Apoiar aplicaes nas reas de medicina, agricultura e tecnologia.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
A Nova Biologia
A tarefa mais difcil para um cientista dar sentido a uma grande
quantidade de dados!!!!
Prof. Eng. D.Sc. Emerson Cordeiro Morais
15
A Vida no Espao e no Tempo
! Existem problemas filosficos e religiosos na definio do termo vida.
! A interface entre in vivo e in silico (no computador) se torna mais tnue.
! Definio de Organismo Biolgico para este curso:
" um dispositivo de ocorrncia natural, que se auto-reproduz e
capaz de manipular, de forma controlada, matria, energia e
informao.
! A vida se estende no apenas no espao, mas tambm no tempo, h
aproximadamente, 3,5 bilhes de anos.
! A teoria da seleo natural tem sido extremamente bem-sucedida na
racionalizao dos processos de desenvolvimento da vida.
! Os genomas contemporneos contm os registros da prpria evoluo da
espcie.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
16
Evoluo
! A assimetria entre o gentipo e o fentipo o motor da evoluo:
" As alteraes no gentipo so hereditrias. Efeitos do ambiente ou do
estilo de vida sobre o fentipo no so diretamente herdveis.
" Durante o desenvolvimento de qualquer organismo, o gentipo limita
o fentipo e o fentipo no influencia o gentipo.
" Muitos gentipos podem criar o mesmo fentipo.
" Muitas mutaes nos genes codificadores de protenas mantm a
sequncia de aminocidos inalterada, ou acarretam modificaes sem
efeito na funo.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
17
Evoluo
! Uma populao um grupo de organismos semelhantes que interagem.
! A evoluo altera a composio e a distribuio do conjunto de genes e
fentipos em uma populao.
! Apesar da evoluo no ter influncia direta sobre o gentipo, indivduos
com diferentes fentipos apresentam sucesso diferenciado na reproduo.
! Como resultado, a nova gerao pode ter uma distribuio alterada de
gentipos e fentipos.
! A seleo natural o mecanismo mais importante da evoluo.
! A deriva gnica (mutaes, recombinao, duplicao e fluxo) outro
mecanismo de evoluo, e este no depende do processo seletivo, sendo
especialmente importante em populaes pequenas e isoladas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
18
Evoluo
! Podemos concluir que a evoluo pode aumentar ou diminuir a
variedade do reservatrio de genes.
! A microevoluo afeta indivduos em uma populao. Se refere a
mudanas relativamente pequenas em uns poucos genes.
! A macroevoluo se refere a mudanas que afetam uma populao como
um todo, incluindo formao de novas espcies.
! As observaes da micro e macroevoluo se complementam.
! Um grande desafio para a Biologia moderna o entendimento de como
eventos de larga escala, tal como o desenvolvimento de novas espcies,
podem ocorrer como resultado de eventos microevolucionrios.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
19
Dogma Central da Biologia
N

v
e
l

d
e

O
r
g
a
n
i
z
a

o

organismo
rgos
tecidos
clulas
cromossomos
Prof. Eng. D.Sc. Emerson Cordeiro Morais
20
Dogma Central da Biologia
Prof. Eng. D.Sc. Emerson Cordeiro Morais
21
DNA, RNA e Protenas
! O arquivo de informaes em
cada organismo o material
gentico (DNA), ou em alguns
vrus, o RNA.
! Molculas de DNA so cadeias
longas, lineares, contendo uma
mensagem em um alfabeto de
quatro letras, representando os
nucl eot deos de ocorrnci a
natural: a (adenina), g (guanina), c
(citosina) e t (timina).
! Em cadeias de RNA ocorre u
(uracila).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
22
DNA, RNA e Protenas
! Implcitos na estrutura do DNA
esto os mecanismos para a auto-
replicao, transcrio e traduo
dos genes em protenas.
! Francis Crick props, em 1956, o
dogma cent r al da Bi ol ogi a,
salientando o fluxo unidirecional da
informao: do DNA protena.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
23
DNA, RNA e Protenas
! As fitas na dupla hlice de DNA
so anti-paralelas; as direes ao
longo de cada uma das fitas so
indicadas pelas extremidades 3 e
5 (pel as posi es no anel
desoxirribose).

! Na traduo para protenas, a
sequncia de DNA sempre lida
na direo 5 ! 3.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
24
DNA, RNA e Protenas
! As protenas so as molculas responsveis pela maior parte da estrutura
e atividade dos organismos. Exemplos: cabelos, msculos, enzimas
digestivas e anticorpos.
! Cdons so tripletos de letras sucessivas da sequncia do DNA que
codificam sequncias de aminocidos de protenas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
25
DNA, RNA e Protenas
! Existe um aminocido de ocorrncia natural
raro, a selenocistena (U).
! Nem todo DNA expresso como protenas
ou RNA estrutural.
! Muitos dos genes nos organismos
superiores contm sequncias internas no
traduzidas, ou ntrons.
! Os fragmentos do mRNA que sero
traduzidos chamam-se xons.
! Splicing o processo que remove os
ntrons e junta os xons durante a transcrio
do RNA.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
26
DNA, RNA e Protenas
! Algumas regies da sequncia de DNA atuam como mecanismos de
controle: promotores e terminadores.
! E uma poro substancial do genoma dos organismos superiores
aparenta ser suprflua (junk DNA).
! Existe distino entre suprfluo e lixo: o lixo descartvel, enquanto
o suprfluo mantido, o que pode significar que j tiveram alguma funo
no passado ou simplesmente ainda no entendemos sua funo.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
27
DNA, RNA e Protenas
! Protenas e RNAs estruturais, diferentes do DNA, possuem ampla
variedade de conformaes tridimensionais. Essa variedade necessria
para garantir o desempenho de seus diversos papis funcionais.
! A sequncia de aminocidos de uma protena determina a sua
estrutura tridimensional.
! Para cada sequncia de aminocido natural, h um nico estado nativo
estvel, o qual, sob condies adequadas, adotado espontaneamente.
! O enovelamento de uma cadeia polipeptdica em uma estrutura
tridimensional precisa muito difcil de explicar de maneira lgica, porque
depende de muitas variveis (grande salto da natureza!!!)
! As funes das protenas dependem de elas adotarem a estrutura
tridimensional do seu estado nativo.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
28
Ligao Peptdica
xjkafkja
dfAFJ
Prof. Eng. D.Sc. Emerson Cordeiro Morais
29
DNA, RNA e Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
30
DNA, RNA e Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
31
DNA, RNA e Protenas
! Muitos mecanismos reguladores dependem da ligao de protenas a
outras protenas ou ao DNA.
! Portanto, temos o seguinte paradigma:
" A sequncia do DNA determina a sequncia da protena;
" A sequncia da protena determina a estrutura da protena;
" A estrutura da protena determina a funo da protena;
" Mecanismos reguladores, incluindo, mas no limitado ao controle de
padres de expresso, fornecem as quantidades corretas das funes
corretas, nos momentos e locais corretos.
! Estes problemas sobre fluxo e controle da informao em clulas e
organismos, so tpicos de Biologia de Sistemas.
Captulo II Dados Biolgicos e
Recuperao da Informao
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Prof. Eng. D.Sc. Emerson Cordeiro Morais
33
Antes da Bioinformtica
Prof. Eng. D.Sc. Emerson Cordeiro Morais
T7 bacteriophage
completed in 1983
39,937 bp, 59 coded proteins

Escherichia coli
completed in 1996
4,639,221 bp, 4,293 ORFs*

Sacchoromyces cerevisae
completed in 1996
12,069,252 bp, 5,800 genes
Sequenciamentos Finalizados
*open reading frame (ORF) is a DNA sequence that does
not contain a stop codon in a given reading frame
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Caenorhabditis elegans
completed in 1998
95,078,296 bp, 19,099 genes

Drosophila melanogaster
completed in 2000
116,117,226 bp, 13,601 genes


Homo sapiens
completed in 2001
3,201,762,515 bp, 31,780 genes
Sequenciamentos Finalizados
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Sequenciamentos Finalizados
Prof. Eng. D.Sc. Emerson Cordeiro Morais
37
Arquivos de Dados
! Os bancos de dados da Biologia Molecular contm:
# sequncias de cidos nucleicos e de protenas,
# estruturas e funes de macromolculas,

# padres de expresso,
# redes de vias metablicas e
# cascatas de regulao.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
38
Arquivos de Dados
! Estes BDs podem ser classificados em:
" Banco de dados primrios de arquivos de informaes biolgicas
# sequncias e estruturas de DNA e protenas, incluindo anotao;
# padres de expresso proteica e rotas metablicas; e
# padres de interao e de vias reguladoras.
" Banco de dados derivados ou secundrios
# motifs (padres de assinatura caractersticos de famlias) de
sequncias proteicas;
# mutaes de sequncias de DNA e de protenas; e
# classificaes ou relaes.
" Banco de dados bibliogrficos
" Banco de dados de conexes web.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
39
Arquivos de Dados - Anotaes
! As anotaes incluem informaes sobre a fonte de dados e a
metodologia utilizada para a sua obteno.
! Identificam os pesquisadores responsveis e citam as publicaes
relevantes.
! Fornecem conexes para informaes relacionadas em outros bancos de
dados.
! Em banco de dados de sequncias, as anotaes incluem tabelas de
caractersticas, que so listas de segmentos das sequncias que possuem
relevncia biolgica.
" Exemplo: regies de uma sequncia de DNA que codificam
protenas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
40
Acesso aos Dados
! O mecanismo de acesso a um banco de dados o conjunto de
ferramentas para responder as seguintes questes:

" a) Quais bancos de dados contm as informaes que preciso?
" b) Como posso organizar as informaes selecionadas de banco de
dados de maneira til?
" c) Onde posso encontrar alguma informao especfica?
Prof. Eng. D.Sc. Emerson Cordeiro Morais
41
Acesso aos Dados
! Uma grande variedade de consultas a banco de dados pode surgir na
Bioinformtica, entre elas:
" a) Problema do pareamento de cadeias: dada uma sequncia (ou um fragmento de
uma sequncia), encontrar sequncias no banco de dados que sejam similares
sequncia (ou ao fragmento) origem;
" b) Generalizao 3D do problema de pareamento: dada a estrutura de uma
protena (ou parte da estrutura), encontrar estruturas de protenas no banco de dados
que sejam similares;
" c) Problema do enovelamento: dada a sequncia de uma protena de estrutura
desconhecida, encontrar estruturas no banco de dados que adotem estruturas
tridimensionais similares;
" d) Problema do enovelamento inverso: dada a estrutura de uma protena,
encontrar sequncias no banco de dados que correspondam a estruturas similares.
! So tpicos de pesquisa seja na melhoria (a e b) ou na descoberta (c e d).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
42
Acesso aos Dados
! Tarefas de maior complexidade surgem quando se deseja estudar
relaes entre informaes contidas em diferentes banco de dados.

" Exemplo: Para quais estruturas tridimensionais conhecidas,
envolvidas em doenas da biossntese de purinas em humanos,
existem protenas relacionadas a fungos?.
! Estamos determinando condies sobre a estrutura conhecida, funo
especificada, deteco de relao, correlao com doenas e espcies
determinadas.
! Soluo: integrao de base da dados.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
43
Recursos na Web
! Os arquivos de sequncias de cidos nucleicos so mantidos por uma
parceria entre trs entidades:

" GenBank US National Center for Biotechnology Information (NCBI) EUA;
" EMBL Nucleotide Sequence Database European Bioinformatics Institute
(EBI) Reino Unido; e
" The Center for Information Biology e DNA DataBank of Japan (DDBJ)
National Institute of Genetics (NIG) Japo.

! Os trs sites trocam informaes diariamente para garantir que todos
tenham o mesmo contedo.
! Porm, o formato, a anotao e as conexes inerentes diferem entre as
entradas correspondentes fornecidas pelos diferentes BDs.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
44
GenBank
! Endereo web: http://www.ncbi.nlm.nih.gov/genbank/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
45
EMBL
! Endereo web: http://www.ebi.ac.uk/embl/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
46
DDBJ
! Endereo web: http://www.ddbj.nig.ac.jp/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
47
Recursos na Web
! Os arquivos de sequncias de aminocidos de protenas so mantidos
pelo United Protein Database (UniProt), uma juno dos banco de dados:
" SWISS-PROT e Translated EMBL (TrEMBL)
" The Protein Identification Resource (PIR)
Prof. Eng. D.Sc. Emerson Cordeiro Morais
48
SWISS-PROT
! Endereo web: http://www.expasy.org/sprot/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
49
PIR
! Endereo web: http://pir.georgetown.edu/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
50
UniProt
! Endereo web: http://www.uniprot.org/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
51
Recursos na Web
! Associadas aos arquivos existem ferramentas para seleo e recuperao
de sequncias:
" Sequence Retrieval System (SRS) European Bioinformatics
Institute (EBI) Reino Unido.
" ENTREZ US National Center for Biotechnology Information
(NCBI) EUA.
! Ambos permitem pesquisa paralelas em mltiplos arquivos de dados.
! Concluso: resistir intil!
Prof. Eng. D.Sc. Emerson Cordeiro Morais
52
SRS
! Endereo web: http://srs.ebi.ac.uk/
Prof. Eng. D.Sc. Emerson Cordeiro Morais
53
ENTREZ
! Endereo web: http://www.ncbi.nlm.nih.gov/sites/gquery
Prof. Eng. D.Sc. Emerson Cordeiro Morais
54
Cincia da Computao e a Biologia
! Considere o seguinte problema biolgico: recuperar de um banco de
dados todas as sequncias que so similares a uma sequncia origem.
! Uma boa soluo para este problema ir recorrer s seguintes reas da
Cincia da Computao:
" Anlise e Projeto de Algoritmos
" Estrutura de Dados e Recuperao da Informao
" Processo de Desenvolvimento de Sistemas
" Linguagens de Programao
! Problemas mais complexos poderiam requerer:
" Teoria de Grafos
" Autmatos e Linguagens Formais
" Computabilidade e Complexidade
" Inteligncia Artificial
Prof. Eng. D.Sc. Emerson Cordeiro Morais
55
Programao de Computadores
! Para a rea de Bioinformtica sugerido o aprendizado de habilidades
bsicas em PERL, ou em uma das linguagens, Python, Java ou Ruby.
! Se as ambies forem maiores, ento visite o projeto BioPerl, uma fonte
de programas e bibliotecas em PERL aplicados Bioinformtica.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
56
Programao de Computadores
! O poder da linguagem PERL em lidar com caracteres e/ou sequncias de
caracteres a torna conveniente na resoluo de problemas que envolvem
sequncias biolgicas.
! Segue um programa simples em PERL para a traduo de sequncias de
nucleotdeos em sequncia de aminocidos de acordo com o cdigo
gentico padro.
! #! um sinal para o sistema operacional que o que segue um programa
em PERL.
! O caractere # significa linhas de comentrio.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
57
Programao de Computadores
! Segue uma tabela de traduo que ser utilizada pelo programa.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
58
Programao de Computadores
! Segue o programa principal e aps __END__ (que significa o trmino do
programa) vem as entradas de dados.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
59
Programao de Computadores
! Este programa foi testado em um interpretador PERL (Perl Express).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
60
Programao de Computadores
! Segue sada do programa:
Prof. Eng. D.Sc. Emerson Cordeiro Morais
61
Classificao e Nomenclatura
! A nomenclatura biolgica se baseia na ideia de que organismos vivos so
divididos em unidades denominadas espcies (grupos de organismos
similares com um reservatrio gentico comum).
! Linnaeus classificou os organismos vivos de acordo com uma hierarquia.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
62
Classificao e Nomenclatura
! Originalmente era apenas uma classificao baseada nas similaridades
observadas. Com a descoberta da Evoluo, percebeu-se que este sistema
refletia a ancestralidade biolgica.
! Caractersticas derivadas de um ancestral comum so chamadas de
homlogas. Exemplo: asas de uma guia e braos de um ser humano.
! Outras caractersticas aparentemente similares podem ter surgido de
forma independente por evoluo convergente. Exemplo: asas de uma
guia e asas de uma abelha.
! Caractersticas homlogas podem ter divergido para se tornarem muito
diferentes em estrutura e funo. Exemplo: ossos do ouvido mdio dos
humanos so homlogos aos ossos das mandbulas dos peixes.
! Na maioria dos casos, os especialistas conseguem distinguir as
homologias genunas das similaridades resultantes de convergncia.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
63
Classificao e Nomenclatura
! Isto porque a anlise de sequncias fornece a evidncia mais clara das
relaes entre as espcies.
! O sistema funciona bem para os organismos superiores, para os quais as
ferramentas clssicas da Anatomia Comparativa, Paleontologia e
Embriologia fornecem, normalmente dados consistentes.
! A classificao de microrganismos mais complexa, porque a seleo de
caractersticas para fundamentar as suas classificaes menos bvia e
tambm, pela grande quantidade de transferncia gnica lateral.
! Os RNAs ribossomais tm a caracterstica essencial de estarem
presentes em todos os organismos, com o grau ideal de divergncia.
! Com base nos RNAs ribossomais 16S, dividiu-se os organismos em trs
domnios fundamentais (um nvel acima dos reinos): Bacteria, Archaea e
Eukarya.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
64
Obteno de Sequncias
! Dada a aplicao anterior, a partir de agora apresentaremos exemplos de:
" Aplicaes de recuperao de sequncias em banco de dados;
" Suas comparaes; e
" Anlise de suas relaes biolgicas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
65
Obteno de Sequncias
! Obter a sequncia de aminocidos da ribonuclease pancretica de cavalo.
! a) Use o servidor UniProt (URL: http://uniprot.org).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
66
Obteno de Sequncias
! b) digite as palavras-chave: horse pancreatic ribonuclease e ento enter.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
67
Obteno de Sequncias
! c) Selecione o acesso para RNAS1_HORSE.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
68
Obteno de Sequncias
! d) Selecione o formato FASTA.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
69
Obteno de Sequncias
! e) Alcanamos o resultado que pode ser selecionado e utilizado em outros
programas, como por exemplo, para alinhamento de sequncias.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
70
O Formato FASTA
! Formato derivado das convenes do FASTA (FAST Alignment).
! Muitos programas utilizam o formato para a leitura de sequncias ou
para a informao dos seus resultados.
! Uma sequncia no formato FASTA:
" Inicia com uma linha de descrio. O sinal > deve aparecer na primeira coluna e o
restante arbitrrio, mas deve ser informativo;
" As linhas subsequentes contm a sequncia, um caractere por resduo;
" Utiliza o cdigo de uma letra para nucleotdeos ou aminocidos especificado pela
IUB/IUPAC;
" As linhas podem ter comprimentos diferentes; ou seja, a margem direita pode ser
irregular;
" A maioria dos programas aceitar letras minsculas para sequncias de aminocidos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
71
O Formato FASTA
! Exemplo: glutationa peroxidase bovina (bovine glutathione peroxidase).


>sp|P00435|GPX1_BOVIN Glutathione peroxidase 1 OS=Bos taurus GN=GPX1 PE=1 SV=3
M C A A Q R S A A A L A A A A P R T V Y A F S A R P L A G G E P F N L S S L R G K V L L I E N V A S L U G T T V R D Y T
Q M N D L Q R R L G P R G L V V L G F P C N Q F G H Q E N A K N E E I L N C L K Y V R P G G G F E P N F M L F E K C E V
NGEKAHPLFAFLREVLPTPSDDATALMTDPKFITWSPVCRNDVSWNFEKFLVGPDGVPVR
RYSRRFLTIDIEPDIETLLSQGASA
! sp|P00435 indica que o banco de dados fonte o SWISS-PROT, e
que o nmero de acesso de entrada no banco P00435.
! GPX1_BOVIN Glutathione peroxidase o identificador da
sequncia e da espcie (GPX1_BOVIN) no SWISS-PROT, seguido pelo
nome da molcula.
Captulo III Alinhamento de
Sequncias
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Prof. Eng. D.Sc. Emerson Cordeiro Morais
73
Alinhamento de Sequncias
! As anlises de padres de similaridade de sequncias alinhadas so
bastante teis na avaliao de suas relaes de parentesco.
! O alinhamento de sequncias a atribuio de correspondncias entre
pares de resduos.
! Temos quatro tipos principais de alinhamentos, sendo os trs primeiros
considerados par-a-par:
" Alinhamento Global
" Alinhamento Local
" Alinhamento de Motifs
" Alinhamento Mltiplo
Prof. Eng. D.Sc. Emerson Cordeiro Morais
74
Alinhamento Global

! Alinha todos os caracteres de uma sequncia com todos os caracteres da
outra sequncia.

! Este exemplo ilustra malpareamentos, inseres e delees.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
75
Alinhamento Local
! Encontra uma regio em uma sequncia que se alinha a uma regio de
outra sequncia.
! Para o alinhamento local, os caracteres que no pareiam nas
extremidades no so tratados como lacunas (gaps).
! Alm de malpareamentos, vistos neste exemplo, inseres e delees
tambm so possveis na regio alinhada.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
76
Alinhamento de Motifs
! Encontra alinhamentos de uma sequncia pequena com uma ou mais
regies internas de uma sequncia longa.
! Pode-se permitir o malpareamento de alguns caracteres ou inseres e/ou
delees.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
77
Alinhamento Mltiplo
! Alinhar simultaneamente muitas sequncias.
! A ltima linha mostra os caracteres conservados em todas as sequncias
do alinhamento mltiplo.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
78
Alinhamento de Sequncias
! O alinhamento de sequncias consiste no processo de comparar duas
sequncias de forma a se observar seu nvel de identidade.
! Podemos alinhar duas sequncias para descobrirmos o grau de
similaridade entre as sequncias de forma que possamos inferir (ou no) a
uma delas, alguma propriedade j conhecida da outra.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
79
Alinhamento de Sequncias
! Determinar a partir das sequncias da ribonuclease pancretica do cavalo
(Equus caballus), da baleia-branca (Balaenoptera acutorostrata) e do
canguru-vermelho (Macropus rufus), quais destas espcies so mais
proximamente relacionadas.
! Observao: Sabendo-se que o cavalo e a baleia so animais placentrios
e que o canguru um marsupial, espera-se que o cavalo e a baleia sejam
espcies mais relacionadas!!!
Prof. Eng. D.Sc. Emerson Cordeiro Morais
80
Alinhamento de Sequncias
! Obtemos as trs sequncias como no exemplo anterior:
">sp|P00674|RNAS1_HORSE Ribonuclease pancreatic OS=Equus caballus GN=RNASE1 PE=1 SV=1
KESPAMKFERQHMDSGSTSSSNPTYCNQMMKRRNMTQGWCKPVNTFVHEPLADVQAI CLQ
KNITCKNGQSNCYQSSSSMHITDCRLTSGSKYPNCAYQTSQKERHIIVACEGNPYVPVHF
DASVEVST
">sp|P00673|RNAS1_BALAC Ribonuclease pancreatic OS=Balaenoptera acutorostrata GN=RNASE1 PE=1 SV=1
RESPAMKFQRQHMDSGNSPGNNPNYCNQMMMRRKMTQGRCKPVNTFVHESLEDVKAVCSQ
KNVLCKNGRTNCYESNSTMHITDCRQTGSSKYPNCAYKTSQKEKHIIVACEGNPYVPVHF
DNSV
" >sp|P00686|RNAS1_MACRU Ribonuclease pancreatic OS=Macropus rufus GN=RNASE1 PE=1 SV=1
ETPAEKFQRQHMDTEHSTASSSNYCNLMMKARDMTSGRCKPLNTFI HEPKSVVDAVCHQE
NVTCKNGRTNCYKSNSRLSITNCRQTGASKYPNCQYETSNLNKQIIVACEGQYVPVHFDA
YV
! Utiliza-se o programa CLUSTAL OMEGA de alinhamento mltiplo de
sequncias (http://www.ebi.ac.uk/Tools/msa/clustalo/). A sada ter o
seguinte formato:
Prof. Eng. D.Sc. Emerson Cordeiro Morais
81
Alinhamento de Sequncias
! Nesta tabela, um * indica uma posio conservada (o resduo
idntico em todas as sequncias), um : indica posies em que todas as
sequncias contm resduos de caractersticas fsico-qumicas muito
similares e um ., indica resduos com pouca similaridade.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
82
Alinhamento de Sequncias
! Segmentos considerveis das sequncias so idnticos.
! H vrias substituies, mas apenas uma deleo interna.
! Comparando as sequncias par-a-par, o nmero de resduos idnticos
entre os pares desse alinhamento :
Prof. Eng. D.Sc. Emerson Cordeiro Morais
83
Alinhamento de Sequncias
! Exerccio: Em geral, a insulina derivada do animal pode ser usada para
tratar a diabetes, doena causada pela inabilidade do corpo para
produzir insulina suficiente.
! Para melhor entendimento desta utilizao faa comparao da insulina
humana com as insulinas de porcos, coelhos e vacas e diga qual a mais
indicada.
! Resposta: A identidade da sequncia de aminocidos de 87% para
porcos; 84% para coelhos, e 83% para vacas. Portanto, prefervel
insulina de porcos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
84
Alinhamento de Sequncias
Prof. Eng. D.Sc. Emerson Cordeiro Morais
85
Alinhamento timo
! Dadas duas sequncias, inicialmente queremos:
" Medir suas similaridades;
" Determinar as correspondncias entre pares de resduos;
" Observar padres de conservao e variabilidade;
" Inferir relaes evolucionrias.
! Como podemos definir uma medida quantitativa de similaridade?
! O alinhamento de sequncias a identificao das correspondncias
entre pares de resduos.
! Lacunas (gaps) podem ser introduzidas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
86
Alinhamento timo
! Qual o melhor alinhamento?
! Precisamos de um meio para examinar sistematicamente todos os
alinhamentos possveis.
! Precisamos computar escores refletindo a qualidade de cada alinhamento
possvel e identificar o alinhamento timo (com maior escore).
! O alinhamento timo pode no ser nico.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
87
Grfico de Pontos
! O grfico de pontos (dotplot) uma matriz que fornece um panorama
da similaridade entre duas sequncias.
! As linhas correspondem aos resduos de uma sequncia, e as colunas, aos
resduos da outra sequncia.
! Na forma mais simples, as posies so deixadas em branco se os
resduos forem diferentes, e preenchidas se eles forem iguais.
! Segmentos de resduos similares so mostrados como linhas diagonais
no sentido do canto superior esquerdo para o canto inferior direito (sentido
noroeste-sudeste).
! Exemplo 1: Grfico de pontos mostrando a identidade entre o nome
abreviado (DOROTHY HODGKIN) e nome completo (DOROTHY
CROW FOOT HODGKIN).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
88
Grfico de Pontos
! Letras correspondentes aos pareamentos idnticos isolados so
mostrados como caracteres simples.
! Regies com pareamentos idnticos longos so mostrados em negrito.
! Regies com pareamento idnticos menores (como: OTH e RO), so
considerados rudos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
! Exemplo 2: Grfico de pontos mostrando a identidade entre a sequncia
(ABRACADABRACADABRA) e ela mesma. As repeties aparecem
paralelas diagonal principal.
89
Grfico de Pontos
Prof. Eng. D.Sc. Emerson Cordeiro Morais
! Exemplo 3: Grfico de pontos mostrando a identidade entre a sequncia
palndroma (MAX I STAY AWAY AT SIX AM) e ela mesma.
90
Grfico de Pontos
! Regies do DNA
reconhecidas por
reguladores de transcrio
ou por enzimas de restrio
possuem sequncias
palndromos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
91
Grfico de Pontos
! O grfico de pontos relacionando os genes da ATPase-6 mitocondrial da
lampreia e do tubaro pata-roxa mostra que a similaridade entre as
sequncias fraca na poro inicial.
! Caractersticas bvias de similaridade se destacam.
! Uma desvantagem que o seu
alcance na comparao de sequncias
distantemente relacionadas baixo.
! Na anlise de sequncia utilizamos
grficos de pontos para ter certeza
que nada bvio est sendo perdido,
mas devemos aplicar ferramentas
mais refinadas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
92
Grfico de Pontos
! Frequentemente, regies de similaridade
so deslocadas, para aparecerem em
diagonais paralelas.
! Isto significa que inseres ou delees
ocorreram nos segmentos entre regies
similares.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
93
Recursos na Web
! O programa Dotter de Sonnhammer calcula e representa grficos de
pontos. Ele permite que o usurio controle o clculo e altere a aparncia do
grfico pelo ajuste de cores. Para utiliz-lo por completo necessrio
realizar o download do programa.
" Dotter - http://sonnhammer.sbc.su.se/Dotter.html
" Dotlet (interativo na web) - http://myhits.isb-sib.ch/cgi-bin/dotlet
Prof. Eng. D.Sc. Emerson Cordeiro Morais
94
Grfico de Pontos e
Alinhamento de Sequncias
! Se a direo do movimento entre as clulas sucessivas for diagonal,
pares de resduos aparecem no alinhamento sem insero entre eles.
! Se a direo do movimento for horizontal, uma lacuna introduzida na
sequncia que indexa as linhas.
! Se a direo do movimento for vertical, uma lacuna introduzida na
sequncia que indexa as colunas.
! O caminho indicado pelas setas
corresponde ao alinhamento evidente.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
95
Grfico de Pontos e
Alinhamento de Sequncias
! Grficos de pontos das comparaes da cistena protenase papana do
mamo (papaia) com quatro protenas homlogas e seus respectivos
alinhamentos:
" o parente prximo actinidina da fruta kiwi; e parentes mais distantes,
" a procatepsina L humana;
" a catepsina B humana; e
" a estafilopana (staphopain) de Staphylococcus aureus.
! Conforme as sequncias divergem progressivamente, torna-se mais
difcil determinar o alinhamento correto no grfico de pontos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
96
Grfico de Pontos e
Alinhamento de Sequncias
Prof. Eng. D.Sc. Emerson Cordeiro Morais
97
Grfico de Pontos e
Alinhamento de Sequncias
Prof. Eng. D.Sc. Emerson Cordeiro Morais
98
Grfico de Pontos e
Alinhamento de Sequncias
Prof. Eng. D.Sc. Emerson Cordeiro Morais
99
Grfico de Pontos e
Alinhamento de Sequncias
Prof. Eng. D.Sc. Emerson Cordeiro Morais
100
Medidas de Similaridade
de Sequncias
! A Distncia de Hamming, definida entre duas sequncias de
comprimentos iguais, o nmero de posies com caracteres malpareados.
! A Distncia de Levenshtein, ou distncia de edio, entre duas
sequncias de comprimentos no necessariamente iguais, o nmero
mnimo de operaes de edio necessrio para converter uma sequncia
na outra.
! Uma operao de edio uma deleo, insero ou alterao de um
nico caractere em uma das sequncias.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
101
Medidas de Similaridade
de Sequncias
! Em Biologia Molecular, preciso assumir que certas alteraes tm
maior probabilidade de ocorrer do que outras.
! Substituies de aminocidos tendem a ser conservativas (tamanho ou
propriedades fsico-qumicas similares).
! A deleo de uma sequncia de bases (ou aminocidos) contguas mais
provvel do que em posies no contguas. Assim, desejamos atribuir
pesos variveis a diferentes operaes de edio.
! Um programa computacional pode determinar no apenas a distncia de
edio, mas tambm os alinhamentos timos, atribuindo valores
adequados para os elementos envolvidos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
102
Esquemas de Pontuao
! Um sistema de pontuao precisa considerar a substituio de resduos,
inseres ou delees.
! Delees tero escore dependente da sua extenso.
! comum definir escores como medidas de similaridade entre
sequncias. Assim, sequncias similares apresentam altos escores e
sequncias dissimilares apresentam baixos escores.
! Algoritmos para um alinhamento timo podem procurar:
" minimizar uma medida de dissimilaridade; e
" maximizar uma funo de pontuao.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
103
Esquemas de Pontuao
! Para sequncias de cidos nucleicos, comum utilizar um esquema
simples para substituies:
" +1 para identidade;
" - 1 para bases no-idnticas.
! Outra possibilidade um esquema mais complicado baseado na maior
frequncia de mutaes do tipo transies do que mutaes transversas.
! Mutaes do tipo transio (purina<->purina e pirimidina<->pirimidina)
so mais comuns do que transverses. Uma possibilidade de matriz de
substituio :
Prof. Eng. D.Sc. Emerson Cordeiro Morais
104
Esquemas de Pontuao
! Para protenas, uma variedade de esquemas de pontuao foi proposta.
! Podemos agrupar os aminocidos em classes de acordo com suas
similaridades fsico qumicas e atribuir +1 para pareamento dentro de uma
classe de resduos e -1 para resduos em classes diferentes.
! De modo alternativo, podemos tentar deixar que as protenas nos ensine
um esquema de pontuao mais apropriado.
! Dayhoff organizou estatsticas sobre frequncias de substituies nas
sequncias de protenas (1960) e seus resultados foram utilizados durante
muitos anos para pontuar alinhamentos.
! Eles foram substitudos por novas matrizes baseadas em conjuntos muito
maiores de sequncias que se tornaram disponveis.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
105
Matrizes PAM
! Uma medida de divergncia de sequncias o PAM (Percent Accepted
Mutation).
! 1PAM = 1 por cento de mutao aceita. Duas sequncias separadas por
1PAM tm 99% dos seus resduos idnticos.
! Com a anlise de estatsticas de pares de sequncias prximas e a
correo dos valores de acordo com a abundncia relativa de diferentes
aminocidos, so produzidas as matrizes de substituio 1PAM.
! O Nvel PAM250, corresponde a aproximadamente 20% de identidade
entre sequncias, que o menor valor de similaridade para o qual
possvel produzir alinhamento correto.
! , portanto, o nvel apropriado a ser escolhido para trabalhar.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
106
Matrizes PAM
! A relao entre o escore PAM e a porcentagem de identidade entre
sequncias :

! A matriz PAM250 de Dayhoff expressa escores como valores de
probabilidades logartmicas (log-odds).
! Escore da mutao i<->j:
Prof. Eng. D.Sc. Emerson Cordeiro Morais
107
Matrizes PAM
! Apenas os tringulos inferiores das matrizes so apresentados, pois as
matrizes de probabilidade de substituio so simtricas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
108
Matrizes PAM
Prof. Eng. D.Sc. Emerson Cordeiro Morais
109
Matrizes PAM
Prof. Eng. D.Sc. Emerson Cordeiro Morais
110
Matrizes BLOSUM
! As matrizes BLOSUM so baseadas no banco de dados BLOCKS de
sequncias de protenas alinhadas, da o nome BLOcks SUbstitution
Matrix (Matriz de substituio baseada em BLOCKS).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
111
Penalizao de Lacunas
! Qual a importncia de inseres e delees em relao s
substituies?

! Para o programa de alinhamento CLUSTAL-W:
" DNA: matrizes de identidades para as substituies (+1 para
identidades e 0 para malpareamentos), penalidade para introduo de
lacunas igual a 10 e penalidade para extenso de lacunas igual a 0,1 por
resduo.
" Protenas: matrizes BLOSUM62 para substituies e penalidades
para introduo e extenso de lacunas iguais a 11 e 1, respectivamente.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
112
Alinhamento Par-a-Par
! Um algoritmo famoso para determinar alinhamentos timos globais de
duas sequncias baseado em Programao Dinmica.
! Um algoritmo de Programao Dinmica encontra uma boa soluo
dividindo o problema original em subproblemas e solucionando-os depois.
! O algoritmo primeiro soluciona todos estes subproblemas, armazenando
cada soluo imediata em uma tabela junto com a pontuao e, finalmente,
escolhendo a sequncia de solues que possui a maior pontuao.
! Duas de suas caractersticas so:
" O mtodo fornece, com certeza, o timo global (melhor escore).
" Muitos alinhamentos podem apresentar o mesmo escore timo e nenhum deste
corresponde ao alinhamento biologicamente correto.
" O algoritmo O(n x m), onde n e m so os comprimentos das duas sequncias. Isto
significa que ele conveniente apenas para alinhamento par-a-par.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
113
Exemplo de Alinhamento Par-a-Par
! Alinhar as sequncias A = ggaatgg e B = atg, de acordo com o
esquema simples de pontuao: pareamento idntico = 0, malpareamento =
20, insero ou deleo = 25.
! 20 foi escolhido como o mnimo de:
" 25 + 25 (movimento horizontal, ou insero de lacuna na sequncia atg);
" 0 + 20 (substituio a<->g); e
" 25 + 25 (movimento vertical, ou insero de lacuna na sequncia ggaatgg);
Prof. Eng. D.Sc. Emerson Cordeiro Morais
114
Exemplo de Alinhamento Par-a-Par
! Como a substituio (movimento diagonal)
forneceu o valor mnimo, a clula contendo
0, no canto superior esquerda da matriz, o
predecessor da clula onde foi inserido o
valor 20.
! Se dois ou mesmo trs dos movimentos
possveis apresentarem o mesmo valor, a
c l u l a r e s u l t a n t e t e r m l t i p l o s
predecessores.
! As setas marcadas indicam o caminho do
alinhamento timo, traando o caminho dos
predecessores a partir do canto inferior
direito, de volta ao canto superior esquerdo.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
115
Exemplo de Alinhamento Par-a-Par
! Em alguns casos, uma clula pode apresentar dois predecessores. Eles
correspondem a alinhamentos alternativos com mesmo escore.
! Existem duas clulas nas quais o caminho de retorno se ramifica. Isso d
um total de quatro alinhamentos timos com o mesmo escore:

! Este algoritmo determina o alinhamento global timo de duas
sequncias.
! Ele no apropriado para a deteco de regies locais de alta
similaridade entre duas sequncia ou para percorrer uma sequncia longa
com um fragmento curto, pois ele impe penalidades para lacunas fora
das regies similares.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
116
Algoritmo Needlman-Wunsch
! Exemplo:
Sequence #1: GAATTCAGTTA; M = 11
Sequence #2: GGATCGA; N = 7
! s(a
i
, b
j
) = +5, if a
i
= b
j
(match score)
! s(a
i
, b
j
) = - 3, if a
i
! b
j
(mismatch score)
! w = -4 (gap penalty)


M+1 linhas, N+1 colunas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
117
Algoritmo Needlman-Wunsch
S
i,j
= MAX {
S
i-1, j-1
+ s(a
i,
b
j
) (match/mismatch)
S
i,j-1
+ w (gap in sequence #1)
S
i-1,j
+ w (gap in sequence #2)
}
Prof. Eng. D.Sc. Emerson Cordeiro Morais
118
Algoritmo Needlman-Wunsch
Match=5, mismatch=-3, gap=-4
S
1,1
= MAX{S
0,0
+5, S
1,0
4, S
0,1
4}
= MAX{5, -8, -8}
Prof. Eng. D.Sc. Emerson Cordeiro Morais
119
Algoritmo Needlman-Wunsch
Match=5, mismatch=-3, gap=-4
S
1,2
= MAX{S
0,1
-3, S
1,1
- 4, S
0,2
4}
= MAX{-4 - 3, 5 4, -8 4}
= MAX{-7, 1, -12} = 1
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Needlman-Wunsch
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Needlman-Wunsch
Prof. Eng. D.Sc. Emerson Cordeiro Morais
! A pontuao mxima de alinhamento global o valor da clula mais
inferior a direita (11, neste exemplo).
! O caminho de retorno comea nesta clula (S
M,N
), onde ambas
sequncias so alinhadas globalmente.

! A cada clula, temos que analisar de acordo com os ponteiros para ver
para onde nos moveremos.
Algoritmo Needlman-Wunsch
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Needlman-Wunsch
Prof. Eng. D.Sc. Emerson Cordeiro Morais
G A A T T C A G T T A
| | | | | |
G G A T C G - A
Algoritmo Needlman-Wunsch
Prof. Eng. D.Sc. Emerson Cordeiro Morais
G A A T T C A G T T A
| | | | | |
G G A T C G - A

+ - + - + + - + - - +
5 3 5 4 5 5 4 5 4 4 5

5 3 + 5 4 + 5 + 5 4 + 5 4 4 + 5 = 11$
Algoritmo Needlman-Wunsch
Prof. Eng. D.Sc. Emerson Cordeiro Morais
126
Algoritmo Needlman-Wunsch
! S(i,j) mede a similaridade entre os resduos i e j. Usa-se uma penalidade
para lacunas linear w. O primeiro elemento necessrio uma matriz de
pesos. Para o alinhamento abaixo e penalidade para lacunas igual a - 5,
deveria ter o escore.


= S(A,C) + S(G,G) + S(A,A) + 3 x w + S(G,G) + S(T,A) + S (T,C) + S(A,G) + S(C,T)
= - 3 + 7 + 10 + 3 x (-5) + 7 4 + 0 1 + 0 = 1
! Para encontrar o alinhamento com o maior escore, uma matriz F
alocada. H uma coluna para caractere da sequncia A e uma linha para
cada caractere da sequncia B.
- A G C T
A 10 -1 -3 -4
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
! " ! # $ ! " $ $ ! #
# " ! % % % " ! # " $
Prof. Eng. D.Sc. Emerson Cordeiro Morais
127
Algoritmo Needlman-Wunsch
! A medida que o algoritmo avana, a matriz F
ij
preenchida com o escore
timo do alinhamento entre os i primeiros caracteres de A e os j primeiros
de B. Segue o algoritmo que calcula F (ndice 0 representa 1. posio):

Base:
F
0j
= d * j;
F
i0
= d * i;
F
ij
= max(F
i!1,j!1
+S(A
i!1
,B
j!1
), F
i,j!1
+d, F
i!1,j
+d);
for i=0 to length(A)-1
F(i,0) " d*i;
for j=0 to length(B)-1
F(0,j) " d*j;
for i=1 to length(A)
for j = 1 to length(B)
{
Choice1 " F(i-1,j-1) + S(A(i-1), B(j-1));
Choice2 " F(i-1, j) + d;
Choice3 " F(i, j-1) + d;
F(i,j) " max(Choice1, Choice2, Choice3);
}
Prof. Eng. D.Sc. Emerson Cordeiro Morais
128
Algoritmo Needlman-Wunsch
! Quando a matriz F calculada, o elemento na posio do canto direito
inferior da matriz o escore mximo para qualquer alinhamento.
! Para descobrir qual o alinhamento que de fato d este escore, deve-se
iniciar uma caminhada da posio direita inferior e ir comparando este
valor com as 3 possveis fontes (Choice1, Choice2, e Choice3 acima) para
descobrir-se de onde este veio.
" Se veio de Choice1, ento A(i) e B(i) esto alinhados;
" Se veio de Choice2 ento A(i) est alinhado com um gap; e
" Se veio de Choice3 ento B(i) est alinhado com o gap.


Prof. Eng. D.Sc. Emerson Cordeiro Morais
129
Algoritmo Needlman-Wunsch
AlignmentA " ;
AlignmentB " ;
i " length(A);
j " length(B);
while (i > 0 AND j > 0) {
Score " F(i,j);
ScoreDiag " F(i - 1, j - 1);
ScoreUp " F(i, j - 1);
ScoreLeft " F(i - 1, j);
if (Score == ScoreDiag + S(A(i-1), B(j-1))){
AlignmentA " A(i-1) + AlignmentA;
AlignmentB " B(j-1) + AlignmentB;
i " i 1;
j " j 1;
}
else if (Score == ScoreLeft + d) {
AlignmentA " A(i-1) + AlignmentA;
AlignmentB " "-" + AlignmentB;
i " i 1;
}

otherwise (Score == ScoreUp + d) {
AlignmentA " "-" + AlignmentA;
AlignmentB " B(j-1) + AlignmentB;
j " j 1;
}
} // fim do while
while (i > 0) {
AlignmentA " A(i-1) + AlignmentA;
AlignmentB " "-" + AlignmentB;
i " i 1;
}
while (j > 0) {
AlignmentA " "-" + AlignmentA;
AlignmentB " B(j-1) + AlignmentB;
j " j 1;
}
Prof. Eng. D.Sc. Emerson Cordeiro Morais
! O Algoritmo Smith-Waterman obtm a melhor pontuao para
alinhamento local de sequncias.
! Tambm conhecido como FASTA.
! uma adaptao do algoritmo Needleman-Wunsch para alinhamentos
locais.
! Necessita de duas modificaes:
" Pontuao negativa para no-identidades.
" Quando um valor da matriz de pontuao se torna negativo, o
tornamos igual a zero (comeo de um novo alinhamento).
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
! Inicializao da matriz:
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais

S
i,j
= MAX {
S
i-1, j-1
+ s(a
i,
b
j
) (match/mismatch)
S
i,j-1
+ w (gap in sequence #1)
S
i-1,j
+ w (gap in sequence #2)
0
}
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
S
1,1
= MAX{S
0,0
+ 5, S
1,0
- 4, S
0,1
4,0} = MAX{5, -4, -4, 0} = 5
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
S
1,2
= MAX{S
0,1
-3, S
1,1
- 4, S
0,2
4, 0} = MAX{0 - 3, 5 4, 0 4, 0} = MAX{-3, 1, -4,
0} = 1
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
S
1,3
= MAX{S
0,2
-3, S
1,2
- 4, S
0,3
4, 0} = MAX{0 - 3, 1 4, 0 4, 0} =
MAX{-3, -3, -4, 0} = 0
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
! A pontuao mxima de alinhamento local o maior escore em
qualquer lugar da matriz (14 neste exemplo).
! 14 foi encontrado em duas clulas distintas, indicando dois possveis
alinhamentos mltiplos capazes de produzir alinhamento local
mximo.
! O caminho de retorno comea na posio de mais alto valor.
! A cada clula, temos que analisar de acordo com os ponteiros para ver
para onde nos moveremos.
! Quando uma clula alcanada onde no existe um ponteiro para a
clula anterior, alcanamos o incio do alinhamento.
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
G A A T T C - A
| | | | |
G G A T C G A

+ - + + - + - +
5 3 5 5 4 5 4 5
=14

G A A T T C - A
| | | | |
G G A T C G A

+ - + - + + - +
5 3 5 4 5 5 4 5
=14
Algoritmo Smith-Waterman
Prof. Eng. D.Sc. Emerson Cordeiro Morais
142
Exemplo (1/12)
Sequence 1: GAATTCAGTTA (m = 11)
Sequence 2: GGATCGA (n = 7)

Esquema de Pontuao (scoring):

! S(a
i
b
j
) = +2 if a
i
= b
j
(match score)
! S(a
i
b
j
) = -1 if a
i
! b
j
(mismatch score)
! w = -2 (gap penalty)

Pontuao Mxima na posio i,j da matriz:

M
i,j
= MAX[
M
i-1, j-1
+ s(a
i,
b
j
) (match/mismatch),
M
i,j-1
+ w (gap na seqncia #1),
M
i-1,j
+ w (gap na seqncia #2)
Prof. Eng. D.Sc. Emerson Cordeiro Morais
143
Exemplo (2/12)
! Inicializao
" Crie uma matriz com m+1 colunas e n+1 linhas, em que m e n correspondem ao tamanho
das seqncias a serem alinhadas
" A primeira linha e a primeira coluna podem ser inicialmente preenchidas com 0
Prof. Eng. D.Sc. Emerson Cordeiro Morais
144
Exemplo (3/12)
! Preenchimento da Matriz
" M
1,1
= MAX[M
0,0
+ 2, M
1,0
- 2, M
0,1
- 2] = MAX[2, -2, -2]

Prof. Eng. D.Sc. Emerson Cordeiro Morais
145
Exemplo (4/12)
! Preenchimento da Matriz
" M
1,2
= MAX[M
0,1
+ 2, M
1,1
- 2, M
0,2
- 2] = MAX[0+2, 2-2, 0-2] = MAX[2, 0, -2]

Prof. Eng. D.Sc. Emerson Cordeiro Morais
146
Exemplo (5/12)
! Preenchimento da Matriz
" M
1,3
= MAX[M
0,2
- 1, M
1,2
- 2, M
0,3
- 2] = MAX[0-1, 2-2, 0-2] = MAX[-1, 0, -2]

Prof. Eng. D.Sc. Emerson Cordeiro Morais
147
Exemplo (6/12)
! Preenchimento da Matriz
" M
32
= MAX[M
21
- 1, M
31
- 2, M
22
- 2] = MAX[0-1, -1 - 2, 1-2] = MAX[-1, -3, -1]

Prof. Eng. D.Sc. Emerson Cordeiro Morais
148
Exemplo (7/12)
! Preenchimento da Matriz
" Dois caminhos diferentes para se obter o score mximo para clula M
32


Prof. Eng. D.Sc. Emerson Cordeiro Morais
149
Exemplo (8/12)
! Preenchimento da Matriz
" Matriz Final

Prof. Eng. D.Sc. Emerson Cordeiro Morais
150
Exemplo (9/12)
! Traceback

A
|
A
Prof. Eng. D.Sc. Emerson Cordeiro Morais
151
Exemplo (10/12)
! Traceback

T C A G T T A
| | | |
T C G - A
Prof. Eng. D.Sc. Emerson Cordeiro Morais
152
Exemplo (11/12)
! Traceback

G A A T T C A G T T A
| | | | | |
G G A T C G - A
Prof. Eng. D.Sc. Emerson Cordeiro Morais
153
Exemplo (12/12)
! Traceback

G A A T T C A G T T A
| | | | | |
G G A T - C G - A
Prof. Eng. D.Sc. Emerson Cordeiro Morais
154
Score do Alinhamento
G A A T T C A G T T A
| | | | | |
G G A T C G - A

+ - + - + + - + - - +
2 1 2 2 2 2 2 2 2 2 2

2 1 + 2 2 + 2 + 2 2 + 2 2 2 + 2 = 3$
Prof. Eng. D.Sc. Emerson Cordeiro Morais
155
Alinhamento Mltiplo de Sequncias
! Tabelas de alinhamentos ressaltam padres de conservao de
aminocidos, a partir dos quais relaes distantes podem ser detectadas de
forma mais confivel.
! Ferramentas de predio de estruturas fornecem informaes mais
confiveis quando baseadas em alinhamentos mltiplos de sequncias.
! Nos ltimos anos, fez-se um grande progresso no desenvolvimento de
mtodos para utilizar alinhamentos mltiplos de sequncias de protenas
conhecidas na identificao de sequncias relacionadas em consultas de
banco de dados. Trs mtodos importantes so:
" Perfis
" Blast
" Modelos Ocultos de Markov
Prof. Eng. D.Sc. Emerson Cordeiro Morais
156
Pesquisa por Sequncias Similares
! Exemplo: Se estivermos estudando um novo genoma, ou se
identificarmos no genoma humano um gene responsvel por alguma
doena, vamos querer determinar que outras espcies apresentam genes
relacionados.
! O mtodo de pesquisa ideal deve ser tanto sensvel (capaz de identificar
at mesmo sequncias pouco relacionadas), quanto seletivo (todas as
relaes propostas devem ser verdadeiras).
! Uma ferramenta bastante robusta para pesquisar sequncias em banco de
dados a partir de uma sequncia fonte o PSI-BLAST (Position Specific
Iterated-Basic Local Alignment Search Tool) do NCBI, atravs do
endereo: http://blast.ncbi.nlm.nih.gov/. Selecionamos protein blast.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
157
Pesquisa por Sequncias Similares
Prof. Eng. D.Sc. Emerson Cordeiro Morais
158
Preciso e Seletividade
! O mtodo de pesquisa capaz de identificar todos ou a maioria dos
exemplos que esto realmente presentes, ou ele perde uma grande frao?
! Quantos hits (exemplos identificados) so incorretos?
! Exemplo: suponha que um banco de dados contenha 1.000 sequncias
de globinas. Suponha tambm que uma pesquisa por globinas neste banco
de dados liste 900 resultados, 700 so realmente globinas e 200 no. Neste
caso teramos:
" 300 falso-negativos (sequncias no-identificadas); e
" 200 falso-positivos.
! Diminuindo o limiar de tolerncia, aumentaria o nmero de ambos. As
vezes interessante trabalhar com limiares baixos para garantir que nada
ser perdido, porm, isto exige anlise detalhada para eliminar os falso-
positivos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Basic Local Alignment Search Tool
! Terceiro artigo mais citado no MEDLINE.
! Programa mais utilizado para encontrar
sequncias similares em banco de dados
robustos.
! A flexibilidade do mtodo de pesquisa permite
diversos tipos de possibilidades de associao.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
1) Regies de baixa complexidade so filtradas na
sequncia de consulta.
2) Lista de todas k-tuplas (palavras) que compem a
sequncia de consulta gerada.
3) A matriz de pontuao usada para determinar todas
as associaes de palavras acima de um determinado
threshold (em torno de 50 associaes por palavra).
4) A pesquisa no banco de dados realizada para
sequncias com associaes perfeitas em relao
lista gerada de palavras (b).
5) Associaes so usadas para iniciar possveis
alinhamentos entre a sequncia pesquisada e o banco
de dados (c).
6) O alinhamento estendido enquanto a pontuao
continuar a aumentar e mantido se a pontuao for
maior do que o ponto de corte determinado
empiricamente.
7) A significncia estatstica da pontuao calculada.
Como o BLAST Trabalha
DEF DEF
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Raw score (S): Soma das pontuaes de cada posio alinhada e pontuaes de
espaos.
S = !(matches) - !(mismatches) - !(gap penalties)
Obs: Esta pontuao varia com a matriz de pontuao utilizada.

Bit score (S): Verso do raw score que normalizado pela escala da matriz de
pontuao (") e pela escala do espao de busca (K).
S = ("S ln(K)) / ln(2)
Obs: devido ser normalizado, o bit score pode ser comparado significativamente atravs
de diversas buscas.
Sistema de Pontuao do BLAST
Prof. Eng. D.Sc. Emerson Cordeiro Morais

E value: Nmero de alinhamentos com pontuao S ou melhor do que se poderia
encontrar em uma busca de um banco de dados de mesmo tamanho.
E = mn2
-S

m = tamanho efetivo do banco de dados
n = tamanho efetivo da sequncia de busca

Assim, quanto menor o valor de E, melhor o alinhamento, de forma que
(em um banco de dados de grandes propores) um valor de E igual a
zero significa que no h chance de que um alinhamento entre as duas
sequncias tenha ocorrido por mero acaso.
Sistema de Pontuao do BLAST
Prof. Eng. D.Sc. Emerson Cordeiro Morais
S E
Sada do BLAST
Prof. Eng. D.Sc. Emerson Cordeiro Morais
" K
S S E
n
m
Sada do BLAST
Prof. Eng. D.Sc. Emerson Cordeiro Morais
% Nucleotdeo a nucleotdeo
& MegaBLAST Procura por associao idntica.
& Discontinuous MegaBLAST Procura por associao quase idntica.
& BLASTn Similaridade desconhecida.
% BLASTp Protena a protena
% BLASTx Nucleotdeo a protena
CCTCATAT CCTCATAT CCTCATAT
# # # # # #
P H L I S Y
Frame 1 Frame 2 Frame 3
Tipos de BLAST
Prof. Eng. D.Sc. Emerson Cordeiro Morais
166
Utilizao do BLAST
! Caso 4: Homlogos do gene PAX-6 humano.
! Os genes PAX-6 controlam o desenvolvimento dos olhos em um
conjunto de espcies bastante divergentes.
! O gene PAX-6 humano codifica a protena depositado no SWISS-PROT
sob o nmero de entrada P26367.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
167
Utilizao do BLAST
Prof. Eng. D.Sc. Emerson Cordeiro Morais
168
Utilizao do BLAST
Captulo IV rvores
Filogenticas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Prof. Eng. D.Sc. Emerson Cordeiro Morais
170
Alinhamento de Sequncias
! Os dois gneros vivos de elefantes so representados pelo elefante
africano (Loxodonta africana) e indiano (Elephas maximus). Foi possvel
sequenciar o citocromo b de mitocndrias (mitochondrial cytochrome b) de
uma espcie de mamute lanoso siberiano (Mammuthus primigenius),
conservado no subsolo permanentemente congelado do rtico.
! Com qual elefante moderno o mamute est mais relacionado?
Prof. Eng. D.Sc. Emerson Cordeiro Morais
171
Alinhamento de Sequncias
! Enquanto as sequncias do
mamute e do elefante africano
apresentam 8 malpareamentos,
as sequncias do mamute e do
elefante indiano apresentam 14.
! Parece que o mamute est
mais proximamente relacionado
aos elefantes africanos!!!!
Prof. Eng. D.Sc. Emerson Cordeiro Morais
172
Alinhamento de Sequncias
! Neste ltimo exemplo, h menos diferenas entre as sequncias.
! Estas diferenas so significativas?
! Neste caso, mais difcil decidir se as diferenas so significativas
porque no temos uma ideia preconcebida sobre qual deveria ser a
resposta!!!
! Este exemplo levanta as seguintes questes:
" Podemos afirmar, a partir apenas destas sequncias, que elas
pertencem espcies proximamente relacionadas?
" Dado que as diferenas so mnimas, elas representam de fato uma
seleo natural ou apenas um erro ou flutuao aleatrios?
! Como embasamento para tais questes, precisamos destacar a diferena
principal entre similaridade e homologia.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
173
Similaridade e Homologia
! Similaridade a observao ou mensurao de semelhana e diferena,
independentemente da origem da semelhana.
! Homologia significa, especificamente, que as sequncias e os
organismos nos quais ocorrem, descendem de um ancestral comum, com a
implicao de que as similaridades so caractersticas ancestrais
compartilhadas.
! A anlise de similaridades entre sequncias em genomas e protenas est
to bem estabelecida que pode ser considerada o mtodo mais eficaz na
determinao das relaes filogenticas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
174
Derivao de Relaes Filogenticas
! Os principais problemas na inferncia de filogenias por meio de
comparao de sequncias de genes e de protenas so:
" (1) A grande variao da similaridade, que pode ficar bem abaixo da significncia
estatstica; e
" (2) Os efeitos de diferentes taxas de evoluo em ramos distintos da rvore
evolucionria.
! Sonho dos especialistas: caractersticas tudo ou nada, cuja
manifestao irreversvel de forma que a ordem de ramificao dos
eventos pode ser decidida.
! Os melhores resultados em filogentica , em alguns casos,
proporcionado por sequncias no-codificadoras do genoma:
" SINES (Short Interspersed Nuclear ElementS); e
" LINES (Long Interspersed Nuclear ElementS).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
175
Derivao de Relaes Filogenticas
! SINES e LINES so sequncias no-codificadoras, repetitivas que
representam grandes fraes do genoma de eucariotos (pelo menos 30%
do DNA cromossmico humano e mais de 50% em alguns genomas).
! Tipicamente, os SINES possuem entre 70 e 500 pares de base, e os
LINES podem ter at 7.000 pares de bases.
! Caractersticas dos SINES que os tornam teis em Filogenia:
! (a) Est presente ou ausente, isto , no acarreta mensurao varivel;
! (b) So inseridos aleatoriamente na poro no-codificadora de um genoma, a
presena de SINES similares no mesmo locus, em duas espcies diferentes, implica
ancestral comum;
! (c) A insero parece ser irreversvel, pois nenhum mecanismo de perda conhecido
! (d) No apenas indicam parentescos, mas tambm qual espcie surgiu primeiro.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
176
Derivao de Relaes Filogenticas
! Pergunta: Quais os parentes mais prximos da baleia que tm hbitos
terrestres?
! Fsseis recm descobertos confirmam a ligao entre baleias e
artiodctilos (j prevista por anlise de SINES).
! A anl i se de
sequncias de DNA
pode especificar as
r e l a e s e n t r e
espcies vivas de
f o r ma b a s t a n t e
pr eci s a, mas os
fsseis revelam as
relaes com seus
ancestrais extintos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
177
Filogenia
! Filogenia a descrio de relaes biolgicas, geralmente expressa
como uma rvore.
! O estabelecimento de filogenia entre objetos pressupe uma homologia
e depende da classificao.
! A filogenia estabelece uma topologia de relaes baseada na
classificao, de acordo com a similaridade de um ou mais conjuntos de
caractersticas, ou em um modelo de processo evolucionrio.
! Em muitos casos, relaes filogenticas baseadas em caractersticas
diferentes so consistentes e do suporte umas s outras.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
178
Filogenia
phylogenetic
inference
evolutionary
model
Chimp
Human
Gorilla
Macaque
sequence
data
Summary
Statistics
Orangutan
Squirrel
Evolutionary tree
Prof. Eng. D.Sc. Emerson Cordeiro Morais
179
Filogenia
Prof. Eng. D.Sc. Emerson Cordeiro Morais
180
rvores Filogenticas
! Os resultados de anlise filogenticas geralmente so apresentados como
uma rvore evolucionria. Segue exemplo de taxonomia de ratitas (grandes
aves no-voadoras):
! Uma implicao surpreendente
que a moa e o kiwi no so parentes
mais prximos e que, portanto, a
Nova Zelndia deve ter sido
povoada duas vezes por ratitas ou
seus ancestrais.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
181
rvores Filogenticas
! Este tipo de rvore, mostrando todos os descendentes de uma nica
espcie ancestral original, chamado de rvore com raiz.
! Tambm podemos ser capazes de especificar as relaes, mas no
orden-las de acordo com a histria, atravs de uma rvore sem raiz.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
182
rvores Filogenticas
! Na Cincia da Computao, uma rvore um tipo particular de grafo.
! Um grafo uma estrutura que contm vrtices conectados por arestas.
! Vrtice ou N: objeto simples que pode ter nome e outros atributos.
! Aresta: conexo entre dois vrtices.
! Notao: G = (V, E)
G: grafo
V: conjunto de vrtices
E: conjunto de arestas
! Em rvores filogenticas, os comprimentos das arestas significam uma
medida da dissimilaridade entre duas espcies ou o tempo decorrido
desde a sua separao.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
183
rvores Filogenticas
! Existem duas abordagens para o desenvolvimento de rvores
filogenticas:
" Abordagem Fentica: no faz referncia a qualquer modelo histrico
das relaes. Funciona medindo um conjunto de distncias entre
espcies e gera uma rvore pelo mtodo de agrupamento hierrquico.
" Abordagem Cladstica: considera possveis rotas de evoluo, infere
as caractersticas do ancestral em cada n e escolhe a rvore tima de
acordo com algum modelo de mudana evolucionria.
! A fentica baseada na similaridade, enquanto a cladstica baseada em
genealogia.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
184
Mtodos Fenticos
! 1. Dado um conjunto de espcies, determinar para todos os pares uma
medida de similaridade ou diferena entre elas;
! 2. Gerar uma rvore a partir de um conjunto de dissimilaridades,
primeiro escolhendo as duas espcies mais parecidas e inserindo um n
para representar o seu ancestral comum;
! 3. Substituir as duas espcies selecionadas por um conjunto contendo
ambas as espcies e substituir as distncias em relao aos outros pela
mdia das distncias das duas espcies selecionadas em relao s outras;
! 4. Assim, teremos um conjunto de dissimilaridades par a par, no entre
espcies individuais, mas entre conjuntos de espcies. Repita o processo.
! Este processo chama-se UPGMA (Unweighted Pair Group Method
with Arithmetic Mean).
Prof. Eng. D.Sc. Emerson Cordeiro Morais
185
Mtodos Fenticos - Exemplo
! Considere quatro espcies caracterizadas pelas sequncias homlogas
ATCC, ATGC, TTCG e TCGG.
! Considerando o nmero de diferenas como a medida de dissimilaridade
entre cada par de espcies, utilize um procedimento de agrupamento
simples para compor a rvore filogentica.
! A matriz de distncias :
Prof. Eng. D.Sc. Emerson Cordeiro Morais
186
Mtodos Fenticos - Exemplo
! Como a matriz simtrica, precisamos preencher apenas a metade
superior. A menor distncia 1 entre ATCC e ATGC. Portanto nosso
primeiro grupo {ATCC, ATGC}. A rvore conter o fragmento:
! A matriz de distncia reduzida :
Prof. Eng. D.Sc. Emerson Cordeiro Morais
187
Mtodos Fenticos - Exemplo
! O prximo grupo {TTCG, TCGG}, com distncia igual a 2. Por fim, a
unio dos grupos {ATCC, ATGC} e {TTCG, TCGG} origina a rvore:
! O comprimento do ramo da aresta entre os ns X e Y quaisquer " da
distncia entre X e Y.
! Se os comprimentos dos ramos so ou no realmente proporcionais aos
tempos de divergncia dos taxa representados pelos ns uma questo a
ser determinada pelas evidncias externas.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
A B C D E
B 2
C 3 3
D 5 5 6
E 5 5 6 4
F 7 8 8 8 8

A - GCTTGTCCGTTACGAT
B ACTTGTCTGTTACGAT
C ACTTGTCCGAAACGAT
D - ACTTGACCGTTTCCTT
E AGATGACCGTTTCGAT
F - ACTACACCCTTATGAG
First, construct a distance matrix:
UPGMA - Exemplo
Prof. Eng. D.Sc. Emerson Cordeiro Morais
First round
dist(A,B),C = (distAC + distBC) / 2 = 3
dist(A,B),D = (distAD + distBD) / 2 = 5
dist(A,B),E = (distAE + distBE) / 2 = 5
dist(A,B),F = (distAF + distBF) / 2 = 7.5
A B C D E
B 2
C 3 3
D 5 5 6
E 5 5 6 4
F 7 8 8 8 8
A,B C D E
C 3
D 5 6
E 5 6 4
F 7.5 8 8 8
Choose the most similar pair,
cluster them together and calculate the
new distance matrix.
UPGMA - Exemplo
Prof. Eng. D.Sc. Emerson Cordeiro Morais
A,B C D,E
C 5,5
D,E 5,5 4
F 7,75 8 8
Second round
Third round
UPGMA - Exemplo
A,B C D E
C 3
D 5 6
E 5 6 4
F 7,5 8 8 8
1,5
0,5
1,5
0,5
Prof. Eng. D.Sc. Emerson Cordeiro Morais
AB,C D,E
D,E 5,5
F 7,75 8
ABC,DE
F 7,875
Fourth round
Fifth round
Note the this method identifies the root of the tree.
UPGMA - Exemplo
1,5
0,5
0,75
1,25
1,5
0,5
1,25
0,75
3,9375
1,1875
Prof. Eng. D.Sc. Emerson Cordeiro Morais
192
Mtodos Cladsticos
! Lidam explicitamente com padres de ancestralidade sugeridos pelas
rvores possveis que relacionam um conjunto de taxa.
! Seu objetivo selecionar a rvore correta pela utilizao explcita de um
modelo de processo evolucionrio.
! Os mtodos mais populares na filogenia molecular so:
" Mxima Parcimnia (Maximum Parsimony)
" Mxima Verossimilhana (Maximum Likelihood)
! Esses mtodos so especializados em dados de sequncias, comeando
com um alinhamento mltiplo de sequncias.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
193
Mxima Parcimnia
! Define uma rvore tima como aquela que pressupe o menor nmero de
mutaes.
! Por exemplo, dada as espcies caracterizadas pelas sequncias
homlogas ATCG, ATGG, TCCA e TTCA, a rvore:
! pressupe quatro mutaes. A rvore alternativa:
Prof. Eng. D.Sc. Emerson Cordeiro Morais
194
Mxima Parcimnia
! pressupe sete mutaes.
! Deve-se notar que a segunda rvore implica que a mutao G->A na
quarta posio ocorreu duas vezes, de forma independente.
! A primeira rvore tima, pois nenhuma outra rvore envolve menos
mutaes.
! Diversas rvores podem pressupor o mesmo nmero de mutaes.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
195
Mxima Verossimilhana
! Este mtodo atribui probabilidades quantitativas a eventos mutacionais,
em vez de apenas cont-los.
! Mxima verossimilhana reconstroi ancestrais para todos os ns de cada
rvore e tambm atribui comprimentos aos ramos, com base nas
probabilidades dos eventos de mutao pressupostos.
! Para cada topologia de rvore, as taxas de substituio assumidas so
variadas para encontrar os parmetros que forneam a maior probabilidade
(mais verossmil) de gerar os dados observados.
! Ambos os mtodos so superiores s tcnicas de agrupamento.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
196
Recursos na Web
! O pacote PHYLIP (PHYLogeny Inference Package) uma coleo
integrada de programas para inferir rvores filogenticas, utilizando muitas
tcnicas diferentes.
! Site: http://evolution.gs.washington.edu/phylip.html
Captulo V Estruturas
de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Prof. Eng. D.Sc. Emerson Cordeiro Morais
198
Introduo Estrutura de Protenas
! As protenas desempenham uma variedade de papis nos processos
bioqumicos vitais:
" Protenas estruturais. Ex: protenas do citoesqueleto, queratina.
" Protenas catalisadoras de reaes qumicas. Ex: enzimas.
" Protenas de transporte e armazenagem. Ex: hemoglobina e ferritina.
" Protenas reguladoras.
" Protenas receptoras de sinais.
" Protenas de controle da transcrio gnica.
" Protenas envolvidas em reconhecimento.
" ...

Prof. Eng. D.Sc. Emerson Cordeiro Morais
199
Introduo Estrutura de Protenas
! Protenas so molculas grandes, mas em muitos casos apenas o stio
ativo funciona de maneira precisa e todo o restante tm funo de criar e
manter relaes espaciais entre os resduos do stio ativo.
! Atualmente so conhecidas cerca de 88.512 estruturas de protenas (26
fevereiro de 2013) e a maioria foi determinada experimentalmente por:
" Cristalografia por Difrao de Raios-X
" Ressonncia Magntica Nuclear
! Estes mtodos experimentais so muito caros e por isso temos tentado
mtodos tericos!
! A partir destas estruturas obtivemos conhecimento acerca das funes
das protenas individuais.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
200
Introduo Estrutura de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
201
Cristalografia x RMN
Cristalografia de Raios-X:
! No h limite para o tamanho da(s) molcula(s)
em estudo, desde que sejam cristalizadas;
! A solubilidade menos crtica;
! Definio simples de resoluo;
! Clculo direto dos dados para a densidade
eletrnica;
! A amostra (cristais) sofrem com danos causados
pela radiao aplicada; e
! Problema dos clculos de fases.
Ressonncia Magntica Nuclear:
! Amostras analisadas em soluo, mas com limite
mximo de cerca de 30 kDalton (unidade de
massa), eliminando cerca de 50% das protenas;
! A solubilidade crtica;
! Anlise dinmica das interaes entre protenas /
substratos / outros ligantes;
! A amostra no danificada durante as medidas; e
! No h o problema de clculo de fases.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
202
Cristalografia x RMN
Prof. Eng. D.Sc. Emerson Cordeiro Morais
203
Introduo Estrutura de Protenas
! Do ponto de vista qumico, as molculas de protenas so polmeros
longos, contendo milhares de tomos, composto por um backbone
repetitivo uniforme (cadeia principal) com uma cadeia lateral especfica
ligada a cada resduo.
! A cadeia peptdica se enovela no espao; o seu percurso ou o arranjo da
cadeia principal define seu padro de enovelamento.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
204
Introduo Estrutura de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
205
Arquitetura Hierrquica de Protenas
! Existem os seguintes nveis de estruturas de protenas:
" Estrutura primria: a sequncia de aminocidos conjunto de
ligaes qumicas primrias.
" Estrutura secundria: atribuies de hlices e folhas, de acordo com
o padro de pontes de hidrognio da cadeia principal.
" Estrutura terciria: o agrupamento e as interaes das hlices e
folhas.
" Estrutura quaternria: para protenas compostas por mais de uma
subunidade.
! Em alguns casos, a evoluo pode fundir protenas, transformando a
estrutura quaternria em terciria.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
206
Arquitetura Hierrquica de Protenas
G A
D
R I
M R H L C
E N
K F Y
Q S
W P
V
Prof. Eng. D.Sc. Emerson Cordeiro Morais
207
Arquitetura Hierrquica de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
208
Arquitetura Hierrquica de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
209
Arquitetura Hierrquica de Protenas
! Como a sequncia de aminocidos determina a estrutura tridimensional?
" As interaes das cadeias laterais e da cadeia principal, consigo
mesmas e com o solvente, e as restries existentes de mobilidade das
cadeias laterais, determinam as estabilidades relativas das diferentes
conformaes.
! Por que?
" Consequncia de Segunda Lei da Termodinmica Sistemas a
temperatura e presso constantes encontram um estado de equilbrio
que um compromisso entre o conforto (baixa entalpia, H) e a
liberdade (alta entropia, S), resultando em um mnimo de energia
livre de Gibbs (G). T a temperatura absoluta.

G = H - TS
Prof. Eng. D.Sc. Emerson Cordeiro Morais
210
Nveis Adicionais de Hierarquia
! Estruturas supersecundrias: Protenas apresentam um padro comum
de interao entre hlices # e folhas $ que esto prximas na sequncia.
Essas estruturas supersecundrias incluem: a) o grampo de hlices # (!-
helix hairpin); b) o grampo $ ("-hairpin); e c) a unidade $-#-$.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
211
Nveis Adicionais de Hierarquia
! Domnios (domains): Muitas protenas contm unidades compactas
dentro do padro de enovelamento de uma nica cadeia que parecem
possuir estabilidade independente.
! Na hierarquia os domnios ficam entre as estruturas secundrias e a
estrutura terciria.
! Protenas modulares: so protenas multidomnio que, com freqncia,
compreendem muitas cpias de domnios proximamente relacionados.
! Os domnios se repetem em muitas protenas em diferentes contextos
estruturais; isto , diferentes protenas modulares podem misturar e
unir conjuntos de domnios.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
212
Estruturas Macromeculares na Web
! A Worldwide PDB (wwPDB) uma colaborao entre trs projetos de
banco de dados primrios para integrar o arquivamento e a distribuio
de estruturas macromoleculares biolgicas (http://www.wwpdb.org).
" Protein Data Bank (RCSB PDB) EUA;
" Protein Data Bank Europe (PDBe) Reino Unido; e
" Protein Data Bank Japan (PDBj) Japo.
! Os sites wwPDB aceitam depsitos, processam novas entradas e mantm
os arquivos. Outros bds reorganizam e fornecem acesso aos dados:
" Structural Classification of Proteins (SCOP): um banco de dados meticulosamente
organizado, de todos os domnios de protenas, classificados de acordo com: estrutura,
funo e evoluo.
" Molecular Modelling Database (MMDB): um projeto do sistema NCBI ENTREZ
que disponibiliza estruturas macromoleculares determinadas experimentalmente.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
213
Estruturas Macromeculares na Web
Prof. Eng. D.Sc. Emerson Cordeiro Morais
214
Estruturas Macromeculares na Web
Prof. Eng. D.Sc. Emerson Cordeiro Morais
215
Estruturas Macromeculares na Web
Prof. Eng. D.Sc. Emerson Cordeiro Morais
216
Estruturas Macromeculares na Web
Prof. Eng. D.Sc. Emerson Cordeiro Morais
217
Estruturas Macromeculares na Web
Prof. Eng. D.Sc. Emerson Cordeiro Morais
218
Classificao de
Estruturas de Protenas
! A classificao mais geral de famlias de estruturas de protenas
baseada nas suas estruturas secundrias e tercirias:
" Hlice !: estrutura secundria composta exclusivamente ou em sua maioria por
hlices #.
" Folha ": estrutura secundria composta exclusivamente ou em sua maioria por
folhas $.
" !+": Hlices # e Folhas $ separadas em partes diferentes da molcula; ausncia da
estrutura supersecundria $-#-$.
" !/": Hlices e folhas dispostas a partir de unidades $-#-$.
" !/" linear: Uma linha passando pelos centros das fitas da folha
aproximadamente linear.
" Barril !/": Uma linha passando pelos centros das fitas da folha
aproximadamente circular.
" Pouca ou nenhuma estrutura secundria.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
219
Classificao de
Estruturas de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
220
Classificao de
Estruturas de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
221
Classificao de
Estruturas de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
222
Classificao de
Estruturas de Protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
223
Predio da Estrutura da Protena
Prof. Eng. D.Sc. Emerson Cordeiro Morais
224
Predio da Estrutura da Protena
! Se a sequncia de aminocidos contm informao suficiente para
especificar a estrutura tridimensional de protenas, porque no temos um
algoritmo preciso capaz de predizer a estrutura de uma protena?
! Isso tem se mostrado muito difcil teoricamente!!!
! Assim, os cientistas alm de tentar a soluo deste problema, definiram
objetivos menos ambiciosos.
" Predio da estrutura secundria, como um passo intermedirio.
" Modelagem por Homologia
" Reconhecimento de Padres de Enovelamento
" Modelagem Ab initio.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
225
Predio da Estrutura Secundria
! Classificamos os resduos em trs categorias: hlice (H), folha (E) e
outra (-).
! A porcentagem mdia de resduos corretamente preditos Q
3
de cerca
de 77% nos trabalhos de Rost.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
226
Predio da Estrutura Secundria
! Os mtodos que tem obtido melhores resultados so as Redes Neurais
Artificiais.

$ Alguns trabalhos clssicos:
$ Qian & Sejnowski (1988);
$ Holley & Karplus (1991);
$ Rost & Sander (1993 e 1994);
$ Chandonia & Karplus (1996);
$ Morais (2008);
$ Outros mais recentes;

Prof. Eng. D.Sc. Emerson Cordeiro Morais
227
Modelagem por Homologia
! A modelagem molecular por homologia representa a tentativa de se
descobrir a estrutura de uma determinada protena tendo como base a
estrutura de uma outra protena de sequncia relativamente similar.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
228
Modelagem por Homologia
! A preciso e a qualidade dos resultados dependem fundamentalmente da
similaridade entre as sequncias.
! Heurstica: se as sequncias de duas protenas homlogas possuem
identidade entre resduos igual ou superior a 50 % em um alinhamento
timo, as suas estruturas provavelmente sero similares em 90% do
modelo.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
229
Modelagem por Homologia
! Passos iterativos:
" (1) identificao das protenas j modeladas apresentando sequncias
primrias similares, normalmente realizada atravs de alinhamentos
locais da protena desejada contra as sequncias das protenas do
PDB;
" (2) seleo das protenas similares que sero utilizadas como
modelo;
" (3) alinhamento global da sequncia desejada com as que sero
utilizadas;
" (4) construo do modelo atravs de similaridade com os modelos
das protenas escolhidas do PDB utilizando um software de
modelagem;
" (5) avaliao do modelo utilizando diferentes algoritmos de teste.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
230
Recursos na Web
! SWISS-MODEL (http://swissmodel.expasy.org/)
! MODELLER (http://salilab.org/modeller/)

Prof. Eng. D.Sc. Emerson Cordeiro Morais
231
Reconhecimento de
Padres de Enovelamento
! Dada uma biblioteca de estruturas conhecidas de protenas e suas
sequncias de aminocidos, e a sequncia de aminocidos de uma
protena de estrutura desconhecida.
! Com estas entradas podemos encontrar a estrutura na biblioteca que
tenha a maior probabilidade de apresentar um padro de enovelamento
similar.
! Esta tcnica j recebeu diversas denominaes:
" Inverse folding problem
" Threading
" Fold recognition problem
! Como desvantagem, existe um nmero limitado de padres de
enovelamento.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
232
Modelagem Ab initio
! Quando no h modelos em banco de dados de estruturas de protenas
para a modelagem molecular por homologia.
! Em geral:
" 1. necessria amostragem de todo o
espao conformacional da protena-
alvo, de maneira a produzir-se um
grande nmero de poss vei s
conformaes nativas;
" 2. determinao de uma funo de
discriminao/pesos/energia para
distinguir entre conformaes
nativas e no-nativas;
Prof. Eng. D.Sc. Emerson Cordeiro Morais
233
CASP
! Com o objetivo de avaliar as tcnicas de predio de estruturas foi
criado o programa bianual CASP (Critical Assessment of Structure
Protein).
! A sequncia de aminocidos de uma estrutura a ser descoberta e
programas de predio so submetidos at a publicao final da
estrutura experimental.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
234
Engenharia de Protenas
! possvel manipular aminocidos e cidos nuclicos vontade em
laboratrios.
! Podemos test-los por meio de mutaes exaustivas para verificar os
efeitos na funo.
! Podemos dar novas funes a velhas protenas, como no
desenvolvimento de anticorpos catalticos.
! Podemos, at mesmo, criar novas protenas!!!
! Protenas naturais tm caractersticas determinadas pelos princpios da
fsico-qumica e pelo mecanismo de evoluo.
! Protenas engenhadas devem obedecer ao princpios fsico-qumicos,
mas no s restries da evoluo. Assim, com protenas engenhadas,
podemos explorar novos territrios.
Captulo VI Introduo
Protemica
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Prof. Eng. D.Sc. Emerson Cordeiro Morais
236
Protemica
! O proteoma o conjunto de protenas de um organismo.
! Prximo passo depois do projeto Genoma?
! A protemica combina identificao, distribuio, interaes, dinmica
e padres de expresso das protenas dos sistemas vivos no tempo e no
espao.
! Envolve um grande volume de informaes e que depende de tcnicas
rpidas de coleta de dados em larga escala.
! Entre essas tcnicas encontram-se:
" Anlise de microarranjos de DNA; e
" Espectrometria de massa.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
237
Microarranjos de DNA
! Microarranjos (microarrays) de DNA, ou chips de DNA, so
instrumentos para testar, simultaneamente, a presena de muitas
sequncias de DNA (expresso simultnea de genes).
! Podem ser utilizados para:
" (1) determinar padres de expresso de diferentes protenas pela
deteco de mRNAs; ou
" (2) genotipar pela deteco de diferentes sequncias de genes
variantes. Incluindo, mas no se limitando, aos polimorfismos de
nucleotdeo nico (SNPs).
! Na Bioinformtica atual, os microarranjos so a fonte mais prolfica de
gerao de dados, demandando planejamento eficaz de arquivos de
dados e de sistemas de processamento de informaes.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
238
Microarranjos de DNA
Detalhe de uma lmina de microarranjos de milho
Prof. Eng. D.Sc. Emerson Cordeiro Morais
239
Northern e Southern Blotting
! Para verificar se um oligonucleotdeo (pequena cadeia) possui uma
sequncia particular conhecida, testa-se a sua capacidade de se ligar a
sua sequncia complementar (um-contra-um).
! Para se detectar a presena ou ausncia de um oligo de interesse em
uma mistura, separa-se a mistura e testa-se cada componente da mistura
quanto afinidade de ligao a um oligo complementar a sequncia de
interesse (muitos-contra-um).
! Essas tcnicas so conhecidas como Northern (DNA como substncia
analisada) ou Southern (RNA como substncia analisada) Blotting.
! Microarranjos constituem um mtodo em larga escala rpido e eficaz
para a realizao destes testes em paralelo (muitos-contra-muitos).

Prof. Eng. D.Sc. Emerson Cordeiro Morais
240
Northern e Southern Blotting
Prof. Eng. D.Sc. Emerson Cordeiro Morais
241
Microarranjos de DNA
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
! Primeiramente o mRNA transformado em clones DNA (cDNA)
! 1. Triture clulas e extraia o mRNA
! 2. Faa a transcrio reversa RNA
" Utiliza-se cDNA, que mais estvel
Amplificao por PCR
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
Robs fixam os cDNAs nos microarrays
Um chip de DNA (geralmente 2 cm
2
) pode
conter 400.000 oligmeros sonda.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
Genes alvo so rotulados com marcadores fluorescentes (fluorocromos cianina)
Cy3 Cy5
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
As imagens so processadas separadamente e combinadas
Overlay images
and normalize
Laser 1 Laser 2
Scan and detect with
confocal laser system
Image process
and analyze
Green channel
Red channel
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
Chips hibridizados so colocados em um escaner
GenePix 4000
Prof. Eng. D.Sc. Emerson Cordeiro Morais
Experimentos de
Microarranjos de DNA
Prof. Eng. D.Sc. Emerson Cordeiro Morais
250
Microarranjos de DNA
Prof. Eng. D.Sc. Emerson Cordeiro Morais
251
Aplicaes dos
Microarranjos de DNA
! Identificao da individualidade gentica em organismos
! Investigao de estados e processos celulares
! Diagnstico de doenas
! Sinais de alerta genticos
! Seleo de frmacos
! Diagnstico especializado de doenas
! Seleo de alvos para planejamento de frmacos
! Resistncia de patgenos
! Acompanhamento das variaes temporais no padro de expresso de
protenas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
252
Banco de Dados de Microarranjos
! Um padro chamado MIAME (Minimum Information About a
Microarray Experiment) descreve os contedos e o formato da
informao a ser coletada em um experimento e depositada em BD.
! Os principais bancos de dados pblicos e disponveis:
" Array Express do EBI - http://ebi.ac.uk/arrayexpress
" Gene Expression Omnibus do NCBI - http://www.ncbi.nlm.nih.gov/geo/
" SMB da Univ. de Stanford - http://smd.stanford.edu

Prof. Eng. D.Sc. Emerson Cordeiro Morais
253
Espectrometria de Massa
! A espectrometria de massa uma tcnica fsica que caracteriza
molculas pela mensurao das massas de seus ons. As aplicaes na
rea da Protemica incluem:
" A identificao rpida de componentes de uma mistura complexa de
protenas;
" O sequenciamento de protenas e cidos nuclicos;
" A anlise de modificaes ps-traducionais, ou de substituies
relativas a uma sequncia esperada;
" O monitoramento da troca hidrognio-deutrio (istopo) para revelar
a exposio ao solvente de diferentes stios da protena. Isso fornece
informaes sobre a conformao esttica e dinmica incluindo
enovelamento e interaes.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
254
Espectrometria de Massa
Os componentes so separados por eletroforese,
as protenas isoladas so digeridas para originar
fragmentos de peptdeos com massa molecular
relativa (rmm) entre 800 e 4000.

O espectrmetro mede as massas dos
fragmentos com alta preciso e gera a
impresso digital das massas de peptdeos,
que caracteriza a protena.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
255
Espectrometria de Massa
1. medida que muda a intensidade do campo magntico, o
caminho dos ons acelerados movimenta-se de A para C.
2. Quando o caminho est em B, o detector de ons manda um sinal
para o registrador.
3. A massa do on proporcional intensidade do campo magntico
necessria para mover o feixe at a posio correta

Prof. Eng. D.Sc. Emerson Cordeiro Morais
256
Banco de Dados de Espectrometria
! Identificao de protenas a partir de impresses digitais das massas dos
peptdeos de protenas.
! Os principais bancos de dados pblicos e disponveis:
" Matrix Science - http://www.matrixscience.com/
" Protein Prospector - http://prospector.ucsf.edu/prospector/mshome.htm

Prof. Eng. D.Sc. Emerson Cordeiro Morais
257
Biologia de Sistemas
! O lema da Biologia de Sistemas a integrao, que possui dois
aspectos:
" Estudo de padres em uma clula ou em um organismo.
" Comparao de ocorrncia, atividades e interaes de genes e
protenas atravs de espcies diferentes.
! A metodologia comparativa tem se mostrado poderosa na Biologia e por
isto estamos tentando entender sistemas que surgiram por meio de
processos evolucionrios.
! Espcies diferentes podem esclarecer fatos umas das outras. Para
compreender o que significa ser humano, devemos apreciar tanto o que
temos em comum com outras espcies quanto o que nos diferencia
delas.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
258
Biologia de Sistemas
1990 1995 2000 2005 2010 2015 2020
Genomics
Proteomics
Systems Biology
Prof. Eng. D.Sc. Emerson Cordeiro Morais
259
Biologia de Sistemas
Prof. Eng. D.Sc. Emerson Cordeiro Morais
260
Resumo das Atividades da
Bioinformtica
! 1. Tcnicas rpidas de produo de dados em larga escala em genmica
e protemica que fornecem informaes sobre sequncias, padres de
expresso e de interaes.
! 2. A partir da sequncia de genomas, podemos inferir as sequncias de
aminocidos de todas as protenas de um organismo.
! 3. A protemica nos diz como os padres de expresso dessas protenas
variam em um organismo, como eles se alteram durante o
desenvolvimento ou em resposta a mudanas nas condies ambientais,
e como as protenas cooperam entre si.
! 4. A biologia de sistemas une essas informaes como as peas de um
quebra-cabea que se estende no tempo e no espao.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
261
Implicaes Clnicas da
Bioinformtica
! Existe um consenso de que o sequenciamento do genoma humano e de
outras espcies vai melhorar a sade da humanidade.
! Mesmo desconsiderando as pretenses mais exageradas, as categorias
de aplicaes incluem:
" 1. Diagnstico de doenas e de riscos de doenas;
" 2. A Gentica de respostas terapia tratamento personalizado;
" 3. Identificao alvos para Frmacos;
" 4. Terapia gnica.

Prof. Eng. D.Sc. Emerson Cordeiro Morais
262
Implicaes Clnicas da
Bioinformtica
Diagnstico de doenas e de riscos de doenas
! O sequenciamento do DNA pode detectar a ausncia de um gene
particular, ou de uma mutao. A identificao de sequncias gnicas
especficas associadas a doenas permitir diagnsticos rpidos e
confiveis de estados de sade precrios:
" quando o paciente apresentar sintomas,
" antes que os sintomas apaream, como em testes para condies
hereditrias de manifestao tardia, como a doena de Huntington
(distrbio neurodegenerativo descoberto em 1993),
" para o diagnstico in utero de potenciais, e
" para o aconselhamento gentico de casais que pretendem ter filhos.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
263
Implicaes Clnicas da
Bioinformtica
A Gentica de respostas terapia tratamento personalizado
! Uma vez que as pessoas diferem em suas capacidades de metabolizar
frmacos, pacientes diferentes com a mesma doena podem necessitar
de dosagens diferentes.
! A anlise de sequncias permite selecionar frmacos e dosagens timas
para cada paciente, um campo de pesquisa em rpido desenvolvimento
denominado farmacogenmica.
! Os mdicos podem, assim, evitar a experimentao de diferentes
terapias, um procedimento perigoso em termos de efeitos colaterais.
! Pode tambm se tornar possvel o uso de frmacos que so seguros e
eficazes em uma minoria de pacientes.
Prof. Eng. D.Sc. Emerson Cordeiro Morais
264
Implicaes Clnicas da
Bioinformtica
Identificao de alvos para Frmacos
! Um alvo uma protena cuja funo pode ser modificada de maneira
seletiva pela interao com um frmaco para afetar os sintomas ou as
causas de uma doena.
! Crescimento da resistncia de bactrias ao tratamento com antibiticos
-> urgncia em encontrar novos frmacos.
KPC
NDM-1
Prof. Eng. D.Sc. Emerson Cordeiro Morais
265
Implicaes Clnicas da
Bioinformtica
Terapia gnica
! Se um gene est ausente ou defeituoso, gostaramos de poder restitu-lo,
ou ao menos suprir o seu produto. Se um gene est superativado,
gostaramos de poder desativ-lo.
! O suprimento direto de protenas j praticado com sucesso em alguns
casos como reposio de insulina no diabetes e a de fator VIII para uma
forma comum de hemofilia.
! A transferncia gentica em animais foi bem-sucedida para a produo
de protenas humanas no leite de ovelhas e de vacas. Em pacientes
humanos, a terapia de reposio gnica para casos de fibrose cstica,
utilizando adenovrus, mostrou resultados encorajadores.
! Um mtodo para bloqueio de genes chamado de terapia anti-senso.

Вам также может понравиться