Вы находитесь на странице: 1из 51

Curso de

Biotecnologia

MDULO V

Ateno: O material deste mdulo est disponvel apenas como parmetro de estudos para
este Programa de Educao Continuada. proibida qualquer forma de comercializao do
mesmo. Os crditos do contedo aqui contido so dados aos seus respectivos autores
descritos nas Referncias Bibliogrficas.

198
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

MDULO V

Introduo Bioinformtica

6. Introduo

Os mdulos I e II apresentaram uma introduo gentica e biologia


molecular sob um contexto histrico. A curiosidade sobre a transmisso das
caractersticas

genticas

entre

as

geraes

impulsionou

pesquisas

direcionadas na descoberta da molcula de DNA. As informaes iniciais eram


entusiasmantes e os estudos prosseguiram para desvendar o papel desta
molcula at a gerao de protenas. Todas estas pesquisas foram
revolucionadas com a tecnologia do DNA recombinante.
A biologia molecular foi e atualmente ainda uma importante
ferramenta que vem permitindo novas descobertas e aplicaes na rea de
biologia e cincias da sade. A busca de novos genes e a divulgao de suas
funes so passos fundamentais para que sejam implantadas aplicaes cada
vez mais eficientes da biotecnologia nos mais diversos campos.
Dentro da perspectiva de novas descobertas e de aplicaes benficas
para a humanidade, diversos esforos vm sendo feitos nas reas mas,
como os projetos genoma, transcriptoma e o proteoma. Vrios microorganismos procariotos e eucariotos esto sendo sequenciados e estudados,
sendo que um grande nmero de sequncias foi obtido a partir da dcada de
90, perodo que marca o surgimento dos sequenciadores automticos.
A exploso que gerou a disposio de um grande nmero de
sequncias de DNA derivadas de projetos genoma exigiu a implantao de
recursos computacionais cada vez mais sofisticados. Esta exigncia se deve
no somente necessidade de armazenamento destas sequncias, como
tambm indispensvel utilizao de mecanismos eficientes que permitam a
interpretao mais rpida e eficiente dos dados obtidos. Dentro deste contexto
na era dos omas surgiu a bioinformtica.

199
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

A bioinformtica definida como a cincia que permitiu a unio e a


integrao de linhas de conhecimento diferentes, como a engenharia de
softwares, a matemtica, a estatstica, a cincia da computao, a gentica e a
biologia molecular. Para a utilizao das ferramentas disponveis on-line de
bioinformtica, o usurio deve estar familiarizado com os principais conceitos
relacionados gentica e biologia molecular, alm dos correspondentes
computao, incluindo os softwares mais utilizados.

6.1 Banco de Dados

Os bancos de dados representam atualmente um pr-requisito de


suma importncia para a bioinformtica. Ele pode ser definido como uma
coleo de dados inter-relacionados, desenhados de forma a suprir as
necessidades de um grupo especfico de aplicaes e usurios. A sua principal
funo consiste em organizar e estruturar milhares de informaes produzidas
por projetos como o genoma, transcriptoma e proteoma, de forma a facilitar
consultas, atualizaes e delees de dados.
A construo de bancos de dados est correlacionada a outros
sistemas computacionais, como por exemplo, o sistema SGBD (Sistema de
Gerenciamento de Banco de Dados). Este est envolvido na construo,
manipulao e administrao do banco de dados solicitados pelo usurio e/ou
por outras aplicaes.
Esto disponveis diversos sistemas de gerenciamento de banco de
dados. A opo por um deles deve considerar as vantagens e as desvantagens
de cada um em relao ao objetivo do estudo do pesquisador. Entre eles,
pode-se citar o mysql, um programa gratuito, com acesso veloz aos dados.
Estas caractersticas so os motivos de escolha dos representantes
acadmicos envolvidos com projetos genoma.
A principal desvantagem do sistema a limitao imposta a algumas
de suas ferramentas. Esta desvantagem no ocorre com o postgreSQL, outro
sistema

gratuito.

sua

desvantagem

se

baseia

na

dificuldade

de

200
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

gerenciamento do sistema. A alternativa mais sofisticada inclui o sistema racle


e o Server. Contudo, o uso destes limitado pelo alto custo para a licena, o
que muitas vezes inviabiliza o acesso. A importncia dos bancos de dados na
organizao das informaes produzidas por projetos como o genoma,
transcriptoma e proteoma extremamente importante diante das informaes
geradas. Isto facilita a consulta e a atualizao de dados pelos pesquisadores.
Contudo, este processo somente ser alcanado por bancos de dados que
permitam o livre acesso aos usurios. Por isso, percebe-se a necessidade da
implantao de bancos de dados pblicos.

6.1.1 Bancos de Dados Pblicos

A construo e a disponibilizao de bancos de dados pblicos tm


recebido atualmente grandes investimentos. Isto de suma importncia para
permitir a organizao dos dados e seu acesso on-line, admitindo a troca de
informaes entre a comunidade cientfica. A grande evoluo de projetos
genoma atribuda, entre outros fatores, construo destes tipos de banco.
Os bancos de dados podem armazenar diferentes tipos de sequncia,
como as de nucleotdeos, de aminocidos e at mesmo de estruturas
proteicas. Para facilitar a organizao, eles podem ser subdivididos em bancos
de sequncias primrios ou secundrios.
Os bancos de sequncia primrios se referem queles em que a
sequncia de nucleotdeos, aminocidos ou a estrutura proteica foram
armazenas logo aps serem obtidos diretamente do sequenciamento ou de um
processamento inicial. Isto quer dizer que as sequncias no sofreram anlises
prvias. Logo aps a sua obteno e caracterizao, o pesquisador deve
disponibilizar a sequncia a um destes bancos de dados. Isto constitui uma
exigncia para a publicao de trabalhos que relatam a descoberta ou a
caracterizao de uma nova sequncia ou estrutura.
Entre os principais bancos de dados primrios para a sequncia de
nucleotdeos so: o GenBank, o EBI (European bioinformatics Institute), o

201
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

DDBJ (DNA Data Bank of Japan); para a sequncia de aminocidos se


destacam o PDB (Protein Data Bank) e o Uniprot. Os dados so apresentados
de forma bastante semelhante entre eles. Apesar de serem bancos de dados
distintos, as informaes so trocadas entre eles diariamente, o que permite a
atualizao dos dados.
Os bancos de dados secundrios so aqueles cuja formao levou em
considerao as informaes depositadas nos bancos de dados primrios. Um
exemplo o SWISS-PROT, que correlaciona as sequncias de protenas j
depositadas com a sua homologia a outras protenas, sugerindo uma funo e
a presena de domnios funcionais.
Os bancos de dados ainda podem ser subdivididos de maneira mais
especfica, como os bancos estruturais e funcionais. Por exemplo, os bancos
estruturais tratam da estrutura de protenas. Esta subdiviso consiste em uma
maneira de organizar as diferentes representaes de uma determinada
sequncia.
Dentre os bancos de dados funcionais, um dos mais utilizados o
KEGG (Kyoto Encyclopedia of Genes and Genomes). A partir de sequncias ou
buscas por palavra chave so disponibilizados links que permitem a
visualizao de mapas metablicos de organismos que apresentam o genoma
completa ou mesmo parcialmente sequenciado.

6.2 Alinhamento de Sequncias

O alinhamento de sequncias constitui uma das ferramentas mais


importantes

da

bioinformtica.

Este

programa

permite

estabelecer

comparaes entre diferentes sequncias, indicando qual o grau de


similaridade que existe entre elas. Atualmente h vrios tipos de programas
para executar esta tarefa. Eles se encontram disponveis on-line, so de fcil
execuo e no h a necessidade de instal-los. Exemplos deste tipo de
programas so: ClustalW, Multialin, FASTA, Blast 2 etc.
O procedimento que os programas adotam consiste em introduzir

202
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

espaos (gaps) entre os monmeros de uma ou mais sequncias para que seja
obtido o melhor alinhamento possvel. A confiana a respeito do resultado
determinada pela soma dos pontos que demonstraram pareamento (match),
subtraindo os pontos de gap e de sequncias no pareadas (mismatch). O
alinhamento pode ser obtido para toda a sequncia de interesse ou mesmo
para fragmentos dela e, por isso, ele pode ser classificado em dois tipos: global
ou local.
O alinhamento global corresponde ao processo de anlise de
similaridade de toda a sequncia, de uma extremidade a outra. Isto gera
apenas um nico resultado. Este tipo de alinhamento geralmente utilizado
para determinar regies mais conservadas entre sequncias homlogas. Estas
podem ser definidas como aquelas que apresentam similaridade com uma
relao evolutiva. Neste caso, duas sequncias so ditas homlogas se
derivam de um mesmo ancestral comum. Se no h esta relao, as
sequncias podem at ser similares, mas no so consideradas homlogas.
Um dos programas mais utilizados para o alinhamento global o ClustalW.
Detalhes de como utilizar este programa sero abordados no tpico a estrutura
proteica.
O alinhamento local frequentemente utilizado na busca por
sequncias

homlogas

ou

anlogas

(ou

seja,

apresentam

funes

semelhantes) a partir da comparao com outras sequncias depositadas em


bancos de dados. O programa mais utilizado com este propsito o BLAST, o
qual ser discutido com mais detalhes adiante.
Muitos programas de bioinformtica esto atualmente disponveis online como ferramentas de livre acesso aos usurios. Diversos deles possuem
at mesmo funes semelhantes; contudo, podem apresentar recursos
diferentes ou mesmo apresentaes diferentes. Exemplos so os programas
que fazem a anlise de sequncias proteicas, mas alguns deles so
especializados para protenas eucariotas e, outros, para procariotas.
Os casos que possuem a mesma funo para o mesmo tipo de
organismo, como a anlise de estruturas secundrias de protenas, a

203
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

apresentao dos dados pode ser diferente. Um exemplo a anlise da


porcentagem de folhas betas, a qual pode estar como um grupo a parte, ou
mesmo incluso em conjunto com estruturas randmicas. As diferenas
apresentadas entre os programas denotam diferentes utilizaes. Isto quer
dizer que, apesar de muitos programas estarem disponveis, a escolha de um
deles depende dos objetivos especficos de cada usurio.
Este mdulo visa introduzir o estudante bioinformtica. Por isso,
algumas das ferramentas de bioinformtica mais utilizadas sero comentadas
sob um contexto, para solucionar e facilitar alguns estudos dentro das diversas
reas de aplicao da biotecnologia.

6.3 A Bioinformtica e os Projetos Genoma e Transcriptoma

A relao dos projetos genoma e transcriptoma com a bioinformtica


vm desde a histria do surgimento da ltima. Atualmente, o sequenciamento
de genomas e a anlise dos transcritos de um grande nmero de microorganismos distintos vm sendo realizada por diferentes grupos de pesquisa.
Assim, como descrito no mdulo II, a abordagem adotada para o
sequenciamento de genomas consiste em fragmentar o DNA, clon-lo em um
vetor apropriado e sequenci-lo. Estes procedimentos se devem limitao do
tamanho das sequncias que podem ser lidas pelos sequenciadores. Estas
mquinas, at mesmo as mais modernas, conseguem ler somente cerca de
1.000 pb em cada corrida.
As estratgias utilizadas para o sequenciamento de genomas diferem
entre micro-organismos procariotos e eucariotos. Em procariotos, h a
fragmentao do DNA cromossmico, a digesto enzimtica do mesmo e,
finalmente, a sua clonagem em vetores apropriados. O sequenciamento feito
a partir das extremidades dos fragmentos clonados. Estes fragmentos so
ento analisados quanto presena de sequncias sobrepostas, o que permite
uma primeira montagem da sequncia do genoma inteiro. Contudo, este
procedimento geralmente obtm sequncias incompletas, que apresentam

204
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

muitos gaps. Por isso, fragmentos maiores so clonados em vetores


apropriados, como BACs. Em seguida, estes segmentos de DNA so ento
sequenciados.
No caso de organismos eucariotos, o procedimento praticamente o
inverso do adotado para o sequenciamento de genomas de procariotos. Aps a
extrao e digesto enzimtica do genoma de eucariotos, os fragmentos so
clonados em vetores que permitem que sries grandes de DNA sejam
clonadas, como os BACs e os YACs. Em seguida, os insertos destes vetores
so fragmentados e clonados em vetores plasmidiais e estas sequncias so
ento sequenciadas. Este procedimento utilizado preferencialmente, pois
permite a reconstituio da informao genmica inicial.
Os dados gerados aps o sequenciamento do genoma so ento
analisados. O primeiro passo consiste no uso de um programa capaz de
processar os dados brutos obtidos logo aps o sequenciamento, denominado
base calling.

6.4 Base Calling

O base calling um programa que permite a leitura dos dados gerados


pelo sequenciador, reconhecendo a sequncia nucleotdica obtida a partir dos
dados brutos da sequncia e, ainda, atribuindo valores de qualidade sobre a
sequncia gerada. Alguns programas podem ser utilizados neste tipo de
processamento, e geralmente, cada sequenciador vem com um determinado
programa. Contudo, um dos mais utilizados com esta finalidade o PHRED.
O PHRED um software desenvolvido na Universidade de Washington
e referenciado como o programa padro para o base calling. Inicialmente, ele
reconhece a sequncia de nucleotdeos gerada a partir de determinados
arquivos, como os de cromatogramas de sequenciadores automticos de DNA.
Em seguida, o programa atribui valores de qualidade a cada nucleotdeo
gerado, determinando a preciso do resultado obtido pelo sequenciamento.
Estes valores so importantes, pois determinam a confiabilidade de uma srie

205
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

obtida, indicando qual deve ser submetida a um novo sequenciamento. Aps o


processamento da sequncia de dados brutos, o passo seguinte consiste na
anlise da sequncia propriamente dita. O passo inicial a busca de
contaminantes na srie obtida ou o mascaramento de vetores.

6.5 Mascaramento de Vetores

O mascaramento de vetores consiste na busca de sequncias


contaminantes presentes no inserto sequenciado. Por contaminao se
entende qualquer srie que no representa uma informao gentica a partir
de fontes biolgicas, contendo ento uma ou mais sequncias de origem
exgena. As sequncias contaminantes correspondem quela do vetor aos
quais os fragmentos de DNA foram clonados. Adicionado a isto, ainda so
includos a sequncia de adaptadores e de iniciadores presentes no inserto.
Assim, o mascaramento de vetores inclui a anlise de todas as sries utilizadas
na estratgia de clonagem e que no fazem parte do inserto de interesse.
As sequncias de DNA contaminantes devem ser excludas da anlise
do DNA sequenciado. Apesar de ser um passo da anlise de sequncias
considerado como opcional, h algumas razes que justificam a excluso de
sequncias contaminantes:
I.

O tempo de anlises gasto com a sequncia exgena, j que os

resultados podem ser direcionados para a similaridade entre a sequncia de


DNA contaminante com as depositadas em bancos de dados, ao invs da
sequncia de interesse;
II.

Alinhamentos errneos entre as sequncias, uma vez que o

mesmo vetor pode ser utilizado como a sequncia similar a partir do qual se
iniciar o alinhamento;
III.

Concluses errneas sobre o significado biolgico da sequncia,

pois os contaminantes podem gerar erros sobre a funo e relaes


filogenticas;
IV.

Atrasos na liberao da sequncia para o banco de dados, pois a

206
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

contaminao aumenta o tempo necessrio para o processamento da


submisso;
V.

Poluio dos bancos de dados pblicos, uma vez que as

sequncias contaminantes podem confundir os diversos tipos de anlises


utilizadas a partir dos bancos de dados.
Diante da importncia da anlise e excluso das sequncias
contaminantes, diversos programas foram desenvolvidos para realizar o
mascaramento destas sequncias. Entre eles, um dos mais utilizados o
Cross_match, que utiliza a comparao de duas sequncias, sendo necessria
a utilizao de um arquivo que contenha as referentes aos vetores que se
deseja mascarar. Aps estabelecer a comparao com o arquivo introduzido e
a sequncia do material amostral, as regies que correspondem ao vetor so
apresentadas com a letra X. Esta alterao impede que as anlises de sries
sejam prejudicadas nos processos posteriores.
Outro programa muito utilizado e de fcil manipulao o VecScreen,
que se encontra disponvel no portal do NCBI. A metodologia adotada por este
programa muito semelhante ao do Cross_match, onde a sequncia a ser
analisada ser submetida a um alinhamento local. A busca de similaridade
feita contra o banco de dados de vetores, o UniVec. Deste, foram eliminadas as
sequncias redundantes para criar um banco de dados que contenha somente
uma cpia de cada vetor. O VecScreen age de maneira a categorizar as sries
alinhadas, eliminando as redundantes, e mostra a localizao das sequncias
contaminantes e dos fragmentos suspeitos.
Para utilizar o programa VecScreen, inicialmente o usurio deve
acessar a pgina do NCBI. O usurio deve ento optar pelo BLAST, como
demonstrado na Fig. 64.

207
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 64: Pgina principal do NCBI.

A seta vermelha indica onde o usurio deve clicar (BLAST) para ter acesso ao
programa VecScreen.

Figura 65: Pgina do BLAST disponvel no NCBI.

208
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Ao clicar sobre BLAST, imediatamente a pgina abrir e, ao final dela,


haver o quadro representado na Fig. 65. O usurio encontrar diversas
opes de programas de BLAST especializados. Dentre eles, o VecScreen
(representado em roxo na figura) pode ser utilizado para analisar a sequncia
de interesse quanto presena de contaminantes. O usurio deve escolher a
opo vetor contaminao (VecScreen). Esta escolha permitir a abertura da
pgina (Fig. 66). A sequncia a ser analisada deve ser depositada no quadro
que aparece abaixo da palavra FASTA. A sequncia ento submetida pela
escolha run VecScreen.

Figura 66: Pgina de acesso ao programa VecScreen.

A figura apresenta o quadro onde a sequncia a ser analisada deve ser


depositada (j representada aqui por uma aleatria). Aps este passo, a
anlise prosseguir aps o comando do usurio, que deve clicar sobre Run
VecScreen. O formato FASTA se refere a uma sequncia identificada por
uma terminologia iniciada pelo smbolo >. Isto significa que uma nova srie
est sendo iniciada. A sequncia propriamente dita mencionada neste

209
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

formato quando no apresenta qualquer espao ou quebra. O resultado obtido


aps a utilizao do programa VecScreen apresentado sob uma forma
grfica, como demonstrado na Fig. 67.

Figura 67: Resultado grfico obtido para a anlise de sequncias contaminantes pelo
programa VecScreen.

O retngulo, que demonstra o nmero de nucleotdeos (no caso, de 1 a


316), representa todo o comprimento da sequncia em anlise. Dentro dele so
representadas, sob diferentes coloraes, as sries com suspeita da presena
de contaminantes. O resultado pode variar de forte (vermelho), moderado
(rosa), fraco (verde) ou simplesmente suspeito (amarelo). O resultado ainda
fornece o nmero de nucleotdeos envolvidos (no caso, est representado ao
final do quadro, mostrando que a sequncia contaminante se d do primeiro ao
257 nucleotdeo dentro dos 316 analisados).
Como demonstrado na Fig. 67, o programa VecScreen apresenta o
resultado em possibilidades de contaminao da srie, variando de forte,
moderada, fraca e mesmo suspeita de ser uma sequncia exgena quela a
ser analisada. Para as anlises seguintes, o ideal excluir qualquer sequncia
que esteja marcada, at mesmo quelas que somente so suspeitas de serem
contaminantes. Aps a identificao e eliminao das sequncias que
correspondem aos vetores de clonagem, o passo seguinte consiste em agrup-

210
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

las quanto sua similaridade. Este procedimento conhecido como


agrupamento de sequncias.

6.6 Agrupamento de Sequncias

O agrupamento de sequncias consiste na montagem de fragmentos


pequenos de DNA, obtidos aps o sequenciamento, em segmentos maiores, os
contguos (contigs). Este agrupamento pode ser realizado por diferentes
softwares, como o PHRAP, o CAP3, o CONSED e o TIGR Assembler. Os
softwares apresentam objetivos semelhantes. A partir de uma sequncia de
DNA de alta qualidade, realiza-se a construo de um segmento contguo,
apresentando ainda dados sobre a qualidade de suas sequncias. Alm disso,
os programas tambm permitem a implementao de estratgias que aceitem
que os usurios aumentem a qualidade da montagem.
As perspectivas com a montagem das sequncias so a de obter um
contguo genmico, no caso de projetos genomas. Quando as anlises se
referem s sequncias de cDNA, espera-se obter um nico contguo
representando os transcritos processados de cada gene expresso. Esta a
mesma expectativa para outras sequncias, como as clonadas em vetores de
expresso. Neste caso, geralmente cada fita de DNA sequenciada de 2 a 3
vezes. Ao final, faz-se uma montagem do contguo, estratgia que permite at
mesmo aumentar a qualidade da sequncia.
A formao de contguos de cDNAs, utilizando o programa CAP3, est
demonstrado nas Fig. 68. A abertura da pgina representa o acesso ao referido
programa, o que est representado na Fig. A pgina inicial do programa
fornece um quadro onde a sequncias a serem agrupadas devem ser
depositadas.

211
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 68: Pgina inicial do programa CAP3 para o agrupamento de sequncias.

A figura mostra um quadro onde as sequncias a serem agrupadas so


depositadas (representado por uma amostra aleatria, denominada A1). Para
proceder s anlises seguintes, o usurio deve clicar sobre a tecla Submit.
Um detalhe que todas as sequncias obtidas devem ser submetidas juntas,
mesmo as referentes ao sequenciamento de fitas diferentes. Para isso, elas
devem ser dispostas com o smbolo > seguido de nomes diferentes para cada
sequncia, como representada na Fig. 69.

212
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

>A1
GTACAAAAAAGTTGGGCGCCTCGCCCAAAAGAGTTTGGTTAATAACCTCGTGAGAGGATATGCGAAAGA
TGTTAAGTTTGGTGCTGAGGGTAGGAAAGCAATGCTTGTTGGTGTCAACCTCCTAGCTGATGCTGTATC
TGTAACAATGGGTCCAAAGGGTAGGAATGTCATCATTGAACAATCTTGGGGAAGTCCGAAAATTACCAA
AGATGGAGTCACAGTGGCCAAAGCTATTGACTTGAAAGACAAGTATCACAACCTTGGAGCTAAACTTAT
TCAGGATGTAGCAAATAAAGCCAATGAGGAAGCGGGAGATGGAACTACTTGCGCTACTGTTCTTGCTAG
ATCTATTGCTAAAGAGGGATTCGATAATATTAGCAAGGGTGCAAATGCCGTTGAAATCAGACGTGGAGT
CATGGCTGCTGTTGATATTATCGTGCAAGAGCTTAAAGGTCTCAGCAGGCAGGTTACTACTCCTGAAGA
GATAGCTCAGGTTGCTACAATCTCTGCTAATGGTGATCAAACTATCGGAAATTTGATTTCCGAGGCAAT
GAAGAAGGTGGGCAATAAAGGTGTTATCACGGTCAAGGATGGAAAAACTCTTACGGATGAACTAGAACT
TATTGAGGGAATGATATTTGATCGCGGATATATTTCTCCATATTTTATACACACTTCTAAGGGAGC
>A2
GTACAAAAAAGTTGGGCGCCTCGCCCAAAAGAGTTTGGTTAATAACCTCGTGAGAGGATATGCGAAAGA
TGTTAAGTTTGGTGCTGAGGGTAGGAAAGCAATGCTTGTTGGTGTCAACCTCCTAGCTGATGCTGTATC
TGTAACAATGGGTCCAAAGGGTAGGAATGTCATCATTGAACAATCTTGGGGAAGTCCGAAAATTACCAA
AGATGGAGTCACAGTGGCCAAAGCTATTGACTTGAAAGACAAGTATCACAACCTTGGAGCTAAACTTAT
TCAGGATGTAGCAAATAAAGCCAATGAGGAAGCGGGAGATGGAACTACTTGCGCTACTGTTCTTGCTAG
ATCTATTGCTAAAGAGGGATTCGATAATATTAGCAAGGGTGCAAATGCCGTTGAAATCAGACGTGGAGT
CATGGCTGCTGTTGATATTATCGTGCAAGAGCTTAAAGGTCTCAGCAGGCAGGTTACTACTCCTGAAGA
GATAGCTCAGGTTGCTACAATCTCTGCTAATGGTGATCAAACTATCGGAAATTTGATTTCCGAGGCAAT
GAAGAAGGTGGGCAATAAAGGTGTTATCACGGTCAAGGATGGAAAAACTCTTACGGATGAACTAGAACT
TATTGAGGGAATGATATTTGATCGCGGATATATTTCTCCATATTTTATACACACTTCTAAGGGAGC
Figura 69: Exemplo de como as sequncias a serem agrupadas devem ser
submetidas ao programa CAP3.

Cada uma deve ser iniciada pelo smbolo > seguidas por nomes
diferentes. Aps submeter s sequncias para a anlise, uma pgina ser
aberta com tpicos disposio da escolha do usurio. Neste caso, deve-se
optar pela formao de contigs (Fig. 70).

213
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 70: Opes de anlises das sries oferecidas pelo programa CAP3.

Para o agrupamento de sequncias, o usurio deve clicar sobre


Contigs, o que est representado em roxo na figura. O resultado ideal a
apresentao de apenas uma nica srie, demonstrando que apenas um
contguo se formou (Fig. 71). A presena de duas ou mais sequncias implica
na ausncia de similaridade ou mesmo de uma sobreposio adequada para a
formao de um contguo.

214
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 71: Resultado do agrupamento de sequncias pelo programa CAP3.

A figura representa o agrupamento de sequncias com a formao final


de um nico contguo. Aps a obteno do contguo, o processamento seguinte
consiste na anlise da representatividade da sequncia obtida. Este passo
conhecido como anotao gnica.

6.7 Anotao Gnica

A anotao gnica a identificao da funo e do que cada srie


obtida representa. Este processo frequentemente realizado em trs etapas,
com a anlise de:
I. Sequncias de nucleotdeos;
II. Sequncias proteicas;
III. Processos biolgicos.

215
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

A primeira etapa de anotao gnica feita utilizando basicamente as


ferramentas de bioinformtica. Diversos programas podem ser utilizados nesta
fase, os quais ajudaro na identificao das sequncias obtidas. Para isso, as
ferramentas de bioinformtica so utilizadas para predizer se h alguma
relao com outras sequncias j depositadas em bancos de dados. As
caractersticas similares permitem agrup-las quanto a sua natureza, como, por
exemplo, se a sequncia representa uma regio gnica, um RNAt, um RNAr,
uma regio no codificadora e repetitiva, ou mesmo se contm alguma
homologia com outra sequncia j conhecida. Neste caso, esta busca de
similaridades pode ser feita pelo BLAST.

6.7.1 Blast

O programa BLAST (Basic Local Alignment Search Tool) realiza um


alinhamento local de sequncias, sendo comumente utilizado na anlise de
similaridades. Ele representa um programa de busca projetado para explorar
todas as bases de dados disponveis de sequncias de DNA ou de protenas
presentes em bancos de dados. A sua implementao mais conhecida
aquela presente no NCBI National Center for Biotechnology e o da
Universidade de Washington, conhecido como WU-BLAST.
O Programa BLAST exposto pelo NCBI representa um conjunto de
servios, os quais podem beneficiar os usurios de diversas maneiras. As
opes aos pesquisadores variam de acordo com o tipo de sequncia inicial a
ser analisada, se de nucleotdeos ou de aminocidos, se o banco de dados
utilizado na busca de nucleotdeos ou de aminocidos, se a pesquisa est
restrita a um determinado micro-organismo. Alm de parmetros relacionados
aos algoritmos de busca. Para melhor exposio das diversidades que o
BLAST oferece para a busca de sequncias, este programa pode ser dividido
em:
I.

blastp, o qual utilizado para comparar sequncias de

aminocidos em bancos de dados de protenas;

216
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

II.

blastn, programa formulado para comparar sequncias de

nucleotdeos em bancos de dados de DNA;


III.

blastx, para a comparao de uma sequncia de nucleotdeos,

representadas em todas as fases de leitura (ORFs), com bancos de dados de


protenas;
IV.

tblastn, utilizado na comparao de sequncias de protenas com

um banco de dados da srie de nucleotdeos representados em todas as


ORFs;
V.

tblastx para comparar as ORFs de uma sequncia de

nucleotdeos com as ORFs de todos os nucleotdeos depositados em um


banco de dados de nucleotdeos.
A subdiviso do BLAST encontrada na pgina est demonstrada na
Fig. 72.

Figura 72: Subdiviso especializada do BLAST disponvel no NCBI.

Os pesquisadores podem optar por uma das subdivises disponveis


nesta pgina, de acordo com o tipo de sequncia inicial a ser analisada e com
o banco de dados utilizado na busca.

217
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

A anlise de sequncias pelo BLAST pode ser realizada de diversas


maneiras. O primeiro ponto consiste em delimitar o espao da busca, como:
a. O banco de dados a ser utilizado na busca;
b. O organismo especfico.
II. Para que uma determinada sequncia seja submetida busca
de similaridades pelo BLAST, ela deve se apresentar sob
determinados formatos especficos;
III. Formato FASTA;
IV.

Por identificadores, que geralmente so cdigos para acesso


aos bancos de dados mantidos pelo NCBI como o GenBank;

V.

Sequncias puras, que podem ou no ser intercaladas por


caracteres brancos ou numricos.

As buscas de BLAST sero exemplificadas aqui, nesta apostila, pelo


BLASTn, pois um dos programas de alinhamento local mais utilizado pelos
pesquisadores. Para iniciar as buscas de similaridade pelo BLASTn,
inicialmente deve-se clicar sobre a opo de escolha (Fig.73).

Figura 73: Opo pela utilizao do programa BLASTn.

O usurio deve clicar sobre nucleotide blast, local apontado pela seta

218
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

vermelha na figura. A opo, que no caso especfico foi a anlise de


nucleotdeos pelo alinhamento do mesmo tipo de sequncia depositada no
banco de dados, abre a pgina demonstrada na Fig. 74. Esta pgina inclui
alguns tpicos que permitem que a pesquisa seja refinada em uma direo
especfica.

Figura 74: Pgina de acesso ao programa BLASTn.

O passo seguinte consiste em depositar a sequncia a ser analisada


no quadro indicado pela seta vermelha (Fig. 75).

219
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 75: Quadro demonstrativo de submisso de uma sequncia pelo BLASTn.

A sequncia de nucleotdeos a ser analisada deve ser depositada no


local apontado pela seta vermelha. Dentro da pgina inicial do BLASTn so
oferecidas diferentes opes que permitem ao pesquisador refinar a sua
pesquisa. Inicialmente, pode-se delimitar contra quais organismos se deseja
submeter amostra para a busca de similaridades. A escolha pode limitar a
busca no banco de dados de humanos, de camundongos e de outras
sequncias (Fig. 76).

Figura 76: Delimitao de organismos que devem ser utilizados na busca de


similaridades contra a sequncia de interesse.

220
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

O mesmo quadro representado na Fig. ainda oferece a oportunidade


de limitar ainda mais a pesquisa dentro das trs opes de organismos, como
exemplificado na Fig. 77.

Figura 77: Refinamento da pesquisa dentro das opes de organismos a serem


utilizados no BLASTn.

No caso da Fig., onde no h uma especificao do organismo a ser


pesquisado, podem-se utilizar as iniciais do nome cientfico do organismo, ou
mesmo de seu txon. Aps esta incluso, alguns nomes de organismos
aparecero, o que pode ser utilizado na busca (Fig. 78).

221
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 78: Refinamento da pesquisa quando no h um organismo especfico a ser


utilizado na pesquisa.

Quando o pesquisador opta por outros organismos (others) a serem


utilizados na busca de similaridades, a inscrio das iniciais de um organismo
de interesse permite o direcionamento da busca. O BLASTn ainda oferece a
opo de a pesquisa abranger diferentes cenrios, de acordo com o grau de
identidade que o pesquisador deseja incluir na busca. A escolha feita optando
pelo megablast, pelo megablast descontnuo ou pelo BLASTn, simplesmente
(Fig. 79).

Figura 79: Opo de busca pelo BLASTn de acordo com o grau de identidade entre
as sequncias utilizadas na busca.

Dentro desta escolha, o BLAST oferece como opo o megablast, o

222
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

megablast descontnuo e o BLASTn. Para maiores detalhes sobre estas


opes, vide o texto. O megablast realizado a partir do alinhamento com
sequncias que tenham uma relao filogentica muito prxima. Seus
resultados so mais significativos quando o grau de identidade entre as
sequncias superior a 95%. O megablast descontnuo utiliza um alinhamento
que desconsidera algumas bases no pareadas. mais utilizado quando se
deseja comparar espcies cruzadas. O BLASTn a opo que permite um
alinhamento mais amplo, onde o grau de identidade entre os nucleotdeos no
muito alto.
O BLASTn oferece todas as opes acima expostas como forma de
refinar a pesquisa. Apesar disso, algumas so opcionais. Depois de ter feito as
opes, o pesquisador ento deve iniciar a sua pesquisa de alinhamento
global. Para isso, deve-se apertar o boto BLAST (Fig. 80) que se encontra
ao final da pgina.

Figura 80: Comando para iniciar a busca pelo programa BLASTn.

Os resultados obtidos a partir de buscas no BLASTn so representados


em formas grficas, como demonstrado na Fig. 81. A Fig. 81A mostra
graficamente o grau de similaridade, em cores, de toda a sequncia de
nucleotdeos. A Fig. 81B apresenta uma tabela de dados, onde sequncias
similares so representadas pelo seu nmero de acesso ao GenBank, por uma
breve descrio do que ela , e pelo e-value. Este valor mais significativo
quanto menor ele for.

223
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 81: Resultados grficos do BLASTn. (Fonte:Coelho, 2007).

O BLASTn ainda apresenta os resultados dos alinhamentos,


fornecendo o escore, o grau de identidade e os buracos (gaps) entre as
sequncias alinhadas. O segmento em anlise e a sua similaridade a outras
depositadas no banco de dados apresentada pelo BLASTn, de nucleotdeo a
nucleotdeo (Fig. 82).

224
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 82: Resultado do alinhamento entre a sequncia de interesse e outra do


banco de dados pelo BLASTn.

As duas sequncias so representadas pelo alinhamento entre cada


nucleotdeo. Os que so idnticos so representados por barras verticais; os
buracos (gaps), por traos (-). Os locais que contm nucleotdeos distintos
so apresentados um abaixo do outro, sem qualquer representao grfica. A
sequncia de nucleotdeos ainda utilizada na busca de outros elementos que
facilitem a caracterizao da sequncia.
No caso de projetos genoma, um dos principais objetivos da primeira
etapa de anotao gnica consiste em montar as regies intergnicas e as no
codificadoras em um mapa do organismo. Alguns programas ainda so teis na
predio de regies gnicas, com a identificao de cdons de incio e de
terminao, alm de possveis ORFs. Outros podem at mesmo relacionar
regies de exons e de introns. Esta ltima abordagem no utilizada para
bibliotecas de cDNA, pois estas j constituem sequncias gnicas.
A segunda etapa da anotao gnica consiste na identificao das
225
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

protenas codificadas pelas sequncias codificadoras. Nesta fase, o principal


objetivo a caracterizao de protenas correspondentes sequncia de DNA,
no caso do projeto genoma, e dos RNAm expressos sob determinadas
condies, para projetos de transcriptoma. Este perodo tem por objetivo
correlacionar um gene com uma determinada funo, incluindo a anlise da
estrutura proteica (que ser abordada em detalhes mais adiante). Para uma
anlise inicial da funo de uma determinada sequncia, o usurio pode utilizar
o programa BLASTx.
Os passos iniciais para utilizar o programa BLASTx so os mesmos
daqueles feitos para o BLASTn. Inicialmente, clica-se na opo BLASTx, o que
abrir a pgina inicial representada na Fig. 83.

Figura 83: Pgina do NCBI que permite selecionar a opo do programa BLASTx.

Esta opo abre a pgina inicial referente ao programa BLASTx (Fig.


84).

226
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 84: Pgina inicial do programa BLASTx.

Na pgina mostrada na Fig. 84, o usurio deve depositar a sequncia


de nucleotdeo a ser analisada (Fig. 85-1). Nesta mesma pgina, pode-se optar
pelo cdigo gentico a ser utilizado na pesquisa (Fig. 85-2).

227
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 85: Procedimentos iniciais para a anlise da seqncia nucleotdica pelo


programa BLASTx.

(1) Local onde a sequncia de interesse deve ser depositada; (2) seleo do cdigo
gentico referente ao organismo de anlise.

O BLASTx ainda permite selecionar o tipo de sequncia depositada no


banco de dados contra a qual a srie de interesse deve ser alinhada. As
sequncias no banco de dados esto organizadas pelo seu contedo
informacional ou mesmo pela tcnica de sequenciamento adotada (Fig.). O
ltimo passo clicar no Blast, assim como feito para o BLASTn, permitindo o
alinhamento das sries.

Figura 86: Refinamento do alinhamento pelo BLASTx de acordo com o tipo de sequncias
depositadas no banco de dados.

228
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Os resultados do BLASTx so apresentados sob uma forma grfica


(Fig. 87) e de alinhamentos (Fig. 88), assim como o BLASTn. Contudo, vale
ressaltar que os resultados se referem ao alinhamento entre aminocidos e no
de nucleotdeos.

Figura 87: Resultado grfico do alinhamento pelo programa BLASTx.

A mesma sequncia de nucleotdeos utilizada para a anlise do BLASTn foi utilizada


para o BLASTx. (Fonte: Coelho, 2007).

229
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 88: Resultado do alinhamento entre as sequncias de aminocidos pelo


programa BLASTx.

Assim como para o BLASTn, o resultado do alinhamento apresenta o


escore, o grau de identidade e os gaps (representados por - ). Alm disso, o
BLASTx acrescenta no resultado os alinhamentos positivos, os quais
representam a troca de aminocidos que pertencem ao mesmo grupo
bioqumico. As trocas por aminocidos de grupos distintos so representadas
por espaos vazios no alinhamento.
O BLASTx, assim como o BLASTn, realiza uma anlise de similaridade
entre a sequncia de nucleotdeos, correlacionando-a com a sua de
aminocidos entre outras j existentes no banco de dados. Apesar de a anlise
pelo BLASTn gerar uma ideia da funo daquela sequncia especfica, a
predio de funcionalidade pela sequncia de aminocido mais significativa.
230
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Isto se deve prpria caracterstica do cdigo gentico. Este, como descrito no


Mdulo I, degenerado, o que permite que resultados mais diversificados da
anlise de similaridade sejam obtidos. Por outro lado, assim como exposto nos
mdulos anteriores, a sequncia de aminocidos de uma protena geralmente
mantida durante o processo evolutivo, o que tambm um efeito da
degenerao do cdigo.
Assim, a possibilidade de alteraes de sua estrutura por mutaes
que gerem um produto no funcional protegida. Isto pode ser visualizado ao
comparar os resultados grficos obtidos nas duas anlises, j que a mesma
sequncia foi utilizada em ambas. O que geralmente se observa nas anlises
de BLASTx que os resultados de similaridade mais significativos so aqueles
entre organismos que pertencem mesma famlia e gneros. Isto se deve
relao entre organismos homlogos e que apresentam uma relao
filogentica mais prxima. Por isso, estes organismos so bastante
semelhantes.
A terceira e ltima etapa da anotao gnica consiste na correlao
dos dados genmicos com os processos biolgicos. Isto permite estabelecer
um mapa funcional do organismo como, por exemplo, as vias bioqumicas. Esta
a etapa fundamental de projetos como o genoma e o transcriptoma,
correlacionando o metabolismo de um organismo com o seu desenvolvimento e
condies de adaptao a um determinado ambiente. Para isso, h a
necessidade de profissionais especialistas e interdisciplinares. Alm disso, esta
predio

deve

ser

confirmada

posteriormente

por

experimentos

que

comprovem a sua funo biolgica.


A grande revoluo dos projetos genoma, que permitiram o
sequenciamento dos mais diversos micro-organismos, representa apenas o
ponto inicial da caminhada sua aplicao. A era ps-genmica tem por
finalidade estudar a expresso de genes codificados pelo genoma dos
diferentes micro-organismos, correlacionando-os com a sua funo e
adaptao

conhecimento

determinadas
permitir

uma

condies
maior

nas

aplicao

clulas

tecidos.

sociedade,

Este

como

231
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

caracterizao de possveis alvos para uma terapia mais eficaz e mais segura.
Para estas anlises, a bioinformtica disponibiliza ferramentas que permitem
predizer a estrutura e a funo de protenas.

6.8 A Bioinformtica e a Anlise da Estrutura Proteica

Outra abordagem da bioinformtica, alm dos projetos genoma e


transcriptoma, incluem o proteoma. Para este tipo de projeto, programas
computacionais fornecem subsdios para a predio de determinadas
estruturas proteicas, como:
I.

A estrutura primria;

II.

A estrutura secundria;

III.

A modelagem molecular.

Estas predies utilizam as informaes contidas em bancos de dados,


de forma a comparar a similaridade entre as sequncias e, portanto, predizer
uma determinada funo.

6.8.1 Anlise da Estrutura Primria de Protenas

A anlise da estrutura primria de protenas consiste no estudo da


sequncia de aminocidos traduzida a partir de um RNAm. As anlises da
estrutura primria podem ser abordadas de diversas maneiras e utilizadas em
vrios propsitos, como:
I.

A anlise das caractersticas fsico-qumicas;

II.

Comparao entre as sequncias homlogas;

III.

A busca por sinais;

IV.

Anlise imunolgica (que ser tratado como um tpico a parte).

Vrios programas podem ser utilizados com este objetivo. Para tanto,
um conjunto de ferramentas de bioinformtica disponveis on-line est presente

232
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

no NCBI e no portal Expasy (Fig. 89).

Figura 89: Ferramentas para a anlise de protenas apresentadas no portal Expasy.

As anlises das caractersticas fsico-qumicas de uma protena a partir


da sua sequncia de aminocidos podem ser feitas por diversos programas.
Entre eles, um muito utilizado e disponvel no portal Expasy o Compute PI
Mw tool (Fig. 90). Ele informar o peso molecular e o ponto isoeltrico da
protena.

233
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 90: Pgina de acesso ao programa pI Mw tool.

Outros programas similares ao pI Mw tool tambm so muito


utilizados, como o Protparam. Este fornece os mesmos dados do outro
programa, porm com informaes adicionais (Fig. 91)

234
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 91: Resultado da anlise de caractersticas fsico-qumicas com o programa Protparam.

A figura demonstra que, alm do peso molecular e do ponto isoeltrico,


este programa fornece dados extras como a composio atmica e de
aminocidos da protena. Alm disso, ele ainda prediz a meia-vida da protena

235
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

aps a expresso em clulas de mamferos de leveduras e em E. coli e o


coeficiente que estima a estabilidade da protena (dados no demonstrados). A
anlise molecular permitiu aprofundar ainda mais as comparaes entre as
sequencias de diferentes organismos. Observou-se que quanto mais prximo
os organismos esto na escala evolutiva, maior a similaridade em nvel de
nucleotdeos e de aminocidos. Estas so a base de uma cincia, a genmica
comparativa.
As observaes feitas pela genmica comparativa so utilizadas em
estudos da estrutura primria da protena. Um dos pontos iniciais a realizao
de um alinhamento entre as sequncias de aminocidos. Isto pode ser
realizado facilmente pelo ClustalW, programa disponvel no portal do Expasy.
Para isso, as sequncias devem ser depositadas na pgina inicial deste
programa (Fig.), assim como demonstrado na Fig. 92.

Figura 92: Pgina do programa ClustalW.

236
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Ao final da figura est representado o quadro onde as sries a serem


alinhadas devem ser depositadas. Os resultados obtidos no ClustalW (Fig. 93)
demonstram os aminocidos que so idnticos entre as sequncias e os que
sofreram algumas alteraes. As alteraes podem ser de uma modificao
para um aminocido do mesmo grupo ou mesmo de grupos diferentes. Isto
influencia na caracterstica da protena como um todo, pois a troca por
aminocidos semelhantes geralmente no induz uma mudana conformacional
da protena, diminuindo as chances de alterao de funo.

Figura 93: Alinhamento de sequncias homlogas pelo ClustalW.

(*) significa identidade; (:) representa aminocidos semelhantes em tamanho e carga;


(.), aminocidos semelhantes em tamanho ou carga. (Fonte: Coelho, 2007).

237
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

A importncia da comparao entre sequncias homlogas permitiu


desvendar a funo de muitas protenas. Comparando-se organismos
semelhantes, geralmente se observa que a grande similaridade implica em
funes at mesmo idnticas. Neste sentido, estudos com micro-organismos
patognicos, por exemplo, demonstraram que a similaridade no se restringe
estrutura, mais aos mecanismos de patogenia e de infeco so muito
semelhantes. Esta conservao um dos fenmenos evolutivos que
conservaram caractersticas vantajosas aos organismos.
A estrutura primria ainda fornece detalhes teis na predio da
localizao celular da protena. A bioinformtica oferece subsdios para a
anlise da presena de peptdeos sinais e de ancoramento. Estes so
necessrios para a maquinaria celular reconhecer o correto endereamento de
cada protena em especfico, como a sua secreo ao meio ou o ancoramento
membrana celular, respectivamente. Dentre os programas disponveis para
alcanar este objetivo esto o PSORT e TargetP, ambos disponveis no portal
do Expasy.
A estrutura primria fornece aspetos de conhecimento fundamental
para a funo de uma protena. Contudo, a ao biolgica das protenas
extremamente dependente da sua estrutura terciria. Portanto, os diferentes
graus de conformao encontrados nas protenas tambm so objetos de
estudos, como a estrutura secundria.

6.8.2 Anlise da Estrutura Secundria

A estrutura secundria da protena correlaciona as reas da sequncia


de aminocidos com a possvel existncia de formao de folhas alfa, betas e
loops. H diferentes programas disponveis para a anlise da estrutura
secundria, como o programa Gor disponvel no portal Expasy. Ao abrir a
pgina citada, apresentada a pgina de acesso inicial ao programa (Fig. 94).

238
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 94: Pgina de acesso ao programa Gor de anlise da estrutura secundria de


protenas.

A pgina de acesso ao programa Gor apresenta um quadro onde a


sequncia de aminocidos a ser analisada deve ser depositada. Para submetla pesquisa, o usurio deve clicar em Submit. O resultado apresentado
sob uma forma grfica, sendo que as porcentagens correspondentes a cada
formao em particular, como folhas alfas presentes em toda a estrutura
estudada, tambm esto disponveis (Fig. 95).

239
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 95: Resultados grficos e em porcentagem da estrutura secundria fornecidos


pelo programa Gor.

Alm da estrutura secundria, a bioinformtica ainda permite realizar a


modelagem molecular da estrutura proteica. Esta funo um mtodo
alternativo, que permite prever as conformaes que a sequncia de
aminocidos assume a partir dos conhecimentos de estereoqumica dos
aminocidos e de estruturas tercirias j resolvidas.
240
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

6.8.3 Modelagem Molecular

A modelagem molecular pode ser feita com o auxlio de diferentes


programas. A metodologia adotada nestes programas o uso de uma ou mais
referncias a partir da estrutura terciria de protenas homlogas j
conhecidas. Esta abordagem conhecida como modelagem por homologia ou
modelagem comparativa, sendo a que apresenta, atualmente, os melhores
resultados.
O primeiro passo da modelagem comparativa a pesquisa de
protenas homlogas em bancos de dados de estrutura terciria de protenas.
Com esta finalidade, o programa mais utilizado o PDB (Protein Database
Bank). Em seguida, realiza-se o alinhamento entre as sequncias primrias da
protena de interesse e de outras homlogas correspondentes.
A modelagem propriamente dita realizada por programas como o
MOdeller, SWISS-Model e o 3D-PSSM. Estes procuram as estruturas tercirias
que permitam a melhor disposio dos tomos da protena utilizada como
modelo, de forma que atenda s restries estereoqumicas. Esta estrutura
inicial ento verificada por outros softwares quanto s restries
estereoqumicas, como o Procheck.
A modelagem por homologia um processo que exige um ajuste de
parmetros e a verificao dos resultados. Normalmente, so necessrias
vrias repeties at que a estrutura terciria mais adequada seja obtida.
Apesar disso, deve-se lembrar que este processo no perfeito. Mesmo que a
estrutura final obtida se apresente de maneira em que todos os parmetros
tenham sido dispostos de maneira adequada, no h garantias de que esteja
correta.
Uma estrutura bastante prxima da que a protena assume in vivo pode
ser utilizada para desenvolver outros modelos que auxiliem o pesquisador.
Entretanto, mesmo sendo muito semelhante da estrutura real, pode ocorrer que
os resultados gerados a partir da especulao no sejam aplicveis in vivo.

241
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Outro programa mais recente de modelagem de protenas o Threading. Este


se baseia na comparao da protena de interesse com modelos descritivos
dos enovelamentos de protenas homlogas. Para isso, utilizada como
parmetro a distncia entre os resduos de aminocidos, a estrutura secundria
de cada fragmento e as caractersticas fsico-qumicas de cada resduo. Esta
tcnica tem gerado resultados satisfatrios.
Um interesse dos usurios deste tipo de ferramenta de bioinformtica
a predio da estrutura terciria a partir da sequncia primria da prpria
protena. J est disponvel este tipo de programa, que se baseia somente na
informao da srie de aminocidos e considera as interaes fsico-qumicas
entre a cadeia e com o meio. Entretanto, este tipo de programa no tem
apresentado resultados satisfatrios. Porm, devido ao interesse dos
pesquisadores neste campo, novos investimentos tm sido realizados na rea.
A informao gerada pela modelagem molecular extremamente
valiosa, pois permite identificar stios catalticos envolvidos com a funo
proteica. Alm disso, podem-se guiar pesquisas direcionadas que permitam a
caracterizao de inibidores, ativadores, entre outros, tendo em vista a
produo de frmacos mais eficientes e especficos.
A modelagem molecular de protenas por ferramentas de bioinformtica
uma estratgia cuja implantao recente e tem sido muito til aos
pesquisadores para gerar hipteses. Contudo, a sua eficincia no
totalmente

comprovada,

sendo

necessrias

pesquisas

biolgicas

que

comprovem o que foi predito pela informtica. Isto feito por meio de tcnicas
de realizaes complexas, como a difrao de raios-X.
Estas, alm de serem de difcil manipulao, representam um alto
custo, exigindo equipamentos especficos e caros. Alm disso, a dificuldade da
tcnica ainda aumentada por algumas questes biolgicas. O estudo da
estrutura terciria pelas tcnicas biolgicas exige uma grande quantidade de
material purificado, procedimento que nem sempre facilmente executado para
determinadas protenas.
O estudo sobre a estrutura de protenas por ferramentas de

242
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

bioinformtica uma rea em expanso. Sua utilidade tem sido aplicada na


rea de Imunologia para o desenvolvimento de vacinas, o que se deve
capacidade dos programas computacionais em mapear epitopos.

6.9 Mapeamento de Epitopos

O mapeamento de epitopos a partir de programas de bioinformtica


tem sido testado quanto ao seu potencial no desenvolvimento de novas
vacinas. A justificativa desta metodologia consiste em inserir na composio
vacinal somente as sequncias que sero realmente reconhecidas pelas
clulas do sistema imunolgico. Um dos programas gratuitos mais utilizados
para o mapeamento de epitopos o SYFPEITHI, o qual est disponvel no
portal Expasy (Fig. 96). Ele capaz de predizer epitopos de clulas T.

Figura 96: Pgina do programa SYFPEITHI de mapeamento de epitopos.

O programa til para predizer os epitopos de clulas T que se ligam


tanto ao complexo de histocompatibilidade (MHC) I e II. O resultado da anlise
da sequncia apresentado como um conjunto de epitopos potenciais que
podem se ligar aos MHC de escolha (Fig. 97). A probabilidade disto acontecer

243
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

apresentado por um escore.

Figura 97: Mapeamento de epitopos obtidos pelo programa SYFPEITHI.

Alm de estudos sobre a estrutura de protenas, a bioinformtica ainda


possui outras aplicaes para a biotecnologia. Uma delas o auxlio em
estudos das relaes filogenticas entre os diferentes organismos.

6.10 Mtodos em Filogenia Molecular

A bioinformtica uma ferramenta muito utilizada no estabelecimento


de relaes evolutivas entre os organismos. Estas podem ser formadas a partir
de sequncias de DNA ou mesmo de protenas, reconstituindo as relaes de
parentesco entre as espcies, o que chamado de sistemtica molecular. A
reconstituio ainda pode ser instituda utilizando-se uma escala temporal.

244
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Neste caso, o processo denominado de filogenia molecular.


As relaes de parentesco so apresentadas sob uma forma grfica,
que denominada rvore filogentica. Estes grficos possuem as mais
diversas aplicaes que facilitam o entendimento das histrias evolutivas, como
o estudo de relaes de parentesco ou at mesmo a origem e a histria
epidemiolgica de organismos patognicos a partir de dados do genoma. Esta
apresentao dos dados muito utilizada em trabalhos da rea biolgica, o
que reflete o seu reconhecimento como uma maneira legtima de apresentar os
dados biolgicos dentro de uma escala evolutiva.
O primeiro passo para a construo da histria evolutiva consiste na
escolha de um marcador filogentico. Para isto, deve-se optar por uma
sequncia de DNA ou de protenas homlogas, ou seja, que oferecem uma
ancestralidade comum. Esta escolha est diretamente relacionada com a
confiabilidade da rvore gentica gerada, pois este marcador, que apresenta
uma origem comum, garante que os organismos em anlise apresentam um
ancestral compartilhado.
A simples escolha de sequncias por similaridade, sem que mostrem
homologias, um erro que diminui a confiabilidade dos dados gerados. Isto se
deve incluso de sequncias que apresentam histrias evolutivas diferentes.
Uma maneira de aumentar a confiabilidade a incluso de sequncias de
grupos externos, cujas histrias evolutivas sejam conhecidas. Isto representar
os parmetros controles para verificar a preciso da construo obtida.
Aps a seleo da srie a ser utilizada como marcador e da incluso
de sequncias controle, o prximo passo o alinhamento mltiplo das
sequncias. Diversos programas podem ser utilizados com esta finalidade,
sendo que um dos mais utilizados com este propsito o Mega 4.0. Contudo,
programas mais simples tambm podem realizar esta tarefa, como o BLAST
(Fig. 98) e o ClustaW. As inferncias das relaes filogenticas podem ento
ser feitas a partir da construo das rvores filogenticas.

245
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Figura 98: Representao de uma rvore filogentica obtida com o auxlio do


programa BLASTn.

------------------FIM DO MDULO V-------------------

246
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

REFERNCIAS BIBLIOGRFICAS

COELHO, K. S. Isolamento, clonagem e caracterizao molecular do gene


hsp60 de Corynebacterium pseudotuberculosis e sua utilizao na
construo de uma vacina de DNA e de subunidade proteica. Dissertao
(Mestrado em Gentica). Universidade Federal de Minas Gerais, 2007.
GLICK, B. R. & PASTERNAK, J. J. Molecular Biotecnology: Principles &
Applications of Recombinant DNA. [S.I.]: ASM Press, 1994.
GRIFFITHS, A. J. F.; MILLER, J. H.; SUZUKI, D. T.; LEWONTIN, R. C.;
GELBART, W. M. Introduo gentica. 7. ed. So Paulo: Guanabara
Koogan, 2002.
LEWIS, B. Genes VIII. [S.I.]: Pearson Prentice Hall, 2004.
PROSDOCIMI et al. Bioinformtica: Manual do usurio. Biotecnologia,
Cincia e Desenvolvimento. n. 29. p 12-25.
LOODISH, H.; BERCK, A.; ZIPURSKY, S. L. et al. Molecular Cell Biology. 4.
ed. [S.I.]: Media Connected, 1999.
YIN, J.; LI, G.; REN, X.; HERRLER, G. Select what you need: A comparative
evaluation of the advantages and limitations of frequently used
expression systems for foreign genes. Journal of Biotechnology. v. 127, p
335-347, 2007.

-------------------FIM DO CURSO!---------------------

247
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

248
Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

Вам также может понравиться