Вы находитесь на странице: 1из 21

Universidade Federal do ABC BC 1439 Introduo Bioinformtica

ATIVIDADE PRTICA 2

Turma Diurno 1 quadrimestre 2010 Cssia de Souza Carvalho

Prof. Antnio Srgio Kimus Braz Santo Andr, 16 de abril de 2010

I BUSCA , SELEO E ALINHAMENTO DE SEQUNCIAS Parte 1 ORF e orientao de sequncia de cDNA A sequncia de cDNA reproduzida abaixo foi utilizada no programa pDRAW32 para a verificao de possveis ORFs (Open Read Frame) e suas orientaes no quadro de leitura. A Figura 1.1.1 mostra a tela inicial do aplicativo contendo a representao grfica da sequncia e a orientao positiva do ORF encontrado.
>CAS CTAGGCGGGG GACACGGAGG AGCTGGACAC GGACGACACC TCCGTGCGCG ACGTGGACAC CTCGGAGCCG TCGTCCACCT TCTTCCCGAA CAGCTGCAGG ATGCAGTTCC GGAACTGCCT GTTCATGAAC ACGTAGATGA TGGGGTTGTA GATGGTGGCG CTCTTGGCGA AGTACGCGGG CAGCGCGGCC GCCAGGGGGT GGAAGGCGTA GCCGGGGTTG GCGGCGGCGA AACAGGCGAA GATGGTGTAG GGGCCCCAGC AGAAGCAATA GGCGACGATC ATCACCACCA CCATGCGCGA CACCTCCTTC TCCGCCTTCT GCGTCGACTC CGACTCCTTC TGCTGGGCTG CCACCGCGCG GATGGCCAGC CAGACTTGCA GGTAGCACAG CACGATGATG GCGAGCGGGA AGAAGCAGCA GGTGACCATG AGCACCACCA TGTAGCTCTG CACGCCCGGG TCCGAGCTGC CGCTGAACAC GTCGGGGCCG CACGACGTCT TCAGCCCGTG GGGCCAGTAC CTGCTCCAGC CGAAGACGGG CGGCGCGGTC CAGGCGCACG ACCAGACCCA GGAGAACAGG ATCCCGGCCA GCGCCAACTT CCCGTCGAAC TTGATGTTCC CGAAGGGCTT GCAGACCACG AACCAGCGCT CCCAGGAGAT GATGGCGAGC GACCAGAGCG CCGTGATGCC ACAAGCAGAC ACGGTGTAGC CCTCGAGGAC GCACATGGGG TGCCCCAGCA CGAAGTAGCC CGAGATCTGG TTGACCACGC TGATGGTGCT GGCGATGACG GTCTCGCCCA GGTCGGCCAC CGCCAGGTTC ACCAGGATCC AGTTGAGCGG GTGCCGCAGC TTCTTGAAGC GCCAGGTGGC CACCAGCACC AGCCCGTTGG TGAACACCGA CGCCACCACC ACGAAGATCA TCCACAGCGA CGTCAGGTTG TACACCCAGC GCGGCGCGAT GTGGTAGTTG GGGCCCTCGA AGGGGCCGCG GGTGTTGTTG CTGTTGGTGT AGGTGAACAC GCTGTCCCGC GTCGTGTCCT CGTCCTCGTG GCGCCGCCGC GCGGCCGCGA ACCCGTCCAT

Figura 1.1.1. Tela do pDRAW e o ORF encontrado.

Com o uso do aplicativo, verificou-se a quantidade de pares de base do ORF (1700), em qual frame se inicia (Frame 4), e o aminocido predito (Figura 1.1.2).

Figura 1.1.2. Tela de informaes sobre o ORF no pDRAW.

A sequncia de aminocido encontrada, relacionada a seguir em formato FASTA, foi utilizada como isca no programa de alinhamento blastp.
>CAS_pDRAW MDGFAAARRRHEDEDTTRDSVFTYTNSNNTRGPFEGPNYHIAPRWVYNLT SLWMIFVVVASVFTNGLVLVATWRFKKLRHPLNWILVNLAVADLGETVIA STISVVNQISGYFVLGHPMCVLEGYTVSACGITALWSLAIISWERWFVVC KPFGNIKFDGKLALAGILFSWVWSCAWTAPPVFGWSRYWPHGLKTSCGPD VFSGSSDPGVQSYMVVLMVTCCFFPLAIIVLCYLQVWLAIRAVAAQQKES ESTQKAEKEVSRMVVVMIVAYCFCWGPYTIFACFAAANPGYAFHPLAAAL PAYFAKSATIYNPIIYVFMNRQFRNCILQLFGKKVDDGSEVSTSRTEVSS VSSSSVSPA

Parte 2 - BLASTP Utilizando a sequncia de aminocidos, foram alteradas algumas opes padro na tela da ferramenta blastp, que compara uma dada sequncia de aminocidos com o banco de protenas do NCBI. Os ajustes foram: o nmero de sequncias alvo, alterado para 10000, e a Matriz de Pontuao BLOSUM, que foi testada em trs opes (BLOSUM 62 default, BLOSUM 45 e BLOSUM 80). As Figuras 1.2.1 e 1.2.2 mostram as telas de configurao do blastp.

Figura 1.2.1. Tela do blastp contendo a sequncia.

Figura 1.2.2. Ajuste de parmetros. Em destaque, o nmero de sequncias alvo e a Matriz de Pontuao.

2a BLOSUM62 Inicialmente possvel visualizar o tamanho da sequncia isca, contra quais bancos foi realizada a busca e uma informao importante: qual o domnio da protena em questo. (Figura 1.2.3)

Figura 1.2.3. Informaes iniciais da busca realizada pelo blastp. Em destaque, o domnio da protena.

A opo default do blastp traz como resultados as sequncias homlogas com pelo menos 62% de similaridade. Isso pode significar que organismos mais distantes filogeneticamente no aparecero nas buscas. O grfico que mostra os scores de alinhamento (Figura 1.2.4) traz uma uniformidade nos resultados, com scores maiores ou iguais a 200 e com alta cobertura. A seguir, a tela mostra as sequncias encontradas, classificadas pelo score e pelo E-value (Figura 1.2.5). A primeira sequncia encontrada, que possui 100% de similaridade, 100% de cobertura e E-value igual a zero corresponde protena LWS opsin de pombo comum (Columba livia), responsvel pela sensibilidade aos comprimentos longos de onda, correspondente ao espectro vermelho:
>gb|AAD38036.1| LWS opsin [Columba livia] Length=359 Score = 739 bits (1908), Expect = 0.0, Method: Compositional matrix adjust. Identities = 359/359 (100%), Positives = 359/359 (100%), Gaps = 0/359 (0%)

Figura 1.2.4. Grfico dos alinhamentos obtidos no blastp com Matriz BLOSUM62.

Observando as sequncias obtidas, percebe-se que dezenove delas apresentam E-value zero, e a partir da vigsima sequncia h uma diferena nos E-values, que aumentam de modo praticamente uniforme at o final das sequncias mostradas pelo blastp. Os trs primeiros organismos relatados so de aves, seguem-se rpteis, anfbios e mamferos como monotremados e marsupiais. O primeiro organismo a ter um E-value diferente de zero o Thylanys elegans, um mamfero Didelphimorphia. A identidade continua alta, pois a sequncia compartilha o domnio 7tm_1, mas apresentam um domnio extra em sobreposio, o 7TM_GPCR_Srsx (Figura 1.2.6), que na verdade refere-se superfamlia das opsinas. Foi possvel constatar essa informao rodando o blastp contra as sequncias limites: a ltima com E-value nulo (que apresentou somente o

domnio 7tm_1) e a primeira com E-value igual a 3e-180. A primeira sequncia a diferir da notao para a protena de opsina para o vermelho a green opsin (predicted) [Rhinolophus ferrumequinum], cujo E-value 5e-174, mas ainda possui alta identidade (85%) e compartilha o mesmo domnio. Depois da opsina verde, ainda continuam a aparecer sequncias de LWS, surgem algumas middle-wave (que correspondem faixa verde do espectro), long-middle-wave, at as primeiras sequncias com SWS / UV. H algumas oscilaes de porcentagem de identidade sempre em torno dos 80%, at que surge a sequncia green opsin [Takifugu rubripes], que apresenta E-value 2e-83 e identidade igual a 45%. A partir da, os valores de identidade continuam abaixo dos 50%.

Figura 1.2.5. Primeiras sequncias relacionadas. Em destaque a primeira alterao abrupta do E-value das sequncias.

Figura 1.2.6. Domnio extra encontrado na primeira sequncia com E-value diferente de zero.

2b BLOSUM45 A seguir foi realizada a busca em blastp com matriz BLOSUM45. Novamente o grfico de alinhamentos continua com alto score e alta cobertura (Figura 1.2.7), mas dessa vez h muito mais sequncias com E-value zero que no blastp anterior (Figura 1.2.8), em que fora usada a BLOSUM62. Isso se deve ao falto de que a Matriz BLOSUM45 traz as sequncias com pelo menos 45% de similaridade, o que favorece a apario de sequncias de organismos mais distantes filogeneticamente. Isso pode ser observado pela presena de primatas como Cebus capucinus, Papio anubis, Callithrix jacchus, Homo sapiens, alm de um felino (Felis catus). A primeira mudana de E-value tambm indicou presena de domnio extra. At a sequncia de Galago senegalensis, somente o domnio 7tm_1 aparecia, mas a partir do E-value igual a 3e-180, encontrou-se o domnio em sobreposio 7TM_GPCR_Srsx (Figura 1.2.6). Novamente h sequncias identificadas como verde, middle-long-wave, verde-vermelho e short-wave / UV. H muitas sequncias no-inteiras que preservam identidade em torno de 80% mas a partir de certo ponto, a identidade cai abaixo de 50%, e no se encontram mais sequncias correspondentes LWS (sequncia UV-sensitive mawsoni], E-value: 4e-87 , identidade: 47%). pigment [Dissostichus

Figura 1.2.7. Grfico dos alinhamentos obtidos no blastp com Matriz BLOSUM45.

Figura 1.2.8. Sequncias obtidas com destaque para a primeira alterao no E-value.

2b BLOSUM80 O prximo blastp utilizou a matriz BLOSUM80. Novamente grfico com alta cobertura e alto score (Figura 1.2.9). Mas desta vez houve muito mais sequncias com EValue nulo que nos blastp anteriores. As sequncias encontradas dos organismos foram semelhantes s do blastp com BLOSUM45, mas novos organismos apareceram. A primeira queda nos valores esperados de 3e-180, e corresponde a uma sequncia de Sinocyclocheilus yimenensis, a qual novamente apresentou um domnio extra (Figura 1.2.6).

Figura 1.2.9. Grfico dos alinhamentos obtidos no blastp com Matriz BLOSUM80.

Figura 1.2.10. Sequncias obtidas com destaque para a primeira alterao no E-value.

Assim como nas buscas realizadas anteriormente com as outras matrizes BLOSUM, no foi possvel identificar por meio de variaes abruptas no E-value um tipo diferente de protena presente das sequncias. As pequenas variaes podem apontar uma mudana para a protena verde da opsina, mas logo sucedem-se novamente sequncias de protena vermelha. A diminuio na porcentagem de similaridade tambm no um bom indicador de mudana de protena, pois antes dessa diferena j apareciam sequncias com protenas verdes, vermelhas e azuis.

Parte 3 Identificao da protena e do organismo Para a verificao do domnio da protena, pode-se usar o prprio NCBI (Figura 2.3.1) ou o site Pfam (Figura 2.3.2). O domnio, por ser uma regio extremamente conservada, possui caractersticas prprias e o principal responsvel pela funo da protena.

Figura 1.3.1. Informaes sobre o domnio pelo NCBI.

Figura 1.3.2. Informaes sobre o domnio pelo Pfam.

A sequncia codificante da protena LWS osin pertence ao pombo comum (Columba livia), cuja classificao taxonmica a seguir foi extrada do arquivo GenPept dessa sequncia (gb|AAD38036.1|), obtido nas buscas por blastp no NCBI:
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Archosauria; Dinosauria; Saurischia; Theropoda; Coelurosauria; Aves; Neognathae; Columbiformes; Columbidae; Columba.

Parte 4 Alinhamentos Mltiplos Foram coletadas sequncias consideradas significativas (dentro dos critrios Evalue igual a zero, alta identidade, sequncias inteiras ou com pequena diferena no nmero de aminocidos e organismos diferentes, representando ordens e classes distintas, para a construo posterior de uma rvore filogentica, alm da escolha de um outgroup para raiz organismo evolutivamente mais distante). Foi utilizado o software Genbankreader no arquivo GenPept com as sequncias para renome-las (com no mximo dez caracteres) e disp-las em formato FASTA (Anexo I result.fasta), que aceito pelos softwares de alinhamento utilizados. O primeiro alinhamento foi realizado com o software ClustalX (Figura 1.4.1), no modo de Mltiplo Alinhamento (Anexo II result_clustalx.aln). V-se a insero de muitos gaps no incio das sequncias e uma sequncia diferente das demais no trecho dos gaps iniciais (Pan troglodytes).

Figura 1.4.1. Parte do alinhamento visto na tela do programa ClustalX.

O outro alinhamento foi feito com o software t_coffee (Anexo III result_tcoffee.aln). Esse mtodo apresentou melhores resultados devido a seu algoritmo mais eficiente, sendo este o alinhamento escolhido para a construo da rvore filogentica. II) RVORE FILOGENTICA

Inicialmente foram coletadas 41 sequncias de animais Vertebrata, sendo todos Euteleostomi, com exceo da raiz, pertencente Hyperoartia. Trata-se da lampria-debolsa (Geotria australis), um tipo de peixe sem mandbulas. A lista dos organismos com suas respectivas siglas anotadas pelo Genbankreader, bem como sua classificao segundo o Taxonomy do NCBI, encontram-se no Anexo IV. Para a construo da rvore com o software MEGA 4, converteu-se o formato de arquivo com a sequncia alinhada (result_tcoffee.aln) para o formato aceito pela aplicao, *.meg. Nesse processo, ocorreu um erro no algoritmo do programa, que eliminou a sequncia de pombo, que no apareceu ento na rvore. Tal erro persistiu em diversas tentativas com este mesmo alinhamento em computadores diferentes.

A primeira rvore foi construda com mtodo Neighbor-Joining, que utiliza distncias geomtricas para a resoluo da rvore. Foram aplicados o modelo de correo Poisson e como teste de filogenia, Bootstrap de 2000 replicatas (Figura 2.1).

Figura 2.1. Parmetros ajustados no aplicativo MEGA.

A rvore original obtida no estava enraizada corretamente. Colocou-se a sequncia pertencente lampria como raiz e fez-se um rearranjo dos ramos (opes swap e rotate Figura 2.2). (Anexo V arvore_original1.mts e arvore_modif1.mts) Os grupos destacados em cores diferentes mostram a maior presena de espcies de primatas e marsupiais em mamferos, e de peixes, poucos representantes pertencentes a aves e rpteis. Percebem-se ramos com baixo suporte estatstico, o que demonstra uma incerteza do algoritmo quanto aos clados apresentados. Por tratar-se de sequncias com alta similaridade, acontecem politomias (trechos em que o grau de sada de um vrtice maior ou igual a quatro) como no grupo de primatas (em laranja, na Figura 2.2), e possveis erros de disposio, como um grupo de peixes (em azul na Figura 2.2) depois de anfbios (em verde escuro, Figura 2.2).

Figura 2.2. rvore filogentica construda por mtodo NJ, modelo Poisson, 2000 bootstraps.

A primeira rvore foi construda com mtodo Neighbor-Joining, que utiliza distncias geomtricas para a resoluo da rvore. Foram aplicados o modelo de correo JTT e como teste de filogenia, Bootstrap de 2000 replicatas (Figura 2.3).

Figura 2.3. Parmetros ajustados no aplicativo MEGA.

A rvore original obtida no estava enraizada corretamente. Colocou-se a sequncia pertencente lampria como raiz e fez-se um rearranjo dos ramos (opes swap e rotate Figura 2.4). (Anexo VI arvore_original2.mts e arvore_modif2.mts) Esse novo mtodo resolveu o problema das politomias, mas no conseguiu organizar a sequncia de peixes e anfbios conforme a ordem esperada (Figura 2.5). Ainda h ramos com baixo suporte estatstico,

Figura 2.4. rvore filogentica construda por mtodo NJ, modelo JTT, 2000 bootstraps.

Por fim, construiu-se outra rvore com mtodo diferente, o de mxima verossimilhana (ML maximum likehood) com uso do software PhyML. Foi escolhido o modelo WAG e foi teste de filogenia aplicado aLRT (SH like). O resultado pode ser visto na Figura 2.5.

Figura 2.5. rvore filogentica construda por mtodo ML, modelo WAG, teste de filogenia aLRT.

Esse mtodo apresentou as melhores estatsticas, no entanto, isso no significa uma rvore com clados conforme aguardado pela filogenia conhecida. Persiste a ordem invertida entre peixes e anfbios e a politomia entre primatas, e os dois monotremados (OrAna e TaAcu) deveriam aparecer no mesmo ramo. O grupo de aves e rpteis tambm no est de acordo com a filogenia. possvel observar que sequncias pertencentes a elefante (LoAfr) e a Sorex araneus (SoAra) apresentam evoluo mais rpida que os demais mamferos. Logo, os relgios moleculares das espcies so distintos. Uma nova tentativa de construo de rvores com mais sequncias foi realizada. Dessa vez, foram coletadas 66 sequncias, incluindo mais aves, anfbios, mamferos e peixes. No havia entre as sequncias disponveis (de acordo com os critrios j citados

para a escolha) outros representantes dos rpteis. O resultado foi semelhante ao apresentado anteriormente e a questo com os anfbios e peixes persistiu (Anexo VI novo_alinhamento.tar.gz). Para um trabalho mais apurado, seria adequado testar diferentes mtodos de seleo de sequncias. Fazer buscas pelo blastp restringindo a grupos especficos (por exemplo, mamferos, aves, rpteis, anfbios e grupos de peixes) e depois concatenar as sequncias coletadas para o alinhamento e rvore. Como vantagem, a busca restrita poderia apresentar sequncias de espcies no relatadas numa busca generalista, trazendo novos elementos, possibilitando uma resoluo menos problemtica do software para a construo das rvores filogenticas. REFERNCIAS BIBLIOGRFICAS [pDRAW32] verso 1.0 http://www.acaclone.com [ClustalX2.0] Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG. (2007). Clustal W and Clustal X version 2.0. Bioinformatics, 23, 2947-2948. [T-coffee] Notredame, Higgins, Heringa. T-Coffee: A novel method for multiple sequence alignments. JMB, 302(205-217)2000 [SEAVIEW] Gouy M., Guindon S. & Gascuel O. (2010) SeaView version 4 : a multiplatform graphical user interface for sequence alignment and phylogenetic tree building. Molecular Biology and Evolution 27(2):221-224.

Вам также может понравиться