Вы находитесь на странице: 1из 39

Biologia Computacional

Um Espaço Desafiador para os


Profissionais de Computação

Katia S. Guimarães
katiag@cin.ufpe.br

Seminário CIn – 14/dezembro/2007


Roteiro
• Breve Históric o d a Era Genômica
• Pós-Genom a , a Curta Era Proteômica
• A Essenc ia lid a d e d o Intera ctoma
• Nosso Tra b a lho d e Pesq uisa e
Op ortunid a d es no CIn
Bio -info rm á tic a vs.
Biolog ia Com p uta c iona l
Há muita c ontrovérsia q ua nto a estes term o s.

Pa ra a lg uns
Bio-informá tica é uma esp ec ia liza ç ã o d a
Info rm á tic a q ue tra ta d e d esenvo lver
ferra m enta s p a ra lid a r c om d a d os b iológ ic os.
Biologia (Molecula r) Computa ciona l á rea d e
p esq uisa q ue c om b ina c onhec im ento s d e
Quím ic a , Físic a , Biolog ia , C. Com p uta ç ã o,
Ma tem á tic a e Esta tístic a p a ra a ta c a r
p ro b lema s d e Biolog ia Molec ula r.
Históric o d a Era Genô m ic a - 1990
Iníc io : Outub ro d e 1990
La nç a m ento d o Projeto Genoma Huma no
- Seq üenc ia r o DNA huma no (3• 109 p b ) e
- Id entific a r os estima d os 100 m il g enes.
Ato res Princ ip a is:
Consórc io envolvend o EUA, Ing la terra ,
Fra nç a , Ja p ã o, Alema nha e China .
Pra zo: 15 a nos (term ina ria em 2005)
Orç a m ento: US$3 b ilhões d e d óla res
Históric o d a Era Genô m ic a - 1992

1992
 Consórc io fa z ma p a s d os
c ro m ossom os huma nos

 Cra ig Venter, p esq uisa d or


d o NIH, fund a The Institute
for Genomic Research (TIGR)
Históric o d a Era Genô m ic a - 1995
Grup o d e p esq uisa d ores d a TIGR p ub lic a
na revista Sc ienc e o a rtig o
Wh o l e -g e n o m e r a n d o m s e q u e n c i n g a n d
a s s e m b l y o f H a e m o p h i l u s i n fl u e n z a e R d .
Fleisc hma nn RD, Ad a m s MD, et a l.

c o m a seq üênc ia d e DNA d a b a c téria


Ha em op hilus influenza e (otite, m ening ite)
Ta ma nho: 2• 106 b p
Téc nic a : d oub le-b a rrel shotg un seq uenc ing
Mais custo computacional
Muito menos tempo e custo em labs.
Históric o d a Era Genô m ic a – 96-98
Pesq uisa d ores d a TIGR p ub lic a m a s
seq üênc ia s d e DNA d e o utra s b a c téria s
Myc op la ma g enita luim (1996) (m enor b a c téria )
Metha noc oc c us ja nna sc hii (1997)

1998
Cra ig Venter se a ssoc ia c om a Ap p lied
Bio system s p a ra fund a r a Celera Genomics Corp.,
c o m o o b jetivo d e seq üenc ia r o g eno ma
huma no em 03 a nos (2001),
a o c usto d e US$300 m ilhões ( 1/ 10 d o
o rç a m ento d o p rojeto d o Consórc io ).
Históric o d a Era Genô m ic a – 99-00
O Co nsórc io revê a s sua s p revisões, e a nunc ia
a c o nc lusã o d o seq üenc ia m ento p a ra 2003,
c om um esb oç o em 2001.

Dez/ 1999
É a nunc ia d o o seq üenc ia m ento d o p rim eiro
c rom ossom o (no. 22) p elo c onsórc io mund ia l.

Jun/ 2000
Bill Clinton e Tony Bla ir a nunc ia m a c o nc lusã o
d o p rim eiro esb oç o d o g enoma huma no .
Históric o d a Era Genô m ic a – Fev 2001

The Sequence of the Initia l Sequencing a nd Ana lysis


Huma n Genome of the Huma n Genome
J. C. Venter, M. D. Ada ms, Consórcio Mundia l
E. W. Myers, et a l.
Biologia Molecular 101 em 2 Minutos
Genoma
Cromossomos
Célula

DNA O DNA contém


genes que codificam
proteínas
Genes são expressos,
gerando proteínas

Proteínas atuam
sozinhas ou em
complexos
O GenBank
Do ponto de vista da computação, foram criadas
inúmeras seqüências sobre o alfabeto {a, c, g, t}
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta
661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag
721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa
781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata
841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga
901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg
Link: http://www.ncbi.nlm.nih.gov/Genbank/index.html
O GenBank do NCBI
Aproxima-
damente
85 bilhões
de pares
de base

Link: http://www.ncbi.nlm.nih.gov/Genbank/index.html
O que fazer com tanta Letrinha?
O genoma
é como
um livro

dividido
em
capítulos
(cromos-
somos)

e
estes em
palavras
(genes)
Genes são transcritos e traduzidos
dando origem a proteínas
Mas se fosse muito simples não
seria tão interessante

Foram
encontrados
apenas cerca
de 25mil
genes, ao
invés dos 60 a
100 mil genes
estimados a
princípio.
Os genes dos eucariotos são
compostos por exons e introns …
Os introns sempre desaparecem
por ocasião do splicing.
Os exons podem permanecer ou não.
Os genes têm a sua expressão controlada
por Fatores de Transcrição

O foco da
atenção
passou
então
para as
proteínas
.
Os níveis de expressão de um gene variam
com os promotores que se ligam à região
reguladora, imediatamente antes do gene
O que é Proteômica?
Proteômica é o estudo das proteínas, com
suas estruturas e funções.

Link para Expasy:


http://ca.expasy.org/cgi-bin/prosite/PSView.cgi?ac=P

Link para PDB:


http://www.rcsb.org/pdb/home/home.do
O nível de expressão dos genes em diferentes con-
dições ou em intervalos de tempo pode ser medido

Em setembro de 2006, o GEO (Gene Expression Omnibus)


do NCBI continha mais de 3.2 bilhões de medidas, tomadas
sobre mais de 200 organismos.
Intera ç ões entre Proteína s
Proteínas geralmente
atuam em conjunto,
e se organizam
em redes do tipo
small world, com
muitos nós de
grau baixo e
poucos nós de
grau alto (hubs)
Interações entre Proteínas
Proteínas
relacionadas
funcionalmente
encontram-se a
uma distância
muito pequena,
e em geral são
vizinhas nos
mapas de
interação.
Doenças Humanas e Alvos de Drogas

Nature
Biotech,
Out 2007
Dobramento de Proteínas
Um problema bem Difícil
Predição de Estrutura de Proteínas
Dob ra m ento d e Proteína s

Alp ha
Helix
Dobramento de Proteínas
Beta Barrel
Docking e o Projeto de Drogas
Detalhes como orientação e ângulo de ligação de
todos os resíduos do sítio ativo são essenciais.
The Blue Gene Projec t

Em dezembro de 1999, IBM anunciou um projeto


orçado em $100 milhões de dólares em 5 anos.

Objetivo: Construir um computador massivamente


paralelo para ser aplicado no estudo de fenômenos
biomoleculares, como protein folding.

IBM Research – Blue Gene supercomputadores que operam


da ordem de 478 TFlops (continuado) e 596 TFlops no pique!

Top 500 parallel Computers, Nov/2007: http://www.top500.org/


Nosso Tra b a lho Nesta Área

No s últim os a nos tem os tra b a lha d o em :

- Pred iç ã o d e Estrutura s d e Proteína s


- Rec onstruç ã o d e Red es d e Genes
(em g era l e rela c iona d a s a d o enç a s)

- Intera ç ã o entre Proteína s e Genes

- SNPs (sing le nuc leotid e p olim o rp hism )


e Ha p lotyp ing Novo!
Pred iç ã o d e Estrutura s d e Pro teína s

Combining Few Neura l Networks for


Effective Seconda ry Structure Prediction
BIBE K. Guima rã es, J. Melo e G. Ca va lc a nti
2003 Bethesd a , USA, Ma rç o 2003

Protein Seconda ry Structure Prediction:


Efficient Neura l Network a nd Fea ture
Extra ction Approa ches
J. Melo, G. Ca va lc a nti e K.Guima rã es
IEE Elec tronic s Letters, 2004
Rec onstruç ã o d e Red es d e Genes

A Simpler Ba yesia n Network Model for


IJCNN Genetic Regula tory Network Inference
2005 Gusta vo Ba stos a nd Ka tia S. Guima rã es
Montrea l, CA, Ag osto 2005

Analyzing the Effect of Prior Knowledge in


Genetic Regulatory Network Inference
Gusta vo Ba stos a nd Ka tia S. Guima rã es
Dezem b ro 2005
Intera ç ã o entre Pro teína s e Genes

Decomposition of overla pping protein complexes:


A gra ph theoretica l method for a na lyzing sta tic a nd
dyna mic protein a ssocia tions
E. Zotenko, K. S. Guima rã es, R. Jothi, T. Przytycka
Abril 2006

Predicting doma in-doma in intera ctions


using a pa rsimony a pproa ch
K. S. Guima rã es, R. Jothi, E. Zotenko, T. Przytycka
Novembro 2006
SNPs e Ha p lo typ ing
… ataggtccCtatttcgcgcCgtatacacgggActata …  CCA
… ataggtccGtatttcgcgcCgtatacacgggTctata …  GCT
… ataggtccCtatttcgcgcCgtatacacgggTctata …  CCT

0.1% diferença de um indivíduo pa ra outro.

80% da s va ria ções em SNPs

Ponto frequente de ca ra cteriza çã o de


doença s

Aborda gens Combina toria is e Esta tísticos


Sem iná rios Sem a na is

A p a rtir d e 09 / ja neiro / 2008 


Sem iná rio sema na l p a ra d isc ussã o
d e tra b a lhos em Biolog ia Molec ula r.

Os sem iná rios serã o a b ertos a tod o s.

Ho rá rio : Qua rta s, 10:30 à s 11:30hs


Lo c a l: Aud itório d o CIn
Op o rtunid a d e d e p esq uisa na á rea
Nã o há q ua lq uer req uisito d e
c o nhec im ento p révio d e Biolog ia .
Os req uisitos sã o:
- Interesse em pesquisa (estud a r
a rtig os c ientífic os, fa zer d esenvo lvim ento
e a ná lise d e d a d os, esc rever a rtig os)
- Bom domínio de progra ma çã o
- Disponibilida de de tempo
Interessa d os: Ma nd a r históric o e CV
p a ra ka tia g @c in.ufp e.b r

Вам также может понравиться