Академический Документы
Профессиональный Документы
Культура Документы
Professor: Joo L. S. G. Vianez Jr. Lab. de Biotecnologia Sustentvel e Bioinformtica Microbiana (LBSBM) CCS Bloco I, S 45 Andrew Macrae amacrae@biologia.ufrj.br
Aplicao de ferramentas de bioinformtica no desenho de iniciadores de PCR para investigao de genes de interesse
Contato: joao_vianez@ufrj.br joao_vianez@superig.com.br Laboratrio de Biotecnologia Sustentvel e Bioinformtica Microbiana (LBSBM): CCS, Bloco I. Microbiologia Geral, sala 45. http://www.lbsbm.microbiologia.ufrj.br/
1. Bioinformtica
Definies:
Pesquisa, desenvolvimento ou aplicao de ferramentas e abordagens computacionais para o tratamento de dados biolgicos, incluindo aquisio, armazenamento, organizao, arquivamento, anlise e visualizao de tais dados. (NIH National Institute of Health). Une biologia, cincia da computao e tecnologia da informao em uma nica disciplina. Existem trs importantes disciplinas na bioinformtica: 1 Desenvolvimento de novos algoritmos para acessar relaes entre membros de grandes conjuntos de dados. 2 Anlise e interpretao de vrios tipos de dados, incluindo seqncias nucleotdicas e de aminocidos, domnios e estruturas de protenas. 3 Desenvolvimento e implementao de ferramentas que permitam o acesso eficiente e o gerenciamento de diferentes tipos de informao. (NCBI National Center for Biotechnology Information).
1.1 Aplicaes
Genmica Comparativa Anotao de genomas Biologia evolutiva computacional Estimativa de biodiversidade Anlise da expresso / regulao gnica Predio de estruturas de protenas Modelagem de processos biolgicos complexos. Anlise de seqncias (Desenho de iniciadores) Reconhecimento de padres e anlise de imagens. Algoritmos genticos. Redes Neurais. Machine learning. Vida / Inteligncia artificial. Modelagem de processos biolgicos complexos.
Antes se achava que a Biologia era complexa demais para aplicar Matemtica. Agora pensamos que ela complexa demais para NO usar
2. Bancos de Dados
Bancos de dados, (ou bases de dados), so conjuntos de dados com uma estrutura regular que organizam informao de forma til.
NBRF/PIR EMBL/SWISSPROT Clustal (*.aln) GCG/MSF (Pileup) GCG9 RSF GDE flat file. PAUP NEXUS PHYLIP
FASTA
Universal
2. Bancos de Dados
Nmero de acesso: Identificador nico em um banco de dados. Exemplo de entrada (genbank): AAX51268
Organiza unidades funcionais / estruturais distintas de protenas: timo guia para alinhamentos.
Temperatura de melting (Tm) na faixa de 52 C a 65 C. Ausncia da capacidade de dimerizao. Ausncia significativa da formao de grampos (>3 bp). Inexistncia de stios secundrios de anelamento dos primers.
5-TGCTAAGTTG-3 5-CAGTCAACTGCTAC-3
Alinhamento de Seqncias
Definio
Comparao de duas ou mais seqncias por meio de buscas de uma srie de caracteres ou padres de caracteres que esto na mesma ordem.
A L I G N M E N T | | | | | | | - L I G A M E N T
Tipos de Alinhamento
Global
Local
-------TGKG-------||| -------AGKG--------
Significado do Alinhamento
Mtodos
Matriz Pontual
As seqncias so escritas ao longo dos eixos X e Y de uma matriz, e coloca-se um ponto onde ocorrem identidades.
Indels
S E Q U E N C E A N A L Y S I S P R I M E R S E Q U E N C E P R I M E R
Repeties
S S E Q U E N C E S E Q U E N C E S E Q U E N C E E Q U E N C E A N A L Y S I S P R I M E R
Programao Dinmica
Mtodo computacional que calcula o melhor alinhamento possvel entre seqncias Principais variveis do programa: .Match .Mismatch .Gap
Matrizes de Pontuao
Aparecem em quase todas as anlises que envolvem comparao de seqncias. A escolha da matriz pode ter grande influncia sobre o resultado da anlise. Representam uma teoria particular de evoluo.
Matriz de Identidade
A A T G C 1 0 0 0 T 0 1 0 0 G 0 0 1 0 C 0 0 0 1
A A T G C 0 5 5 1
T 5 0 1 5
G 5 1 0 5
C 1 5 5 0
A T G A
A T G A
A T G A
G A A T T C A G T T A | | | | | | G G A T C G - A
G A A T T C A G T T A | | | | | | G G A T C G - A
+ - + - + + - + - - + 5 3 5 4 5 5 4 5 4 4 5
5 3 + 5 4 + 5 + 5 4 + 5 4 4 + 5 = 11
Problema:
Como reduzir o nmero de comparaes necessrias sem comprometer a tentativa de encontrar um alinhamento timo?
Passos do Algoritmo SP
1) Comparaes so feitas entre cada PAR de seqncias do MSA.
A A B C -
B 22 -
C 39 41 -
Passos do Algoritmo SP
2) Uma rvore filogentica guia feita:
a c C b
Neighbor - Joining
1) a + b = 22 2) a = 22 - b 3) a = 39 - c 4) c = 41 - b : 39 - (41 - b) = 22 - b, -2 + b = 22 -b, de 2 e 3 temos: 5) 39 - c = 22 - b de 5 e 4 temos: 39 - (41-b) = 22 - b, b = 12 de 1 temos: a = 10 de 4 temos: c = 29
a = 10 b = 12 c = 29
rvore Completa - NJ
A A B C B 22 C 39 41 A = 10 B= 12 C = 29
10 29 C 12
Passos do Algoritmo SP
3) Seqncias restantes so alinhadas na ordem de relao determinada pela rvore guia.
10 29 C 12
Problema:
Muitas comparaes so desperdiadas comparando-se regies que no tem nada em comum. Soluo:
Regies similares entre duas seqncias apresentam pequenos fragmentos de identidade (words). Mtodo bsico: Procurar regies de similaridade somente perto destes fragmentos.
WORDS (BLAST)
BLAST
Problema: Se sua seqncia tiver um fragmento de composio incomum (ex. rico em A-T) ou repeties de um mesmo elemento, resultados indesejveis ocorrero. Soluo: Fazer uma lista dos WORDS que ocorrem freqentemente e retirar estes WORDS.
Blast: Consideraes
Concluses:
Aps uso dos algoritmos, sempre avaliar seu alinhamento com seus prprios critrios. Edio usando Bioedit.
Iniciadores
nicos
Comprimento
- Influencia a capacidade de um iniciador ser nico ou no. Tambm influencia as temperaturas de melting e anelamento. - Quanto maior o comprimento do primer, maior a possibilidade deste ser exclusivo; da mesma forma que maiores sero as temperaturas de melting e anelamento. - De uma forma geral, o comprimento do primer no deve ser inferior a 15 bases para assegurar a uniqueness. Geralmente, ns sintetizamos primers com 17-28 bases de comprimento. - A existncia desta faixa est baseada no fato de se buscar unique primers que apresentem temperatura de anelamento dentro da faixa considerada como a mais adequada.
Composio de Bases
- A composio de bases afeta a especificidade da hibridizao, as temperaturas de melting e anelamento, e a estabilidade interna. - Composio de bases randmica prefervel. Sempre que possvel devem ser evitadas longas regies ricas em (A+T) e (G+C).
Template DNA 5...TCAACTTAGCATGATCGGGCA...AAGATGCACGGGCCTGTACACAA...3
TGCCCG ATCATGCT GCCCG
- Geralmente, a quantidade de (G+C) deve estar em torno de 50-60% para assegurar-nos as temperaturas de melting e anelamento adequadas reao de PCR, e, desta forma, fornecer estabilidade na hibridizao.
TGCCCG GCCCGATCATGCT
Temperatura de Melting
-Temperatura de Melting, Tm a temperatura na qual metade das fitas de DNA est na forma de fitas simples e a outra metade na forma de dupla hlice. - Tm dependente da composio do DNA, de modo que aumento do contedo de G+C no DNA gera um incremento na Tm ocasionado pelo maior nmero de ligaes de H. Determinao (Composio de Base): Tm = 59.9 + 0.41*(%GC) - 600/comprimento Outros mtodos mais precisos so disponveis.
Temperatura de Anelamento
Temperatura de anelamento, Tanneal a temperatura na qual os primers se pareiam ao DNA molde. Ela pode ser calculada a partir da Tm .
Tanneal = Tm_primer 4C
Para assegurar que o pareamento dos primers ao DNA molde ocorra antes que as duas fitas se liguem uma a outra, necessrio que: Tm_product Tanneal 30 C .
Estrutura Interna
Se os primers puderem parear com eles mesmos, ou parearem um com o outro mais facilmente do que com o DNA molde, ento a eficincia do PCR ir ser reduzida significativamente. Primers com estas caractersticas devem ser evitados.
Entretanto, s vezes estas duas estruturas no so problemticas, uma vez que a ocorrncia destas pode ser restringida atravs da determinao da temperatura de anelamento. Por exemplo, alguns dmeros ou grampos so formados a 30 C, enquanto que durante o ciclo do PCR a temperatura mais baixa seja de 60 C.
- Primers trabalham em pares forward primer e reverse primer. Uma vez que eles so usados na mesma reao de PCR, ser preciso que as condies do PCR estejam adequadas ao funcionamento de ambos. - Um ponto crtico so suas temperaturas de anelamento, as quais devero ser compatveis entre si. A mxima diferena que pode ser obervada entre elas de 3 C.
3 3
CODEHOP
Originalmente desenvolvido para o desenho de primers degenerados. Tem como entrada BLOCOS conservados. Estratgia: 1. Uma PSSM computada para cada bloco. 2. Um aminocido consenso escolhido para cada posio (PSSM).
BLOCKS
Alinhamentos mltiplos de segmentos de seqncias de aminocidos. Regies sem delees entre 10 e 55 aminocidos. Ideais para o desenho de primers.
Score ?
BLOCKS
Blocos so feitos em 2 etapas (protmat/motomat):
Protmat
Busca exaustiva (protmat) de tripletos espaados. ALA-ALA-ALA ; ALA-x-ALA; ALA-x-x-x-x-ALA-x-CYS Nmero mximo de espaamento, nmero mnimo de seqncias.
BLOCKS
Junta blocos sobrepostos, extende alinhamento se for possvel obter um melhor score.
CODEHOP
3. Para cada posio, o cdon mais comum correspondendo ao aminocido escolhido. 4. Uma PSSM de DNA computada a partir da PSSM anterior, distribuindo os pesos para cada uma das bases do cdon. (Degenerao) 5. Volta ao alinhamento de nucleotidio das seqncias obtidas do Genbank Avaliao visual, determinar posio de anelamento.
BLOCKS
Alinhamentos mltiplos de segmentos de seqncias de aminocidos. Regies sem delees entre 10 e 55 aminocidos. Ideais para o desenho de primers.
Score ?
BLOCKS
Blocos so feitos em 2 etapas (protmat/motomat):
Protmat
Busca exaustiva (protmat) de tripletos espaados. ALA-ALA-ALA ; ALA-x-ALA; ALA-x-x-x-x-ALA-x-CYS Nmero mximo de espaamento, nmero mnimo de seqncias.
BLOCKS
Junta blocos sobrepostos, extende alinhamento se for possvel obter um melhor score.