Вы находитесь на странице: 1из 75

Desenho de Iniciadores

Professor: Joo L. S. G. Vianez Jr. Lab. de Biotecnologia Sustentvel e Bioinformtica Microbiana (LBSBM) CCS Bloco I, S 45 Andrew Macrae amacrae@biologia.ufrj.br

Aplicao de ferramentas de bioinformtica no desenho de iniciadores de PCR para investigao de genes de interesse

Joo Ldio S.G. Vianez Jnior Programa de Ps Graduao em Biotecnologia Vegetal

Contato: joao_vianez@ufrj.br joao_vianez@superig.com.br Laboratrio de Biotecnologia Sustentvel e Bioinformtica Microbiana (LBSBM): CCS, Bloco I. Microbiologia Geral, sala 45. http://www.lbsbm.microbiologia.ufrj.br/

< Nosso Site

1. Bioinformtica
Definies:
Pesquisa, desenvolvimento ou aplicao de ferramentas e abordagens computacionais para o tratamento de dados biolgicos, incluindo aquisio, armazenamento, organizao, arquivamento, anlise e visualizao de tais dados. (NIH National Institute of Health). Une biologia, cincia da computao e tecnologia da informao em uma nica disciplina. Existem trs importantes disciplinas na bioinformtica: 1 Desenvolvimento de novos algoritmos para acessar relaes entre membros de grandes conjuntos de dados. 2 Anlise e interpretao de vrios tipos de dados, incluindo seqncias nucleotdicas e de aminocidos, domnios e estruturas de protenas. 3 Desenvolvimento e implementao de ferramentas que permitam o acesso eficiente e o gerenciamento de diferentes tipos de informao. (NCBI National Center for Biotechnology Information).

1.1 Aplicaes
Genmica Comparativa Anotao de genomas Biologia evolutiva computacional Estimativa de biodiversidade Anlise da expresso / regulao gnica Predio de estruturas de protenas Modelagem de processos biolgicos complexos. Anlise de seqncias (Desenho de iniciadores) Reconhecimento de padres e anlise de imagens. Algoritmos genticos. Redes Neurais. Machine learning. Vida / Inteligncia artificial. Modelagem de processos biolgicos complexos.

Antes se achava que a Biologia era complexa demais para aplicar Matemtica. Agora pensamos que ela complexa demais para NO usar

75.742.041.056 bases (15/4/2007)

71.802.595 seqncias (15/4/2007)

2005 http://www.ncbi.nlm.nih.gov/Genbank/genbankgrowth.jpg Acesso em: 24/04/2006

2. Bancos de Dados
Bancos de dados, (ou bases de dados), so conjuntos de dados com uma estrutura regular que organizam informao de forma til.

2.1 Bancos de dados


Formatos de Seqncia
Cada programa consegue ler um determinado conjunto de formatos. Se no estiver no formato...

2.1 Bancos de dados


Formatos de Seqncia

NBRF/PIR EMBL/SWISSPROT Clustal (*.aln) GCG/MSF (Pileup) GCG9 RSF GDE flat file. PAUP NEXUS PHYLIP

FASTA
Universal

2.1 Bancos de dados


Formatos de Seqncia

2. Bancos de Dados
Nmero de acesso: Identificador nico em um banco de dados. Exemplo de entrada (genbank): AAX51268

2.3 Bancos de Dados


Conserved Domain Database (CDD)

Desenho de iniciadores assistido por computador

Organiza unidades funcionais / estruturais distintas de protenas: timo guia para alinhamentos.

Caractersticas desejveis em um Primer

Temperatura de melting (Tm) na faixa de 52 C a 65 C. Ausncia da capacidade de dimerizao. Ausncia significativa da formao de grampos (>3 bp). Inexistncia de stios secundrios de anelamento dos primers.

Iniciadores devem ser nicos


- Deve existir somente um stio de pareamento no DNA molde onde ocorra a ligao do primer, o que significa que a seqncia dos primers nica na seqncia do DNA molde. - No devem existir stios de anelamento em possveis fontes de contaminao, tais como o ser humano, rato, cobaia, etc. (busca BLAST no genoma correspondente). Template DNA
5...TCAACTTAGCATGATCGGGTA...GTAGCAGTTGACTGTACAACTCAGCAA...3 CAGTCAACTGCTAC TGCTAAGTT G A TGCT AGTTG

Primer candidate 1 Primer candidate 2

5-TGCTAAGTTG-3 5-CAGTCAACTGCTAC-3

NOT UNIQUE! UNIQUE!

Alinhamento de Seqncias

Definio
Comparao de duas ou mais seqncias por meio de buscas de uma srie de caracteres ou padres de caracteres que esto na mesma ordem.

A L I G N M E N T | | | | | | | - L I G A M E N T

Tipos de Alinhamento

Global

LGPSSKQTGKGSSRIWDN | | ||| | | LN-ITKSAGKGAIMRLGDA

Local

-------TGKG-------||| -------AGKG--------

Significado do Alinhamento

Funo Estrutura Inferncia filogentica Homologia diferente de similaridade

Mtodos

Matriz Pontual (Dot Matrix) Programao Dinmica Alinhamento Progressivo Words

Matriz Pontual

Somente 2 seqncias. Permite visualizar todos os alinhamentos possveis.

As seqncias so escritas ao longo dos eixos X e Y de uma matriz, e coloca-se um ponto onde ocorrem identidades.

Comparao da mesma seqncia:


S S E Q U E N C E A N A L Y S I S P R I M E R E Q U E N C E A N A L Y S I S P R I M E R

Indels
S E Q U E N C E A N A L Y S I S P R I M E R S E Q U E N C E P R I M E R

Repeties
S S E Q U E N C E S E Q U E N C E S E Q U E N C E E Q U E N C E A N A L Y S I S P R I M E R

Dot Matrix: Consideraes


Possibilita estudar todos os alinhamentos possveis, mas: - Qual o melhor caminho possvel pela matriz? O que ele representa? - Problema do alinhamento: Um alinhamento timo biologicamente correto? O crebro e o olho humano so ferramentas testadas h milhes de anos e so melhores do que qualquer software ou algoritmo para discernir padres visuais complexos (especialmente vrios padres). Um mtodo de fora bruta no funcionaria. Mesmo sem usar gaps, o custo computacional necessrio para comparar todos os possveis alinhamentos proporcional ao produto do tamanho das duas seqncias. Em 1989, Waterman ilustrou que para alinhar duas seqncias de 300 smbolos, 1088 comparaes so necessrias. Imagine para diversas seqncias com gaps.

Programao Dinmica
Mtodo computacional que calcula o melhor alinhamento possvel entre seqncias Principais variveis do programa: .Match .Mismatch .Gap

Matrizes de Pontuao

Aparecem em quase todas as anlises que envolvem comparao de seqncias. A escolha da matriz pode ter grande influncia sobre o resultado da anlise. Representam uma teoria particular de evoluo.

Matriz de Identidade
A A T G C 1 0 0 0 T 0 1 0 0 G 0 0 1 0 C 0 0 0 1

Matriz Transio / Transverso (ClustalX)

A A T G C 0 5 5 1

T 5 0 1 5

G 5 1 0 5

C 1 5 5 0

Matriz IUB (ClustalX)

Matchs: 1.9 Mismatchs: 0

Computando Passo a Passo


A C T A 0 min min min min min 1 -1 -3 -5 min min min

A T G A

A T G A

0 min min min min

A C T A min min min min 1 -1 -3 -5 -1 0 0 -2 -3 -2 -1 -1 -5 -4 -3 0

Traceback : Alinhamento Global timo


A C T A min min min min 1 -1 -3 -5 -1 0 0 -2 -3 -2 -1 -1 -5 -4 -3 0

A T G A

0 min min min min

Trace Back (Alinhamento Global)

G A A T T C A G T T A | | | | | | G G A T C G - A

Verificando o Score de Alinhamento

G A A T T C A G T T A | | | | | | G G A T C G - A
+ - + - + + - + - - + 5 3 5 4 5 5 4 5 4 4 5

5 3 + 5 4 + 5 + 5 4 + 5 4 4 + 5 = 11

Melhores Alinhamentos Locais


G A A T T C - A | | | | | G G A T C G A + - + + - + - + 5 3 5 5 4 5 4 5 Total: 18 G A A T T C - A | | | | | G G A T C G A + - + - + + - + 5 3 5 4 5 5 4 5 Total: 18

Programao Dinmica: Consideraes:


- Garantia de obter alinhamentos timos. - Pode ser extrapolada para alinhamentos mltiplos, porm tambm requer um alto custo computacional. - Nem sempre um software que utiliza o algoritmo SW produz um alinhamento local e nem sempre que um programa usa o algoritmo NW produz um alinhamento global.

Alinhamento Mltiplo de seqncias (MSA)

Extenso da programao dinmica. Soma dos Pares (SP). Alinhamento Progressivo.

MSA com Programao Dinmica

From G. Fullen, 1996

Problema:

Como reduzir o nmero de comparaes necessrias sem comprometer a tentativa de encontrar um alinhamento timo?

Soma dos Pares (SP): Carillo e Lipman

Fonte: Bioinformatics Sequence and Genome Analysis, David W. Mount

Passos do Algoritmo SP
1) Comparaes so feitas entre cada PAR de seqncias do MSA.

A A B C -

B 22 -

C 39 41 -

Passos do Algoritmo SP
2) Uma rvore filogentica guia feita:

a c C b

B Distncias: AB: AC: BC: a+b = 22 a+c = 39 b+c = 41

Neighbor - Joining
1) a + b = 22 2) a = 22 - b 3) a = 39 - c 4) c = 41 - b : 39 - (41 - b) = 22 - b, -2 + b = 22 -b, de 2 e 3 temos: 5) 39 - c = 22 - b de 5 e 4 temos: 39 - (41-b) = 22 - b, b = 12 de 1 temos: a = 10 de 4 temos: c = 29

a = 10 b = 12 c = 29

rvore Completa - NJ
A A B C B 22 C 39 41 A = 10 B= 12 C = 29

10 29 C 12

Passos do Algoritmo SP
3) Seqncias restantes so alinhadas na ordem de relao determinada pela rvore guia.

10 29 C 12

Soma dos Pares (SP)

Fonte: Bioinformatics Sequence and Genome Analysis, David W. Mount

Blast (Basic Local Alignment SearchTool)

Problema: Como fazer busca de similaridade em um banco de dados como o genbank?

Problema:
Muitas comparaes so desperdiadas comparando-se regies que no tem nada em comum. Soluo:

Regies similares entre duas seqncias apresentam pequenos fragmentos de identidade (words). Mtodo bsico: Procurar regies de similaridade somente perto destes fragmentos.

Blast para Nucleotdeos


1) Fazer uma lista de todos os WORDS possveis da sua seqncia (geralmente W=11). Para cada WORD, determinar os vizinhos. 2) Comparar os WORDS (iniciais + vizinhos) com os WORDS pr computados do banco de dados. 3) Extenso do alinhamento partindo dos WORDS.

WORDS (BLAST)

BLAST
Problema: Se sua seqncia tiver um fragmento de composio incomum (ex. rico em A-T) ou repeties de um mesmo elemento, resultados indesejveis ocorrero. Soluo: Fazer uma lista dos WORDS que ocorrem freqentemente e retirar estes WORDS.

Blast: Consideraes

No garante alinhamento timo Heurstico

Concluses:

Aps uso dos algoritmos, sempre avaliar seu alinhamento com seus prprios critrios. Edio usando Bioedit.

Iniciadores
nicos

Comprimento
- Influencia a capacidade de um iniciador ser nico ou no. Tambm influencia as temperaturas de melting e anelamento. - Quanto maior o comprimento do primer, maior a possibilidade deste ser exclusivo; da mesma forma que maiores sero as temperaturas de melting e anelamento. - De uma forma geral, o comprimento do primer no deve ser inferior a 15 bases para assegurar a uniqueness. Geralmente, ns sintetizamos primers com 17-28 bases de comprimento. - A existncia desta faixa est baseada no fato de se buscar unique primers que apresentem temperatura de anelamento dentro da faixa considerada como a mais adequada.

Composio de Bases
- A composio de bases afeta a especificidade da hibridizao, as temperaturas de melting e anelamento, e a estabilidade interna. - Composio de bases randmica prefervel. Sempre que possvel devem ser evitadas longas regies ricas em (A+T) e (G+C).
Template DNA 5...TCAACTTAGCATGATCGGGCA...AAGATGCACGGGCCTGTACACAA...3
TGCCCG ATCATGCT GCCCG

- Geralmente, a quantidade de (G+C) deve estar em torno de 50-60% para assegurar-nos as temperaturas de melting e anelamento adequadas reao de PCR, e, desta forma, fornecer estabilidade na hibridizao.

TGCCCG GCCCGATCATGCT

Temperatura de Melting
-Temperatura de Melting, Tm a temperatura na qual metade das fitas de DNA est na forma de fitas simples e a outra metade na forma de dupla hlice. - Tm dependente da composio do DNA, de modo que aumento do contedo de G+C no DNA gera um incremento na Tm ocasionado pelo maior nmero de ligaes de H. Determinao (Composio de Base): Tm = 59.9 + 0.41*(%GC) - 600/comprimento Outros mtodos mais precisos so disponveis.

Temperatura de Anelamento
Temperatura de anelamento, Tanneal a temperatura na qual os primers se pareiam ao DNA molde. Ela pode ser calculada a partir da Tm .

Tanneal = Tm_primer 4C
Para assegurar que o pareamento dos primers ao DNA molde ocorra antes que as duas fitas se liguem uma a outra, necessrio que: Tm_product Tanneal 30 C .

Estringncia no Anelamento do Primer


-A estringncia determina a especificidade no produto de DNA a ser amplificado. -Tanneal o fator mais significante que afeta a estringncia no anelamento do primer. Tanneal : muito baixa em qualquer lugar. muito alta parear. menor estringncia maior estringncia primer pareia primer pode no

Estrutura Interna
Se os primers puderem parear com eles mesmos, ou parearem um com o outro mais facilmente do que com o DNA molde, ento a eficincia do PCR ir ser reduzida significativamente. Primers com estas caractersticas devem ser evitados.

Entretanto, s vezes estas duas estruturas no so problemticas, uma vez que a ocorrncia destas pode ser restringida atravs da determinao da temperatura de anelamento. Por exemplo, alguns dmeros ou grampos so formados a 30 C, enquanto que durante o ciclo do PCR a temperatura mais baixa seja de 60 C.

Primer Pair Matching

- Primers trabalham em pares forward primer e reverse primer. Uma vez que eles so usados na mesma reao de PCR, ser preciso que as condies do PCR estejam adequadas ao funcionamento de ambos. - Um ponto crtico so suas temperaturas de anelamento, as quais devero ser compatveis entre si. A mxima diferena que pode ser obervada entre elas de 3 C.

Resumo ~ Quando um primer um primer?


5 5 3 3

3 3

CODEHOP
Originalmente desenvolvido para o desenho de primers degenerados. Tem como entrada BLOCOS conservados. Estratgia: 1. Uma PSSM computada para cada bloco. 2. Um aminocido consenso escolhido para cada posio (PSSM).

Position Specific Scoring Matrix

BLOCKS

Alinhamentos mltiplos de segmentos de seqncias de aminocidos. Regies sem delees entre 10 e 55 aminocidos. Ideais para o desenho de primers.

Score ?

BLOCKS
Blocos so feitos em 2 etapas (protmat/motomat):

Protmat

Busca exaustiva (protmat) de tripletos espaados. ALA-ALA-ALA ; ALA-x-ALA; ALA-x-x-x-x-ALA-x-CYS Nmero mximo de espaamento, nmero mnimo de seqncias.

BLOCKS

Motomat: Seleciona melhores blocos. Critrios:


Maior score. Presentes em todas as seqncias de interesse. Presentes na mesma ordem. Sem sobreposio.

Junta blocos sobrepostos, extende alinhamento se for possvel obter um melhor score.

CODEHOP

3. Para cada posio, o cdon mais comum correspondendo ao aminocido escolhido. 4. Uma PSSM de DNA computada a partir da PSSM anterior, distribuindo os pesos para cada uma das bases do cdon. (Degenerao) 5. Volta ao alinhamento de nucleotidio das seqncias obtidas do Genbank Avaliao visual, determinar posio de anelamento.

BLOCKS

Alinhamentos mltiplos de segmentos de seqncias de aminocidos. Regies sem delees entre 10 e 55 aminocidos. Ideais para o desenho de primers.

Score ?

BLOCKS
Blocos so feitos em 2 etapas (protmat/motomat):

Protmat

Busca exaustiva (protmat) de tripletos espaados. ALA-ALA-ALA ; ALA-x-ALA; ALA-x-x-x-x-ALA-x-CYS Nmero mximo de espaamento, nmero mnimo de seqncias.

BLOCKS

Motomat: Seleciona melhores blocos. Critrios:


Maior score. Presentes em todas as seqncias de interesse. Presentes na mesma ordem. Sem sobreposio.

Junta blocos sobrepostos, extende alinhamento se for possvel obter um melhor score.

Вам также может понравиться