Академический Документы
Профессиональный Документы
Культура Документы
Nacional de
Computação
Científica
SIMILARIDADE,
ALINHAMENTOS
E PERFIS
Fernanda M. P. Raupp
fernanda@lncc.br
conteúdo do curso
• algoritmos
• programas
Fernanda M. P. Raupp/LNCC/2002
seqüências: definições
Fernanda M. P. Raupp/LNCC/2002
seqüências: definições
Fernanda M. P. Raupp/LNCC/2002
seqüências: definições
Fernanda M. P. Raupp/LNCC/2002
comparação de seqüências
Fernanda M. P. Raupp/LNCC/2002
comparação e alinhamento
comparação
alinhamento
Fernanda M. P. Raupp/LNCC/2002
comparação global
G A − T T C C G
G A A − T C A G
• sistema de pontuação:
fornece a pontuação de cada coluna
é baseado em um modelo estatístico
Fernanda M. P. Raupp/LNCC/2002
princípio da indução matemática
Fernanda M. P. Raupp/LNCC/2002
sim(s,t)
Fernanda M. P. Raupp/LNCC/2002
matriz de similaridades
• inicialização da matriz:
cada elemento da primeira linha é igual a j g, 0 ≤ j ≤ n
cada elemento da primeira coluna é igual a i g , 0 ≤ i ≤ m
• exemplo: |s|=|t|=2
t
Fernanda M. P. Raupp/LNCC/2002
matriz de similaridades
( i, j-1) ( i, j )
Fernanda M. P. Raupp/LNCC/2002
matriz de similaridades
• exemplo: encontrar a similaridade entre s = ACTC e
t = AGGTC, sabendo que o sistema de pontuação é:
p( i, i ) = 1; p( i, j ) = -1 e g = -2
inicializar A
preencher A a partir do elemento a(1,1) com a fórmula:
a( i, j -1 ) + g
a( i, j ) = max a( i -1, j -1) + p( i, j )
a( i -1, j ) + g
ε A G G T C
ε 0 -2 -4 -6 -8 -10
A -2 1 -1 -3 -5 -7
C -4 -1 0 -2 -4 -4
T -6 -3 -2 -1 -1 -3
C -8 -5 -4 -3 -2 0 ⇒ sim(s,t) = 0
alinhamento global ótimo
menor
Fernanda M. P. Raupp/LNCC/2002
alinhamento global ótimo
ε A G G T C
ε 0 -2 -4 -6 -8 -10
A -2 1 -1 -3 -5 -7
C -4 -1 0 -2 -4 -4
T -6 -3 -2 -1 -1 -3
C -8 -5 -4 -3 -2 0
A - C T C A C - T C
A G G T C A G G T C
Fernanda M. P. Raupp/LNCC/2002
algoritmo de programação dinâmica
Fernanda M. P. Raupp/LNCC/2002
comparação local
Fernanda M. P. Raupp/LNCC/2002
alinhamento local
• a similaridade é nula, caso o alinhamento local não seja
possível
• não podemos ter elementos negativos na matriz A
inicialização da matriz: todos os elementos da primeira
linha e da primeira coluna são nulos
fórmula de preenchimento do elemento ( i, j ) da matriz
a( i, j -1 ) + g
a( i, j ) = max a( i -1, j -1) + p( i, j )
a( i -1, j ) + g
0
Fernanda M. P. Raupp/LNCC/2002
comparação semi-global
caso 3: ambas seqüências terminam com espaços
s1 s2 s3 … sm − − − −
t1 t2 t3 … tj … tn − −
ou
s1 s2 s3 … si … sm − −
t1 t2 t3 … tn − − − −
⇒ sim(s,t) = (m,n)
⇒ recupera-se o alinhamento de (m,n) até atingir a primeira
coluna e depois segue-se até (0,0)
t[1..0] t[1..1] t[1..n]
suf s[1..0] 0 -2 -2n
suf s[1..1] 0
suf s[1..m] 0 (m,n)
comparação semi-global
(i-1, j) ? n<m
Fernanda M. P. Raupp/LNCC/2002
divisão e conquista
Fernanda M. P. Raupp/LNCC/2002
divisão e conquista
• índice j maximiza { r [ j ] + u[ j ] + p( i, j ), r [ j ] + u[ j ] + g }
Fernanda M. P. Raupp/LNCC/2002
divisão e conquista
si
Fernanda M. P. Raupp/LNCC/2002
restrição à diagonal
Fernanda M. P. Raupp/LNCC/2002
restrição à diagonal
s s
2k+1
Fernanda M. P. Raupp/LNCC/2002
restrição à diagonal
k
1
função afim:
w(k) = h + g k, k ≥ 1, h+g
onde w(0) = 0, h, g > 0 h
0 1 k
função afim de penalização
Fernanda M. P. Raupp/LNCC/2002
matrizes A, B, e C a( i-1, j-1)
... si-1 si
... tj-1 tj
... − si
a( i, j ) = p( i, j ) + max b( i-1, j-1) … tj-1 tj
… si-1 si
c( i-1, j-1) … − tj
... si −
a( i, j-1) - (h+g) ... tj-1 tj
... − −
b( i, j ) = max b( i, j-1) - g ... tj-1 tj
... si −
c( i, j-1) - (h+g) ... − tj
... si si
a( i-1, j ) - (h+g) ... tj −
... − si
c( i, j ) = max b( i-1, j ) - (h+g) … tj −
… si-1 si
c( i-1, j ) - g ... − −
Fernanda M. P. Raupp/LNCC/2002
inicialização de A, B, C
ε 0 -∞ ... -∞
s[1..1] -∞
s[1..m] -∞ (m,n)
Fernanda M. P. Raupp/LNCC/2002
inicialização de A, B, C
• matriz C:
c( i, 0 ) = -( h + g j ) para 1 ≤ i ≤ m
c( 0, j ) = - ∞ para 0 ≤ j ≤ n
Fernanda M. P. Raupp/LNCC/2002
considerações gerais
• baseado na evolução
Fernanda M. P. Raupp/LNCC/2002
família PAM
Fernanda M. P. Raupp/LNCC/2002
sistema de pontuação para proteína
Fernanda M. P. Raupp/LNCC/2002
sistema de pontuação para proteínas
• família BLOSUM:
notação: BLOSUM62 indica que as seqüências usadas
para gerar as pontuações têm no máximo 62% de
identidade
as pontuações dos pares de amino ácidos estão
relacionadas com as freqüências de substituições em
blocos de alinhamentos locais
Fernanda M. P. Raupp/LNCC/2002
comparação múltipla de seqüências
Fernanda M. P. Raupp/LNCC/2002
comparação múltipla de seqüências
• problema difícil:
necessidade de um conhecimento filogenético
programação dinâmica não é eficiente
Fernanda M. P. Raupp/LNCC/2002
programação dinâmica
C A A C T T T
C G A − T T −
C G − C A T T
C T A C T C T
Fernanda M. P. Raupp/LNCC/2002
programação dinâmica
Fernanda M. P. Raupp/LNCC/2002
representação de famílias
1 2 3 4 5 6 7
A 0. 0.25 0.75 0. 0.25 0. 0.
C A A C T T T
C 1. 0.0 0. 0.75 0. 0.25 0.
C G A − T T −
G 0. 0.50 0. 0. 0. 0. 0.
C G − C A T T
T 0. 0.25 0. 0. 0.75 0.75 0.75
C T A C T C T − 0. 0. 0.25 0.25 0. 0. 0.25
Fernanda M. P. Raupp/LNCC/2002
famílias de proteínas
Fernanda M. P. Raupp/LNCC/2002
alinhamento entre seqüência e perfil
Fernanda M. P. Raupp/LNCC/2002
alinhamento entre seqüência e perfil
si
Fernanda M. P. Raupp/LNCC/2002
alinhamento entre seqüência e perfil
t
j-1 j
i-1
s
i
alinhamento projetado
• exemplo:
alinhamento múltiplo ótimo projeção não ótima
AC
A− A−
−C −C
AC
Fernanda M. P. Raupp/LNCC/2002
programas
Fernanda M. P. Raupp/LNCC/2002
BLAST
Fernanda M. P. Raupp/LNCC/2002
BLAST
• exemplo:
seja q = LKNKLTEEAKNKN a seqüência consulta
Fernanda M. P. Raupp/LNCC/2002
BLAST
bit score
S
Fernanda M. P. Raupp/LNCC/2002
BLAST
Fernanda M. P. Raupp/LNCC/2002
BLAST
Fernanda M. P. Raupp/LNCC/2002
FASTA
• família de programas para fazer busca em bancos de
seqüência de DNA e de proteínas:
FASTP ( primeiro programa disponível )
FASTN
TFASTA faz a busca de uma seqüência consulta de proteína
em um banco de seqüências de DNA
LFASTA é o programa para encontrar alinhamentos locais entre
duas seqüências
Fernanda M. P. Raupp/LNCC/2002
patternHunter
Fernanda M. P. Raupp/LNCC/2002
Clustal W
Fernanda M. P. Raupp/LNCC/2002
Clustal W
Fernanda M. P. Raupp/LNCC/2002
formato Clustal W:
human zeta crystallin e E.coli quinone oxidoreductase
CLUSTAL W (1.7) multiple sequence alignment
Human-Zcr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS
Ecoli-QOR ------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP
: :...:.******: ::: . * :::: :: :* *:* ::****** *.
Human-Zcr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK
Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA
* ** *::.**::. **.... :* ****. :.: *.*:. ... **
Human-Zcr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA
Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV
:.*:*.** : :*.* * :: :*..*..*.*.*:***** *** *:* * *::**.
Human-Zcr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG
Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR
** : : .*: ** :*:*:** : ::::*: .* * : :: : :.. . .:.*. *.:
Human-Zcr GRVIVVG-SRGTIEINPRDTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL
Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI
* :: .* * *:: . : ::. : .: : :*:**: : : * : : * :
Human-Zcr KPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLL
Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP
* :..* ***:.. .*** *:.. .: *. :*:
Pairwise Alignments
gi|4062229|dbj|BAA35246.1| (D90702) Unknown protein from 2D-page (spots pr25/lm16/2d_000lr3) .
[Escherichia coli]
Length = 142
• http://www.ncbi.nlm.nih.gov
• http://www.ebi.ac.uk