Вы находитесь на странице: 1из 300

INTRODUCCION A TECNICAS DE MINERIA DE DATOS

ALINEAMIENTO DE SECUENCIAS

Mg. Samuel Oporto Daz

Mapa Conceptual Minera de Datos


Fuentes de datos Pre-procesamiento Exploracin y transformacin Reconocimiento de Patrones Evaluacin e Interpretacin

DHW

Data cruda

Data Data Data Objetivo Pre-procesada Transformada

Patrones

Evaluacin y Entendimien to

DBMS

Texto

Muestreo y Seleccin Muestreo Seleccin

Limpieza de Datos Limpieza de datos Datos que no existen Datos no clasificados Identificacin de

Transformacin de Datos Reduccin de Dimensionalidad Creacin de Caractersticas Normalizacin de Datos Variables Correlacionadas

Modelado Descripcin Clasificacin Regresin Agrupamient o Asociacin Secuenciaci n

Reportes y Visualizacin

Tabla de Contenido
Introduccin Pre-procesamiento Reduccin de Datos Seleccin de Instancias Seleccin de Caractersticas Ejemplo Planteamiento del Problema Procedimiento de solucin Algoritmos Fuentes de Datos Diseo de Experimentos Resultados Experimentales 4 9 26 36 40 49 53 58 64 66 68
3 /39

INTRODUCCION

4 /39

PREGUNTAS

5 /39

Alineamiento de secuencias
Fernn Agero
Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn <fernan at iib.unsam.edu.ar>

6 /39

Anlisis comparativo
El alineamiento de secuencias es similar a otros tipos de anlisis comparativo. En ambos es necesario cuantificar las similitudes y diferencias (scoring) entre un grupo relacionado de entidades.

Finches of the Galpagos Islands observed by Charles Darwin on the voyage of HMS Beagle
7 /39

Para qu alinear?
Para poder comparar dos secuencias
Dos protenas o genes con funcin similar pero provenientes de distintos organismos
Analizar variacin, conservacin de residuos importantes para la funcin Detectar patrones que sirvan para deteccin diferencial (diagnstico)

Dos protenas distintas pero con una regin o dominio similar


Protena X de funcin conocida contiene un dominio Y Protena Z de funcin desconocida tambin tiene un dominio Y. Puedo decir algo acerca de su probable funcin?

Un mRNA y el gen correspondiente: deteccin de la organizacin gnica


El mRNA contiene secuencias derivadas de los exones solamente El gen contiene tanto intrones como exones

8 /39

Homologa vs similitud
Homologa entre dos entes biolgicos implica una herencia compartida Homologa es un trmino cualitativo Se es homlogo o no se es Similitud implica una apreciacin cuantitativa o una cuantificacin directa de algn caracter Podemos usar una medida de similitud para inferir homologa

9 /39

Anlisis comparativo
Los algoritmos que alinean secuencias modelan procesos evolutivos

GATTACCA GATGACCA GATTACCA

GATTACCA GATTATCA GATTACCA

GATCATCA
Deriva de un ancestro comn a travs de cambios incrementales debido a errores en la replicacin del DNA, mutaciones, dao o crossing-over desigual.

GATTGATCA GAT_ACCA
insercin delecin

sustitucin

10 /39

Anlisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos

GATTACCA GATGACCA GATTACCA

GATTACCA GATTATCA GATTACCA


Deriva a partir de un ancestro comn a travs de cambio incremental.

GATCATCA GATTGATCA GATACCA

Slo las secuencias actuales son conocidas, las secuencias ancestrales se postulan.

11 /39

Anlisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos

GATTACCA

GATGACCA GATTACCA GATTACCA GATTATCA GATTACCA


Deriva a partir de un ancestro comn a travs de cambio incremental. Mutaciones que no matan al individuo pueden pasar a la poblacin.

GATCATCA GATTGATCA GATACCA


La palabra homologa implica una herencia comn (un ancestro comn), el cual puede ser inferido a partir de observaciones de similitud de secuencia.

12 /39

Alineamientos
Qu es un alineamiento?
El procedimiento de comparacin de dos (o ms) secuencias de manera de lograr que una serie de caracteres individuales o patrones de caracteres que se encuentren en el mismo orden en ambas secuencias queden alineados verticalmente. AATTGGCCGTACGT AATTGGCCGTACGT

Cmo alineamos dos secuencias?


a mano o con la ayuda de un programa usando un mtodo/algoritmo

13 /39

Definicin de alineamiento: tipos


Alineamiento: Alineamiento global: Cada base se usa a lo sumo una vez Todas las bases se alinean con otra base o con un gap (-) No hay necesidad de alinear todas las bases

Alineamientos locales:

Align BILLGATESLIKESCHEESE and GRATEDCHEESE

G-ATESLIKESCHEESE GRATED-----CHEESE

or

G-ATES GRATED

& CHEESE & CHEESE


14 /39

Alineamientos buenos y malos?


Cul es el mejor alineamiento?

GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC
0 mismatches, 5 gaps

GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC
3 mismatches, 1 gap

15 /39

Cmo decidir cul es el mejor?


Respuesta: el ms significativo desde el punto de vista biolgico Pero: necesitamos una medida objetiva sistemas de puntaje (scoring)
reglas para asignar puntos el ms simple: match, mismatch, gap

16 /39

Un primer ejemplo de scores


Ejemplo de sistema de score
match = +1 mismatch = 0 gap = -1

G-ATESLIKESCHEESE GRATED-----CHEESE
Usando otro sistema de score
Score (10 * 1) + (1 * 0) + (6 * (-1)) = +14 2) +4

17 /39

Puedo comparar scores?


Primera conclusin importante:
no tiene sentido comparar scores de distintos alineamientos a menos que el sistema de scoring utilizado sea el mismo en los distintos alineamientos Es importante especificar el sistema de puntaje!

18 /39

Gap penalties
gap opening penalty = -5 gap extension penalty = -1
1- Abrir un gap es costoso

GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC
Penalty = 5 * (-5) + 6 * (-1) = -31

2 - Extender un gap es menos costoso

GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC
Penalty = 1 * (-5) + 6 * (-1) = -11

19 /39

Dot plots: introduccin


Dot-plot: Fitch, Biochem. Genet. (1969) 3, 99-108. Eje horizontal: secuencia 1

C
A
Eje vertical: secuencia 2

G
0

T
0

A
1

C
0

C
0

G
0

T
0

20 /39

21 /39

Dot Matrix Plot

22 /39

Dot Matrix Plot

23 /39

Dot Matrix Plot

24 /39

Similitud local
Dominios mezclados confunden a los algoritmos de alineamiento.
Mdulos en el factor XII de coagulacin y en el activador de plasmingneos tissue plasminogen activator (PLAT)

FXII

F2 E F1 E

Catalytic

Mdulos en orden Mdulos reversorepetidos

PLAT

F1 E

Catalytic

F1,F2 E K Catalytic

Fibronectin repeats EGF similarity domain Kringle domain Serine protease activitiy

25 /39

Dot plots: ejemplo


Coagulation Factor XII (F12) E F1 F2 E F1 E K Catalytic 26 /39 Catalytic K K

Tissue Plasminogen Activator (PLAT)

Dot plots: ejemplo (cont.)


Dominios repetidos muestran un patrn caracterstico.
Coagulation Factor XII (F12) E F1 F2 E F1 E K Catalytic 27 /39 Catalytic K K

Tissue Plasminogen Activator (PLAT)

Dot plots: path graphs


Dot plots sugieren caminos (paths) a travs del espacio de alineamientos posibles.
Dominios EGF conservados en la urokinse plasminogen activator (PLAU) y el tissue plasminogen activator (PLAT)
90 23 137 23 90 137

Path graphs son representaciones ms explcitas de un alineamiento.

72

PLAU PLAT

90 23

EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE

72

Cada path es un alineamiento nico.

137 72

28 /39

Path graphs: encontrar el mejor camino


Los problemas que involucran encontrar la mejor ruta o camino (Best-path problems) son comunes en computacin cientfica.

Rutear una llamada telefnica desde NY a San Francisco

El algoritmo para encontrar el mejor camino entre dos extremos y pasando por varios puntos se llama dynamic programming

29 /39

Dynamic programming: introduccin


Un ejemplo:

Construir un alineamiento ptimo entre estas dos secuencias

G A T A C T A G A T T A C C A
Match: Mismatch: Gap: +1 -1 -1
30 /39

Utilizando las siguientes reglas de scoring:

Dynamic programming: ejemplo


Ordenar las dos secuencias en una matriz bidimensional

G A T A C T A G A T T A C C A
31 /39

Los vrtices de cada celda se encuentran entre letras (bases). Needleman & Wunsch (1970)

El objetivo encontrar la (path) ptimo

Dynamic programming: ejemplo (cont.)


es ruta

G A T A C T A G A T T A C C A
Desde aqu

Hasta ac

32 /39

Dynamic programming: paths posibles


Cada path corresponde a un alineamiento nico

G A T A C T A G A T T A C C A

Cul es el ptimo?

33 /39

Dynamic programming: scores: match


El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).

G A T A C T A G A T T A C C A
A alineada con A
Match = +1

34 /39

El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).

Dynamic programming: scores: mismatch G A T A C T A G A T T A C C A


A alineada con T
Mismatch = -1

35 /39

Dynamic programming: scores: gaps


El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).

G A T A C T A G A T T A C C A
T alineada con NADA
Gap = -1

alineada con NADA

36 /39

Dynamic programming: paso a paso (1)


Extender el path paso por paso
0 -1

G A T A C T A
-1 +1

G G
+1

G
-1

G
-1

G A T T A C C A

37 /39

Dynamic programming: paso a paso (2)


Incrementar el path paso a paso
0 -1

G A T A C T A
-1 -2 -2 +1

Recordar el mejor subpath que lleva a cada punto en la matriz.

G A T T A C C A

38 /39

Dynamic programming: paso a paso (3)


Incrementar el path paso a paso
0 -1

G A T A C T A
-1 -2 +1 0 -2 0 +2

Recordar el mejor subpath que lleva a cada punto en la matriz.

G A T T A C C A

39 /39

Dynamic programming: paso a paso (4)


Incrementar el path paso a paso
0 -1 -2

G A T A C T A
-1 -2 +1 0 -2 0 +2

Recordar el mejor subpath que lleva a cada punto en la matriz.

G A T T A C C A

40 /39

Dynamic programming: paso a paso (5)


Incrementar el path paso a paso
0 -1 -2 -3

G A T A C T A
-1 -2 -3 +1 0 -1 -2 0 +2 +1 -1 +1 +3

Recordar el mejor subpath que lleva a cada punto en la matriz.

G A T T A C C A

41 /39

Dynamic programming: paso a paso (6)


Incrementar el path paso a paso
0 -1 -2 -3 -4 -5

G A T A C T A
-1 -2 0 +2 +1 0 -1 -3 -4 -5 +1 0 -1 -2 -3 -1 +1 +3 +2 +1 -2 0 +2 +2 +3 -3 -1 +1 +1 +2

Recordar el mejor subpath que lleva a cada punto en la matriz.

G A T T A C C A

42 /39

Dynamic programming: paso a paso (7)


Incrementar el path paso a paso
0 -1 -2 -3 -4 -5 -6 -7 -8

G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -4 -5 -6 +1 0 -1 -2 -3 -4 -5 -6 -1 +1 +3 +2 +1 0 -1 -2 -2 0 +2 +2 +3 +2 +1 0 -3 -1 +1 +1 +2 +4 +3 +2 -4 -2 0 +2 +1 +3 +3 +2

Recordar el mejor subpath que lleva a cada punto en la matriz.

G A T T A C C A

-7 -5 -3 -1 +1 +3 +2 +2 +4

43 /39

Dynamic programming: best path


Recorrer el camino de atrs hacia adelante para obtener el mejor path y alineamiento.
0 -1 -2 -3 -4 -5 -6 -7 -8

G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -4 -5 -6 +1 0 -1 -2 -3 -4 -5 -6 -1 +1 +3 +2 +1 0 -1 -2 -2 0 +2 +2 +3 +2 +1 0 -3 -1 +1 +1 +2 +4 +3 +2 -4 -2 0 +2 +1 +3 +3 +2

G A T T A C C A

-7 -5 -3 -1 +1 +3 +2 +2 +4

44 /39

Dynamic programming: alineamiento obtenido G A T A C T A


Imprimir el alineamiento

G A - TA CTA G A T TA CCA

G A T T A C C A
45 /39

Dynamic programming: Smith-Waterman


El mtodo fue modificado (Smith-Waterman) para obtener alineamientos locales El mtodo garantiza la obtencin de un alineamiento ptimo (cuyo score no puede ser mejorado) La complejidad es proporcional al producto de las longitudes de las secuencias a alinear

46 /39

Gracias a
Hugues Sicotte (NCBI)
(slides DP, HMS Beagle)

Marcelo Viegas
(slides Dot Matrix)

47 /39

48 /39

Algoritmos de alineamiento optimo para pares de secuencias

49 /39

Alineamientos ptimos
Una vez fijado un sistema de puntuacin
Matriz de substitucin (Identidad, PAMxx, BLOSUM) Coste de la apertura y de la extensin de gaps

Se define el alineamiento ptimo entre dos secuencias como aquel cuya puntuacin s mxima entre todos los posibles alineamientos.

50 /39

51 /39

Un algoritmo exhaustivo para obtener alineamientos ptimos


Una posible aproximacin para encontrar el alineamiento ptimo es la bsqueda exhaustiva:
Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento ptimo es el que obtenga el valor ms grande (puede haber ms de uno!)

El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!

52 /39

La programacin dinmica es una tcnica de diseo de algoritmos consistente en


Considerar, en primer lugar, los casos ms sencillos de un problema Resolverlos Combinarlos para obtener la solucin de casos ms complicados Hasta resolver el caso completo original Veamos un ejemplo

Una alternativa a la bsqueda exhaustiva: La programacin dinmica (PD)

53 /39

Cmo utilizar programacin dinmica para obtener el alineamiento ptimo?


Se obtiene un alineamiento ptimo para una subsecuencia,
P.ej. el primer carcter de cada secuencia por la izquierda.

El alineamiento ptimo de la subsecuencia inicial se mantendr en el alineamiento ptimo final


cualquier otro puntuara menos que ste disminuira la puntuacin total

Tras alinear la primera subsecuencia ya no hace falta trabajar con ella Se pasa a la subsecuencia siguiente y as se va iterando hasta el final
el coste de cada paso es bajo el resultado final se obtiene de acumular los resultados de cada paso

54 /39

El algoritmo de Needleman y Wnsch: Alineamiento basado en programacin dinmica

55 /39

Un alineamiento puede representarse como un camino en una matriz (de puntuaciones)


T C G C A

T C C A T C G C A

TCGCA TC-CA

T C C A
56 /39

TCGCA T-CCA

Un alineamiento puede representarse como un camino en una matriz (de puntuaciones)


T C G C A

T C C A s22

El significado de cada punto en la matriz es el siguiente: Todos los caracteres hasta el punto se han alineado, Puede ser, sin embargo que haya muchos caminos que llevan al punto

La posicin etiquetada s22 representa TC alineado con TC --TC TC--TC T-C TC TC


57 /39

Calculo de la matriz de puntuaciones


Cualquier posicin de la matriz slo puede alcanzarse de tres maneras posibles:
En diagonal lo que significa emparejando el carcter de fila y de columna En vertical que significa insertando uno o ms gaps en la secuencia horizontal (S1) S2 En horizontal que representa insertar uno o ms gaps en la secuencia vertical (S2) T C

S1
G C A

T C C A s43

58 /39

Calculo de la matriz de puntuaciones


Para llenar la matriz de puntuaciones
Consideramos todas las maneras de llegar hasta cada celda de la matriz Nos quedamos con la(s) que consiguen la puntuacin ms alta: Puede haber ms de una T C

S1
G C A

S2

C C A s43

59 /39

Clculo de la matriz de puntuaciones


La matriz de puntuaciones (Score Matrix), P, se llena de arriba abajo y de izquierda a derecha mediante el siguiente procedimiento
1. Se llena la fila 0 y la columna cero con el coste de abrir un gap y extenderlo tantos caracteres como posicin en la fila (columna) se encuentre la celda 2. Se va llenando la matriz de izquierda a derecha y de arriba abajo. En cada celda se coloca la puntuacin mxima resultante de considerar todas las posibles maneras de acceder a aquella celda 3. La direccion (o direcciones) que han dado lugar a la mxima puntuacin se anota por separado en la matriz de reconstruccin que se utilizar para reconstruir el alineamiento

60 /39

Frmulas de clculo
Utilizamos la notacin siguiente:
S(i,j): Puntuacin para coincidencia o no Wk = a+bk : Penalizacin afn para un gap de longitud k P(0,0)=0; P(0,k)=-Wk, P(k,0)=-Wk,

Con esta notacin la puntuacin de la fila y la columna 0:

Y la puntuacin de cada celda de la tabla:

P(i 1, j 1) + S (i, j ), celda anterior en diagonal P(i, j ) = maxmax{ P (i x, j ) Wx } , celdas anteriores de la fila x 1 max{ P (i, j y ) W }, celdas anteriores de la columna y y 1

61 /39

Matriz de reconstruccin (Traceback)


Para reconstruir el alineamiento, al mismo tiempo que se llena la matriz de puntuaciones, se llena la matriz de reconstruccin, T de la siguiente forma:
T(i,j)=0, si el mximo viene de la diagonal T(i,j)=+y, si el mximo viene de un desplazamiento vertical de y celdas. A veces tan slo se indica que viene de arriba ( ) T(i,j)=-x, si el mximo viene de un desplazamiento horizontal de x celdas. A veces tan slo se indica que viene de la izquierda ()

Si hay empate anotamos todos los valores iguales

62 /39

Reconstruccin del alineamiento

Para reconstruir el alineamiento se busca, en la matriz de puntuaciones, la celda de la ltima fila o columna con la puntuacin ms grande Se escoge la misma celda en la matriz de reconstruccin y se va retrocediendo segn los valores indicados en sta Este procedimiento puede dar ms de un alineamiento ptimo

63 /39

Ejemplo

64 /39

Smith-Waterman Algoritmo de alineamiento local


P(i 1, j 1) + S (i, j ), m ax{ P(i x, j ) W } , x P(i, j ) = m ax x1 max{ P(i, j y ) Wy } , y 1 0
Matriz de puntuaciones: No se penalizan los gaps de las bandas derecha y izquierda

0 0 0 0 ..

..

Si el mejor alineamiento hasta un cierto punto tiene un valor negativo es mejor empezar uno nuevo en lugar de extender el viejo

P[i,0]= 0 ; per i= 0m a[0,j]= 0 ; per j= 0n


65 /39

Complementos

66 /39

Nomenclatura para el estudio de secuencias de caracteres


Cadena: Lista ordenada de caracteres de un alfabeto: GATTACA Prefijo: Caracteres consecutivos cogidos desde el inicio: G, GAT, GATTA, Sufijo: Caracteres consecutivos cogidos desde el final: A,CA,TACA,... Subcadena: Caracteres consecutivos desde los extremos o el medio: GAT,TACA,ATTA... Subsecuencia: Caracteres ordenados no necesariamente consecutivos: GAAA,TTC,...

67 /39

Ejemplo de programacin dinmica Nmeros de Fibonacci


Sub Fib(n, tab()) Dim j as integer Redim tab(n) tab
1 1 2 3 5 8 13 21 34 55 89 .

tab[1] = 1 tab[2] = 1; for j = 3 to n tab[j]=tab[j-1] + tab[j-2] next j End Sub

Empecemos resolviendo los problemas ms sencillos

Utilicemos las soluciones parciales para resolver problemas ms grandes

Tornar
68 /39

Gaps en el inicio del alineamiento

Si el dot-plot tiene este aspecto A T C G A * * C X G X A X Si el dot-plot tiene este aspecto G T C T * A * G T C

El alineamiento es: A T C G A C G A

El alineamiento es: G C T T A G C T

X X X
69 /39

70 /39

Alineamiento de secuencias

71 /39

Contenido
1. Conceptos bsicos 2. Mtodos grficos de alineamiento 3. Puntuacin de los alineamientos

72 /39

1. Conceptos bsicos

73 /39

Introduccin
El alineamiento de secuencias es probablemente la herramienta ms utilizada en bioinformtica Su objetivo es alinear dos o ms secuencias (de DNA o protenas) de forma que puedan destacarse las regiones similares entre las molculas Al determinar si una secuencia desconocida es similar, en algn sentido, a secuencias conocidas (e idealmente de estructura y funcin conocidas) podremos identificarla y predecir su estructura y funcin

74 /39

Aplicaciones
Mediante un alineamiento global entre genomas se puede identificar repeticiones internas (G1 vs G1) o encontrar secuencias conservadas entre especies (G1 vs G2) Para predecir la funcin de una protena desconocida suele buscarse dominios funcionales comunes, mediante alineamientos locales entre dos secuencias mediante alineamientos mltiples entre conjuntos de secuencias Para buscar una secuencia en una base de datos para lo que alinea por separado distintos fragmentos y se cuantifica el grado de similitud alcanzado
75 /39

Mtodos de alineamiento
Existen muchos programas disponibles en WWW para alinear secuencias y buscarlas en las BD Si se pretende que el resultado de dichos programas sea til no deben ser cajas negras La correcta eleccin del programa ( mtodo) y de sus parmetros es muy importante
Una eleccin inadecuada puede conllevar la no deteccin de similitudes relevantes

76 /39

Visin global de los mtodos


Alineamiento de dos secuencias
Mtodos grficos: Dotplot. Es intuitivo, pero difcil de cuantificar Algoritmos ptimos de alineamiento global (NW) o local (SW)
Obtienen el mejor alineamiento posible con programacin dinmica Son demasiado exigentes para ser prcticos en bsquedas extensivas

Alineamientos mltiples Algoritmos heursticos para bsqueda en bases de datos FASTA, BLAST
Dan soluciones buenas, no necesariamente ptimas 77 /39 Pueden ser mucho ms rpidos

Alineamiento de secuencias
Es el procedimiento consistente en comparar dos (pairwise) o ms (multiple) secuencias buscando los caracteres o patrones que aparezcan en el mismo orden en las secuencias Podemos distinguir entre alineamientos
Globales: Alineamiento de secuencias completas Locales : Alineamiento de subsecuencias

78 /39

Ejemplos de alineamientos
2 Secuencias no alineadas L G P S S K Q L N I T K S A Alineam iento global L G P S S L N I T T G G K K G G A S I S M R R I L W D G D N A

K K

Q S

T A

G G

K K

G G

S A

S M

R R

I L

W G

D D

N A

Alineam iento local

T A

G G

K K

G G

79 /39

Ejemplo de alineamiento mltiple


I I I I I I M A M P L E G I R A G I N C B A T L B I E I I I L C E A

LE

M A M P R A N F A

G C T L

N A B C A B B

L L L

E E E

80 /39

2. Mtodos grficos de alineamiento

81 /39

Los Dotplots
Se obtienen disponiendo dos secuencias S y T en los mrgenes horizontal y vertical de una tabla y marcando con una cruz (un punto) todas las posiciones en que coinciden los caracteres de S y T Si son idnticas se observa una diagonal definida Cuanto ms diferentes sean, ms difusa ser La aparicin de patrones permite revelar estructuras en las secuencias

82 /39

Para facilitar la visualizacin, se opta a menudo por mostrar nicamente las diagonales formadas por un nmero mnimo de puntos (umbral de severidad) Si el umbral de severidad es alto Eliminamos el ruido de fondo (filtrado alto) Solo detecta similitudes muy altas Si es bajo Hay ruido de fondo Detecta relaciones distantes

Umbral de severidad (Stringency threshold)

83 /39

Ejemplo de dotplot 1: Una secuencia con ella misma

84 /39

Ejemplo de dotplot 2: Secuencias que han divergido

85 /39

Ejemplo de dotplot 3: Inserciones y deleciones

86 /39

3. Puntuacin de los alineamientos

87 /39

Sistemas de puntuacin
Para cuantificar la similitud entre dos cadenas, S y T, definimos sistemas de puntuaciones de forma que para cada alineamiento se pueda calcular un nmero tal que, a mayor valor, mayor sea su significacin (biolgica) Pueden ser esquemas sencillos como por ej Coincidencia , S[i]=T[i] 1, No coincidencia, S[i]#T[i] 0, Insercin de espacios (gaps) -1, o bien sistemas ms complejos basados en afinidades qumicas o en frecuencias de emparejamiento observadas

88 /39

Puntuacin de un alineamento
Una vez establecido un sistema de puntuacin la puntuacin de una pareja de caracteres s,t alineados se define como p(s,t) La puntuacin (score) de un alineamiento entre S i T:

p( S[i],T [i])
i

Un alineamiento es ptimo si su puntuacin es la ms grande posible

89 /39

Ejemplo
S= T= p(s,t) A A 1 T T 1 G A 0 C A 0 A G 0 G T 0 T = 2

S= T= p(s,t)

A A 1

T T 1

G A 0

C A 0

A -1

G G 1

T T 1 = 3

S= T= p(s,t)

A A 1

T T 1

G -1

C A 0

A A 1

G G 1

T T 1 = 4
90 /39

Ejemplo
P untuac in c on es quem a s im ple S= T= p(s ,t) T -1 T T 1 Y G 0 G Y 0 A A 1 P P 1 P W C P P W 1 0 0 S S 1 = 4

S= T= p(s ,t)

T T 1

T G 0

Y Y 1

G A 0

A P 0

P P 1

P W P W 1 1

C S 0

S -1 = 4

91 /39

El sentido de las puntuaciones


Los dos alineamientos del ejemplo anterior puntan igual. Sin embargo a) conserva residuos comunes (A, P, S, T) b) conserva residuos menos habituales (W, Y) El sistema de puntuar los emparejamientos entre AA debera reflejar su relacin qumica y biolgica Residuos similares/distintos deberan puntuar alto/bajo pues el cambiar uno por otro afectar poco/mucho la funcin de la protena

92 /39

Matrices de puntuacin (scoring) o de substitucin (substitution)


Una forma usual de definir el sistema de puntuacin es utilizando una matriz de substitucin Es una tabla que contiene las puntuaciones que asignamos a cada pareja posible de caracteres, (sirve para las coincidencias y las no-coincidencias) El trmino substitucin refleja que lo que se pretende al puntuar un emparejamiento es valorar el coste evolutivo de cambiar un residuo por otro

93 /39

Matrices para alinear ADN


Suele utilizarse una matriz identidad
P(i,i)=1, P(i,i)=0.9, p (i,j)=0 p (i,j)=-0.1

o alguna variante de sta

94 /39

Matrices para protenas


No hay una matriz nica que se pueda usar siempre Segn la familia de protenas y el grado de similitud esperado se usar una u otra Las ms utilizadas PAM y BLOSUM PAM: Percent Accepted Mutation Matrix Derivadas de alineamientos globales de secuencias prximas PAM40 PAM250. A mayor n mayor distancia evolutiva BLOSUM Derivadas de alineamientos locales de secuencias distantes BLOSUM90 BLOSUM45 El n representa porcentaje 95 /39 de identifdad

96 /39

Penalizacin por gaps


En un sistema de puntuacin es importante definir el coste de insertar o eliminar un residuo, lo que en el alineamiento aparece como un hueco (gap) Suele penalizarse distinto
el primer hueco (gap opening) que los restantes (gap extension) que parten de l

La variacin de estos parmetros puede tener efectos importantes en el alineamiento final

97 /39

Efecto del valor de la penalizacin

Coste de Coste de apertura de extensin del gap gap Grande Grande

Comentario
Pocas inserciones o eliminaciones Bueno para protenas muy relacionadas Algunas inserciones grandes Bueno si puede que se hayan insertado dominios completos Muchas inserciones pequeas Bueno si se trata de protenas distantes

Grande

Pequeo

Pequeo

Grande

98 /39

4. Algoritmos de alineamiento ptimo para pares de secuencias

99 /39

Un algoritmo para obtener el alineamiento ptimo es: Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento ptimo es el que obtenga el valor ms grande (puede haber ms de uno!) El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!

Un algoritmo exhaustivo para obtener alineamientos ptimos

100 /39

Una alternativa a la bsqueda exhaustiva: La programacin dinmica (PD)


La programacin dinmica es una tcnica de diseo de algoritmos consistente en Considerar, en primer lugar, los casos ms sencillos de un problema Resolverlos Combinarlos para obtener la solucin de casos ms complicados Hasta resolver el caso completo original Veamos un ejemplo

101 /39

Algoritmos de alineamiento ptimo


Los dos ms conocidos son Needleman y Wunsch (1970) para alineamientos globales Smith y Waterman (1981), una variante para alineamientos locales Sirven para alinear tanto DNA como protenas Cada algoritmo retorna los alineamientos con la mxima puntuacin posible para una matriz de substitucin y un coste de gaps dados El alineamiento obtenido no tiene necesariamente un significado biolgico

102 /39

103 /39

Bioinformtica y Genmica
Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn

2004
104 /39

Un breve repaso histrico


La aparicin de las secuencias completas del genoma humano y cientos de otros genomas es el producto de un siglo de investigacin dirigido a comprender la informacin gentica. Comienzos del siglo XX: redescubrimiento de las leyes de Mendel Durante el primer cuarto de siglo, la biologa descubri que la base celular de la informacin eran los cromosomas Durante el segundo cuarto de siglo, se descubri que la base molecular de la informacin era el DNA Durante el tercer cuarto de siglo, se definieron los mecanismos que utilizan las clulas para leer esta informacin y se desarrollaron las herramientas de DNA recombinante Durante el ultimo cuarto de siglo, los bilogos se volcaron a colectar informacin gentica - primero de genes, luego de genomas completos.

105 /39

Informacin biolgica

106 /39

En que estamos hoy

107 /39

En que estamos hoy


El resultado: de ser una ciencia puramente experimental (con base en el laboratorio) la biologa est siendo transformada en una ciencia de la informacin La informacin acumulada no slo es informacin gentica (secuencias de DNA)
expresin de RNAs interaccin entre protenas estructuras tridimensionales Anulacin sistemtica de genes (knockouts, RNAi) que produce informacin de fenotipos

Cada vez ms diversos estudios comienzan con el anlisis de bases de datos para luego formular hiptesis o disear experimentos Cada vez ms el trabajo de laboratorio termina en la acumulacin de colecciones masivas de datos que deben ser luego analizados

108 /39

109 /39

Paradigma central de la bioinformtica

Genetic Information

Molecular Structure

Biochemical Function

Symptoms (phenotype)

110 /39

Genmica, Bioinformtica y Medicina


Genomics

Bioinformatics

Identify Targets

Molecular Diagnostics

Drug Design

Molecular Epidemiology

Genetic Therapy
111 /39

Informacin biolgica en formato electrnico Bases de datos


Fernn Agero
Instituto de Investigaciones Biotecnolgicas UNSAM

112 /39

Bases de datos: introduccin: conceptos bsicos


Qu es una base de datos? Una coleccin de datos

Cmo colecciono los datos?

Decisin del usuario. Diseo de la base de datos.

Puedo usar:
Procesador de texto? (Word) Si. Permite slo bsqueda y ordenamiento simples.

Planilla de Clculo? (Excel)

Tambin. Como los datos estn en columnas independientes, se puede ordenar en formas ms complejas. Las bsquedas siguen siendo simples.
113 /39

Introduccin: conceptos bsicos: registros


Una coleccin de registros (records).
Cada registro tiene varios campos. Cada campo contiene informacin especfica. Cada campo contiene datos de un tipo determinado.
Ej: dinero,texto, nmeros enteros, fechas, direcciones

Planilla Versin simple de una base de datos

Cada registro tiene una clave primaria. Un identificador nico que define al registro sin ambigedad.

gi 6226959 6226762 4557224 41

Accession NM _000014 NM _000014 NM _000014 X63129

version 3 2 1 1

date 01/06/2000 12/10/1999 04/02/1999 06/06/1996

Genbank Division PRI PRI PRI M AM

taxid 9606 9606 9606 9913

organims homo sapiens homo sapiens homo sapiens bos taurus

Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y

114 /39

Tipos de datos
Cada campo de una base de datos contiene un tipo particular de datos
021204
Es un numero? Es texto? Es una fecha?

Ejemplo de una busqueda: buscar todos los registros en donde el valor almacenado sea mayor que 021204
Es obvio que para poder comparar los valores almacenados tenemos que saber qe tipo de valores estamos comparando. Si es una fecha: 021204 (2.Dic.2004) > 211203 (21.Dic.2003) Si es un numero: 021203 < 211203 Si es texto: 021203 211203, las comparaciones < y > pueden dar distintos resultados (evaluan orden o longitud)

115 /39

Tipos de datos
Numericos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Logicos (boolean) = verdadero / falso Geometricos (punto, linea, circulo, poligonos, etc.)

116 /39

gi

Bases de datos: conceptos bsicos: clave primaria


Accession version date Genbank Division PRI PRI PRI M AM taxid organims Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y NM _000014 NM _000014 NM _000014 X63129 3 2 1 1 01/06/2000 12/10/1999 04/02/1999 06/06/1996 9606 9606 9606 9913 homo sapiens homo sapiens homo sapiens bos taurus

6226959 6226762 4557224 41

gi = Genbank Identifier: Clave nica : Clave primaria Cambia con cada actualizacin del registro correspondiente a la secuencia Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version es equivalente al gi (representa un identificador nico) Ejemplo: AF405321.2 Accession: AF405321 Version: 2

117 /39

gi 6226959 6226762 4557224 41

Accession NM _000014 NM _000014 NM _000014 X63129

Bases de datos: bases de datos relacionales


version 3 2 1 1 date 01/06/2000 12/10/1999 04/02/1999 06/06/1996 Genbank Division PRI PRI PRI M AM taxid 9606 9606 9606 9913 organims homo sapiens homo sapiens homo sapiens bos taurus

Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y

Base de datos relacional: Normalizar una base de datos para sub-elementos repetidos, repartiendola en bases de datos menores, relacionadas a travs de un identificador nico (clave primaria).
gi Accession 6226959 NM_000014 6226762 NM_000014 4557224 NM_000014 41 X63129 version date Genbank Division taxid 3 01/06/2000 PRI 9606 2 12/10/1999 PRI 9606 1 04/02/1999 PRI 9606 1 06/06/1996MAM 9913

taxid organims Number of Chromosomes 9606 homo sapiens 22 diploid + X+Y 9913 bos taurus 29+X+Y
118 /39

Bases de datos: distribucion de la informacion


gi 5693 5694 5695 5696 annotation Trypanosoma cruzi chromosome 3, ORF 1234, similar to gi|12345| AF934567 caseine kinase (Candida albicans) Candida albicans hypothetical protein in region 21922..24568 Sarcocystis cruzi 16SRNA gene Lutzomyia cruzi cytochrome b; best similarity to gi|1234568

gi 5693 5694 5695 5696

Organism Trypanosoma cruzi Candida albicans Sarcocystis cruzi Lutzomyia cruzi

Annotation Chromosome 3, ORF 1234 Hypothetical protein in region 21922..24568 16S RNA gene Cytochrome b

similar to 12345

786512 1234568

119 /39

Bsquedas en una base de datos: ndices


Para facilitar las bsquedas en una base de datos, se construyen ndices. Un ndice es una lista de claves primarias asociadas a un determinado campo (o grupo de campos)
gi 6226959 6226762 4557224 41 Accession NM _000014 NM _000014 NM _000014 X63129 version 3 2 1 1 date 01/06/2000 12/10/1999 04/02/1999 06/06/1996 Genbank Division PRI PRI PRI M AM taxid 9606 9606 9606 9913 organims homo sapiens homo sapiens homo sapiens bos taurus Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y

Genbank div PRI 6226959;6226762;4557224; MAM 41; Accession NM_000014 X63129 6226959;6226762;4557224; 41;
120 /39

Indices (cont)
Un ejemplo ms complejo: buscar todos los records que contengan la palabra kinase en la descripcin de la secuencia
gi 214734 123456 acc L07770 AF43567 def Xenopus laevis rhodopsin mRNA, complete cds. Mus musculus casein kinase mRNA, partial cds.

Indexar la columna def


word casein kinase laevis mus musculus rhodopsin xenopus list of GIs 1234,3245,43678,123456 ... 432,5678,32456,123456 ... 36314,214734, ... 23467,98732,123456,312456,567983 ... 23467,98732,123456,567983 ... 214734,223466,873212,23587,2942,12932 ... 28462,36314,98476,214734 ...

121 /39

Indexar es costoso
El proceso de indexacin es costoso en trminos computacionales, pero se realiza una nica vez (en realidad cada vez que se actualizan los datos) Desde el punto de vista de la base de datos, los ndices no son otra cosa que nuevas tablas relacionadas con la tabla que contiene el campo indexado Ejemplo ms obvio: buscadores de pginas de internet (Google, Altavista). Visitan pginas e indexan los trminos que encuentran
kewyword: url1, url2, url3, url4, etc.

122 /39

Bsquedas en bases de datos: bsquedas indexadas


Importante: no se busca en el total de los datos disponibles, sino sobre un subset pre-computado.

Buscadores de pginas en internet PubMed / Entrez / SRS BLAST

123 /39

Schemas
La distribucin de los datos en campos dentro de una tabla y de las relaciones entre tablas y sus campos es lo que se llama el diseo o schema

124 /39

Schemas (cont)

125 /39

RDBMS
Relational Database Management Systems
Comerciales
Oracle, Sybase

Open source, gratuitos


PostgreSQL, MySQL

Todos usan SQL (standard query language) para


crear tablas, ndices, etc. ingresar datos consultar

126 /39

Bsquedas simples
Los motores de bsqueda ofrecen bsquedas simples No imponen restricciones El usuario tipea palabras libremente Usan estrategias para intentar adivinar la intencin del usuario (sobre qu campo de la base de datos buscar)

127 /39

Ejemplo: term mapping - Entrez (PubMed)


Entrez busca en una serie de listas para ver si la palabra que ingresaron se encuentra en alguna
MeSH (Medical Subject Headings): vocabulario controlado utilizado para indexar artculos en PubMed. Journals: nombre completo del journal, abreviaturas usadas en MEDLINE y nmeros ISSN. Lista de frases: cientos de miles de frases generadas a partir de MeSH y otros vocabularios controlados similares. Indice de autores: apellido e iniciales. Stopwords: palabras comunes, presentes en casi todos los registros de la base de datos (a, an, by, of, the )

128 /39

Bsquedas simples: pros / cons


Ventajas rpidas de formular no hay que leer el manual ni hacer un curso Desventajas poco selectivas

129 /39

Bsquedas avanzadas
Presuponen un cierto conocimiento sobre la organizacin subyacente de los datos Hay que especificar sobre qu campos buscar: hay que conocer los campos Entrez: se especifican entre corchetes Tags predefinidos (hay que conocerlos)
Escherichia coli[organism] review[publication type] attenuator[feature key]

SRS: formulario avanzado (no hay que conocer trminos o tags)


130 /39

Bsquedas avanzadas: Entrez


Entrez provee adems Lmites: especie de formulario avanzado que les permite limitar la bsqueda a un campo determinado, sin tener que conocer los tags) History: una historia de las bsquedas que van realizando. En cualquier momento pueden combinar bsquedas o volver sobre alguna de ellas Preview/Index: les permite probar una bsqueda (preview) y ver el nmero de registros que selecciona o ver los ndices y el nmero de registros asociados a cada uno de ellos Details: permite analizar la traduccin que realiz Entrez de la bsqueda que realizamos (uso de sinnimos, lmites, etc)
131 /39

Operadores lgicos
En bsquedas simples o avanzadas siempre tienen a disposicin operadores lgicos para encadenar trminos AND (unin)
human AND genome +human +genome human && genome

OR (interseccin)
human OR genome human || genome

NOT (subconjunto)
human NOT genome

132 /39

Orden de los trminos en un query


El orden de los trminos es importante Un query se evala de izquierda a derecha
human NOT genome no es lo mismo que genome NOT human

Si el query tiene muchos trminos pueden forzar el orden de evaluacin usando parntesis
human AND cancer AND (cell OR science OR nature) casein kinase NOT (human OR mouse)

133 /39

134 /39

Bases de datos biolgicas: DNA


Nucleotide databases:
Genbank: International Collaboration
NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia)

Organism specific databases


FlyBase ChickBASE pigbase SGD (Saccharomyces Genome Database)

135 /39

Bases de datos biolgicas: protenas


Protein Databases:
NCBI:
Genpept: Translated Proteins from Genbank Submissions

EMBL
TrEMBL: Translated Proteins from EMBL Database

SwissProt:
recibe secuencias peptdicas cura y anota secuencias provenientes de TrEMBL (Gratuita para uso acadmico. Restricciones sobre los descubrimientos hechos utilizando la base de datos. La versin de 1998 es gratuita y libre de todas las restricciones.) http://www.expasy.ch (ltima versin no-gratuita) NCBI tiene la ltima versin gratuita.
136 /39

Bases de datos biolgicas: estructura


Structure databases:
PDB: Protein structure database.
http://www.rscb.org/pdb/

MMDB: NCBIs version of PDB with entrez links.


http://www.ncbi.nlm.nih.gov

SCOP: structural classification of proteins


family, superfamily, fold

CATH: structural classification of proteins


class, architecture, topology, homology

FSSP: fold classification based on structure-structure alignment

Genome Mapping Information:


http://www.il-st-acad-sci.org/health/genebase.html

NCBI(Human) Genome Centers:


Stanford, Washington University, UCSC

Research Centers and Universities


137 /39

Bases de datos biolgicas: literatura


Literature databases: NCBI: Pubmed: All biomedical literature.
www.ncbi.nlm.nih.gov

Abstracts and links to publisher sites for


full text retrieval/ordering journal browsing.

Publisher web sites. Pathways Database: KEGG: Kyoto Encyclopedia of Genes and Genomes:
www.genome.ad.jp/kegg/kegg/html

138 /39

Bases de datos biolgicas: GenBank


Es un Banco: no se intenta unificar datos.
No se pueden modificar las secuencias sin el consentimiento del autor (submitter). No se intenta unificar (puede haber ms de una secuencia para un locus/gen). Puede haber registros de diversas calidades de secuencia y diferentes fuentes ==> Se separan en varias divisiones de acuerdo a:
Secuencias de alta calidad en divisiones taxonmicas.
PRI -> Primates MAM -> Mamferos INV -> Invertebrados

Secuencias de baja calidad en divisiones uso-especficas.


GSS -> Genome Sequence Survey EST -> Expressed Sequence Tags HTG -> High Troughput Sequencing (unfinished contigs, BACs, cosmids, chromosomes).
139 /39

GenBank
Redundante Con errores Dificil de actualizar Para poder corregir, mejorar y mantener actualizada la anotacin de los registros, el NCBI cre RefSeq (coleccin curada de registros de GenBank)
toma records de GenBank y los actualiza/corrije unifica para reducir redundancia Accession numbers del tipo XX_123456

140 /39

Bases de datos primarias


Una base de datos primaria es un repositorio de datos derivados de un experimento o de conocimiento cientfico.
Genbank (Repositorio de secuencias nucleotdicas) Protein DB, Swissprot PDB Pubmed (literatura) Genome Mapping Kegg (Kyoto Encyclopedia of Genes and Genomes, base de datos de vas metablicas)

141 /39

Bases de datos secundarias


Una base de datos secundaria contiene informacin derivada de otras fuentes (primarias, entre otras).
Refseq (Coleccin curada de GenBank en NCBI) Unigene (Clustering de ESTs en NCBI)

Las bases de datos organismo especficas son en general una mezcla entre primaria y secundaria.

142 /39

Anlisis y anotacin de genomas


Fernn Agero

143 /39

Historia
Primer proyecto de secuenciacin de un genoma: Escherichia coli (US + Japn). Comenz en 1992 y termin en 1997. 4.6 MB Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB

144 /39

Qu es un genoma?
Una coleccin de
genes
que codifican productos proteicos que codifican RNAs

pseudogenes regiones no codificantes


regulatorias (expresin) estructurales
attachment a matriz nuclear mitosis / meiosis elementos repetitivos

145 /39

Qu es anotar?
Agregar informacin, de la manera ms confiable y actualizada que se pueda para describir una secuencia Informacin asociada a coordenadas genmicas (comienzo..fin), a distintos niveles Interpretar la informacin cruda de secuencia en un marco biolgico

146 /39

Anotacin genmica
Dos niveles de anotacin
Estructural: encontrar genes y otros sitios con relevancia biolgica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posicin en el genoma Funcional: los objetos son utilizados en bsquedas (y experimentos). El objetivo es atribuir informacin biolgica relevante a los objetos.

147 /39

Ms niveles de anotacin
Organismo: fenotipo: morfologa, fisiologa,
comportamiento, respuestas ambientales

Celula: vas metablicas, cascadas de sealizacin,


localizacin subcelular.

Molecula: sitios de binding, actividad cataltica,


estructura tridimensional

Dominio Motif Residuo

148 /39

De donde proviene la anotacin?


Fuentes utilizadas en la anotacin:
publicaciones que reportan nuevas secuencias reviews que actualizan peridicamente la anotacin de familias o grupos de protenas expertos externos anlisis de secuencia

149 /39

Anotacin genmica
Genomic DNA

transcription
Unprocessed RNA

ab initio gene prediction

RNA processing
Mature mRNA
Gm3 AAAAAAA

translation
Nascent polypeptide

Comparative gene prediction

folding
Active enzyme

Functional identification
Function

Reactant A

Product B

150 /39

Annotation & functional genomics


La anotacin del genoma es esencial en el desarrollo de estrategias funcionales (functional genomics)

proteome based functional genomics

RNAi phenotypes

Gene Knockout

Expression Microarray

151 /39

Buscar genes en el genoma


RNA
ribosomal RNAs tRNAs

Anotacin: busqueda de genes


BLASTN tRNAscan

protein coding
ab initio gene prediction ORFs, codon usage, frecuencia de hexmeros, modelos, etc.) similarity BLASTX, otros

Buscar regiones no codificantes


regulatorias
ab initio similarity Gibbs sampling patterns, profiles

repetitivas
similarity ab initio

En todos los casos

literatura!

152 /39

Integrar resultados
BLASTX BLASTN Secuencia genoma RepeatMasker tRNASCan gene prediction
flatfiles DB

Visualizacin

153 /39

Genome annotation: C. elegans

154 /39

Resumir resultados de anlisis


Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado Prcticamente cualquiera de los anlisis que se realizan sobre DNA o protenas para anotar un genoma pueden resumirse en:
secuencia cromosoma1 start end 1723 3456

Este formato bsico es la base del formato GFF (Sanger)


secuencia Contig1 Contig1 Contig1 metodo similarity cds similarity programa blastx glimmer blastn start 100 85 80 end 1000 1201 1300 frame +1 +1 . score 132 1321 136 extra gi|12345|AF34093 casein kinase ... ORF0001; overlap with ORF0002 gi|54321|AF09990 complete genome

155 /39

Anotacin: herramientas
Artemis
http://www.sanger.ac.uk/Software/Artemis Permite visualizar
secuencia, con sus traducciones virtuales (6) tracks de anotacin (entries) plots (built-ins y creados por el usuario)

Lee secuencias en formato FASTA, EMBL, GenBank Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST

156 /39

Artemis: main window

Sequence view

Sequence view

Feature list

157 /39

Artemis: plots
%GC plot

AA properties plot para un CDS

158 /39

Artemis: display de anlisis


Frameplot BLASTX BLASTN

159 /39

Artemis:

160 /39

Artemis: zoom

161 /39

Artemis: spliced genes

162 /39

Artemis: comparar anlisis

163 /39

ACT: Artemis Comparison Tool


Nature Genetics 35 (2003) Comparative analysis of the genome sequences of Bordetella pertussis, Bordetella parapertussis and Bordetella bronchiseptica.

164 /39

ACT: Artemis Comparison Tool

165 /39

Otras estrategias
Artemis se usa para anotar genomas bacterianos o para pequeos proyectos (csmidos, BACs, etc.) En genomas ms grandes, la tendencia es a distribuir la anotacin Los tracks de anotacin son generados en distintos centros Ejemplo: UCSC Genome Browser (genoma humano, ratn).

166 /39

Anotacin automtica: TrEMBL


La anotacin de TrEMBL (translated EMBL) se hace por mtodos automticos.
Requerimientos para anotar automticamente
Una base de datos de referencia bien anotada (ej. Swissprot) Una base de datos que sea altamente confiable (en el sentido diagnstico) en la asignacin de protenas a grupos o familias (ej CDD, InterPro) Una serie de reglas de anotacin

167 /39

Transferencia directa de anotacin


Realizar una bsqueda en la base de datos de referencia y transferir la anotacin XDB Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la lnea DE del mejor hit

Target

168 /39

Anotacin a partir de mltiples fuentes


Generalmente se usa ms de una base de datos externa XDB Hay que combinar los resultados Target

169 /39

Conflictos
Contradiccin Inconsistencia Sinnimos Redundancia

170 /39

Traduccin de anotaciones
Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar

XDB

Target

171 /39

Traducciones: algunos ejemplos


ENZYME TrEMBL CA L-ALANINE=D-ALANINE CC -!- CATALYTIC ACTIVITY: L-ALANINE= CC D-ALANINE. PROSITE TrEMBL /SITE=3,heme_iron FT METAL IRON Pfam TrEMBL FT DOMAIN FT ZN_FING zf_C3HC4 C3HC4-TYPE

172 /39

Requerimientos de un sistema de anotacin automtica


Correccin Escalable Actualizable Poco redundante Completo Vocabulario controlado

173 /39

Cmo funciona?
Una protena en TrEMBL es reconocida como un miembro de cierto grupo o familia de protenas Este grupo de protenas en Swissprot comparten entre s partes de la anotacin La anotacin comn es transferida automticamente a la protena en TrEMBL y marcada como annotated by similarity

174 /39

Anotacin: evidencias
Las anotaciones suelen estar acompaadas de TAGS que indican la evidencia en la que se basa la anotacin Ejemplos de algunos TAGS utilizados en TrEMBL: EMBL: la informacin fue copiada del original (EMBL/GenBank/DDBJ) TrEMBL: anotacin modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot Curator: juicio del curador Similarity: por similitud con otra secuencia, a juicio del curador Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. Opinion: opinin emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental Rulebase: informacin derivada del uso de una regla de anotacin automtica SignalP: programa de prediccin

175 /39

Anotacin: manual vs automtica


La anotacin de un genoma ocurre en etapas
anotacin automtica
correr todos los anlisis sobre el genoma generar un primer borrador con todos los datos organizados. Por ejemplo en pginas web o integrando todos los datos en un display unificado (Artemis)

anotacin manual: cura de los datos


una persona (curador) revisa la anotacin, gen por gen, verificando la anotacin automtica, agregando anotaciones manuales, corriendo eventualmente algn programa particular

176 /39

Qu herramientas se usan?
Oakridge Genome Annotation Channel
http://compbio.ornl.gov/channel

ENSEMBL
http://ensembl.ebi.ac.uk

Artemis
http://www.sanger.ac.uk/Software/Artemis

GeneQuiz
http://www.sander.ebi.ac.uk/genequiz

Genome browsers: varios


cada consorcio/proyecto desarroll el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans),

177 /39

Anotacin: fuentes de error


Transferencia transitiva de anotaciones
gen1 mal anotado como casein kinase presente en los bancos de datos gen2 con alta similitud con gen1, resulta anotado como casein kinase

Solucin:
usar bases de datos curadas: por ejemplo Swissprot revisar la anotacin de ms de un hit verificar que las anotaciones de todos los hits concuerden

178 /39

Anotacin confiable: proyecto HAMAP

High-quality Automated Microbial Annotation of Proteomes


Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute) CNRS Lyon INRIA Grenoble INRA Toulouse CNRS Marseille Pasteur Institute
179 /39

HAMAP
Hay muchos genomas bacterianos terminados, pero va a haber muchos ms en los prximos aos El nmero de protenas bacterianas proveniente de estos genomas llegar al milln muy rpidamente Pero el anlisis funcional y una caracterizacin detallada van a exsitir slo en unos pocos casos: todas las protenas de organismos modelo (E. coli, B. subtilis) protenas involucradas en patognesis (inters mdico e industrial) protenas involucradas en vas metablicas especficas (inters biotecnolgico)
180 /39

Prioridades del proyecto HAMAP


Anotacin de protenas hurfanas Pre-anotacin de protenas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH) Anotacin de alta calidad de protenas pertenecientes a familias bien caracterizadas Anotacin manual de protenas caracterizadas experimentalmente en ese organismo Anotacin manual de protenas no caracterizadas que muestren similitud con otras protenas

181 /39

Estrategia HAMAP

ORFans
182 /39

HAMAP: ORFans
No tienen similitud con otras protenas (excepto tal vez otras protenas de organismos muy cercanos) No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) Qu se hace:
Prediccin de seales Prediccin de regiones trans-membrana Prediccin de coiled-coils Anotacin de repeticiones

183 /39

HAMAP: ORFan antes

184 /39

HAMAP: ORFan despus

185 /39

HAMAP: large/complex families

186 /39

HAMAP: anotacin automtica


Transferencia automtica de anotacin
Usando reglas especficas para cada famila de protenas Usando reglas especficas para un organismo particular

La transferencia de anotacin puede ir acompaada de advertencias para el curador


Por ejemplo:
WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB)

187 /39

HAMAP: ejemplo reglas

188 /39

HAMAP: Escherichia coli


De acuerdo al anlisis original: 4286 protenas
60 protenas no detectadas (casi todas < 100 aa) 120 muy probablemente no existan 50 pares o tripletes de ORFs tuvieron que ser fusionados 719 con errores en la asignacin del codn de inicio ~1800 todava sin caracterizacin bioqumica (aproximadamente una asignacin funcional por semana)

189 /39

Chromosome browsers
UCSC Genome Browser
provee un display rpido de cualquier regin genmica con varios tracks de anotacin alineados al genoma Por el momento slo: Human & Mouse

Annotation tracks
genes conocidos (RefSeq, GenBank) predicted genes (Genscan, FGENESH, GeneID, Acembly) spliced ESTs CpG islands assembly gaps cobertura bandas cromosmicas elementos repetitivos etc
190 /39

191 /39

UCSC Genome browser


UCSC slo genera la mitad de los tracks El resto proviene de la comunidad biomdica El Genome Browser es una herramienta de visualizacin No saca conclusiones! Simplemente integra en forma grfica toda la informacin que posee sobre una regin, dejando la exploracin y la interpretacin al usuario.

192 /39

UCSC Genome Browser: gene expression

193 /39

UCSC Genome browser: alternative splicing

194 /39

UCSC Genome browser: complex transcription

195 /39

UCSC Genoma browser: user tracks


Ustedes pueden agregar sus propios tracks Pueden ser pblicos o privados No necesitan saber programar Tienen que proveer informacin en formato GFF (u otros similares: GTF, BED) chrom start end [name strand score] chr1 1302347 1302357 SP1 + 800 chr1 1504778 1504787 SP2 980

196 /39

Acknowledgements
Nicola Mulder, EBI Daniel Lawson, Sanger Centre

197 /39

Bioinformtica
Herramientas y aplicaciones
Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn

2004
198 /39

Entender la informacin gentica


La informacin gentica es redundante La informacin estructural es redundante Un gen, muchas funciones La informacin gentica es unidimensional, pero la funcin depende de la estructura tridimensional El reemplazo de 40% de los residuos de una protena no afectan la funcin

199 /39

Qu herramientas provee la computacin cientfica


Machine Learning (inteligencia artificial, aprendizaje automtico)
Distintos mtodos entrenables para reconocer o aprender disintas cosas:
Neural Networks Markov Models and Hidden Markov Models Nearest neighbor Otros

Prediccin en protenas
SignalP, Net-O-Glyc, TMHMM, TmPred, PSORT

Gene finding, Gene prediction


Genscan, Glimmer, GeneMark, FGENESH

Prediccin de estructura secundaria


nnpredict, PHDSec,
200 /39

Qu herramientas provee la computacin


Bases de datos
Organizar datos de manera eficiente Posibilidad de realizar consultas complejas, integrando y cruzando datos.
Entrez, SRS, FlyBase Oracle, Sybase, MySQL, PostgreSQL

Teora de la informacin
Medir la cantidad de informacin (en bits) Incertidumbre
Sequence Logos

Algoritmos
Mtodos para tratar con distintos tipos de problemas Una vez que se aprende como solucionar un problema particular, la solucin se generaliza a toda una clase de problemas similares
Dynamic programming Qu problema resuelve este algoritmo? El problema de encontrar el mejor camino entre muchos posibles. utilizado en mtodos de alineamiento de secuencias (Smith-Waterman, Needleman-Wunsch, BLAST, FASTA), en mtodos de prediccin de genes, en ruteo de llamadas telefnicas a travs de distintas centrales, etc. 201 /39

Bases de datos: conceptos bsicos


Qu es una base de datos? Cmo colecciono los datos? Una coleccin de datos Decisin del usuario. Diseo de la base de datos.

Puedo usar:
Procesador de texto? (Word) Si. Permite slo bsqueda y ordenamiento simples. Tambin. Como los datos estn en columnas independientes, se puede ordenar en formas ms complejas. Las bsquedas siguen siendo simples. Ideal. Permite representar los datos en formas complejas. Flexible para reordenar y buscar con distintos criterios

Planilla de Clculo? (Excel)

Un sistema de manejo de base de datos (Database Management System, DMS)

202 /39

Un experimento en la computadora no es distinto de cualquier experimento en la mesada:


Un experimento bioinformtico

los resultados deben contestar una pregunta concreta deben ser reproducibles por otra persona que utilice el mismo mtodo

Identificar el problema
cul es el mecanismo cataltico de la enzima X?

Identificar las herramientas necesarias para resolver el problema


bsquedas de secuencias similares, alineamientos mltiples, deteccin de profiles y motivos, modelado de la estructura tridimensional, evaluacin del modelo

Definir criterios de satisfaccin (xito del experimento)


Prcticamente todos los mtodos computacionales producen resultados. Una bsqueda utilizando BLAST casi siempre produce algn hit Es necesario distinguir resultados significativos del ruido para no terminar comparando superoxido dismutasas con alcohol dehidrogenasas. Hay que entender cmo funcionan los programas, en qu algoritmos estn basados, que puntos dbiles tienen, etc.

203 /39

Un experimento bioinformtico
Seleccionar el set de datos apropiados
En el laboratorio, los materiales y reactivos son objetos fsicos necesarios para realizar un experimento. Generalmente uno sabe cuando fueron preparados, quien los preparo, como fueron preparados, etc. En bioinformtica el mismo tipo de informacin es esencial. Las fuentes de informacin (bases de datos, por ej), fecha de ultima actualizacion, el crtiterio y el metodo utilizado para extraer los datos que van a ser utilizados en el experimento

El costo de un proyecto bioinformtico es bajo una vez que cubierto el gasto inicial en computadoras (y eventualmente software)

204 /39

Un ejemplo concreto
Un investigador interesado en estudiar genes en involucrados en la interaccin hospedador-parsito, con especial inters en identificar aquellos productos que sean secretados Un sitio web reporta los resultados de un anlisis sistemtico de expresin (usando microarrays) de todos los genes del genoma en todos los estados del ciclo de vida del parsito El investigador puede bajar un archivo con un resumen de estos experimentos Las secuencias de todas las protenas codificadas por el genoma se encuentran disponibles en una base de datos. Lo que se necesita es contar con la capacidad de identificar genes que se expresen en los estados del ciclo de vida que ocurren en el hospedador y extraer las secuencias de estos genes de la base de datos En ultima instancia el objetivo es analizar las secuencias de inters usando SignalP para predecir la posible presencia de un pptido seal

205 /39

Cuestiones a tener en cuenta:


Podemos hacer el trabajo a mano
Abrimos el resumen con los datos de los experimentos con microarrays en un procesador de texto buscamos los genes que muestran expresin en el estadio de inters Construimos una lista de genes (accession numbers) Luego vamos a nuestra base de datos con secuencias genmicas y sus traducciones y buscamos una por una las secuencias El ultimo paso es pasar todas las secuencias a un formato que entienda SignalP y ingresarlas una por una en el formulario correspondiente.

Hay tres problemas evidentes:


Si el nmero de genes que se expresan en nuestro estadio de interes es ms que unos cuantos el trabajo se vuelve tedioso y ms que nada lento por el tiempo que insume Peor aun, cada vez que aparezcan nuevos resultados de microarrays o se actualicen, hay que repetir todo el procedimiento El proceso de abrir el resumen con datos de microarrays (o la base de datos de genes) en un procesador de textos puede no ser factible si el tamao de los archivos excede los 5 o 10 MB

206 /39

Programacin en biologa
Cualquier persona que tenga experiencia en el diseo y llevado a cabo de experimentos para responder una pregunta puede programar una computadora Un experimento en el laboratorio comienza con una pregunta que evoluciona hacia una hiptesis testeable Finalmente el experimento sirve para afirmar o descartar una afirmacin En la computadora el programa que uno escriba debe estar diseado de manera de producir resultados que respondan a este tipo de afirmaciones Aprender un lenguaje de programacin puede resultar un desafo no trivial, pero es similar a aprender a utilizar una nueva herramienta, tecnologa u otro lenguaje (ingls, francs)

207 /39

Programacin en biologa
Ejemplos simples:
automatizar tareas identificar una o ms tareas que uno quiere realizar escribir un programa que las realice en forma automtica

Analizar todas las protenas de un genoma y seleccionar aquellas que sean (o parezcan) proteinasas
Un archivo con todas las secuencias Una base de datos de proteinas (Swissprot, GenPept) Un programa para buscar secuencias similares en bases de datos (BLAST) Una serie de instrucciones a seguir (un protocolo)

208 /39

Automatizar bsquedas con BLAST


Secuencias

BLAST

NO
Significativo?

SI

NO

Es una proteinasa?

SI
Guardar

209 /39

Automatizar BLAST
Muy lindo el diagrama, pero: cmo se hace? Por cada secuencia de una lista de secuencias hay que:
correr la comparacin (BLAST) contra una base de datos analizar el reporte que genera el programa y extraer dos tipos de datos:
score, expect, identidad, similitud (algn criterio cuantitativo que me sirva para tomar una decisin) descripcin de la secuencia obtenida de la base de datos

>gi|32172429|sp|P25807|CYS1_CAEEL Gut-specific cysteine proteinase precursor >gi|32172419|sp|P07268|PRZN_SERSP Serralysin precursor (Extracellular metalloproteinase) (Zinc proteinase)

210 /39

Programacin
Todo lenguaje de programacin provee construcciones para tomar decisiones:
if A then do B, else do C if A > 100 then continue else exit

Algunos lenguajes de programacin proveen mtodos para ejecutar otros programas


salir al sistema operativo, ejecutar el programa X y tomar el output blast secuencia vs swissprot system( blast -i secuencia -d swissprot )

Lo ms dificil: analizar el output y tomar los datos de inters


para poder tomar decisiones (hacer comparaciones) tenemos que tener los datos en variables

211 /39

Reportes de BLAST
Un reporte de BLAST tal como aparece en un navegador o al ejecutar el programa en la lnea de comando (Unix) es basicamente un archivo de texto (un archivo plano o flatfile) Ningun reporte es igual a otro. Sin embargo hay patrones similares (la apariencia de hecho es similar). Tenemos que entrenar a nuestro programa para reconocer patrones:
la primer linea contiene informacin sobre el programa la quinta lnea contiene informacin sobre la secuencia utilizada para la bsqueda la dcima lnea contiene informacin sobre la base de datos la lnea que comienza con > indica el comienzo de la descripcin de un hit etc.

212 /39

Anatoma de un reporte de BLAST


Header
Programa
$programa = TBLASTN $version = 2.2.6

Query

$id = GROU_DROME $accession = P16371 $descripcion = Groucho protein $longitud = 719

Base de datos

$database = GenBank non-mouse $secuencias = 8104717

213 /39

Anatoma de un reporte de BLAST


Hit List

214 /39

Anatoma de un reporte de BLAST


High scoring pairs (HSPs)
Subject
$gi = 132150256 $gb = CB923560 $version = 1 $desc = TcAmaPl03Run01_C08 Longitud = 653

HSP info

$score = 58.9 $expect = 7e-10 $identity = 24% $similarity = 43% $frame = +1

215 /39

Anatoma de un reporte de BLAST


Footer

Estadsticas para esta corrida


Base de datos Parmetros estadsticos Matriz Penalties Detalles sobre lo que hizo el algoritmo

216 /39

Nuevos formatos
Los reportes estaban diseados con un usuario (humano) en mente
Formato no estructurado Ideal para lectura

Cada vez ms los reportes que producen distintos programas se encuentran en formatos estructurados ms fciles de analizar desde el punto de vista de la computadora
XML ASN.1 Tabulado

Estos formatos no son amigables para un humano (no son fciles de leer)

217 /39

Representacin de la informacin
flatfiles

Ayer
procesamiento

resultados

218 /39

Representacin de la informacin
flatfiles

Hoy
procesamiento

DB resultados

219 /39

Analizando un reporte de BLAST


Nuestro programa ya ley el reporte Y almacen los valores que le pedimos en distintas variables Ahora podemos hacerle hacer lo que querramos:
(en pseudocdigo):

if $score < 100 { read next report } else { print $accession } if $description =~ proteinase { print $accession} else { read next report } if $score < 100 AND $description =~ proteinase { print $accession } else { read next report }

220 /39

Mdulos de software reusables


Resumiendo:
nuestro programa tiene que poder leer el reporte (FACIL) identificar dentro del reporte distintos elementos y almacenarlos en variables (MAS COMPLICADO) tomar decisiones en base a los valores contenidos en las variables y realizar acciones (imprimir algo en pantalla, almacenar datos en un archivo, base de datos, etc.) (Criterio del usuario)

El criterio del usuario es lo que va a hacer que el programa sirva para un fin u otro Es evidente que los pasos 1 y 2 van a ser necesarios para cualquier programas que intenten procesar reportes de BLAST
solo hay que programarlos una vez modulos reusables (subrutinas)

221 /39

Bibliotecas de modulos reusables


Perl, Python, Java, C
en general todos los lenguajes proveen bibliotecas de mdulos reusables el mdulo contiene cdigo que realiza ciertas operaciones no es necesario saber como funciona internamente el mdulo para poder usarlo solo necesitamos saber que datos necesita (por ejemplo: una secuencia) y que resultados produce (un valor: 135, una respuesta: SI/NO)

En el caso de aplicaciones biolgicas


BioPerl BioPython BioJava Otros

222 /39

Pipelines
Qu es un pipeline?
Una lnea automatizada de anlisis
Seq

BLAST

Pfam

TMHMM

SignalP

etc

Fbrica de resultados

Base de datos

Almacenamiento

CGI Integracin Y Visualizacin

Web Page 223 /39

Pipelines: ejemplos
Sistemas de anotacin automtica de genomas
Ensembl - http://www.ensembl.org UCSC Genome Browser - http://genome.ucsc.edu ORNL Genome Channel - http://compbio.ornl.gov/channel HAMAP - http://us.expasy.org/sprot/hamap

224 /39

Estrategia HAMAP

ORFans
225 /39

226 /39

227 /39

228 /39

Consideraciones prcticas
La bioinformtica es ms barata que el trabajo en el laboratorio El equipamiento es significativamente ms barato que el de un laboratorio de biologa molecular Los materiales (programas) y reactivos (datos) son en general gratuitos y libremente accesibles
Almacenamiento
La cantidad y tipos de bases de datos que se planean instalar (ejemplo: GenBank actualmente requiere 120 GB) La cantidad y tipo de datos que se planean generar

Memoria y Procesador
Los requerimientos de los distintos mtodos BLAST es principalmente memoria-intensivo HMMER es principalmente procesador-intensivo

229 /39

Consideraciones prcticas
Backup
CD Cinta Un segundo disco

Software
Sistema operativo: unix Paquetes: BLAST, FASTA, etc Software de manejo de bases de datos: MySQL, PostgreSQL Lenguajes de proramacin: Perl, Java, Python, C, C++

Para un laboratorio chico una PC con un disco un poco ms grande y un poco ms de memoria que lo comn pueden ser suficientes

230 /39

Con respecto a la protozoologa


Los genomas de varios protozoarios estn terminados o cerca de estarlo
Plasmodium falciparum, berghei, chabaudi, knowlesi Toxoplasma gondii Trypanosomatidos (T. cruzi, T. brucei, L. major)

Algunos otros se encuentran en distintos estados


Entamoeba hystolytica Theileria annulata Babesia bovis Eimeria tenella

En algunos casos hay proyectos post-genmicos en curso o recin comenzando


Proteomics Microarrays RNAi

231 /39

Bibliografa sugerida
Developing Bionformatics Computer Skills
OReilly & Associates

Bioinformatics. Sequence and genome analysis.


CSHL Press

Bioinformatics, a practical guide to the analysis of genes and proteins


Wiley InterScience

232 /39

233 /39

Bsqueda en bases de datos


Similitud, homologa. Mtodos heursticos.

234 /39

Bsqueda en bases de datos


Perspectiva general

235 /39

Bsqueda en BD frente al alineamiento de secuencias


Una de las aplicaciones ms conocidas es buscar [nuevas] secuencias en una BD. Esto suele hacerse alineando la secuencia contra todas las de la BD.
Proceso parecido al alineamiento por parejas. Objetivos distintos: interesa ms la puntuacin que el alineamiento en si. Los parmetros que mejor distingan entre secuencias relacionadas y las que no lo estn no son necesariamente los mismos que proporcionan el mejor alineamiento.

236 /39

Bsqueda en BD y prediccin de la funcin de una protena o un gen


La bsqueda de secuencias en bases de datos puede verse como un proceso de descubrimiento cientfico en el que.
Se utiliza la informacin acumulada. Para descubrir propiedades de nuevas secuencias.

Obviamente como en toda investigacin.


Es preciso proceder con meticulosidad y racionalidad. Un proceso incorrecto o descuidado puede llevar a conclusiones errneas o a omitir hallazgos.

237 /39

La evolucin es un proceso conservativo

Puede predecirse la funcin de una protena o un gen?


Cambian los residuos en una secuencia Pero se conservan las propiedades bioqumicas y los procesos fisiolgicos

Si somos capaces de encontrar en la BD secuencias homlogas a la secuencia problema concluimos que la nueva secuencia debe de tener propiedades similares a la secuencia conocida

238 /39

Homologa y similitud
Para inferir las propiedades de una nueva secuencia precisamos de secuencias homlogas a sta. Sin embargo la homologa no es observable, solo la similitud. Debemos pues determinar
Cual es la mejor forma de medir la similitud. Como determinar si de la similitud observada puede inferirse la homologa.

239 /39

Fuentes de informacin para la bsqueda en bases de datos

240 /39

Fuentes de informacin
La bsqueda en BD se fundamenta en tres tipos distintos de fuentes de informacin [conocimiento previo].
El sistema de puntuacin con el que se cuantifica el grado de similitud. El algoritmo utilizado para realizar las comparaciones. La base de datos en donde se realiza la bsqueda.

241 /39

El sistema de puntuacin
La similitud se cuantifica con matrices de sustitucin (PAM, BLOSUM, etc). Se han obtenido analizando sustituciones conocidas de unos AA por otros entre secuencias con grados distintos de divergencia y conservacin de funcin.
Siempre es mejor usar una matriz adecuada que suponer sustituciones equiprobables. Distintos grados de divergencia requieren distintas matrices de puntuacin.

242 /39

El algoritmo de bsqueda
Cada algoritmo (S-W, FASTA, Blast).
Aprovecha de forma distinta la informacin. Imponiendo restricciones distintas sobre el modelo evolutivo.

SW: pocas restricciones.


Muy sensitivo pero poco selectivo. Lento.

FASTA/Blast: restricciones heursticas.


Pueden resultar en menor sensibilidad. Ms selectivos y mucho ms veloces.

243 /39

La base de datos
Es la fuente ms evidente de conocimiento preexistente. Una bsqueda adecuada en BD puede ahorrar muchas horas de trabajo en el laboratorio.

244 /39

Suposiciones en que se basa la bsqueda en las BD


La bsqueda en BD presupone que
Las secuencias buscadas tienen ancestros comunes con la secuencia problema. El camino evolutivo ms adecuado es el que presupone un menor nmero de cambios.
No todas las sustituciones son igualmente probables: Debemos usar matrices de sustitucin que las ponderen adecuadamente. Las inserciones y eliminaciones son menos probables que las sustituciones

245 /39

En la prctica
La eleccin del algoritmo de bsqueda influye en
La sensibilidad y La especificidad

de la bsqueda. La eleccin de la matriz de similitud determina el patrn y la cantidad supuesta de sustituciones en las secuencias que se espera descubrir en la bsqueda.

246 /39

Sensibilidad y especificidad

247 /39

Exitos y fracasos en la bsqueda


Supongamos que conociramos TODAS las coincidencias entre una secuencia problema y una base de datos. En este caso podramos distinguir si, dada una coincidencia, sta es cierta o falsa. Esto nos lleva a distinguir entre.
Positivos verdaderos (True positives TP). Positivos Falsos . (False Positives, FP). Negativos Verdaderos (True Negatives, TN). Negativos Falsos (False Negatives, FN).

248 /39

Verdaderos/Falsos Positivos/Negativos
Realidad Deteccin Positivo: Positivo verdadero Se detecta coincidencia Falso positivo Coincidencia Cierta Coincidencia Falsa

Negativo: No se detecta la coincidencia

Falso Negativo

Negativo verdadero

249 /39

Sensibilidad frente a Especificidad (Selectividad)


Sensibilidad= TP /(TP+FN) % de coincidencias bien identificadas (% positivos entre las coincidencias) Especificidad = TP / (TP+FP) % de positivos correctos (% de correctos entre los positivos)

250 /39

Si en una bsqueda colocamos el umbral alto


Cuesta localizar los positivos Pocos FP Pero tendremos ms falsos negativos

El compromiso entre sensibilidad y especificidad

Es decir un umbral alto suele conllevar una baja sensibilidad y una alta especificidad AL reves si colocamos un umbral bajo
Tendremos muchos positivos Tambien ms FP Pero habran menos falsos negativos

Es decir un umbral bajo conlleva una alta sensibilidad y una baja especificidad

Idealmente:mirar de lograr un equilibrio, O en todo caso decidir que error nos interesa ms controlar en cada situacin

251 /39

< 0.05 < 1.00

Low sensitivity, many false negatives

High selectivity, few false positives


252 /39

High sensitivity, few false negatives Low selectivity, many false positives

< 1.00

253 /39

Algoritmos de bsqueda
De la programacin dinmica a los mtodos heursticos

254 /39

Busqueda basada en PD
Una forma razonable de buscar una secuencia en una base de datos es realizando alineamientos locales de sta contra todas las de la base de datos Algoritmo: Smith-Waterman
Encuentra una solucin ptima Slo impone una restriccin: Puntuacin > 0 Proporciona la mejor sensibilidad

255 /39

La busqueda basada en PD proporciona una gran sensibilidad pero


Es poco especfica Pocos falsos negativos: Fcil perder las homologas remotas Es necesariamente lenta.

Inconvenientes de la bsqueda basada en SW

Alternativa: Mtodos heursticos


Aproximaciones a SW con restricciones que:
Aumentan la especificidad (aunque baja la sensibilidad) Sn mucho ms rpidas

256 /39

FASTA
Aproximacin a S-W que utiliza dos heursticas para ir ms rpido a costa de perder sensibilidad Heursticas : Restricciones al modelo evolutivo implicito en la comparacin de secuencias
Tamao de palabra (Word size) Tamao de ventana (Window size)

257 /39

Tamao de palabra en FASTA


La comparacin entre secuencias no se realiza residuo a residuo sino por grupos de residuos,
2 residuos en AA. 6 bases en DNA.

A mayor tamao de palabra menor es la sensibilidad y mayor la especificidad. El efecto de variar el tamao de palabra se muestra en los dot-plots: A mayor tamao menor numero de coincidencias.

258 /39

Tamao de palabra=1
Ruidoso Es dificil localizatr las zonas de similitud

259 /39

Tamao de palabra=2
Se ven las regiones candidatas Aunque se pierden algunas coincidencias

260 /39

Tamao de palabra=3
Sin rudo pero Apenas sin coincidencias

261 /39

BLAST
Aproximacin similar a la anterior basada en aparear fragmentos cortos que ir extendiendo para buscar alineamientos locales Utiliza un modelo estadstico para encontrar los mejores alineamientos entre la secuencia desconocida y la BD HSP: High-scoring Segment Pair
La unidad fundamental de trabajo con BLAST Corresponde a una regin de mxima similitud entre dos subsecuencias (palabras, W) con una puntuacin ms grande o igual a una puntuacin umbral, T

262 /39

BLAST: Algoritmo
1. 2. 3. Compilar todas las palabras de medida n que den una puntuacin superior al umbral (HSP) Comparar estas palabras con las de la BD para identificar las identidades exactas (hits) Extender las palabras que han superado el umbral, en las dos direcciones mirando de mejorar la puntuacin
La extensin acabar si baja la puntuacin por debajo de otro umbral, si llega a cero o si se acaba la secuencia

1.

Listar los segmentos extendidos de puntuacin ms alta

263 /39

Algoritmo de BLAST (1)

264 /39

Algoritmo de BLAST (2)

265 /39

Algoritmo de BLAST (3)

266 /39

5. Significacin de los resultados

267 /39

E-values, p-values y bit-scores


Dado que los programas de bsqueda heurstica tan slo encuentran coincidencias aproximadas conviene poder cuantificar cuan aproximadas son Esto se hace mediante distintos estadsticos
E-value P-value Bit-scores

268 /39

E-values
Dado un High Scoring Pair el E-value es el nmero esperado de puntuaciones iguales o superiores a las del HSP dado Un E-value de 10 para una coincidencia significa, que, en una base de datos del mismo tamao en la que se ha realizado la bsqueda, se podra esperar encontrar hasta 10 coincidencias con la misma puntuacin o similar, simplemente por azar El E- value es la medida de corte ms utilizada en las bsquedas en bases de datos. Slo se informa de las coincidencias que superan un nivel mnimo El E-value oscila entre 0 y cualquier valor

269 /39

P-values
Refleja la probabilidad de obtener por azar una puntuacin superior o igual a la observada Se relaciona con el E-value en que: P=1-e-E Un P-valor de 0.03 significa que hay una probabilidad (>=) 3% de encontrar una puntuacin superior a la observada simplemente por azar Si E<0,01 Los P-valores y los E-valores son similares Los p-valores oscilan entre 0 y 1

270 /39

Bit scores
El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamao de la base de datos y el sistema de puntuacin Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlas

271 /39

Score

E-Value
272 /39

< 0.05 < 1.00

273 /39

274 /39

Bases de datos

275 /39

Tipos de bases de datos


Primarias
Principales depsitos de informacin. Datos de secuencia o estructura. Pueden contener datos adicionales.

Derivadas
Preparadas a partir de primarias. Informacin adicional procesada manual o automticamente

276 /39

Bases de datos biolgicas


Primarias
Informacin suministrada por trabajo experimental La institucin receptora organiza la informacin pero no aade nada Ejemplo EMBL/GenBank

Derivadas
Anotadas a posteriori Los datos son revisados, corregidos y se aade informacin bibliogrfica Ejemplo SWISS-PROT Derivadas computacionalmente Ejemplo PFAM Combinaciones especficas

Molecular Database Collection 2006 update

277 /39

Principales Tipos de Bsqueda


Acceso directo a la base de datos
Normalmente se obtiene una informacin ms elaborada

Sistemas de bsqueda global


SRS, NCBI Entrez Automatizado, uniforme. Permite una visin global de la informacin (varias BD simultneamente)

Acceso programtico (bioXXX, servicios Web, taverna)

278 /39

Bases de datos de secuencia


Contienen todas las secuencias obtenidas experimentalmente
DNA genmico cDNA, RNA EST Proyectos genoma (HTS) Protena ...

279 /39

Origen de la informacin
Trabajo individual de investigacin
Produce informacin de gran calidad en cantidades muy limitadas

Secuenciaciones masivas: EST, HTS, proyectos genoma.


Producen mucha informacin de una calidad inferior, en algunos casos dudosa.

280 /39

Principales repositorios
DNA/RNA
(EMBL, Genbank, DDBJ), RefSeq

Protena
Uniprot (Swissprot/TrEMBL), PIR

281 /39

282 /39

283 /39

284 /39

TEXT
285 /39

286 /39

287 /39

288 /39

Anotaciones

Traduccin

http://www.expasy.org

289 /39

290 /39

Informacin cruzada
La mayora de archivos de bases de datos incluyen enlaces a otras bases de datos
Secuencia DNA Secuencia protena Secuencia Estructura 3D Secuencia Datos bibliogrficos ....

291 /39

292 /39

293 /39

294 /39

295 /39

Busqueda integrada. SRS

296 /39

297 /39

Bsqueda integrada. Entrez

http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html

298 /39

Acceso prog. Web Services


String Uniprot ID PDB ID getHeadersfromPDBId PDBText

StringtoAAS

getAASfromUniprot getAASfromPDBId getPDBFilefromPDBId

Input/output Service Output AAS: AminoAcidSeq

AAS

getAASfromPDBText

PDBText

runPSIBlastfromAAS BLASTText

runFSOLVfromPDBText

runPHDfromBlastText PHDText

runPMUTHSfromBlastText PMUTText FSOLVText


299 /39

Notas de prudencia
Las bases de datos pueden contener errores Distintas versiones (releases) pueden contener diferencias significativas Todos los grupos bioinformticos publican bases de datos, no existe control

300 /39

Вам также может понравиться