Академический Документы
Профессиональный Документы
Культура Документы
Bioinformática
COMPANY COMPANY
LOGO Clasificación de las especies LOGO
₪ Filogenética
Dominios y
2 Filogenia reinos
COMPANY COMPANY
Taxonomía LOGO Relación de objetos biológicos LOGO
COMPANY COMPANY
Filogenia LOGO Suposiciones LOGO
Una manera sistemática y objetiva de construir Suposiciones básicas detrás de los árboles
estos árboles es mediante la comparación de filogenéticos:
secuencias de ADN / proteína 1. Las secuencias actuales comparten un antepasado
común
En esta unidad, estudiamos árboles que 2. Todos fueron mutados del antepasado común
relacionan objetos que son suficientemente 3. Las mutaciones son raras. Por lo tanto, si el ADN de A y
diferentes B son más similares que A y C, así como B y C,
probablemente C se separó de A y B antes de su
Especies diferentes
separación
Diferentes cepas / poblaciones de una Antepasado común de A, B y C
especie Antepasado común de A y B
Tiempo
Nuestro objetivo es reconstruir las relaciones
evolutivas reales basadas en secuencias A B C
observables
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
1
19/12/2017
COMPANY COMPANY
Terminología LOGO Árboles enraizados y no enraizados LOGO
Un árbol es un gráfico acíclico A veces no está muy claro dónde debe ponerse
con nodos conectados por
bordes el antepasado común
Podemos tener un árbol sin raíz - un árbol sin
Longitud de la rama
Un árbol filogenético es un
árbol binario con secuencias
(nodos) conectadas por las
raíz
ramas (aristas)
Los nódulos foliares son las Raíz
secuencias observadas Un nodo
Los nodos internos son las hoja
secuencias ancestrales no
observadas
Las longitudes de rama Una rama
pueden representar
distancias evolutivas
Credito de la imagen: Hershberg et al., Genome Biology 8:R164 (2007) , http://www.jdrf.ca/
COMPANY COMPANY
Reconstrucción del árbol filogenético LOGO Datos LOGO
COMPANY COMPANY
Evolución de la secuencia del ADN LOGO Problema de la filogenética LOGO
U V W X Y
-3 mil yrs
AAGACTT AGGGCAT TAGCCCA TAGACTT TGCACAA TGCGCTT
-2 mil yrs
AAGGCCT TGGACTT
-1 mil yrs X
AGGGCAT TAGCCCT AGCACTT
U
Y
AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT hoy
V W
2
19/12/2017
COMPANY COMPANY
Análisis filogenético LOGO ¿Qué secuencia usar? LOGO
Paso 2: reconstruir árboles en los datos. (Esto Si queremos conocer la relación entre las
puede resultar en muchos árboles.) diferentes especies
Paso 3: Aplicar métodos de consenso al Genoma completo (puede no ser factible)
conjunto de árboles para averiguar cual es Algunos genes que son esenciales y copiado
confiable. solo
ARN ribosómico
COMPANY COMPANY
Complejidad del problema LOGO Complejidad del problema LOGO
árboles no enraizados, 3 3 1
3
19/12/2017
COMPANY COMPANY
El formato Newick LOGO Caracteres morfológicos LOGO
COMPANY COMPANY
Parsimonia LOGO Caracteres moleculares LOGO
Stripe barred
Spot plain tail
Stripe barred 1. Extract
Spot plain tail
No bump forehead bump No bump forehead bump
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
COMPANY COMPANY
Caracteres moleculares LOGO Caracteres moleculares LOGO
A A
A A
B B
B B
AG TC
C C Any mutations at
this time would affect
A, B and C because they
C have not yet diverged C
4
19/12/2017
COMPANY COMPANY
Caracteres moleculares LOGO Caracteres moleculares LOGO
Out Out
Out Out
A A
A A
B B
B B
AG TC AG TC
C C
AT AG AT AG
Any mutations at this time C C
would affect A and B Any mutations at this time would only affect C TC
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
COMPANY COMPANY
Caracteres moleculares LOGO Caracteres moleculares LOGO
COMPANY COMPANY
Genes diferentes, árboles diferentes LOGO Métodos basados en secuencias LOGO
Gene 1 Gene 2
Species A Species B Species C Species A Species B Species C
Incorrecto Correcto
Dado que los genes se heredan como una sola unidad, todos los nucleótidos en
un gen pueden apoyar la misma filogenia, y todavía no podría reflejar la verdadera
secuencia de especiación.
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
5
19/12/2017
COMPANY COMPANY
Máxima parsimonia LOGO Ejemplo máxima parsimonia LOGO
Asunción: Es probable que un árbol sea verdadero si implica pocas Entrada: Conjunto S de n secuencias alineadas de
mutaciones
Razón fundamental:
longitud k
Las mutaciones son raras Salida: Un árbol filogenético T
"Navaja de Occam": La explicación más sencilla es probablemente la correcta
Hoja-etiquetados por secuencias en S
NP duro: Actualmente no se conoce algoritmo de tiempo polinomial
Problema de "pequeña parsimonia":
Tal que H (i, j)
( i , j )E (T )
se minimice.
Dado un conjunto de secuencias y una topología arbórea arraigada de las
secuencias
Encuentra las secuencias ancestrales
De tal manera que el número total de mutaciones a lo largo de las ramas se
minimice
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
COMPANY COMPANY
Ejemplo máxima parsimonia LOGO Máxima parsimonia LOGO
ACT GTT
ACA GTA
ACA GTA
1 2 1
ACA GTA ACT GTT
ACA GTA
MP score = 4
1 2 1
ACT GTT
MP score = 4
Árbol óptimo de MP Encontrar el árbol MP óptimo es NP-duro
6
19/12/2017
COMPANY COMPANY
Gran vs. pequeña parsimonia LOGO Ejemplo pequeña parsimonía LOGO
árbol y el estado en todos los consejos, Para esta topología de árbol, el número mínimo
de mutaciones es 3. Hay tres conjuntos de
encontrar el número mínimo de cambios estados ancestrales que resultan en este número
de mutaciones, que se muestran en los tres
necesarios árboles a continuación
COMPANY COMPANY
Problema de la pequeña parsimonia LOGO Problema de la pequeña parsimonia LOGO
• Entrada:
¿Cómo asignar estados ancestrales para que el 2. Asignaciones de estado
1. Una topología de árbol:
número total de mutaciones se minimice? para todos las propuestas
Ideas: Para un nodo dado,
Human CACT
Chimp TACT
Bonobo AGCC
COMPANY COMPANY
El algoritmo: versión simple LOGO Un ejemplo LOGO
7
19/12/2017
COMPANY COMPANY
¿Por qué funciona? LOGO ¿Por qué funciona? LOGO
COMPANY COMPANY
El algoritmo: versión extendida LOGO Revisando el mismo ejemplo LOGO
2. Fase ascendente (igual que antes): Para cada nodo interno 𝑖, Fase ascendente
A,C G,T
i
if 𝑆𝑙 ∩ 𝑆𝑟 = // 𝑙 y 𝑟 no están de acuerdo: tomar ambos
conjuntos A C G T A A C G T A
𝑆𝑖 ≔ 𝑆𝑙 ∪ 𝑆𝑟 l r
else // 𝑙 y 𝑟 están de acuerdo en algo: tomarlo Fase descendente
(3 opciones)
𝑆𝑖 ≔ 𝑆𝑙 ∩ 𝑆𝑟
3. Fase descendente: Primero escoge 𝐶𝑟𝑜𝑜𝑡 de 𝑆𝑟𝑜𝑜𝑡 . Entonces
para cada otro nodo interno 𝑖 (estrategia diferente - voto
A A A
de la mayoría): elegiremos 𝐶𝑖 de los caracteres que existen
en el mayor número de conjuntos entre 𝐶𝑝 , 𝑆𝑙 y 𝑆𝑟 A A A
OR OR
Podemos probar que este algoritmo da todas las soluciones A G A T A A
óptimas
Un caso especial del algoritmo de programación dinámica de A C G T A A C G T A A C G T A
Sankoff
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
COMPANY COMPANY
Un ejemplo más complejo LOGO Múltiples sitios LOGO
A,C,G
A
A,G
G
A
G
A,G
G
G
A,G
G
independientemente
A
A,C A A
A,C A C
A,C A
A C A A G G A C A A G G A C A A G G
G
A,C,G G
A,C,G G
A,C,G
G G G
G
A,G G
A,G G
A,G
A
A,C A C
A,C A G
A,C A
A C A A G G A C A A G G A C A A G G
8
19/12/2017
• Mínimo: 1 sustitución por la posición 1, 1 sustitución por la posición 2 Hay muchos métodos propuestos para estas tareas
• Máxima parsimonia: 2 árboles que pueden alcanzar dicho mínimo
COMPANY COMPANY
Métodos basados en distancias LOGO Motivación LOGO
COMPANY COMPANY
UPGMA LOGO Ejemplo LOGO
E 8 4 8 8 0 E 8 4 8 0 D 6 8 0
2. Tratar cada secuencia como un grupo por sí mismo
A B C D E A C B D E A C B E D
3. Combinar los dos clusters más cercanos. La
2 2 2 2 2 2
distancia entre dos clusters es la distancia media
entre todas sus secuencias (excepto que 𝑑 𝐶𝑖 , 𝐶𝑗 = A,C,D B,E Nota: En este caso,
A,B,C,D,E El árbol es único
0: {A,C}, {D} A,C,D 0 8 {A,C,D}, {B,E} La suma de longitudes
A,B,C,D,E 0
1 B,E 8 0 de rama entre dos
𝑑 𝐶𝑖 , 𝐶𝑗 = 𝑑 𝑟, 𝑠 secuencias es igual a
su distancia
𝐶𝑖 𝐶𝑗 A C D B E A C D B E
𝑟∈𝐶𝑖 ,𝑠∈𝐶𝑗 Todas las hojas están
2 2 3 2 2 2 2 2 2 en la misma línea
4. Repita 2 y 3 hasta que solo queda un racimo 1 1
3 horizontal
2 ¿Siempre tenemos
1 estas propiedades?
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
9
19/12/2017
COMPANY COMPANY
Unicidad LOGO Longitudes de ramificación LOGO
A B C C
Aquí las longitudes de ramificación sólo
2 2 A B 3 reflejan las distancias de agrupación, no
2 1 las distancias de secuencia
1
COMPANY COMPANY
Distancias ultra-métricas LOGO Árboles aditivos LOGO
Árbol aditivo: Un árbol donde la longitud entre dos nodos es Cuando un árbol es aditivo, las longitudes de rama se pueden
la longitud total de las ramas entre ellos determinar resolviendo ecuaciones simultáneas
Por ejemplo, cuando la longitud representa el número de A B C
sustituciones observadas + no observadas A 0 4 6 A,B C
iv. 𝑑 𝑥, 𝑦 + 𝑑 𝑦, 𝑧 ≥ 𝑑 𝑥, 𝑧 C 4 8 0 6 8
True: i, ii, iii and iv
Para los árboles no aditivos, d(A,x) + d(B,x) = d(A,B) = 4
d(A,x) + d(x,y) + d(C,y) = d(A,C) = 6
(1)
(2)
D 6 8 6 0 8
A B C
aprenderemos cómo asignar d(B,x) + d(x,y) + d(C,y) = d(B,C) = 4 (3)
v. 𝑑 𝑥, 𝑦 ≤ 𝑚𝑎𝑥 𝑑 𝑥, 𝑧 , 𝑑 𝑦, 𝑧
distancias "razonables" por el
A 0 4 8 [(1) – (2) + (3)] / 2:
E 8 4 8 8 0
B 4 0 2 d(B,x) = 1
True: i, ii, iii, iv and v
C 8 2 0
vecino que se une d(A,x) = 3
d(x,y) + d(C,y) = 3 [e.g., d(x,y) = 1, d(C,y) = 2]
True: i, ii and iii
COMPANY COMPANY
Resumen LOGO Estudio de caso: Clasificaciones inesperadas LOGO
Los árboles filogenéticos captan los eventos de En los viejos tiempos, los biólogos clasificaban las
separación y cuando suceden especies en función de sus características de alto
Dos tipos principales de métodos de
nivel
reconstrucción de árboles: Si una especie posee características que hacen que
los organismos sean similares a los diferentes tipos
Basado en secuencias de especies, podría ser difícil clasificar
Máxima parsimonia Cuando las características moleculares (por ejemplo,
Máxima verosimilitud secuencias de ADN) están disponibles, pueden
usarse para clasificar las especies de una manera
Basado en la distancia sistemática
UPGMA Se encontró que algunas clasificaciones
Vecino uniéndose anteriores eran inconsistentes con la evidencia
molecular
10
19/12/2017
COMPANY COMPANY
Estudio de caso: Clasificaciones inesperadas LOGO Estudio de caso: Clasificaciones inesperadas LOGO
Ejemplo 1: Mamíferos
Ejemplo 2: Los tres dominios
Los murciélagos parecen pájaros, los delfines parecen peces, pero
ambos son mamíferos Todas las especies en la tierra
Reino: Animalia (animales) pertenecen a uno de los tres dominios
Superphylum: Deuterostomia Archaea Halobacteria sp. strain NRC-1, an archaaeon
Filo: Chordata Unicelular, sin núcleo
Subfilo: Vertebrata (animales con columna vertebral)
Infraphylum: Gnathostomata (vertebrados con mandíbula) Habitualmente viven en lugares
Clase: Chondrichthyes (peces cartilaginosos) con condiciones extremas (p.
Superclase: Osteichthyes (peces óseos) Ej., Temperatura alta o
Superclase: Tetrapoda (vertebrados de cuatro salinidad - "extremófilos")
extremidades) Escherichia coli, a beacterium
Bacterias
Clase: Aves (aves)
Clase Mammalia (mamíferos) Unicelular, sin núcleo
Eukaryote
Muchos son multi-celulares, con
núcleo
COMPANY COMPANY
Estudio de caso: Clasificaciones inesperadas LOGO Un ejemplo: alineaciones por pares LOGO
Número de
nucleotidos
diferentes
Distancias
absolutas, usada 0,107 / 2
en Pileup/ Clustal
Distancia - JC
JC-distances = Jukes-Cantor distances. The observed distances, D, are corrected
for multiple substitutions via correction function –(3/4)*ln(1-(4/3)D)
11
19/12/2017
COMPANY COMPANY
UPGMA, actualizar distancia LOGO UPGMA LOGO
COMPANY COMPANY
UPGMA LOGO UPGMA LOGO
COMPANY COMPANY
UPGMA LOGO Filogenética LOGO
That’s it!
0.7083 / 2
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
12