Bioinformatica

19/12/2017
Bioinformática
COMPANY COMPANY
LOGO Clasificación de las especies LOGO
₪ Filogenética
1 Clasificación de las especies
Dominios y
2 Filogenia reinos
3 Complejidad del problema
4 Métodos basados en secuencias
5 Métodos basados en distancias El reino animal

Credito de la imagen: Wikipedia, http://ridge.icu.ac.jp/gen-ed/classif-gifs/animal-class-example.gif
D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.
COMPANY COMPANY
Taxonomía LOGO Relación de objetos biológicos LOGO
 ¿Cómo se determinaron las

jerarquías?
 Especie:
tradicionalmente por
similitudes morfológicas
y de comportamiento, o
evidencias
paleontológicas
 Cepas bacterianas: por
propiedades físicas,
químicas y biológicas
 Pregunta: ¿Qué
características se deben
Credito de la imagen : Wikipedia, http://www2.estrellamountain.edu/faculty/farabee/biobk/BioBookDivers_class.html
utilizar primero?
COMPANY COMPANY
Filogenia LOGO Suposiciones LOGO
 Una manera sistemática y objetiva de construir  Suposiciones básicas detrás de los árboles
estos árboles es mediante la comparación de filogenéticos:
secuencias de ADN / proteína 1. Las secuencias actuales comparten un antepasado
común
 En esta unidad, estudiamos árboles que 2. Todos fueron mutados del antepasado común
relacionan objetos que son suficientemente 3. Las mutaciones son raras. Por lo tanto, si el ADN de A y
diferentes B son más similares que A y C, así como B y C,
probablemente C se separó de A y B antes de su
 Especies diferentes
separación
 Diferentes cepas / poblaciones de una Antepasado común de A, B y C
especie Antepasado común de A y B
Tiempo
 Nuestro objetivo es reconstruir las relaciones
evolutivas reales basadas en secuencias A B C
observables
1
19/12/2017
COMPANY COMPANY
Terminología LOGO Árboles enraizados y no enraizados LOGO
 Un árbol es un gráfico acíclico  A veces no está muy claro dónde debe ponerse
con nodos conectados por
bordes el antepasado común
 Podemos tener un árbol sin raíz - un árbol sin
Longitud de la rama
 Un árbol filogenético es un
árbol binario con secuencias
(nodos) conectadas por las
raíz
ramas (aristas)
 Los nódulos foliares son las Raíz
secuencias observadas Un nodo
 Los nodos internos son las hoja
secuencias ancestrales no
observadas
 Las longitudes de rama Una rama
pueden representar
distancias evolutivas
Credito de la imagen: Hershberg et al., Genome Biology 8:R164 (2007) , http://www.jdrf.ca/
COMPANY COMPANY
Reconstrucción del árbol filogenético LOGO Datos LOGO
 Problema general:  Secuencias biomoleculares: ADN, ARN, aminoácido, en

 Dado un conjunto de secuencias de ADN / proteína una alineación múltiple
 Encuentre un árbol filogenético tal que probablemente  Los marcadores moleculares (por ejemplo, SNPs, RFLP,
corresponda a los eventos evolutivos históricos actuales, etc.)
involucrando:
 Orden de eventos de separación (cómo están conectados
 Morfología
los nodos)  Orden y contenido del gen
 Secuencias ancestrales (qué secuencias tienen los nodos
internos)
 Estos son "datos de caracteres": cada carácter es una
 Longitudes de rama (cuánto tiempo ha pasado desde la
separación)
función que asigna el conjunto de taxones a estados
 Hay varias maneras de evaluar la probabilidad de que un
distintos (clases de equivalencia), con la evolución
árbol sea correcto. Los estudiaremos en este capitulo. modelada como un proceso que cambia el estado de un
 "Re" -construcción: El árbol fue definido por la historia. Sólo carácter
intentamos reconstruirlo a partir de las secuencias observadas
COMPANY COMPANY
Evolución de la secuencia del ADN LOGO Problema de la filogenética LOGO
U V W X Y
-3 mil yrs
AAGACTT AGGGCAT TAGCCCA TAGACTT TGCACAA TGCGCTT
-2 mil yrs
AAGGCCT TGGACTT
-1 mil yrs X
AGGGCAT TAGCCCT AGCACTT
U
Y
AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT hoy
V W
2
19/12/2017
COMPANY COMPANY
Análisis filogenético LOGO ¿Qué secuencia usar? LOGO
 Si estamos estudiando un gen

 Paso 1: Recopilar datos de secuencia, y estimar
la alineación múltiple de las secuencias.  Secuencia de ADN / proteína del gen
 Paso 2: reconstruir árboles en los datos. (Esto  Si queremos conocer la relación entre las
puede resultar en muchos árboles.) diferentes especies
 Paso 3: Aplicar métodos de consenso al  Genoma completo (puede no ser factible)
conjunto de árboles para averiguar cual es  Algunos genes que son esenciales y copiado
confiable. solo
 ARN ribosómico
COMPANY COMPANY
Complejidad del problema LOGO Complejidad del problema LOGO
k Num. of rooted tree topologies Num. of unrooted tree topologies

 De manera similar, para los
 Encontrar el "mejor" árbol es un problema difícil 2 1 1
árboles no enraizados, 3 3 1
 ¿Cuántas topologías de árbol (es decir, ignorar las longitudes de 4 15 3
 K = 2: 1 posible topología de árbol 5 105 15

rama y el orden de izquierda a derecha) existen para un conjunto 6 945 105
 K = 3: 1 rama posible para 7 10,395 945
de k secuencias?
agregar # 3 8
9
135,135
2,027,025
10,395
135,135
 Para árboles enraizados: k Num. of rooted tree topologies  K = 4: 3 ramas posibles para 10 34,459,425 2,027,025
11 654,729,075 34,459,425
 K = 2: 1 posible topología de árbol 2 1
agregar # 4 12 13,749,310,575 654,729,075
3 3
 K = 3: 3 posibles ramas para agregar # 3 4 15
 K = 5: 5 posibles ramas para
13 316,234,143,225 13,749,310,575
5 105 14 7,905,853,580,625 316,234,143,225
 K = 4: 5 posibles ramas para añadir # 4, 6 945 agregar # 5 15 213,458,046,676,875 7,905,853,580,625
16 6,190,283,353,629,370 213,458,046,676,875
y así sucesivamente 7 10,395
 Aquí el número de topologías de 17 191,898,783,962,511,000 6,190,283,353,629,370
8 135,135
 Por lo tanto, el número de topologías de árbol es? 9 2,027,025 árbol es? 18
19
6,332,659,870,762,850,000
221,643,095,476,700,000,000
191,898,783,962,511,000
6,332,659,870,762,850,000
10 34,459,425
1 × 3 × 5 × ⋯ × 2𝑘 − 3 1 × 3 × 5 × ⋯ × 2𝑘 − 5 20 8,200,794,532,637,890,000,000 221,643,095,476,700,000,000
11 654,729,075
 Exponencial 12 13,749,310,575
13 316,234,143,225 1 1 1 4 1 1 4
14 7,905,853,580,625
15 213,458,046,676,875
16 6,190,283,353,629,370 3 3 3 3
17 191,898,783,962,511,000
18 6,332,659,870,762,850,000
19 221,643,095,476,700,000,000 2 2 2 2 4 2
1 2 1 2 3 1 3 2 1 3 2 20 8,200,794,532,637,890,000,000
COMPANY Métodos de reconstrucción de árboles COMPANY

Solucionar el problema: Ideas LOGO
filogenéticos LOGO
 ¿Qué haces cuando te encuentras con un  Dos tipos principales de métodos:

problema computacionalmente difícil?  Basado en secuencias: necesita las secuencias
Métodos parsimónicos (problemas más fáciles, algoritmos
 Definir una versión más fácil del problema

inteligentes)
 Haciendo ciertas suposiciones  Métodos probabilísticos (problemas más fáciles,
 Diseñar algoritmos inteligentes / algoritmos inteligentes)
estructuras de datos para evitar cálculos  Máxima verosimilitud
Bayesiano
redundantes 
 ...
 Utilice la heurística para resolverlo, no  Distancia: sólo depende de las distancias
necesariamente obteniendo la solución óptica  UPGMA (heurística)
 Neighbor joining (heurística)
 ...
 Vamos a estudiar algunos de estos algoritmos
3
19/12/2017
COMPANY COMPANY
El formato Newick LOGO Caracteres morfológicos LOGO
Construir una matriz de caracteres

 Utilice paréntesis y coma para agrupar dos sub-árboles
Supongamos que queremos conocer la filogenia de los cíclidos A, B, C
 Utilice dos puntos para indicar la distancia al padre usando un Outgroup
 Termina con un punto y coma Primero, necesitamos caracteres que sean variables dentro de este grupo
Character: Pattern Caudal Caudal Forehead
Pattern Shape Bulge?
Representación gráfica: Newick: Out
1.00 Striped Spot Round No

Galago A
((((Homo:0.21,Pongo:0.21):0.28, Synapomorphies
0.62 Macaca:0.49):0.13,Ateles:0.62):
Ateles Barred None Forked No
0.38,Galago:1.00);
0.49
0.38
Macaca B
0.21 Barred None Forked No
0.13 Pongo
C
0.28 Homo Apomorphy
0.21 Barred None Round Yes
Credito de la imagen: http://www.zoology.ubc.ca/~schluter/zoo502stats/Rtips.phylogeny.html
COMPANY COMPANY
Parsimonia LOGO Caracteres moleculares LOGO
¿Cómo decidimos la "mejor" filogenia? Outgroup AAGCTTCATAGGAGCAACCATTCTAATAATAAGCCTCATAAAGCC

Species A 3. Align
Parsimonia - se prefiere la explicación más simple (navaja de Occam) Species B
AAGCTTCACCGGCGCAGTTATCCTCATAATATGCCTCATAATGCC
GTGCTTCACCGACGCAGTTGTCCTCATAATGTGCCTCACTATGCC
Un ejemplo trivial (mucho más complicado con conjuntos de datos Species C GTGCTTCACCGACGCAGTTGCCCTCATGATGAGCCTCACTATGCA
reales)
Most parsimonious:
Requires 5 steps Requires only 4 steps
Round  forked tail
Round  forked tail 2. Sequence

Round  forked tail
Stripe  barred
Spot  plain tail
Stripe  barred 1. Extract
Spot  plain tail
No bump  forehead bump No bump  forehead bump
COMPANY COMPANY
Caracteres moleculares LOGO Caracteres moleculares LOGO
Outgroup AAGCTTCATA Sitios invariables Outgroup AAGCTTCATA Sinapomorfias

soportando A + B + C
Species A GAGCTTCACA Estos no son caracteres Species A GAGCTTCACA
Species B GTGCTTCACG Filogenéticos útiles Species B GTGCTTCACG
Species C GTGCTTCACG Species C GTGCTTCACG
Out Out
Out Out
A A
A A
B B
B B
AG TC
C C Any mutations at
this time would affect
A, B and C because they
C have not yet diverged C
4
19/12/2017
COMPANY COMPANY
Outgroup AAGCTTCATA Sinapomorfias Outgroup AAGCTTCATA Sinapomorfias

soportando A + B + C soportando A + B + C
Species A GAGCTTCACA Species A GAGCTTCACA
Sinapomorfias Sinapomorfias
Species B GTGCTTCACG soportando B + C Species B GTGCTTCACG soportando B + C
Species C GTGCCTCACG Species C GTGCCTCACG Apomorfia para C
Out Out
Out Out
A A
A A
B B
B B
AG TC AG TC
C C
AT AG AT AG
Any mutations at this time C C
would affect A and B Any mutations at this time would only affect C TC
COMPANY COMPANY
La homoplasia sigue siendo un problema La homoplasia sigue siendo un problema

Sólo hay 4 posibles estados de caracteres para los nucleótidos: Sólo hay 4 posibles estados de caracteres para los nucleótidos:
A G C T A G C T
La homoplasia surge cuando el nucleótido muta de vuelta al La homoplasia surge cuando el nucleótido muta de vuelta al
estado ancestral: ATA estado ancestral: ATA
Out Out
AAGCTTCATA AAGCTTCATA
GAGCTTCACA GAGCTTCACA CA
GTGCTTCACG GTGCTTCACG A
A
GTGCTTCACG GTGCTTCACG AAGCTTCATA
AAGCTTCATA B
GAGCTTCACA B GAGCTTCACA
GTGCTTCACG AAGCTTCATA La homoplasia
GTGCTTCACG AAGCTTCATA
AG TC AG TC GTGCTTCACG también puede
GTGCTTCACG GAGCTTCACA GAGCTTAACA
reflejar mutaciones
GTGCTTCACG GTGCTTCACG convergentes
GAGCTTCACG GAGCTTAACG
AT AG AT AG
La mutación posterior C La mutación posterior C
"borra" la sinapomorfia TA "borra" la sinapomorfia TA CA
y produce homoplasia y produce homoplasia
COMPANY COMPANY
Genes diferentes, árboles diferentes LOGO Métodos basados en secuencias LOGO
Gene 1 Gene 2
Species A Species B Species C Species A Species B Species C
Red and blue

indicate different
alleles for a particular
gene (gene 1 or 2)
Máxima parsimonia
A B C A B C
Incorrecto Correcto
Dado que los genes se heredan como una sola unidad, todos los nucleótidos en
un gen pueden apoyar la misma filogenia, y todavía no podría reflejar la verdadera
secuencia de especiación.
5
19/12/2017
COMPANY COMPANY
Máxima parsimonia LOGO Ejemplo máxima parsimonia LOGO
 Asunción: Es probable que un árbol sea verdadero si implica pocas  Entrada: Conjunto S de n secuencias alineadas de
mutaciones
 Razón fundamental:
longitud k
 Las mutaciones son raras  Salida: Un árbol filogenético T
"Navaja de Occam": La explicación más sencilla es probablemente la correcta
 Hoja-etiquetados por secuencias en S

 Problema de "gran parsimonia":

 Dado un conjunto de secuencias  Secuencias adicionales de longitud k
 Encuentre una topología de árbol arraigada de las secuencias y las secuencias
ancestrales del árbol etiquetando los nodos internos de T
 De tal manera que el número total de mutaciones a lo largo de las ramas se
minimice

 NP duro: Actualmente no se conoce algoritmo de tiempo polinomial
Problema de "pequeña parsimonia":
Tal que  H (i, j)
( i , j )E (T )
se minimice.
 Dado un conjunto de secuencias y una topología arbórea arraigada de las
secuencias
 Encuentra las secuencias ancestrales
 De tal manera que el número total de mutaciones a lo largo de las ramas se
minimice
COMPANY COMPANY
Ejemplo máxima parsimonia LOGO Máxima parsimonia LOGO
 Entrada: Cuatro secuencias

– ACT
ACT GTA ACA ACT
– ACA
GTT ACA GTT GTA
– GTT
– GTA
 Pregunta: Pregunta: ¿cuál de los tres árboles
tiene los mejores puntajes de MP?
ACA GTA
ACT GTT
COMPANY Máxima parsimonia: COMPANY

Máxima parsimonia (MP) LOGO
complejidad computacional LOGO
ACT GTA ACA ACT

2 GTT GTA ACA ACT
1 1 El etiquetado óptimo se puede
GTT 2 ACA GTT 3 3
GTA calcular en tiempo lineal 𝒪(𝑛𝑘)
MP score = 5 MP score = 7
ACA GTA
ACA GTA
1 2 1
ACA GTA ACT GTT
ACA GTA
MP score = 4
1 2 1
ACT GTT
MP score = 4
Árbol óptimo de MP Encontrar el árbol MP óptimo es NP-duro
6
19/12/2017
COMPANY COMPANY
Gran vs. pequeña parsimonia LOGO Ejemplo pequeña parsimonía LOGO
 Consideraremos un único sitio

 Dividimos el problema de encontrar el árbol  Al suponer que los sitios son independientes, sólo
más parsimonioso en dos sub-problemas: necesitamos un algoritmo para un sitio G
 Mostrará un ejemplo con más sitios más tarde GC G
 Parsimonia grande: Encuentra la topología  En el árbol superior de la derecha, el número de GA
que da la mejor puntuación mutaciones es de 4 C G
CA GT
 ¿Es el mínimo (es decir, la solución más A C G T A
 Pequeña parsimonia: Dada una topología de parsimoniosa)?
árbol y el estado en todos los consejos,  Para esta topología de árbol, el número mínimo
de mutaciones es 3. Hay tres conjuntos de
encontrar el número mínimo de cambios estados ancestrales que resultan en este número
de mutaciones, que se muestran en los tres
necesarios árboles a continuación
 Gran parsimonia es "NP-duro" A A A
 La pequeña parsimonia se puede resolver AG

A
AT
A A
rápidamente usando el algoritmo de Fitch A

AC
G
GT
A
AC TG
T A
AC AG AT
A
A C G T A A C G T A A C G T A
COMPANY COMPANY
Problema de la pequeña parsimonia LOGO Problema de la pequeña parsimonia LOGO
• Entrada:
 ¿Cómo asignar estados ancestrales para que el 2. Asignaciones de estado
1. Una topología de árbol:
número total de mutaciones se minimice? para todos las propuestas
 Ideas: Para un nodo dado,
Human CACT
Chimp TACT
Bonobo AGCC
 Si ambos hijos tienen el mismo estado, Gorilla

Gibbon
AGCA
GACT
probablemente sea bueno adoptar el estado

human chimp gibbon lemur gorilla bonobo Lemur T AGT
 Si los dos hijos tienen diferentes estados,

probablemente bueno adoptar uno de ellos
 Retrasar la decisión de la elección exacta
hasta que el padre también haya expresado
human chimp gibbon lemur gorilla bonobo
C T G T A A
• Salida:
una preferencia El número mínimo de cambios requeridos: puntuación de parsimonia
(Pero de hecho, también encontraremos la asignación más parsimoniosa para
todos los nodos internos)
COMPANY COMPANY
El algoritmo: versión simple LOGO Un ejemplo LOGO
Algoritmo de Fitch: Si solo necesita algunas soluciones p

 Para cada nodo interno 𝑖 con el padre 𝑝 y los hijos 𝑙 y 𝑟, A
i
determinaremos su preferencia 𝑆𝑖 y su carácter final 𝐶𝑖 que
minimizarían el número total de mutaciones A,G,T
 Pasos: l r Fase ascendente

A,C G,T
1. Para cada nodo hoja 𝑖, fije 𝑆𝑖 en el carácter de la secuencia
2. Fase ascendente: Para cada nodo interno 𝑖, recorrer el árbol desde A C G T A A C G T A
las hojas hacia la raíz (“post-orden”)
if 𝑆𝑙 ∩ 𝑆𝑟 = // 𝑙 y 𝑟 no están de acuerdo: tomar ambos conjuntos Fase descendente
𝑆𝑖 ≔ 𝑆𝑙 ∪ 𝑆𝑟 (2 opciones)
else // 𝑙 y 𝑟 están de acuerdo en algo: ¿tomarlo?

𝑆𝑖 ≔ 𝑆𝑙 ∩ 𝑆𝑟
3. Fase descendente: Escoja primero cualquier 𝐶𝑟𝑜𝑜𝑡 de 𝑆𝑟𝑜𝑜𝑡 . Entonces A A
para cada otro nodo interno 𝑖, recorrer el árbol desde la raíz hacia las
hojas (“pre-orden”) A
A,G,T
O A
4. Si 𝐶𝑝 ∈ 𝑆𝑖 // 𝑝 coincide con 𝑖 en algo: tomarlo
A
A,C G
G,T A T
𝐶𝑖 ≔ 𝐶𝑝
else // 𝑝 no está de acuerdo con 𝑖: use las propias preferencias de 𝑖 A C G T A A C G T A
𝐶𝑖 ≔ elegir uno de 𝑆𝑖
7
19/12/2017
COMPANY COMPANY
¿Por qué funciona? LOGO ¿Por qué funciona? LOGO
Prueba por inducción  Supongamos que el algoritmo es capaz de

 Cuando sólo hay dos hojas, hay dos casos: minimizar el número de mutaciones para k o
menos hojas
 Tienen el mismo carácter
 Ahora para un árbol con k + 1 hojas,
 Número mínimo real de mutaciones: 0
 Consiste en una raíz conectada a dos raíz
 El algoritmo da el mismo número
sub-árboles con raíces l y r, ambos con
 Tienen diferentes caracteres k o menos hojas
𝑙 𝑟
 Número mínimo real de mutaciones: 1 A
 Dos casos:
 El algoritmo da el mismo número A A A A  Si 𝑆𝑙 ∩ 𝑆𝑟 ≠ , el algoritmo da una ... ... ... ...
solución con 𝑚𝑙 + 𝑚𝑟 mutaciones, que es Número Número
A óptima debido a la hipótesis de mínimo de mínimo de
inducción mutaciones: mutaciones:
A C A C ml mr
 Si 𝑆𝑙 ∩ 𝑆𝑟 = , el algoritmo da una
solución con mutaciones 𝑚𝑙 + 𝑚𝑟 + 1, lo
C cual es también óptimo ya que se debe
A C introducir una mutación extra entre la
raíz y uno de sus hijos
COMPANY COMPANY
El algoritmo: versión extendida LOGO Revisando el mismo ejemplo LOGO
Si necesita todas las soluciones

A
 Pasos:
1. Para cada nodo hoja 𝑖, fije 𝑆𝑖 en el carácter de la secuencia p
A,G,T
2. Fase ascendente (igual que antes): Para cada nodo interno 𝑖, Fase ascendente
A,C G,T
i
if 𝑆𝑙 ∩ 𝑆𝑟 = // 𝑙 y 𝑟 no están de acuerdo: tomar ambos
conjuntos A C G T A A C G T A
𝑆𝑖 ≔ 𝑆𝑙 ∪ 𝑆𝑟 l r
else // 𝑙 y 𝑟 están de acuerdo en algo: tomarlo Fase descendente
(3 opciones)
𝑆𝑖 ≔ 𝑆𝑙 ∩ 𝑆𝑟
3. Fase descendente: Primero escoge 𝐶𝑟𝑜𝑜𝑡 de 𝑆𝑟𝑜𝑜𝑡 . Entonces
para cada otro nodo interno 𝑖 (estrategia diferente - voto
A A A
de la mayoría): elegiremos 𝐶𝑖 de los caracteres que existen
en el mayor número de conjuntos entre 𝐶𝑝 , 𝑆𝑙 y 𝑆𝑟 A A A
OR OR
 Podemos probar que este algoritmo da todas las soluciones A G A T A A
óptimas
 Un caso especial del algoritmo de programación dinámica de A C G T A A C G T A A C G T A
Sankoff
COMPANY COMPANY
Un ejemplo más complejo LOGO Múltiples sitios LOGO
A,C,G
G  En una situación real, necesitamos tratar

Fase ascendente A,G
secuencias que contienen más de un sitio
A,C A
A C A A G G A C A A G G  Simplemente aplicamos el algoritmo anterior a
Fase descendente
(6 opciones)
los diferentes sitios de forma independiente
A
A,C,G A
A,C,G C
A,C,G  Como suponemos que diferentes sitios mutan
A
A,G
G
A
G
A,G
G
G
A,G
G
independientemente
A
A,C A A
A,C A C
A,C A
A C A A G G A C A A G G A C A A G G
G
A,C,G G
A,C,G G
A,C,G
G G G
G
A,G G
A,G G
A,G
A
A,C A C
A,C A G
A,C A
A C A A G G A C A A G G A C A A G G
8
19/12/2017
COMPANY De la parsimonia pequeña a la parsimonia COMPANY

Ejemplo LOGO LOGO
grande
[G][C,T]
 Algunos métodos heurísticos intentan
Fase ascendente [A,G][C] diferentes topologías de árbol. Para cada uno,
resuelva el pequeño problema de parsimonia. A
AC GC GT AC GC GT
continuación, comparar y encontrar el mejor.
Fase descendente  Un "problema de búsqueda" estándar en IA
 Necesita maneras de:
GC
[G][C,T] GT
[G][C,T]
 Determinar los primeros árboles
GC
[A,G][C] O GC
[A,G][C]  Determinar los árboles siguientes basados en el
árbol actual
AC GC GT AC GC GT
 Evite el atrapamiento en un óptimo local
• Mínimo: 1 sustitución por la posición 1, 1 sustitución por la posición 2  Hay muchos métodos propuestos para estas tareas
• Máxima parsimonia: 2 árboles que pueden alcanzar dicho mínimo
COMPANY COMPANY
Métodos basados en distancias LOGO Motivación LOGO
 En los algoritmos basados en secuencias anteriores, las

secuencias exactas se utilizan cuando se reconstruyen
los árboles filogenéticos
 En un método basado en secuencias, sólo las distancias
pares entre las secuencias se consideran
UPGMA  Bueno si las secuencias son largas, y nos

preocupamos sólo de la estructura del árbol, pero no
de las secuencias ancestrales
 Las distancias pueden calcularse mediante métodos
basados en la alineación de secuencias
 Una vez calculadas las distancias pairwise, no se
utilizarán las secuencias originales.
COMPANY COMPANY
UPGMA LOGO Ejemplo LOGO
Nota: Aquí las etiquetas de

 Método del grupo de pares no ponderado con media A B C D E nodo son nombres de secuencia,
no los caracteres/bases reales
aritmética A 0 8 4 6 8 A,C B D E
A,C B,E D
B 8 0 8 8 4 A,C 0 8 6 8
 Algoritmo: C 4 8 0 6 8 {A},{C} B 8 0 8 4 A,C 0 8 6
{B},{E}
1. Calcular la distancia entre cada par de secuencias D 6 8 6 0 8 D 6 8 0 8 B,E 8 0 8
E 8 4 8 8 0 E 8 4 8 0 D 6 8 0
2. Tratar cada secuencia como un grupo por sí mismo
A B C D E A C B D E A C B E D
3. Combinar los dos clusters más cercanos. La
2 2 2 2 2 2
distancia entre dos clusters es la distancia media
entre todas sus secuencias (excepto que 𝑑 𝐶𝑖 , 𝐶𝑗 = A,C,D B,E Nota: En este caso,
A,B,C,D,E  El árbol es único
0: {A,C}, {D} A,C,D 0 8 {A,C,D}, {B,E}  La suma de longitudes
A,B,C,D,E 0
1 B,E 8 0 de rama entre dos
𝑑 𝐶𝑖 , 𝐶𝑗 = ෍ 𝑑 𝑟, 𝑠 secuencias es igual a
su distancia
𝐶𝑖 𝐶𝑗 A C D B E A C D B E
𝑟∈𝐶𝑖 ,𝑠∈𝐶𝑗  Todas las hojas están
2 2 3 2 2 2 2 2 2 en la misma línea
4. Repita 2 y 3 hasta que solo queda un racimo 1 1
3 horizontal
2  ¿Siempre tenemos
1 estas propiedades?
9
19/12/2017
COMPANY COMPANY
Unicidad LOGO Longitudes de ramificación LOGO
 No siempre único, también no siempre es  No siempre es posible asignar longitudes de

posible poner todos los nodos de hoja en una ramificación de acuerdo a las distancias:
línea: A B C
A
3 B C A B C
2 2 1 2 A 0 4 8 A B,C
1
B 4 0 2 {B},{C} A 0 6 A,B,C
A,B C {A},{B,C}
C 8 2 0 B,C 6 0 A,B,C 0
A,B 0 5 A,B,C
A B C
{A},{B} C 5 0 {A,B},{C} A,B,C 0 A B C A B C B C
A 0 4 6
1 1 A 1 1
B 4 0 4
A B,C A,B,C
C 6 4 0 {B},{C} {A},{B,C}
A 0 5 A,B,C 0 3 3
A B C B,C 5 0
A B C C
Aquí las longitudes de ramificación sólo
2 2 A B 3 reflejan las distancias de agrupación, no
2 1 las distancias de secuencia
1
COMPANY COMPANY
Distancias ultra-métricas LOGO Árboles aditivos LOGO
 Árbol aditivo: Un árbol donde la longitud entre dos nodos es  Cuando un árbol es aditivo, las longitudes de rama se pueden
la longitud total de las ramas entre ellos determinar resolviendo ecuaciones simultáneas
 Por ejemplo, cuando la longitud representa el número de A B C
sustituciones observadas + no observadas A 0 4 6 A,B C
Podemos obtener un árbol aditivo y con todos los nodos hoja

B 4 0 4 A,B 0 5 A,B,C

{A},{B} {A,B},{C}
en la misma línea si las distancias pairwise son ultrametric,
C 6 4 0 C 5 0 A,B,C 0
es decir, para cualquier secuencia x, yyz, A B C A B C A B C

A
3 B C
i. 𝑑 𝑥, 𝑦 ≥ 0 A 0 4 6 2 2 1 2
A B C D E x
1 y
ii. 𝑑 𝑥, 𝑦 = 0 𝑠𝑖 𝑥 = 𝑦 A 0 8 4 6 8
B 4 0 4
C 6 4 0
iii. 𝑑 𝑥, 𝑦 = 𝑑 𝑦, 𝑥 B 8 0 8 8 4
iv. 𝑑 𝑥, 𝑦 + 𝑑 𝑦, 𝑧 ≥ 𝑑 𝑥, 𝑧 C 4 8 0 6 8
True: i, ii, iii and iv
 Para los árboles no aditivos, d(A,x) + d(B,x) = d(A,B) = 4
d(A,x) + d(x,y) + d(C,y) = d(A,C) = 6
(1)
(2)
D 6 8 6 0 8
A B C
aprenderemos cómo asignar d(B,x) + d(x,y) + d(C,y) = d(B,C) = 4 (3)
v. 𝑑 𝑥, 𝑦 ≤ 𝑚𝑎𝑥 𝑑 𝑥, 𝑧 , 𝑑 𝑦, 𝑧
distancias "razonables" por el
A 0 4 8 [(1) – (2) + (3)] / 2:
E 8 4 8 8 0
B 4 0 2 d(B,x) = 1
True: i, ii, iii, iv and v
C 8 2 0
vecino que se une d(A,x) = 3
d(x,y) + d(C,y) = 3 [e.g., d(x,y) = 1, d(C,y) = 2]
True: i, ii and iii
COMPANY COMPANY
Resumen LOGO Estudio de caso: Clasificaciones inesperadas LOGO
 Los árboles filogenéticos captan los eventos de  En los viejos tiempos, los biólogos clasificaban las
separación y cuando suceden especies en función de sus características de alto
 Dos tipos principales de métodos de
nivel
reconstrucción de árboles:  Si una especie posee características que hacen que
los organismos sean similares a los diferentes tipos
 Basado en secuencias de especies, podría ser difícil clasificar
 Máxima parsimonia  Cuando las características moleculares (por ejemplo,
 Máxima verosimilitud secuencias de ADN) están disponibles, pueden
usarse para clasificar las especies de una manera
 Basado en la distancia sistemática
 UPGMA  Se encontró que algunas clasificaciones
 Vecino uniéndose anteriores eran inconsistentes con la evidencia
molecular
10
19/12/2017
COMPANY COMPANY
Estudio de caso: Clasificaciones inesperadas LOGO Estudio de caso: Clasificaciones inesperadas LOGO
 Ejemplo 1: Mamíferos
 Ejemplo 2: Los tres dominios
 Los murciélagos parecen pájaros, los delfines parecen peces, pero
ambos son mamíferos  Todas las especies en la tierra
 Reino: Animalia (animales) pertenecen a uno de los tres dominios
Superphylum: Deuterostomia  Archaea Halobacteria sp. strain NRC-1, an archaaeon
Filo: Chordata  Unicelular, sin núcleo
Subfilo: Vertebrata (animales con columna vertebral)
Infraphylum: Gnathostomata (vertebrados con mandíbula)  Habitualmente viven en lugares
Clase: Chondrichthyes (peces cartilaginosos) con condiciones extremas (p.
Superclase: Osteichthyes (peces óseos) Ej., Temperatura alta o
Superclase: Tetrapoda (vertebrados de cuatro salinidad - "extremófilos")
extremidades) Escherichia coli, a beacterium
 Bacterias
Clase: Aves (aves)
Clase Mammalia (mamíferos)  Unicelular, sin núcleo
 Eukaryote
 Muchos son multi-celulares, con
núcleo
Various eukaryotic species
COMPANY COMPANY
Estudio de caso: Clasificaciones inesperadas LOGO Un ejemplo: alineaciones por pares LOGO
 Parece razonable asumir que los eucariotas se

separaron de los otros dos primeros
 Sin embargo, en base a la secuencia de ARNs
ribosómicos, algo tan importante que evoluciona
lentamente, las arqueas están más cerca de los
eucariotas que las bacterias
Distancia por pares, basado en el COMPANY UPGMA basado en distancia – JC COMPANY

LOGO (Jukes Cantor Distances) LOGO
alineamiento por pares
Número de
nucleotidos
diferentes
Distancias
absolutas, usada 0,107 / 2
en Pileup/ Clustal
Distancia - JC
JC-distances = Jukes-Cantor distances. The observed distances, D, are corrected
for multiple substitutions via correction function –(3/4)*ln(1-(4/3)D)
11
19/12/2017
COMPANY COMPANY
UPGMA, actualizar distancia LOGO UPGMA LOGO
d(human,chimp),gorilla = [d(human, gorilla) + d(chimp, gorilla)] / 2 =

[0,383 + 0,232] / 2 = 0,3075
COMPANY COMPANY
UPGMA LOGO UPGMA LOGO
d(human & chimp),U =

0,3923/2 = 0,1962
0,1962 - 0,0537 = 0,1426
U 0,1962 - 0,116 = 0,080
d(gorilla & orangutan),U

= 0,3923/2 = 0,1962
COMPANY COMPANY
UPGMA LOGO Filogenética LOGO
0,3541 - 0,1426 - 0,0537

or
0,3541 - 0,080 - 0,116
That’s it!
0.7083 / 2
12

Bioinformatica

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Bioinformatica

Загружено:

Авторское право:

Доступные форматы

19/12/2017

1 Clasificación de las especies

3 Complejidad del problema

4 Métodos basados en secuencias

5 Métodos basados en distancias El reino animal

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

 ¿Cómo se determinaron las

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

 Problema general:  Secuencias biomoleculares: ADN, ARN, aminoácido, en

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

 Si estamos estudiando un gen

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

k Num. of rooted tree topologies Num. of unrooted tree topologies

 ¿Cuántas topologías de árbol (es decir, ignorar las longitudes de 4 15 3

 K = 2: 1 posible topología de árbol 5 105 15

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

COMPANY Métodos de reconstrucción de árboles COMPANY

 ¿Qué haces cuando te encuentras con un  Dos tipos principales de métodos:

Construir una matriz de caracteres

1.00 Striped Spot Round No

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

¿Cómo decidimos la "mejor" filogenia? Outgroup AAGCTTCATAGGAGCAACCATTCTAATAATAAGCCTCATAAAGCC

Round  forked tail

Round  forked tail 2. Sequence

Outgroup AAGCTTCATA Sitios invariables Outgroup AAGCTTCATA Sinapomorfias

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Outgroup AAGCTTCATA Sinapomorfias Outgroup AAGCTTCATA Sinapomorfias

La homoplasia sigue siendo un problema La homoplasia sigue siendo un problema

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Red and blue

 Problema de "gran parsimonia":

 Entrada: Cuatro secuencias

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

COMPANY Máxima parsimonia: COMPANY

ACT GTA ACA ACT

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

 Consideraremos un único sitio

 Gran parsimonia es "NP-duro" A A A

 La pequeña parsimonia se puede resolver AG

rápidamente usando el algoritmo de Fitch A

 Si ambos hijos tienen el mismo estado, Gorilla

probablemente sea bueno adoptar el estado

 Si los dos hijos tienen diferentes estados,

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Algoritmo de Fitch: Si solo necesita algunas soluciones p

 Pasos: l r Fase ascendente

else // 𝑙 y 𝑟 están de acuerdo en algo: ¿tomarlo?

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Prueba por inducción  Supongamos que el algoritmo es capaz de

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Si necesita todas las soluciones

G  En una situación real, necesitamos tratar

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

COMPANY De la parsimonia pequeña a la parsimonia COMPANY

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

 En los algoritmos basados en secuencias anteriores, las

UPGMA  Bueno si las secuencias son largas, y nos

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Nota: Aquí las etiquetas de

 No siempre único, también no siempre es  No siempre es posible asignar longitudes de

D.A.I. Bioinformática J. C. Carbajal L. D.A.I. Bioinformática J. C. Carbajal L.

Podemos obtener un árbol aditivo y con todos los nodos hoja