Вы находитесь на странице: 1из 23

Bioinformtica Clsica

Bioinformtica Clsica
Tema 4: Alineamiento Mltiple y Filogenias (3)

Seccin 3: Filogenias
Dr. Oswaldo Trelles
Universidad de Mlaga

La filogenia estudia las relaciones de parentesco entre los organismos lo que


permirte clasificarlos y organizarlos. El criterio bsico es evaluar el grado de
parentesco o de divergencia de sus especies ancestrales comunes.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Matriz de distancias y matriz de parentescos (semejanzas)

Protena CitocromoOxidasa-3

Al comparar secuencias observbamos su


parecido o nivel de semejanza. El criterio
antagnico es la distancia que se mide en
nmero residuos diferentes. Puesto que en
general se trabaja con secuencias de ADN el
criterio de las identidades es ms apropiado
ya que permite considerar las mutaciones
conservativas.
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
Bioinformtica Clsica

Obtenci n de la matriz de distancias


Obtencin

ALINEAMIENTO DE SECUENCIAS

Humano CCCCTAACAGGGGCCCTCTCAGCCCTCCTAATGACCTCCGGCCTAGCCATGTGATTTCAC
Orangutn CCCCTAACAGGAGCTCTCTCAGCCCTCCTAACAACATCTGGCCTAACCATGTGATTCCAC
Tiburn CCATTAACAGGAGCTGTTGCTGCTTTACTAATAACATCAGGCCTAGCCGTCTGATTCCAT
Gusano GCATATAATTTATTTTTTGCCTCAGCCGGAATGTTAAGATCTTTAGTAATATTTTTTAAA
Levadura CCATTTTTCTTATCTGTAGTATTATTCTTTAACTGTTTAGCAGCTACATTATATTTACAT
* * * * * ** *

H O T G L
Humano -
Orangutn -
Tiburn -
Gusano -
Levadura -

Dado un conjunto de secuencias alineadas se necesita calcular las distancias


entre cada una de ellas (ver primer paso del AM en la seccin 1). Cuando se
trabaja con secuencias de ADN es frecuente anotar el nmero de residuos
diferentes, pero tambin es posible usar matrices de peso para estos clculos.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Obtenci n de la matriz de distancias


Obtencin
ALINEAMIENTO DE SECUENCIAS

Humano CCCCTAACAGGGGCCCTCTCAGCCCTCCTAATGACCTCCGGCCTAGCCATGTGATTTCAC
Orangutn CCCCTAACAGGAGCTCTCTCAGCCCTCCTAACAACATCTGGCCTAACCATGTGATTCCAC
Tiburn CCATTAACAGGAGCTGTTGCTGCTTTACTAATAACATCAGGCCTAGCCGTCTGATTCCAT
Gusano GCATATAATTTATTTTTTGCCTCAGCCGGAATGTTAAGATCTTTAGTAATATTTTTTAAA
Levadura CCATTTTTCTTATCTGTAGTATTATTCTTTAACTGTTTAGCAGCTACATTATATTTACAT
* * * * * ** *
ALINEAMIENTO DE SECUENCIAS

Humano CCCCTAACAGGGGCCCTCTCAGCCCTCCTAATGACCTCCGGCCTAGCCATGTGATTTCAC
Orangutn CCCCTAACAGGAGCTCTCTCAGCCCTCCTAACAACATCTGGCCTAACCATGTGATTCCAC
Tiburn CCATTAACAGGAGCTGTTGCTGCTTTACTAATAACATCAGGCCTAGCCGTCTGATTCCAT
Gusano GCATATAATTTATTTTTTGCCTCAGCCGGAATGTTAAGATCTTTAGTAATATTTTTTAAA
Levadura CCATTTTTCTTATCTGTAGTATTATTCTTTAACTGTTTAGCAGCTACATTATATTTACAT
* * * * * ** *
H O T G L
Humano
En el ejemplo se ha empezado a comparar Humano
-
Orangutn 8 - con Orangutn y luego con Tiburn mostrndose las
Tiburn 18 - diferencias (8 entre Humano y Orangutn y 18 con
Gusano - Tiburn)
Levadura -
Actividad: Complete la matriz de distancias del ejemplo

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Valores absolutos o relativos


DISTANCIAS EN VALORES ABSOLUTOS
RATON RATA HUMANO TIBURON DROSOFILA MAIZ LEVADURA BACILO
RATON 0
RATA 9 0
HUMANO 37 34 0
TIBURON 61 57 52 0
DROSOFILA 95 94 97 94 0
MAIZ 115 114 113 109 125 0
LEVADURA 153 153 155 147 158 160 0
BACILO 197 196 194 201 196 208 209 0

DISTANCIAS EN VALORES RELATIVOS


RATON RATA HUMANO TIBURON DROSOFILA MAIZ LEVADURA BACILO
RATON 0.000
RATA 0.034 0.000
HUMANO 0.134 0.123 0.000
TIBURON 0.222 0.207 0.188 0.000
DROSOFILA 0.345 0.341 0.352 0.341 0.000
MAIZ 0.418 0.414 0.410 0.398 0.454 0.00
LEVADURA 0.556 0.556 0.563 0.533 0.573 0.580 0.000
BACILO 0.716 0.711 0.706 0.731 0.711 0.757 0.761 0.000

Las distancias se pueden expresar en trminos absolutos, pero es ms conveniente


normalizarlos llevndolos a relativos con respecto al total de residuos de las
secuencias alineadas.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Matriz de distancias. Usando pesos


Es posible obtener matrices de distancia para aminocidos usando las matrices de
sustitucin PAM o BLOSUM (ver seccin 1)

Humano ----MTHQSHAYHMVKPSPWPLTGALSALLMTSGLAMWFH--FHSMTLLMLGLLTNTLTM
Orangutn ----MAHQSHAYHMVKPSPWPLTGALSALLTTSGLTMWFH--FHSTTLLLTGLLTNALTM
Tiburn ----MAHQAHAYHMVDPSPWPLTGAVAALLMTSGLAVWFH--FHSMYLLYLGLTLLLLTM
Gusano -------MFHNFHILSLSSYAYNLFFASAGMLSSLVMFFK--FGLYELFIFTLFSVLFIS
Levadura MNLSTKFQGHPYHIVSASPWPFFLSVVLFFNCLAATLYLHGYKHSSVFFGISFLGLLATM
. * :*:. *::. : ..: ::.: ... .. . ..

Actividad: Calcule la matriz de distancias a partir de la PAM250. Proponga una


forma de evaluar la distancia e incluya gaps explicando el modelo usado

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Fundamentos de las filogenias


Las filogenias de los seres vivos se desarrollaron para establecer relaciones de
parentesco entre ellos y para clasificarlos y organizarlos. Las distancias suelen
reflejar los grados de parentesco o de su divergencia a partir de especies
ancestrales comunes.
Todas las filogenias parten de una
ra z com
raz n: LUCA (Last Universal
comn:
Common Ancestor)

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Filogenias moleculares
Las secuencias moleculares permiten:
Elaborar filogenias de genes y genomas
Cuantificar grados de parentesco con gran precisin.
Analizar procesos evolutivos: mutaciones, seleccin,
Identificar y predecir estructuras y funciones de protenas
Seguir especiaciones rpidas (virus)

La aplicacin de los mtodos filogenticos requiere de experiencia y


conocimientos bsicos de evolucin molecular ya que, frecuentemente, sus
resultados son controvertidos y pueden conducir a interpretaciones errneas.

Datacin de divergencias: La filogenia de


algunos genes, como el Citocromo-C,
permiten incluso datar divergencias
evolutivas.
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
Bioinformtica Clsica

Modelo del reloj


reloj molecular evolutivo
evolutivo
El modelo terico o hiptesis del Reloj Molecular Evolutivo, propuesto por Zuckerkandl &
Pauling (1965), establece que: Las sustituciones de residuos en protenas o secuencias de
ADN son casi constantes en el curso del tiempo y a lo largo de todos los linajes evolutivos

Especie A

Especie Especie B
ancestral

Especie C
mutaciones en el curso del tiempo

Es importante tener en cuenta que la Seleccin Natural evita que muchas de esas
mutaciones sean transmitidas a las siguientes generaciones de individuos.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Tipos de rboles
rboles

El mtodo bsico para elaborar un rbol filogentico es agrupar progresivamente y por


parejas especies o taxones -OTUs-, desde las dos ms emparentadas hasta las menos.

OTU = Unidad Taxonmica Operativa


OTUs A E
compuestas B
H OTUs
simples
D A E
G B
H
C
D
G
F
C
Nodos: internos y externos Ramas
F

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Topolog as
Topologas
A A E A
B B B
E E
raz H H raz H
D D
G D G
rbol enraizado C rbol desenraizado G C
(cladograma triangular) F (Topologa radial) F
C rbol enraizado
(Cladograma rectangular)
F

Outgroup o especie externa


Sobre una matriz de distancias, el outgroup o especie externa es la que
presenta mayores valores de distancia en relacin con las dems especies.
Cuando no se dispone de otros criterios, los valores de distancias se utilizan
para definir la especie externa.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Nmero posible de
Nmero rboles para n
rboles n OTUs
B
A A C
B C B A
C B A
C

N de OTUs N de rboles N de rboles


(n) con raz (Nr) sin raz (Ns )
2 1 1
3 3 1
4 15 3
5 105 15
6 954 105
7 10.395 954
8 135.135 10.395
9 2.027.025 135.135
10 34.459.425 2.027.025

Nr = 1*3*5**(2n-3) = Ns = 1*3*5**(2n-5) =
(2n-3)! (2n-5)!
= =
2 n-2 (n-2)! 2 n-3 (n-3)!

El nmero de posibles rboles guarda una relacin exponencial con el nmero de OTUs,
por ello no es posible realizar un anlisis exhaustivo de todas las posibles combinaciones
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
Bioinformtica Clsica

M todos filogen
Mtodos ticos
filogenticos
Basados en la medida de distancias evolutivas entre OTUs:
UPGMA (Unweighted Pair-Group Method with Arithmetic mean)
Unin del vecino ms prximo (Neighbor Joining o NJ)
rboles Aditivos
rboles Ultramtricos- las ramas ms recientes son ms cortas

Parsimonia basados en la relacin de agrupacin entre parejas de OTUs:


Mxima Parsimonia
Mxima Probabilidad (Maximum Likelihood) - depende del modelo asumido
Nmero mnimo de mutaciones (Minimum Mutation)
Branch and Bound
Evolucin Mnima
Mnima Longitud Codificante

Existen dos grandes grupos de propuestas, basadas en la organizacin progresiva


(equivalente a los Alineamientos Mltiples) y los basados en la probabilidad del
rbol ms simple que explique los cambios en las secuencias (Parsimonia)

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica
Mtodos de reconstruccin jerrquica
Los mtodos (y los resultados) de los mtodos de agrupacin jerrquica basados en
distancias evolutivas dependen de la forma que se use para calcular la distancia entre
grupos u OTUs.

RATON
RATON Distancia entre OTUs
RATA
RATA UPGMA: Unweighted Pair-Group Method
HUMANO with Arithmetic mean (o Simple Average
HUMANO Linkage)
TIBURON
TIBURON WPGMA: Weighted Average Linkage
DROSOFILA
DROSOFILA UPGMC: Centroid Method
MAIZ
MAIZ WPGMC: Median Method
LEVADURA Single Linkage (Nearest Neighbor)
LEVADURA Complete Linkage (Farthest Neighbor)
BACILO
BACILO Ward's Method

Representacin del rbol en formato de texto


((((((RATON,RATA)HUMANO)TIBURON)DROSOFILA)MAIZ)LEVADURA)BACILO)

La agrupacin jerrquica es un mtodo rpido y eficaz, con gran nmero de OTUs


Estima el nmero medio de cambios ocurridos en cada sitio
Incluye un mtodo de correccin para sustituciones mltiples en un mismo sitio
Incluye la ponderacin de gaps
Solo proporciona valores relativizados
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
Bioinformtica Clsica

Mtodos de Parsimonia
Se basa en la descripcin de sitios informativos y relaciones entre OTUs

1 2 3 4

Humano M-TPIRKINPLIKLINHSFIDLPTPSNISANFGSLLGACLILQITTGLFLAMHYSPDAST
Rata M-TNIRKSHPLFKIINHSFIDLPAPSNISSNFGSLLGVCLIVQILTGLFLAIHYTSDTIT
Canguro M-TNLRKTHPLIKIINHSFTVLPAPSNISANFGSLLGACLIIQILTGLFLAIHYTADTLT
Rana MAPTIRKSHPLLKIINGSFIDLPSPANLSANFGSLLGVCLVAQIVTGLFLAIHYTADTSL
Tiburn MAINIRKTHPLLKIINHALVDLPAPSNISLNFGSHLGLCLIIQILTGLFLAIHYTADISI
* :** :**:*:** :: **:*:*:* **** ** **: ** ******:**:.*

Se observan solo las diferencias observadas entre las secuencias que favorecen la
eleccin de un rbol respecto de otros.

Esos sitios particulares se llaman 'sitios informativos'. Un sitio es 'informativo' si hay


mas de un tipo de residuo (nucletido o aminocido) en l y cada tipo de residuo est
representado en ms de una secuencia del alineamiento.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Contribucin de cada sitio informativo a la eleccin del rbol


M todo de PARSIMONIA
Mtodo

G
G
S
S

El principio de parsimonia establece que ante dos hiptesis evolutivas es ms probable la


que implique menos cambios evolutivos, ya que la naturaleza tiende siempre a la simplicidad.

En el ejemplo, usando un primer sitio informativo se producen tres rboles posibles. Sin embargo
un segundo sitio (GGSS) se refuerza el primer rbol
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
Bioinformtica Clsica
M todo de PARSIMONIA
Mtodo

El mtodo es independiente de los condicionantes evolutivos, aunque subestima el nmero de cambios en


las ramas y falla ante tasas evolutivas diferentes entre las ramas. Se usa tpicamente para el anlisis de
menos de 18 OTUs, donde sus predicciones se muestran correctas.

Para ms de 18 OTUs, puede originar demasiados rboles alternativos, por lo que se necesitan otros
criterios (i.e. asumir uno de los rboles encontrados), aunque ello incrementa el tiempo exponencialmente

El nmero de sitios es la longitud del rbol. En este caso se han usado L=5 sitios
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
Bioinformtica Clsica
M todo de PARSIMONIA: ejercicio
Mtodo

Indicar los sitios informativos para el mtodo de parsimonia


en el siguiente alineamiento de secuencias nucleotdicas:

Humano ------------ATGACCCACCAATCACATGCCTATCATATAGTAAAACCCAGCCCATGA
Orangutn ------------ATGGCCCATCAATCACACGCCTACCACATAGTAAAACCTAGCCCATGA
Tiburn ------------ATGGCTCACCAAGCACATGCATATCATATAGTTGACCCCAGCCCGTGA
Gusano ---------------------ATGTTTCATAATTTTCATATTTTAAGACTTTCAAGGTAT
Levadura ATGAATCTTTCTACTAAATTTCAAGGACATCCTTATCATATTGTAAGTGCGTCACCTTGG

Humano CCCCTAACAGGGGCCCTCTCAGCCCTCCTAATGACCTCCGGCCTAGCCATGTGATTTCAC
Orangutn CCCCTAACAGGAGCTCTCTCAGCCCTCCTAACAACATCTGGCCTAACCATGTGATTCCAC
Tiburn CCATTAACAGGAGCTGTTGCTGCTTTACTAATAACATCAGGCCTAGCCGTCTGATTCCAT
Gusano GCATATAATTTATTTTTTGCCTCAGCCGGAATGTTAAGATCTTTAGTAATATTTTTTAAA
Levadura CCATTTTTCTTATCTGTAGTATTATTCTTTAACTGTTTAGCAGCTACATTATATTTACAT

Humano ------TTCCACTCCATAACGCTCCTCATACTAGGCCTACTAACCAACACACTAACCATA
Orangutn ------TTCCACTCCACAACCCTACTATTAACAGGCCTACTAACCAATGCACTAACCATA
Tiburn ------TTCCACTCCATATACCTTCTTTACTTAGGATTGACTCTACTATTACTAACTATA
Gusano ------TTTGGACTATACGAATTATTTATTTTTACACTATTTTCTGTGTTATTTATTTCT
Levadura GGATACAAACATTCATCAGTATTCTTTGGAATCAGTTTCTTAGGTTTATTAGCAACTATG

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Obtencin de un rbol escalado


Estimando la longitud de las ramas
Debe tomarse a la OTU externa
RATON
RATON como referencia en todas las
RATA
RATA estimaciones.
HUMANO
HUMANO
TIBURON
TIBURON Esquematizar la relacin filogentica
entre tres OTUs, pues as solo hay
DROSOFILA
DROSOFILA un nodo comn (n).
MAIZ
MAIZ
LEVADURA
LEVADURA Y hallar la longitud (L) de cada un de
BACILO
BACILO las respectivas tres ramas que
convergen en el nodo comn (n), a
partir de las distancias (D) entre las
LRn-n parejas de OTUs implicadas.
LB-n RATON(Rn)
BACILO(B)
LRa-nRATA(Ra)
La longitud de LB-n

D(B,Rn) + D(B,Ra) - D( Rn,Ra)


LB-n =
2

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Obtencin de un rbol escalado


Aplicando la frmula
RATON
RATON
RATA
RATA La longitud de LB-n
HUMANO
HUMANO
TIBURON
TIBURON 197 + 196 - 9
DROSOFILA
DROSOFILA LB-n =
MAIZ
MAIZ 2
LEVADURA
LEVADURA
BACILO
BACILO

DISTANCIAS EN VALORES ABSOLUTOS

RATON RATA HUMANO TIBURON DROSOFILA MAIZ LEVADURA BACILO


RATON 0
RATA 9 0
HUMANO 37 34 0
TIBURON 61 57 52 0
DROSOFILA 95 94 97 94 0
MAIZ 115 114 113 109 125 0
LEVADURA 153 153 155 147 158 160 0
BACILO 197 196 194 201 196 208 209 0

Significacin probabilstica del rbol


Una vez realizados los rboles mediante cualquiera de esos mtodos (jerrquicos o de
parsimonia), se suele utilizar un sistema para apoyar estadsticamente los resultados, el
Bootstrapping o muestreo probabilstico de la disposicin de todas las ramas.

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Obtenci n de un
Obtencin rbol escalado.
rbol escalado. Ejercicio
Estimar la longitud de las ramas del siguiente rbol:

RATON D(B,Rn) + D(B,Ra) - D( Rn,Ra)


RATA LB-n =
2
HUMANO
DROSOFILA LRn-n
BACILO LB-n RATON
BACILO
LRa-n RATA

a partir de la matriz de distancias:


RATON RATA HUMANO DROSOFILA BACILO
RATON 0
RATA 9 0
HUMANO 37 34 0
DROSOFILA 95 94 97 0
BACILO 197 196 194 196 0

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


Bioinformtica Clsica

Resumen

Los alineamientos mltiples constituyen el primer paso para una


cuantificacin precisa de grados de parentesco, ya que permiten
obtener una matriz de distancias entre cada par de secuencias,
medidas en nmero de sustituciones.

A partir de la matriz de distancias se obtienen las longitudes de


las ramas que definen el rbol filogentico, por los mtodos de
distancias.

Los mtodos de parsimonia agrupan pares de OTUs en funcin del


mnimo nmero de diferencias estimado a partir de los sitios
informativos.
Li, W-H (1997) Molecular Evolution. Sinauer Associates, Inc., Publishers

Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007


G
GCC Bioinformtica Clsica
T
AT
A
AT
A T
G C
G C
TT AA
TA
T A La versin ampliada de este tema se encuentra en los apuntes del Tema 4:
C
G
G
GC
C
G
C
Alineamiento Mltiple y Filogenia, accesibles a travs de la plataforma
CC GG Web de aprendizaje virtual de la UNIA.
G
G C C
G
GCC
T
AT
A
GC
G C
G C
G C Consulta estos materiales para completar tus conocimientos
AA TT
AT
A T
A
T
TA
C
CGG
CC GG
T
T A A
G
GCC
G
CG
C
TA
T A
C G
C G
TT AA
TA
T A
T
A
TA
G
GCC
TT AA
T
T A A
T
TAA
G
CG
C
GC
G C
A T
A T
GG CC
GC
G C
A
T
TA
G
GCC
AA TT
A
A TT
G
GCC
T
AT
A
AT
A T
C G
C G
Alineamiento Mltiple y Filogenia Campus Virtual Andaluz, 2007
GG CC

Вам также может понравиться