Manual de Iniciación Al Análisis de Secuencias de ADN

Manual para anlisis filogenticos moleculares
Tema 1
_____________________________________________________________________
TEMA 1. QU ES UNA FILOGENIA MOLECULAR Y PARA QU SIRVE?
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
El trmino Filogenia proviene del griego (, raza y genia, nacimiento,
produccin, generacin) y hace referencia a las relaciones evolutivas entre los
organismos (especies, gneros, familias). El estudio de las relaciones entre las
especies ha formado implcitamente parte en los estudios de taxonoma clsica desde
el siglo XVI, tal como puede extraerse de la evolucin de los trabajos de algunos
autores como Cesalpino, Bauhin, Ray, Tournefort y, por supuesto, Linneo. Sin
embargo, no fue hasta la segunda mitad del siglo XX cuando, tras el planteamiento de
la revolucionaria Teora de la Evolucin, se formaliz el inters en esclarecer las
relaciones entre las especies. As, de la mano del botnico Walter Zimmermann (1930,
1934) y del zologo Willi Hennig (1966) se desarrollaron las bases metodologgicas
para la reconstruccin de relaciones de parentesco entre las especies. Histricamente,
estas relaciones filogenticas se inferan a partir del anlisis de datos generalmente
morfolgicos y en menor medida anatmicos, qumicos y cromosmicos. No fue hasta
el desarrollo de la tcnica molecular de la PCR (Polymerase Chain Reaction; Kleppe et
al. 1971, Sanger & Coulson 1975, Saiki et al. 1985, Mullis & Faloona 1987), cuando se
pudo incorporar el estudio comparado de regiones de ADN al esclarecimiento de las
relaciones evolutivas entre los organismos. Esta tcncia permite obtener numerosas
copias de regiones de ADN a partir de un nico o unos pocos fragmentos. En paralelo,
el intenso trabajo de numerosos investigadores en el diseo de cebadores de
aplicacin universal (vanse Small et al. 1998, Shaw et al. 2005, 2007 para revisin),
junto con el desarrollo y mejora de los mtodos de anlisis ha permitido la aplicacin
masiva de esta tcnica al estudio de diferentes organismos, suponiendo una
revolucin en el mundo de la biologa.
La obtencin de filogenias moleculares se basa en la seleccin, amplificacin y
secuenciacin de regiones de ADN nuclear, plastidial (en plantas) y mitocondrial (de
uso frecuente en animales y espordico en algunas familias de plantas). Dichas
secuencias son revisadas, alineadas en funcin de sus homologas (tema 3.2) y
posteriormente analizadas bajo las asunciones de los distintos mtodos de
reconstruccin filogentica descritos (vanse temas 3.3 - 3.6). El resultado del anlisis
de dichas secuencias bajo los distintos mtodos de inferencia, es uno o ms rboles
de genes que representan las relaciones evolutivas de las muestras analizadas (vase
tema 4). A partir de estos rboles, si el muestreo taxonmico y de regiones ha sido
adecuado, se pueden realizar inferencias sobre las relaciones evolutivas de las
especies.
Desde mediados del siglo XX (Zuckerkandl & Pauling 1965) se han venido
utilizando filogenias moleculares basadas en el anlisis de protenas, genes, intrones y
regiones espaciadoras del ADN para la reconstruccin de relaciones de parentesco y
clasificacin de los organismos. A partir de estas resonstrucciones se pueden inferir
las historias evolutivas de los linajes, dilucidar la ausencia/presencia de monofilia para
los grupos taxonmicos as como sus relaciones de parentesco. Adems, en algunos
casos permiten esclarecer los principales mecanismos evolutivos envueltos en los
diferentes procesos de especiacin. Sin embargo, la utilidad de las filogenias
moleculares trasciende a los fines propios de la sistemtica. El desarrollo
metodolgico de los ltimos 30 aos est permitiendo adems, utilizar esta
poderossima herramienta como la base para el desarrollo de estudios biogeogrficos
(Ronquist & Sanmartn 2011), filogeogrficos (Schaal et al. 1998, Avise 2000, 2009),
de biologa de la conservacin (Avise 1989, Crandall et al. 2000), coevolucin y
patrones de diversificacin (Ricklefs 2007), entre otros.
Universidad Autnoma de Madrid
Cursos OCW
Tema 2
______________________________________________________________________
TEMA 2. QU NECESITO SABER PARA OBTENER UNA FILOGENIA
MOLECULAR ROBUSTA?
_____________________________________________________________________
A pesar de que la tentacin os puede llevar a pasar directamente al tema 3 (Anlisis
filogenticos: cmo obtener una filogenia molecular paso a paso), os sugerimos leis
previamente los dos subapartados incluidos en este tema 2.
Las filogenias moleculares son estimas realizadas a partir de unos pocos
fragmentos de ADN que no llegan siquiera a representar un escaso 1% del genoma
total. Adems, estos fragmentos se secuencian tan slo de unos pocos individuos por
especie generalmente menos de cinco. Esta cantidad de individuos rara vez
representa el total de las poblaciones, e incluso a menudo no llega a cubrir por
completo el rea de distribucin de la especie. Por todo ello, y aunque las tcnicas y
mtodos en los que se basan las filogenias moleculares son muy potentes, la fiabilidad
de nuestras estimas y por tanto la robustez de todas las inferencias en ellas basadas
depender fundamentalmente del diseo del experimento.
Un buen diseo de experimento se basa en un profundo conocimiento sobre:
(1) el grupo de estudio y (2) el fundamento terico de los mtodos de anlisis. Un
conocimiento exhaustivo sobre ambos puntos nos permitir adecuar el diseo del
muestreo de regiones e individuos y el de los anlisis a las preguntas que nos
planteemos.

Cursos OCW
Tema 2.1
______________________________________________________________________
TEMA 2.1. Breve introduccin a las tcnicas y mtodos de reconstruccin
filogentica
_____________________________________________________________________
Existen diversos mtodos de anlisis para estimar reconstrucciones filogenticas a
partir de datos moleculares (Tabla 1). Estos mtodos pueden agruparse de diferentes
maneras. En esta breve introduccin al curso agruparemos los mtodos de anlisis en
dos grandes bloques segn el procedimiento seguido: (1) mtodos puramente
algortmicos [UPGMA, Neibourgh-Joining (NJ)] y (2) mtodos de bsquedas de
rboles basados en criterios de optimizacin [Mxima Parsimonia (MP), Mxima
Verosimilitud (ML; Maximum Likelihood), Inferencia Bayesiana (BI; Bayesian
Inference), Mnima Evolucin (ME), Mnimos Cuadrados (MC)]. Los primeros incluyen
en el proceso de obtencin del rbol el criterio de seleccin y no hacen bsquedas de
rboles, por lo que no realizan de manera explcita una optimizacin de una funcin de
seleccin con base en el criterio establecido. Los segundos realizan bsquedas de
rboles sobre los que se optimiza una funcin segn el criterio bajo el que son
evaluados mnimo nmero de cambios evolutivos en MP, mxima verosimilitud en
ML, mxima probabilidad a posteriori en BI, mnima suma de longitudes de rama
(calculadas como ordinary least square) en ME, o mejor ajuste entre los pares de
distancias estimados y las distancias calculadas a partir del rbol, MC.
Los mtodos basados en distancias tanto los algortmicos (UPGMA, NJ) como
los basados en bsquedas (ME), asumen que la distancia entre txones es reflejo de
su relacin filogentica. Esta asuncin es nicamente valida en casos de tasas de
cambio constantes y ausencia de homoplasia, premisas ambas generalmente
vulneradas. Para soslayar ambas premisas, los mtodos de distancia asumen tambin
un modelo evolutivo que permite corregir ambas cuestiones (Williams 1992). Las
distancias de este modo corregidas son estimas de la distancia evolutiva real,
entendida como la media de cambios que se han producido en una posicin entre dos
pares de secuencias a lo largo de su evolucin desde su ancestro comn. As, a partir
de los datos y dado un modelo evolutivo (vase tema 3.4), calculan una matriz de
distancias. A partir de esa matriz de distancias construyen uno o varios rboles
mediante mtodos algortmicos de construccin de rboles (UPGMA, NJ), que pueden
ser posteriormente evaluados bajo criterios de optimizacin (ME, MC).
El mtodo de MP realiza bsquedas de rboles usando como criterio de
optimizacin la mxima parsimonia (Tabla 1). As, este mtodo optimiza la longitud del
rbol calculada como el total de los cambios evolutivos (nmero de transformaciones
de un estado de carcter a otro) necesarios para explicar un rbol a partir de los datos.
De esta manera conforme al criterio de MP, el rbol ms parsimonioso que conecta
cuatro secuencias dos a dos es aquel que precisa del menor nmero de
transformaciones de un estado de carcter a otro para cada una de las posiciones de
la matriz. Un punto crtico de este mtodo es la subestimacin de la cantidad de
cambio evolutivo. Al asumir la explicacin ms sencilla, la MP no tiene en cuenta la
posibilidad de que para una misma secuencia y en una misma posicin se hayan
producido varios cambios a lo largo del tiempo (t0 = A, t1 = T, t2 = A).

Cursos OCW
Pag. 1 de 8
Tema 2.1
El mtodo de ML en cambio intenta estimar la cantidad de cambio real de

acuerdo con un modelo establecido. Este mtodo evala la hiptesis (el rbol)
mediante una funcin (verosimilitud) que maximiza la probabilidad de obtener los datos
matriz de secuencias de ADN dado el rbol y el modelo evolutivo (vase tema 3.4).
De esta forma, conforme al criterio de ML el mejor rbol de cuatro secuencias
conectadas dos a dos es aquel que presenta el mayor valor de verosimilitud,
independientemente del nmero de transformaciones de estados de carcter que
necesite.
El mtodo de BI se basa en la bsqueda de rboles que maximicen la
probabilidad a posteriori de los rboles, dados los datos matriz de secuencias de
ADN y el modelo evolutivo (vase tema 3.4). Este mtodo utiliza el Teorema de
Bayes que calcula la probabilidad a posteriori a partir de los valores de probabilidad a
priori y versomilitud. La probabilidad a priori de los rboles representa la probabilidad
de cada uno de los rboles posibles previa a cualquier observacin (datos y modelo).
Esto es, si tenemos tres especies, slo hay tres rboles posibles que las conecten dos
a dos, la probabilidad a priori de cada uno de estos tres rboles sera la misma para
cada uno. En cambio, la verosimilitud de cada uno de estos tres rboles ser distinta al
considerar las observaciones (datos y el modelo). As, la verosimilitud de cada rbol
sera proporcional a la probabilidad de los datos matriz de secuencias de ADN dado
el rbol y el modelo. Por ltimo, la probabilidad a posteriori es proporcional a la
probabilidad del rbol dados los datos y el modelo y se calcula combinando la
probabilidad a priori y la verosimilitud.

Cursos OCW
Pag. 2 de 8
Tema 2.1
Tabla 1.
Mtodo
MXIMA
PARSIMONIA
Fundamento y asunciones
Busca y selecciona los rboles con
menor cantidad de cambios
evolutivos
Congruencias entre los caracteres
son el resultado de relaciones
filogenticas
MXIMA
VEROSIMILITUD
- tipo de problema: no polinomial

- mtodo de bsqueda de rboles
basado en el criterio de optimizacin
- criterio de optimizacin: mxima
parsimonia
- tipo de bsqueda: exhaustiva
(branch and bound) o heurstica
- algoritmo de construccin y
bsqueda: star decomposition o
stepwise addition
Selecciona el rbol con mayor
probabilidad de explicar los datos
dado el rbol y el modelo evolutivo
basado en criterio de optimizacin
verosimilitud
- tipo de bsqueda: exhaustiva
(branch and bound) o heurstica
- tipo de algoritmo de construccin y
bsqueda: star decomposition o
stepwise addition
Ventajas
- minimiza las hiptesis ad hoc
(reversiones, paralelismos, etc.)
- relativamente rpido con grandes
matrices de datos
- robusto si las longitudes de rama
son cortas (amplio muestreo o baja
divergencia)
- se pueden inferir estados
ancestrales
- los modelos de sustitucin

nucleotdica se incluyen en el proceso
de estima
- poco sensible a atraccin de ramas
largas (Gaut & Lewis 1995)
- robusto y poco sensible a la
violacin de sus asunciones
(Huelsenbeck 1995)
- mtodo menos afectado por el error
de muestreo ya que proporciona las
estimas con menor varianza (Hillis et
al. 1996)
- permite la superposicin de
mltiples cambios en una misma
posicin (multiple hits)
Inconvenientes
- sensible al orden de entrada de los datos
- descarta informacin potencialmente
relevante (autoapomorfas)
- posible subestimacin del nmero de
sustituciones
- altamente afectada por atraccin de
ramas largas y zona Felsenstein
(Huelsenbeck 1998, aunque vase Hillis et
al. 1996)
- ausencia de un modelo evolutivo
explcito (Platnick 1985)
- alto riesgo de caer en mnimos locales
- no asume la superposicin de cambios
(multiple hits) que son tratados como
fuente de falsa homologa (aunque puede
compensarse va pesado)
- mltiples rboles debido al tratamiento
de pasos discretos
- fuerte demanda de memoria
- fallos cuando hay muchas secuencias y
pocos nucletidos (Piontkivska 2004)
- riesgo de caer en mnimos locales
(Salter & Pearl 2001)
- sensible al modelo de substitucin
seleccionado
Software
TNT
PAUP
MEGA
PHYLIP
RAxML
GARLI
PAUP
MEGA
PHYLIP

Cursos OCW
Pag. 3 de 8
Tabla 1. [continuacin]
Mtodo
Fundamento y asunciones
INFERENCIA
BAYESIANA
Selecciona los rboles con mayor

probabilidad a posteriori de explicar
los rboles, dados los datos y el
modelo
La distribucin a priori de los
parmetros especificadas
basado en criterio de optimizacin
probabilidad a posteriori
- tipo de bsqueda: estocstica
- tipo de algoritmo de bsqueda:
Metropolis-coupled Markov Chain
Monte Carlo
NEIGHBOURJOINING
Calcula distancias entre pares de

especies y devuelve el rbol con
menor longitud entre pares de
especies y nodos
Tema 2.1
Ventajas
- los modelos de sustitucin
nucleotdica se incluyen en el proceso
de estima
- permite la implementacin de
modelos evolutivos complejos
- relativamente rpido con grandes
matrices de datos
- poco sensible a atraccin de ramas
largas
- proporciona valores de apoyo a las
ramas
- exploran ms espacio al usar MCMC
- menor riesgo de caer en mnimos
locales al usar la variante Metropoliscoupled de MCMC
- rapidez
Asume modelo evolutivo

- tipo de problema: polinomial
- mtodo algortmico basado en
coeficientes de distancias
- algoritmo de construccin: star
decomposition
Inconvenientes
- fuerte demanda de memoria
- posible sobreestimacin de los valores
de apoyo de las ramas
- sensible al modelo de substitucin
seleccionado
- sensible al orden de entrada de los datos

(Farris et al. 1996)
- diferencias entre las secuencias no
reflejan fielmente la distancia evolutiva
- no se pueden identificar los caracteres
que apoyan las ramas
- pobre para conjuntos grandes de datos
- prdida de informacin al convertir las
secuencias en distancias (Steel et al.
1988)
- poco fiables las distancias calculadas
cuando las secuencias son altamente
divergentes
Softwar
e
MrBayes
BAMBE
BEAST
PHYLIP
PAUP
MEGA

Cursos OCW
Pag. 4 de 8
Tema 2.1
Procesos de construccin y bsqueda de los rboles filogenticos a partir de

una matriz de secuencias
Los procesos de construccin y bsqueda se basan en la bsqueda de un
rbol a partir de la matriz original de los datos (MP, ML, BI) o a partir de una matriz de
distancias calculada a partir de la matriz original de datos (UPGMA, NJ, ME). Las
bsquedas de rboles pueden ser exactas, heursticas o estocsticas.
(1) Las bsquedas exactas prospectan todas las posibilidades garantizando
encontrar los rboles ptimos. Por ello, los algortimos que realizan este tipo de
bsquedas (algoritmos exhaustivos y branch-and-bound, Hendy & Penny 1982)
consumen mucho tiempo y slo se recomiendan para el anlisis de matrices
pequeas: mximo 10 txones para bsquedas exhaustivas y hasta un mximo de 20
para algoritmos branch-and-bound (Nei & Kumar, 2000).
Las bsquedas exhaustivas comienzan a partir de todas las combinaciones
posibles de rboles de tres secuencias que se puedan construir con las secuencias
incluidas en la matriz de datos original. Cada uno de estos rboles iniciales cuenta con
un nodo del que surgen las tres ramas que conectan las tres secuencias de partida
(Fig. 1). A cada uno de estos rboles iniciales de tres secuencias se le conecta una
cuarta secuencia generando, mediante la conexin de dicha secuencia a cada una de
las tres ramas del rbol inicial, tres nuevos rboles posibles de cuatro secuencias (Fig.
1). A continuacin se conectara la quinta secuencia a cada uno de los tres rboles de
cuatro secuencias lo que genera a su vez cinco rboles posibles (Fig. 1). En las
bsquedas exactas, el proceso seguira de esta misma manera hasta que se obtienen
todos los rboles posibles que conectan todas las secuencias incluidas en la matriz.
Finalmente, se evala cada uno de estos rboles conforme al criterio seleccionado y
se seleccionan los rboles ptimos.
rbol 0
A
rbol 1
A
rbol 1.1
rbol 1.2
B
X1.1
rbol 2
D
A E D
E B
A E
X3.1
B E
C
X2.5
rbol 3.4
B E D
rbol 3.5
A
C
X3.3
rbol 2.5
B
X3.4
B E
X2.4
B E D
C
X3.2
A E D
rbol 3.3
A
X1.5
rbol 2.4
B
X2.3
rbol 3.2
D
D E
rbol 3.1
A
rbol 1.5
DEB
X1.4
rbol 2.3
B
X2.2
X2.1
rbol 3
B
D E
X1.3
rbol 2.2
B
rbol 1.4
D EB
X1.2
rbol 2.1
B
rbol 1.3
A
D E
C
X3.5
Figura 1. Esquema del proceso de construccin y bsqueda de rboles en un

algoritmo exhaustivo. En el ejemplo se muestra un conjunto de datos con cinco
muestras (A, B, C, D, E).

Cursos OCW
Pag. 5 de 8
Tema 2.1
Los algoritmos branch-and-bound tambin garantizan encontrar los rboles

ms ptimos, pero no realizan una bsqueda completa de todos los rboles posibles.
As, estos algoritmos inician la bsqueda construyendo un rbol al azar
completamente resuelto que conecte todas las secuencias incluidas en la matriz (rbol
0, Fig. 2) y lo evalan bajo el criterio de optimizacin seleccionado. A continuacin se
vuelve a la matriz original de datos y se construye un rbol que conecte tres
secuencias (rbol 1, Fig. 2) que es evaluado conforme al criterio seleccionado. Si el
rbol de tres secuencias (rbol 1, Fig. 2) es igual o mejor que el rbol inicial con todas
las secuencias (rbol 0, Fig. 2), entonces se le conectara una cuarta secuencia a una
de las cuatro ramas del rbol de tres secuencias. A este rbol de tres secuencias se le
conecta una cuarta secuencia a una de las tres ramas posibles generando un rbol de
cuatro secuencias (rbol 1.1, Fig. 2) que es evaluado conforme al criterio
seleccionado. Si el rbol de cuatro secuencias (rbol 1.1, Fig. 2) es igual o mejor que
el rbol inicial con todas las secuencias (rbol 0, Fig. 2), entonces se le conectara una
quinta secuencia a una de las cinco ramas del rbol de cuatro secuencias. Si, por el
contrario, al evaluar el rbol de cuatro secuencias (rbol 1.1, Fig. 2) fuese peor que el
rbol inicial (rbol 0, Fig. 2), entonces se rechaza este rbol de cuatro secuencias
(rbol 1.1, Fig. 2) y todos sus posibles rboles derivados (rbol 1.1.1-1.1.5, Fig. 2) y
vuelven al rbol de tres secuencias (rbol 1, Fig. 2) al que le conectaran la misma
cuarta secuencia a otra rama diferente y generando un nuevo rbol de cuatro
secuencias (rbol 1.2, Fig. 2) y repitiendo el mismo procedimiento (Fig. 2).
Paso 0
Conectar todas las muestras
dos a dos en un rbol inicial (rbol 0),
evaluar el rbol 0 segn el crterio
seleccionado y establecer la puntuacin (X0)
rbol 0
D
B
C
X0
Paso 1
Construir un primer rbol (rbol 1) que incluya
tres muestras, evaluar el rbol 1 segn el crterio
seleccionado y establecer la puntuacin (X1)
rbol 1
A
Paso 3
Paso 2
Construir un nuevo rbol (rbol 1.1) mediante
la conexin de una de las 2 muestras restantes
a una de las ramas del rbol 1, evaluar el rbol 1.1
conforme al crieterio de seleccin y establecer la
puntuacin (X1.1)
Construir un nuevo rbol (rbol 1.1.1) mediante

la conexin de la muestra restante a una de las ramas
del rbol 1.1, evaluar el rbol 1.1.1
puntuacin (X1.1.1)
rbol 1.1.1
rbol 1.1
Si de acuerdo al criterio de seleccin
establecido X1 es mejor que X0
A E D
D
B

establecido X1.1 es mejor que X0
C
X1
X1.1
X1.1.1

establecido X1.1 es peor que X0, volver al paso 1
Paso 3bis
Paso 2bis
Contruir un rbol nuevo (rbol 1.2) conectando
la muestra D a otra rama del rbol 1, evaluar el
rbol 1.2 y establecer la puntuacin (X1.2)
Construir un nuevo rbol (rbol 1.2.1) mediante

la conexin de la muestra restante a una de las ramas
del rbol 1.2, evaluar el rbol 1.2.1
puntuacin (X1.2.1)
rbol 1.2.1
ED B
A
rbol 1.2
A D
B
establecido X1.2 es mejor que X0
C
X1.2
C
X1.2.1
Figura 2. Esquema del proceso de construccin y bsqueda de rboles en un

algoritmo branch-and-bound. En el ejemplo se muestra un conjunto de datos con cinco
muestras (A, B, C, D, E).
Cursos OCW
Pag. 6 de 8
Tema 2.1
(2) Las bsquedas heursticas (algoritmos hill-climbing strategies; stepwise

addition, star decomposition) prospectan un espacio limitado del universo conforme al
criterio seleccionado. Fundamentalmente se utilizan dos tipos de algoritmos para
construir los rboles: star decomposition o stepwise addition.
El algoritmo star decomposition (Fig. 3) construye un rbol inicial en forma de
estrella que incluye todas las secuencias de la matriz original unidas por un nico nodo
(Paso 0), a continuacin se construyen todos los rboles posibles creando otro nodo
que conecte dos secuencias (Paso 1). Se evalan todos los posibles rboles
construidos en el paso 1 bajo el criterio de seleccin utilizado y se elige el mejor (Paso
2). A partir del rbol seleccionado en el paso 2, se construyen todos los posibles
rboles conectando otras dos secuencias, se evalan y se selecciona el mejor (paso
3). Este proceso se repite hasta que se obtiene un rbol que conecte todas las
secuencias dos a dos.
1 2 3 4
A
B
C
D
E
T
T
A
A
A
T
T
G
G
A
C
C
C
C
T
C
C
C
C
C
Paso 0
Construir todos los rboles

posibles uniendo dos de los txones
A
D
A
Paso 3
A partir del rbol seleccionado
en el paso 3, construir todos los
rboles posibles uniendo otros 2
txones, evaluar el criterio
en todos los rboles resultantes
y elegir el mejor
A
D
A
E
B
B
C
Paso 2
Evaluar el criterio de seleccin
en todos los rboles posibles y
elegir el mejor
Paso 1
Conectar todos los txones

en un rbol en estrella
con un nico nodo interno
A
E
D
C
D
E
.
.
.
.
.
.
D
E
D
C
B
E
B
C
Figura 3. Esquema del proceso de construccin y bsqueda heursticas de rboles

mediante un algoritmo star decomposition. En el ejemplo se muestra un conjunto de
datos con cinco muestras (A, B, C, D, E).
La alternativa de stepwise addition (Fig. 4) construye un rbol inicial que
incluye tres secuencias al que se van a ir aadiendo las restantes secuencias una a
una. La seleccin del primer rbol de tres secuencias as como el modo de adicin de
las restantes secuencias puede realizarse siguiendo distintos criterios as is el
primer rbol se construye con las tres primeras secuencias de la matriz y la adicin de
las siguientes secuencias se hace por orden de posicin en la matriz; random las tres
primeras secuencias as como la posterior adicin de secuencias se hace a partir de
una lista de nmeros aleatorios; closest, de todos los posibles rboles con tres
secuencias se selecciona el que presenta menor longitud y las secuencias se van
aadiendo siguiendo este mismo criterio, etc..
Cursos OCW
Pag. 7 de 8
Tema 2.1
Paso 1
Paso 2
Seleccionar una de las muestras

no incluidas en el rbol de inicio
y construir los 3 nicos rboles posibles,
evaluar el criterio de seleccin
y elegir el mejor rbol
A partir del rbol seleccionado en el

paso 1, conectar la muestra
restante, construir todos
los 5 posibles rboles, evaluar el criterio
de seleccin y elegir el mejor rbol
Paso 0
Construir un primer rbol que incluya
tres muestras
1 2 3 4
A
B
C
D
E
T
T
A
A
A
T
T
G
G
A
C
C
C
C
T
C
C
C
C
C
E
C
B
B
B
C
C
A
D
E
A
C
A
D
A
D
B
E
E
E
D
A
C
Figura 4. Esquema del proceso de construccin y bsqueda heursticas de rboles

mediante un algoritmo stepwise addition. En el ejemplo se muestra un conjunto de
datos con cinco muestras (A, B, C, D, E).
Dado que las bsquedas heursticas no prospectan todo el universo de rboles
posibles, estos algoritmos mejoran sus bsquedas garantizando encontrar rboles
ptimos mediante procesos de intercambio de ramas branch swapping (tree bisection
reconection (TBR), nearest-neighbour interchange (NNI), subtree pruning and
regrating (SPR); Hillis et al. 1996). En cada bsqueda el rbol ms ptimo que incluya
todos los txones es mejorado mediante estos procesos de intercambio de ramas. Los
rboles construidos en cada paso son evaluados y aceptados o rechazados en funcin
del criterio de optimizacin utilizado (menor nmero de pasos en MP, mayor valor de
verosimilitud en ML).
(3) Las bsquedas estocsticas que se emplean en filogenia molecular
muestrean mediante la tcnica de Markov Chain Monte Carlo (MCMC) a partir de un
rbol inicial construido estocsticamente sobre el que se realizan modificaciones al
azar que alteran no slo la topologa del rbol, sino tambin la longitud de las ramas o
los parmetros del modelo de sustitucin (vase tema 3.4). El rbol modificado es
evaluado, mediante el clculo de la probabilidad a posteriori (PP), y aceptado o
rechazado conforme a la probabilidad descrita por el algoritmo de Metropolis &
Hastings. Este algoritmo aumentan la probabilidad de encontrar los rboles ptimos
mediante la posibilidad de hacer pequeos pasos para atrs. Adems, al realizar
varias

Cursos OCW
Pag. 8 de 8
Tema 2.2
______________________________________________________________________
TEMA 2.2. Puntos clave en el diseo y elaboracin de una filogenia molecular
_____________________________________________________________________
Las filogenias moleculares son estimas, por lo que para un mismo conjunto de datos
puede haber mltiples soluciones igualmente correctas. El punto clave en el diseo de
un estudio de filogenia molecular es maximizar las probabilidades de encontrar el rbol
correcto segn el mtodo seleccionado. Estas probabilidades estn afectadas por
caractersticas del propio conjunto de datos y del rbol; el balance del rbol (la longitud
relativa de las ramas internas y los terminales), as como por la propia topologa del
rbol (pectinada o dicotmica; Smith 1994).
Si bien el gran avance en sistemtica de los ltimos 30 aos se fundamenta
sobre una robusta base metodolgica, an existen numerosas fuentes de error.
Algunas de estas fuentes de error estn asociadas a cuestiones prcticas y
tecnolgicas como falta de marcadores moleculares adecuados (Hughes et al. 2006,
Shaw et al. 2007) o falta de potencia de clculo, entre otros (vase a continuacin).
Adems de estas cuestiones prcticas, el desconocimiento de los procesos
evolutivos subyacentes puede incurrir en errores de interpretacin o en la recuperacin
de reconstrucciones filogenticas falsas. De cara a la interpretacin de una
reconstruccin filogentica habra que considerar: (1) la distincin entre rboles de
genes y rboles de especies (Doyle 1992, Maddison 1997), que puede conducir a
errores de interpretacin por ejemplo debido al anlisis de genes parlogos (Pamilo &
Nei 1988); (2) la incidencia de procesos como lineage sorting, ya que el mantenimiento
de polimorfismos ancestrales y la prdida azarosa de linajes implica estimas
filogenticas incorrectas; y (3) el grado y tasa de homogenizacin inter e
intragenmica despus de hibridacin debida a la evolucin concertada en genes de
copia mltiple, entre otros.
Procedencia, nmero y seleccin de marcadores moleculares y regiones de ADN. Las
clulas animales y vegetales presentan dos (nuclear y mitocondrial) y tres tipos de
genomas (nuclear, plastidial y mitocondrial), respectivamente. Estos tipos de genomas
presentan diferentes modos de herencia y distintas tasas de cambio. Un estudio en
sistemtica de plantas debera prospectar regiones moleculares tanto del genoma
nuclear como del plastidial y/o mitocondrial (Judd et al. 2002). Del mismo modo, un
estudio en sistemtica de animales debera prospectar regiones tanto del genoma
nuclear como del mitrocondrial. Esta recomendacin se convierte en requisito
fundamental cuando existen indicios de hibridacin.
Un mayor nmero de regiones analizadas aumenta la resolucin y fiabilidad de
los datos (Hillis et al. 1996, aunque vase Philippe et al. 2005) y el apoyo, siempre que
las regiones prospectadas sean congruentes y pueda realizarse un anlisis combinado
(Hughes et al. 2006).
La seleccin de las regiones analizadas viene determinada por el rango
taxonmico al que se vaya realizar el estudio (Hillis et al. 1996). En la bsqueda de
marcadores moleculares adecuados se persigue un equilibrio entre variabilidad (tasa
de mutacin) e informacin (superposicin de cambios). En el genoma nuclear se ha
impuesto el uso de la regin espaciadora del ADN ribosmico ITS (Baldwin et al. 1995,
Feliner & Rosell 2007) y en menor medida algunos genes con bajo nmero de copias
(lvarez & Wendel 2003, Hughes et al. 2006). La dificultad en obtener secuencias de
genes de copia simple, que estn exentos de muchos de los problemas evolutivos de
los de copia mltiple, ha reducido su uso en filogenias (lvarez & Wendel 2003,
Cursos OCW
Pag. 1 de 3
Tema 2.2
Hughes et al. 2006). Sin embargo, y teniendo en cuenta las limitaciones, las regiones
de copia mltiple proporcionan reconstrucciones fiables una vez consideradas sus
limitaciones (Feliner & Rosell 2007). En cualquier caso, se estn realizando avances
en la criba de marcadores moleculares de cara a poder realizar filogenias con
diferentes marcadores nucleares (Hughes et al. 2006). Desde Taberlet et al. (1991) se
ha profundizado en el estudio y deteccin de regiones del ADN plastidial (Small et al.
1998, Shaw et al. 2005, 2007). Por este motivo, las posibilidades son mucho mayores
y la seleccin de la regin pasa a ser un punto primordial en el diseo del experimento
(Small et al. 1998, Shaw et al. 2005, 2007). El gran tamao del genoma mitocondrial
en plantas, junto con la existencia de secuencias de ADN de otros organelos (plastos),
presencia efmera de grandes regiones duplicadas, inestabilidad estructural,
transferencia de genes al ncleo y baja tasa de cambio ha limitado el uso del genoma
mitocondrial en filogenias moleculares en plantas (Palmer 1992, Soltis & Soltis 1998).
Tamao muestral. Una de las fuentes de error ms frecuentes en las filogenias se
deriva del taxon sampling effect, sobre todo a nivel especfico (Hughes et al. 2006). No
muestrear todas las especies puede incurrir en errores produciendo sesgos al eliminar
los eventos ms recientes de especiacin o los que afectan a especies raras (Nee et
al. 1994). Ni qu decir tiene que todo estudio parte del error de no poder tratar las
especies extintas. Aumentar el nmero de muestras aumenta la probabilidad de
obtener el rbol correcto (Wheeler 1992), se rompen la atraccin de ramas largas lo
que hace que la homoplasia se disperse facilitando el reconocimiento de la seal
filogentica (Hillis et al. 1996), identificndose los caracteres con homoplasia global
pero localmente informativos (Wenzel & Siddall 1999).
Seleccin del grupo externo (outgroup). El reducido nmero de cambios posibles en
los datos moleculares incrementa sensiblemente la probabilidad de homoplasia
(convergencia y reversin). El grupo externo debe ser seleccionado en concordancia
con las tasas relativas de evolucin y los tiempos relativos de divergencia para
minimizar problemas de homoplasia y aumentar la probabilidad de obtener el rbol
correcto. Grupos externos lejanos del grupo interno alteran la longitud relativa de las
ramas lo que puede generar topologas desequilibradas y alterar la topologa interna
del grupo de estudio debido al fenmeno de atraccin de ramas largas (long branched
attraction, Felsenstein 1978; Wheeler 1990) y por lo tanto disminuir la probabilidad de
alcanzar el rbol correcto. El outgroup debe estar compuesto por diferentes txones de
los distintos grupos taxonmicos cercanos para evitar la aparicin de falsas
sinapomorfas en el grupo de estudio (Smith 1994, pero vase Nixon & Carpenter
1993). Es deseable tambin, contar con una representacin relativamente exhaustiva
dentro del grupo externo ya que minimiza la atraccin de ramas largas. Por este
motivo es preferible aumentar el muestreo del grupo externo mediante la adicin de
secuencias al grupo hermano (sister-group) mejor que aumentar el nmero de grupos
distantes. En cualquier caso, la inclusin del todas las muestras de categora
taxonmica por encima de la del grupo interno es recomendada de cara a esclarecer
las relaciones de grupo hermano y obtener una filogenia de confianza.
Alineamiento (vase tema 3.2). El reconocimiento de regiones homlogas (con mismo
origen y disposicin) es de vital importancia pues establece la hiptesis de homologa
primaria de modo que tiene un gran impacto en las reconstrucciones filogenticas
resultantes (Simmons et al. 2001). El reconocimiento de estas regiones es importante
dado que slo por azar dos secuencias de ADN puede presentar hasta un 25% de
identidad (Simmons & Freudenstein 2003). Los errores de alineamiento que afectan a
la homologa y a la superposicin de cambios (multiple hits) en una rama, suponen
graves errores en la resolucin de los mismos en la topologa de los rboles y en los
apoyos de las ramas (Simmons & Freudenstein 2003). Existen algunos programas
Cursos OCW
Pag. 2 de 3
Tema 2.2
(MUSCLE, Edgar 2004; MALIGN, Wheeler & Gladstein 2000; POY, Gladstein &
Wheeler 1996; DIALIGN, Morgenstern et al. 1998; Clustal W, Thompson et al. 1994)
que implementan distintos algoritmos para el alinemiento automtico de las
secuencias. Sin embargo, los algoritmos desarrollados no resuelven satisfactoriamente
los alineamientos mltiples (Lee 2001, Soltis & Soltis 2003). Por lo que todo
alineamiento automtico debera ser posteriormente revisado manualmente (Doyle &
Gaut 2000, Simmons & Ochoterena 2000). El alineamiento de secuencias implica la
incorporacin de datos inciertos (missing data) y caracteres generados como producto
del alineamiento (gaps). El tratamiento de estos datos producto del establecimiento de
homologas posicionales es tambin muy importante de cara a las reconstrucciones
filogenticas (Simmons & Ochoterena 2000).
Seleccin de los mtodos de anlisis. La seleccin del mtodo de anlisis viene
determinada por el tipo de datos y sobre todo por la pregunta planteada. En cualquier
caso, es comn y deseable evaluar distintos mtodos (Doyle & Gaut 2000).
Medidas de apoyo y confianza. Existen distintas medidas de apoyo para las ramas de
los rboles obtenidas mediante tcnicas de remuestreo (bootstrap y jacknife, para MP,
ML y NJ; Bremer support o ndice de decay (Bremer 1994), para MP; o Posterior
Probabilities, para BI). Estas medidas no pueden ser tomadas como estrictamente
estadsticas, pero s como una estimacin de la robustez de las ramas. Existen
estudios experimentales que recuperan valores bootstrap de 70% para clados reales
(Hillis & Bull 1993); sin embargo, suelen tomarse valores iguales o superiores a 90%
bootstrap como seales fuertes de apoyo. Las probabilidades a posteriori
proporcionadas por la inferencia bayesiana superiores al 0.95 (95%) son igualmente
las ms fiables (Murphy et al. 2001, aunque vase Suzuki et al. 2002). Aunque se han
detectado falsos positivos en PP cuando se usa un modelo evolutivo sencillo
(Cummings et al. 2003) no detectados en apoyos bootstrap de ML y sobreestimas en
PP cuando existe una estrecha relacin entre las secuencias (Suzuki et al. 2002).
Seleccin del rbol consenso (vase tema 3.3). Los tres mtodos de consenso ms
usados son el estricto (Strict consensus tree; Nelson 1979), semiestricto (Semistrict
consensus tree; Bremer 1990), recomendado cuando los terminales son muy
parecidos o cuando se utilizan distintas fuentes de datos y mayoritario (Majority Rule
consensus tree; Margush & McMorris 1981). La combinacin del consenso estricto con
el mayoritario puede aportar informacin sobre seales filogenticas dbiles.
Seleccin del modelo evolutivo (vase tema 3.4). En la actualidad hay numerosos
modelos de substitucin nucleotdica (modelos evolutivos; Hillis et al. 1996); muchos
de los cuales son submodelos de unos principales. Estos modelos evolutivos se
utilizan para describir los cambios de las secuencias generalmente a travs de la
estimacin de parmetros (frecuencia de bases, intercambio de bases y tasa de
heterogeneidad). De esta forma, se consiguen los modelos evolutivos que mejor se
ajustan al tipo de datos manejado. En los mtodos de inferencia filogentica que
asumen un modelo evolutivo de cambio (distancias, ML y BI) la seleccin del modelo
evolutivo tiene un gran impacto en los rboles recuperados (Sullivan & Swofford 1997;
Whelan et al. 2001). Modelos simples pueden subestimar las longitudes de las ramas
(Yang 1994, Whelan et al. 2001). Los tres criterios ms empleados para seleccionar el
modelo evolutivo son hierarchical likelihood ratio test (hLRT), Akaike information
criterion (AIC) y bayesian information criterion (BIC) (Posada 2001, Posada and
Buckley 2004).

Cursos OCW
Pag. 3 de 3
Tema 3
_____________________________________________________________________
TEMA 3. ANLISIS FILOGENTICOS: CMO OBTENER UNA FILOGENIA
MOLECULAR PASO A PASO
_____________________________________________________________________
Isabel Draper (Isabel.draper@uam.es)
Maite Aguado (maite.aguado@uam.es)
Una gran parte de los trabajos de filogenia molecular se inician con el muestreo de
campo, tras el que se desarrolla el trabajo de laboratorio que consiste en extraccin de
ADN, amplificacin de regiones de ADN y por ltimo secuenciacin de los productos
de la PCR. Sin embargo, otros muchos trabajos de filogenia molecular pueden
iniciarse a partir de secuencias de ADN que han obtenido otros autores. Esto es as
gracias a que existe una base de datos online (GenBank, vase tema 3.1) en la que
todos los autores que quieran publicar una filogenia molecular en una revista cientfica
indexada estn obligados a colgar las secuencias. De esta manera, todo el que quiera
puede descargarse las secuencias obtenidas por otros y trabajar con ellas.
En cualquiera de los dos casos, el planteamiento inicial debe partir del
establecimiento de la hiptesis de trabajo que estar sustentada sobre una pregunta
biolgica a la que queramos dar respuesta. Evidentemente, tanto el diseo del
muestreo como el tipo de anlisis a realizar variarn en funcin de la pregunta que nos
planteemos. Por ello, si no has ledo el tema 2, tmate un tiempo y lelo antes de
continuar con el tema 3.
En este curso online os vamos a proponer trabajar con un grupo de estudio
sobre el que vamos a ir realizando todas las actividades en cada uno de los pasos de
ejecucin de las filogenias. Sin embargo, el esquema del curso tambin permite su
seguimiento si trabajis con vuestras propias secuencias, en vez de hacerlo con el
grupo de estudio propuesto.
Actualmente existe un intenso trabajo para el desarrollo de software de anlisis
filogenticos, por lo que cada da os encontraris nuevos programas. Aqu hemos
hecho una seleccin de programas gratuitos con los que podis desarrollar todas las
partes del trabajo de anlisis del filogenetista. No obstante, existen muchos otros
programas que no explicaremos pero que podis encontrar en la pgina web
http://evolution.genetics.washington.edu/phylip/software.html. Adems, en paralelo se
estn desarrollando numerosos paquetes para la realizacin de anlisis filogenticos y
otros anlisis basados en filogenias en la plataforma de trabajo R (Paradis 2006,
Analysis of Phylogenetics and Evolution with R).

Cursos OCW
Tema 3.1
___________________________________________________________________
TEMA 3.1. Obtencin de secuencias
_____________________________________________________________________
INTRODUCCIN
El producto de la secuenciacin se traduce en una cadena de nucletidos que
representa la secuencia de ADN amplificada con un cromatograma asociado (Fig. 1).
Figura 1. Cromatograma
con artefactos posiblemente
debidos a la PCR. En la
posicin 299 se observa una
posible aditividad detectada,
mientras en la posicin 304
se observa un posible
aditividad no detectada.
Si tienes tus propias secuencias, entonces el primer paso es revisar esos

cromatogramas. En la lectura de un cromatograma pueden existir fallos. En algunos
casos, dichos fallos son detectados e identificados mediante la presencia de Ns (Fig.
1, posicin 299), mientras que en otros casos no son detectados (Fig. 1, posicin 304).
Los fallos pueden deberse a la saturacin de un pico, presencia de posibles
aditividades reales o artefactos de la PCR (Figs. 1 y 2).
Figura 2. Cromatograma con una aditividad (posicin 420) posiblemente debida a la

presencia de dos copias diferentes de la regin secuenciada (una con una A en
posicin 420 y otra con una G en esa misma posicin).
Por todo ello, tras la secuenciacin hay que revisar los cromatogramas y
sustituir las Ns por el o los nucletidos correspondientes, corregir fallos no detectados
en la lectura e identificar las secuencias de inicio y final de la regin secuenciada.
Este curso est enfocado a trabajar con secuencias obtenidas por otros
autores, por lo que no explicaremos cmo realizar la revisin de los cromatogramas.
Sin embargo os recomendamos utilizar el programa PhyDE (Phylogenetic Data Editor)
que es gratuito y de fcil manejo (vase tema 3.2). Este programa puede descargarse
gratuitamente en el siguiente enlace web: http://www.phyde.de/.

Cursos OCW
Pag. 1 de 10
Tema 3.1
Tambin puedes hacer filogenias moleculares sin haber obtenido tus propias
secuencias. Esto es posible gracias a una base de datos online llamada GenBank
(http://www.ncbi.nlm.nih.gov/genbank/). En esta base de datos se almacenan todas las
secuencias que se incluyen en todos los artculos publicados en revistas cientficas
indexadas. Cada secuencia queda registrada con un nmero de GenBank, conocido
como GenBank accession number que ha de incluirse en los artculos para la
identificacin de las secuencias.
METODOLOGA Y PRCTICA
I. Bsqueda y descarga de secuencias en GenBank
Paso 1. Ve a la pgina web del GenBank:
http://www.ncbi.nlm.nih.gov/genbank/
Paso 2. Selecciona Nucleotide en el desplegable Search. De esta manera,
ests restringiendo la bsqueda a los registros de la base de datos del
GenBank que corresponden a secuencias de nucletidos.
Paso 3. Especifica los criterios de la bsqueda de secuencias en la ventana for.
Opciones de bsqueda:
a. Si conoces el nmero de GenBank puedes incluirlo directamente (ej.
DQ987166).
b. Si no conoces el nmero de GenBank o si lo que quieres es saber si
hay algo publicado de un taxon concreto o de una regin del ADN
concreta, entonces has de hacer una bsqueda ms genrica. Puedes
buscar por el nombre del taxon (si es binomial ha de ir entre comillas;
Ej. Reseda alba y te aparecern todas las secuencias de todas las
regiones del ADN de R. alba que hayan sido obtenidas y publicadas).
Tambin puedes buscar por el nombre de la regin del ADN que te
interese (Ej. Internal Transcribed Spacer y te aparecern todas las
secuencias de esta regin del nrADN que se hayan obtenido y
publicado para todos los organismos vivos). Para bsquedas
combinadas los trminos de la bsqueda deben ir anidados mediante
un la palabra AND.

Cursos OCW
Pag. 2 de 10
Tema 3.1
Paso 4. Segn vayas realizando las bsquedas, puedes ir guardando las

secuencias que te interesen para despus descargrtelas todas juntas.
Para ello, debes seleccionar las secuencias deseadas, ir a Send to y
sealar Clipboard. Esta opcin almacena durante unas horas las
secuencias que hayas seleccionado en una carpeta denominada
Clipboard.
Paso 5. Accede a la carpeta Clipboard que aparecer en la parte superior

derecha de la pgina junto a Send to y
a. Selecciona todas las secuencias que quieras descargar (en nuestro
caso todas las guardadas).
b. Ve a Send to y selecciona la opcin File. Inmediatamente se
abrir un desplegable que te pedir el formato en el que quieres
Cursos OCW
Pag. 3 de 10
Tema 3.1
descargar las secuencias. Seala FASTA. Cambia el nombre del

fichero por Secuencias_genbank_ITS
Paso 6. Al descargarte las secuencias obtendrs un archivo de texto que incluye

todas las secuencias seleccionadas en formato fasta (vase tema 3.2).
brelo con un editor de texto (WordPad para PC, o TextWrangler para
MAC; OJO es muy importante que no lo abris con Word). En la lnea
superior a la cadena de nucletidos de cada secuencia aparece lo que
identifica como el nombre de las secuencias (vase tema 3.2). Como
veris ms adelante, la mayora de los programas de filogenia no admiten
nombres largos, por lo que os recomiendo que despus del smbolo >
dejis slo alguna cadena de caracteres que identifique al taxon EJ.:
>R_alb_DQ987192. Esto indicara que ah comienza el nombre de una
secuencia de Reseda alba cuyo nmero de GenBank es DQ987192. Es
importante conservar este nmero, pues es la nica manera de saber
cul de todas las secuencias que hay en internet corresponde a la que te
descargaste.
Ejercicio 3.1.1. Descrgate las siguientes secuencias de ITS (DQ987192, DQ987187,
DQ987166, FJ212178, GQ891137, GQ891139, GQ891140, DQ987181, GQ891132,
DQ987183, DQ987172, GQ891136, GQ891150, GQ891151, GQ891162, DQ987176,
GQ891169). Abre el archivo con un editor de texto, renombra las secuencias y guarda
el archivo (.fasta) bajo el nombre Secuencias_ITS.
Ejercicio 3.1.2. El objetivo final de las prcticas de este curso consiste en presentar
una reconstruccin filogentica de Reseda sect. Glaucoreseda. Para ello utilizaremos
dos regiones de ADN, una del genoma nuclear (ITS) y otra del genoma plastidial
(trnLF). Teniendo en cuenta que es posible que combinemos ambas regiones y que ya
has descargado las secuencias del ejercicio 3.1.1., qu accessions del GenBank del
espaciador plastidial trnL-F de todas las disponibles en el GenBank utilizaras para
hacer la matriz plastidial?
Ejercicio 3.1.3. Comprueba que has hecho bien el Ejercicio 3.1.2. y descrgate dichas
secuencias, renmbralas y gurdalas bajo el nombre Secuencias_LF.
Cursos OCW
Pag. 4 de 10
Tema 3.1
II. Otras opciones del GenBank: BLAST

La herramienta Basic Local Alignment Search Tool (BLAST) es un motor de bsqueda
que mediante un algoritmo heurstico (Smith-Waterman) realiza alineamiento de
secuencias (vase tema 3.2). Esta herramienta est disponible en el GenBank y
permite, entre otras opciones, comparar una secuencia modelo (query) con todas las
secuencias almacenadas en la base de datos. El programa busca dentro de la base de
datos aquellas secuencias que presenten mayor similitud con la secuencia modelo. La
bsqueda se inicia mediante la identificacin de una cadena de nucletidos (en
nuestro caso) de un tamao determinado igual entre la secuencia de estudio y las
disponibles en el GenBank. El tamao de la secuencia a buscar define la especificidad
inicial de la bsqueda. Posteriormente se aplica un sistema de penalizacin, para las
diferencias, y ganancias, para las similitudes, cuya proporcin relativa puede ajustarse
en funcin de lo conservadas que sean las secuencias.
Esta herramienta es especialmente til para la bsqueda de posibles grupos
hermanos e incluso para la identificacin de posibles contaminaciones y errores.
Paso 1. Ve a la pgina web del GenBank:
http://www.ncbi.nlm.nih.gov/genbank/
Paso 2. Pincha en el link BLAST que aparece en la barra izquierda de la
pantalla.
Paso 3. Se abrir una nueva ventana en la que se solicita el tipo de bsqueda a
realizar. Si bien en este curso vamos a realizar una bsqueda bsica, la
herramienta BLAST del GenBankenbank presenta mltiples opciones
(alineamiento mltiple o diseo de primers, entre otras). Pincha en el link
nucleotide blast dentro de Basic BLAST. Con ello ests restringiendo la
bsqueda a secuencias de nucletidos.

Cursos OCW
Pag. 5 de 10
Tema 3.1
Paso 4. Se abrir una ventana en la que se solicita la secuencia modelo (query),

esta puede cargarse a partir de un archivo o bien se puede pegar
directamente en la ventana Enter accession number(s), gi(s), or FASTA
sequence(s). Abre el archivo Glaucoreseda_ITS.fasta con un editor de
texto (WordPad para PC, o TextWrangler para MAC; OJO es muy
importante que no lo abris con Word) copia la secuencia
R_bat1_GQ891132 y pgala en la pgina web. OJO: slo se ha de
pegar la cadena de nucletidos.

Cursos OCW
Pag. 6 de 10
Tema 3.1
Paso 5. En Choose Search Set, selecciona la base de datos donde quieres

que se realice la bsqueda. Por defecto viene sealada la base de datos del
genoma humano, debes sealar Others (nr etc.). En Program Selection se
puede elegir el criterio para la bsqueda. Deja la opcin que aparece sealada
por defecto Highly similar sequences (megablast). Aunque en este curso
dejaremos el resto de los parmetros que definen la bsqueda con los valores
que aparecen por defecto, es interesante ver qu otros parmetro intervienen
en la bsqueda y cmo modificarlos. Si abres el link Algorithm parameters
aparecern los siguientes parmetros

Cursos OCW
Pag. 7 de 10
Tema 3.1
a. Max target sequences: nmero de secuencias que quieres que

aparezcan como output.
b. Expect threshold: es el nmero de asociaciones que se pueden
producir por azar. Por defecto aparece 10 lo que significa que aquellas
asociaciones cuya significacin sea superior al umbral (10) sern
descartadas por considerarse espurias.
c. Word size: nmero de nucletidos incluidos en la secuencia inicial de
bsqueda. Cuanto mayor sea este nmero, ms restrictiva ser la
bsqueda.
d. Match/Mismatch scores: permite regular la relacin penalizacin
ganancia. El valor que aparece por defecto 1,-2 permitir la asociacin
de aquellas secuencias cuya similitud sea al menos del 95%. Este valor
puede interesar modificarlo si, por ejemplo, no encontrsemos ninguna
asociacin en una primera bsqueda.
Paso 6. Una vez finalizada la definicin de la bsqueda dale a la opcin BLAST.
Cuando termine la bsqueda se abrir una ventana con los resultados.
En la parte superior aparece un resumen grfico en el que se muestran
las 100 mejores secuencias encontradas en el GenBank; es decir, las 100
secuencias que ms se parecen a la secuencia modelo. La barra
horizontal superior representa la secuencia modelo indicando la longitud
final. El resto de las barras horizontales indican con distintos colores la
puntuacin obtenida al alinear nuestra secuencia modelo con cada una
de las 100 mejores secuencias. Colocando el cursor encima de cada
barra podemos ver a qu secuencia pertenece.

Cursos OCW
Pag. 8 de 10
Tema 3.1
As, en esta figura se puede apreciar cmo las mejores secuencias

encontradas en el GenBank presentan una puntuacin superior a 200
(rojo) al compararse y alinearse con nuestra secuencia modelo
(R_bat1_GQ891132). No obstante, mientras la mejor secuencia (primera
barra) cuenta con un nmero de nucletidos similar al de la secuencia
modelo, la segunda mejor es una secuencia con cerca de 300
nucletidos, que se alinean con una buena puntuacin a las primeras 300
posiciones de nuestra secuencia modelo.
Paso 7. Debajo de Graphic Summary en Descriptions aparece una lista con

la informacin de los alineamientos generados. As, para cada una de las 100
mejores secuencias se indica el nmero del GenBank, la procedencia de la
muestra, la puntuacin del alineamiento, el porcentaje de la longitud total de la
secuencia modelo que ha podido ser alineado con la secuencia encontrada, los
valores
esperados
si
el
alineamiento
se
debiese
al
azar
(http://www.youtube.com/watch?v=nO0wJgZRZJs&feature=youtu.be;
http://www.youtube.com/watch?v=Z7ek7UoP7Bg&feature=youtu.be)
y
por
ltimo el porcentaje de similitud entre ambas secuencias.
Cursos OCW
Pag. 9 de 10
Tema 3.1
Paso 8. Finalmente, bajo el epgrafe de Alignments aparecen cada uno de los

100 alineamientos.

Cursos OCW
Pag. 10 de 10
Tema 3.2
______________________________________________________________________
TEMA 3.2. Obtencin de matrices: bsqueda de homologas, alineamiento
_____________________________________________________________________
Contacto: Isabel Draper (Isabel.draper@uam.es)
INTRODUCCIN
Una vez obtenidas las secuencias, es necesario agruparlas para construir la matriz de
datos. Para ello se colocan las secuencias superpuestas, de tal manera que cada fila
corresponde a una muestra y cada columna a un carcter (que en el caso de las
secuencias ser molecular un nucletido o un conjunto de nucletidos-, pero que
tambin puede ser morfolgico). Este es el proceso que se denomina alineamiento, y
busca enfrentar aquellas partes de las secuencias que son homlogas (idnticas o con
el menor nmero de cambios posible), para as poder identificar mutaciones,
inserciones, deleciones, inversiones, etc. producidas entre las muestras estudiadas
(Fig. 1).
Figura 1. Ejemplo de bsqueda de homologa para realizar un alineamiento.

La correcta elaboracin del alineamiento constituye un paso fundamental para
la obtencin de una buena filogenia, dado que la topologa de los rboles filogenticos
que se obtengan al final del proceso est totalmente condicionada por las asunciones
de homologa reflejadas en la matriz de datos (Simmons et al, 2001; Simmons y
Freudenstein, 2003). Sin embargo, en algunas ocasiones, el alineamiento de las
secuencias es difcil, dado que las secuencias pueden haber acumulado multitud de
cambios que pueden ser interpretados de diferentes maneras (Fig. 2), o que implican
unas secuencias tan diferentes entre s que se complica la bsqueda de zonas
homlogas. Adems, dos secuencias de ADN pueden presentar hasta un 25% de
identidad slo por azar (Simmons y Freudenstein, 2003).
Figura 2. Distintas alternativas (A y B) para el alineamiento de las dos mismas

secuencias.
Cursos OCW
Pag. 1 de 18
Tema 3.2
Las mutaciones del ADN pueden ser: sustituciones (cambio de un nucletido

por otro en una misma posicin), inserciones (adicin de nuevos nucletidos a la
secuencia) o deleciones (prdidas de nucletidos en la secuencia). Las mutaciones
ms frecuentes son las sustituciones, sin embargo no es raro encontrar inserciones y
deleciones de diferente tamao. La presencia de inserciones o deleciones en
determinadas secuencias supone un reto en el alineamiento al obligar a la inclusin de
un nuevo carcter (denominado gap o indel y representado por el smbolo -) en la(s)
secuencia(s) que carezcan de esa posicin. En el ejemplo de la figura 2 se puede
observar como la posibilidad A implica la creacin de tres huecos gaps- (por insercin
en la primera secuencia o delecin en la segunda) y una mutacin entre las posiciones
200 y 222, mientras la posibilidad B implica tres gaps y ninguna mutacin en ese
mismo conjunto de bases.
En general, se considera que el mejor alineamiento es aquel que tiene ms
sentido biolgico. Existen numerosos programas informticos que realizan
alineamientos de manera automtica, estableciendo cul de los posibles alineamientos
tiene ms sentido biolgico mediante sistemas de evaluacin (scoring). La manera
ms simple de evaluar los alineamientos consiste en puntuar de manera diferente las
mutaciones y la apertura de gaps en el alineamiento (por ejemplo sumando un punto
por cada base coincidente, dado un valor de cero a cada mutacin y restando un punto
por cada base que falte). En cualquier caso, los alineamientos obtenidos siempre
deben ser revisados manualmente para valorar el sentido biolgico de los cambios
propuestos (ej. Doyle y Gaut, 2000; Kelchner, 2000). Finalmente es muy importante
decidir cmo tratar los gaps del alineamiento a la hora de elaborar la reconstruccin
filogentica (Simmons y Ochoterena, 2000). En la mayor parte de los programas la
opcin establecida por defecto considera los gaps como informacin desconocida
(missing data, representado el matriz por el smbolo ?). Sin embargo, muchos
autores sostienen que los gaps pueden tener sentido filogentico. Existen dos
maneras de considerar los gaps como informativos para los anlisis: como un quinto
estado (A, T, C, G, -), con el inconveniente de que cada base ausente es considerada
como un carcter independiente (cuando puede no serlo si ha habido una insercin o
delecin mltiple), o codificando cada indel (insercin o delecin; Simmons y
Ochotorena, 2000).
Una vez obtenido el alineamiento, este puede ser guardado en diferentes
formatos de texto para su posterior anlisis. Los formatos ms frecuentemente
utilizados son fasta, nexus y phylip.
El formato fasta (Fig. 3) incluye el nombre de la secuencia, que se distingue
por empezar por el smbolo >, y los datos de la secuencia, nucletidos representados
por un cdigo de letras que normalmente es:
Cdigo
A
C
G
T
U
R
Y
K
M
Significado
Adenosina
Citosina
Guanina
Timidina
Uracilo
G/A
T/C
G/T
A/C
Cdigo
S
W
B
D
H
V
N
X
-
Significado
G/C
A/T
G/T/C
G/A/T
A/C/T
G/C/A
A/G/C/T
mscara
gap

Cursos OCW
Pag. 2 de 18
Tema 3.2
Figura 3. Representacin de dos secuencias de ADN de Reseda luteola y R. alba en

formato fasta.
El formato nexus (Fig. 4) incluye un bloque inicial, previo a la matriz de datos,
mediante el cual se especifican:
-
el formato (#Nexus)
las dimensiones de la matriz (ntax=nmero de secuencias y nchar=nmero de
caracteres)
el tipo de datos incluidos (datatype=dna o restriction si se trata de gaps
codificados- o standard si son caracteres morfolgicos codificados-)
la manera de alternar las secuencias (interleave=yes si en la matriz se
alternan la primera lnea de la muestra 1, la primera lnea de la muestra 2, la
segunda lnea de la muestra 1, la segunda lnea de la muestra 2, etc.- o
interleave=no si la matriz est constituida por la primera secuencia completa,
seguida por la segunda secuencia completa, etc.-)
el cdigo de smbolos utilizado
A continuacin de este bloque aparece la matriz de datos, que en el caso de

secuencias moleculares suele estar constituida por el nombre de la secuencia (en este
caso no se acepta el comienzo con >) y sus nucletidos. La matriz siempre termina
con ; END;

Cursos OCW
Pag. 3 de 18
Tema 3.2
Figura 4. Representacin de las mismas dos secuencias de ADN de Reseda luteola y

R. alba en formato nexus.
El formato Phylip tambin incluye una primera lnea en la que se indican las
caractersticas de la matriz (Fig. 5). En este caso esa primera lnea est constituida por
un primer nmero que se refiere al nmero de muestras, un segundo nmero que se
refiere al nmero de caracteres, y una letra (i si los datos aparecen interleaved, s si
aparecen secuenciales). A continuacin de esta lnea aparece la matriz, constituida
por el nombre de la secuencia, seguida por los nucletidos que la constituyen.
Figura 5. Representacin de las mismas dos secuencias de ADN de Reseda luteola y

R. alba en formato phylip.
PROGRAMAS NECESARIOS
Existen numerosos programas informticos para el alineamiento de secuencias, tanto
para hacer un alineamiento manual secuencia a secuencia, como para obtener un
alineamiento automtico. Algunos de estos programas pueden ser utilizados
directamente en aplicaciones de Internet, como por ejemplo en:
Cursos OCW
Pag. 4 de 18
Tema 3.2
http://www.ebi.ac.uk/Tools/msa/
En esta seccin te proponemos la utilizacin de ClustalW2 (Larkin et al, 2007;
Thompson et al, 1994) y MUSCLE (Edgar, 2004) para el alineamiento automtico
(disponibles en la direccin de Internet indicada), y PhyDE (Mller et al:
http://www.phyde.de/ ) para el alineamiento manual.
PhyDE es un editor de alineamientos con el que puedes realizar manualmente
un alineamiento desde cero, o modificar un alineamiento previamente obtenido, como
vamos a hacer a continuacin.
Este
programa
puede
ser
descargado
desde
http://www.phyde.de/download.html. Al ser instalado, automticamente se crear una
carpeta llamada PhyDE-Data. Para poder utilizar los plugins desde PhyDE debes
buscar dnde se localiza esta carpeta en tu ordenador, crear dentro de ella dos
subcarpetas: tmp y Plugins, e instalar los Plugins en la carpeta Plugins que acabas de
crear. El manual de utilizacin de PhyDE puedes consultarlo en:
http://www.phyde.de/docu/docu.html.
I. Alineamiento mediante ClustalW2
Paso 1.
Desde la pgina http://www.ebi.ac.uk/Tools/msa/ abre ClustalW2:
Paso 2. El primer paso (step 1) consiste en seleccionar el tipo de secuencias

(DNA en este caso) y cargar el archivo para alinear. Carga Secuencias_LF.fas
generado desde GenBank en el tema 3.1:

Cursos OCW
Pag. 5 de 18
Tema 3.2
Paso 3. De momento vamos a dejar los parmetros que vienen seleccionados

por defecto para los steps 2 y 3. Ten en cuenta que en estos pasos es en los
que se pueden modificar las penalizaciones que se dan a la apertura y
extensin de gaps.
Paso 4. En el step 3 se pueden seleccionar adems opciones de formato del
output (alineamiento de salida): el tipo de formato en el que se guardar y el
orden en el que aparecern las secuencias. Selecciona fasta y orden como en
el input (como en el archivo de entrada). Pincha en submit para obtener el
alineamiento.
Paso 5. El alineamiento automtico obtenido aparece en una ventana, desde la
cual puede ser descargado:
Paso 6.
File:
Guarda el alineamiento obtenido pinchando en Download Alignment

Cursos OCW
Pag. 6 de 18
Tema 3.2
Guarda el archivo con el nombre Alineamiento_LF_clustal, para indicar que el

alineamiento ha sido obtenido con Clustal y as poder compararlo
posteriormente con los alineamientos resultantes de otros programas que
utilizaremos.
Paso 7. En la pestaa de Result Summary puedes ver una tabla con informacin
sobre la longitud de las secuencias (una vez introducidos los gaps), etc.:

Cursos OCW
Pag. 7 de 18
Tema 3.2
En esa misma pestaa, pinchando en Start Jalview puedes visualizar el

alineamiento. Esta visualizacin te permite identificar fcilmente las zonas que
estn mejor conservadas, las que han sufrido mutaciones, y los puntos en los
que es necesario introducir un gap porque se ha producido una insercin o una
delecin:
Ejercicio 3.2.1. Repite el proceso para la regin del ADN ribosmico nuclear ITS y
guarda el alineamiento bajo el nombre Alineamiento_ITS_clustal.
II. Alineamiento mediante MUSLCE

Paso 1.
Desde la pgina http://www.ebi.ac.uk/Tools/msa/ abre ClustalW2:
Paso 2. Como en el caso anterior, el primer paso (step 1) consiste en cargar el

archivo para alinear. Carga de nuevo Secuencias_LF.fas generado desde
GenBank:

Cursos OCW
Pag. 8 de 18
Tema 3.2
Paso 3. En el step 2 se puede seleccionar el tipo de formato en el que se

guardar el alineamiento obtenido. Otra vez selecciona fasta y pincha en
submit para obtener el alineamiento.
Paso 4. Como en el caso anterior, el alineamiento automtico obtenido aparece
en una ventana, desde la cual puede ser descargado:
Paso 5. Guarda el alineamiento obtenido pinchando en Download Alignment

File:

Cursos OCW
Pag. 9 de 18
Tema 3.2
Guarda el alineamiento con el nombre Alineamiento_LF_muscle.

Paso 6. En la pestaa de Result Summary puedes descargar tres tipos de
archivos: el input, que corresponde a las secuencias que introdujimos para
analizar y por tanto ya tenemos, el output, donde se pueden ver los datos
sobre el alineamiento (penalizacin que se da a los gaps, etc.), y el
alineamiento propiamente dicho, que descarga el mismo archivo fasta que
hemos obtenido en el paso anterior. En esta misma pestaa, podemos
visualizar el alineamiento pulsando en Start Jalview:
Ejercicio 3.2.2. Repite el proceso para la regin del ADN ribosmico nuclear ITS y
guarda el alineamiento bajo el nombre Alineamiento_ITS_muscle.
III. Revisin de los alineamientos obtenidos mediante alineamiento manual con

PhyDE
Paso 1.
Abre el programa PhyDE:

Cursos OCW
Pag. 10 de 18
Tema 3.2
Paso 2. Abre uno de los alineamientos obtenidos, por ejemplo el de

Alineamiento_LF_Clustal.fas, haciendo click en File y Open:
PhyDE tiene tres modos de trabajo: Locked, Align y Edit. En el modo locked no
se puede modificar nada del alineamiento, pero en el modo align se pueden
crear gaps (colocando el cursor donde se quiera y dando al espacio), borrarlos
(seleccionndolos y dando a suprimir) y moverlos (seleccionando la parte de la
secuencia que se quiera mover y manteniendo pulsado el botn izquierdo del
ratn). Adems, en el modo edit se puede modificar la secuencia, por ejemplo
si se quiere cambiar algn nucletido tras revisar el cromatograma. Para
cambiar de un modo a otro, pulsar en el botn de modo que est a la derecha,
en la barra superior de herramientas.
Paso 3. Abre el mismo alineamiento obtenido mediante otro programa, por
ejemplo Alineamiento_LF_muscle.fas, haciendo de nuevo click en File y Open.
Puedes visualizar las dos ventanas a la vez seleccionando View y Arrange
windows.

Cursos OCW
Pag. 11 de 18
Tema 3.2
Ejercicio 3.2.3. Compara los dos alineamientos obtenidos y responde a las

siguientes preguntas: (a) Qu diferencias observas entre ellos? (b) Cul de las
opciones te parece que tiene mayor sentido biolgico en cada caso? (c) Existe
algn punto en el alineamiento en el que manualmente hubieras propuesto una
solucin diferente a la obtenida automticamente mediante Clustal y MUSCLE? (d)
Por qu?
Paso 4. Observars que MUSCLE, al crear los gaps, prolonga las secuencias
con Ns al final del alineamiento. Ten en cuenta que el alineamiento definitivo
no debe llevar estas Ns y gaps al final. Puedes eliminarlos en PhyDE, si
seleccionas el modo edit y suprimes estas extensiones.
Paso 5. Confirma tus respuestas al ejercicio 3.2.2. con las soluciones
proporcionadas en el archivo ResEj_3.2. Selecciona el mejor alineamiento y
prepralo para usarlo en las reconstrucciones filogenticas cortando, si es
necesario, los extremos de las secuencias. Guarda este archivo en el que
tienes el alineamiento revisado bajo el nombre Alineamiento_LF_revisado.
IV. Tratamiento de los gaps mediante SeqState (implementado como Plugin de

PhyDE)
Como se ha mencionado en la introduccin, los gaps producidos como resultado del
alineamiento pueden ser utilizados de diferentes maneras a la hora de hacer la
reconstruccin filogentica. En la mayor parte de los programas tendremos la opcin
de indicar si queremos que se ignoren (como missing data) o que se traten como un
quinto estado. Si lo que optamos es por codificarlos para que cada indel sea
considerado como un nico evento o cambio, podemos hacerlo de manera manual
(incluyendo unas columnas al final de la matriz en las que indicaremos la presencia o
ausencia de los gaps), o automticamente mediante SeqState, uno de los Plugins
disponibles para PhyDE. A continuacin te proponemos que codifiques los gaps de los
alineamientos que has seleccionado como definitivos utilizando este programa:
Cursos OCW
Pag. 12 de 18
Paso 1. Abre
el
alineamiento
definitivo
(Alineamiento_LF_revisado) con PhyDE.
Tema 3.2
de
la
regin
trnL-F
Paso 2. Selecciona todas las secuencias utilizando el ratn o pulsando Taxa y

Select all.
Paso 3. Abre SeqState pulsando Plugins y SeqState. Se tiene que abrir
SeqState en una ventana nueva:
La parte superior de la ventana da informacin sobre la matriz de datos cargada.

En la parte inferior de la ventana iremos viendo informacin sobre lo que hagamos
en SeqState.
Paso 4. Para codificar los gaps tenemos que utilizar la aplicacin IndelCoder de
la barra superior de herramientas:

Cursos OCW
Pag. 13 de 18
Tema 3.2
Al pulsar en esta opcin se despliegan las diferentes opciones para codificar gaps.
Recomendamos utilizar la codificacin simple de Simmons y Ochoterena (2000).
Paso 5. Cuando pulsamos IndelCoder y Simmons & Ochoterena (2000) - simple
coding el programa crea un archivo nexus con la nueva matriz de datos (que
corresponde a la matriz original con unas columnas finales, una por cada gap,
presentes -1- o ausentes -0- en cada muestra).
En la ventana superior de SeqState aparecer una lista en la que se indica el
nmero de carcter que corresponde a cada gap (en el ejemplo inferior los gaps
estn codificados en las columnas 737 a 745; el primer gap, en la columna 737,
corresponde al gap que aparece en la matriz en las posiciones 67 a 80, etc.). En la
ventana inferior de SeqState se indica dnde se ha guardado esta nueva matriz
(normalmente en la carpeta tmp de PhyDE-Data), y con qu nombre (en el ejemplo
inferior el archivo generado se llama PDEGT8TQNJ_sic.nex):

Cursos OCW
Pag. 14 de 18
Tema 3.2
Paso 6. Busca el archivo nexus generado con los gaps codificados en tu

ordenador, cmbiale el nombre por uno que te permita reconocer el contenido
del archivo (por ejemplo Glaucoreseda_LF_gaps y gurdalo en la carpeta en
la que tengas el resto de las matrices generadas. Luego puedes abrirlo con un
visor de alineamientos (por ejemplo con PhyDE) para ver cmo ha quedado la
nueva matriz.
V. Combinacin de matrices (con PhyDE)
Cuando las diferentes regiones de ADN estudiadas son congruentes, puede ser de
utilidad combinarlas para crear una nica matriz con ms informacin para la
reconstruccin filogentica. Existen diferentes maneras de comprobar si las regiones
del ADN analizadas son congruentes entre s y pueden ser combinadas. En general, lo
ms seguro es estudiar primero las regiones por separado. Si se observa alguna
incongruencia, se recomienda utilizar algn test de congruencia para evaluar si la
informacin filogentica proporcionada por ambas regiones es significativamente
diferente, en cuyo caso de desaconseja la combinacin de ambas regiones. La
manera de proceder sera, por tanto:
1)
Elaborar una aproximacin filogentica para cada regin de ADN (en

nuestro caso, una para ITS y otra para trnLF)
2)
Inspeccionar visualmente si las reconstrucciones obtenidas son

congruentes (puede ocurrir que una regin resuelva una parte que el otro no
resuelve, pero no podramos combinar las regiones si cada regin propone una
solucin diferente y con buen soporte para un mismo clado)

Cursos OCW
Pag. 15 de 18
3)
Tema 3.2
En el caso de que las reconstrucciones filogenticas obtenidas fueran

congruentes, elaboraramos una matriz combinada que utilizaramos para la
reconstruccin filogentica definitiva
A continuacin te explicamos cmo podras hacer esta matriz combinada, una vez
comprobada la compatibilidad de las regiones objeto de estudio.
Una posibilidad, que desaconsejamos, es modificar a mano los archivos utilizando un
editor de texto: abriramos los dos archivos, seleccionaramos los bloques de letras
que corresponden a cada secuencia y elaboraramos un nuevo archivo en el que cada
muestra estuviera caracterizada por un bloque de letras constituido por ambas
regiones, copiando y pegando las secuencias una a continuacin de la otra. Ojo,
porque si utilizas esta opcin, en los archivos nexus y phylip, adems de modificar las
secuencias que caracterizan cada muestra, tienes que modificar la lnea de comandos
en la que se indica el nmero de caracteres de cada secuencia.
La segunda posibilidad, que te recomendamos utilices, es combinar las matrices
utilizando un editor de secuencias como PhyDE. Te proponemos que combines las
matrices de ITS y trnL-F de Glaucoreseda:
Paso 1. Abre uno de los archivos de alineamiento definitivo, por ejemplo,
Alineamiento_LF_revisado.
Paso 2. Abre el otro archivo de alineamiento definitivo (en este ejemplo
Alineamiento_ITS_revisado).
Paso 3.
Pulsa View y Arrange windows para poder ver las dos matrices a la vez.
Paso 4. Comprueba que todas las secuencias aparecen en el mismo orden en

las dos matrices.
Paso 5. En una de las ventanas, por ejemplo en Alineamiento_LF_revisado,
pulsa Mode: edit.
Paso 6. En la otra ventana (en este caso Alineamiento_ITS_revisado),
selecciona todas las secuencias (no sus nombres) utilizando el ratn sin soltar
el botn izquierdo o mediante el uso combinado de la tecla de maysculas y
las flechas.
Paso 7.
Copia las secuencias seleccionadas pulsando Edit y Copy (o con ctrl+c).
Paso 8. En la primera ventana (Alineamiento_LF_revisado) coloca el cursor al

final de la matriz (de todas las secuencias) pinchando con el ratn sin soltar el
botn izquierdo o pulsando a la vez la tecla de maysculas y la flecha hacia
abajo:

Cursos OCW
Pag. 16 de 18
Tema 3.2
Paso 9. Pega las secuencias de ITS a continuacin de las de trnL-F, pulsando

Edit y Paste (o con ctrl+v). Como resultado, obtienes una matriz con los 1375
caracteres que resultan de unir los 639 de la matriz final de ITS y los 737 de la
matriz final de trnL-F. Guarda esta nueva matriz con un nombre que la
identifique como por ejemplo Glaucoreseda_ITS_LF en formato nexus.
VI Conversin de formatos
Como se ha mencionado, existen diferentes tipos de formatos para los archivos de
alineamientos, y segn el programa de reconstruccin filogentica que vayamos a
utilizar necesitaremos tener el alineamiento en un tipo u otro de formato. Como en el
caso de la combinacin de matrices, la conversin de los archivos de un formato a otro
se puede hacer de manera manual o utilizando algn programa informtico.
De manera manual, se debe abrir el archivo que se quiera convertir en un editor de
texto (WordPad para PC, o TextWrangler para MAC; OJO es muy importante que no lo
abris con Word), y modificar las lneas de comando iniciales segn se indic en la
introduccin (por ejemplo, si se quiere pasar de fasta a nexus habr que eliminar el
smbolo > del principio de los nombres de las secuencias y habr que aadir el bloque
inicial previo para indicar el tipo de formato, las dimensiones de la matriz, etc.).
Para convertir los formatos automticamente tambin se puede utilizar PhyDE (para
fasta o nexus):
1. Abre el archivo que quieras convertir en PhyDE.
2. Pulsa File y Export as
3. Selecciona el tipo de formato al que quieres convertir la matriz.
Cursos OCW
Pag. 17 de 18
Tema 3.2
4. Indica el nombre con el quieres guardar la matriz y el lugar en el ordenador y

pulsa Export.
Adems existen otros conversores en Internet, con los que tambin puedes manejar
otros formatos como Phylip. Algunas direcciones tiles son:
http://hcv.lanl.gov/content/sequence/FORMAT_CONVERSION/form.html
http://searchlauncher.bcm.tmc.edu/seq-util/readseq.html

Cursos OCW
Pag. 18 de 18
Tema 3.3
______________________________________________________________________
TEMA 3.3 Obtencin de rboles filogenticos mediante el mtodo de mxima
parsimonia
_____________________________________________________________________
Contacto: Maite Aguado (maite.aguado@uam.es)
Para realizar anlisis de Mxima Parsimonia con nuestras secuencias una vez
alineadas trabajaremos con el programa TNT ("Tree analysis using New Technology").
Con TNT podemos realizar anlisis de Mxima Parsimonia en los que incluyamos un
nmero elevado de taxones (ej. 300-500). Una de las grandes ventajas de TNT es la
rapidez con la que obtiene los resultados.
El programa TNT es de acceso libre gracias a la Hennig Society y se puede descargar
de la red en la pgina:
http://www.cladistics.com/
En el siguiente enlace puedes encontrar un breve manual para el manejo del TNT:
http://tnt.insectmuseum.org/index.php/Manual
Ms informacin sobre el programa se puede consultar en:

http://www.zmuc.dk/public/phylogeny/tnt/
I. Preparando el formato para TNT

TNT trabaja con formato NEXUS con alguna variacin respecto al formato general
(tema 3.2).
Paso 1. Para preparar la matriz y que sea leda correctamente por el programa
abre la el archivo Glaucoreseda_ITS_LF.nex con un editor de texto
(WordPad para PC, o TextWrangler para MAC; OJO es muy importante
que no lo abris con Word). Al inicio de la matriz sustituye todos los
comandos desde #NEXUS hasta MATRIX (ambos incluidos) por los
siguientes comandos:
nstates dna;
xread
filename
NM
Escribe estos comandos al inicio de tu matriz sustituyendo:
- filename por el nombre que le quieras dar al archivo, pon
Glacuoreseda_ITS_LF
- N por el nmero de caracteres total de la matriz, 1375 en nuestro
caso.
Cursos OCW
Pag. 1 de 10
Tema 3.3
M por el nmero de muestras incluidas en la matriz, 17 en nuestro

caso.
Si adems de secuencias de ADN hubiera datos morfolgicos (0/1),

entonces en lugar de nstates dna habra que escribir nstates 32;
A continuacin, debes aadir el smbolo > delante del nombre cada
secuencia (al igual que en el formato fasta, vase tema 3.2.
Por ltimo elimina el comando end; con el que termina la matriz.
La matriz adaptada debera empezar de la siguiente manera:
Una vez que hayas comprobado que la matriz est bien adaptada,
gurdala como Glaucoreseda_ITS_LF.
II. El anlisis de Mxima Parsimonia en TNT

Paso 1. Abre el programa TNT. En primer lugar, debemos aumentar la memoria
redirigida al programa. Ve a la funcin Settings en el men principal y
selecciona la opcin Memory. Se abrir una ventana en la que debes
modificar los siguientes parmetros sustituyendo los valores que
aparecen por defecto por los que te indicamos aqu abajo:
Max.Tree: 100000
General RAM: 500 MegaBytes
Paso 2. En la opcin File del men principal, ve a la carpeta donde hayas

guardado la matriz combinada que has adaptado al formato TNT
(Glacuroreseda_ITS_LF_TNT). Inicialmente te aparecer vaca, para
poder visualizar todos los archivos de esa carpeta has de sealar en la
Cursos OCW
Pag. 2 de 10
Tema 3.3
pestaa tipo de archivo que aparece abajo la opcin ALL files (donde
por defecto aparece TNT files).
Se crear automticamente un archivo con este nombre y de extensin

.out en el que quedar almacenado el histrico de funciones realizadas
durante todo el anlisis
Paso 3. A continuacin debemos crear un archivo donde posteriormente
almacenaremos todos los rboles resultado de la bsqueda en formato
parntesis. Para ello, selecciona en File Tree saved file/Open
parenthical
Se crear automticamente un archivo de extensin .tree en el que
posteriormente almacenaremos todos los rboles obtenidos en la
bsqueda.
Paso 4. Antes de iniciar el anlisis debemos especificar algunas opciones. As, en
Format selecciona Use Taxon names. Esta opcin har que el
programa identifique cada secuencia con el nombre que t le has
asignado. La opcin que aparece por defecto asigna a cada secuencia un
nmero en vez de el nombre que asignaste.
Paso 5. En Format seleccin Data Format/Read Gaps as missing. Esta opcin
fuerza a considerar todos los gaps introducidos fruto del alineamiento
como dato perdido. Es importante sealarlo dado que la opcin que TNT
asume por defecto es considerar estos gaps como un quinto carcter
(vase tema 3.2). Ello implica que, cada vez que en una muestra aparece
un gap este es considerado como un cambio respecto a los nucletidos
que tengan el resto de las muestras en esa posicin.
Paso 6. Por ltimo, debemos tambin especificar el outgroup. La mayor parte de
los programas de filogenias seleccionan por defecto la primera secuencia
de la matriz como outgroup, en TNT podemos cambiarla por la secuencia
donde deseemos enraizar los rboles. Selecciona en Data la opcin
Data/outgroup taxon y selecciona la muestra R. alba como outgroup.
Paso 7. A continuacin podemos proceder ya a establecer los parmetros de la
bsqueda. Selecciona en Analyze la opcin Tradicional Search. A
continuacin se abrir una ventana en la que aparecen los parmetros
basicos de la bsqueda.
En Starting trees se define el modo en el que se obtiene el rbol de
inicio de la bsqueda en cada rplica (vase tema 2.1). Deja
seleccionada la opcin que aparece por efecto Wagner Trees.
Aqu debes especificar tambin el nmero de rplicas. Cada rplica
realiza la bsqueda de los rboles ms parsimoniosos a partir de un rbol
de inicio diferente. Dado que en las bsquedas heursticas no
prospectamos todo el universo de rboles posibles (vese tema 2.1),
cuantas ms replicas realicemos menos posibilidades de dejarnos
Cursos OCW
Pag. 3 de 10
Tema 3.3
rboles parsimoniosos no muestreados. Escribe 1000 rplicas. [Ten en

cuenta que para una publicacin deberas utilizar al menos 1.000.000 de
rplicas].
En Swapping algorthim podemos seleccionar el algoritmo elegido para
realizar el reajuste de las ramas (vase tema 2.1). Selecciona TBR
(Tree Bisection Reconnection). Una opcin interesante para este tipo de
bsquedas es la de restringir el nmero de rboles ms parsimoniosos
guardados por rplica. En TNT se puede hacer en Trees to saved per
replication, nosotros especificaremos 100. De este modo, la potencia y
tiempo de clculo se reduce significativamente a la vez evitamos quedar
atrapados en mnimos locales.
Selecciona por ltimo la ocpin collapse trees after the search (elimina
las ambigedades en el proceso de optimizacin de caracteres).
Finalmente, para iniciar la bsqueda pulsa el botn Search.
Paso 8. Terminada a bsqueda en la pantalla de inicio aparece el nmero de

rboles ms parsimoniosos guardados junto con el nmero de pasos. En
nuestro caso, slo ha encontrado un rbol ms parsimonioso que
aparecer automticamente en la pantalla.

Cursos OCW
Pag. 4 de 10
Tema 3.3
Paso 9. Al haber restringido la bsqueda, limitando el nmero de rboles

parsimoniosos guardados por rplica, debemos completar la bsqueda.
Para ello, ve a Analyzed y selecciona Tradicional Search.
En esta ocasin volveremos a establecer las especificaciones del paso 7
salvo en Starting trees donde debemos seleccionar Trees from RAM.
Esta opcin permite iniciar las bsquedas en cada rplica a partir de cada
uno de los rboles ms parsimoniosos que hemos encontrado en la
bsqueda anterior.
Paso 10. Al terminar la bsqueda, en la pantalla de inicio aparecern los trminos
de la bsqueda junto con el nmero total de rboles ms parsimoniosos
encontrados y su longitud (nmero de pasos). Par poder ver todos los
pulsa en el icono:
Paso 11. Una vez completada la bsqueda, debemos guardar todos los rboles
obtenidos en el archivo .tree que hemos creado al incio. Para ello, ve a
la opcin File y en /Tree saved file/save trees to open file selecciona All
trees.
En nuestro caso tan slo hemos encontrado un rbol ms parsimonioso,

(con una longitud de 194 pasos). Sin embargo, lo ms habitual es
encontrar numerosos rboles igualmente parsimoniosos. Cada uno de
estos rboles refleja una historia filogentica diferente pero todos ellos
son igualmente plausibles segn el criterio de mxima parsimonia. Por
ello, no podemos decantarnos por uno u otro. Sin embargo, para poder
reconstruir la historia filogentica del grupo es deseable analizar un nico
rbol en vez de miles.
Cursos OCW
Pag. 5 de 10
Tema 3.3
Paso 12. Para ello, podemos elaborar un consenso. En Trees, seala la opcin
consensus y selecciona Strict. Inmediatamente aparecer en otra
ventana un rbol de consenso estricto construido a partir de todos los
rboles ms parsimoniosos encontrados en la bsqueda. Puedes guardar
este rbol en formato grfico para poder editarlo posteriormente en
programas de edicin de imgines como adobe illustrator o en
PowerPoint insertndolo como imagen. Para ello, cuando tengas en la
pantalla el rbol, pulsa la tecla m y guarda el rbol como
Glaucoreseda_ITS_LF_MPtree. Para volver a la pantalla de inicio pulsa
la tecla esc.
En nuestro caso, al haber obtenido un nico rbol, no tiene sentido
realizar un consenso.
Ejercicio 3.3.1. Abre el documento Glacuoreseda_ITS_LF, haz un anlisis de mxima

parsimonia.
TNT puede trabajar con nuevos algoritmos New Technology search en
Analyze especialmente diseados para matrices muy grandes, con un
nmero elevado de terminales (ms de 100). Estos algoritmos son el
ratchet, tree searches , drift y Tree fusing.
Paso 13. Para obtener los estadsticos descriptivos de la bsqueda -CI (ndice de
consistencia) y RI (ndice de retencin)- en TNT necesitis llamar a un
ejecutable .run que aparecer (bajo distintos nombres en funcin de la
versin de TNT que os hayis descargado) en la misma carpeta donde
tenis el ejecutable del programa. Antes de ejecutarlo, debis copiar el
archivo .run en la misma carpeta donde est la matriz de datos y, si fuera
necesario, cambiarle el nombre a stats.run. Una vez all, escribe en la
lnea de comando del programa TNT que aparece en la parte inferior de
la pantalla el siguiente comando: run stats.run. A continuacin te
aparecern dichos valores en la pantalla de inicio. Estos valores permiten
estimar la fiabilidad de los resultados de la bsqueda ya que estiman de
modo indirecto el nivel de homoplasia reflejado en los rboles (cuanto
Cursos OCW
Pag. 6 de 10
Tema 3.3
ms prximo a 1 sea el ndice de consistencia, menor ser el valor de

homoplasia).
III. Clculo de valores de soporte de ramas en TNT
Paso 1. Los rboles ms parsimoniosos encontrados en la bsqueda realizada
agrupan las secuencias en clados y a su vez los clados entre s en
funcin de los caracteres derivados y compartidos (sinapomorfas, vase
tema 2.1) de manera que se minimice el nmero de cambios total. Sin
embargo, la aparicin de un clado tanto en uno de los rboles ms
parsimoniosos, como en un rbol de consenso presentan apoyo
estadstico. Para poder calcular los valores de apoyo a los clados
(Jacknife, Bootstrap y Symmetric Resampling) se utilizan tcnicas de
remuestreo. Para ello, selecciona en Analyze la opcin Resampling.
Se abrir una nueva ventana en la que debemos especificar los

parmetros para el remuestreo. En resample matrix with: seleccionar
Bootstrap y dentro de ste standard
En number of replicates debemos especificar el nmero de veces que
queremos que se realice el muestreo. Al igual que en la bsqueda de
rboles ms parsimoniosos, cuanto mayor sea el nmero de rplicas,
mejor. Pon 1000 rplicas. [Ten en cuenta que para una publicacin
deberas utilizar al menos 10.000 de rplicas].
La opcin Cutoff permite determinar el colapso de clados por debajo de
un valor de apoyo determinado. Por defecto aparece 1, aunque para
facilitar la interpretacin suele ser til especificar 50, de modo que
Cursos OCW
Pag. 7 de 10
Tema 3.3
aquellos clados cuyo apoyo sea inferior a 50 no aparecern resueltos en

al rbol.
Hechas las especificaciones, pulsa el botn OK para que se inicie el
remuestreo.
Paso 2. Finalizado el remuestreo aparecer una pantalla con un rbol en el que
cada clado estar apoyado por un nmero que representa el apoyo. Por
consenso para la interpretacin de las relaciones filogenticas, se suelen
reconocer nicamente los clados cuyo apoyo sea al menos un 80 de
boostrap. Guarda el rbol como Glaucoreseda_ITS_LF_MPbs utilizando
el comando m.
Paso 3.
Para volver a la pantalla inicial pulsamos esc en el teclado.

En TNT tambin es posible calcular los valores de Bremer. Este tipo de
apoyo de ramas se calcula forzando bsquedas heursticas en las que los
rboles guardados tengan cada vez un nmero de pasos mayor que el de
los rboles ms parsimoniosos previamente encontrados. Es decir,
forzando que las nuevas bsquedas nos devuelvan cada vez rboles
menos parsimoniosos. De esta manera, los clados que habiendo
aparecido en la bsqueda inicial desaparecen al aumentar en un paso la
longitud final del rbol, se consideran clados poco apoyados (y vendran
determinados por un valor de 1).
Por el contrario, aquellos clados que siguen recuperndose
independientemente del nmero de pasos que aadamos (2, 3, 4 ms),
se consideran clados robustos (y vendran apoyados respectivamente por
valores de 2, 3 y 4 respectivamente). Para calcular los valores de
Bremer, hay que volver a correr la bsqueda heurstica despus de
indicar que retenga los rboles 1, 2, etc.. pasos mas largos. Para ello:
Paso 4. Busca los rboles mas cortos en una bsqueda heurstica normal
reteniendo como mximo 1000 rboles (setting> memory >max trees).
Paso 5. Aumentar el subptimo en un paso (Analyze/suboptimal) y hacer de
nuevo la bsqueda eliminando la opcin "replace existing trees". Para
evitar que se colapse la memoria muy rpido con rboles subptimos
recomendamos la siguiente secuencia.
Paso 6. Volver a repetir la misma operacin aumentando el subptimo a 3 y el
max trees a 2000.
Paso 7. Repetimos de nuevo esta vez son subptimo a 5 y max trees a 4000.
Finalmente utiliza en comando bremer supports en trees para obtener los
valores hasta un >5.
Paso 8. Podemos seguir repitiendo las bsquedas aumentando sucesivamente
los subptimos y los max trees hasta alcanzar valores de Bremer altos.
Paso 9. Para ver los valores de bremer seleccionar Trees/Bremer supports.
Podemos guardar el grfico con el comando m como
Glaucoreseda_ITS_LF_MPbremer

Cursos OCW
Pag. 8 de 10
Tema 3.3

Cursos OCW
Pag. 9 de 10
Tema 3.3
Ejercicio 3.3.2. Calcula los apoyos para las ramas y guarda el archivo en formato
metafile.
Ejercicio 3.3.3. Repite ahora cada paso de la prctica con cada una de las matrices
por separado; ITS y LF2. Observas alguna diferencia en la topologa del rbol que
has obtenido al utilizar la matriz combinada con las de los rboles obtenidos al utilizar
las matrices de los genes por separado? A qu puede ser debido?

Cursos OCW
Pag. 10 de 10
Tema 3.4
______________________________________________________________________
TEMA 3.4. Seleccin del modelo evolutivo que mejor se ajuste a nuestros datos
_____________________________________________________________________
INTRODUCCIN
Para calcular las distancias entre pares de secuencia, as como para realizar
bsquedas con los mtodos basados en distancias, mxima verosimilitud e inferencia
bayesiana es necesario especificar un modelo de evolucin para los datos (vase
tema 2.1). Los modelos evolutivos en filogenias moleculares describen el modo y la
probabilidad de que una secuencia de nucletidos cambie a otra secuencia de
nucletidos homloga a lo largo del tiempo. Es decir, estos modelos describen para
cada uno de los sitios de la matriz la probabilidad de que se produzca el cambio de un
nucletido a otro a lo largo de las ramas de un rbol filogentico dado.
Los modelos de evolucin de nucletidos se definen matemticamente mediante dos
clases de parmetros que determinan el cambio:
(1) Frecuencia de cada nucletido. Parmetro que mide la frecuencia de los
nucletidos en la matriz de datos y que puede tomar los siguientes valores:
a. En los modelos ms sencillos: una misma frecuencia para los cuatro
nucletidos ( " A = " C = " G = " T = 0.25 )
b. En los modelos ms complejos: cuatro frecuencias diferentes, una para
cada nucletido ( " A # " C # " G # " T )
(2) Tipos de sustituciones y sus correspondientes tasas de sustitucin (rate
! Las tasas de sustitucin se representan con las tasas relativas de
parameters).
cambio de un nucletido a otro para una posicin de un tiempo t0 a un tiempo
!
t1. As, cada posicin
de la matriz tendr una probabilidad asociada de cambio
para cada unidad de tiempo (unidad de distancia evolutiva). As la tasa relativa
de sustitucin en una posicin de un nucletido A a una C se denota con a,
de A a G con b, de A a T c y as hasta l (tasa relativa de cambio de T a G).
Los modelos ms sencillos asumen una misma tasa relativa para todas las
sustituciones posibles, mientras que los ms complicados asumen una tasa
relativa diferente para cada tipo de sustitucin. A partir de estas tasas relativas
se calcula la tasa media de sustitucin ( ).
A partir de las combinaciones posibles de estos parmetros se han descrito cerca de
203 modelos se sustitucin nucleotdica. Los modelos ms sencillos son aquellos que
incluyen un menor nmero de parmetros.
Adems de los parmetros aqu descritos
!
habra que considerar tambin el nmero de longitudes de rama. As, el modelo ms
sencillo posible es Jukes and Cantor (JC, Jukes and Cantor 1969; Fig. 1) que asume la
misma frecuencia para los cuatro nucletidos y un nico tipo de sustitucin, el nmero
de parmetros de JC ser el nmero de longitudes de rama del rbol. El modelo
Kimura 2-parmetros (KP2, Kimura 1980) es como JC pero asumiendo la existencia de
dos tipos de sustituciones por lo que el modelo tiene como parmetros el nmero de
ramas del rbol ms uno (el que regula los dos tipos de sustituciones).

Cursos OCW
Pag. 1 de 11
Tema 3.4
Misma frecuencia de bases

(A) = (C) = (G) = (T)
1 tipo de sustitucin
(AC = AG = AT = CG = CT = GT)
JC
2 tipos de sustituciones
1 tv: AC = AT = CG = GT
1 ti: AG = CT
Distinta frecuencia de bases

(A) (C) (G) (T)
F81
K2P
2 ti: AG CT
1 ti: AG = CT
HKY85
F84
K81
2 ti: AG CT
4 tv: AC AT CG GT
2 ti: AG CT
TrN
SYM
4 tv: AC AT CG GT
2 ti: AG CT

(A) (C) (G) (T)
GTR
(AC AG AT CG CT GT)
(A) (C) (G) (T)
Figura 1. Siete de los c.203 modelos de sustitucin nucleotdica de la familia de

General Time-Reversible (GTR).
A partir de estos parmetros se define cada uno de los modelos posibles. La expresin
matemtica para los modelos de sustitucin es una matriz (Instantaneous rate matrix
Q; Fig. 2)
"(a# C + b# G + c# T )
a# C
g# A
"(g# A + d# G + e# T )
h# A
i# A
j# C
k# C
b# G
c# T
d# G
e# T
" (h# A + j# C + f# T )
f# T
l# G
"(i# A + k# C + l# G )
Figura 2. Matriz de sustitucin (Q) para modelos de sustitucin de nucletidos. La

columna 1 representa las probabilidades de cambio desde una Adenina en un tiempo
t0 a cada uno de los cuatro nucletidos a un tiempo t1 , la columna 2 representa las
probabilidades de cambio de una Citosina, la columna 3 las de una Guanina y la
columna 4 las de una Timina.
Cursos OCW
Pag. 2 de 11
Tema 3.4
Esta matriz representa la probabilidad de que una posicin pase de tener un

nucletido (A, C, G, T) en un tiempo t0 a no cambiar en un tiempo t1 (diagonal de la
matriz) o bien a ser sustituido por cada uno de los respectivos tres nucletidos
posibles. As, cada elemento de la matriz representa la probabilidad de cambio desde
un nucletido a otro. As, el elemento 1.1 "(a# C + b# G + c# T ) de la matriz representa
la probabilidad de que un sitio que tenga a un tiempo t0 una A se mantenga como A en
el tiempo t1.
!
Adems estos modelos pueden
incluir parmetros que reflejen la posibilidad de
que no todos los sitios de la matriz original de datos evolucionen con la misma tasa,
esto es permiten que las tasas sean heterogneas entre sitios. Para modelar la
heterogeneidad de tasas entre sitios, se suele asumir que las tasas relativas cambian
entre los sitios segn una distribucin gamma con media 1 y varianza 1/. Alpha
controla la tasa entre sitios, si < 1 entones hay mucha diferencia entre sitios (esto es,
muchos sitios varian poco mientras que unos pocos varan mucho; Fig. 3). A veces
tambin se incluye en el modelo la posibilidad de que exista una proporcin de sitios
que varan (I).
Figura 3. Diferentes
distribuciones gamma.
Grfica tomada de
Wikipedia.
Ninguno de los modelos de sustitucin descritos en la literatura ser el modelo

real de sustitucin que habrn seguido nuestras secuencias. El uso de un modelo de
sustitucin u otro para una misma matriz de datos puede generar diferentes rboles
filogenticos (Lemmon and Moriarty 2004). Por todo ello, seleccionar el modelo que
mejor se ajuste a nuestra matriz de datos es esencial de cara a obtener una
reconstruccin filogentica robusta y fiable. Los estadsticos para la seleccin de
modelos se basan casi todos en el principio de Occam por el cul la mejor hiptesis es
la ms simple.
Cmo se calcula el ajuste del modelo?
El grado de ajuste de un modelo de sustitucin a nuestros datos se calcula
generalmente mediante la funcin de verosimilitud (L, Likelihood function). En filogenia
molecular L es proporcional a la probabilidad de los datos (D, nuestra matriz de ADN)

Cursos OCW
Pag. 3 de 11
Tema 3.4
dados: un modelo de evolucin (M), un vector con los K parmetros incluidos en el

modelo (), la topologa de un rbol () y un vector de S longitudes de rama.
El clculo del grado de ajuste de los distintos modelos a nuestros datos
requiere de una topologa y unas longitudes de rama. Por ello, los criterios de
seleccin de modelos suelen comenzar estimando un rbol a partir de los datos y,
asumiendo que ste fuera el mejor rbol, calculan las estimas de mxima verosimilitud
para todos los parmetros de cada modelo devolviendo un valor final de verosimilitud
para cada modelo.
(1) JModeltest. El programa que vamos a utilizar para realizar esta prctica es
jModelTest (Posada 2008). Este programa libre se desarroll para la seleccin
estadstica de modelos de sustitucin nucleotdica. Tiene implementados
cinco estrategias de seleccin diferentes (Akaike Information Criterion, AIC;
hierarchical Likelihood Ratio Test, hLRT; Dynamical Likelihood Ratio Test,
dLRT; Bayesian Information Crierion, BIC; Performance-based selection base
don decisin theory, DT).
Accede a la pgina http://darwin.uvigo.es/software/jmodeltest.html. Rellena las
datos solicitados por el autor del programa y descrgatelo en tu ordenador.
Programas alternativos:
Existen muchos otros programas para la seleccin de modelos (ModelTest,
Posada & Crandall 1998; MrModeltest, Nylander 2004a). Sin embargo, estos
programas, a diferencia de jModeltest, necesitan del programa con licencia
PAUP (Swofford 2002) para poder realizar algunas de las partes del proceso.
Una alternativa independiente de PAUP es el programa libre MrAIC.PL
(Nyalnder 2004b).
Para poder obtener una reconstruccin filogentica de Reseda sect. Glaucoreseda
debemos utilizar la matriz combinada de ITS y trnL-F que hemos construido. Para
poder llegar a conseguir este objetivo utilizando los mtodos basados en distancias,
ML y BI necesitamos conocer el modelo evolutivo que mejor se ajusta a cada una de
las cuatro regiones de ADN que tenemos representada en dicha matriz. Esto es,
necesitamos conocer el modelo que mejor se ajusta a: (1) el espaciador 1 de la regin
del ADN ribosmico nuclear ITS (ITS-1), (2) el gen 5.8S de la regin del ADN
ribosmico nuclear ITS, (2) el espaciador 2 de la regin del ADN ribosmico nuclear
ITS (ITS-2) y (3) el espaciador del ADN plastidial trnL-F.
Antes de proceder a los temas 3.5, 3.6 y 3.7, hay que realizar esta prctica y
sus ejercicios. Durante el desarrollo de esta prctica aprenderis el procedimiento para
la seleccin de modelos usando como ejemplo la regin plastidial (trnL-F). Sin
embargo, es imprescindible que repitis esta prctica para las otras tres regiones.
Paso 1. Abre el programa JModeltest y carga la matriz de trnL-F que has
construido (Alineamiento_LF_revisado.fasta) en File/Load DNA
alignment. Si el formato de la matriz es correcto aparecer un mensaje
en la pantalla indicando el nmero de secuencias de la matriz as como el
Cursos OCW
Pag. 4 de 11
Tema 3.4
nmero de posiciones (en nuestro caso: 17 y 736, respectivamente) lo

que significa que la matriz se ha cargado correctamente y puedes
proceder a realizar los clculos.
Paso 2. Para realizar los anlisis, selecciona Compute Likelihood Scores. Se
abrir una ventana en la que nos solicitan la especificacin de los
parmetros necesarios para el cmputo.
En esta ventana hay que seleccionar los modelos que queremos evaluar,
esta seleccin se hace en funcin del tipo de sustituciones que queramos
aceptar. As, si seleccionamos 3 estaremos incluyendo todos los
modelos posibles que admiten desde un slo tipo de sustitucin hasta
tres tipos de sustituciones; si seleccionsemos 11 estaramos
incluyendo todos los modelos posibles que admiten desde un slo tipo de
sustitucin, hasta 11 tipos de sustitucin diferentes. El nmero de
modelos a evaluar en cada una de las opciones va aumentando en
consecuencia. As, si seleccionamos tres tipos de sustituciones
evaluaremos el grado de ajuste de 24 modelos diferentes para 5 sern
40 modelos, para 7 46 y para 11 88. Los programas de anlisis
filogenticos con los que contamos en la actualidad no implementan
todos los modelos, por lo que seleccionando 3 estaremos prospectando
el grado de ajuste de los 24 modelos que implementa en la actualidad
MrBayes programa que utilizaremos en el tema 3.6 para estimar la
filogenia del nuestro grupo mediante el mtodo de Inferencia Bayesiana.
Seala +F, con ello estamos incluyendo los modelos que asumen
misma frecuencia de bases as como los que asumen distinta frecuencia.
Seala +I, con lo que estaremos incluyendo tanto los modelos que
asumen la proporcin de sitios que varan como los que no. Por ltimo,
selecciona +G, de esta manera estaremos incluyendo tanto los modelos
que asumen diferente tasa de variacin entre sitios como los que no.

Cursos OCW
Pag. 5 de 11
Tema 3.4
Como necesitamos un rbol inicial para calcular el grado de ajuste, hay

que seleccionar de qu manera queremos obtener la topologa de dicho
rbol. As, se puede elegir si queremos una misma topologa fija para
evaluar todos los modelos. En tal caso, dicha topologa puede obtenerla
el programa mediante un algoritmo basado en NJ que utiliza las
distancias de JC (Fixed BIONJ-JC) o bien podemos proporcionarla
nosotros en caso de que contemos con un rbol y queramos usarlo
(Fixed user topology. Otra opcin es estimar la topologa ms ptima
cada vez que se evala un modelo y esto podemos hacerlo mediante una
aproximacin basada en distancias Neigbourgh joining (BIONJ) o de
mxima verosimilitud (ML optimized). En nuestro caso, dejamos
marcada la que aparece por defecto ML optimized
Paso 3. Seleccionados los parmetros dale a Compute likelihoods, con esto
estaremos calculando los valores de verosimilitud para cada modelo dada
nuestra matriz. Una vez calculados los Likelihoods para todos los
modelos te aparecern en la pantalla de inicio los resultados de estos
cmputos. En ellos se indica para cada uno de los modelos evaluados:
(1) el valor del Likelihood estimado para el rbol optimizado y (2) el
nmero de parmetros libres del modelo (K).

Cursos OCW
Pag. 6 de 11
Tema 3.4
Paso 4. Una vez hecho esto puedes proceder a evaluar la bondad de ajuste de
los distintos modelos a tus datos segn los distintos criterios se seleccin
implementados en este programa (AIC, BIC, DT). Para ello, ve a
Analysis y selecciona en primer lugar Do AIC calculations.
Se abrir una ventana en la que te preguntar si quieres calcular AICc.
sta, es una opcin que se utiliza cuando el tamao de la muestra (n:
nmero de posiciones de la matriz) es pequeo en comparacin con el
nmero de parmetros de los modelos (K). El AICc realiza una correccin
estadstica y debe usarse siempre que n/K < 40 (Posada 2004). En tu
caso la matriz de trnL-F tiene 736 sitios (n) y los 24 modelos necesitan
entre K=32 y K=42 parmetros, luego seala la opcin AICc.
Una vez terminados los clculos, en la pantalla te aparecern los
resultados. En primer lugar aparece el mejor modelo seleccionado (Model
selected) en este caso es F81+I indicando tambin el valor del
Likelihood (-lnL), el nmero de parmetros libres (K), la frecuencia de
bases nucleotdicas (freqA, freqC) y la proporcin de sitios
invariables (p-inv).
Siempre aparece un modelo seleccionado, pero ste no siempre es

significativamente mejor que el segundo mejor modelo. Por ello, debes
estudiar con detenimiento la tabla de resultados que aparece a
continuacin ya que en ella se muestran las estimas de la comparacin
de todos los modelos. La primera columna indica el modelo, la segunda el
Likelihood (-lnL), la 3 el nmero de parmetros del modelo (K), la
tercera el valor de AICc, la cuarta indica la diferencia entre el valor de
AICc del mejor modelo con el modelo especificado (delta). Si el valor de
delta es inferior a 3, el mejor modelo (esto es, el modelo seleccionado) no
es significativamente mejor que el modelo especificado.
Cursos OCW
Pag. 7 de 11
Tema 3.4
En estos resultados, el modelo F81+I resulta ser el modelo seleccionado

al tener el menor valor del Likelihood (-lnL = 1219.7011) su delta,
obviamente, es cero. El siguiente mejor modelo es F81+G con un
Likelihood ligeramente superior (-lnL = 1219.7236), en este caso el valor
de delta es de 0,0450. Esto significa que aunque F81+I es el que
presenta el Likelihood menor, F81+I no es significativamente mejor que
cuando se utiliza el modelo F81+G.
Ejercicio 3.4.1. Teniendo en cuenta estos valores de significacin resultantes de
aplicar el criterio AIC de seleccin podras decir qu modelos son igualmente
probables dados tus datos (esto es, dada la matriz de trnL-F)?
La sexta columna indica el peso de cada modelo (weight) y la ltima
columna el peso acumulado (cumWeight). El intervalo de confianza se
alcanza cuando este ltimo toma el valor de 0.95.
Paso 5. Ya tenemos los resultados de la seleccin del mejor modelo mediante la

aproximacin que utiliza AICc como criterio de seleccin.
Ahora vuelve a Anlysis y selecciona Do BIC calculations. Despus de
realizar los clculos, en la pantalla aparecern los resultados.

Cursos OCW
Pag. 8 de 11
Tema 3.4

Cursos OCW
Pag. 9 de 11
Tema 3.4
En este caso, el modelo seleccionado es F81.

Ejercicio 3.4.2. Hay algn modelo que se ajuste significativamente mejor a tus datos
segn el criterio BIC de seleccin?
Paso 6. Para guardar los resultados del anlisis ve a Edit y selecciona Save
console. De este modo, se genera un archivo de texto que siempre que
quieras podrs consultar para ver los resultados de la bsqueda usando
un editor de texto (WordPad para PC, o TextWrangler para MAC; OJO es
muy importante que no lo abris con Word).
Paso 7. Para realizar los anlisis de distancias, BI o ML necesitamos especificar
qu partes de la matriz utilizada siguen distintos modelos y proporcionar
dichos modelos. Por ello, an no hemos terminado y tenemos que tomar
una decisin sobre qu modelo de los seleccionados escogemos. Por un
lado est el problema del criterio de seleccin cul es mejor BIC o AIC?
Habitualmente los resultados bajo ambos criterios son iguales y no existe
tal disyuntiva. Pero en el caso de plantearse, como es el nuestro, no
existe una respuesta definitiva a la pregunta, ya que cada criterio parece
comportarse mejor o peor en funcin de las caractersticas de los datos
(Posada & Buckley 2004). Si los modelos seleccionados segn los
Cursos OCW
Pag. 10 de 11
Tema 3.4
diferentes criterios son distintos, una aproximacin exhaustiva sera

realizar todos los anlisis por duplicado utilizando uno de los modelos
seleccionados por los criterios cada vez. En el caso de que en nuestro
caso nos decidisemos por seguir los resultados del criterio AIC,
tendramos una nueva disyunta y es, qu modelo elegiramos de entre los
nueve modelos que resultan ajustarse significativamente a nuestros
datos. En este caso, la aproximacin ms seguida es la de optar por el
mejor modelo, esto es el de mayor likelihood.
En cualquier caso, a la hora de seleccionar los mejores modelos en caso
de disyuntiva una consideracin importante es tener en cuenta que
cuanto ms sencillo sea el modelo, menor nmero de parmetro tendr.
Cuanto menor sea el nmero de parmetros a estimar, menor nmero de
errores asociados incluiremos en nuestra reconstruccin. Por ello, elegir
el modelo ms sencillo es una buena aproximacin. En nuestro caso, y
siguiendo este criterio, seleccionaremos el modelo F81 para la regin
trnL-F.
Ejercicio 3.4.3. Teniendo en cuenta que la regin ITS incluye dos espaciadores (ITS1,
ITS2) separados por el gen 5.8S. Estima el mejor modelo para cada una de las tres
regiones del espaciador ITS (para ello utiliza los archivos Glacuoreseda_ITS_ITS1,
Glacuoreseda_ITS_58S y Glacuoreseda_ITS_ITS2 que te encuentras en la carpeta
de inputs) y responde a las siguientes preguntas: (a) Cul es el mejor modelo para
ITS-1 segn AIC y BIC?, (b) Cul es el mejor modelo para 5.8S segn AIC y BIC?,
(c) Cul es el mejor modelo para ITS-2 segn AIC y BIC?, (d) Qu modelos
utilizaras para realizar los anlisis de la matriz de ITS?

Cursos OCW
Pag. 11 de 11
Tema 3.5
______________________________________________________________________
TEMA 3.5. Obtencin de rboles mediante el mtodo de inferencia bayesiana
_____________________________________________________________________
Contacto: Isabel Draper (Isabel.draper@uam.es)
(1) Para la obtencin de rboles mediante Inferencia Bayesiana vamos a utilizar el
programa MrBayes (Huelsenbeck & Ronquist, 2001), que puede ser
descargado gratuitamente desde:
http://mrbayes.sourceforge.net/
En esa misma pgina se explica cmo instalar el programa y se puede acceder
al manual de instrucciones. Para realizar la siguiente prctica ten en cuenta
que el formato de archivo necesario para este programa es el de tipo nexus.
Adems, no olvides que este archivo debe estar en la misma carpeta en la que
est el ejecutable de MrBayes.
BEAST (Drummond & Rambaunt 2007) es otro programa gratuito que utiliza cadenas
de Markov para la aplicacin de inferencia bayesiana en el anlisis de secuencias
moleculares. Este programa est orientado a filogenias con tiempos de divergencia.
En el siguiente enlace puedes encontrar el link a las descargas adems de un manual
para su uso y algunos otros enlaces de inters.
http://beast.bio.ed.ac.uk/Main_Page
I. Preparacin del archivo nexus para MrBayes
Paso 1. MrBayes trabaja con formato nexus. Para preparar tu matriz de datos,
comprueba que el archivo tiene la siguiente estructura inicial, teniendo
especial cuidado de respetar los puntos y coma finales [OJO, no olvidar
ningn ;]:
# nexus
begin data;
dimensions ntax=N nchar=M
format datatype=X
interleave=Y
gap= missing=?;
matrix

Cursos OCW
Pag. 1 de 9
Tema 3.5
Abre la matriz Glaucoreseda_ITS_LF y escribe estos comandos al inicio

de tu matriz sustituyendo:
N por el nmero de muestras
M por el nmero de caracteres de cada muestra
X por el tipo de datos:
dna (como en nuestro caso)
standard (si son datos morfolgicos)
restriction (si son gaps codificados)
mixed (si se trata de una matriz mixta en la que se combinan
diferentes tipos de datos). En este caso habra que indicar a
continuacin y entre parntesis qu caracteres son de cada tipo, por
ejemplo:
format datatype = mixed (dna:1-25, restriction:26-30)
Y por NO (ya que las secuencias en nuestra matriz no estn divididas en
bloques, sino que se encuentran como una cadena seguida).
Recuerda tambin que las secuencias no pueden empezar por el smbolo
> y que despus de la matriz se debe indicar que acaba el archivo
mediante (vase tema 3.2):
;end; [end of file]
Con este tipo de informacin en el archivo, MrBayes va a tratar por
defecto todos los datos de ADN como una nica particin. Sin embargo,
si hemos combinado varios genes suele ser conveniente dividir los datos
en particiones (una para cada regin gentica). De este modo, podemos
analizarlas por separado (por ejemplo si cada regin presenta un modelo
evolutivo diferente). Para separar los datos en particiones, lo ms
conveniente es aadir, utilizando un editor de texto (WordPad para PC, o
TextWrangler para MAC; OJO es muy importante que no lo abris con
Word), un bloque informativo ms en el archivo que va a analizar
MrBayes (a continuacin de la matriz de datos). En concreto se tiene que
aadir la siguiente informacin (cada comando seguido de un signo de
igualdad y la informacin que se quiera asociar al comando, y cada lnea
siempre terminada en punto y coma):
begin mrbayes
[para indicar que se trata de un bloque informativo para ese programa]
charset
[para asociar un nombre con un conjunto de caracteres]
partition favored
[para definir una particin asociada a cada nombre dado]
set partition
[para indicar a MrBayes que queremos trabajar con nuestras particiones
en lugar de con la particin por defecto; las particiones a las que hace
referencia pueden ser las nombradas con charset o indicarse con los
nmeros de caracteres: por ejemplo partition favored = 4: 1-275, 276-427,
428-639, 640-1375;]
end
[para cerrar el bloque]
En nuestra matriz combinada de ITS y trnLF el bloque debera ser as:
Cursos OCW
Pag. 2 de 9
Tema 3.5
begin mrbayes;
charset ITS1 = 1-275;
charset 5.8S = 276-427;
charset ITS2 = 428-639;
charset trnLF = 640-1375;
partition favored = 4: ITS1, 5.8S, ITS2, trnLF;
set partition = favored;
end;
Ejercicio 3.5.1. Abre la matriz Glaucoreseda_ITS_LF y preprala para su anlisis en
MrBayes.
Ejercicio 3.5.2. De acuerdo a estas directrices, abre la matriz combinada de ITS y LF
(Glaucoreseda_ITS_LF.nex) con un editor de texto (WordPad para PC, o TextWrangler
para MAC; OJO es muy importante que no lo abris con Word), establece las
particiones y guarda el archivo bajo el nombre
Glaucoreseda_ITS_LF_particiones.nex.
II. Analsis de Inferencia Bayesiana con MrBayes
A continuacin hacemos un breve resumen de los comandos bsicos del programa. Te
proponemos que realices una reconstruccin filogentica utilizando para ello A) la
matriz combinada de ITS y LF con las particiones especificadas
(Glaucoreseda_ITS_LF_particiones.nex), y B) la misma matriz combinada pero
incluyendo al final los gaps codificados segn Simmons y Ochoterena (2000)
(Glaucoreseda_ITS_LF_gaps_particiones.nex). De esta manera podrs comprobar la
influencia que tiene considerar o no la informacin de los gaps a la hora de reconstruir
la filogenia.
Guarda el archivo que vayas a utilizar (Glaucoreseda_ITS_LF_particiones.nex y
Glaucoreseda_ITS_LF_gaps_particiones.nex) en la carpeta raz del programa de
MrBayes. Ten en cuenta que el nombre del archivo no puede contener espacios.
Paso 1.
Abre el programa MrBayes y ejecuta el archivo con el comando execute

Glaucoreseda_ITS_LF_particiones.nex
Ten en cuenta que MrBayes por defecto considera como outgroup el

taxon que aparece en primer lugar en la matriz. Si quieres que se
considere otro se puede indicar utilizando el comando outgroup N [donde
N es el nmero de orden en la matriz del taxon que quieres que sea el
outgroup]

Cursos OCW
Pag. 3 de 9
Paso 2.
Tema 3.5
Especifica el modelo evolutivo que mejor se ajusta a tus datos (vase

tema 3.4):
El comando showmodel te permite ver el tipo de modelo que MrBayes
aplica por defecto.
Por defecto, se aplica el modelo F81 a todas las particiones. Por lo que,
aquellas particiones para las que el modelo que mejor se haya ajustado a
tus datos no sea este (vase tema 3.4), debes cambiarlo. El tipo de
modelo se puede cambiar utilizando los siguientes comandos:
lset Nst=X Rates=Y
Donde lset sirve para cambiar el modelo
Nst sirve para indicar qu modelo se quiere seleccionar (sustituir X por 1
si el modelo es JC o F81, 2 si es HKY o K80, y 6 si es GTR o SYM)
rates indica la tasa de sustitucin (sustituir Y por equal, gamma [+G],
propinv [+I] o invgamma [+I+G])
Adems hay que especificar a qu particiones queremos aplicar el
cambio utilizando el comando applyto. Por ejemplo, para indicar que ITS1
(nuestra primera particin) se ajusta a un modelo evolutivo K80, teclea
lset applyto=(1) nst=2 statefreqpr=fixed(equal)

Cursos OCW
Pag. 4 de 9
Tema 3.5
Repite este comando para ajustar a cada particin el modelo que hemos
seleccionado como en el tema 3.4. Con ello conseguirs que a cada
regin gentica se le aplique su modelo evolutivo.
Hace falta adems que cada particin tenga independientes el resto de

los parmetros (los priors: frecuencia estacionaria de los nucletidos o
statefreq, tasa de sustitucin de los nucletidos o revmat, proporcin de
sitios invariables o pinvar y forma de la distribucin gamma o shape).
Para ello, hay dos maneras: (1) especificar para cada particin los valores
utilizando el comando statefreqpr= [en nuestra particin 1 sera
=fixed(equal)] o (2) que lo haga automticamente el programa para cada
particin tecleando el comando unlink statefreq=(all) revmat=(all)
shape=(all) pinvar=(all).
Finalmente, hay que indicar que la tasa de variacin general puede ser
variable entre las particiones. Esto se consigue con el parmetro ratepr
del comando prset. Teclea prset applyto=(all) ratepr=variable.
Paso 3.
Selecciona el nmero de generaciones que quieres correr utilizando el

comando Ngen= y empieza el anlisis:
El comando mcmcp te permite cambiar los parmetros de anlisis sin
empezarlo. Teclea mcmcp Ngen=1000000, con ello estars especificando
que cuando se haga el anlisis se realicen 1000000 de generaciones.
Paso 4.
Ya hemos establecido todas las especificaciones necesarias y podemos

proceder al anlisis. El comando mcmc comienza el anlisis con los
parmetros previamente seleccionados o, en caso de no haberlo
establecido, con los que se indiquen en el momento. Por ejemplo si
tecleas mcmc Ngen=1000000 se inicial el anlisis con 1000000 de
generaciones [Ten en cuenta que para una publicacin deberas utilizar al
menos 30.000.000 de generaciones].
El comando mcmcmc incrementa la velocidad a la que se estabiliza la
varianza porque implica que se salte de un pico a otro.
Paso 5.
El anlisis debe continuar hasta que la varianza se estabilice por debajo

de 0.01. En la pantalla se va mostrando el nmero de generaciones que
Cursos OCW
Pag. 5 de 9
Tema 3.5
lleva junto con los valores del likelihood obtenidos en cada generacin
para cada una de las cuatro cadenas. Adems, se indica la varianza
alcanzada y el tiempo que falta para que se termine el anlisis. Cuando
se alcanza el nmero de generaciones solicitado el programa pregunta si
se quiere continuar con el anlisis (yes) o no (no). Si el nmero de
generaciones solicitado no ha sido suficiente como para estabilizar la
varianza por debajo de 0.01 contestaremos que s queremos continuar
con el anlisis, indicando cuntas generaciones adicionales queremos
hacer hasta obtener la varianza requerida.
Ejercicio 3.5.3. Debes realizar ms generaciones o con 1.000.000 es suficiente?
Paso 6.
Una vez estabilizada la varianza y finalizado el anlisis debemos

visualizar los resultados. Para ello, teclea el comando sump. Lo que nos
proporciona este comando es una tabla (en la que debemos comprobar
que el parmetro PSRF es prximo a 1), y un grfico de dispersin (que
no debe mostrar tendencias si la varianza estaba estabilizada). Sin
Cursos OCW
Pag. 6 de 9
Tema 3.5
embargo, estos resultados no nos interesan ya que incluyen tambin

resultados previos a la estabilizacin. Para matrices no muy complejas,
como la nuestra, se puede asumir que eliminando el 25% inicial de los
rboles construidos estaremos eliminando aquellos rboles obtenidos
antes de la estabilizacin. Para ello necesitamos el comando burnin. Por
defecto, MrBayes guarda los resultados de la bsqueda cada 100
generaciones (un rbol y los valores de los parmetros asociados), por lo
que si hemos realizado un anlisis de 1000000 de generaciones,
debemos eliminar el burnin tecleando la lnea de comando:
sump burnin=2500

Cursos OCW
Pag. 7 de 9
Paso 7.
Tema 3.5
Para obtener un resumen de los rboles el comando que se utiliza es

sumt, tambin descartando el 25% inicial de muestras. En el ejemplo
anterior, la lnea de comando sera:
sumt burnin=2500
El comando sumt crea tres archivos en la carpeta raz: uno con extensin
.parts, en el que se incluyen las particiones (clados), su probabilidad a
posteriori (pp) y la longitud de rama asociada; uno con extensin .con, en
el que se incluyen dos rboles consenso, uno con la longitud de las
ramas y otro con la probabilidad; y uno con extensin .trprobs, en el que
se guardan los rboles obtenidos ordenados por su probabilidad
posterior.
Por defecto, para la construccin del rbol de consenso, MrBayes
condensa los clados con menos de 50 de probabilidad posterior
(halfcompat). Esto se puede cambiar con el comando contype= [Por
ejemplo, contype=allcompat no condensa ningn clado]
Paso 8.
Una vez obtenidos los rboles salimos del programa con el comando quit.
Otra opcin alternativa consiste en incluir todos los comandos del anlisis
en un bloque de comandos a continuacin del que hemos aadido
especificando las particiones al final del archivo de la matriz. Para ello,
puedes abrir la matriz con un editor de texto (WordPad para PC, o
TextWrangler para MAC; OJO es muy importante que no lo abris con
Word) y a continuacin del bloque donde has definido las particiones
escribir lo siguiente:
lset applyto=(1) nst=2 rates=equal;
prset applyto=(1) statefreqpr=fixed(equal);
lset applyto=(3) nst=1 rates=propinv;
prset applyto=(4) statefreqpr=dirichlet(1,1,1,1);
[hasta aqu le hemos indicado a MrBayes que al ejecutar esta matriz
aplique el modelo evolutivo K80 a la primera particin (ITS1), JC a la 2
(5.8S), JC+I a la 3 (ITS2) y F81 a la 4 (trnL-F)]
set autoclose=yes;
[Con este comando le indicamos al programa que se cierre una vez
terminado el anlisis]
mcmc ngen=1000000 printfreq=100 samplefreq=100
nchains=4 savebrlens=yes burninfrac=0.25;
nruns=2
[Aqu le estamos indicando los parmetros para realizar la bsqueda:

mcmc -que inicie las cadenas-, ngen=1000000 -que realice un milln de
generaciones-, printfreq=100 que nos muestre en la pantalla los
resultados cada 100 generaciones-, samplefreq=100 que guarde los
Cursos OCW
Pag. 8 de 9
Tema 3.5
resultados de la bsqueda (rbol, ms parmetros) una vez cada 100

generaciones-, nruns=2 que inicie dos anlisis al mismo tiempo-,
nchains=4 que corra cuatro cadenas de Markov por cada anlisis-,
savebrlens=yes que guarde la longitud de las ramas-, burninfrac=0.25
que aplique un burnin del 25%-]
sump;
sumt contype=halfcompat;
end;
[Estos ltimos comandos le indican que realizado el anlisis: sump; -nos
compile los resultados-, sumt contype=halfcompat; -que compile los
rboles y compute el rbol de consenso-, end; -que termine el anlisis-]
Ejercicio 3.5.4. Escribe los comandos para el anlisis dentro del archivo de la matriz
Glaucoreseda_ITS_LF_particiones.nex.

Cursos OCW
Pag. 9 de 9
Tema 3.4
______________________________________________________________________
TEMA 3.6. Obtencin de rboles mediante el mtodo de Mxima Verosimilitud
_____________________________________________________________________
(1) RAxML (Randomized Axelerated Maximum Likelihood). Este programa realiza
inferencias filogenticas basadas en Maximum Likelihood y permite el anlisis
rpido de grandes matrices. Se puede descargar de forma gratuita gratuita
desde la web http://sco.h-its.org/exelixis/software.html. En esta misma pgina
tienes la posibilidad de estimar la potencia de clculo que necesitas para los
anlisis que quieres realizar. Para ello, incluye el nmero de muestras que
tienes (n individuos, en nuestro caso 2 por especie, 17 en total) y el nmero
de posiciones de la matriz (m).
Manual del programa: RAxML
Tutorial para RAxML: http://sco.h-its.org/exelixis/hands-On.html
(2) RAxMLGUI. Esta es una interface grfica para RAxML. Puede descargarse de
forma gratuita desde la web http://sourceforge.net/projects/raxmlgui/
Manual de la interface grfica: RAxMLGUI
(1) GARLIC (Generic Algorithm for Rapid Likelihood). Este programa se puede
descargar de forma gratuita desde la web http://code.google.com/p/garli/.
Adems, podis seguir un curso online para le aprendizaje
(http://bodegaphylo.wikispot.org/Maximum_Likelihood_%28GARLI%29)
El objetivo de esta prctica es realizar un anlisis de Maximum Likelihood combinando
de las regiones que tenemos (ITS y trnL-F).
Paso 1. Descargar el programa RAxML.
Para descargar el programa ve a la pgina web http://sco.hits.org/exelixis/software.html, y avanza -al inicio aparecen otros
programas:un editor de rboles, versiones de RAxML para matrices
complejas, etc.- hasta que llegues al epgrafe RAxML. Descrgate la
versin recomendada para el sistema operativo que tengas. RAxML es
especialmente rpido en comparacin con otros programas que realizan
tambin bsquedas basadas en ML, como PAUP, ya que incorpora: (1) la
construccin de un rbol inicial mediante parsimonia usando un algoritmo
de random stepwise addition (vase tema 2.1), (2) para realizar el
reajuste de las ramas utiliza Lazy Subtree rearrangement, (3) implementa
un nuevo modelo de substituticin adems de los tradicionalmente
usados en ML (GTR+GAMMA), que permite estimar las tasa por cada
posicin (este modelo es slo recomenable para matrices muy grandes) y
Cursos OCW
Pag. 1 de 4
Tema 3.4
adems mejora la bsqueda ya que a pesar de usar un algoritmo Hillclimbing, permite la realizacin de pasos hacia atrs en el proceso.
Para este curso vamos a usar una interface grfica de las que se han
desarrollado. Puedes descargrtela avanzando en la misma pgina hasta
el epgrafe Graphical User Interfaces, la que vamos a usar en este curso
es la desarrollada por Silvestri & Michalak.
Una gran parte del software disponible para realizar anlisis filogenticos
funcionan mediante comandos a travs de la terminal. Dado que ste es
un curso se iniciacin hemos decidido minimizar el empleo de la terminal.
No obstante, os sugerimos que una vez familiarizados con las
herramientas bsicas del anlisis filogentico que aqu os proponemos,
profundicis en vuestra formacin mediante el uso de estos programas
desde la terminal. Para poder iniciaros en el manejo de RAxML desde la
terminal podis seguir el curso online de Bodega Phylogenetics Wiki
(http://bodegaphylo.wikispot.org/RAxML_Tutorial)
Paso 2. Vamos a realizar un anlisis combinado de varias regiones, no slo el
espaciador ITS del ADN ribosmico y del espaciador trnL-F del genoma
plastidial, sino que tambin acurdate que la propia regin ITS presenta
tres regiones distintas: 2 espaciadores (ITS-1 e ITS-2) separados entre s
por el gen 5.8S. Por ello para hacer la combinacin de la matriz podemos
hacer varias alternativas. Una
RAxML lee matrices con formato Phylip o Newick. Por ello, el primer paso
es convertir la matriz (Glaucoreseda_ITS_LF) a formato phylip y
gurdarla (vase tema 3.2).
Paso 3. Abre la Interface grfica del programa RAxML (raxmlGUI095Mac/PC/Linux) carga la matriz Glaucoreseda_ITS_LF.phy que has
construido en Add alignment. Si el formato de la matriz es correcto en la
pantalla aparecer la matriz en formato phylip. Si en la matriz hay 2 o
ms secuencias completamente iguales te aparecer un mensaje
avisndote y dndote la opcin de eliminar aquellas secuencias que sean
idnticas dejando solamente una. Dile que no para que no elimine
aquellas muestras iguales (ya que al ir a encadenar ms genes es posible
que dos individuos presenten la misma secuencia para una de las
regiones pero diferente para otra regin)

Cursos OCW
Pag. 2 de 4
Tema 3.4
Paso 4. Para seleccionar el outgroup tienes dos opciones. Si slo vas a

seleccionar una muestra como outgroup entonces puedes seleccionarlo
directamente en la pantalla en la opcin Outgroup. Si queires
seleccionar ms de una muestra como outgroup, entonces ve al men
principal y en Options selecciona la opcin Select multiple
outgroups. Se abrir una nueva ventana
Dale a la opcin Set as outgroups. Inmediatamente te saldr una
pantalla de aviso en la que se advierte de que si los outgroups no son
monofilticos, el primero de la lista ser el utilizado como outgroup.
Paso 5. Las bsquedas pueden hacerse con varias opciones, deja sealada la
que aparece por defecto en la que se realiza una bsqueda de ML y un
anlisis de remuestreo tipo bootstrap (vase tema 2.1.) rpido. Podemos
hacer una prueba inicial realizando nicamente 100 rplicas [Ten en
cuenta que para una publicacin deberas utilizar al menos 1.000.000 de
rplicas]. Para set de datos pequeos se recomienda usar el modelo
GTRGAMMA. Dale a Run

Cursos OCW
Pag. 3 de 4
Tema 3.4
Paso 6. Terminado el anlisis se generarn automticamente los siguientes

archivos en la carpeta donde estuviese la matriz original:
(1) RAxML_bestTree.Glaucoreseda_ITS_LF.tre
brelo con Figtree. Este archivo contiene el mejor rbol.
(2) RAxML_bipartitions.Glaucoreseda_ITS_LF.tre
brelo con Figtree. Este archivo contiene el mejor rbol con los
valores de bootstrap incluidos.
(3) RAxML_bootstrap.Glaucoreseda_ITS_LF.tre
brelo con Figtree (o si tarda mucho con un editor de texto). Este
archivo contiene todos los rboles que se han conseguido en cada
una de las rplicas de Bootstrap que hayas hecho. En nuestro caso
deberan aparece 1000 rboles.
(4) RAxML_bipartitionsBranchLLabels.Glaucoreseda_ITS_LF.tre
brelo con Figtree. Este archivo contiene el mejor rbol con las
longitudes de ramas.
(5) RAxML_info.Glaucoreseda_ITS_LF
brelo con un editor de texto (WordPad para PC, o TextWrangler
para MAC; OJO es muy importante que no lo abris con Word) en
l podrs encontrar un resumen del anlisis realizado, particiones,
adems de los Likelihood, el nmero de reajustes de las ramas del
rbol.

Cursos OCW
Pag. 4 de 4
Tema 4
______________________________________________________________________
TEMA 4 Programas para la edicin de rboles filogenticos
_____________________________________________________________________
Contacto: Maite Aguado (maite.aguado@uam.es)
Existen numerosos programas especficos para la edicin grfica de los rboles
filogenticos obtenidos en el tema 3. En este curso vamos a ver dos alternativas
ampliamente usadas. Si bien todos los rboles que hayas guardado en formato .emf
puedes editarlos en PowerPoint.
(1) Figtree, un programa gratuito que te puedes descargar desde la web:
http://tree.bio.ed.ac.uk/software/figtree/
(2) ITOL Interactive Tree of Life, est accessible en la pgina web:
http://itol.embl.de/
I. Figtree para obtener grficos
Paso 1. Abre el programa Figtree y en File selecciona el archivo
Glacuoreseda_ITS_LF_MPbs.tree. Aunque en la prctica utilizaremos
este rbol de bootstrap, en las publicaciones se ha de presentar el rbol
de consenso generado en una de las bsquedas. Generalmente, se
utiliza el que presenta la topologa ms resuelta y posteriormente se le
aaden los valores de apoyo. Por ello, es frecuente encontrar clados que
presentan tres apoyos (el bootstrap del clado obtenido con MP y el
obtenido con ML, adems de el valor de posterior probability obtenido
para ese clado con BI). Por el contrario otros clados, slo tendrn por
ejemplo el valor de posterior probability obtenido con BI, ya que ese clado
no se recupera al analizar la matriz de datos bajo MP y ML. Nos
aparecer una ventana del tipo:
Escribe bootstrap . Al aceptar obtendremos un grfico con el rbol de

bootstrap:

Cursos OCW
Pag. 1 de 5
Tema 4
Paso 2. Para obtener los valores de bootstrap de cada clado seleccionando en
la barra lateral Node labels y en su Display seleccionando la opcin

bootstrap.

Cursos OCW
Pag. 2 de 5
Tema 4
Paso 3. Podramos cambiar el outgroup simplemente seleccionndolo con el

ratn y pulsando en la opcin reroot. Podramos igualmente modificar la
esttica del grfico jugando con todas las posibilidades que ofrece el
programa.
Por ejemplo, podemos colapsar clados con la herramienta collapse y
utilizar despus colour para darles color.
Paso 4. Finalmente, para guardar el grfico selecciona Export Graphics en

File.
III. Otros visors grficos: IOTL Interactive Tree of Life
Paso 1.
Entra en la web: http://itol.embl.de/

Cursos OCW
Pag. 3 de 5
Tema 4
Paso 2. En data upload carga el archivo .tre que desees y visualiza el grfico.
Una vez cargado el archivo iremos a go to the main display page.
Paso 3. En Basic controls puedes modificar el modo (normal, circular,

unrootted).
Paso 4. En Advance controls puedes, entre otras opciones, seleccionar la
opcin que permite ver los valores de soporte de las ramas (p.ej. Bootstrap).
Cursos OCW
Pag. 4 de 5
Tema 4
Paso 5. Cada vez que modifiques algo en alguna de las pestaas pulsa el botn
Update tree par aver el resultado.

Cursos OCW
Pag. 5 de 5

Manual de Iniciación Al Análisis de Secuencias de ADN

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Manual de Iniciación Al Análisis de Secuencias de ADN

Загружено:

Авторское право:

Доступные форматы

Manual para anlisis filogenticos moleculares

Manual para anlisis filogenticos moleculares

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

El mtodo de ML en cambio intenta estimar la cantidad de cambio real de

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

- tipo de problema: no polinomial

- los modelos de sustitucin

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Selecciona los rboles con mayor

Calcula distancias entre pares de

Asume modelo evolutivo

- sensible al orden de entrada de los datos

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Procesos de construccin y bsqueda de los rboles filogenticos a partir de

Figura 1. Esquema del proceso de construccin y bsqueda de rboles en un

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Los algoritmos branch-and-bound tambin garantizan encontrar los rboles

Construir un nuevo rbol (rbol 1.1.1) mediante

Si de acuerdo al criterio de seleccin

Si de acuerdo al criterio de seleccin

Construir un nuevo rbol (rbol 1.2.1) mediante

Figura 2. Esquema del proceso de construccin y bsqueda de rboles en un

Manual para anlisis filogenticos moleculares

(2) Las bsquedas heursticas (algoritmos hill-climbing strategies; stepwise

Construir todos los rboles

Conectar todos los txones

Figura 3. Esquema del proceso de construccin y bsqueda heursticas de rboles

Manual para anlisis filogenticos moleculares

Seleccionar una de las muestras

A partir del rbol seleccionado en el

Figura 4. Esquema del proceso de construccin y bsqueda heursticas de rboles

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Manual para anlisis filogenticos moleculares

Manual para anlisis filogenticos moleculares

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Si tienes tus propias secuencias, entonces el primer paso es revisar esos

Figura 2. Cromatograma con una aditividad (posicin 420) posiblemente debida a la

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Paso 4. Segn vayas realizando las bsquedas, puedes ir guardando las

Paso 5. Accede a la carpeta Clipboard que aparecer en la parte superior

Manual para anlisis filogenticos moleculares

descargar las secuencias. Seala FASTA. Cambia el nombre del

Paso 6. Al descargarte las secuencias obtendrs un archivo de texto que incluye

Manual para anlisis filogenticos moleculares

II. Otras opciones del GenBank: BLAST

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares

Paso 4. Se abrir una ventana en la que se solicita la secuencia modelo (query),

Universidad Autnoma de Madrid

Manual para anlisis filogenticos moleculares