Вы находитесь на странице: 1из 22

Práctica 5: Alineamiento de secuencias e identificación de

motivos

El objetivo de los algoritmos de alineamiento de secuencias es acomodar dos a más secuencias de tal
manera que se alcance el máximo de coincidencias entre los elementos de las mismas. Los alineamien-
tos se pueden clasificar en: globales (cuando se pretende alinear las secuencias enteras, empleando
tantos caracteres o símbolos de los extremos de las secuencias como sea posible) y locales (cuando se
buscan porciones de las secuencias que presentan mayor cantidad de concordancias). Los algoritmos
de alineamiento de secuencias, emplean ciertas métricas para determinar la calidad del alineamiento,
una es el porcentaje de similitud de secuencia, que no es más que la fracción de elementos iguales
alineados, entre la cantidad de elementos de la secuencia más corta. Otra de las métricas empleadas
para representar la calidad del alineamiento es la puntuación (score), determinada por una función de
puntuación del algoritmo, para definir la bondad del alineamiento obtenido (generalmente se devuelve
un valor entre 0 y 100%), que mientras más elevado sea, mejor es el alineamiento.
El alineamiento múltiple de secuencias es una de las técnicas bioinformáticas más usadas, ya que
por medio de ella podemos realizar diversos análisis como por ejemplo:

• Encontrar homologías.
• Diseñar oligonucleótidos para PCR.
• Descubrir familias de proteínas (identificación de motivos y/o dominios conservados).
• Estudios evolutivos (Filogenias).

Al comparar simultáneamente varias proteínas relacionadas es común observar que aún en gru-
pos donde la similitud entre ellas es baja, hay algunas partes de la secuencia que son similares. Estas
similitudes pueden abarcan pocos aminoácidos bastante conservados (motivos) o extenderse en una
región más grande, posiblemente con menor similitud (dominios). Los motivos no ocurren solamente
en proteínas, también podemos encontrar motivos en secuencias regulatorias de ADN. Determinar los
dominios y motivos presentes en una proteína nos puede ayudar a postular su función y/o estructura.
En el caso de promotores de genes nos sirve para saber qué factores pueden regular la trascripción.
Por esa razón, al realizar anotaciones o analizar secuencias es importante poder reconocer motivos y
dominios.
Durante el transcurso de esta práctica analizaremos diferentes algoritmos de alineamiento, tanto
de dos como de múltiples secuencias. Conjuntamente, utilizaremos los algoritmos de alineamiento
múltiple en la búsqueda e identificación de motivos conservados en secuencias biológicas. Así, los
objetivos principales de esta práctica son:

• Aprender el manejo básico de herramientas de alineamiento de secuencias.


• Comprender e interpretar la información que ofrecen estos alineamientos.
• Desarrollar habilidades y destrezas en la búsqueda e identificación de motivos conservados.

Q Volver al índice
60  Manual de prácticas de Bioinformática

Alineamiento óptimo de dos secuencias


El alineamiento de pares de secuencias es el proceso de alineamiento de dos secuencias y es una de las
actividades fundamentales en el análisis bioinformático. En términos simples el alineamiento de dos
secuencias es el proceso en el cual los diferentes residuos (nucleótidos o aminoácidos) de cada secuen-
cia son comparados mediante la búsqueda de patrones de caracteres comunes y el establecimiento de
correspondencias residuo-residuo entre las secuencias problema.
Los alineamientos de pares sirven, entre otras cosas para:

• Asegurarse de que dos secuencias son similares y cuantificar su similitud.


• Encontrar dominios funcionales.
• Comparar un gen y su producto.
• Buscar posiciones homólogas entre secuencias.

En nuestro caso, utilizaremos el alineamiento de pares para buscar homologías entre la secuencia
codificante del gen Solyc03g118740.2.1 de la especie Solanum lycopersicum y su correspondiente re-
gión genómica, para poder determinar así la estructura génica del gen; es decir, las regiones exónicas
e intrónicas. Para ello, utilizaremos la herramienta de alineamiento Needle a la cual podemos acceder
a través de la web de EMBOSS.

Acceda al sitio web de EMBOSS ubicado en la siguiente dirección:


http://www.ebi.ac.uk/emboss/align/index.html

La herramienta Needle se utiliza para crear una alineación global óptima de dos secuencias (nu-
cleotídicas o proteicas) utilizando el algoritmo de Needleman-Wunsch.

Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos
de entrada. En este caso introduciremos en el primer campo la secuencia codificante del gen So-
lyc03g118740.2.1.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  61

>Solyc03g118740.2.1
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTA-
TATTCCTTCTTTCTGCAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCA-
ACCCCATTTCATCCTTTACTTGTAAAACCTGTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGA-
TAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGCCACTTTATGTAGCTATGATACTAGCTTATGGCTCT-
GTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACAGATTTGTTGCACTTTTTGCAGTTC-
CACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCTGCAGATACTCTG-
CAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA-
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGT-
GATTTCTCTGGGAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTAT-
GTTTGAGTTTAGAGGTGCAAGACTGCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATT-
CATGTTGATTCTGATGTCATGTCATTAGATGGTAGACAAGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGAT-
GGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATATATTTTCAAGAAGGTCAGGTG-
GATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCATCAAGAAATC-
CAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCA-
AACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAA-
GAAGAAAGTGGAAAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACT-
CATTATCCAGCACCAAATCCAGGCATGTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGC-
TAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATATGTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCT-
GATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACCTAATAAGGATGTGAGAGTACC-
TATCTCCCCTGGAAAAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGAGAGATGATTTCA-
GCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA-
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACC-
CAAACACTTATTCGAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTGGAATTTGAAGATGCCTGC-
TATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTTGGCATGGCAATGTTCAGTCTTGGTCTGTTCAT-
GGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCTGTGAGATTCCTTACA-
GGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTACA-
GGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTTCATCCTGACATTCTTAGCA-
CAGCTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGGGACTTTGAAGA-
GGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCT-
CACAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTT-
GTGCTTAATTAGCTGAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG

Y en el segundo campo introduciremos la región genómica donde se ubica dicho gen.

Q Volver al índice
62  Manual de prácticas de Bioinformática

>SL2.50ch03:67567401-67572000
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTATATTCCTTCTTTCTG-
CAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCAACCCCATTTCATCCTTTACTTGTAAAACCT-
GTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGATAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGC-
CACTTTATGTAGCTATGATACTAGCTTATGGCTCTGTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACA-
GATTTGTTGCACTTTTTGCAGTTCCACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCT-
GCAGATACTCTGCAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA-
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGTGATTTCTCTGG-
GAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTATGTTTGAGTTTAGAGGTGCAAGACT-
GCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATTCATGTTGATTCTGATGTCATGTCATTAGATGGTAGACA-
AGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGATGGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATA-
TATTTTCAAGAAGGTCAGGTGGATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCAT-
CAAGAAATCCAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCAA-
ACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAAGAAGAAAGTGGA-
AAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACTCATTATCCAGCACCAAATCCAGGCAT-
GTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGCTAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATAT-
GTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCTGATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACC-
TAATAAGGATGTGAGAGTACCTATCTCCCCTGGAAAAGGTAATTAACTCTGTTCACTAAAAGGCTATATTAGTTTCGATTTGAACCT-
GAAGTCTCACGGTTAATAAAAAAAGTTTTTTATGCTTAATTAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGA-
GAGATGATTTCAGCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA-
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACCCAAACACTTATTC-
GAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTAAATTTTACCAATTTCTATTCATTTTCTTTTTTAATTGTTGTTATATAT-
TCTGATTATTTAAAAAAATGTAGGTGGAATTTGAAGATGCCTGCTATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTT-
GGCATGGCAATGTTCAGTCTTGGTGAGTACTTTTTTTTTCATTATTTGATCACAAGGAGGTCATTACTATTATTAAATTACTTGTTTA-
GAAGGGGGGAGCGTGCAAAAAAGCACAACAATATGCTCATCATAACATCTTTCTCTACATCTCTTCTTTAATTAATTAAAATTAA-
TAACCCCATCTCAATGCTTCTCATTTGCTCTCAAATGGATACAATCATGATAACTACTACTAGTAGTAACACCCCACTAGTGGATGT-
GATGATGCCATGCACTTGTTTTTTTTTAATTTTATTTTAATAGTGTCGTATATTCGAGTTTCTTTGTATGCATTTATCGAGTAATTCT-
GTCAATCAAGATGTAAAGTTCGACGAATTTCATGAATATTTGTTACGTCCCACCAATATAAATATCGAATAGTTCTGTCAATCAAA-
AGTTATTAGTATTTTGTATGCATTTCCATGGATTTTTAATATATATATATGTATCGAATAACTTTGTCACTCCAATTTTGAACGAATA-
GAAAGAAATGGTTATTGCTTTCTTCTATAATTAGAAGTAAAATGTGATGGTCCCCTTAGTGCATGATGCCATGCACTTAAAAGAGA-
AGGGGCTAGCTACTTTTTCCAAATGTGATATTTGATAGTTGGAAGTAGAAAAAAATATATATTTGCATGTTAGAAAAATGAAAC-
GATTTTTATGTATGACAGGTCTGTTCATGGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCT-
GTGAGATTCCTTACAGGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTA-
CAGGTCATCATCAAATCTTAAAATTCTTTCTTTTATCATAAAACATTATGTTAATTATTTTATTTCAATCTCTACACTATGACCTACTAC-
TATATTATAAATTAATTAACCAAAAAAAAAGCTGTTTCGAGCCCATACAGTTTCAAAACTCATTAATTTATATTGAGTGTGTTTTTAA-
TATAATAAACGATAATTATTTCTAAGGTTTATTAGAAACACTTTTTCTATTTCATAGGTATGAAATTATGTATACTGAATATATTATT-
GTTGTTCAATCGATATGTACTAAAAACAGGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTT-
CATCCTGACATTCTTAGCACAGCGTAAGTATAAATTAATTTAACATTTTTTTATAGTGTTTAATTTTTTTTAATTAGTTTTGTGATTGA-
TAATTTTTTTTTTTATTTGTGTTTATTACAGTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGG-
GACTTTGAAGAGGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCTCA-
CAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTTGTGCTTAATTAGCT-
GAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG

A continuación, utilizando los parámetros por defecto (comprueba solamente que el tipo de se-
cuencia se corresponda con el que has proporcionado), ejecutamos el alineamiento haciendo clic en
“Submit”.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  63

Al principio de la página de resultados, la herramienta Needle nos muestra un resumen del análisis
realizado, donde se muestran los diferentes parámetros utilizados para ejecutar dicho análisis.

Q Volver al índice
64  Manual de prácticas de Bioinformática

En la parte inferior, encontramos los resultados del alineamiento. Analizando estos resultados po-
demos determinar la estructura génica del gen Solyc03g118740.2.1. Las regiones exónicas se muestran
subrayadas en rojo, mientras que las regiones intrónicas se representan en azul (6 exones y 5 intrones).

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  65

Q Volver al índice
66  Manual de prácticas de Bioinformática

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  67

Una vez realizado el alineamiento con Needle, utilizaremos la herramienta Align para hacer un
análisis BLAST (bl2seq) con estas dos mismas secuencias nucleotídicas. Podemos acceder a dicha he-
rramienta a través de la página principal de BLAST en el NCBI (http://blast.ncbi.nlm.nih.gov/Blast.
cgi), haciendo clic en “Align“ dentro de la sección “Specialized BLAST”.

Q Volver al índice
68  Manual de prácticas de Bioinformática

Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos de
entrada. A continuación, utilizando los parámetro por defecto, ejecutamos el alineamiento pinchando
sobre el botón “BLAST”.

Como tarea a realizar, el alumno deberá analizar la página de resultados y contestar a las siguientes
preguntas:

• ¿Observas diferencias entre los alineamientos realizados con Needle y Align?


• ¿Cuántos alineamientos aparecen en la página de resultados de la herramienta
Align?
• A tenor de los resultados obtenidos con la herramienta Align ¿Has realizado un
alineamiento local o global?

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  69

Alineamientos múltiples de secuencias


Un alineamiento múltiple de secuencias es aquel que se lleva a cabo con más de dos secuencias. Estas
secuencias, como en el caso de los alineamientos por parejas pueden ser ADN, ARN o proteína. El
alineamiento múltiple es una de las técnicas bioinformáticas más usadas, ya que por medio de ellas po-
demos realizar diversos análisis, desde filogenias hasta búsqueda de motivos y/o dominios funcionales.
En todos los casos los algoritmos de alineamiento múltiple asumen que las secuencias que estamos
alineando descienden de un antepasado común y lo que intentamos hacer es alinear las posiciones
homólogas. Los algoritmos más utilizados son los derivados del programa Clustal, especialmente
ClustalW, cuya versión actual es el denominado ClustalW2. Sin embargo, ClustalW utiliza un método
de alineación progresiva, con un algoritmo bastante rápido que, por tanto, permiten alinear miles de
secuencias en tiempos cortos. No obstante, la principal debilidad de los algoritmos de construcción
progresiva es que los errores introducidos en cualquiera de las etapas de alineamiento no son corre-
gidos en etapas posteriores sino que son propagados hasta el resultado final.
Actualmente, se suelen utilizar métodos de alineación iterativa. Estos algoritmos iterativos reducen
los errores inherentes en los métodos progresivos, ya que trabajan de forma similar a los métodos
progresivos, pero realinean repetidamente las secuencias iniciales además de añadir al análisis nuevas
secuencias progresivamente.
En el servidor web del EBI tienen disponibles una serie de programas de alineamiento múltiple
que emplean métodos de iteración sutilmente diferentes, como por ejemplo: Clustal Omega, Kalign,
MAFFT, MUSCLE y prank. En esta práctica utilizaremos el programa MUSCLE para realizar un
alineamiento múltiple de las secuencias proteicas que se muestran a continuación.

>Solyc01g010240.2.1
MSSSSPNSSCLNLLESADHKINTMDPSEHLCYVRCSFCNTILAVGIPCKKLLDTVTVKCGHCGNLSFLSSRPPI-
QPQFFDHQPILQHQDFFNNFKKGQSSSSSEPSSPKAPFVVKPPEKKHRLPSAYNRFMKDEIQRIKAAHPQIPHREA-
FSAAAKNVHSKYSKWDLG
>Solyc05g005240.1.1
MSTLNNHLFELQDTICYVQCGYCTTILLVSVPCSSLCNKVVTVRCGHCTTLLSLNLIKPSLHLFASFDQTHQPPEVDK-
DETDDANKKNSNSDEEDQLENNVLPLNQVVNKPPEKRQRAPSAYNCFIKEEIKRLKTLYPNMTHKQAFSTAAKN-
WAHFPPSQHRGGCSLGERKMAKVSAARNSMVPRDSNGLIP
>Solyc06g073920.2.1
MSLDMTYSSSSSERVCYVHCNFCSTILAVSVPCNSMMTIVTVRCGHCANLLSVNIAPSLQSLPIQDLQRQNESSIED-
GMSRGYGSSSSSTNSFHRFSPIPTDHDQPRSPPIRVPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN-
WAHFPHIHFGLKLDGNKQTNKLDHAVAGEGPQKTIGLY
>Solyc08g079100.2.1
MSSSNSLSLDHLPPPPPSEQLCY VHCNVCDT VLAVSVPC TSLFK T V T VRCGHC TNLLPGWLLPSTN-
HHHHHFGHTYFSPSHNLLDEISNATPNFLMNQSNSAHEFVQLPARPGFDDLPRPPPVVNRPPEKRQRVPSAYNR-
FIKEEIQRIKAGNPDISHREAFSAAAKNWAHFPHIQFGLMPDQTVKRTNVRQQDGEDVLTKDGLFNTSANVSVSPY
>Solyc11g071810.1.1
MSFDMTFSSSPSSERVCYLQCNFCNTILAVSVPCSNMLTLVTVRCGHCANMLSVNIGSLIQALPLQDVQKLQRQQYT-
NVENNSSNYKAYGSSSSSSSKFNRYSSIVSPQIEPKIPSIRPPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN-
WAHFPHIHFGLKLEGNK
>Solyc12g009580.1.1
MSSSYIDSTNFEKLCYIPCNFCNIVLVVSVPCSNLLDIVTVRCGHCTNLWSVNMAAAFHTNSWQNHLHHQVGN-
YTNSPHDQYKVDFASSSITNNSTLEERNVNRPPEKRQRGPSAYNQFIKEEIQRIKANNPDITHREAFSTAAKNWAHF-
PHIQFGLMLETDNQAKLGASENKEKLIMHRAALPKIKTFTF

Q Volver al índice
70  Manual de prácticas de Bioinformática

Acceda al sitio web del EBI:


http://www.ebi.ac.uk/Tools/msa/

Para hacer el alineamiento múltiple introduciremos las secuencias problema en el campo de en-
trada “STEP 1 - Enter your input sequences”. Posteriormente, utilizando los parámetros por defecto,
ejecutamos el alineamiento haciendo clic en “Submit”.

El tiempo que el programa tarda en obtener los resultados depende de la carga de trabajo del ser-
vidor en ese momento, así que el tiempo de espera debe ser directamente proporcional al número de

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  71

personas que estén haciendo uso del programa. Después de unos segundos (o minutos) aparecerá la
página de resultados.

Guarde en un archivo el alineamiento generado en el cuadro de resultados. Para ello pulsaremos


“Download Alignment File”. Este archivo será el que utilicemos en BioEdit, una herramienta muy in-
teresante para visualizar y editar nuestros alineamientos múltiples.
Bioedit es un programa gratuito para edición de alineamientos y análisis de secuencias que fun-
ciona únicamente en un entorno MS/Windows. Este programa cuenta con varias herramientas que
van desde la creación de alineamientos hasta la anotación de plásmidos. En este caso, utilizaremos esta
herramienta para editar el alineamiento múltiple recién creado.

Q Volver al índice
72  Manual de prácticas de Bioinformática

Acceda al sitio web:


http://www.mbio.ncsu.edu/BioEdit/bioedit.html

La descarga del programa se realiza pulsando “BioEdit.zip (Full install)”. Una vez descargado, debe-
mos descomprimir el archivo “BioEdit.zip” y, posteriormente, instalar el programa ejecutando “setup.
exe”.
Una vez descargado e instalado en nuestro ordenador, abriremos con BioEdit el archivo generado
con MUSCLE. Este programa, tiene un entorno de trabajo similar al de todas las aplicaciones de MS/
Windows, por tanto para abrir un archivo debe dirigirse al menú archivo (“File”) y escoger la opción
abrir (“Open”). Seleccionaremos nuestro archivo con la extensión “*.clw” e inmediatamente aparecerá
una ventana similar a la siguiente.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  73

Esta es la ventana principal de BioEdit. El alineamiento de nuestras secuencias se muestra en la


parte central derecha de la pantalla y las secuencias correspondientes a la izquierda. Por defecto cada
aminoácido es resaltado en un color diferente, este esquema de colores puede ser cambiado en cualquier
momento mediante la utilización de las diferentes opciones de la barra de herramientas.

Con el fin de visualizar mejor nuestro alineamiento, cambiaremos el esquema de colores presionan-
do los botones “Shade Identities and Similarities in alignment window” y “Monochrome”. El resultado
obtenido debe ser similar al de la imagen siguiente.

En la última línea del alineamiento, denominada “Clustal Consensus”, podemos observar 3 tipos
de caracteres o la ausencia de ellos, que significan:

• Asterisco (*), indica que en dicha posición los residuos son 100% idénticos.
• Dos puntos (:), indica posiciones en las que se han realizado sustituciones conservativas.
• Punto (.), indica sustituciones menos conservativas.
• Ausencia de caracteres, indica que no existe un consenso en dicha posición.

Cuando hacemos un alineamiento múltiple lo que queremos evaluar es el nivel y lugar de conser-
vación de nuestras secuencias. Por tanto, analizar la secuencia consenso es una manera apropiada de
conocer las características de nuestro alineamiento.
Generalmente (no siempre), las regiones N y C terminal son poco conservadas, por esta razón
encontramos en los dos alineamientos más gaps (huecos) y ausencia de similitudes en dichas regiones.
Por ahora, no tenemos métodos estadísticos para evaluar la validez de un alineamiento múltiple,
como ocurre por ejemplo con el valor E-value en BLAST. Si trabajamos con secuencias de ADN es fácil
hacerse una idea de lo bueno que es el alineamiento puesto que únicamente se valora positivamente
la identidad de los residuos en cada posición. Con las secuencias de proteínas el asunto es más com-
plejo porque se valoran positivamente también los parecidos entre aminoácidos que no son idénticos,
pero que son químicamente similares y esto conduce a que los alineamientos de las secuencias al azar
puedan confundirse con alineamientos realmente significativos.

Q Volver al índice
74  Manual de prácticas de Bioinformática

Si tiene interés en conocer en profundidad BioEdit y todas sus aplicaciones puede consultar el
manual en el siguiente enlace:
http://www.mbio.ncsu.edu/BioEdit/BioDoc.pdf

En este punto de la práctica, utilizando los conocimientos adquiridos, el alumno tendrá que realizar
las siguientes tareas:

A partir de las secuencias proteicas de Arabidopsis thaliana con identificador:


NP_564194.1; NP_177078.1; NP_850080.1; NP_566037.1; NP_567154.1;
NP_001078337.1
• Identificar en qué cromosoma se localiza el gen que codifica cada una de estas
proteínas.
• Generar un fichero de texto con las secuencias en formato FASTA de las seis
proteínas problema.
• Realizar un alineamiento múltiple de las proteínas problema en MUSCLE y edi-
tar el alineamiento en BioEdit, mostrando en sombreado los aminoácidos con-
servados.

Identificación de motivos conservados en un conjunto de secuencias


Los alineamientos múltiples son utilizados para obtener diversos tipos de información. Un uso muy
común de estos es la búsqueda de motivos conservados en un conjunto de secuencias. Un motivo es
un patrón de DNA o proteínas, al que se le podría asociar una función, es decir que tiene una signi-
ficancia biológica.
Durante esta práctica utilizaremos el programa MEME (Multiple Em for Motif Elicitation) para
realizar la identificación de motivos conservados en un conjunto de secuencias proteicas.
La herramienta MEME contempla como opción enviar los resultados del análisis que realicemos a
nuestro correo electrónico, por ello podemos dar nuestra dirección de correo y confirmarla (recuerda
es opcional).
En cada una de las secciones de esta herramienta aparece un símbolo de ayuda . Si pinchamos
este símbolo aparece un cuadro explicativo de las diferentes opciones que podemos seleccionar para
hacer el análisis.

Acceda al sitio web de la herramienta MEME ubicado en la siguiente dirección:


http://meme-suite.org/tools/meme

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  75

Durante esta práctica realizaremos la identificación de motivos en un conjunto de secuencias, por


ello en la sección “Select the motif discovery mode”, escogeremos la opción “Normal mode”, como se
indica en la figura.

Q Volver al índice
76  Manual de prácticas de Bioinformática

En el cuadro explicativo encontramos información sobre la opción “Discriminative mode”, la cual


será utilizada en aquellos casos en los que queramos comparar dos conjuntos de secuencias. En este
caso, MEME localiza los motivos en el primer conjunto de secuencias y, posteriormente, identifica
estos motivos en el segundo de ellos.
El conjunto de secuencias problema que vamos a analizar se muestra a continuación:

>Solyc01g110470.2
MDDGGQRENRRHRMDYSKGCYAPWNVVPPYQMKDQEAFIMNTKIRMVFAERDAAVEERNRAVIEKKEAYAER-
DFAIQQRDTAFAERDTAIKERDNAIAALHFLESTTNGSLGCRTRGTKRPEQPKNHRNYNTDSVCINRDVPVADAF-
PISAISSEAAKALQVKRSKVNKGMSTKSAKSPRKTKKVNEDLNRHLSKDGSKAEWDAHDLGSIDQIQFDESTMPI-
PVCTCTGIPRQCYKWGSGGWQSSCCTTYLSEYPLPQLPNKRHARLGGRKMSGSVFSRLLTRFAVADRDLSMPID-
LKTYWAKHGTNRYITIK
>Solyc02g084230.1
AIMAERDAAIRERNMALEERKRAFAERDMAMLQRDAALAERNALIQERNDAIAALRLQDSSTNDNN-
MVPDSPGNGTESGAKHIYNQQQMYRTTADAAHGSTEDPAAGYLKDTDTSEAKIPKKVKRPKESRHNKQAKI-
PRVGKISTDSLSMQVIATTSDDWVNLQEMDSDKEGDTQLTSWKDNLGLKINFDDSAMPVPVCSCTGTPQP-
CYKWGHGGWQSACCTTTISMYPLPQISNKRYSRVGGRKMSGGAFSKLLNRLAAQGYDLSIPLDLKDHWAKHGTN-
RYSTLK
>Solyc04g008380.2
MRNWGYYEPSLKGHLGLQLMSSMVDRDAKPYLTRRENPIMLGANGVFHSRDSIIPEAPLSHIDYVRDSWINHR-
DKFLHMFPGSPYTSVLPDASASTPMQMVQQPDTTKDVGVNVEEPSVKKESGPSKRKTGGATPKAPKAKKSKKVSSAP-
KENGNPSQRAKPAKKSMDIVLNGIDMDISVIPIPVCSCTGSPQQCYRWGCGGWQSACCTTSISMYPLPMSTKRRGA-
RIAGRKMSQGAFKKVLEKLAAEGYNFANPIDLRTHWAKHGTNKFVTIRLCDLCEGHIDSHKIYQI
>Solyc04g081170.2
MDDSGNRDNGRHKPPQGQWLMQHQPSMKQIMAIMAERDAAIQERNLALSEKKAALAERDMAILQRDSAIAERN-
NAIMERDNAFATLQYRETSMTAGQIVRGVKHMHHPQQHVHHQPHMGEPTYNPREMHMVEAIPVSQPAPEPAKP-
RRNKRAKEPKAATGSKKTPKASKKVKRETEDLNQTTYGKSPEWKGAQEMVGASDDLNRQLSVAKPDWKDQDLGL-
NQVAFDETTMPVPVCSCTGVLRPCYKWGNGGWQSSCCTTNLSMYPLPAVPNKRHARIGGRKMSGSAFTKLLSRLA-
AEGHDLSNPVDLKNNWAKHGTNRYITIK
>Solyc06g072370.2
MHIRNWSYFEPTPTVPKGHLGLQFVSSMNEKPPHFRNIHDNHQQQQQSHQPDHPSVMASTNGGAFHHHRVCGL-
SESPMPMEYMRDSWVNQKDYREKYLNVLSSMQMHQQPNLVKVETAPLVEEVCQEGDNIGGLAKKRGAGQSQELK-
SPKPKKAKKATRAPKDESTSSPPRARAPRKSAEVVINGINMDISVIPIPICSCTGAAQQCYRWGCGGWQSACCTTNLS-
SYPLPMNVKRRGSRIAGRKMSLGAFKKVLEKLASEGYNFSNPIDLKPHWARHGTNKFVIIR
>Solyc08g076230.1
MASQVNHKEETFDSHFPWIHRDNFPPATQLGSKSKPCAAVPIRSVAPTGEQNVDVKFKAKSQKMKKNKKTSMN-
GIRETVSELLKEKRFENKSSASKKPKGEAKCGEATVTKNPSSVYGRASADFSGLPQPFCSCTGVSRRCYKCGGGWQS-
SCCTTSLSEYPLPFNPSKPGNRKAGRKMSNGAYNKLLCTLATEGHDLSNPVDLKDHWAKHGSNKFITLK

En la sección “Select the sequence alphabet” indicaremos la opción “DNA, RNA or Protein”, puesto
que introduciremos nuestras secuencias problema en el formato estándar proteico. Estas secuencias
problema podemos añadirlas desde un archivo de texto (opción “upload sequences”) o bien, como es
nuestro caso, pegarlas directamente en formato FASTA en un cuadro de texto. Para ello indicaremos
la opción “Type in sequences” en la sección “Input the primary sequences”, como se indica en la figura.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  77

Posteriormente, MEME nos pregunta acerca de la distribución y el número de motivos que van a
ser identificados en las secuencias problema. En la sección “Select the site distribution” tenemos que
establecer el número de repeticiones que esperamos encontrar de los motivos identificados a lo largo
de cada secuencia. En nuestro caso indicaremos que cada motivo aparezca cero o una vez por secuen-
cia, por lo que escogeremos la opción “Zero or one occurrence per sequence”. Además, tendremos que
establecer el número de motivos que MEME debería encontrar. De este modo, en la sección “Select
the number of motifs” indicaremos 2 motivos.

Utilizaremos los parámetros avanzados por defecto y finalmente presionaremos el botón “Start
Search” en la parte inferior del formulario. Dependiendo del número y longitud de nuestras secuencias
los resultados de MEME pueden tardar en aparecer. Una vez finalizado el análisis, aparecerán distintas
opciones, escogeremos la primera de ellas, “MEME HTML output”.
La página de resultados de MEME es un extenso documento dividido en varias secciones. Al prin-
cipio de la página nos indica como citar el uso de MEME en nuestras publicaciones

Q Volver al índice
78  Manual de prácticas de Bioinformática

A continuación encontramos la sección “Discovered Motifs” donde encontramos los motivos iden-
tificados. En nuestro caso podemos observar dos motivos, uno de 34 y otro de 29 aminoácidos, los
cuales han sido identificados en las seis secuencias analizadas, como indica la columna “Sites”. Además,
en la columna “E-value” podemos hacernos una idea de cómo de significativo es nuestro resultado,
siendo 0.0 el valor más alto posible.

La representación gráfica nos da una idea de cuáles son las posiciones más conservadas en el mo-
tivo, lo cual se mide en bits (para nuestro propósito es suficiente saber que la altura de la columna es
directamente proporcional a su nivel de conservación). Los colores corresponden al tipo de residuos
con mayor prevalencia en dicha posición (por ejemplo, el color rojo hace referencia a que en dicha
posición se encuentra mayoritariamente aminoácidos cargados positivamente).
Asimismo, podemos descargar una imagen de alta calidad de cada uno de los motivos identificados
haciendo clic en la flecha de la columna “Submit/Download”. En la pestaña “Download logo” escogere-
mos el formato “EPS (for publication)” y finalmente pulsaremos el botón “Download”.

En la sección “Motif Locations”, encontramos como se encuentran distribuidos los diferentes motivos
a lo largo de cada una de las secuencias problema.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona  79

Más abajo podemos observar la sección “Input & Settings”, donde encontramos un resumen de
ciertos detalles acerca de los datos que MEME utilizó para identificar los motivos; entre otros, el
número de secuencias problema, la frecuencia de cada residuo aminoacídico en nuestro conjunto de
secuencias y los parámetros utilizados para hacer el análisis.

Por último, al final de la página podemos encontrar información general acerca de la herramienta
MEME: número de versión, cita bibliográfica y la línea de comandos.


Q Volver al índice
80  Manual de prácticas de Bioinformática

Como tarea a realizar, antes de finalizar esta práctica, el alumno deberá poner en práctica los cono-
cimientos adquiridos para identificar motivos conservados en el siguiente conjunto de secuencias, utili-
zando para ello los mismos parámetros que hemos seleccionado en el análisis anteriormente realizado.

>AT1G14685
MDDDGFRNWGYYEPAAATFKGNLGLQLMSTIDRNTKPFLPGRDPNLMMGPNGSYHHQEPPIHMSYNWINQQKDKFFNML-
PVTTATPNYGNVLPETSSAPSMQMNLHHHLQTEENPVKLEEEIVVQTKKRKTNAKAGSTPKAKKPRKPKDENSNNNNNNNTNVTR-
VKPAKKSVDLVINGVSMDISGLPVPICTCTGAPQQCYRWGCGGWQSACCTTNISMHPLPMSTKRRGARISGRKMSQGAFKKVLE-
KLASDGFNFGNPIDLKSHWARHGTNKFVTIR
>AT1G68120
MMEEDGLNNRNWGYYEPSQFRPNLGFQLIPSILDRNEKPFLSPHSQNLNFITPSNVYGGGSSSVVSYPRDYTVSDAPFMSYSWL-
NQHKDSKFFSNVPEVSRMTQSMQLLQPEVVTEVDESVKRRHCSGGQRGGVPKVKKEKKLKDNNMPRVQRERSPLLRKCIEMVINGVS-
MDIGGLPVPVCSCTGMPQQCYRWGCGGWQSACCTTNVSMYPLPVNTKRRGARIAGRKMSQGAFRKVLEKLSSDGFDFSNPIDLK-
SHWAKHGTNKFVTIR
>AT2G01930
MDDDGFRNWGYYEPAAASSFKGNLGLQLMSTIDRNTKPFLPGRESNLMIGSNGSYHSREQDMNYSWINQPKDNKFFNMLPISTPSYS-
NVLSETSGSNSIQMIHQPVLNSSRFEENPIPPPAPCEEQTGKKRKMRGSIATPTVPKAKKMRKPKEERDVTNNNVQQQQQRVKPVKK-
SVDLVINGVSMDISGLPVPVCTCTGTPQQCYRWGCGGWQSACCTTNISVYPLPMSTKRRGARISGRKMSQGAFKKVLEKLSTEGYSFG-
NAIDLKSHWARHGTNKFVTIR
>AT2G21240
MENGGQYDNARFKPDYFKGAQSMWNMIPQHQIKEQHNALVMNKKIMSILAERDAAVHERNQAVSAKKEAVAARDEALQQRDKAL-
SERDKALIERDNAYAALQHHENSLNFALSGGKCVDGDDCFGIGEPHKLEVFPLSTIPPEVTNTKVVNKRKKENKQGLSKVKKVGEDLNRR-
VPAPGKKSRTDWDSQDVGLNLVTFDETTMPVPMCSCTGSTRQCYKWGNGGWQSSCCTTTLSQYPLPQMPNKRHSRMGGRKMSG-
NVFSRLLSRLSAEGYDLSCPVDLKDYWARHGTNRYITIK
>AT2G35550
MGLDSSFVNSSGFADFQSNNLERSNLFLYELQREGVIFPLKLAIKMNSFPAQNLMLSATNANKDSGLRTSNAHWLHSCIAVPKTTGIDLS-
QEPPAEGVMVPQSHLFPPPIRDSRNDTETVKQKSVNQSPSKALKPKPQRKKRSVSNKSKKTPSIPETKREKKNLDINIDISSFDTSGVPPPVCSCT-
GVSRVCYKWGMGGWQSSCCTISISTYPLPMSTTRPGARLAGRKMSNGAYVKLLARLADEGYDLSHPLDLKNHWARHGTNKFVTIK
>AT4G38910
MESGGQYENGRYKPDYYKGTQSVNVMPKKEQHNALVMNKKIISILAERDAAVKERNEAVAATKEALASRDEALEQRDKALSERDNAI-
METESALNALRYRENNLNYILSCAKRGGSQRFITEESHLPNPSPISTIPPEAANTRPTKRKKESKQGKKMGEDLNRPVASPGKKSRKD-
WDSNDVLVTFDEMTMPVPMCTCTGTARQCYKWGNGGWQSSCCTTTLSEYPLPQMPNKRHSRVGGRKMSGSVFSRLLSRLAGEG-
HELSSPVDLKNYWARHGTNRYITIK
>AT5G42520
MDDGGHRENGRHKAAVQGQWLMQHQPSMKQVMSIIAERDAAIQERNLAISEKKAAVAERDMAFLQRDTAIAERNNAIMERDSALT-
ALQYRENSMVTAPAANMSACPPGCQISRGVKHLHHPHMHHHHQQHHIPQLTENAYETREMEPNDGLPTSPPAGSTLESAKPKRGKR-
VNPKATTQTAANKRGPKNQRKVKKESEDDLNKIMFVKTTHDYTDEDSSKHILIGSKSDWKSQEMVGLNQVVYDETTMPPPVCSCTGVL-
RQCYKWGNGGWQSSCCTTTLSMYPLPALPNKRHARVGGRKMSGSAFNKLLSRLAAEGHHDLSNPVDLKDHWAKHGTNRYITIK

Q Volver al índice

Вам также может понравиться