Академический Документы
Профессиональный Документы
Культура Документы
motivos
El objetivo de los algoritmos de alineamiento de secuencias es acomodar dos a más secuencias de tal
manera que se alcance el máximo de coincidencias entre los elementos de las mismas. Los alineamien-
tos se pueden clasificar en: globales (cuando se pretende alinear las secuencias enteras, empleando
tantos caracteres o símbolos de los extremos de las secuencias como sea posible) y locales (cuando se
buscan porciones de las secuencias que presentan mayor cantidad de concordancias). Los algoritmos
de alineamiento de secuencias, emplean ciertas métricas para determinar la calidad del alineamiento,
una es el porcentaje de similitud de secuencia, que no es más que la fracción de elementos iguales
alineados, entre la cantidad de elementos de la secuencia más corta. Otra de las métricas empleadas
para representar la calidad del alineamiento es la puntuación (score), determinada por una función de
puntuación del algoritmo, para definir la bondad del alineamiento obtenido (generalmente se devuelve
un valor entre 0 y 100%), que mientras más elevado sea, mejor es el alineamiento.
El alineamiento múltiple de secuencias es una de las técnicas bioinformáticas más usadas, ya que
por medio de ella podemos realizar diversos análisis como por ejemplo:
• Encontrar homologías.
• Diseñar oligonucleótidos para PCR.
• Descubrir familias de proteínas (identificación de motivos y/o dominios conservados).
• Estudios evolutivos (Filogenias).
Al comparar simultáneamente varias proteínas relacionadas es común observar que aún en gru-
pos donde la similitud entre ellas es baja, hay algunas partes de la secuencia que son similares. Estas
similitudes pueden abarcan pocos aminoácidos bastante conservados (motivos) o extenderse en una
región más grande, posiblemente con menor similitud (dominios). Los motivos no ocurren solamente
en proteínas, también podemos encontrar motivos en secuencias regulatorias de ADN. Determinar los
dominios y motivos presentes en una proteína nos puede ayudar a postular su función y/o estructura.
En el caso de promotores de genes nos sirve para saber qué factores pueden regular la trascripción.
Por esa razón, al realizar anotaciones o analizar secuencias es importante poder reconocer motivos y
dominios.
Durante el transcurso de esta práctica analizaremos diferentes algoritmos de alineamiento, tanto
de dos como de múltiples secuencias. Conjuntamente, utilizaremos los algoritmos de alineamiento
múltiple en la búsqueda e identificación de motivos conservados en secuencias biológicas. Así, los
objetivos principales de esta práctica son:
Q Volver al índice
60 Manual de prácticas de Bioinformática
En nuestro caso, utilizaremos el alineamiento de pares para buscar homologías entre la secuencia
codificante del gen Solyc03g118740.2.1 de la especie Solanum lycopersicum y su correspondiente re-
gión genómica, para poder determinar así la estructura génica del gen; es decir, las regiones exónicas
e intrónicas. Para ello, utilizaremos la herramienta de alineamiento Needle a la cual podemos acceder
a través de la web de EMBOSS.
La herramienta Needle se utiliza para crear una alineación global óptima de dos secuencias (nu-
cleotídicas o proteicas) utilizando el algoritmo de Needleman-Wunsch.
Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos
de entrada. En este caso introduciremos en el primer campo la secuencia codificante del gen So-
lyc03g118740.2.1.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 61
>Solyc03g118740.2.1
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTA-
TATTCCTTCTTTCTGCAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCA-
ACCCCATTTCATCCTTTACTTGTAAAACCTGTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGA-
TAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGCCACTTTATGTAGCTATGATACTAGCTTATGGCTCT-
GTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACAGATTTGTTGCACTTTTTGCAGTTC-
CACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCTGCAGATACTCTG-
CAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA-
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGT-
GATTTCTCTGGGAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTAT-
GTTTGAGTTTAGAGGTGCAAGACTGCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATT-
CATGTTGATTCTGATGTCATGTCATTAGATGGTAGACAAGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGAT-
GGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATATATTTTCAAGAAGGTCAGGTG-
GATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCATCAAGAAATC-
CAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCA-
AACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAA-
GAAGAAAGTGGAAAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACT-
CATTATCCAGCACCAAATCCAGGCATGTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGC-
TAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATATGTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCT-
GATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACCTAATAAGGATGTGAGAGTACC-
TATCTCCCCTGGAAAAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGAGAGATGATTTCA-
GCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA-
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACC-
CAAACACTTATTCGAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTGGAATTTGAAGATGCCTGC-
TATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTTGGCATGGCAATGTTCAGTCTTGGTCTGTTCAT-
GGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCTGTGAGATTCCTTACA-
GGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTACA-
GGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTTCATCCTGACATTCTTAGCA-
CAGCTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGGGACTTTGAAGA-
GGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCT-
CACAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTT-
GTGCTTAATTAGCTGAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG
Q Volver al índice
62 Manual de prácticas de Bioinformática
>SL2.50ch03:67567401-67572000
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTATATTCCTTCTTTCTG-
CAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCAACCCCATTTCATCCTTTACTTGTAAAACCT-
GTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGATAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGC-
CACTTTATGTAGCTATGATACTAGCTTATGGCTCTGTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACA-
GATTTGTTGCACTTTTTGCAGTTCCACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCT-
GCAGATACTCTGCAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA-
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGTGATTTCTCTGG-
GAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTATGTTTGAGTTTAGAGGTGCAAGACT-
GCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATTCATGTTGATTCTGATGTCATGTCATTAGATGGTAGACA-
AGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGATGGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATA-
TATTTTCAAGAAGGTCAGGTGGATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCAT-
CAAGAAATCCAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCAA-
ACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAAGAAGAAAGTGGA-
AAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACTCATTATCCAGCACCAAATCCAGGCAT-
GTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGCTAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATAT-
GTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCTGATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACC-
TAATAAGGATGTGAGAGTACCTATCTCCCCTGGAAAAGGTAATTAACTCTGTTCACTAAAAGGCTATATTAGTTTCGATTTGAACCT-
GAAGTCTCACGGTTAATAAAAAAAGTTTTTTATGCTTAATTAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGA-
GAGATGATTTCAGCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA-
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACCCAAACACTTATTC-
GAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTAAATTTTACCAATTTCTATTCATTTTCTTTTTTAATTGTTGTTATATAT-
TCTGATTATTTAAAAAAATGTAGGTGGAATTTGAAGATGCCTGCTATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTT-
GGCATGGCAATGTTCAGTCTTGGTGAGTACTTTTTTTTTCATTATTTGATCACAAGGAGGTCATTACTATTATTAAATTACTTGTTTA-
GAAGGGGGGAGCGTGCAAAAAAGCACAACAATATGCTCATCATAACATCTTTCTCTACATCTCTTCTTTAATTAATTAAAATTAA-
TAACCCCATCTCAATGCTTCTCATTTGCTCTCAAATGGATACAATCATGATAACTACTACTAGTAGTAACACCCCACTAGTGGATGT-
GATGATGCCATGCACTTGTTTTTTTTTAATTTTATTTTAATAGTGTCGTATATTCGAGTTTCTTTGTATGCATTTATCGAGTAATTCT-
GTCAATCAAGATGTAAAGTTCGACGAATTTCATGAATATTTGTTACGTCCCACCAATATAAATATCGAATAGTTCTGTCAATCAAA-
AGTTATTAGTATTTTGTATGCATTTCCATGGATTTTTAATATATATATATGTATCGAATAACTTTGTCACTCCAATTTTGAACGAATA-
GAAAGAAATGGTTATTGCTTTCTTCTATAATTAGAAGTAAAATGTGATGGTCCCCTTAGTGCATGATGCCATGCACTTAAAAGAGA-
AGGGGCTAGCTACTTTTTCCAAATGTGATATTTGATAGTTGGAAGTAGAAAAAAATATATATTTGCATGTTAGAAAAATGAAAC-
GATTTTTATGTATGACAGGTCTGTTCATGGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCT-
GTGAGATTCCTTACAGGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTA-
CAGGTCATCATCAAATCTTAAAATTCTTTCTTTTATCATAAAACATTATGTTAATTATTTTATTTCAATCTCTACACTATGACCTACTAC-
TATATTATAAATTAATTAACCAAAAAAAAAGCTGTTTCGAGCCCATACAGTTTCAAAACTCATTAATTTATATTGAGTGTGTTTTTAA-
TATAATAAACGATAATTATTTCTAAGGTTTATTAGAAACACTTTTTCTATTTCATAGGTATGAAATTATGTATACTGAATATATTATT-
GTTGTTCAATCGATATGTACTAAAAACAGGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTT-
CATCCTGACATTCTTAGCACAGCGTAAGTATAAATTAATTTAACATTTTTTTATAGTGTTTAATTTTTTTTAATTAGTTTTGTGATTGA-
TAATTTTTTTTTTTATTTGTGTTTATTACAGTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGG-
GACTTTGAAGAGGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCTCA-
CAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTTGTGCTTAATTAGCT-
GAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG
A continuación, utilizando los parámetros por defecto (comprueba solamente que el tipo de se-
cuencia se corresponda con el que has proporcionado), ejecutamos el alineamiento haciendo clic en
“Submit”.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 63
Al principio de la página de resultados, la herramienta Needle nos muestra un resumen del análisis
realizado, donde se muestran los diferentes parámetros utilizados para ejecutar dicho análisis.
Q Volver al índice
64 Manual de prácticas de Bioinformática
En la parte inferior, encontramos los resultados del alineamiento. Analizando estos resultados po-
demos determinar la estructura génica del gen Solyc03g118740.2.1. Las regiones exónicas se muestran
subrayadas en rojo, mientras que las regiones intrónicas se representan en azul (6 exones y 5 intrones).
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 65
Q Volver al índice
66 Manual de prácticas de Bioinformática
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 67
Una vez realizado el alineamiento con Needle, utilizaremos la herramienta Align para hacer un
análisis BLAST (bl2seq) con estas dos mismas secuencias nucleotídicas. Podemos acceder a dicha he-
rramienta a través de la página principal de BLAST en el NCBI (http://blast.ncbi.nlm.nih.gov/Blast.
cgi), haciendo clic en “Align“ dentro de la sección “Specialized BLAST”.
Q Volver al índice
68 Manual de prácticas de Bioinformática
Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos de
entrada. A continuación, utilizando los parámetro por defecto, ejecutamos el alineamiento pinchando
sobre el botón “BLAST”.
Como tarea a realizar, el alumno deberá analizar la página de resultados y contestar a las siguientes
preguntas:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 69
>Solyc01g010240.2.1
MSSSSPNSSCLNLLESADHKINTMDPSEHLCYVRCSFCNTILAVGIPCKKLLDTVTVKCGHCGNLSFLSSRPPI-
QPQFFDHQPILQHQDFFNNFKKGQSSSSSEPSSPKAPFVVKPPEKKHRLPSAYNRFMKDEIQRIKAAHPQIPHREA-
FSAAAKNVHSKYSKWDLG
>Solyc05g005240.1.1
MSTLNNHLFELQDTICYVQCGYCTTILLVSVPCSSLCNKVVTVRCGHCTTLLSLNLIKPSLHLFASFDQTHQPPEVDK-
DETDDANKKNSNSDEEDQLENNVLPLNQVVNKPPEKRQRAPSAYNCFIKEEIKRLKTLYPNMTHKQAFSTAAKN-
WAHFPPSQHRGGCSLGERKMAKVSAARNSMVPRDSNGLIP
>Solyc06g073920.2.1
MSLDMTYSSSSSERVCYVHCNFCSTILAVSVPCNSMMTIVTVRCGHCANLLSVNIAPSLQSLPIQDLQRQNESSIED-
GMSRGYGSSSSSTNSFHRFSPIPTDHDQPRSPPIRVPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN-
WAHFPHIHFGLKLDGNKQTNKLDHAVAGEGPQKTIGLY
>Solyc08g079100.2.1
MSSSNSLSLDHLPPPPPSEQLCY VHCNVCDT VLAVSVPC TSLFK T V T VRCGHC TNLLPGWLLPSTN-
HHHHHFGHTYFSPSHNLLDEISNATPNFLMNQSNSAHEFVQLPARPGFDDLPRPPPVVNRPPEKRQRVPSAYNR-
FIKEEIQRIKAGNPDISHREAFSAAAKNWAHFPHIQFGLMPDQTVKRTNVRQQDGEDVLTKDGLFNTSANVSVSPY
>Solyc11g071810.1.1
MSFDMTFSSSPSSERVCYLQCNFCNTILAVSVPCSNMLTLVTVRCGHCANMLSVNIGSLIQALPLQDVQKLQRQQYT-
NVENNSSNYKAYGSSSSSSSKFNRYSSIVSPQIEPKIPSIRPPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN-
WAHFPHIHFGLKLEGNK
>Solyc12g009580.1.1
MSSSYIDSTNFEKLCYIPCNFCNIVLVVSVPCSNLLDIVTVRCGHCTNLWSVNMAAAFHTNSWQNHLHHQVGN-
YTNSPHDQYKVDFASSSITNNSTLEERNVNRPPEKRQRGPSAYNQFIKEEIQRIKANNPDITHREAFSTAAKNWAHF-
PHIQFGLMLETDNQAKLGASENKEKLIMHRAALPKIKTFTF
Q Volver al índice
70 Manual de prácticas de Bioinformática
Para hacer el alineamiento múltiple introduciremos las secuencias problema en el campo de en-
trada “STEP 1 - Enter your input sequences”. Posteriormente, utilizando los parámetros por defecto,
ejecutamos el alineamiento haciendo clic en “Submit”.
El tiempo que el programa tarda en obtener los resultados depende de la carga de trabajo del ser-
vidor en ese momento, así que el tiempo de espera debe ser directamente proporcional al número de
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 71
personas que estén haciendo uso del programa. Después de unos segundos (o minutos) aparecerá la
página de resultados.
Q Volver al índice
72 Manual de prácticas de Bioinformática
La descarga del programa se realiza pulsando “BioEdit.zip (Full install)”. Una vez descargado, debe-
mos descomprimir el archivo “BioEdit.zip” y, posteriormente, instalar el programa ejecutando “setup.
exe”.
Una vez descargado e instalado en nuestro ordenador, abriremos con BioEdit el archivo generado
con MUSCLE. Este programa, tiene un entorno de trabajo similar al de todas las aplicaciones de MS/
Windows, por tanto para abrir un archivo debe dirigirse al menú archivo (“File”) y escoger la opción
abrir (“Open”). Seleccionaremos nuestro archivo con la extensión “*.clw” e inmediatamente aparecerá
una ventana similar a la siguiente.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 73
Con el fin de visualizar mejor nuestro alineamiento, cambiaremos el esquema de colores presionan-
do los botones “Shade Identities and Similarities in alignment window” y “Monochrome”. El resultado
obtenido debe ser similar al de la imagen siguiente.
En la última línea del alineamiento, denominada “Clustal Consensus”, podemos observar 3 tipos
de caracteres o la ausencia de ellos, que significan:
• Asterisco (*), indica que en dicha posición los residuos son 100% idénticos.
• Dos puntos (:), indica posiciones en las que se han realizado sustituciones conservativas.
• Punto (.), indica sustituciones menos conservativas.
• Ausencia de caracteres, indica que no existe un consenso en dicha posición.
Cuando hacemos un alineamiento múltiple lo que queremos evaluar es el nivel y lugar de conser-
vación de nuestras secuencias. Por tanto, analizar la secuencia consenso es una manera apropiada de
conocer las características de nuestro alineamiento.
Generalmente (no siempre), las regiones N y C terminal son poco conservadas, por esta razón
encontramos en los dos alineamientos más gaps (huecos) y ausencia de similitudes en dichas regiones.
Por ahora, no tenemos métodos estadísticos para evaluar la validez de un alineamiento múltiple,
como ocurre por ejemplo con el valor E-value en BLAST. Si trabajamos con secuencias de ADN es fácil
hacerse una idea de lo bueno que es el alineamiento puesto que únicamente se valora positivamente
la identidad de los residuos en cada posición. Con las secuencias de proteínas el asunto es más com-
plejo porque se valoran positivamente también los parecidos entre aminoácidos que no son idénticos,
pero que son químicamente similares y esto conduce a que los alineamientos de las secuencias al azar
puedan confundirse con alineamientos realmente significativos.
Q Volver al índice
74 Manual de prácticas de Bioinformática
Si tiene interés en conocer en profundidad BioEdit y todas sus aplicaciones puede consultar el
manual en el siguiente enlace:
http://www.mbio.ncsu.edu/BioEdit/BioDoc.pdf
En este punto de la práctica, utilizando los conocimientos adquiridos, el alumno tendrá que realizar
las siguientes tareas:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 75
Q Volver al índice
76 Manual de prácticas de Bioinformática
>Solyc01g110470.2
MDDGGQRENRRHRMDYSKGCYAPWNVVPPYQMKDQEAFIMNTKIRMVFAERDAAVEERNRAVIEKKEAYAER-
DFAIQQRDTAFAERDTAIKERDNAIAALHFLESTTNGSLGCRTRGTKRPEQPKNHRNYNTDSVCINRDVPVADAF-
PISAISSEAAKALQVKRSKVNKGMSTKSAKSPRKTKKVNEDLNRHLSKDGSKAEWDAHDLGSIDQIQFDESTMPI-
PVCTCTGIPRQCYKWGSGGWQSSCCTTYLSEYPLPQLPNKRHARLGGRKMSGSVFSRLLTRFAVADRDLSMPID-
LKTYWAKHGTNRYITIK
>Solyc02g084230.1
AIMAERDAAIRERNMALEERKRAFAERDMAMLQRDAALAERNALIQERNDAIAALRLQDSSTNDNN-
MVPDSPGNGTESGAKHIYNQQQMYRTTADAAHGSTEDPAAGYLKDTDTSEAKIPKKVKRPKESRHNKQAKI-
PRVGKISTDSLSMQVIATTSDDWVNLQEMDSDKEGDTQLTSWKDNLGLKINFDDSAMPVPVCSCTGTPQP-
CYKWGHGGWQSACCTTTISMYPLPQISNKRYSRVGGRKMSGGAFSKLLNRLAAQGYDLSIPLDLKDHWAKHGTN-
RYSTLK
>Solyc04g008380.2
MRNWGYYEPSLKGHLGLQLMSSMVDRDAKPYLTRRENPIMLGANGVFHSRDSIIPEAPLSHIDYVRDSWINHR-
DKFLHMFPGSPYTSVLPDASASTPMQMVQQPDTTKDVGVNVEEPSVKKESGPSKRKTGGATPKAPKAKKSKKVSSAP-
KENGNPSQRAKPAKKSMDIVLNGIDMDISVIPIPVCSCTGSPQQCYRWGCGGWQSACCTTSISMYPLPMSTKRRGA-
RIAGRKMSQGAFKKVLEKLAAEGYNFANPIDLRTHWAKHGTNKFVTIRLCDLCEGHIDSHKIYQI
>Solyc04g081170.2
MDDSGNRDNGRHKPPQGQWLMQHQPSMKQIMAIMAERDAAIQERNLALSEKKAALAERDMAILQRDSAIAERN-
NAIMERDNAFATLQYRETSMTAGQIVRGVKHMHHPQQHVHHQPHMGEPTYNPREMHMVEAIPVSQPAPEPAKP-
RRNKRAKEPKAATGSKKTPKASKKVKRETEDLNQTTYGKSPEWKGAQEMVGASDDLNRQLSVAKPDWKDQDLGL-
NQVAFDETTMPVPVCSCTGVLRPCYKWGNGGWQSSCCTTNLSMYPLPAVPNKRHARIGGRKMSGSAFTKLLSRLA-
AEGHDLSNPVDLKNNWAKHGTNRYITIK
>Solyc06g072370.2
MHIRNWSYFEPTPTVPKGHLGLQFVSSMNEKPPHFRNIHDNHQQQQQSHQPDHPSVMASTNGGAFHHHRVCGL-
SESPMPMEYMRDSWVNQKDYREKYLNVLSSMQMHQQPNLVKVETAPLVEEVCQEGDNIGGLAKKRGAGQSQELK-
SPKPKKAKKATRAPKDESTSSPPRARAPRKSAEVVINGINMDISVIPIPICSCTGAAQQCYRWGCGGWQSACCTTNLS-
SYPLPMNVKRRGSRIAGRKMSLGAFKKVLEKLASEGYNFSNPIDLKPHWARHGTNKFVIIR
>Solyc08g076230.1
MASQVNHKEETFDSHFPWIHRDNFPPATQLGSKSKPCAAVPIRSVAPTGEQNVDVKFKAKSQKMKKNKKTSMN-
GIRETVSELLKEKRFENKSSASKKPKGEAKCGEATVTKNPSSVYGRASADFSGLPQPFCSCTGVSRRCYKCGGGWQS-
SCCTTSLSEYPLPFNPSKPGNRKAGRKMSNGAYNKLLCTLATEGHDLSNPVDLKDHWAKHGSNKFITLK
En la sección “Select the sequence alphabet” indicaremos la opción “DNA, RNA or Protein”, puesto
que introduciremos nuestras secuencias problema en el formato estándar proteico. Estas secuencias
problema podemos añadirlas desde un archivo de texto (opción “upload sequences”) o bien, como es
nuestro caso, pegarlas directamente en formato FASTA en un cuadro de texto. Para ello indicaremos
la opción “Type in sequences” en la sección “Input the primary sequences”, como se indica en la figura.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 77
Posteriormente, MEME nos pregunta acerca de la distribución y el número de motivos que van a
ser identificados en las secuencias problema. En la sección “Select the site distribution” tenemos que
establecer el número de repeticiones que esperamos encontrar de los motivos identificados a lo largo
de cada secuencia. En nuestro caso indicaremos que cada motivo aparezca cero o una vez por secuen-
cia, por lo que escogeremos la opción “Zero or one occurrence per sequence”. Además, tendremos que
establecer el número de motivos que MEME debería encontrar. De este modo, en la sección “Select
the number of motifs” indicaremos 2 motivos.
Utilizaremos los parámetros avanzados por defecto y finalmente presionaremos el botón “Start
Search” en la parte inferior del formulario. Dependiendo del número y longitud de nuestras secuencias
los resultados de MEME pueden tardar en aparecer. Una vez finalizado el análisis, aparecerán distintas
opciones, escogeremos la primera de ellas, “MEME HTML output”.
La página de resultados de MEME es un extenso documento dividido en varias secciones. Al prin-
cipio de la página nos indica como citar el uso de MEME en nuestras publicaciones
Q Volver al índice
78 Manual de prácticas de Bioinformática
A continuación encontramos la sección “Discovered Motifs” donde encontramos los motivos iden-
tificados. En nuestro caso podemos observar dos motivos, uno de 34 y otro de 29 aminoácidos, los
cuales han sido identificados en las seis secuencias analizadas, como indica la columna “Sites”. Además,
en la columna “E-value” podemos hacernos una idea de cómo de significativo es nuestro resultado,
siendo 0.0 el valor más alto posible.
La representación gráfica nos da una idea de cuáles son las posiciones más conservadas en el mo-
tivo, lo cual se mide en bits (para nuestro propósito es suficiente saber que la altura de la columna es
directamente proporcional a su nivel de conservación). Los colores corresponden al tipo de residuos
con mayor prevalencia en dicha posición (por ejemplo, el color rojo hace referencia a que en dicha
posición se encuentra mayoritariamente aminoácidos cargados positivamente).
Asimismo, podemos descargar una imagen de alta calidad de cada uno de los motivos identificados
haciendo clic en la flecha de la columna “Submit/Download”. En la pestaña “Download logo” escogere-
mos el formato “EPS (for publication)” y finalmente pulsaremos el botón “Download”.
En la sección “Motif Locations”, encontramos como se encuentran distribuidos los diferentes motivos
a lo largo de cada una de las secuencias problema.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 79
Más abajo podemos observar la sección “Input & Settings”, donde encontramos un resumen de
ciertos detalles acerca de los datos que MEME utilizó para identificar los motivos; entre otros, el
número de secuencias problema, la frecuencia de cada residuo aminoacídico en nuestro conjunto de
secuencias y los parámetros utilizados para hacer el análisis.
Por último, al final de la página podemos encontrar información general acerca de la herramienta
MEME: número de versión, cita bibliográfica y la línea de comandos.
Q Volver al índice
80 Manual de prácticas de Bioinformática
Como tarea a realizar, antes de finalizar esta práctica, el alumno deberá poner en práctica los cono-
cimientos adquiridos para identificar motivos conservados en el siguiente conjunto de secuencias, utili-
zando para ello los mismos parámetros que hemos seleccionado en el análisis anteriormente realizado.
>AT1G14685
MDDDGFRNWGYYEPAAATFKGNLGLQLMSTIDRNTKPFLPGRDPNLMMGPNGSYHHQEPPIHMSYNWINQQKDKFFNML-
PVTTATPNYGNVLPETSSAPSMQMNLHHHLQTEENPVKLEEEIVVQTKKRKTNAKAGSTPKAKKPRKPKDENSNNNNNNNTNVTR-
VKPAKKSVDLVINGVSMDISGLPVPICTCTGAPQQCYRWGCGGWQSACCTTNISMHPLPMSTKRRGARISGRKMSQGAFKKVLE-
KLASDGFNFGNPIDLKSHWARHGTNKFVTIR
>AT1G68120
MMEEDGLNNRNWGYYEPSQFRPNLGFQLIPSILDRNEKPFLSPHSQNLNFITPSNVYGGGSSSVVSYPRDYTVSDAPFMSYSWL-
NQHKDSKFFSNVPEVSRMTQSMQLLQPEVVTEVDESVKRRHCSGGQRGGVPKVKKEKKLKDNNMPRVQRERSPLLRKCIEMVINGVS-
MDIGGLPVPVCSCTGMPQQCYRWGCGGWQSACCTTNVSMYPLPVNTKRRGARIAGRKMSQGAFRKVLEKLSSDGFDFSNPIDLK-
SHWAKHGTNKFVTIR
>AT2G01930
MDDDGFRNWGYYEPAAASSFKGNLGLQLMSTIDRNTKPFLPGRESNLMIGSNGSYHSREQDMNYSWINQPKDNKFFNMLPISTPSYS-
NVLSETSGSNSIQMIHQPVLNSSRFEENPIPPPAPCEEQTGKKRKMRGSIATPTVPKAKKMRKPKEERDVTNNNVQQQQQRVKPVKK-
SVDLVINGVSMDISGLPVPVCTCTGTPQQCYRWGCGGWQSACCTTNISVYPLPMSTKRRGARISGRKMSQGAFKKVLEKLSTEGYSFG-
NAIDLKSHWARHGTNKFVTIR
>AT2G21240
MENGGQYDNARFKPDYFKGAQSMWNMIPQHQIKEQHNALVMNKKIMSILAERDAAVHERNQAVSAKKEAVAARDEALQQRDKAL-
SERDKALIERDNAYAALQHHENSLNFALSGGKCVDGDDCFGIGEPHKLEVFPLSTIPPEVTNTKVVNKRKKENKQGLSKVKKVGEDLNRR-
VPAPGKKSRTDWDSQDVGLNLVTFDETTMPVPMCSCTGSTRQCYKWGNGGWQSSCCTTTLSQYPLPQMPNKRHSRMGGRKMSG-
NVFSRLLSRLSAEGYDLSCPVDLKDYWARHGTNRYITIK
>AT2G35550
MGLDSSFVNSSGFADFQSNNLERSNLFLYELQREGVIFPLKLAIKMNSFPAQNLMLSATNANKDSGLRTSNAHWLHSCIAVPKTTGIDLS-
QEPPAEGVMVPQSHLFPPPIRDSRNDTETVKQKSVNQSPSKALKPKPQRKKRSVSNKSKKTPSIPETKREKKNLDINIDISSFDTSGVPPPVCSCT-
GVSRVCYKWGMGGWQSSCCTISISTYPLPMSTTRPGARLAGRKMSNGAYVKLLARLADEGYDLSHPLDLKNHWARHGTNKFVTIK
>AT4G38910
MESGGQYENGRYKPDYYKGTQSVNVMPKKEQHNALVMNKKIISILAERDAAVKERNEAVAATKEALASRDEALEQRDKALSERDNAI-
METESALNALRYRENNLNYILSCAKRGGSQRFITEESHLPNPSPISTIPPEAANTRPTKRKKESKQGKKMGEDLNRPVASPGKKSRKD-
WDSNDVLVTFDEMTMPVPMCTCTGTARQCYKWGNGGWQSSCCTTTLSEYPLPQMPNKRHSRVGGRKMSGSVFSRLLSRLAGEG-
HELSSPVDLKNYWARHGTNRYITIK
>AT5G42520
MDDGGHRENGRHKAAVQGQWLMQHQPSMKQVMSIIAERDAAIQERNLAISEKKAAVAERDMAFLQRDTAIAERNNAIMERDSALT-
ALQYRENSMVTAPAANMSACPPGCQISRGVKHLHHPHMHHHHQQHHIPQLTENAYETREMEPNDGLPTSPPAGSTLESAKPKRGKR-
VNPKATTQTAANKRGPKNQRKVKKESEDDLNKIMFVKTTHDYTDEDSSKHILIGSKSDWKSQEMVGLNQVVYDETTMPPPVCSCTGVL-
RQCYKWGNGGWQSSCCTTTLSMYPLPALPNKRHARVGGRKMSGSAFNKLLSRLAAEGHHDLSNPVDLKDHWAKHGTNRYITIK
Q Volver al índice