Вы находитесь на странице: 1из 112

Manual de prácticas

de Bioinformática

Autores:
Juan Capel Salinas
Fernando Juan Yuste Lisbona TEXTOS
DOCENTES

nº 5
Manual de prácticas de
BioinforMática

Juan Capel Salinas


Fernando Juan Yuste Lisbona

Ÿ
Departamento de
Biología y Geología, área de Genética
Manual de prácticas de Bioinformática
© del texto: sus autores
© Colección Textos docentes nº 5
Editorial Universidad de Almería, 2016
editorial@ual.es
www.ual.es/editorial
Telf/Fax: 950 015459
¤
ISBN: 978-84-16642-34-2
Depósito legal: AL 1567-2016
Índice

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Práctica 1: Bases de datos bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9


Revisión bibliográfica en Pubmed. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Búsqueda bibliográfica en Web of Science .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Consulta bibliográfica en Google Scholar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Práctica 2: Bases de datos biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15


Clasificación de BD biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Búsqueda de secuencias de ADN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Consulta de secuencias proteicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Estructuras tridimensionales de proteínas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Identificación de ORF (Open Reading Frame, marco abierto de lectura). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Mapas de restricción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Práctica 3: BLAST, una herramienta de análisis de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33


Accediendo a las secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Análisis BLAST de secuencias de ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Búsqueda BLAST de secuencias proteicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Práctica 4: Diseño de cebadores para PCR. in silico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49


Temperatura de fusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..................... 49
Tamaño del oligonucleótido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..................... 50
Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... ....... ..... ... 50
Complementariedad en la secuencia de los oligonucleótidos. . . . . . . . . . . . . . . . . . ..................... 51
Diseño de oligonucleótidos in silico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... ........ ..... .. 51

Práctica 5: Alineamiento de secuencias e identificación de motivos .. . . . . . . . . . . . . . . . . . . . . . . . 59

Alineamiento óptimo de dos secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60


Alineamientos múltiples de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Identificación de motivos conservados en un conjunto de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Práctica 6: Construcción de árboles filogenéticos .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

Filogenias basadas en secuencias de proteínas . . . . . . . . . . . . . . . . . .... . ... . .... . . .. . ... ..... ....... 81
Identificación de familias multigénicas. . . . . . . . . . . . . . . . . . . . . . .... . ... . .... . . .. . ... ..... ....... 82
Alineamientos de secuencias como base de los árboles filogenéticos .. . . . ... . .... . . .. . ... ..... ....... 87
Creación de árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . .... . ... . .... . . .. . ... ..... ....... 89

Práctica 7: Edición de genomas con CRISPR/Cas: diseño de ARN guía . . . . . . . . . . . . . . . . . . . . . . 95


Tecnología CRISPR/Cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Breaking-Cas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

Práctica 8: Visualización y análisis de datos de secuenciación masiva (NGS) . . . . . . . . . . . . . . . . . . 103


Integrative Genomics Vieuer (IGV). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Identificación de mutaciones puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Corolario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Bases de datos bibliográficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111


Bases de datos biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Análisis de secuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Identificación de ORF (Open Reading Frame, marco abierto de lectura). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Mapas de restricción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Diseño de oligonucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Estructuras tridimensionales de proteínas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Construcción de árboles filogenéticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Diseño de ARçra CRISPR/Cas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Visualización y análisis de datos de secuenciación masiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
INTRODUCCIÓN

a Bioinformática es un campo de estudio que comprende un gran abanico de disciplinas en las

L que participan científicos de muy diversa índole. Por ello, la Bioinformática podría definirse como
una ciencia multidisciplinar donde convergen en armonía los planteamientos experimentales de
la Biología Molecular y Genética, con los enfoques metodológicos y tecnológicos de la Ciencia de la
Computación y la Ingeniería Informática, todo ello dirigido hacia la administración, el análisis y la
comprensión del conocimiento Biológico y Científico.
El desarrollo de herramientas bioinformáticas ha experimentado una importante revolución en la
última década, provocada por la combinación del impacto de Internet y los espectaculares avances
en el campo de la Genómica, los cuales generan ingentes cantidades de datos, cuya gestión y análisis
plantean numerosos problemas que deben ser resueltos desde una perspectiva bioinformática. Conocer
cómo abordar y solucionar estos problemas son competencias que deberían poseer los investigadores
y trabajadores en cualquiera de los ámbitos de la Biotecnología.
La asignatura de Bioinformática ofrece una amplia visión sobre las aplicaciones bioinformáticas
más comunes, así como los fundamentos científicos en las que se basan. El objetivo general de este
manual de prácticas es que los alumnos aprendan cómo acceder de forma eficiente a diferentes bases
de datos biológicas, así cómo utilizar herramientas computacionales para solucionar casos prácticos
que requieren el análisis de datos moleculares.

Q Volver al índice
Práctica 1: Bases de datos bibliográficas

Las bases de datos (BD) bibliográficas han popularizado su uso en la era de Internet y, hoy por hoy,
son un instrumento indispensable para la difusión y el conocimiento de la producción científica. En
general todas las bases de datos bibliográficas actuales se caracterizan por contener registros con in
formación básica sobre:

1. El documento (generalmente artículos) como título, tipo de documento, idioma, palabras claves
y descriptores.
2. La fuente de donde provienen los documentos (principalmente revistas) como título, año de
publicación, volumen, número y páginas.
3. La autoría, como el nombre o los nombres de los autores, institución de inscripción y país.

Normalmente, para cada documento se asignan descriptores para clasificarlos y utilizarlos pos
teriormente como referencia para recuperarlos por medio de las búsquedas. Las BD más completas
también contienen resúmenes, referencias, citas, conexión al documento en texto completo (libre o
restringido a un pago), los documentos relacionados, análisis bibliométricos y herramientas electrónicas
para almacenar y manejar las referencias recuperadas.
Entre las características más importantes a considerar en una BD bibliográfica están la cantidad
de registros y el tipo de campos que capturan, las herramientas de búsqueda, manejo y análisis de los
registros, así como la cobertura tipológica y temática.
Actualmente, la búsqueda de información publicada en diferentes BD bibliográficas es una de las
tareas más frecuentes para obtener información precisa y útil dirigida a solucionar un problema cien
tífico. Es por ello que los objetivos principales de la presente práctica son:

• Aprender el uso básico de las BD bibliográficas.


• Comprender la información que ofrecen este tipo de BD.

Revisión bibliográfica en Pubmed


El sistema de búsqueda PubMed es un proyecto desarrollado por el NCBI (National Center for Biote
chnology Information). Permite el acceso a BD bibliográficas como MEDLINE y PreMEDLINE (citas
enviadas por los editores). Tiene una buena colección de entradas relacionadas con la bioquímica,
biología celular y la medicina. No obstante, su ámbito principal es la medicina, por lo que las revistas
de otros campos del conocimiento en las que se describen genes o la función de los mismos no siem
pre están incluidas. Incluye los títulos, autores y resúmenes de los artículos publicados. Recientemente
están realizando esfuerzos por incluir enlaces a la página donde se publicó el artículo o donde se puede
consultar un repositorio del mismo.

Q Volver al índice
10 Manual de prácticas de Bioinformática

Acceda al sitio web del PubMed ubicado en la siguiente dirección:

http://www.ncbi.nlm.nih.gov/pubmed/

Veamos cómo buscar referencias bibliográficas a través de PubMed. Por ejemplo, vamos a buscar
información sobre una familia de factores de transcripción denominados “WUSCHEL-related homeo
box” (WOX), los cuales están relacionados con la organización de grupos de células meristemáticas
que mediante sucesivas etapas de diferenciación y división celular dan lugar a los diferentes órganos
de una planta.
En la ventana de búsqueda (flecha 1) podemos incluir los términos de búsqueda (en inglés): “WUS
CHEL-related homeobox”, lo que nos da una relación de 65 artículos en los que aparecen cualquiera de
los términos introducidos y que posteriormente podremos reordenar de acuerdo a nuestros criterios;
relevancia, tipo de artículo, periodo de publicación en años, etc.

Alternativamente, podemos realizar una búsqueda avanzada de artículos (flecha 2, página anterior), en
la que podemos incluir términos específicos para campos concretos de la BD de PubMed (autor, fecha de
publicación, idioma de la publicación, revista, etc.), con lo que la búsqueda se vuelve más específica y precisa.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 11

Búsqueda bibliográfica en Web of Science


La búsqueda de información en otras BD bibliográficas es similar a lo mostrado anteriormente. Con
viene que practiques buscando estos mismos términos de búsqueda en la BD Web of Science (WOS).

Acceda a WOS ubicada en la siguiente dirección:

https://www.recursoscientificos.fecyt.es/

WOS es un servicio en línea de información científica, suministrado por Thomson Reuters, integra
do en ISIWeb of Knowledge. Por ello, WOS incluye tres grandes BDpara cada rama del conocimiento:
Science Citation Index (SCI), Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index
(A&HCI). De este modo, WOS facilita el acceso a un conjunto de BD en las que aparecen citas de

Q Volver al índice
12 Manual de prácticas de Bioinformática

artículos de revistas científicas, libros y otros tipos de material impreso que abarcan todos los campos
del conocimiento académico.
En este caso, al incluir como términos de búsqueda “WUSCHEL-related homeobox” y realizando
dicha búsqueda dentro de la categoría “Tema”, nos da una relación de 69 artículos, los cuales poste
riormente podremos reordenar de acuerdo a nuestros criterios: área de investigación, tipo de artículo,
periodo de publicación en años, etc.

Consulta bibliográfica en Google Scholar


Otro buscador especializado en bibliografía es Google Scholar o Google Académico, el cuál está diri
gido a la comunidad científico-académica.
Google Académico es tan sencillo de utilizar como la búsqueda web regular de Google, especial
mente con la función de «búsqueda avanzada», que puede filtrar automáticamente los resultados de
búsqueda para mostrar únicamente los pertenecientes a una publicación o un artículo específico. Los
resultados más relevantes para las palabras clave buscadas aparecerán en primer lugar, según el ranking
del autor, el número de referencias que lo enlacen, su relevancia respecto de otra literatura académica,
así como el ranking de la propia publicación en que aparezca el artículo.
Al igual que el caso anterior, incluiremos como términos de búsqueda “WUSCHEL-related homeo
box”. El resultado de eta búsqueda nos da una relación de 829 resultados. Comparando estos resultados
con los obtenidos anteriormente, encontramos un considerable aumento en el número de resultados.
Esto se debe a que Google Académico no sólo incluye artículos científicos, entre los resultados de este
buscador se pueden encontrar: citas, enlace a libros, artículos de revistas científicas, comunicaciones y
ponencias a congresos, informes científicos-técnicos, tesis, tesinas, así como otros trabajos científicos
depositados en repositorios.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 13

Acceda a Google Scholar o Google Académico ubicado en la siguiente dirección:

https://scholar.google.es/

A través de su funcionalidad de «Citado por», es posible consultar los resúmenes de aquellos artículos
que hayan citado el artículo de interés. Además, a través de su función de «Artículos Relacionados»,
Google Académico presenta una lista de artículos estrechamente relacionados, los cuales se ordenan
inicialmente por lo similares que sean estos artículos al resultado original, pero también teniendo en
cuenta la relevancia de cada documento.

Q Volver al índice
14 Manual de prácticas de Bioinformática

Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe obtener las respuestas a las siguientes preguntas:

• ¿Cuántos artículos aparecen en PubMed si introducimos“WOX” como térmi


no de búsqueda?
• Realiza un filtrado de los resultados obtenidos para conocer cuántos artículos
han sido publicados en inglés en los últimos 5 años ¿Cuál es el resultado?
• Haz esta misma búsqueda (término “WOX” dentro de la categoría “Tema”) en
la BD Web of Science ¿Cuál es el resultado de esta búsqueda?
• Filtra los resultados de modo que únicamente aparezcan aquellos artículos
que sean revisiones y que pertenezcan al área de investigación “Plant Scien
ces” ¿Cuántos artículos aparecen tras filtrar los resultados?
• Realiza la búsqueda del término “WOX” en Google Scholar ¿Cuál es el resulta
do de esta búsqueda?
• Compara los resultados obtenidos en PubMed, WOS y Google Scholar ¿Qué
motor de búsqueda es más eficiente?

Q Volver al índice
Práctica 2: Bases de datos biológicas

Las bases de datos (BD) biológicas constituyen una herramienta esencial para almacenar, estructurar,
organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su
rápido crecimiento, hacen de las BD una herramienta clave. Por ello las BD se han convertido en un
instrumento indispensable para los científicos experimentales del campo de la biología, así como para
aquellos científicos del área de la bioinformática que desarrollan experimentos in silico. Los repositorios
de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, proteínas, estructura
de proteínas, genomas, expresión genética, taxonomía, metabolismo, factores de transcripción, etc.
Nos podemos hacer una idea de la cantidad y variedad de BD disponibles accediendo a la página
Database of Biological Database (DBD), a la cual puede acceder a través del siguiente enlace: http://
www.biodbs.info/
La búsqueda de información publicada así como la descarga de secuencias de moléculas de interés
desde las BD, son unas de las tareas más comunes en bioinformática. Esta práctica cubrirá con cierta
extensión esta labor, y al final de ella seremos capaces de extraer la información precisa de las BD más
comunes, de una manera eficiente. De este modo, los objetivos principales de la presente práctica son:

• Aprender el manejo básico de las BD biológicas.


• Comprender la información que proporcionan este tipo de BD.

Clasificación de BD biológicas
Las BD biológicas se han desarrollado para diversos propósitos y almacenan datos muy heterogéneos.
Según el alcance y cobertura de los datos almacenados, las BD pueden clasificarse en:
• Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Entre este tipo de BD se
encuentran las tres BD de ácido nucleicos, que se localizan en Europa (EMBL, European Mole
cular Biology Laboratory, http://www.embl.de/), Japón (DDJB, DNA Data Bank of Japan, http://
www.ddbj.nig.ac.jp/) y Estados Unidos (NCBI, National Center for Biotechnology Information,
http://www.ncbi.nlm.nih.gov/). Estas tres BD fueron establecidas como una Colaboración
Internacional de BD de Secuencias de Nucleótidos en 1988, para colectar y compartir secuen
cias de ADN y ARN. Desde entonces, todas ellas están conectadas e intercambian las nuevas
secuencias todos los días. Por lo tanto, independientemente de la BD que se consulte, en las
tres se encuentra depositada la misma información.
• Especializadas: contienen información específica o de especies particulares. Por ejemplo, BD
de genomas de organismos concretos como Drosophila (Flybase, http://flybase.org/), Arabi
dopsis (TAIR, https://www.arabidopsis.org/) o vertebrados (ENSEMBL, http://www.ensembl.
org/); BD de factores de transcripción (PlantTFDB, Plant Transcription Factor Database, http://
planttfdb.cbi.pku.edu.cn/); o BD de rutas metabólicas (KEGG, http://www.genome.jp/kegg/).

Búsqueda de secuencias de ADN


Las BD que contienen las secuencias de Ácidos Nucleicos fueron diseñadas para simplificar el acceso
y consulta, por lo que estas BD suelen proporcionan un interfaz fácil de utilizar. Lo más común es que

Q Volver al índice
16 Manual de prácticas de Bioinformática

estos interfaces sean una página web, lo que posibilita que se acceda a los datos utilizando un simple
navegador web. En las diferentes BD, estos interfaces proporcionan herramientas de búsqueda y ficheros
de texto en los que mostrar la información. Cada uno de los ficheros incluye la información de uno
o varios registros de la BD. Durante la práctica utilizaremos la BD de nucleótidos de Estados Unidos,
gestionada por el NCBI, por ser una de las más sencillas e intuitivas. En cualquier caso, el formato en
el que se encuentran depositadas las secuencias de genes y proteínas en las tres BD principales (i.e.
EMBL, European Molecular Biology Laboratory; DDJB, DNA Data Bank of Japan; y NCBI, National
Centerfor Biotechnology Information) es el mismo, puesto que se estandarizaron los documentos en los
que se recogen la información necesaria para depositar una secuencia en cualquier BD. A continua
ción, analizaremos un ejemplo concreto de secuencia nucleotídica depositada en la BD del NCBI. El
procedimiento es muy similar al indicado en la Práctica 1 para buscar información en PubMed, sólo
que ahora trabajaremos con una BD del NCBI diferente; en este caso será la BD “Nucleotide”.

Acceda al sitio web del NCBI ubicado en la siguiente dirección: http://www.ncbi.nlm.nih.


gov/ y, en la columna de la derecha haga clic en“Nucleotide”(marco rojo de la Figura)

Podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha 1) o a través
de del procedimiento de búsqueda avanzada (flecha 2). Esto último es generalmente preferible, puesto
que podemos afinar mucho más nuestra búsqueda.

Imaginemos que queremos buscar la secuencia del mensajero de la adenosina quinasa (enzima
que cataliza la formación de adenosina monofosfato, AMP, a partir de adenosina más ATP) de la es

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 17

pecie Arabidopsis thaliana usando el procedimiento de búsqueda avanzada. Para ello introduciremos
sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos “Organism” y
“Title”, respectivamente.

Entre los resultados obtenidos vamos a seleccionar aquellas resultados que se incluyen dentro de
la BD Refseq, la cual corresponde a una colección de secuencias no redundantes y bien anotadas.
Este filtro se puede aplicar haciendo clic en la etiqueta “Refseq” (recuadro rojo) o bien al inicio de la
búsqueda avanzada, indicando dentro de la categoría “Filter” el término “Refseq”.

En las BD todas las nuevas secuencias que se van introduciendo reciben un número o referencia
que las identifica, en este caso entre los resultados obtenidos seleccionaremos la secuencia con núme
ro de identificador “NM_111817.3” (subrayado en rojo). Si pinchamos en el enlace “FASTA” (flecha),
tendríamos la secuencia en un formato utilizable en distintos programas bioinformáticos.

Q Volver al índice
18 Manual de prácticas de Bioinformática

Una secuencia en formato FASTA, bien de nucleótidos o de aminoácidos, tiene una sintaxis carac
terizada por un primer párrafo que obligatoriamente empieza por el símbolo “mayor que” (>) seguido
por un nombre, número o referencia que identifica la secuencia en cuestión; este párrafo es meramente
informativa. En el segundo párrafo se encuentra la secuencia de la molécula propiamente dicha. No
hay más párrafos en el formato FASTA.

Consulta de secuencias proteicas


El procedimiento de búsqueda es totalmente equiparable al de las búsquedas de secuencias nucleotídi
cas, sólo que la BD del NCBI sobre la que se ha de trabajar es la de “Protein”. Podemos acceder a ella
desde la página principal de NCBI; pinchamos en el enlace correspondiente a “Protein” y entramos
en la página inicial.

De nuevo, podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha
1) o a través de del procedimiento de búsqueda avanzada (flecha 2), lo cual permite afinar mucho más
nuestra búsqueda.
La información que dispone la BD incluye la secuencia de aminoácidos de la proteína. En este caso
realizaremos la búsqueda de la secuencia proteica de la adenosina quinasa de la especie Arabidopsis

Q Volver al índice
Juan Capel Salinasy Fernando Juan Yuste Lisbona 19

thaliana usando el procedimiento de búsqueda avanzada. Para ello, al igual que en el caso anterior,
introduciremos sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos
“Organism” y “Title”, respectivamente. Tras realizareste proceso debúsqueda aparecen aparecen 17
proteínas de la especie Arabidopsis thaliana que incluyen el término “adenosine kinase“.

Al igual que con la BD de nucleótidos, entre los resultados obtenidos vamos a seleccionar aquellas
proteínas que se incluyen dentro de la BD Refseq, la cualtiene la ventaja de que se trata de una colec
ción de secuencias de proteínas no redundantes y bien anotadas. Este filtro se puede aplicar haciendo
clic en la etiqueta “Refseq” (flecha) o bien al inicio de la búsqueda avanzada, indicando dentro de la
categoría “Filter” el término “Refseq”.

Una vez filtrado los resultados, aparecen 4 proteínas, entre las cuales hay 2 secuencias de la pro
teína adenosine kinase 1, una con un tamaño de 302 aa y otra de 344 aa. A continuación pinchamos

Q Volveral índice
20 Manual de prácticas de Bioinformática

en el enlace “FASTA” de la proteína de 344 aa y tendremos la secuencia en un formato adecuado para


realizar diferentes análisis bioinformáticos.

En esta parte de la práctica, siguiendo los procedimientos descritos anteriormente, el alumno debe
realizar las siguientes tareas:

• Buscar la secuencia nucleotídica en formato FASTA y el identificador del men


sajero de la adenosina quinasa de tomate (Solanum lycopersicum).
• Encontrar la secuencia proteica en formato FASTA y el identificador de la ade
nosine kinase 2 de tomate.

Estructuras tridimensionales de proteínas


El punto de partida para obtener la estructura tridimensional de macromoléculas lo encontramos en el
enlace “Domains & Structures” situado la página principal del NCBI, en la columna de la izquierda.
Pinchando en él, llegaremos a la página que nos permite acceder a las BD de estructuras moleculares
tridimensionales.

Estas dos BD que vemos recuadradas en la figura, se refieren a la colección de estructuras 3D de


una serie de dominios de proteínas conservados a lo largo de la evolución (CDD), y a la colección de
estructuras 3D de macromoléculas.
Para buscar información en ellas se operaría exactamente igual que en el caso de las BD de Nu
cleotide y Protein. Por ello, no vamos a hacer ninguna indicación especial en ese sentido.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 21

No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas específicos.
NCBI utiliza el visualizador Cn3D como estándar. La descarga del programa Cn3D se realiza desde la
misma página “Domains & Structures” accesible desde la página principal del NCBI. Una vez en ella,
activamos la pestaña “Tools”, y desde aquí pinchamos en el enlace al programa Cn3D.

Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposición de ver estruc
turas moleculares, bien moléculas completas o bien dominios de proteínas conservados durante la
evolución. Accedemos a la BD de dominios conservados (CDD) y realizamos la búsqueda del termino
“MADS”. El nombre de la familia multigénica MADS-box deriva de las iniciales de sus cuatro miembros
fundadores: MCM1 (Saccharomyces), AGAMOUS (Arabidopsis), DEFICIENS (Antirrhinum) y SERUM
RESPONSE FACTOR (Homo sapiens). Estas proteínas actúan como factores de transcripción, propios
de un buen número de eucariotas, destacándose su presencia en animales, plantas y en levaduras. A
su vez, intervienen en múltiples funciones, entre ellas destaca que están involucrados en el desarrollo
floral de muchas plantas.

Q Volver al índice
22 Manual de prácticas de Bioinformática

Durante el desarrollo de la práctica, veremos como ejemplo la estructura molecular del dominio
MADS a través del programa Cn3D, así como algunos aspectos básicos de su manejo. Si hacemos clic
en la etiqueta “MADS: MADS domain” (primer resultado, flecha), accederemos a la siguiente página:

En cuanto a su estructura, las proteínas MADS-box poseen sus dominios de interacción con el
ADN en su zona N-terminal (de unos 56 aminoácidos). Las secuencias de aminoácidos que definen
el dominio MADS pueden observarse al final de la página (recuadro rojo), en la sección “Sequence
Alignment”.
Haciendo clic en la figura del dominio MADS (flecha) se inicia la descarga de un fichero llamado
“cddsrv.cn3” que podemos abrir con el programa Cn3D. Al abrir dicho fichero podremos ver la es
tructura tridimensional del dominio MADS. Como podemos ver, se abren 2 ventanas que contienen
por un lado la secuencia aminoacídica que define al dominio:

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 23

Y por otro lado la ventana correspondiente a la estructura 3D del dominio MADS:

En la imagen se muestra que el dominio MADS está formado por dos hélices alfa (cilindros verdes)
y dos láminas beta (rectángulos amarillos).
Durante el transcurso de esta práctica sólo hemos visto los aspectos básicos del manejo del programa
Cn3D, puede ampliar sus conocimientos sobre esta herramienta siguiendo la guía de utilización del
programa (menús, opciones, etc.) que encontrará en el siguiente enlace: https://galter.northwestern.
edu/guides-and-tutorials/structure-viewers.pdf

Identificación de ORF (Open Reading Frame, marco abierto de lectura)


El término ORF se refiere a una parte de una secuencia nucleotídica que tiene la potencialidad de
codificar una proteína; es decir, que debe contener un codón o triplete de iniciación y un codón de
terminación.
La búsqueda de ORF’s en una secuencia de nucleótidos tiene muchas utilidades en genética mole
cular. Entre ellas, puede ayudar a la predicción de genes, a la determinación del origen de pseudogenes,
etc. Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si presenta alguna
relación con secuencias de genes ya conocidos, y si es así, tratar de deducir su posible función fisioló
gica, metabólica, celular. Para ello el primer paso es traducir este cDNA en proteína.

Q Volver al índice
24 Manual de prácticas de Bioinformática

Imaginemos que la secuencia de cDNA problema es la siguiente:

>cDNA_problema_1
AAAATCTCTTTACTACCAGCAAGTTGTTTTCTTGCTAACTTCAAACTTCTCTTTCTCTTGTTCCTCTCTAAGTCTT
GATCTTATTTACCGTTAACTTTGTGAACAAAAGTCGAATCAAACACACATGGAGCCGCCACAGCATCAGCAT
CATCATCATCAAGCCGACCAAGAAAGCGGCAACAACAACAACAACAAGTCCGGCTCTGGTGGTTACACGT-
GTCGCCAGACCAGCACGAGGTGGACACCGACGACGGAGCAAATCAAAATCCTCAAAGAACTTTACTACAACA-
ATGCAATCCGGTCACCAACAGCCGATCAGATCCAGAAGATCACTGCAAGGCTGAGACAGTTCGGAAAGATT-
GAGGGCAAGAACGTCTTTTACTGGTTCCAGAACCATAAGGCTCGTGAGCGTCAGAAGAAGAGATTCAACGGA-
ACAAACATGACCACACCATCTTCATCACCCAACTCGGTTATGATGGCGGCTAACGATCATTATCATCCTCTACTT
CACCATCATCACGGTGTTCCCATGCAGAGACCTGCTAATTCCGTCAACGTTAAACTTAACCAAGACCATCATCTC-
TATCATCATAACAAGCCATATCCCAGCTTCAATAACGGGAATTTAAATCATGCAAGCTCAGGTACTGAATGTGGT
CAACAACGTAGGTGGAGGATGGGCAAACATGGATCATCATTACTCATCTGCACCTTACAACTTCTTCGATAGA-
GTTGTTAATGCTTCTAATGGCTACATGAGTAGCCATGTCTATGGATCTATGGAACAAGACTGTTCTATGAATTA-

GCAAAGCCTCTGTTTGGTCTAGAAGGTCATCAAGAAGAAGAAGAATGTGGTGGCGATGCTTATCTGGAACATC-
GACGTACGCTTCCTCTCTTCCCTATGCACGGTGAAGATCACATCAACGGTGGTAGTGGTGCCATCTGGAAGTAT-
GGCCAATCGGAAGTTCGCCCTTGCGCTTCTCTTGAGCTACGTCTGAACTAGCTCTTACGCCGGTGTCGCTCGG
GATTAAAGCTCTTTCCTCTCTCTCTCTCTTTCGTACTCGTATGTTCACAACTATGCTTCGCTAGTGATTAATGAT
GCAGTTGTTATATTAGTAGTTAACTAGTTATCTCTCGTTATGTGTAATTTGTAATTACTAGCTAAGTATCGTCTA-
GGTTTTAATTGTAATTGACAACCGTTTTATCTCTATGATGAATAAGTTAAAATTTTA

Lo primero que vamos a hacer es tratar de ver si contiene algún marco abierto de lectura (Open
Reading Frame – ORF), es decir, si contiene un conjunto de codones que son capaces de traducirse
a proteína. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el NCBI. Hacemos
clic en el vínculo correspondiente a esa utilidad, que se encuentra en la etiqueta “Tools” de la entrada
“Sequence analysis” y entramos en la página correspondiente a la búsqueda de ORF’s.

Q Volver al índice
Juan Capel Salinasy Fernando Juan Yuste Lisbona 25

La nueva página permite introducir el identificador de una de las secuencias ya contenidas en las
BD, o analizar una secuencia problema. Esto último es lo que vamos a hacer nosotros. En el cuadro
grande en blanco vamos a introducir la secuencia problema en formato FASTA.

El programa da como resultado los posibles ORF’s, tanto para la hebra plus (+) como para la hebra
minus (-), mostrando 3 posibilidades para cada una de las hebras. De todos los ORF’s que aparecen en
cada una de las 3 pautas de lectura de las hebras plus (+) y minus (-). Empezaremos por investigar el
mayor de todos (en este caso 879 nucleótidos). En la figura siguiente está recuadrado en rojo y mar
cado con una flecha. Pinchamos sobre él, y aparecerá una nueva pantalla con el ORF seleccionado, ya
aislado y con su traducción a proteína.

Nos quedaremos con la secuencia de la proteína que se codificaría a partir de este ORF. Para ello,
utilizando el bloc de notas, copiaríamos la secuencia y la editaríamos convenientemente en formato
FASTA. Nos quedaría algo así como:

Q Volveral índice
26 Manual de prácticas de Bioinformática

>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVNVKL
NQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMDHHYS
SAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN

Esta secuencia será objeto de estudio en la próxima práctica para ilustrar el uso de la herramienta
BLAST. No obstante, en este punto de la práctica, el alumno deberá analizar la secuencia del cDNA
problema mostrado a continuación e indicar en formato FASTA cuál sería su secuencia proteica pre
dicha más probable.

>cDNA_problema_2
ACATACATACATACATTTGTAGAGTTGTTGTTGTTTTATGATGGAACATCAACACAACATAGAAGATGGTGGTAAAA-
ATAGTAACAACAGTTTCCTGTGCAGGCAAAGTAGTAGCCGTTGGACGCCAACGAGCGATCAGATAAGAATATTGA-
AGGATCTCTACTACAACAATGGAGTTAGGTCTCCAACTGCTGAACAGATTCAGAGGATATCTGCTAAGTTGAGA
CAGTACGGTAAGATTGAAGGCAAAAATGTGTTTTATTGGTTTCAGAACCATAAAGCTCGTGAAAGACAAAAGAAGA
GGCTCATTGCTGCTGCCTCTGCCACTGATAATAATAATATCTCTTCCATGCAAATGATTCCACATCTTTGGAGATCTCCT-
GATGATCACCACAAGTACAACACTACTACTACTAATCCAGGTGTTCAGTGTCCATCACCATCTTCACATGGGGTATTAC-
CAGTGGTACAGACTGGAAACTATGGTTATGGAACTTTGGCTATGGAGAAGAGCTTTAGGGAGTGTTCAATATCAC-
CACCAGGTGGTAGTTATCATCAAAATTTGACATGGGTTGGTGTTGATCCTTACAACAATATGAGTACTACTTCTCCAG
CAACTTACCCTTTTCTTGAAAAAAGCAACAACAAACACTATGAAGAAACCCTAGATGAAGAGCAAGAAGAAGAAA-
ATTACCAAAGGGGTAACTCTGCTTTAGAAACTCTGTCACTTTTCCCCATGCATGAAGAGAACATCATCTCAAATTTCT-
GCATCAAACATCATGAATCTTCTGGAGGATGGTACCATTCTGATAATAACAATTTGGCTGCTCTTGAACTTACTCTCA-
ACTCTTTCCCCTAAATTATGAACTAGTCTATCTTATGTTTGTAGTAAGTAAGTACTAATCTAATTTGGTATGTGCCAAGC
TATTTGGACCTTATGGTAATGTTAATTAATCTTAATCTAAGTTGTACTAATATTATTAATTAAAGTATGGATAAGTTTATT

Mapas de restricción
Un mapa de restricción es la ubicación dentro de una secuencia nucleotídica de los sitios de corte
para diferentes enzimas. Generalmente, queremos conocer estos lugares de cortes para varios objetivos
relacionados con la tecnología del DNA recombinante. Para realizar este tipo de análisis de restricción
se utilizan herramientas bioinformáticas, las cuales localizan en la secuencia nucleotídica las dianas
de diferentes enzimas de restricción. Para hacer estos análisis necesitamos una BD que contenga las
secuencias reconocidas por las diferentes enzimas. Posteriormente, el programa utilizará esta BD para
localizar las diferentes dianas de restricción presentes en nuestra secuencia problema. Existen varias
herramientas bioinformáticas que nos indican las dianas de corte de enzimas de restricción. Algunas
de estas herramientas son:

WatCut http://watcut.uwaterloo.ca/watcut/watcut/template.php

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 27

remap http://www.bioinformatics.nl/cgi-bin/emboss/remap

Durante el desarrollo de esta práctica, utilizaremos la herramienta Webcutter 2.0 para la búsqueda
de dianas de restricción.

Acceda al sitio web de Webcutter 2.0 ubicado en la siguiente dirección:


http://rna.lundberg.gu.se/cutter2/

Como secuencia problema utilizaremos la secuencia nucleotídica anterior, denominada como


“cDNA_problema_2“. Una vez en la página de Webcutter 2.0 nos desplazaremos hasta la sección “Paste
the DNA sequence into the box below” y pegaremos nuestra secuencia problema.

Q Volver al índice
28 Manual de prácticas de Bioinformática

En la sección “Please select the type of analysis you would like” indicaremos que se trata de una
secuencia linear; mientras que en la sección “Please indicate how you would like the restriction sites
displayed” indicaremos que nos muestre el mapa de restricción y la lista de los sitios de restricción
ordenados secuencialmente por número de base, tal y como se muestra en la siguiente figura.

En la sección “Please indicate which enzymes to include in the display”, indicaremos que tipo de
enzimas queremos que aparezcan en la página de resultados, en nuestro caso “All enzymes”. Posterior
mente, seleccionaremos que tipo de enzimas queremos incluir en el análisis dentro de la sección “Please
indicate which enzymes to include in the analysis”. En este caso utilizaremos sólo aquellas enzimas cuyas
dianas de restricción sean igual o mayor de 6 bases. Finalmente haremos clic en “Analyze sequence”.

Después de unos segundos, se abrirá una nueva página con los resultados del análisis. En primer
lugar aparece el mapa de restricción “Graphic map” (página siguiente).

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 29

Q Volver al índice
30 Manual de prácticas de Bioinformática

En segundo lugar podemos encontrar la tabla donde se indican los sitios de restricción ordenados
secuencialmente por número de base, como se muestra en la siguiente figura.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 31

Por último, antes de terminar esta práctica, el alumno deberá buscar las dianas de restricción de
la secuencia nucleotídica problema que se muestra a continuación. Para ello utilizará sólo aquellas
enzimas cuyas dianas de restricción sean igual o mayor de 8 bases.

>Secuencia_problema
GAAAAGAAAAGTGAACAATACACTGTTTTTTACTAATTATTTTTTAGAAAAAGAAAAAAGGAATATTGTGT-
GTTTGCTTTTTTTTCTGACTAGTAGTATTGCTAACTATGTATTCCATTAAGGATTTGCTGTGAAAAAGCCTGATAT-
CAGTAAGCATAAAACTCGGGAGATCACTTACACACACACACCCTCGTAAAAAAGAGAAGAGAGATTTACT-
GTTAAACAGAGGTTTTTTTCCATTTCTTTTTTTTTTCTCAGTGTGTGTGAGAGAGAGAGATGGTTTTCATA-
GGCAAAAACAAATAGAAAGGAACAAAATTTAGAGTGAAGAAGAAAGTGTGTGAGAGAATAATGGAGGGT-
GGTTCTAGTGGAAATACTAGTACATCTTGTTTAATGATGATGGGATATGGAGATCATGAGAACAACAACAA-
CAACAATGGAAATGGTAATGGAAATGGAAATGGAAATGTAACAATTTGTGCTCCTCCAATGATGATGATGAT
GCCTCCTCCTCCTCCTTCTTTAACTAACAATAACAATGCAGAAACAAGCAGCAACAACATCCTTTTTCTTCCTTT
CATGGACAACAACAACAATAATCCTCAAGAAGACAACAACTCTTCTTCTTCTTCCATCAAGTCAAAGATTAT-
GGCTCATCCTCACTACCATCGTCTCTTGACTGCTTATCTCAATTGTCAAAAGATAGGAGCTCCGCCAGAAGTGGT-
GGCAAGGCTAGAGGAAATATGTGCCACGTCAGCAACAATGGGCCGTAGCAGTAGTAGTAGTGGTGGTGGAAT
CATTGGAGAAGATCCTGCACTAGATCAGTTCATGGAGGCTTATTGTGAGATGCTGACAAAATATGAACAAGA-
ACTCTCAAAACCCTTCAAGGAAGCCATGGTTTTTCTTTCAAGAATTGAGTGTCAGTTCAAAGCTTTAACTCTT
GACGTGAATAACAGTTTCATCGACCCCCAGGCTGAGGATAGAGAGCTCAAAGGTCAATTGTTGCGTAAGTA-
GCACCTAATTCTTCTCATGAATCTGCTTTGGGCGAGGCAATGGATAGAAATGGATCATCTGATGAAGAGGTT-

CAGCGGTTACTTGGGAAGCCTTAAGCAGGAGTTCATGAAGAAGAGGAAGAAAGGCAAGCTGCCTAAGGAA-
GCAAGGCAACAATTGGTGGATTGGTGGCTTAGACATATTAAATGGCCATATCCATCGGAATCTCAGAAGCTTG
CACTAGCTGAATCAACGGGATTGGACCAGAAGCAAATAAACAACTGGTTTATCAATCAAAGAAAGAGGCATT-
GGAAACCATCAGAAGATATGCAGTTTGTTGTGATGGATGCTGCTCATCCACATTACTATATGGATAATGTTCTT
GCTAACCATTTCCCAATGGATATGACACCCTCTCTCCTCTGAATTAAGATTTGTCATTATTAGTATCAAGGAT-
GTTTAATTAATTTGCATATTACTTGTGTGCATGTAGTAGTACAAGGTATTGTGACACAATCAACTTTTTATTAGAC-
CAAATATATAAAGTGCTTGTAATAGATCTTTCTATTATCATCTTTAATTATAGAATTAAATAGTTTGTACTTGCTAAA-
AATTTTGAAAAATAA

Q Volver al índice
Práctica 3: BLAST, una herramienta de análisis de secuencias

BLAST (Basic Local Alignment Search Tool) es un programa informático de alineamiento de secuen
cias, ya sea de ADN o de proteínas, que puede comparar una secuencia problema con otra secuencia
o con todas las secuencias que se encuentren en una base de datos (como por ejemplo la base de datos
de Refseq que contiene una colección de secuencias de proteínas no redundantes y bien anotadas)
encontrando las secuencias de la base de datos que tienen mayor parecido a la secuencia problema.
BLAST fue creado y es mantenido por el NIH (National Institutes of Health) a través del NCBI
(National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/) siendo de dominio
público y de uso gratuito. La ventaja de utilizar BLAST a través del formulario que provee el NCBI es
que el usuario no tiene que mantener al día las bases de datos y además la búsqueda se realiza muy
rápidamente.
BLAST utiliza el algoritmo Smith-Waterman que se basa en el uso de programación dinámica para
garantizar que el alineamiento local encontrado es óptimo con respecto a un determinado sistema de
puntuación como las matrices tipo BLOSUM o PAM. Una matriz de este tipo contiene la puntuación
(score) que se le da al alinear un nucleótido o un aminoácido de la posición X de la secuencia A con
otro aminoácido de la posición Y de la secuencia B. El uso de este tipo de matrices permite a BLAST
dar una puntuación a los alineamientos que realiza. Además, BLAST utiliza un algoritmo heurístico
para calcular la significación de los resultados, lo que nos dará un parámetro con el que valorar los
resultados que se han obtenido tras la búsqueda.
Durante esta práctica se utilizará el programa BLAST para analizar tanto secuencias de ADN como
de aminoácidos. Durante su transcurso, aprenderemos a extraer, de forma estructurada y eficaz, la
información necesaria de las diferentes bases de datos moleculares. De este modo, el objetivo principal
de esta práctica es:

• Adquirir habilidades y destrezas en el análisis de secuencias de ADN y proteínas.

Accediendo a las secuencias


En la práctica anterior (Práctica 2: Bases de datos biológicas) fueron objeto de estudio diferentes bases
de datos que ofrece el NCBI y la manera más común de realizar búsquedas en ellas. Hasta ahora lo que
tenemos es una secuencia de nucleótidos o de aminoácidos, pero no sabemos nada de ella, ni su función,
ni su familia ni el parentesco que guarda con otras secuencias de la misma especie o de otras especies.

Acceda al sitio web del NCBI ubicado en la siguiente dirección:


http://www.ncbi.nlm.nih.gov/
Realice la búsqueda de la secuencia nucleotídica con identificador“HO850244.1”

En este momento debe encontrarse en una página con el consiguiente contenido:

Q Volver al índice
34 Manual de prácticas de Bioinformática

El identificador “HO850244.1” corresponde a una secuencia de un EST (Expressed Sequence Tag,


o cDNA anónimos) de Arabidopsis thaliana similar al gen que codifica la adenosine kinase 1. El NCBI
muestra la secuencia en formato “EST”, el cual indica la siguiente información:

CAMPO DESCRIPCIÓN

dbEST Id: 71461818


EST name:Acc:
GenBank AT74
HO850244 Identificador y nombre de la secuencia en la base
de datos de EST y GenBank
GenBank gi: 309381023

Identificador del clon a partir del cual se ha aislado


CLONE INFO
esta secuencia y tipo de ADN con el que se ha ge-
Clonetype:
DNA Id: AT74
cDNA
nerado dicho clon

Sequencing:
PRIMERS M13 Forward,
PolyATail: no RV-M Reversed Cebadores utilizados para obtener la secuencia de
interés. Información sobre si la secuencia contiene
o no cola de poliA

SEQUENCE
CACTTGAAGAAGCCTGAGAACTGGGCTCTGGTTGGGAAGGCCA Secuencia
amplificada con los cebadores anterior
AGTTTTATTACATTGCTGGATTCTTCCTCACGGTATCACCAGAATCCATT-
mente descritos
CAGTTGGTACGTGAACATGCTGCTGCAAACAACAAGGTGTTCACGAT
GAACCTTTCTGCTCCATTCATCTGT

Entry
Last Updated:
Created: Oct 202010 Fecha de creación y última actualización del regis
tro

COMMENTS
Observaciones sobre cómo se ha obtenido la se
The sequence was obtained from samples subjected to vitrification cuencia
solution treatment of cryopreservation

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 35

CAMPO DESCRIPCIÓN
PUTATIVE ID
Función putativa y origen de esta asignación de
Assigned by submitter
función
adenosine kinase 1

LIBRARY
Lib Name: LIBEST_026723 Arabidopsis vitrification solution
Library
treatment
Organism: Arabidopsisthaliana

Ecotype: Col-0
Tissue type: Seedlings
Develop. stage: 2d and 3d
Lab host: E. coli DH5-alpha
Vector: pMD18-T simple vector
R. Site 1: EcoRI
Descripción de la genoteca: nombre, organismo,
Description: 2 & 3-day Arabidopsis thaliana seedlings were immer utilizado para obtener la geno
sed in loading solution (MS liquid medium+2M glycerol+0.4M su ecotipo y protocolo
teca a partir de la cual se ha obtenido la secuencia
crose) for 20 minutes atroom temperature. Loading solution was
removed from the cryovial and rapidly replaced by filtered sterilized
cryoprotective solution PVS2 (30% w/v glycerol, 15% w/v ethylene
glycoland 15% w/v DMSOin liquid MS medium supplemented with
0.4M sucrose) and left at 0degC for 50 minutes. cDNA library was
derived from these seedlings. cDNA synthesis was initiated using
a oligo(dT) primer. Double-stranded cDNA was blunted, digested
with EcoRI and MseI restriction endonuclease, ligated to EcoRI and
MseI adaptors, using cDNA-AFLP to screen the different expression
gene, and cloned into the pMD18-T simple vector.

SUBMITTER
Name: Ren Li
Lab: Ornamental Plant Germplasm Laboratory
Institution: School of Agriculture and Biology, Shanghai Jiaotong
Datos de contacto del investigador que han depo
University
sitado la secuencia en la base de datos de EST del
Address: NO.800, Dong Chuan Rd., Shanghai, P.R. China
NCBI
Tel: +86 2134205731
Fax: +86 2134205736
E-mail: renliaqx@gmail.com

CITATIONS
Title: Comparative cDNA-AFLP analysis reveals transcriptional profi
ling of2 & 3-day rabidopsis thaliana seedlings in response to vitrifi
cation solution treatment of cryopreservation Datos sobre como citar esta secuencia: Nombre del
Authors: Ren,L., Zhang,D., Shen,X.H. artículo, autores, fecha de publicación, revista, etc.
Year: 2010
Status: Unpublished

El NCBI no sólo ofrece el formato “EST” para mostrar información sobre una secuencia. Si hacemos
clic sobre el etiqueta “EST” (flecha), aparece un desplegable con los diferentes formatos en los que el

Q Volver al índice
36 Manual de prácticas de Bioinformática

NCBI permite visualizar la información sobre una secuencia (recuadro rojo). En la práctica anterior
(Práctica 2: Bases de datos biológicas) examinamos el formato FASTA, válido tanto para secuencias
de nucleótidos como de aminoácidos, el cual nos proporciona las secuencias en un formato utilizable
en distintos programas bioinformáticos.

A continuación seleccionaremos la pestaña “Genbank” y nos detendremos en describir qué tipo


de información recoge cada uno de los epígrafes de este formato.

CAMPO DESCRIPCIÓN

LOCUS Identificador, longitud, tipo de mo


lécula, división a la que pertenece la
HO850244, 165 bp, mRNA, linear, EST 20-OCT-2010 secuencia y fecha de la última modifi
cación
DEFINITION
liana cDNA
AT74 clone AT74
Arabidopsis similar solution
vitrification to adenosine
treatment
kinaselibrary
1, mRNA sequence.tha-
Arabidopsis Breve descripción de la secuencia

Identificador
aunque único delaentrada, no varía
se modifique
ACCESSION HO850244 secuencia

Número de versión de la secuencia.


GI identificador único de la secuencia,
VERSIONHO850244.1 GI:309381023 pero en este caso cambia con las mo
dificaciones

Origen de la muestra a partir de la cual


DBLINK BioSample:
KEYWORDS EST.LIBEST_026723 se obtuvo la secuencia
Palabras clave que describen a la se
cuencia

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 37

CAMPO DESCRIPCIÓN
SOURCE
Arabidopsis thaliana (thale cress)
ORGANISM Arabidopsis thaliana Nombre científico del organismo
Eukaryota; Viridiplantae; Streptophyta; Embryophyta;Tracheophyta; Sper
matophyta; Magnoliophyta; eudicotyledons; Gunneridae; Pentapetalae;
rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis
REFERENCE 1 (bases 1 to 165)
AUTHORS Ren,L., Zhang,D. and Shen,X.H.
TITLE Comparative cDNA-AFLP analysis revealstranscriptional profiling of Datos sobre como citar esta secuencia:
Nombre del artículo, autores, fecha de
2 & 3-day Arabidopsis thaliana seedlingsin response to vitrification solu
tion treatment of cryopreservation publicación, revista, etc.
JOURNAL Unpublished (2010)
COMMENT
Contact: Ren Li.
Ornamental Plant Germplasm Laboratory School of Agriculture and Biolo
gy, Shanghai Jiaotong University NO.800, Dong Chuan Rd., Shanghai, P. R.
China Tel: +8621 34205731 Comentarios y observaciones sobre la
Fax: +86 2134205736
Email: renliaqx@gmail.com secuencia
The sequence was obtained from samples subjected to vitrification solu
tion treatment of cryopreservation
Seq primer: M13 Forward, RV-M Reversed
POLYA=No
FEATURES
Location/Qualifiers
Source 1..165 /organism=”Arabidopsis thaliana”/mol_type=”mRNA”/
ecotype=”Col-0”/db_xref=”taxon:3702”/clone=”AT74”/ tissue_
type=”Seedlings”/dev_stage=”2dand3d”/lab_host=”E. coliDH5-alpha”/
clone_lib=”LIBEST_026723 Arabidopsis vitrification solution treatment li
brary”/note=”Vector: pMD18-Tsimple vector; Site_1: EcoRI; 2& 3-day Ara
bidopsis thaliana seedlings were immersed in loading solution (MS liquid
medium+2M glycerol+0.4M sucrose) for 20 minutes atroom temperatu Características: contiene la información
re. Loading solution was removed from the cryovial and rapidly replaced biológica de la secuencia
by filtered sterilized cryoprotective solution PVS2 (30% w/v glycerol, 15%
w/v ethylene glycol and 15% w/v DMSO in liquid MS medium supple
mented with 0.4M sucrose) and leftat0degCfor 50 minutes. cDNA library
was derived from these seedlings. cDNA synthesis was initiated usinga
oligo(dT) primer. Double-stranded cDNA was blunted, digested with Eco
RI and MseI restriction endonuclease, ligated to EcoRI and MseI adaptors,
using cDNA-AFLP to screenthe differentexpression gene, and cloned into
the pMD18-T simple vector.”
ORIGIN
1 cacttgaaga agcctgagaa ctgggctctg gttgggaagg ccaagttttattacattgct Secuencia que contiene el identifica
61 ggattcttcc tcacggtatcaccagaatccattcagttgg tacgtgaacatgctgctgca dor seleccionado
121 aacaacaaggtgttcacgat gaacctttct gctccattcatctgt

Análisis BLAST de secuencias de ADN


En esta sección utilizaremos la secuencia anterior (identificador “HO850244.1”) en formato FASTA
para realizar un análisis BLAST.

Acceda al sitio web del NCBI donde se aloja la herramienta BLAST a través de la siguiente dirección:
http://blast.ncbi.nlm.nih.gov/Blast.cgi

Q Volver al índice
38 Manual de prácticas de Bioinformática

Existen distintos tipos de programas BLAST para el análisis de secuencias tanto de nucleótidos
(blastn, tblastx, tblastn) como de proteínas (blastp, blastx). Para saber cuál utilizar es fundamental
tener en cuenta 3 factores: (1) la naturaleza de la secuencia problema, (2) el objetivo de la búsqueda y
(3) la base de datos donde se va a llevar a cabo la búsqueda. La siguiente tabla muestra las diferentes
versiones del programa BLAST:

En nuestro caso utilizaremos blastn (nucleotide blast, flecha roja).

Una vez en esta página pegaremos la secuencia en formato FASTA en la ventana en blanco de la
sección “Enter accession number(s), gi(s), or FASTA sequence(s)”. A continuación seleccionaremos una
base de datos contra la que comparar nuestra secuencia problema. El análisis puede realizarse frente a
diferentes bases de datos (recuadro rojo). En este caso hemos elegido la base de datos “nucleotide co
llection (nr/nt)”, que contiene una colección de secuencias nucleotídicas no redundantes (acrónimo nr).

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 39

Entre los posibles algoritmos que pueden ser utilizados para analizar la secuencia problema, el
algoritmo “megablast” es el más restrictivo entre los tres posibles, debido a que está diseñado para
identificar la propia secuencia problema (el parecido es del 100%) o para encontrar secuencias muy
parecidas (mayor del 95% de residuos nucleotídicos idénticos). En cuanto al algoritmo “discontiguous
megablast”, es más sensible y eficaz que el algoritmo “blastn” porque ignora algunas bases (la tercera
de cada codón) y porque al comparar la secuencia problema con la diana no es necesario que ambas
sean idénticas, sino que permite la presencia de discontinuidades.
En este caso utilizaremos el algoritmo “megablast”. Finalmente para ejecutar la búsqueda seleccio
naremos “Show results in a new window” y haremos clic en el botón “BLAST”.

En la primera sección de la página de resultados, desplegando la etiqueta “Search Summary” (fle


cha) se puede observar información relativa a la búsqueda donde por ejemplo se puede ver el número
de secuencias almacenadas en la base de datos utilizada (recuadro rojo), en este caso en la colección
no-redundante.
Por otro lado la sección “Graphic Summary” ofrece una representación gráfica de los resultados de
la búsqueda. Cada una de las barras dibujadas representa cada uno de los resultados, ordenados por
relevancia de forma descendente. De esta forma las líneas que están en la parte superior son las más
relevantes mientras que las de la parte inferior lo son menos. La primera línea de la parte superior
corresponde a la propia secuencia problema. La relevancia también se muestra a través del color, siendo
las líneas de color rojo y rosa las de mayor puntuación y las de azul y verde las que menos.

Q Volver al índice
40 Manual de prácticas de Bioinformática

La sección “Descriptions” muestra la lista de resultados en el siguiente formato:


• Description: el nombre del resultado.
• Max Score: la puntuación máxima de alineamiento.
• Total Score: otra puntuación de alineamiento, puede diferir de Max Score si la consulta coincide
con un único registro de la base de datos en múltiples regiones.
• Query Coverage: qué porcentaje de la consulta tiene similitud con el resultado dentro de la
base de datos.
• E-value: es probablemente la mejor medida de calidad del resultado. Los números más bajos
significan más hits, siendo 0.0 el mejor valor posible.
• Accession: identificador del resultado dentro del NCBI.

Finalmente en la sección “Alignments” se muestran los alineamientos HSP (pares de alta puntua
ción, High Score Pairs).

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 41

Las barras verticales representan emparejamientos entre la secuencia que usamos para la búsqueda
(Query) y las secuencias de la base de datos (Sbjct), los espacios que no tienen barra vertical significa
que en ambas secuencias hay diferentes nucleótidos, mientras que las líneas horizontales son huecos
o gaps (en el ejemplo que se muestra no existe ningún gap), que deja BLAST para realizar mejor el
alineamiento.
En el ejemplo que se representa, la secuencia con identificador “BT033101.1” es el resultado más
probable del análisis blastn. Si accedemos a la página que contiene dicha secuencia podremos observar
la información que recoge el NCBI sobre esta secuencia en formato “GenBank”. Entre esta información
podemos distinguir los campos anteriormente descritos. Entre ellos, dado que se trata de una secuencia
de tipo CDS (CoDing Sequence), merece la pena reseñar la información que recoge el campo “FEA
TURES”, donde además de información biológica relevante podemos encontrar la secuencia proteica
que codifica dicho CDS (recuadro rojo), cuyo número de identificación es “ACF16163.1” (indicado
con una flecha roja).

Q Volver al índice
42 Manual de prácticas de Bioinformática

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 43

Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe realizar las siguientes tareas:

•A partir de la secuencia
Encontrar el tejido adel EST del
partir de tomate
cual se con número de
ha obtenido dicho
identificador“BF113600.1”
EST.

• Realizar un análisis BLAST e identificar el resultado más probable.


• ¿Qué número de identificador tiene dicha secuencia?
• ¿Qué tipo de molécula es?
• ¿Cuál es el número de identificador de la proteína que codifica dicha secuencia?

Búsqueda BLAST de secuencias proteicas


En la práctica anterior (Práctica 2: Bases de datos biológicas), se utilizó la herramienta ORF Finder
del NCBI para predecir la secuencia proteica codificada por una secuencia nucleotídica problema. A
continuación se muestra dicha secuencia predicha en formato FASTA:

>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVN
VKLNQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMD
HHYSSAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN

En esta práctica vamos a buscar si esta proteína problema presenta alguna relación con otras
secuencias depositadas en la base datos; es decir, tratar de deducir en la medida de lo posible y por
comparación, la familia de proteínas a la que pertenece y su posible función.

Acceda al sitio web del NCBI donde se aloja la herramienta BLAST a través de la siguiente dirección:
http://blast.ncbi.nlm.nih.gov/Blast.cgi

Para realizar esta tarea, puesto que se trata de una secuencia proteica, se utilizará “protein blast”
(blastp), que compara una secuencia de aminoácidos contra una base de datos del mismo tipo.

Q Volver al índice
44 Manual de prácticas de Bioinformática

Copiamos la secuencia de la proteína problema en la ventana en blanco, y seleccionamos una


base de datos de proteínas contra la que comparar (i.e. buscar secuencias similares - homólogas - a la
nuestra). Las posibles bases de datos frente a las que comparar la secuencia proteica están marcadas en
el recuadro rojo. En este caso escogeremos la base de datos Refseq de proteínas. Dicha base de datos
tiene la ventaja de que se trata de una colección exhaustiva de secuencias de proteínas no redundantes
y bien anotadas. No obstante, podríamos haber utilizado otra distinta como Swiss-Prot, cuya caracte
rística principal es que las proteínas que se encuentran almacenadas en esta base de datos presentan
un alto nivel de anotación. Esto significa que se conoce la estructura tridimensional, la función, las
modificaciones post-traduccionales, variantes, etc.
Entre los posibles algoritmos que pueden ser utilizados para analizar la secuencia problema, utiliza
remos el algoritmo “blastp” que es el que compara secuencias proteicas. En último lugar para ejecutar
la búsqueda seleccionaremos “Show results in a new window” y haremos clic en el botón “BLAST”.

Con ello se iniciará el proceso de búsqueda de secuencias similares a la nuestra. Durante el proceso
de búsqueda de secuencias nos aparecen unas pantallas que nos indican de qué tipo de proteína se
trata nuestra proteína problema. Una de esas pantallas tiene el siguiente aspecto:

Como se puede ver, se ha detectado un dominio proteico denominado “homeodomain”. Si pincha


mos en el esquema que muestra el dominio de “homeodomain” podremos obtener información sobre
la secuencia del mismo, e incluso quizá su estructura en 3 dimensiones si ésta ha sido publicada. En
este caso se trata de un dominio de unión a ADN que presenta una longitud de aproximadamente 60
aminoácidos. Los genes que codifican proteínas que presentan dicho dominio están implicados en la
regulación de los patrones de desarrollo (morfogénesis) en animales, hongos y plantas.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 45

Una vez que esté terminada la búsqueda aparece una pantalla con los resultados. Como ocurre con
el análisis blastn, en la primera sección de la página de resultados, desplegando la etiqueta “Search
Summary” (flecha roja) se puede observar información relativa a la búsqueda donde por ejemplo se
puede ver el número de secuencias proteicas almacenadas en la base de datos utilizada (recuadro rojo),
en este caso Refseq.

Posteriormente encontramos la sección “Graphic Summary” ofrece una representación pictográfica


de los resultados de la búsqueda. La relevancia se muestra a través del color, siendo las líneas de color
rojo y rosa las de mayor puntuación y las de azul y verde las que menos. Como se observa las líneas
que están en la parte superior son las más relevantes.

Q Volver al índice
46 Manual de prácticas de Bioinformática

Bajamos la página hasta ver la sección “Descriptions” donde se muestra el listado de las secuencias
encontradas. La columna “E-value” es la mejor medida de calidad del resultado, donde los números
más bajos significan más hits, siendo 0.0 el mejor valor posible. Así, podemos observar que las pri
meras que se han encontrado pertenecen todas a la proteína WUSCHEL de Arabidopsis thaliana. A
continuación aparecen proteínas WUSCHEL de otras especies.

Al final, en la sección “Alignments” se muestran los alineamientos HSP (pares de alta puntuación,
High Score Pairs). En este caso existe un 100% de identidad entre la secuencia problema y la secuencia
con número de identificador “NP_565429.1”.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 47

Si pinchamos en el enlace que aparece en el epígrafe “Sequence ID” (flecha roja) podremos ver
información sobre esa proteína, la secuencia, quién la secuenció, otras bases de datos que tengan infor
mación sobre esa proteína etc. Entre ellas merece la pena reseñar el identificador de este gen/proteína
en la base de datos especializada TAIR “The Arabidopsis Information Resource” www.arabidopsis.org
(se indica con una flecha roja, dentro del campo “CDS”). Del mismo modo, dentro del campo “FEA
TURES” se marca con un recuadro rojo la función biológica de dicha proteína.

Q Volver al índice
48 Manual de prácticas de Bioinformática

Por último, antes de terminar esta práctica, el alumno deberá analizar la secuencia proteica problema
que se muestra a continuación indicando, en la medida de lo posible y por comparación, la familia de
proteínas a la que pertenece y su posible función.

>proteina_problema
TAYQSELGGDSSPLRKSGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALIVFSSRGRLYEYSNNS
VKGTIERYKKAISDNSNTGSVAEINAQYYQQESAKLRQQIISIQNSNRQLMGETIGSMSPKELRNLEGRLERSITRIRS
QPNNHHYSSAGRQDQTALQLV
KKNELLFSEIDYMQKREVDLHNDNQILRAKIAENERNNPSISLMPGGSNYEQLMPPPQTQSQPFDSRNYFQVAAL-

Para ampliar sus conocimientos sobre las posibilidades de uso de la herramienta BLAST encontrará
una guía explicativa en el siguiente enlace:
ftp://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLASTGuide.pdf

Q Volver al índice
Práctica 4: Diseño de cebadores para PCR in silico

La reacción en cadena de la polimerasa (PCR) tiene muchas aplicaciones en biología, medicina y biotec
nología. Todas estas aplicaciones dependen del empleo de parejas de oligonucleótidos como cebadores
o primers. Por ello, uno de los parámetros más importantes para tener éxito en la amplificación por
PCR es el diseño correcto de la pareja de oligonucleótidos. Porque si éstos no están bien diseñados,
a buen seguro la PCR no funcionará de forma adecuada. A lo largo de la práctica analizaremos las
principales variables a tener en cuenta a la hora de diseñar oligonucleótidos, entre ellas:

• Temperatura de fusión.
• Tamaño del oligonucleótido.
• Especificidad.
• Complementariedad en la secuencia de los oligonucleótidos.

Esta práctica es una aproximación, más o menos detallada, al diseño de oligonucleótidos utilizando
programas bioinformáticos y pretende dar una orientación a aquellas personas que, por primera vez,
están entrando en contacto con esta amplísima disciplina que es la Bioinformática. De este modo, el
objetivo principal de esta práctica es:

• Adquirir habilidades y destrezas en el diseño de oligonucleótidos.

Temperatura de fusión
La temperaturas de fusión (Tm) es la temperatura a la cual la mitad de las dobles hebras de ADN están
desnaturalizadas. Es importante tener en cuenta que en una reacción de PCR hay dos oligonucleótidos
y ambos deberían diseñarse de manera que tengan Tm similares. Si los oligonucleótidos no tienen
Tm parecidas, la amplificación será menos eficiente o incluso puede no funcionar ya que el oligonu
cleótido con la Tm más alta podría anillar de forma inespecífica a temperaturas bajas mientras que el
oligonucleótido con la Tm más baja puede que no anille de forma eficiente a temperaturas más altas.
Las temperaturas de fusión de los oligonucleótidos se calculan de una manera muy exacta con
cálculos termodinámicos usando la siguiente fórmula:

Tm oligonucleótidos = ∆H [∆S+ R ln (c/4)] – 273.15°C + 16.6 log 10 [K+]

Donde H es la entalpía y S la entropía para la formación de la hélice, R es la constante molar y c


es la concentración del oligonucleótido. No obstante, cualquiera de los programas para el diseño de
oligonucleótidos del mercado realizan este cálculo de una manera rápida y sencilla. En cualquier caso,
una buena aproximación (generalmente válida para oligonucleótidos en el rango de 18 – 24 bases) a
la Tm se puede calcular con denominada fórmula de Wallace:

Tm oligonucleótidos = 2(A+T) + 4(G+C)

Q Volver al índice
50 Manual de prácticas de Bioinformática

En esta tabla se muestran valores de Tm de oligonucleótidos de varios tamaños usando la fórmula


de Wallace asumiendo un contenido en G/C del 50%.

Tamaño(bases) Tm=2(A+T) + 4(G+C) Tamaño(bases) Tm=2(A+T) + 4(G+C)

4 12ºC 22 66ºC
6 18ºC 24 72ºC
8 24ºC 26 78ºC
10 30ºC 28 84ºC
12 36ºC 30 90ºC
14 42ºC 32 96ºC
16 48ºC 34 102ºC
18 54ºC 36 108ºC
20 60ºC 38 114ºC

Por tanto, como se puede observar, la temperatura de fusión de un oligonucleótido depende princi
palmente de su longitud y del contenido en G+C. Así, la composición de bases de los oligonucleótidos
debería ser del 45% al 55% en G/C. Además, la secuencia del oligonucleótido debería elegirse de ma
nera que no contenga zonas de poli G o poli C que pueden conducir a hibridación no específica. Del
mismo modo, hay que evitar también las zonas ricas en poli A y poli Tya que estas regiones pueden
provocar una prematura separación de las hebras durante el proceso de anillamiento, lo que conduciría
a la rotura del complejo molde / oligonucleótido, reduciendo la eficiencia de amplificación.

Tamaño del oligonucleótido


La longitud de la secuencia de un oligonucleótido influye en la especificidad, en la temperatura de
fusión y en el tiempo necesario para la hibridación del oligonucleótido a su secuencia complementaria,
por tanto es decisivo para que salga bien la PCR.
El tamaño del oligonucleótido es proporcional a la eficiencia de hibridación: en general, cuanto
más largo sea el oligonucleótido más ineficiente será la hibridación. Si hay pocos moldes con su oligo
nucleótido hibridado (o anillado) en cada paso de la PCR se generarán pocos producto amplificado.
De este modo, los oligonucleótidos suelen tener un longitud de 18 a 24 bases. Este tamaño hace que
los oligonucleótidos sean muy específicos de secuencia, siempre que la temperatura de hibridación
sea óptima.

Especificidad
La especificidad del oligonucleótido depende parcialmente del tamaño del oligonucleótido. Es evidente
que un oligonucleótido de 24 bases es más específico que uno de 10 bases. Con todo, debemos elegir
oligonucleótidos que tengan una secuencia única en el molde de DNA que queremos amplificar. Por
ejemplo: una pareja de oligonucleótidos diseñados con una secuencia altamente repetitiva dará lugar
a multitud de productos de PCR de diferentes tamaños cuando se utilice como ADN molde el ADN
genómico de una especie. Sin embargo, estos mismos oligonucleótidos pueden dar lugar a una sola
banda si amplificamos un clon de una genoteca de ADN.
Dado que la Taq Polimerasa que se usa en la PCR es activa en un amplio rango de temperaturas,
simplemente con que exista una pequeña homología en el extremo 3’ del oligonucleótido, puede ocurrir

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 51

una hibridación no específica del mismo y que tenga lugar una extensión del oligonucleótido a tempe
raturas bajas de hibridación. En general, una temperatura de fusión de 55°C - 72°C es la más adecuada
(fíjate que corresponde a un tamaño de oligonucleótido de 18 - 24 bases según la fórmula de Wallace).

Complementariedad en la secuencia de los oligonucleótidos


Es muy importante que los oligonucleótidos no tengan homología intra-oligonucleótido en más de 3
pares de bases. Si un oligonucleótido tiene una región de auto-homología, se pueden formar estructuras
parcialmente de doble cadena que interferirán con la hibridación del molde. Este tipo de homología
intra-oligonucleótido puede dar lugar a que se formen estructuras secundarias. De este modo, puede
que se produzca tanto la unión entre dos cadenas de un mismo oligonucleótido (self-dimer), como a
la formación de una horquilla dentro de la misma cadena del oligonucleótido (hairping).
Otro peligro es la homología entre los dos oligonucleótidos. Homología parcial en las regiones
medias de dos oligonucleótidos puede interferir con la hibridación. Si la homología ocurriese en el
extremo 3’ de cada oligonucleótido, se dará la formación de dímeros de oligonucleótido (primer-dimer),
lo cual impedirá que la PCR funcione de forma adecuada.

Diseño de oligonucleótidos in silico


Como hemos visto, para tener éxito en la PCR, es necesario optimizar la Tm, el tamaño del oligonu
cleótido, el contenido (%) en GC y la complementariedad de la secuencia del oligonucleótido. De este
modo, la composición ideal del oligonucleótido deberá tener una mezcla casi al alzar de nucleótidos,
un contenido en GC cercano al 50%, un tamaño aproximado de 20 bases (la Tm estaría en el rango de
56°C - 62°C) y debe evitarse que los oligonucleótidos formen estructuras secundarias.
Alguno de estos parámetros pueden optimizarse fácilmente a mano pero otros es mejor hacerlo con
herramientas informáticas. Este tipo de herramientas permiten especificar un gran número de variables
y obtener oligonucleótidos según las indicaciones solicitadas. Además, permite discriminar las regiones
de la secuencia que se deben incluir, las que se deben excluir y el rango de tamaños del producto. Por
otra parte, estas herramientas incluyen la posibilidad de especificar las características mínimas de los
oligonucleótidos deseados, como Tm, porcentaje de GC, máxima auto-complementariedad, así como
otros parámetros.

Q Volver al índice
52 Manual de prácticas de Bioinformática

Existen una gran variedad de programa, muchos de ellos son gratuitos y de fácil acceso a través de
un interfaz web. Alguna de estas herramientas son:

Oligo http://www.oligo.net/

Primer designing tool – NCBI http://www.ncbi.nlm.nih.gov/tools/primer-blast/

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 53

Netprimer http://www.premierbiosoft.com/netprimer/index.html

Primer3 http://bioinfo.ut.ee/primer3-0.4.0/

Primer3
Durante el desarrollo de esta práctica, utilizaremos la herramienta Primer3 para diseñar oligonucleóti
dos in silico. Primer3 es una aplicación que se encuentra para su libre uso en diferentes servidores web
alrededor del mundo. En esta oportunidad utilizaremos la implementación de éste programa ofrecida
por University of Tartu & Estonian Biocentre.

Acceda al sitio web de Primer3: http://bioinfo.ut.ee/primer3-0.4.0/

Al mover la ventana del navegador hacia abajo se aprecia que Primer3 cuenta con diversas secciones
que le permiten controlar una amplia variedad de parámetros relacionados con el diseño de oligonu
cleótidos. No hay que sentirse intimidado por la cantidad de parámetros modificables por Primer3
(más de 80), puesto la mayoría de esos parámetros rara vez son modificados.

Q Volver al índice
54 Manual de prácticas de Bioinformática

Por ser este nuestro primer acercamiento al diseño de oligonucleótidos mediante esta herramienta
utilizaremos un set de condiciones mínimo y la siguiente secuencia de ejemplo:

>Secuencia_1
ATTTTCTGCAAGCTCTCCTGTTCAAACCTATACAAAATAGGAACAAATTTGAAGAGAAAAAAATAAAAAAAA-
ATCTCTAAGTTTTTTTTTTCTTCTTTTCGATACAAGACGATATGGTTTTTCCTATTAATCAGGAATTACTTGTCGATG
AGTCGTCTTCTCAGTTGAGAAAAACAAGTGGAGGAACTGGTGGAGGAGGTAGAGGGAAGATTGAAATTAAAA-
GGATCGAAAATACGACAAATCGACAAGTTACGTTCTGCAAGCGTAGAAATGGGCTATTGAAAAAAGCTTATGA-
ACTTTCTGTTCTTTGTGATGCTGAAGTTTCACTAATTGTATTTTCCAGCCGCGGCCGTCTCTATGAATATGCCAA-
TAACAGTGTTAGGGCAACTATTGATAGGTACAAGAAACACCATGCTGATTCCACTAGTACTGGATCTGTTTCTGA-
AGCTAACACTCAGTACTACCAGCAAGAAGCATCCAAACTGCGACGACAAATTCGAGATATACAGACTTATAACA-
GGCAAATAGTTGGAGAGGCATTGGGCAGTTTAAGCCCTAGAGACCTCAAGAATTTGGAAGGGAAACTTGAAA-
AGGCCATTGGTAGAGTCCGTTCCAAAAAGAATGAATTGCTTTTCTCAGAAATAGAGCTCATGCAAAAGAGGGA-
GATTGAGCTGCAGAACGCCAACATGTATCTACGCATAGCAGAGGTAGAGAGAGCACAAGAGCAAATGAACTT
GATGCCTGGAGGCGGAGGCGGAGGCGGAGGCGGAGGAGGAGGAGGATCTGATCATCAATACCATCATCAGC
GACAATGGTGACCAAACTCCTCTCCAGCTTGTCTGATAATCATGGAGCAGGTATTCTGAAATTTGGGGTCAA-
CAAATTACGAAGATGCTCGCAATAACTTCCTGCCTGTAAATCTCCTGGAACCAAATCCTCATTACTCTCGTCGC-

GGCTCTTCATCTTCAGAAAAATGTGTACTACAATTTTTAACCTATAGTGTTGTAAATCATAATCATAATTATTGC-
CACTGAGATTTAAACTGTTTATTTTTAAGCAATATTATTCAGTCATCTGTTAATTAAGGAATGAAAAATCTTGTTT-
GTTATATTATGACTACTTCTATATACTTTTACAGCCTTATATAAATAATATGCTATTGAACTATACATACAACATTCTCT

Pegue esta secuencia en el campo de texto en la parte superior de la página de Primer3, como se
muestra a continuación (ver en página siguiente).
En la página de resultados, en primer lugar se encuentra la pareja de oligonucleótidos más eficiente
(recuadro rojo). Posteriormente encontramos la secuencia introducida y la posición de ambos oligo
nucleótidos en dicha secuencia (flechas).

Por defecto Primer3 tiene habilitadas las opciones de encontrar tanto un oligonucleótido corriente
arriba (“Pick left primer or use left primer below”) como corriente abajo de nuestra secuencia (“Pick
right primer, or use right primer below”). Deshabilitando cualquiera de ellas evitaremos que el programa
busque ese oligonucleótido en cuestión.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 55

Q Volver al índice
56 Manual de prácticas de Bioinformática

En este caso dejaremos estas opciones tal y como se encuentran, presionaremos el botón “Pick
Primers” y esperaremos unos segundos hasta que se genere la página de resultados de Primer3, cuyo
título es “Primer3 Output”:
Además, en la parte inferior de los resultados, Primer3 muestra por defecto 4 parejas de oligonu
cleótidos adicionales (en la sección “Additional Oligos”).

La mayoría de datos arrojados en la página de resultados son bastante explícitos, la posición (start),
el tamaño (len), la temperatura de fusión (tm) y el porcentaje de GC (gc%) están presentes para cada
pareja de oligonucleótidos. Si bien, los más confusos sean las columnas denotadas como “any” y “3’”. La
columna “any” refleja la tendencia del oligonucleótido a hibridar consigo mismo, mientras que la columna
“3’” muestra la tendencia de los oligonucleótidos izquierdo y derecho a formar dímeros.
Por otra parte, también se puede introducir en el programa de búsqueda la secuencia de uno de
estos oligonucleótidos en la casilla de texto justo debajo de las opciones “Pick left primer or use left
primer below” o “Pick right primer, or use right primer below”. De este modo, Primer3 diseñará la pareja
del oligonucleótido en cuestión para que la amplificación por PCR tenga éxito. Regrese a la página
inicial de Primer3 e introduzca la secuencia TGGGCAGTTTAAGCCCTAGA en el cuadro de texto
justo debajo de la opción “Pick left primer or use left primer below”, como se muestra a continuación.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 57

Además, entre los parámetros que Primer3 permiten controlar, es posible establecer el rango de
tamaño para el producto que se quiere amplificar por PCR. Así, podemos definir que los oligonucleó
tidos diseñados generen un fragmento de 300 a 500 bases introduciendo estos valores en la sección
“Product Size Ranges” (flecha) separados por un guion, como se muestra en la figura.

La nueva página de resultados genera un oligonucleótido que, junto con el que nosotros hemos
introducido, amplificará un producto de 346 bases (recuadro rojo).

Por otro lado, Primer3 permite delimitar una región de interés, la cual queremos amplificar, me
diante el uso de corchetes. De este modo, Primer3 diseñará los oligonucleótidos aguas arriba y abajo de
la secuencia nucleotídica delimitada por corchetes. En este caso, en la página de resultados la secuencia
delimitada por corchetes aparecerá marcada con asteriscos (*).

Q Volver al índice
58 Manual de prácticas de Bioinformática

La manera de operar con Primer3 es básicamente la misma para cualquiera de las otras opciones
disponibles. Como podrá notar el programa resulta bastante sencillo de utilizar, varíe las diferentes
opciones disponibles en Primer3 y familiarícese con algunas de ellas, y aplique las diferentes “reglas” o
consejos generales que se encuentran al comienzo de esta práctica para el diseño de oligonucleótidos.
Además de utilizar una herramienta bioinformática para el diseño de los oligonucleótidos, es muy
recomendable realizar un análisis BLAST, con los oligonucleótidos recién diseñados, de tal manera que
se asegure que dichos oligonucleótidos no sean complementarios a ninguna de las “posibles secuencias”
involucradas en su reacción de PCR.
No es posible asegurar con un 100% de certeza que un primer diseñado mediante una herramienta
bioinformática va a ser completamente efectivo. No obstante, este tipo de herramientas se hacen indis
pensables para aproximarse a la solución más óptima de una manera rápida y sencilla.
Finalmente, poniendo en práctica los conocimientos adquiridos a lo largo de esta asignatura, el
alumno deberá realizar las siguientes tareas:

• Buscar la secuencia nucleotídica del mensajero de tomate (identificador


“AK327735.1”) que codifica una proteína con un dominio de tipo Zinc-finger.
• Diseñar una pareja de oligonucleótidos que permita amplificar la región que
codifica dicho dominio.

Q Volver al índice
Práctica 5: Alineamiento de secuencias e identificación de
motivos

El objetivo de los algoritmos de alineamiento de secuencias es acomodar dos a más secuencias de tal
manera que se alcance el máximo de coincidencias entre los elementos de las mismas. Los alineamien
tos se pueden clasificar en: globales (cuando se pretende alinear las secuencias enteras, empleando
tantos caracteres o símbolos de los extremos de las secuencias como sea posible) y locales (cuando se
buscan porciones de las secuencias que presentan mayor cantidad de concordancias). Los algoritmos
de alineamiento de secuencias, emplean ciertas métricas para determinar la calidad del alineamiento,
una es el porcentaje de similitud de secuencia, que no es más que la fracción de elementos iguales
alineados, entre la cantidad de elementos de la secuencia más corta. Otra de las métricas empleadas
para representar la calidad del alineamiento es la puntuación (score), determinada por una función de
puntuación del algoritmo, para definir la bondad del alineamiento obtenido (generalmente se devuelve
un valor entre 0 y 100%), que mientras más elevado sea, mejor es el alineamiento.
El alineamiento múltiple de secuencias es una de las técnicas bioinformáticas más usadas, ya que
por medio de ella podemos realizar diversos análisis como por ejemplo:

• Encontrar homologías.
• Diseñar oligonucleótidos para PCR.
• Descubrir familias de proteínas (identificación de motivos y/o dominios conservados).
• Estudios evolutivos (Filogenias).

Al comparar simultáneamente varias proteínas relacionadas es común observar que aún en gru
pos donde la similitud entre ellas es baja, hay algunas partes de la secuencia que son similares. Estas
similitudes pueden abarcan pocos aminoácidos bastante conservados (motivos) o extenderse en una
región más grande, posiblemente con menor similitud (dominios). Los motivos no ocurren solamente
en proteínas, también podemos encontrar motivos en secuencias regulatorias de ADN. Determinar los
dominios y motivos presentes en una proteína nos puede ayudar a postular su función y/o estructura.
En el caso de promotores de genes nos sirve para saber qué factores pueden regular la trascripción.
Por esa razón, al realizar anotaciones o analizar secuencias es importante poder reconocer motivos y
dominios.
Durante el transcurso de esta práctica analizaremos diferentes algoritmos de alineamiento, tanto
de dos como de múltiples secuencias. Conjuntamente, utilizaremos los algoritmos de alineamiento
múltiple en la búsqueda e identificación de motivos conservados en secuencias biológicas. Así, los
objetivos principales de esta práctica son:

• Aprender el manejo básico de herramientas de alineamiento de secuencias.


• Comprender e interpretar la información que ofrecen estos alineamientos.
• Desarrollar habilidades y destrezas en la búsqueda e identificación de motivos conservados.

Q Volver al índice
60 Manual de prácticas de Bioinformática

Alineamiento óptimo de dos secuencias


El alineamiento de pares de secuencias es el proceso de alineamiento de dos secuencias y es una de las
actividades fundamentales en el análisis bioinformático. En términos simples el alineamiento de dos
secuencias es el proceso en el cual los diferentes residuos (nucleótidos o aminoácidos) de cada secuen
cia son comparados mediante la búsqueda de patrones de caracteres comunes y el establecimiento de
correspondencias residuo-residuo entre las secuencias problema.
Los alineamientos de pares sirven, entre otras cosas para:

• Asegurarse de que dos secuencias son similares y cuantificar su similitud.


• Encontrar dominios funcionales.
• Comparar un gen y su producto.
• Buscar posiciones homólogas entre secuencias.

En nuestro caso, utilizaremos el alineamiento de pares para buscar homologías entre la secuencia
codificante del gen Solyc03g118740.2.1 de la especie Solanum lycopersicum y su correspondiente re
gión genómica, para poder determinar así la estructura génica del gen; es decir, las regiones exónicas
e intrónicas. Para ello, utilizaremos la herramienta de alineamiento Needle a la cual podemos acceder
a través de la web de EMBOSS.

Acceda al sitio web de EMBOSS ubicado en la siguiente dirección:


http://www.ebi.ac.uk/emboss/align/index.html

La herramienta Needle se utiliza para crear una alineación global óptima de dos secuencias (nu
cleotídicas o proteicas) utilizando el algoritmo de Needleman-Wunsch.

Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos
de entrada. En este caso introduciremos en el primer campo la secuencia codificante del gen So
lyc03g118740.2.1.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 61

>Solyc03g118740.2.1
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTA
ACCCCATTTCATCCTTTACTTGTAAAACCTGTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGA
TATTCCTTCTTTCTGCAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCA-

TAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGCCACTTTATGTAGCTATGATACTAGCTTATGGCTCT
GTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACAGATTTGTTGCACTTTTTGCAGTTC-
CACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCTGCAGATACTCTG
CAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA-
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGT
GTTTGAGTTTAGAGGTGCAAGACTGCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATT-
GATTTCTCTGGGAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTAT-

CATGTTGATTCTGATGTCATGTCATTAGATGGTAGACAAGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGAT
GGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATATATTTTCAAGAAGGTCAGGTG-
GATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCATCAAGAAATC-
CAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCA-
AACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAA-
GAAGAAAGTGGAAAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACT-
CATTATCCAGCACCAAATCCAGGCATGTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGC-
TAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATATGTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCT-
GATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACCTAATAAGGATGTGAGAGTACC-
TATCTCCCCTGGAAAAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGAGAGATGATTTCA-
GCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA-
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACC-
CAAACACTTATTCGAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTGGAATTTGAAGATGCCTGC-
TATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTTGGCATGGCAATGTTCAGTCTTGGTCTGTTCAT
GGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCTGTGAGATTCCTTACA-
GGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTACA-
GGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTTCATCCTGACATTCTTAGCA-
GGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCT
CAGCTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGGGACTTTGAAGA-

CACAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTT-
GTGCTTAATTAGCTGAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG

Y en el segundo campo introduciremos la región genómica donde se ubica dicho gen.

Q Volver al índice
62 Manual de prácticas de Bioinformática

>SL2.50ch03:67567401-67572000
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTATATTCCTTCTTTCTG
CAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCAACCCCATTTCATCCTTTACTTGTAAAACCT-
GTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGATAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGC-
GATTTGTTGCACTTTTTGCAGTTCCACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCT
CACTTTATGTAGCTATGATACTAGCTTATGGCTCTGTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACA-

GCAGATACTCTGCAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGTGATTTCTCTGG
GAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTATGTTTGAGTTTAGAGGTGCAAGACT-
GCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATTCATGTTGATTCTGATGTCATGTCATTAGATGGTAGACA-
AGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGATGGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATA-
TATTTTCAAGAAGGTCAGGTGGATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCAT-
CAAGAAATCCAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCAA
ACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAAGAAGAAAGTGGA
AAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACTCATTATCCAGCACCAAATCCAGGCAT-
GTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGCTAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATAT-
GTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCTGATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACC-
TAATAAGGATGTGAGAGTACCTATCTCCCCTGGAAAAGGTAATTAACTCTGTTCACTAAAAGGCTATATTAGTTTCGATTTGAACCT-
GAAGTCTCACGGTTAATAAAAAAAGTTTTTTATGCTTAATTAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGA
GAGATGATTTCAGCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACCCAAACACTTATTC
GAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTAAATTTTACCAATTTCTATTCATTTTCTTTTTTAATTGTTGTTATATAT
TCTGATTATTTAAAAAAATGTAGGTGGAATTTGAAGATGCCTGCTATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTT
GGCATGGCAATGTTCAGTCTTGGTGAGTACTTTTTTTTTCATTATTTGATCACAAGGAGGTCATTACTATTATTAAATTACTTGTTTA-
GAAGGGGGGAGCGTGCAAAAAAGCACAACAATATGCTCATCATAACATCTTTCTCTACATCTCTTCTTTAATTAATTAAAATTAA
TAACCCCATCTCAATGCTTCTCATTTGCTCTCAAATGGATACAATCATGATAACTACTACTAGTAGTAACACCCCACTAGTGGATGT
GATGATGCCATGCACTTGTTTTTTTTTAATTTTATTTTAATAGTGTCGTATATTCGAGTTTCTTTGTATGCATTTATCGAGTAATTCT
GTCAATCAAGATGTAAAGTTCGACGAATTTCATGAATATTTGTTACGTCCCACCAATATAAATATCGAATAGTTCTGTCAATCAAA
AGTTATTAGTATTTTGTATGCATTTCCATGGATTTTTAATATATATATATGTATCGAATAACTTTGTCACTCCAATTTTGAACGAATA
GAAAGAAATGGTTATTGCTTTCTTCTATAATTAGAAGTAAAATGTGATGGTCCCCTTAGTGCATGATGCCATGCACTTAAAAGAGA
AGGGGCTAGCTACTTTTTCCAAATGTGATATTTGATAGTTGGAAGTAGAAAAAAATATATATTTGCATGTTAGAAAAATGAAAC-
GATTTTTATGTATGACAGGTCTGTTCATGGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCT-
GTGAGATTCCTTACAGGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTA
CAGGTCATCATCAAATCTTAAAATTCTTTCTTTTATCATAAAACATTATGTTAATTATTTTATTTCAATCTCTACACTATGACCTACTAC
TATATTATAAATTAATTAACCAAAAAAAAAGCTGTTTCGAGCCCATACAGTTTCAAAACTCATTAATTTATATTGAGTGTGTTTTTAA
TATAATAAACGATAATTATTTCTAAGGTTTATTAGAAACACTTTTTCTATTTCATAGGTATGAAATTATGTATACTGAATATATTATT
CATCCTGACATTCTTAGCACAGCGTAAGTATAAATTAATTTAACATTTTTTTATAGTGTTTAATTTTTTTTAATTAGTTTTGTGATTGA
GTTGTTCAATCGATATGTACTAAAAACAGGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTT-

TAATTTTTTTTTTTATTTGTGTTTATTACAGTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGG
GACTTTGAAGAGGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCTCA
CAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTTGTGCTTAATTAGCT-
GAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG

A continuación, utilizando los parámetros por defecto (comprueba solamente que el tipo de se
cuencia se corresponda con el que has proporcionado), ejecutamos el alineamiento haciendo clic en
“Submit”.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 63

Al principio de la página de resultados, la herramienta Needle nos muestra un resumen del análisis
realizado, donde se muestran los diferentes parámetros utilizados para ejecutar dicho análisis.

Q Volver al índice
64 Manual de prácticas de Bioinformática

En la parte inferior, encontramos los resultados del alineamiento. Analizando estos resultados po
demos determinar la estructura génica del gen Solyc03g118740.2.1. Las regiones exónicas se muestran
subrayadas en rojo, mientras que las regiones intrónicas se representan en azul (6 exones y 5 intrones).

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 65

Q Volver al índice
66 Manual de prácticas de Bioinformática

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 67

Una vez realizado el alineamiento con Needle, utilizaremos la herramienta Align para hacer un
análisis BLAST (bl2seq) con estas dos mismas secuencias nucleotídicas. Podemos acceder a dicha he
rramienta a través de la página principal de BLAST en el NCBI (http://blast.ncbi.nlm.nih.gov/Blast.
cgi), haciendo clic en “Align“ dentro de la sección “Specialized BLAST”.

Q Volver al índice
68 Manual de prácticas de Bioinformática

Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos de
entrada. A continuación, utilizando los parámetro por defecto, ejecutamos el alineamiento pinchando
sobre el botón “BLAST”.

Como tarea a realizar, el alumno deberá analizar la página de resultados y contestar a las siguientes
preguntas:

• ¿Observas diferencias entre los alineamientos realizados con Needle y Align?


• ¿Cuántos alineamientos aparecen en la página de resultados de la herramienta
Align?
• A tenor de los resultados obtenidos con la herramienta Align ¿Has realizado un
alineamiento local o global?

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 69

Alineamientos múltiples de secuencias


Un alineamiento múltiple de secuencias es aquel que se lleva a cabo con más de dos secuencias. Estas
secuencias, como en el caso de los alineamientos por parejas pueden ser ADN, ARN o proteína. El
alineamiento múltiple es una de las técnicas bioinformáticas más usadas, ya que por medio de ellas po
demos realizar diversos análisis, desde filogenias hasta búsqueda de motivos y/o dominios funcionales.
En todos los casos los algoritmos de alineamiento múltiple asumen que las secuencias que estamos
alineando descienden de un antepasado común y lo que intentamos hacer es alinear las posiciones
homólogas. Los algoritmos más utilizados son los derivados del programa Clustal, especialmente
ClustalW, cuya versión actual es el denominado ClustalW2. Sin embargo, ClustalW utiliza un método
de alineación progresiva, con un algoritmo bastante rápido que, por tanto, permiten alinear miles de
secuencias en tiempos cortos. No obstante, la principal debilidad de los algoritmos de construcción
progresiva es que los errores introducidos en cualquiera de las etapas de alineamiento no son corre
gidos en etapas posteriores sino que son propagados hasta el resultado final.
Actualmente, se suelen utilizar métodos de alineación iterativa. Estos algoritmos iterativos reducen
los errores inherentes en los métodos progresivos, ya que trabajan de forma similar a los métodos
progresivos, pero realinean repetidamente las secuencias iniciales además de añadir al análisis nuevas
secuencias progresivamente.
En el servidor web del EBI tienen disponibles una serie de programas de alineamiento múltiple
que emplean métodos de iteración sutilmente diferentes, como por ejemplo: Clustal Omega, Kalign,
MAFFT, MUSCLE y prank. En esta práctica utilizaremos el programa MUSCLE para realizar un
alineamiento múltiple de las secuencias proteicas que se muestran a continuación.

>Solyc01g010240.2.1
MSSSSPNSSCLNLLESADHKINTMDPSEHLCYVRCSFCNTILAVGIPCKKLLDTVTVKCGHCGNLSFLSSRPPI
QPQFFDHQPILQHQDFFNNFKKGQSSSSSEPSSPKAPFVVKPPEKKHRLPSAYNRFMKDEIQRIKAAHPQIPHREA
FSAAAKNVHSKYSKWDLG
>Solyc05g005240.1.1
MSTLNNHLFELQDTICYVQCGYCTTILLVSVPCSSLCNKVVTVRCGHCTTLLSLNLIKPSLHLFASFDQTHQPPEVDK-
DETDDANKKNSNSDEEDQLENNVLPLNQVVNKPPEKRQRAPSAYNCFIKEEIKRLKTLYPNMTHKQAFSTAAKN
WAHFPPSQHRGGCSLGERKMAKVSAARNSMVPRDSNGLIP
>Solyc06g073920.2.1
MSLDMTYSSSSSERVCYVHCNFCSTILAVSVPCNSMMTIVTVRCGHCANLLSVNIAPSLQSLPIQDLQRQNESSIED
GMSRGYGSSSSSTNSFHRFSPIPTDHDQPRSPPIRVPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN
WAHFPHIHFGLKLDGNKQTNKLDHAVAGEGPQKTIGLY
>Solyc08g079100.2.1
MSSSNSLSLDHLPPPPPSEQLCYVHCNVCDTVLAVSVPCTSLFKTVTVRCGHCTNLLPGWLLPSTN-
HHHHHFGHTYFSPSHNLLDEISNATPNFLMNQSNSAHEFVQLPARPGFDDLPRPPPVVNRPPEKRQRVPSAYNR

FIKEEIQRIKAGNPDISHREAFSAAAKNWAHFPHIQFGLMPDQTVKRTNVRQQDGEDVLTKDGLFNTSANVSVSPY
>Solyc11g071810.1.1
MSFDMTFSSSPSSERVCYLQCNFCNTILAVSVPCSNMLTLVTVRCGHCANMLSVNIGSLIQALPLQDVQKLQRQQYT
NVENNSSNYKAYGSSSSSSSKFNRYSSIVSPQIEPKIPSIRPPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN
WAHFPHIHFGLKLEGNK
>Solyc12g009580.1.1
MSSSYIDSTNFEKLCYIPCNFCNIVLVVSVPCSNLLDIVTVRCGHCTNLWSVNMAAAFHTNSWQNHLHHQVGN-
YTNSPHDQYKVDFASSSITNNSTLEERNVNRPPEKRQRGPSAYNQFIKEEIQRIKANNPDITHREAFSTAAKNWAHF
PHIQFGLMLETDNQAKLGASENKEKLIMHRAALPKIKTFTF

Q Volver al índice
70 Manual de prácticas de Bioinformática

Acceda al sitio web del EBI:


http://www.ebi.ac.uk/Tools/msa/

Para hacer el alineamiento múltiple introduciremos las secuencias problema en el campo de en


trada “STEP 1 - Enter your input sequences”. Posteriormente, utilizando los parámetros por defecto,
ejecutamos el alineamiento haciendo clic en “Submit”.

El tiempo que el programa tarda en obtener los resultados depende de la carga de trabajo del ser
vidor en ese momento, así que el tiempo de espera debe ser directamente proporcional al número de

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 71

personas que estén haciendo uso del programa. Después de unos segundos (o minutos) aparecerá la
página de resultados.

Guarde en un archivo el alineamiento generado en el cuadro de resultados. Para ello pulsaremos


“Download Alignment File”. Este archivo será el que utilicemos en BioEdit, una herramienta muy in
teresante para visualizar y editar nuestros alineamientos múltiples.
Bioedit es un programa gratuito para edición de alineamientos y análisis de secuencias que fun
ciona únicamente en un entorno MS/Windows. Este programa cuenta con varias herramientas que
van desde la creación de alineamientos hasta la anotación de plásmidos. En este caso, utilizaremos esta
herramienta para editar el alineamiento múltiple recién creado.

Q Volver al índice
72 Manual de prácticas de Bioinformática

Acceda al sitio web:


http://www.mbio.ncsu.edu/BioEdit/bioedit.html

La descarga del programa se realiza pulsando “BioEdit.zip (Full install)”. Una vez descargado, debe
mos descomprimir el archivo “BioEdit.zip” y, posteriormente, instalar el programa ejecutando “setup.
exe”.
Una vez descargado e instalado en nuestro ordenador, abriremos con BioEdit el archivo generado
con MUSCLE. Este programa, tiene un entorno de trabajo similar al de todas las aplicaciones de MS/
Windows, por tanto para abrir un archivo debe dirigirse al menú archivo (“File”) y escoger la opción
abrir (“Open”). Seleccionaremos nuestro archivo con la extensión “*.clw” e inmediatamente aparecerá
una ventana similar a la siguiente.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 73

Esta es la ventana principal de BioEdit. El alineamiento de nuestras secuencias se muestra en la


parte central derecha de la pantalla y las secuencias correspondientes a la izquierda. Por defecto cada
aminoácido es resaltado en un color diferente, este esquema de colores puede ser cambiado en cualquier
momento mediante la utilización de las diferentes opciones de la barra de herramientas.

Con el fin de visualizar mejor nuestro alineamiento, cambiaremos el esquema de colores presionan
do los botones “Shade Identities and Similarities in alignment window” y “Monochrome”. El resultado
obtenido debe ser similar al de la imagen siguiente.

En la última línea del alineamiento, denominada “Clustal Consensus”, podemos observar 3 tipos
de caracteres o la ausencia de ellos, que significan:

• Asterisco (*), indica que en dicha posición los residuos son 100% idénticos.
• Dos puntos (:), indica posiciones en las que se han realizado sustituciones conservativas.
• Punto (.), indica sustituciones menos conservativas.
• Ausencia de caracteres, indica que no existe un consenso en dicha posición.

Cuando hacemos un alineamiento múltiple lo que queremos evaluar es el nivel y lugar de conser
vación de nuestras secuencias. Por tanto, analizar la secuencia consenso es una manera apropiada de
conocer las características de nuestro alineamiento.
Generalmente (no siempre), las regiones N y C terminal son poco conservadas, por esta razón
encontramos en los dos alineamientos más gaps (huecos) y ausencia de similitudes en dichas regiones.
Por ahora, no tenemos métodos estadísticos para evaluar la validez de un alineamiento múltiple,
como ocurre por ejemplo con el valor E-value en BLAST. Si trabajamos con secuencias de ADN es fácil
hacerse una idea de lo bueno que es el alineamiento puesto que únicamente se valora positivamente
la identidad de los residuos en cada posición. Con las secuencias de proteínas el asunto es más com
plejo porque se valoran positivamente también los parecidos entre aminoácidos que no son idénticos,
pero que son químicamente similares y esto conduce a que los alineamientos de las secuencias al azar
puedan confundirse con alineamientos realmente significativos.

Q Volver al índice
74 Manual de prácticas de Bioinformática

Si tiene interés en conocer en profundidad BioEdit y todas sus aplicaciones puede consultar el
manual en el siguiente enlace:
http://www.mbio.ncsu.edu/BioEdit/BioDoc.pdf

En este punto de la práctica, utilizando los conocimientos adquiridos, el alumno tendrá que realizar
las siguientes tareas:

A partir de las secuencias proteicas de Arabidopsis thaliana con identificador:


NP_564194.1; NP_177078.1; NP_850080.1; NP_566037.1; NP_567154.1;
NP_001078337.1
• Identificar en qué cromosoma se localiza el gen que codifica cada una de estas
proteínas.
• Generar un fichero de texto con las secuencias en formato FASTA de las seis
proteínas problema.
• Realizar un alineamiento múltiple de las proteínas problema en MUSCLE y edi
tar el alineamiento en BioEdit, mostrando en sombreado los aminoácidos con
servados.

Identificación de motivos conservados en un conjunto de secuencias


Los alineamientos múltiples son utilizados para obtener diversos tipos de información. Un uso muy
común de estos es la búsqueda de motivos conservados en un conjunto de secuencias. Un motivo es
un patrón de DNA o proteínas, al que se le podría asociar una función, es decir que tiene una signi
ficancia biológica.
Durante esta práctica utilizaremos el programa MEME (Multiple Em for MotifElicitation) para
realizar la identificación de motivos conservados en un conjunto de secuencias proteicas.
La herramienta MEME contempla como opción enviar los resultados del análisis que realicemos a
nuestro correo electrónico, por ello podemos dar nuestra dirección de correo y confirmarla (recuerda
es opcional).
En cada una de las secciones de esta herramienta aparece un símbolo de ayuda . Si pinchamos
este símbolo aparece un cuadro explicativo de las diferentes opciones que podemos seleccionar para
hacer el análisis.

Acceda al sitio web de la herramienta MEME ubicado en la siguiente dirección:


http://meme-suite.org/tools/meme

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 75

Durante esta práctica realizaremos la identificación de motivos en un conjunto de secuencias, por


ello en la sección “Select the motif discovery mode”, escogeremos la opción “Normal mode”, como se
indica en la figura.

Q Volver al índice
76 Manual de prácticas de Bioinformática

En el cuadro explicativo encontramos información sobre la opción “Discriminative mode”, la cual


será utilizada en aquellos casos en los que queramos comparar dos conjuntos de secuencias. En este
caso, MEME localiza los motivos en el primer conjunto de secuencias y, posteriormente, identifica
estos motivos en el segundo de ellos.
El conjunto de secuencias problema que vamos a analizar se muestra a continuación:

>Solyc01 g110470.2
MDDGGORENRRHRMDYSKGCYAPWNVVPPYOMKDOEAFMNTKRMVFAERDAAVEERNRAVEKKEAYAER
DFAOORDTAFAERDTAKERDNAAALHFLESTTNGSLGCRTRGTKRPEOPKNHRNYNTDSVCNRDVPVADAF
PSASSEAAKALOVKRSKVNKGMSTKSAKSPRKTKKVNEDLNRHLSKDGSKAEWDAHDLGSDOOFDESTMP
PVCTCTGPROCYKW/GSGGWOSS.CC.TTYLSEYPLPOLPNKRHARLGGRKMSGSVFSRLLTRFAVADRDLSMPD
LKTYWAKHGTNRYTK

>Solyc02g084230.1
AMAERDAA RERN MALEER.KRAFAERDMAMLORDA ALAERNALOERNDAAALRLODSSTNDN N—
MVPDSPGNGTESGAKHYNOOOMYRTTADAAHGSTEDPAAGYLKDTDTSEAKPKKVKRPKESRHNKOAK
PRVGKSTDSLS MOVATTSDDWVN LOEMDSDKEGDTOLTSWKDNLGLKNFDDSAMP\/PVCSCTGTPOP
CYKW/GHGGWOSACC.TTTSMYPLPOSNKRYSRVGGRKMSGGAFSKLLNRLAAOGYDLSPLDLKDHWAKHGTN
RYSTLK

>Solyc04g008380.2
MRNWGYYEPSLKGHLGLOLMSSMVDRDAKPYLTRRENPMLGANG\/FHSRDSPEAPLSH|DY\/RDSWIN.HR
DKFLHMFPGSPYTSVLPDASASTPMOMVOOPDT TKDVGVNVEEPSVKKESGPSKRKTGGATPKAPKAKKSKKVSSAP
KENGNPSORAKPAKKSMDVLNG|DMDSVPPVCSCTGSPOOCYRWGCGGWOSACC.TTSSMYPLPMSTKRRGA
RIAGRKMSOGAFKKVLEKLAAEGYNFANPDLRTHWAKHGTNKFVTRLCDLCEGHDSHKYO

>Solyc04g081170.2
MDDSGNRDNGRHKPPOGOWLMOHOPSMKOMAMAERDAAOERNLALSEKKAALAERDMALORDSAAERN
NAMERDNAFATLOYRETSMTAGOVRG\/KHMHHPOOHVHHOPHMGEPTYNPREMHMVEAPVSOPAPEPAKP
RRNKRAKEPKAATGSKKTPKASKKVKRETEDLNOTTYGKSPEWKGAOEMVGASDDLNROLSVAKPDWKDODLGL =
NOVAFDETTMP\/PVCSCTGVLRPCYKWGNGGWOSSCC.TTNLSMYPLPAVPNKRHARIGGRKMSGSAFTKLLSRLA
AEGHDLSNDVDLKNNWAKHGTNRYTK

>Solyc06g072370.2
MHRNWSYFEPTPTVPKGHLGLOFVSSMNEKPPHFRNHDNHOOOOOSHOPDHPSVMASTNGGAFHHHR\/CGL =
SESPMPMEYMRDSWVNOKDYREKYLNVLSSMOMHOOPNLVKVETAPLVEEVCOEGDNGGLAKKRGAGOSOELK
SPKPKKAKKATRAPKDESTSSPPRARAPRKSAEV\/INGNMDSVPPCSCTGAAOOCYRWGCGGWOSACC.TTNLS
SYPLPMN\/KRRGSRAGRKMSLGAFKK\/LEKLASEGYNFSNPDLKPHWARHGTNKFVR

>Solyc08g076230.1
MASOVNHKEETFDSHFPWHRDNFPPATOLGSKSKPCAAVPRSVAPTGEONVDVKFKAKSOKMKKNKKTSMN
G|RETVSELLKEKRFENKSSASKKPKGEAKCGEATVTKNPSS\/YGRASADFSGLPOPFCSCTGVSRRCYKCGGGWOS
SCC.TTSLSEYPLPFNPSKPGNRKAGRKMSNGAYNKLLCTLATEGHDLSNP\/DLKDHWAKHGSNKFTLK

En la sección “Select the sequence alphabet” indicaremos la opción “DNA, RNA or Protein”, puesto
que introduciremos nuestras secuencias problema en el formato estándar proteico. Estas secuencias
problema podemos añadirlas desde un archivo de texto (opción “upload sequences”) o bien, como es
nuestro caso, pegarlas directamente en formato FASTA en un cuadro de texto. Para ello indicaremos
la opción “Type in sequences” en la sección “Input the primary sequences”, como se indica en la figura.

O WOWer al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 77

Posteriormente, MEME nos pregunta acerca de la distribución y el número de motivos que van a
ser identificados en las secuencias problema. En la sección “Select the site distribution” tenemos que
establecer el número de repeticiones que esperamos encontrar de los motivos identificados a lo largo
de cada secuencia. En nuestro caso indicaremos que cada motivo aparezca cero o una vez por secuen
cia, por lo que escogeremos la opción “Zero or one occurrence per sequence”. Además, tendremos que
establecer el número de motivos que MEME debería encontrar. De este modo, en la sección “Select
the number of motifs” indicaremos 2 motivos.

Utilizaremos los parámetros avanzados por defecto y finalmente presionaremos el botón “Start
Search” en la parte inferior del formulario. Dependiendo del número y longitud de nuestras secuencias
los resultados de MEME pueden tardar en aparecer. Una vez finalizado el análisis, aparecerán distintas
opciones, escogeremos la primera de ellas, “MEME HTML output”.
La página de resultados de MEME es un extenso documento dividido en varias secciones. Al prin
cipio de la página nos indica como citar el uso de MEME en nuestras publicaciones

Q Volver al índice
78 Manual de prácticas de Bioinformática

A continuación encontramos la sección “Discovered Motifs” donde encontramos los motivos iden
tificados. En nuestro caso podemos observar dos motivos, uno de 34 y otro de 29 aminoácidos, los
cuales han sido identificados en las seis secuencias analizadas, como indica la columna “Sites”. Además,
en la columna “E-value” podemos hacernos una idea de cómo de significativo es nuestro resultado,
siendo 0.0 el valor más alto posible.

La representación gráfica nos da una idea de cuáles son las posiciones más conservadas en el mo
tivo, lo cual se mide en bits (para nuestro propósito es suficiente saber que la altura de la columna es
directamente proporcional a su nivel de conservación). Los colores corresponden al tipo de residuos
con mayor prevalencia en dicha posición (por ejemplo, el color rojo hace referencia a que en dicha
posición se encuentra mayoritariamente aminoácidos cargados positivamente).
Asimismo, podemos descargar una imagen de alta calidad de cada uno de los motivos identificados
haciendo clic en la flecha de la columna “Submit/Download”. En la pestaña “Download logo” escogere
mos el formato “EPS (for publication)” y finalmente pulsaremos el botón “Download”.

En la sección “Motif Locations”, encontramos como se encuentran distribuidos los diferentes motivos
a lo largo de cada una de las secuencias problema.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 79

Más abajo podemos observar la sección “Input & Settings”, donde encontramos un resumen de
ciertos detalles acerca de los datos que MEME utilizó para identificar los motivos; entre otros, el
número de secuencias problema, la frecuencia de cada residuo aminoacídico en nuestro conjunto de
secuencias y los parámetros utilizados para hacer el análisis.

Por último, al final de la página podemos encontrar información general acerca de la herramienta
MEME: número de versión, cita bibliográfica y la línea de comandos.

Q Volver al índice
80 Manual de prácticas de Bioinformática

MEMEurersion
4.11.2 (Release date: Thu May 05. 14:58:55 2016-0700)

Referenice
Timothy L. Bailey and Charles Elkan, "Fitting a mixture Inodelby expectation maximization to discºver motifs in biopolymers",
Proceedings of the Secord Internatiorral Conference on Inteligent Systems for Molecular Biology, pp. 28-36, AAAl Press, Menlo Park, California,
1 el 1.

Command line
TETIa EE.LErices.fa -prºtein-oc. -TICEtatus -tiTa 18.000 -Tlax EizE ECIC —TrdzCopE - IrlatifE 2-Tirw B -Tlaxw50

Como tarea a realizar, antes de finalizar esta práctica, el alumno deberá poner en práctica los cono
cimientos adquiridos para identificar motivos conservados en el siguiente conjunto de secuencias, utili
zando para ello los mismos parámetros que hemos seleccionado en el análisis anteriormente realizado.

> AT1 G1 4685

MDDDGFRNWGYYEPAAATFKGNLGLOLMSTDRNTKPFLPGRDPNLMMGPNGSYHHOEPPHMSYNWINOOKDKFFNML =
P\/TTATPNYGNVLPETSSAPSMOMNLHHHLOTEENP\/KLEEE|\/VOTKKRKTNAKAGSTPKAKKPRKPKDENSNNNNNNNTNVTR
VKPAKKSVDLVNG\/SMDSGLPVPCTCTGAPOOCYRWGCGGWOSACC.TTNSMHPLPMSTKRRGARSGRKMSOGAFKKVLE
KLASDGENFGNPDLKSHWARHGTNKF\/TR

> AT1 G68120

MMEEDGLNNRNWGYYEPSOFRPNLGFOLPSLDRNEKPFLSPHSONLNFTPSNVYGGGSSSVVSYPRDYTVSDAPFMSYSW –
NOHKDSKFFSNVPEVSRMTOSMOLLOPEV\/TEVDESVKRRHCSGGORGGVPKVKKEKKLKDNNMPRVORERSPLLRKCEMVINGVS
MDGGLP\/PVCSCTGMPOOCYRWGCGGWOSACC.TTNVSMYPLPVNTKRRGARIAGRKMSOGAFRKVLEKLSSDGFDFSNPDLK
SHWAKHGTNKF\/TR

> AT2G01930

MDDDGFRNWGYYEPAAASSFKGNLGLOLMSTDRNTKPFLPGRESNLMGSNGSYHSREODMNYSWINOPKDNKFFNMLPSTPSYS
NVLSETSGSNSOMHOPVLNSSRFEENPPPPAPCEEOTGKKRKMRGSATPTVPKAKKMRKPKEERDVTNNNVOOOOORVKP\/KK
SVDLVING\/SMDSGLP\/PVCTCTGTPOOCYRWGCGGWOSACC.TTNSVYPLPMSTKRRGARSGRKMSOGAFKKVLEKLSTEGYSFG
NADLKSHWARHGTNKF\/TR

> AT2G21240

MENGGOYDNARFKPDYFKGAOSMWNMPOHOKEOHNALVMNKKMSLAERDAAVHERNOAVSAKKEAVAARDEALOORDKAL =
SERDKALERDNAYAALOHHENSLNFALSGGKCVDGDDCFGGEPHKLEVFPLSTPPEVTNTKV\/NKRKKENKOGLSKVKKVGEDLNRR
VPAPGKKSRTDWDSODVGLNLVTFDETTMPVPMCSCTGSTROCYKWGNGGWOSSCC.TTTLSOYPLPOMPNKRHSRMGGRKMSG
NVFSRLLSRLSAEGYDLSCP\/DLKDYWARHGTNRYTK

> AT2G35550

MGLDSSFVNSSGFADFOSNNLERSNLFLYELOREGVFPLKLAKMNSFPAONLMLSATNANKDSGLRTSNAHWLHSCAVPKTTG|DLS
OEPPAEGVMVPOSHLFPPPRDSRNDTETVKOKSVNOSPSKALKPKPORKKRSVSNKSKKTPSPETKREKKNLDNDSSFDTSGVPPPVCSCT
GVSRVCYKWGMGGWOSSCCTSSTYPLPMSTTRPGARLAGRKMSNGAY\/KLLARLADEGYDLSHPLDLKNHWARHGTNKFVTK

> AT4G38910

MESGGOYENGRYKPDYYKGTOSVNVMPKKEOHNALVMNKKSLAERDAAVKERNEAVAATKEALASRDEALEORDKALSERDNA
METESALNALRYRENNLNYLSCAKRGGSORFTEESHLPNPSPSTPPEAANTRPTKRKKESKOGKKMGEDLNRPVASPGKKSRKD
WDSNDVL \/TFDEMTMPVPMCTCTGTAROCYKWGNGGWOSSCC.TTTLSEYPLPOMPNKRHSRVGGRKMSGSVFSRLLSRLAGEG
HELSSDVDLKNYWARHGTNRYTK

> AT5G42520

MDDGGHRENGRHKAAVOGOWLMOHOPSMKOVMSAERDAAOERNLASEKKAAVAERDMAFLORDTAAERNNAMERDSALT
ALOYRENSMV/TAPAANMSACPPGCOSRG\/KHLHHPHMHHHHOOH HIPOLITENAYETREMEPNDGLPTSPPAGSTLESAKPKRGKR
VNPKATTOTAANKRGPKNORKVKKESEDDLNKMFVKTTHDYTDEDSSKHLGSKSDWKSOEMVGLNOV\/YDETTMPPPVCSCTGV =
ROCYKW/GNGGWOSSCC.TTTLSMYPLPALPNKRHARVGGRKMSGSAFNKLLSRLAAEGHHDLSNPVDLKDHWAKHGTNRYTK

O WOWer al índice
Práctica 6: Construcción de árboles filogenéticos

La Filogenia es la ciencia que estudia las relaciones de parentesco entre las diferentes especies. Un
análisis filogenético no sólo nos indica las relaciones evolutivas entre especies o secuencias, sino tam
bién el grado de parentesco entre ellas, mediante el cálculo de distancias filogenéticas. Los métodos
filogenéticos nos permiten reconstruir un árbol que representa la historia evolutiva de las especies a
partir de las evidencias experimentales de las que dispongamos. Estas evidencias pueden ser datos
morfológicos, genotípicos y secuencias de ADN o de proteínas. No obstante, estrictamente hablando,
aunque las especies tengan una única filogenia, los distintos genes pueden haber tenido una historia
evolutiva diferente. En estos casos, podría calcularse la filogenia de cada gen, lo que permitiría recons
truir una filogenia consenso de la especie.
Los métodos de reconstrucción filogenética más habituales asumen que todas las secuencias o
especies provienen de un ancestro común. Del mismo modo, asumen que todas las secuencias o es
pecies de las que tenemos información son especies actuales y que ninguna de ellas es un antepasado
de cualquiera de las otras. Si alguna de estas condiciones no se cumpliesen no sería correcto intentar
reconstruir una filogenia. Así, por ejemplo, si estamos comparando poblaciones de una misma especie
puede que no se cumpla que las distintas poblaciones se hayan originado por una simple bifurcación
de las anteriores. Es común que varias poblaciones se mezclen por migración y esto no se tiene en
cuenta en los métodos de reconstrucción filogenética.
Un árbol filogenético (dendrograma) es un diagrama con ramas que muestra las relaciones evoluti
vas, la filogenia, de un conjunto de nodos. Estos nodos pueden ser especies, individuos, genes, etc. En
concreto, durante esta práctica conoceremos los fundamentos de los análisis filogenéticos por medios
informáticos. Principalmente cubriremos el uso de algunas de las herramientas bioinformáticas más
conocidas y construiremos un árbol filogenético de una familia multigénica a partir de sus secuencias
proteicas. De este modo, los objetivos principales de esta práctica son:

• Aprender a elaborar filogenias a partir de secuencias proteicas.


• Comprender e interpretar la información que ofrecen los árboles filogenéticos.

Filogenias basadas en secuencias de proteínas


Las filogenias pueden construirse con datos de muchos tipos, pero en esta práctica nos centraremos
en las creadas a partir de secuencias de proteína, puesto que son las más utilizadas. Al realizar una
reconstrucción filogenética estaremos asumiendo una serie de premisas:

• Cada secuencia es correcta y pertenece a su organismo.


• Las secuencias son homólogas y se han originado a partir de un ancestro común.
• Cada posición de una secuencia del alineamiento es homóloga a la del resto de secuencias.
• Las secuencias evolucionan con un patrón al azar.
• Las posiciones del alineamiento evolucionan independientemente unas de otras.
• No existe intercambio de información genética entre los diferentes organismos.

Q Volver al índice
82 Manual de prácticas de Bioinformática

Además, al construir un árbol filogenético estamos asumiendo que las secuencias utilizadas incluyen
información suficiente como para resolver el problema. Esta es una asunción que podemos y debemos
comprobar por algún método estadístico, así podremos establecer si el árbol filogenético obtenido es
robusto. Por último, hay que tener en cuenta que si pretendemos reconstruir un árbol de especies y
estamos utilizando una o varias secuencias para hacerlo, hemos de asumir que las secuencias elegidas
son representativas de las especies incluidas en el análisis. Si no fuese así, estaríamos generando un
árbol correcto de secuencias, pero no de especies.

Identificación de familias multigénicas


Una familia génica o familia multigénica es un grupo de loci cromosómicos cuya secuencia de nucleó
tidos es similar y derivan de una secuencia común ancestral. Puede incluir copias de genes ligeramente
diferentes y/o pseudogenes más variables, en uno o varios cromosomas. Estas familias multigénicas
se caracterizan por presentar uno o varios dominios conservados, los cuales definen a cada una de
las familias.
Antes de comenzar la reconstrucción filogenética de una familia multigénica, tenemos que iden
tificar los genes que pertenecen a dicha familia, cuyas secuencias serán utilizadas para construir un
dendrograma. A lo largo de esta práctica trabajaremos con las secuencias proteicas de los factores de
transcripción de la familia YABBY-like. Estos genes están implicados en diferentes procesos de desa
rrollo y se caracterizan por presentar un dominio conservado de tipo YABBY.
Concretamente, vamos a trabajar con los genes YABBY-like de Arabidopsis thaliana y Solanum
lycopersicum. Para poder identificar en estas dos especies los genes que pertenecen a dicha familia
multigénica, en primer lugar buscaremos la secuencia consenso que define al dominio YABBY.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 83

Acceda al sitio web Conserved Domain Database (CDD) del NCBI ubicado en la
siguiente dirección
http://www.ncbi.nlm.nih.gov/cdd

A continuación buscaremos el término “YABBY” y accederemos a la siguiente página.

En la sección “Sequence Alignment” haremos clic en la pestaña “Include consensus sequence” (fle
cha). De este modo, aparecerá una nueva línea en el alineamiento que muestra la secuencia consenso
que define al dominio YABBY.

Q Volver al índice
84 Manual de prácticas de Bioinformática

Comenzaremos por identificar los genes pertenecientes a la familia YABBY-like de Arabidopsis


thaliana.

Acceda al sitio web The Arabidopsis Information Resource (TAIR) ubicado en la


siguiente dirección https://www.arabidopsis.org/index.jsp
Haga clic en “Tools” y seleccione la opción “BLAST”

Utilizando la secuencia consenso del dominio YABBY, realizaremos un análisis BLAST contra la
base de datos de proteínas (BLASTP), seleccionando en el epígrafe “Expectation” (localizado entre las
opciones avanzadas) un valor de corte de E-Value de “0.01”, como se muestra en la figura.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 85

Ejecutamos el análisis haciendo clic en “Submit” y en pocos segundos obtendremos una página de
resultados similar a la siguiente.

Encontramos un total de 8 resultados, entre los que hallamos 2 variantes de procesamiento al


ternativo (AT2G26580.2 y AT4G00180.2), que vamos a descartar puesto que para construir nuestro
árbol filogenético sólo utilizaremos las secuencias proteicas de referencia de cada uno de los genes
YABBY-like de Arabidopsis thaliana.

A continuación realizaremos la identificación de los genes pertenecientes a la familia YABBY-like


de Solanum lycopersicum.

Acceda al sitio web Sol Genomics Network (SGN) ubicado en la siguiente dirección:
https://solgenomics.net/
Haga clic en “Tools” y seleccione la opción “BLAST”

Q Volver al índice
86 Manual de prácticas de Bioinformática

En este caso, la secuencia consenso del dominio YABBY será analizada mediante BLAST frente a
la base de datos “Tomato Genome cDNA (ITAG reléase 2.40)”, seleccionando la opción “tblastn (protein
to translated nucleotide db)” en el epígrafe “Program”.

Ejecutamos el análisis haciendo clic en “BLAST” y aparecerá la página de resultados.

De este modo, los resultados nos muestran que el genoma de Solanum lycopersicum contiene 9 ge
nes que codifican proteínas pertenecientes a la familia multigénica YABBY-like o lo que es lo mismo,
proteínas que contienen en su secuencia dominios similares al dominio YABBY.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 87

Alineamientos de secuencias como base de los árboles filogenéticos


Los árboles filogenéticos se construyen a partir de alineamientos múltiples de secuencias. Una de las
premisas a tener en cuenta a la hora de realizar una reconstrucción filogenética es que cada posición en
el alineamiento es homóloga. Por tanto, construir un buen alineamiento es esencial para la resolución
del árbol. En general los problemas de los alineamientos suelen acumularse en las regiones más varia
bles en las que hay muchas sustituciones o muchos gaps. En estos casos podríamos estar incluyendo
posiciones que no son homólogas con lo que estaríamos introduciendo una información errónea en
el análisis. En la creación de árboles filogenéticos, los gaps no son de mucha ayuda y por lo general,
trabajamos con regiones muy conservadas. Por ello, es rutinario suprimir las regiones ricas en gaps y
trabajar únicamente con dichos bloques de secuencias conservadas.
Aunque no será objeto de estudio en esta práctica, la revisión de los alineamientos puede realizarse
org/)programas
con elimina regiones no conservadas
específicamente desarrollados para talteniendo
y espurias, en cuenta
fin. Por ejemplo, trimAI
diferentes parámetros como el
(http://trimal.cgenomics.

número de secuencias con gaps en una posición, regiones con nivel bajo de similitud, etc. Otro ejemplo
es el programa
html), el cual selecciona bloques según su nivel de conservación y elimina aquellas regiones con gaps
Gbloks (http://molevol.cmima.csic.es/castresana/Gblocks/Gblocks_documentation.

o no conservadas para obtener bloques altamente conservados.


En esta práctica utilizaremos el programa MUSCLE para la construcción del alineamiento múlti
ple de las secuencias proteicas de los 15 genes (6 genes de Arabidopsis thaliana y 9 genes de Solanum
lycopersicum) de la familia YABBY-like previamente identificados.

Acceda al sitio web del EBI: http://www.ebi.ac.uk/Tools/msa/


Haga clic en la opción “MUSCLE”

Q Volver al índice
88 Manual de prácticas de Bioinformática

Para hacer el alineamiento múltiple introduciremos las secuencias proteicas en formato FASTA de
los 15 genes YABBY-like en el campo de entrada “STEP 1 - Enter your input sequences”. Posteriormente,
utilizando los parámetros por defecto, ejecutamos el alineamiento haciendo clic en “Submit”.

Guarde en un archivo el alineamiento generado en el cuadro de resultados. Para ello pulsaremos


“Download Alignment File” (flecha). Este archivo será el que utilicemos para realizar la reconstrucción
filogenética de la familia YABBY-like.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 89

Creación de árboles filogenéticos


Aunque existen herramientas mucho más sofisticadas que ClustalW2_Phylogeny para la creación de
árboles filogenéticos, resulta muy fácil crear nuestros árboles con esta herramienta. Si pulsamos sobre
la opción “Send to ClustalW2_Phylogeny” accederemos directamente a dicha herramienta, la cual nos
permite obtener un dendrograma de forma rápida y sencilla.

En el campo de entrada “STEP 1 - Enter your multiple sequence alignment”, aparece directamente el
enlace al alineamiento múltiple realizado anteriormente, por este motivo no debe introducir de nuevo
los datos de dicho alineamiento.
En el campo de entrada “STEP2 – Set your Phylogeny options”, nos detendremos en el método que
utilizaremos para la creación de nuestro árbol. Básicamente existen 2 categorías de métodos para la
creación de árboles en estudios filogenéticos: Métodos basados en matrices de distancia (UPGMA y
Neighbor Joining), y los métodos basados en la composición de las secuencias (métodos de máxima
parsimonia y máxima verosimilitud). Cada uno de estos métodos tiene sus fortalezas y sus debilidades,
pero el método que se utiliza más frecuentemente es el de Neighbor Joining. Además, este método es
el más recomendable si no estamos seguros de que se cumple la hipótesis del reloj molecular; es decir,
si esperamos que las distintas ramas de nuestro árbol puedan haber evolucionado a distinta velocidad.
Por tanto, para la reconstrucción filogenética de la familia YABBY-like seleccionaremos el método
Neighbor Joining. Además, escogeremos la opción “on” en el menú desplegable “EXCLUDE GAPS”,
puesto que, generalmente, no es conveniente crear un árbol filogenético haciendo uso de las regiones
ricas en gaps. Posteriormente, ejecutaremos el análisis haciendo clic en “Submit”.
En la página de resultados podemos encontrar dos tipos de filogramas. Si seleccionamos la opción
“Cladogram”, observamos que este tipo de árbol sólo representa un patrón de ramificación; es decir,
que la longitud de sus ramas no representan el tiempo. Sin embargo, si escogemos la opción “Real”,

Q Volver al índice
90 Manual de prácticas de Bioinformática

encontramos que este tipo de árbol no sólo representa el patrón de ramificación, sino también indica
el grado de divergencia evolutiva mediante la longitud de sus ramas.

Existe una amplia gama de programas específicamente desarrollados para reconstruir filogenias,
los cuales permiten controlar muchos más parámetros que la herramienta ClustalW2_Phylogeny. A
continuación utilizaremos el programa gratuito Phylogeny.fr para hacer una nueva filogenia de la
familia YABBY-like.

Acceda al sitio web: http://phylogeny.lirmm.fr/phylo_cgi/index.cgi

Phylogeny.fr es una herramienta esencial para aquellos usuarios que no tengan experiencia previa,
puesto que permite obtener filogenias robustas de una forma sencilla.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 91

Entre las opciones de la herramienta Phylogeny.fr, escogeremos en la sección “Phylogeny analysis”


la opción “One Click”.

La arquitectura de trabajo (conocida como pipeline en el argot de la bioinformática) de la herra


mienta Phylogeny.fr realiza diferentes análisis concatenados a partir de las secuencias problemas en
formato FASTA. Así, en primer lugar realiza un alineamiento múltiple con la herramienta MUSCLE,
posteriormente corrige los alineamientos defectuosos utilizando para ello el programa Gblocks y,
finalmente, utiliza los alineamientos revisados para hacer la reconstrucción filogenética.

La herramienta Phylogeny.fr construye el árbol filogenético mediante su propio algoritmo de cál


culo de distancias denominado PhyML. Este algoritmo esta basado en la composición de las secuencias
y se fundamenta en el método de máxima verosimilitud. Podrá encontrar más información sobre el
algoritmo PhyML siguiendo el siguiente enlace: http://www.atgc-montpellier.fr/phyml/usersguide.
php?type=command

Q Volver al índice
92 Manual de prácticas de Bioinformática

Para iniciar la reconstrucción filogenética de la familia YABBY-like, copiaremos las secuencias de


las 15 proteínas problema en el campo de entrada e iniciaremos el análisis haciendo clic en “Submit”.

Después de unos minutos, aparecerán nuestros resultados.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 93

Bootstrap es un test estadístico que nos permite validar el árbol construido. Este test se puede aplicar
a todos los métodos de cálculo de distancias y consiste en crear réplicas de los dendrogramas a partir
del alineamiento original, de forma que se puede evaluar el porcentaje de árboles en los que aparece
cada nodo. Los nodos con un alto valor de bootstrap tienen una probabilidad alta de ser correctos
mientras que los que tienen un bajo valor de bootstrap podrían haberse generado simplemente por
azar. En nuestro caso, el número rojo que aparece en cada nodo corresponde con el valor de bootstrap.
En la pestaña “Tree Rendering” podrá observar diferentes opciones para editar el árbol generado.
Familiarícese con algunas de ellas y observe las diferencias entre los distintos árboles generados.

Para finalizar la práctica, utilizando los conocimientos adquiridos, el alumno tendrá que realizar
las siguientes tareas:

• Buscar la secuencia consenso del dominio de unión a ADN de tipo GAGA que
define a la familia BBR/BPC.
• dentificar los genes de la familia BBR/BPC en las especies Arabidopsis thaliana
y Solanum lycopersicum.
• Realizar la reconstrucción filogenética de la familia BBR/BPC, usando la herra
mienta Phylogeny.fr para construir el árbol filogenético.

Q Volver al índice
Práctica 7: Edición de genomas con CRISPR/Cas: diseño de ARN
guía

El origen de esta técnica lo encontramos en el sistema inmune adaptativo de las bacterias. Así, el
sistema CRISPR/Cas forma parte de un mecanismo natural de inmunidad para degradar y eliminar
secuencias de ADN invasoras, que se encuentran en aproximadamente el 40% de los genomas bacte
rianos y en el 90% de los genomas secuenciados de las arqueas. El vocablo CRISPR son las siglas de
Clustered Regularly Interspaced Short Palindromic Repeats (Repeticiones Palindrómicas Cortas Agrupadas
y Regularmente Interespaciadas), mientras que Cas, CRISPR associated, hace referencia al nombre dado
a una serie de proteínas implicadas en el proceso.
La tecnología CRISPR/Cas una herramienta molecular capaz de editar el genoma de una célula, de
forma que añade o elimina secuencias de ADN. Los grupos de investigación de Emmanuelle Charpen
tier y Jennifer Doudna publicaron un artículo en 2012 donde postularon el uso del sistema CRISPR/
Cas para la edición genética, las cuales han sido galardonadas con el premio Princesa de Asturias de
Investigación 2015 por el desarrollo de esta tecnología. Actualmente, esta técnica es una de las princi
pales herramientas para modificar el ADN. Su gran versatilidad y eficacia, junto con su fácil manejo
y bajo coste, han hecho que la prestigiosa revista Science eligiera la tecnología CRISPR/Cas el avance
científico más importante del 2015.
Una de las grandes fortalezas de la técnica CRISPR/Cas es su gran precisión, lo cual es primor
dialmente relevante, si llegado el momento, se pretende utilizar como terapia génica en humanos. No
obstante, en muchas ocasiones los genomas contienen zonas iguales o muy semejantes a la que se desea
editar, lo que puede llevar a que el sistema corte y edite en lugares diferentes al deseado. Es por ello
que están comenzando a desarrollarse herramientas bioinformáticas dirigidas a reducir al mínimo el
número de posibles dianas erróneas. A lo largo de esta práctica utilizaremos una de estas herramien
tas, Breaking-Cas, con la que aprenderemos a diseñar ARN guías para el sistema CRISPR/Cas. Así, el
objetivo principal de esta práctica es:

• Adquirir habilidades y destrezas en el diseño de ARN guías para el sistema CRISPR/Cas.

Tecnología CRISPR/Cas
La técnica CRISPR/Cas consiste en introducir una pequeña secuencia sintética de ARN, denominado
ARN guía (sgRNA, del inglés, small guide RNA) complementaria al fragmento de ADN que se quiere
modificar. Este sgRNA es utilizado como cofactor por una nucleasa, en este caso la proteína Cas9, y
dirige a la nucleada a la secuencia genómica que presente la secuencia complementaria a la guía y la
nucleasa abre la doble cadena de ADN y la corta. Tras esta rotura, pueden introducirse modificaciones
añadiendo una plantilla que la maquinaria celular usará para reparar el daño causado por la proteína
Cas9.
El desarrollo de la tecnología CRISPR/Cas está permitiendo una amplia gama de aplicaciones en
poco tiempo y su número no deja de crecer. Por ejemplo, manipular genéticamente especies que hasta
ahora habían sido esquivas a las técnicas de manipulación genética, lo cual podría aumentar el rango
de organismos modelo. Además, del mismo modo que se pueden dirigir sgRNAs para editar secuencias
génicas, se puede usar esta nueva tecnología para la edición de secuencias reguladoras o no-codicantes,
con el objeto de poder descubrir nuevas secuencias de este tipo o aclarar la función de alguna de ellas.

Q Volver al índice
96 Manual de prácticas de Bioinformática

No obstante, entre las aplicaciones más prometedoras se encuentra en desarrollar terapias génicas en
humanos, la cual ha sido probada en animales de laboratorio y permitirá corregir genes defectuosos
ligados a enfermedades humanas y diseñar estrategias contra el cáncer.

Fuente: SINC, Servicio de Información y Noticias Científicas, plataforma multimedia de comunicación científica.

En el siguiente enlace: https://www.youtube.com/watch?v=SuAxDVBt7kQ, encontrará un video


explicativo de Jennifer Doudna donde podrá ampliar sus conocimientos sobre la tecnología CRISPR/Cas.

Breaking-Cas
El Centro Nacional de Biotecnología del CSIC (CNB-CSIC) ha desarrollado una herramienta web
que facilita el diseño de experimentos de edición génica utilizando la conocida técnica CRISPR/Cas.
Breaking-Cas permite diseñar el ARN guía necesario para la implementación de esta técnica en dife
rentes organismos eucariotas.
En el sistema CRISPR/Cas, el ARN guía ha de ser específico para cada experimento concreto.
Breaking-Cas permite diseñar un ARN guía altamente específico para el segmento del genoma que se
quiere editar, reduciendo al mínimo el número de posibles dianas erróneas. Como ya se ha comen
tado, este ARN guía es el encargado de dirigir la nucleasa y toda la maquinaria del sistema al punto
adecuado del genoma.

Acceda al sitio web de Breaking-Cas:


http://bioinfogp.cnb.csic.es/tools/breakingcas/

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 97

Al inicio de la página encontramos como citar Breaking-Cas en nuestras publicaciones.

El primer paso para comenzar con el diseño de los ARN guías es escoger la especie cuyo genoma
queremos editar. Breaking-Cas permite editar los cerca de 700 genomas contenidos en la platafor
ma ENSEMBL (http://www.ensembl.org/index.html). En nuestro caso escogeremos el genoma de
Solanum lycopersicum.

Q Volver al índice
98 Manual de prácticas de Bioinformática

A continuación, introduciremos la secuencia del gen que queremos editar. Utilizaremos la secuen
cia codificante (cDNA) del gen Solyc02g083950.2.1, el cual codifica un factor de transcripción de tipo
“WUSCHEL-related homeobox” (WOX).

>Solyc02g083950.2.1
ACATACATACATACATTTGTAGAGTTGTTGTTGTTTTATGATGGAACATCAACACAACATAGAAGATGGTGGTAA-
AAATAGTAACAACAGTTTCCTGTGCAGGCAAAGTAGTAGCCGTTGGACGCCAACGAGCGATCAGATAAGA-
ATATTGAAGGATCTCTACTACAACAATGGAGTTAGGTCTCCAACTGCTGAACAGATTCAGAGGATATCTGC-
TAAGTTGAGACAGTACGGTAAGATTGAAGGCAAAAATGTGTTTTATTGGTTTCAGAACCATAAAGCTCGTGA-
AAGACAAAAGAAGAGGCTCATTGCTGCTGCCTCTGCCACTGATAATAATAATATCTCTTCCATGCAAATGATTC-
CACATCTTTGGAGATCTCCTGATGATCACCACAAGTACAACACTACTACTACTAATCCAGGTGTTCAGTGTC-
GAAGAGCTTTAGGGAGTGTTCAATATCACCACCAGGTGGTAGTTATCATCAAAATTTGACATGGGTTGGTGTT
CATCACCATCTTCACATGGGGTATTACCAGTGGTACAGACTGGAAACTATGGTTATGGAACTTTGGCTATGGA-

GATCCTTACAACAATATGAGTACTACTTCTCCAGCAACTTACCCTTTTCTTGAAAAAAGCAACAACAAACAC-
TATGAAGAAACCCTAGATGAAGAGCAAGAAGAAGAAAATTACCAAAGGGGTAACTCTGCTTTAGAAACTCT
GTCACTTTTCCCCATGCATGAAGAGAACATCATCTCAAATTTCTGCATCAAACATCATGAATCTTCTGGAG-
GATGGTACCATTCTGATAATAACAATTTGGCTGCTCTTGAACTTACTCTCAACTCTTTCCCCTAAATTATGAAC-
TAGTCTATCTTATGTTTGTAGTAAGTAAGTACTAATCTAATTTGGTATGTGCCAAGCTATTTGGACCTTATGGTAAT
GTTAATTAATCTTAATCTAAGTTGTACTAATATTATTAATTAAAGTATGGATAAGTTTATT

Copiar esta secuencia en formato FASTA y pegar en el cuadro de texto situado bajo el epígrafe
“Paste one or several query DNA sequences in FASTA format (up to 20,000 nucleotides in total)”.

Por otro lado, a diferencia de otras herramientas semejantes, Breaking-Cas permite ajustar las
características de la enzima nucleasa utilizada.

Existen diferentes posibilidades, aunque la más común es la nucleasa Cas9. El principal requeri
miento para que esta enzima Cas9 funcione es la presencia de una pequeña secuencia (en el caso de
Streptococcus pyogenes es “NGG” en 3´) conocida como PAM (del inglés, Protospacer Adjacent Motif)

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 99

que se encuentra adyacente al locus que se quiere editar en dirección 3´ y que es esencial para que las
proteínas Cas presenten especificidad por la secuencia de los sgRNA.

La herramienta Breaking-Cas contempla como opción enviar los resultados del análisis que reali
cemos a nuestro correo electrónico.

Finalmente, presionaremos el botón “submit” en la parte inferior del formulario. Una vez finalizado
el análisis, aparecerán distintas opciones, escogeremos la primera de ellas, “View online”.

En la página de resultados de Breaking-Cas podemos observar en la parte superior derecha los


parámetros utilizados para el diseño de los RNA guías.

Y en la parte inferior izquierda, encontramos una tabla donde aparece la información referente
a los RNA guías. Esta tabla nos muestra la posición (“START” y “END”), el sentido (“STRAND”), la
secuencia (“OLIGOS”), las dianas situadas en el gen de interés (“ONTARGETS”), las dianas situadas en
otras regiones del genoma (“OFFTARGETS”) y cuáles de estas dianas no específicas están ubicadas en
otros genes (“GENES”), así como un valor de puntuación (“SCORE”) para definir la bondad del ARN
guía diseñado (valor entre 0 y 100%), de forma que mientras más elevado sea, mejor es el ARN guía.

Q Volver al índice
100 Manual de prácticas de Bioinformática

Además, haciendo clic sobre cualquier de los ARN guías, aparecerá en la parte derecha de nues
tras pantallas un esquema gráfico con la ubicación del ARN guía en nuestro gen de interés, junto con
el resto de posibles dianas no específicas. Así, si hacemos clic sobre el primer resultado, aparecerá la
siguiente imagen.

En amarillo aparece remarcado nuestro gen de interés (Solyc02g083950.2), donde se muestra la


ubicación del ARN guía, en este caso el primer exón. Al principio de la imagen podemos observar el
valor “SCORE” de nuestro ARN guía (100), junto con su posición cromosómica (2:47191558-47191580)
y sentido (+). Además, el programa nos muestra una segunda región intergénica localizada en el cro
mosoma 9 (coloreada en gris), cuyo valor “SCORE” es 0,1. Esto se debe a que el sistema CRISPR/Cas

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 101

es muy específico, por lo que la existencia de “mismatches” (no coincidencias) en la secuencia diana
reduce considerablemente el valor “SCORE”. En este caso, la secuencia del ARN guía presenta 4 “mis
matches” (marcados en rojo) respecto a su diana genómica.
Finalmente, poniendo en práctica los conocimientos adquiridos a lo largo de esta asignatura, el
alumno deberá realizar las siguientes tareas:

• Buscar la secuencia nucleotídica del mensajero de tomate (identificador


“NM_001279252.2”) que codifica una proteína MADS-box.
• Diseñar un ARN guía que permita modificar la región que codifica para dicho
dominio mediante el sistema CRISPR/Cas.

A lo largo de esta práctica sólo hemos visto aspectos básicos del manejo del programa Breaking
Cas, puede ampliar sus conocimientos sobre esta herramienta siguiendo la guía de utilización del
programa que encontrará en el siguiente enlace:

http://bioinfogp.cnb.csic.es/tools/breakingcas/tutorial/help.html

Q Volver al índice
Práctica 8: Visualización y análisis de datos de secuenciación
masiva (NGS)

El continuo desarrollo de las denominadas nuevas tecnologías de secuenciación masiva (NGS, Next
Generation Sequencing) permite actualmente obtener millones de secuencias de ADN a una velocidad
sin precedentes y a un coste cada vez más reducido. Su potencial ha permitido el desarrollo de nue
vas aplicaciones, entre ellas la resecuenciación de un genoma completo de diferentes individuos de
una especie con el fin de caracterizar la diversidad genética, mediante la identificación de mutaciones
puntuales y variaciones estructurales.
La resecuenciación se puede llevar a cabo cuando se dispone de un genoma de referencia, preferi
blemente de la misma especie, o, en su defecto, de alguna especie cercana. Esta metodología consiste en
alinear (o mapear, del inglés mapping) las lecturas obtenidas en la resecuenciación sobre un genoma de
referencia para detectar diferencias entre ambos. Actualmente, los algoritmos de mapeo son mucho más
rápidos y precisos que los de ensamblaje, por tanto la resecuenciación de un genoma necesita menor
gasto computacional que ensamblar un genoma de novo. Además, como se parte de la disponibilidad de
un genoma de referencia, tiene la ventaja de no necesitar tanta cobertura de secuenciación (el número
de veces que, como media, se lee cada posición del genoma resecuenciado), reduciendo los costes.
Dado que están disponibles para uso público cientos de genomas de diferentes organismos euca
riotas (existen cerca de 700 genomas contenidos en la plataforma ENSEMBL; http://www.ensembl.
org/index.html), la resecuenciación de genomas completos es, hoy en día, una práctica habitual en
experimentos dirigidos al estudio de la variación genética entre individuos. En la presente práctica se
ofrece una visión general del manejo de la herramienta Integrative Genomics Viewer (IGV) con el
objeto de examinar y analizar datos NGS. Por tanto, los objetivos principales de la presente práctica son:

• Aprender el uso básico del visor de genomas IGV.


• Comprender el significado de la información que muestra esta herramienta.

Integrative Genomics Viewer (IGV)


Una vez se han alineado las lecturas obtenidas sobre el genoma de referencia es conveniente visualizar
los resultados usando un navegador genómico (Genome Browser). Entre ellos, los más populares son
UCSC Genome Browser (https://genome.ucsc.edu/) y Gbrowse (http://gmod.org/wiki/GBrowse), sin
embargo son navegadores difíciles de instalar en ordenadores personales, puesto que generalmente
están orientados a ser usados por una base de datos. Por ello, lo más adecuado es utilizar programas
diseñados para una instalación local. Un buen ejemplo es el programa IGV, diseñado por el Broad
Institute, una herramienta libre de visualización de alto rendimiento para la exploración y el análisis
interactivo de datos NGS.

Acceda al sitio web de IGV: http://www.broadinstitute.org/igv/home


y haga clic en “Download”

Q Volver al índice
104 Manual de prácticas de Bioinformática

Antes de descargar el programa es necesario rellenar un formulario de registro con tus datos per
sonales y tu dirección de correo electrónico, la cuál te dará acceso gratuito para descargar esta herra
mienta. IGV funciona tanto en entorno MS/Windows como en Mac, en nuestro caso escogeremos la
versión de MS/Windows y ejecutaremos el programa haciendo clic sobre el archivo “igv.bat”. Ten en
cuenta, que IGV requiere para funcionar correctamente que Java (versión 7 o superior) esté instalado
en su ordenador.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 105

Para comenzar a visualizar los datos NGS, en primer lugar tendremos que indicarle al programa
IGV el genoma de referencia que queremos utilizar. En nuestro caso trabajaremos con el genoma de la
especie Solanum lycopersicum, cuya secuencia puede obtenerse libremente en la base de datos Sol Geno
mics Network (SGN, https://solgenomics.net/) ubicado en el siguiente enlace: ftp://ftp.solgenomics.
net/ tomato_genome/annotation/ITAG2.4_release/ITAG2.4_genomic.fasta. Además, para completar
la información mostrada por el genoma de referencia, añadiremos los modelos génicos de tomate, los
cuales pueden obtenerse haciendo clic en este enlace: ftp://ftp.solgenomics.net/tomato_genome/
annotation/ITAG2.4_release/ITAG2.4_gene_models.gff3.

Este programa, tiene un entorno de trabajo similar al de todas las aplicaciones de MS/Windows;
por tanto, para crear un fichero que contenga el genoma de referencia de nuestra especie problema
debe dirigirse al menú “Genomes” y escoger la opción “Create .genome File…” (flecha roja).

Inmediatamente aparecerá una ventana similar a la que se muestra en la siguiente imagen. En primer
lugar escribiremos el nombre con el que queremos identificar nuestro genoma, en el campo “Unique
fasta” que en
identifier”, este caso
contiene la secuencia
“Tomato”. del genoma de referencia,
Posteriormente en el el
introduciremos campo
archivo
“FASTA
FASTAfile”.
“ITAG2.4_genomic.
Además, dentro

de las opciones, en el campo “Gene file” seleccionaremos el archivo que contiene los modelos génicos
“ITAG2.4_gene_model.gff3”. Finalmente, haremos clic en “OK”.

Q Volver al índice
106 Manual de prácticas de Bioinformática

Una vez creado nuestro genoma de referencia “Tomato”, la ventana principal de la aplicación tendrá
un aspecto similar a la imagen que se muestra a continuación, donde se muestra el significado de los
principales elementos de navegación:

El siguiente paso es abrir los ficheros que contienen las secuencias problema. En este caso, utiliza
remos las secuencias de 4 genotipos de tomate los cuales difieren en el tamaño y número de lóculos de
sus frutos. En la carpeta compartida del escritorio encontrará 4 archivos con extensión “*.bam”. Cada
uno de estos archivos contiene la información de un genoma completo.
Para abrir los archivos “*.bam” debe dirigirse al menú “File” y escoger la opción “Load from File…”
(flecha roja).

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 107

Identificación de mutaciones puntuales


Recientemente, investigadores franceses han descrito 2 polimorfismos genéticos o SNP (Single Nucleotide
Polymorphisms) próximos al gen WUSCHEL, los cuales son responsables del incremento en el tamaño
y número de lóculos del fruto de tomate (Muños et al. 2011, Increase in tomato locule number is con
trolled by two single-nucleotide polymorphisms located near WUSCHEL, Plant Physiol 156:2244-2254).
En nuestro caso, trabajaremos con 4 genotipos de tomate, de los cuales dos de ellos presentan un
alto número de lóculos en sus frutos. Utilizaremos el cuadro de búsqueda de la aplicación IGV para
ubicarnos en la región donde se localiza el gen WUSCHEL (Solyc02g083950.2.1) de tomate. De este
modo, introduciremos en el cuadro de búsqueda “SL2.40ch02:41,765,971-41,769,704” y haremos clic
sobre “Go” (recuadro rojo).

En la siguiente imagen se puede observar el resultado de la búsqueda, donde se muestra el gen


WUSCHEL, el cual se transcribe en sentido 3´® 5´, junto con la ubicación de las mutaciones respon
sables del incremento en el número de lóculos del fruto de tomate.

A continuación, nos dirigiremos hacia la región donde se ubica la mutación de interés. Para ello,
introduciremos “SL2.40ch02:41,766,325-41,766,382” en el cuadro de búsqueda y pulsaremos sobre “Go”.

La nueva ventana nos muestra en detalle esta región. Cada una de las líneas grises corresponde a
una lectura (del inglés, read) de secuenciación. Esta aplicación representa mediante colores los poli
morfismos o mutaciones existentes en la muestra problema respecto al genoma de referencia, mientras

Q Volver al índice
108 Manual de prácticas de Bioinformática

que las regiones no polimórficas se representan en color gris. Además, para conocer la cobertura de
una posición concreta en el genoma, podemos situar el puntero del ratón justo encima de la posición
de interés y aparecerá un recuadro amarillo donde se indica en primer lugar el número total de se
cuencias en esa posición (cobertura). Posteriormente encontramos el número de secuencias alineadas
en esa posición para cada una de las bases que se encuentran en el ADN (N: base desconocida debido
a un error durante el proceso de secuenciación).
A continuación se muestra un ejemplo de una posición polimórfica o mutada (flecha roja); es decir,
diferente a la base del genoma de referencia. En concreto, la base de referencia en esta posición es una
A, mientras que en este genoma existen un total de 30 secuencias alineadas o mapeadas en esa región
genómica que nos indican que existe un cambio nucleotídico de A ® G.

En la siguiente imagen se representa otro ejemplo, pero en este caso de un genoma donde esta
misma posición no está mutada (flecha roja). En esta región genómica han sido mapeadas un total de
27 secuencias y todas ellas nos muestran que en esta posición existe una A, la misma base que está
presente en el genoma de referencia.

Si observamos los 4 genomas problema, el segundo y tercer genoma presentan los dos polimor
fismos (T® C; A ® G) responsables del incremento en el número de lóculos, mientras que el primer y
último genoma no presentan mutaciones.

Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 109

Para terminar esta práctica, utilizando los 4 genomas de tomate previamente examinados, el alumno
deberá realizar las siguientes tareas:

• Localizar la región genómica donde se encuentra el gen de tomate TAG1 (So


lyc02g071730.2.1).
• Examinar y analizar dicha región con el objeto de identificar los polimorfismos
existentes en los 4 genomas problema.

En esta práctica únicamente se han abordado los aspectos básicos del manejo de la herramienta
IGV. Si está interesado en ampliar sus conocimientos sobre esta aplicación, puede consultar la guía
del usuario en el siguiente enlace:
https://www.broadinstitute.org/software/igv/UserGuide

Q Volver al índice
Corolario

Bases de datos bibliográficas


• PubMed: http://www.ncbi.nlm.nih.gov/pubmed/
• Web of Science: https://www.recursoscientificos.fecyt.es/
• Google Scholar: https://scholar.google.es/

Bases de datos biológicas


• Database of Biological Database: http://www.biodbs.info/
• European Molecular Biology Laboratory, EMBL: http://www.embl.de/
• National
DNA Data Bank for
Center of Japan,
Biotechnology Information, NCBI: http://www.ncbi.nlm.nih.gov/
DDJB: http://www.ddbj.nig.ac.jp/

• Flybase, http://flybase.org/
• The Arabidopsis Information Resource, TAIR: https://www.arabidopsis.org/
• Sol Genomics Network, SGN: https://solgenomics.net/
• ENSEMBL: http://www.ensembl.org/
• Plant Transcription Factor Database, PlantTFDB: http://planttfdb.cbi.pku.edu.cn/
• KEGG: http://www.genome.jp/kegg/

Análisis de secuencias
• BLAST: http://blast.ncbi.nlm.nih.gov/Blast.cgi/
• MUSCLE:
EMBOSS Needle:
http://www.ebi.ac.uk/Tools/msa/muscle/
http://www.ebi.ac.uk/Tools/psa/emboss_needle/

• Bioedit: http://www.mbio.ncsu.edu/BioEdit/bioedit.html/
• Multiple Em for Motif Elicitation, MEME: http://meme-suite.org/tools/meme/

Identificación de ORF (Open Reading Frame, marco abierto de lectura)


• ORFfinder: https://www.ncbi.nlm.nih.gov/orffinder/

Mapas de restricción
• WatCut: http://watcut.uwaterloo.ca/watcut/watcut/template.php/
• remap: http://www.bioinformatics.nl/cgi-bin/emboss/remap/
• Webcutter 2.0: http://rna.lundberg.gu.se/cutter2/

Diseño de oligonucleótidos
• Oligo: http://www.oligo.net/
• Primer designing tool – NCBI: http://www.ncbi.nlm.nih.gov/tools/primer-blast/
• Netprimer: http://www.premierbiosoft.com/netprimer/index.html/
• Primer3: http://bioinfo.ut.ee/primer3-0.4.0/

Q Volver al índice
112 Manual de prácticas de Bioinformática

Estructuras tridimensionales de proteínas


• Conserved Domain Database, CDD: http://www.ncbi.nlm.nih.gov/cdd/
• Structure, Molecular Modeling Database: http://www.ncbi.nlm.nih.gov/structure/

Construcción de árboles filogenéticos


• ClustalW2 - Phylogeny:
Phylogeny.fr: http://phylogeny.lirmm.fr/phylo_cgi/index.cgi/
http://www.ebi.ac.uk/Tools/phylogeny/clustalw2_phylogeny/

Diseño de ARçra CRISPR/Cas


• Breaking-Cas: http://bioinfogp.cnb.csic.es/tools/breakingcas/

Visualización y análisis de datos de secuenciación masiva


• Breaking-Cas: http://bioinfogp.cnb.csic.es/tools/breakingcas/
• UCSC Genome Browser: https://genome.ucsc.edu/
• Gbrowse: http://gmod.org/wiki/GBrowse/
• Integrative Genomics Viewer, IGV: http://www.broadinstitute.org/igv/home/

Q Volver al índice

Вам также может понравиться