Вы находитесь на странице: 1из 28

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS BIOLGICAS


E.A.P. MICROBIOLOGA Y
PARASITOLOGA

ANLISIS BIOINFORMTICO
SECUENCIAS NUCLEOTDICAS
CURSO:

Biologa Molecular

PROFESORA:
Mg. Giovanna Sotil
ALUMNOS:

Garro Salvador Natalia Ximena


Villegas Coblentz Julio Cesar
Gonzales Dahua Jean Patrick
Llanos Rosales Carlos Daniel
Ramirez Montano Luis Fernando
Sullca Sulca Franklin Alberto

INTRODUCCIN
El uso de la informtica (en especial la internet) ha permitido el avance acelerado de
muchas ramas de la ciencia, en particular la Biologa, durante estos ltimos aos. De
este modo, muchas empresas y/o organizaciones han hecho uso de esta gran
herramienta. Entre los diferentes modos de usos, en el presente trabajo hablaremos
en especial sobre el uso de base de datos bioinformticos, las que como su mismo
nombre dice almacena informacin de las diversas especies del mundo.
Lo que ms agrada de estas base s de datos, es que la gran mayora son libres, es
decir, donde quiera y a la hora que se desea, se puede buscar informacin gratis de
muchas especies, as como secuencias nucleotdicas y proteicas presentes en las
diversas especies de seres vivos y/o virus (algunos son de paga, pero al menos lo que
haremos en esta prctica es gratis).
Algunas base de datos son especializados en secuencias proteicas (como ProtParam
Tool o Protein Data Bank), otras almacenas artculos de diversas revistas, secuencias
de genes especficos y sus estudios consecuentes, estudios taxonmicos de diversas
especies, todo en conjunto (como NCBI), o algunos que permite observar la estructura
tridimensional de algunas protenas (como Protein Data Bank, con ayuda de la
herramienta Java).
En particular usaremos programas como CLUSTAL W2 (en la misma pgina web),
BioEdit, BLAST (tambin en la misma pgina web). Estos son programas que funcionan
como base de datos las cuales, en este caso, nos ayudar a predecir a qu secuencia
de nucletidos completa se parece en lo mayor posible una fraccin de nucletidos
dado.
Adems de predecir, tambin podemos editar dichas secuencias completas en los
formatos y colores que ms deseamos (por ejemplo, con el programa BioEdit).
OBJETIVOS

Aprender a usar las diferentes bases de datos informticos que se puede


disponer en la internet.

Determinar a qu especie pertenece (o al menos ms parece) la secuencia


dada por la profesora, con el uso de la base de datos BLAST.

Analizar con el uso del CLUSTAL W2 la mejor manera de distribuir los genes
seleccionados, de tal manera que tenga la mayor interseccin posible (el
mayor parecido) entre ellos.

Editar las secuencias mltiples con el objetivo que sean lo ms comprensibles


posibles segn lo que se desea explicar

MARCO TERICO
National Center for Biotechnology Information - NCBI
El Centro Nacional para la Informacin Biotecnolgica o National Center for
Biotechnology Information (NCBI) es parte de la Biblioteca Nacional de Medicina de
Estados Unidos (National Library of Medicine), una rama de los Institutos Nacionales
de Salud (National Institutes of Health o NIH). Tiene la misin de ser una importante
fuente de informacin de biologa molecular. Almacena y constantemente actualiza la
informacin referente a secuencias genmicas en GenBank, un ndice de artculos
cientficos referentes a biomedicina, biotecnologa, bioqumica, gentica y genmica
en PubMed, una recopilacin de enfermedades genticas humanas en OMIM, adems
de otros datos biotecnolgicos de relevancia en diversas bases de datos.
Todas las bases de datos del NCBI estn disponibles en lnea de manera gratuita .
El NCBI ofrece adems algunas herramientas bioinformticas para el anlisis de
secuencias de ADN, ARN y protenas, siendo BLAST una de las ms usadas.
NCBI alberga genoma secuenciado en GenBank, y un ndice de los artculos
biomdicos de investigacin en PubMed Central y PubMed, as como otra informacin
relevante a la biotecnologa.
El NCBI es dirigido por David Lipman, uno de los autores originales del programa de
alineacin de secuencias BLAST y una figura extensamente respetada en
bioinformtica.
Basic Local Alignment Search Tool
BLAST
BLAST es un programa informtico de alineamiento de secuencias de tipo local, ya sea
de ADN, ARN o de protenas. El programa es capaz de comparar una secuencia
problema (tambin denominada en la literatura secuencia query) contra una gran
cantidad de secuencias que se encuentren en una base de datos. El algoritmo
encuentra las secuencias de la base de datos que tienen mayor parecido a la
secuencia problema. Es importante mencionar que BLAST usa un algoritmo heurstico

por lo que no nos puede garantizar que ha encontrado la solucin correcta. Sin
embargo, BLAST es capaz de calcular la significacin de sus resultados, por lo que nos
provee de un parmetro para juzgar los resultados que se obtienen.
Normalmente el BLAST es usado para encontrar probables genes homlogos. Por lo
general, cuando una nueva secuencia es obtenida, se usa el BLAST para compararla
con otras secuencias que han sido previamente caracterizadas, para as poder inferir
su funcin.
La aplicacin local de BLAST tiene la ventaja de que permite manejar varios
parmetros que en las bsquedas de NCBI estn estandarizados, por lo que provee
una mayor flexibilidad para los usuarios avanzados.
Algoritmo del BLAST
BLAST usa el algoritmo Smith-Waterman para realizar sus alineamientos . BLAST usa
una matriz de sustitucin de aminocidos o nucletidos para calificar sus
alineamientos. Dicha matriz contiene la puntuacin (tambin llamada score) que se le
da al alinear un nucletido o un aminocido X de la secuencia A con otro aminocido
Y de la secuencia B. Las matrices ms usadas para calificar alineamientos de protenas
son la BLOSUM y la PAM (ambas fueron obtenidas midiendo la frecuencia de los
aminocidos en una gran muestra de protenas). Tambin se permite al usuario
definir su propia matriz. El tipo de matriz usada es determinante para los resultados
que se obtendrn, el uso de una matriz incorrecta puede llevar a calificar
errneamente los alineamientos y por lo tanto obtener resultados equivocados.
El algoritmo de BLAST tiene tres etapas princ ipales: ensemillado, extensin y
evaluacin. A continuacin se describen brevemente cada una de ellas:
o Primera etapa: ensemillado o seeding.
En esta etapa se buscan "palabras" pequeas en las secu encias de la base de datos,
que corresponden a fragmentos de la secuencia problema. BLAST asume que los
alineamientos significativos deben contener estas palabras. Slo se consideran
significativas las palabras que tengan una puntuacin mayor a T (T es un parmetro
que se pueda modificar al usar el programa) y que se encuentren al menos a una
distancia A de otra palabra. W es otro parmetro usado por BLAST y se refiere al
tamao de las palabras a buscar. Ajustando los parmetros T, A y W se puede escoger
entre hacer un alineamiento sensible pero lento, o uno ms rpido pero con menor
sensibilidad.

o Segunda etapa: extensin.


Una vez obtenidas las palabras que cumplen con los criterios dados, se pasa a la etapa
de extensin. En esta etapa el alineamiento se va extendiendo a ambos lados de las
palabras. La extensin realizada en este punto se realiza haciendo uso del algoritmo
de Smith-Waterman. BLAST va extendiendo el alineamiento hasta que la puntuacin
del alineamiento descienda X o ms puntos con respecto a la puntuacin ms alta
obtenida anteriormente. Aqu reside el factor heurstico del BLAST, ya que al imponer
el lmite X, evita extender a lo largo de toda la secuencia todos los alineamientos
(proceso que llevara demasiado tiempo). El peligro que esto conlleva es que el
programa se puede quedar atorado en un mximo local. Es por ello que la definicin
de X es determinante para el resultado.
o Tercera etapa: evaluacin
Una vez terminada la extensin de todas las palabras, cada uno de los alineamientos
realizados es evaluado para determinar su significacin estadstica. Para ello, el
programa elimina los alineamientos inconsistentes (alineamientos que junten la
misma parte de la secuencia problema con distintas partes de una secuencia en la
base de datos). Los alineamientos resultantes son llamados pares de alta puntuacin
(High Score Pairs o HSPs, por sus siglas en ingls). Una vez realizado esto, se calcula la
puntuacin final de los alineamientos resultantes y se determina su significacin
tomando en cuenta la probabilidad que tiene dicho alineamiento de haber sido
obtenido por azar de acuerdo al tamao de la base de datos. Al final se reportan slo
los alineamientos que hayan obtenido una probabilidad menor a E. El parmetro E es
conocido como e -valor (e-value) de corte, y nos permite definir qu alineamientos
queremos obtener de acuerdo a su significacin est adstica. Cuanto menor sea el
valor de E, ms significativo es un alineamiento.
Programas de la familia BLAST
Blastn: Compara una secuencia de nucletidos contra una base de datos qu e
contenga tambin secuencias nucleotdicas.
Blastp: Compara una secuencia de aminocidos contra una base de datos del mismo
tipo. Usualmente usa la matriz de sustitucin BLOSUM o PAM para realizar los
alineamientos, aunque puede usar una matriz definida por el usuario.

BlastX: Este programa usa como entrada una secuencia de nuclotidos. Traduce la
secuencia en sus seis posibles marcos de lectura (tres marcos de lecturas por
hebra) y compara estas secuencias traducidas contra una base de datos de
protenas. Se usa cuando se tiene sospecha de que la secuencia de entrada
codifica para una protena pero no se sabe exactamente cul es su producto.
TBlastn: Compara una secuencia proteica con una base de datos de nuclotidos. Para
realizar esto traduce todas las secuencias de nucletidos en sus seis marcos
de lectura. Se usa cuando se tiene una protena, y el anlisis con Blastp no
ha sido exitoso. Se debe tener cuidado con los resultados de este Blast,
porque una buena cantidad de las secuencias traducidas no son protenas
que existan en la naturaleza.
TBlastX: Es la combinacin del TBlastn con el BlastX. Compara una secuencia de
nucletidos contra una base de datos de nucletidos, pero primero traduce
tanto la secuencia problema como la base de datos a protenas, usando los
seis marcos de lectura posibles. La mayora de los servidores pblicos no
aceptan usar esta opcin en combinacin con las bases de mayor tamao
debido a que la bsqueda es muy intensiva computacionalmente.
Bl2seq: Es un blast que compara dos secuencias entre ellas, en vez de comparar una
secuencia con una base de datos. Al usar el mismo algoritmo de BLAST, este
programa no es recomendable pa ra secuencias donde las regiones de
similitud estn muy separadas.
CLUSTAL
Clustal es un programa de computadora utilizado para realizar alineamientos
mltiples de secuencias.

ClustalW: interfaz de lnea de comandos


ClustalX: esta versin tiene una interfaz grfica. Est disponible para
Unix/Linux, Mac OS y Windows.

Este programa acepta un amplio rango de formatos de entrada. Incluyendo NBRF/PIR,


FASTA, EMBL/Swissprot, Clustal, GCC/MSF, GCG9 RSF y GDE.
El formato de salida puede ser alguno de los siguientes: Clustal, NBRF/ PIR, GCG/MSF,
PHYLIP, GDE, NEXUS

BIOEDIT
En funcin de la complejidad y de la importancia de un buen alineamiento es
recomendable el uso de un editor de secuencias. Uno de los editores ms eficientes
disponibles gratuitamente en la web es Bioedit desarrollado por Ha ll (1999) para la
plataforma de Windows conteniendo funciones bsicas para la edicin, alineamiento,
manipulacin y anlisis de secuencias nucleotdicas y de protenas. Bioedit no es un
poderoso programa de anlisis de secuencias pero ofrece muchas rpida s y fciles
funciones para la edicin de las mismas. La longitud de las secuencias as como si
nmero es limitada solo por la memoria disponible por el sistema del usuario.
Este programa puede importar archivos directamente desde el formato BioEdit,
Genbank, Fasta, NBRF/PIR, Phylip, as como el formato ABI obtenido directamente de
los secuenciadores automticos.
ALINEAMIENTO MLTIPLE DE SECUENCIAS - MSA
Un alineamiento mltiple de secuencias (MSA, por sus siglas en ingls) es un
alineamiento de tres o ms secuencias biolgicas, generalmente protenas, ADN o
ARN. En general, se asume que el conjunto de secuencias de consulta que se ingresa
como entrada (conjunto problema) tienen una relacin evolutiva por la cual
comparten un linaje y descienden de un ancestro comn. Del MSA resultante, se
puede inferir la homologa, y puede llevarse a cabo el anlisis filogentico para
evaluar los orgenes evolutivos compartidos por las secuencias. Las representaciones
visuales del alineamiento ilustran mutaciones tales como mutaciones puntuales (un
solo cambio de aminocidos o nucletidos) que aparecen como diferentes caracteres
en una sola columna del alineamiento, y la insercin o supresin de mutaciones (o
gaps) que aparecen como huecos en una o varias de las secuencias en la alineacin. El
alineamiento mltiple de secuencias a menudo se utiliza para evaluar la conserv acin
de los dominios proteicos, las estructuras terciarias y secundarias, e incluso
aminocidos o nucletidos individuales.
Como puede ser difcil alinear a mano tres o ms secuencias de longitud
biolgicamente relevante, y casi siempre consume mucho tiempo, se utilizan
algoritmos computacionales para producir y analizar los alineamientos. Los MSA
requieren metodologas ms sofisticadas que los alineamientos de pares porque son
computacionalmente ms complejos de producir. La mayor parte de los programas de

alineamiento mltiple de secuencias usan mtodo s heursticos en


lugar de optimizacin global, porque identificar el alineamiento ptimo
entre
ms
de
unas pocas secuencias de longitud moderada es
prohibitivamente costoso computacionalmente.

PROCEDIMIENTO EXPERIMENTAL
Se nos proporcion las siguientes secuencias

En vista de que el programa no alcanza a reconocer todos los picos que indican la presencia de
nucletidos marcados con fluorforos, hubo que utilizar el criterio humano para hacer coincidir,
segn tamao y color de los picos, las secuencias dadas.

Despus de completado el emparejamiento se procedi a guardar la secuencia en formato


FASTA

Luego se procedi a copiar la secuencia en una sola plantilla del block de notas

Se abri el archivo fasta que contena las dos secuencias trabajadas previamente, desde el
programa Bioedit, para proceder al alineamiento mediante la herramienta ClustalW.

Luego del alineamineto se procedi a crear la secuencia concenso, con lo cual se seguira el
resto del anlisis.

Se pas a exportar la secuencia consenso a formato fasta

Para la identificacin de la especie a la cual pertenece la secuencia estudiada, se utiliz la base


de datos online Boldsystem.

En la opcin Identification se insert la secuencia consenso.

Dando como resultado que la secuencia analizada perteneca a la genero Philine.

Se realiz el mismo procedimiento con la herramienta Blastn

Con lo cual se obtuvo el siguiente resultado:

Al comparar los resultados de del Bold System y BLASTn: Se tom el criterio para seleccionar
los especmenes que se utilizaran en el anlisis filogentico.

Se descarg en formato Fasta las secuencias de los especmenes con los que se realizar el
anlisis filogentico.

Mediante el software Bioedit se realizo el alineamiento mltiple de todas las secuencias que se
analizaron.

Una vez alineadas se exportaron las secuencias en formato fasta, para su posterior anlisis
con el software MEGA.

Con el software MEGA se convirti el formato Clustal a un formato compatible.

Se realizo el anlisis filogentico utililizando el modelo Neiborg Joining

Los parmetros se utilizaron por default.

A continuacin se muestra el arbol filogentico obtenido mediante el anlisis Neiborg


Joining.

DISCUSIONES: El siguiente rbol muestra las relaciones filogenticas propuestas por el autor
PRICE, R. et al. (2011). En el cual se observa ms de una especie el mismo gnero,
adicionalmente se observan clados monofilticos y algunos otros clados que se han mantenido
a partir de un nodo basal. Los resultados obtenidos mediante nuestro anlisis informtico no
son comparables con esta referencia, pero se obtuvo algunos grupos monofilticos y clados
monotpicos. Se sugiere hacer un anlisis comparado con un mayor nmero de especmenes.

Conclusin
Se concluye que a travs de herramientas bioinformticas se puede realizar un anlisis
de secuencias nucleotdicas que nos permitan dilucidar las relaciones filogenticas
entre diversos organismos a partir de muestras de ADN secuenciados de genes
marcadores.

Вам также может понравиться