Академический Документы
Профессиональный Документы
Культура Документы
ANLISIS BIOINFORMTICO
SECUENCIAS NUCLEOTDICAS
CURSO:
Biologa Molecular
PROFESORA:
Mg. Giovanna Sotil
ALUMNOS:
INTRODUCCIN
El uso de la informtica (en especial la internet) ha permitido el avance acelerado de
muchas ramas de la ciencia, en particular la Biologa, durante estos ltimos aos. De
este modo, muchas empresas y/o organizaciones han hecho uso de esta gran
herramienta. Entre los diferentes modos de usos, en el presente trabajo hablaremos
en especial sobre el uso de base de datos bioinformticos, las que como su mismo
nombre dice almacena informacin de las diversas especies del mundo.
Lo que ms agrada de estas base s de datos, es que la gran mayora son libres, es
decir, donde quiera y a la hora que se desea, se puede buscar informacin gratis de
muchas especies, as como secuencias nucleotdicas y proteicas presentes en las
diversas especies de seres vivos y/o virus (algunos son de paga, pero al menos lo que
haremos en esta prctica es gratis).
Algunas base de datos son especializados en secuencias proteicas (como ProtParam
Tool o Protein Data Bank), otras almacenas artculos de diversas revistas, secuencias
de genes especficos y sus estudios consecuentes, estudios taxonmicos de diversas
especies, todo en conjunto (como NCBI), o algunos que permite observar la estructura
tridimensional de algunas protenas (como Protein Data Bank, con ayuda de la
herramienta Java).
En particular usaremos programas como CLUSTAL W2 (en la misma pgina web),
BioEdit, BLAST (tambin en la misma pgina web). Estos son programas que funcionan
como base de datos las cuales, en este caso, nos ayudar a predecir a qu secuencia
de nucletidos completa se parece en lo mayor posible una fraccin de nucletidos
dado.
Adems de predecir, tambin podemos editar dichas secuencias completas en los
formatos y colores que ms deseamos (por ejemplo, con el programa BioEdit).
OBJETIVOS
Analizar con el uso del CLUSTAL W2 la mejor manera de distribuir los genes
seleccionados, de tal manera que tenga la mayor interseccin posible (el
mayor parecido) entre ellos.
MARCO TERICO
National Center for Biotechnology Information - NCBI
El Centro Nacional para la Informacin Biotecnolgica o National Center for
Biotechnology Information (NCBI) es parte de la Biblioteca Nacional de Medicina de
Estados Unidos (National Library of Medicine), una rama de los Institutos Nacionales
de Salud (National Institutes of Health o NIH). Tiene la misin de ser una importante
fuente de informacin de biologa molecular. Almacena y constantemente actualiza la
informacin referente a secuencias genmicas en GenBank, un ndice de artculos
cientficos referentes a biomedicina, biotecnologa, bioqumica, gentica y genmica
en PubMed, una recopilacin de enfermedades genticas humanas en OMIM, adems
de otros datos biotecnolgicos de relevancia en diversas bases de datos.
Todas las bases de datos del NCBI estn disponibles en lnea de manera gratuita .
El NCBI ofrece adems algunas herramientas bioinformticas para el anlisis de
secuencias de ADN, ARN y protenas, siendo BLAST una de las ms usadas.
NCBI alberga genoma secuenciado en GenBank, y un ndice de los artculos
biomdicos de investigacin en PubMed Central y PubMed, as como otra informacin
relevante a la biotecnologa.
El NCBI es dirigido por David Lipman, uno de los autores originales del programa de
alineacin de secuencias BLAST y una figura extensamente respetada en
bioinformtica.
Basic Local Alignment Search Tool
BLAST
BLAST es un programa informtico de alineamiento de secuencias de tipo local, ya sea
de ADN, ARN o de protenas. El programa es capaz de comparar una secuencia
problema (tambin denominada en la literatura secuencia query) contra una gran
cantidad de secuencias que se encuentren en una base de datos. El algoritmo
encuentra las secuencias de la base de datos que tienen mayor parecido a la
secuencia problema. Es importante mencionar que BLAST usa un algoritmo heurstico
por lo que no nos puede garantizar que ha encontrado la solucin correcta. Sin
embargo, BLAST es capaz de calcular la significacin de sus resultados, por lo que nos
provee de un parmetro para juzgar los resultados que se obtienen.
Normalmente el BLAST es usado para encontrar probables genes homlogos. Por lo
general, cuando una nueva secuencia es obtenida, se usa el BLAST para compararla
con otras secuencias que han sido previamente caracterizadas, para as poder inferir
su funcin.
La aplicacin local de BLAST tiene la ventaja de que permite manejar varios
parmetros que en las bsquedas de NCBI estn estandarizados, por lo que provee
una mayor flexibilidad para los usuarios avanzados.
Algoritmo del BLAST
BLAST usa el algoritmo Smith-Waterman para realizar sus alineamientos . BLAST usa
una matriz de sustitucin de aminocidos o nucletidos para calificar sus
alineamientos. Dicha matriz contiene la puntuacin (tambin llamada score) que se le
da al alinear un nucletido o un aminocido X de la secuencia A con otro aminocido
Y de la secuencia B. Las matrices ms usadas para calificar alineamientos de protenas
son la BLOSUM y la PAM (ambas fueron obtenidas midiendo la frecuencia de los
aminocidos en una gran muestra de protenas). Tambin se permite al usuario
definir su propia matriz. El tipo de matriz usada es determinante para los resultados
que se obtendrn, el uso de una matriz incorrecta puede llevar a calificar
errneamente los alineamientos y por lo tanto obtener resultados equivocados.
El algoritmo de BLAST tiene tres etapas princ ipales: ensemillado, extensin y
evaluacin. A continuacin se describen brevemente cada una de ellas:
o Primera etapa: ensemillado o seeding.
En esta etapa se buscan "palabras" pequeas en las secu encias de la base de datos,
que corresponden a fragmentos de la secuencia problema. BLAST asume que los
alineamientos significativos deben contener estas palabras. Slo se consideran
significativas las palabras que tengan una puntuacin mayor a T (T es un parmetro
que se pueda modificar al usar el programa) y que se encuentren al menos a una
distancia A de otra palabra. W es otro parmetro usado por BLAST y se refiere al
tamao de las palabras a buscar. Ajustando los parmetros T, A y W se puede escoger
entre hacer un alineamiento sensible pero lento, o uno ms rpido pero con menor
sensibilidad.
BlastX: Este programa usa como entrada una secuencia de nuclotidos. Traduce la
secuencia en sus seis posibles marcos de lectura (tres marcos de lecturas por
hebra) y compara estas secuencias traducidas contra una base de datos de
protenas. Se usa cuando se tiene sospecha de que la secuencia de entrada
codifica para una protena pero no se sabe exactamente cul es su producto.
TBlastn: Compara una secuencia proteica con una base de datos de nuclotidos. Para
realizar esto traduce todas las secuencias de nucletidos en sus seis marcos
de lectura. Se usa cuando se tiene una protena, y el anlisis con Blastp no
ha sido exitoso. Se debe tener cuidado con los resultados de este Blast,
porque una buena cantidad de las secuencias traducidas no son protenas
que existan en la naturaleza.
TBlastX: Es la combinacin del TBlastn con el BlastX. Compara una secuencia de
nucletidos contra una base de datos de nucletidos, pero primero traduce
tanto la secuencia problema como la base de datos a protenas, usando los
seis marcos de lectura posibles. La mayora de los servidores pblicos no
aceptan usar esta opcin en combinacin con las bases de mayor tamao
debido a que la bsqueda es muy intensiva computacionalmente.
Bl2seq: Es un blast que compara dos secuencias entre ellas, en vez de comparar una
secuencia con una base de datos. Al usar el mismo algoritmo de BLAST, este
programa no es recomendable pa ra secuencias donde las regiones de
similitud estn muy separadas.
CLUSTAL
Clustal es un programa de computadora utilizado para realizar alineamientos
mltiples de secuencias.
BIOEDIT
En funcin de la complejidad y de la importancia de un buen alineamiento es
recomendable el uso de un editor de secuencias. Uno de los editores ms eficientes
disponibles gratuitamente en la web es Bioedit desarrollado por Ha ll (1999) para la
plataforma de Windows conteniendo funciones bsicas para la edicin, alineamiento,
manipulacin y anlisis de secuencias nucleotdicas y de protenas. Bioedit no es un
poderoso programa de anlisis de secuencias pero ofrece muchas rpida s y fciles
funciones para la edicin de las mismas. La longitud de las secuencias as como si
nmero es limitada solo por la memoria disponible por el sistema del usuario.
Este programa puede importar archivos directamente desde el formato BioEdit,
Genbank, Fasta, NBRF/PIR, Phylip, as como el formato ABI obtenido directamente de
los secuenciadores automticos.
ALINEAMIENTO MLTIPLE DE SECUENCIAS - MSA
Un alineamiento mltiple de secuencias (MSA, por sus siglas en ingls) es un
alineamiento de tres o ms secuencias biolgicas, generalmente protenas, ADN o
ARN. En general, se asume que el conjunto de secuencias de consulta que se ingresa
como entrada (conjunto problema) tienen una relacin evolutiva por la cual
comparten un linaje y descienden de un ancestro comn. Del MSA resultante, se
puede inferir la homologa, y puede llevarse a cabo el anlisis filogentico para
evaluar los orgenes evolutivos compartidos por las secuencias. Las representaciones
visuales del alineamiento ilustran mutaciones tales como mutaciones puntuales (un
solo cambio de aminocidos o nucletidos) que aparecen como diferentes caracteres
en una sola columna del alineamiento, y la insercin o supresin de mutaciones (o
gaps) que aparecen como huecos en una o varias de las secuencias en la alineacin. El
alineamiento mltiple de secuencias a menudo se utiliza para evaluar la conserv acin
de los dominios proteicos, las estructuras terciarias y secundarias, e incluso
aminocidos o nucletidos individuales.
Como puede ser difcil alinear a mano tres o ms secuencias de longitud
biolgicamente relevante, y casi siempre consume mucho tiempo, se utilizan
algoritmos computacionales para producir y analizar los alineamientos. Los MSA
requieren metodologas ms sofisticadas que los alineamientos de pares porque son
computacionalmente ms complejos de producir. La mayor parte de los programas de
PROCEDIMIENTO EXPERIMENTAL
Se nos proporcion las siguientes secuencias
En vista de que el programa no alcanza a reconocer todos los picos que indican la presencia de
nucletidos marcados con fluorforos, hubo que utilizar el criterio humano para hacer coincidir,
segn tamao y color de los picos, las secuencias dadas.
Luego se procedi a copiar la secuencia en una sola plantilla del block de notas
Se abri el archivo fasta que contena las dos secuencias trabajadas previamente, desde el
programa Bioedit, para proceder al alineamiento mediante la herramienta ClustalW.
Luego del alineamineto se procedi a crear la secuencia concenso, con lo cual se seguira el
resto del anlisis.
Al comparar los resultados de del Bold System y BLASTn: Se tom el criterio para seleccionar
los especmenes que se utilizaran en el anlisis filogentico.
Se descarg en formato Fasta las secuencias de los especmenes con los que se realizar el
anlisis filogentico.
Mediante el software Bioedit se realizo el alineamiento mltiple de todas las secuencias que se
analizaron.
Una vez alineadas se exportaron las secuencias en formato fasta, para su posterior anlisis
con el software MEGA.
DISCUSIONES: El siguiente rbol muestra las relaciones filogenticas propuestas por el autor
PRICE, R. et al. (2011). En el cual se observa ms de una especie el mismo gnero,
adicionalmente se observan clados monofilticos y algunos otros clados que se han mantenido
a partir de un nodo basal. Los resultados obtenidos mediante nuestro anlisis informtico no
son comparables con esta referencia, pero se obtuvo algunos grupos monofilticos y clados
monotpicos. Se sugiere hacer un anlisis comparado con un mayor nmero de especmenes.
Conclusin
Se concluye que a travs de herramientas bioinformticas se puede realizar un anlisis
de secuencias nucleotdicas que nos permitan dilucidar las relaciones filogenticas
entre diversos organismos a partir de muestras de ADN secuenciados de genes
marcadores.