Вы находитесь на странице: 1из 5

Instituto tecnolgico superior de lerdo

Materia: Administracin y organizacin de datos

Profesor: Ricardo de Jess Bustamante Gonzales

Alumno: Sergio Alejandro Carren Ramrez nm. Control: 10231151

Competencia 2

Formatos de archivos de secuencia

Introduccin
En este ensayo encontraremos primeramente lo que es un archivo y cuales tipos de archivos existen para despus centrarnos en los diferentes tipos de formatos de archivos de secuencia que existen y con esto describiremos las acciones que realizan cada uno de estos y en donde se pueden utilizar para hacer ms eficiente un trabajo que as lo requiera.

Formatos de archivos de secuencia


Empezaremos por mencionar que en el rea de la computacin bsicamente existen dos tipos de archivos: los ASCII y los archivos binarios, los archivos ASCII (American Standard Code for Information Interchange).es un estndar que asigna un valor numrico a cada carcter con los que podemos interpretar un texto que es legible por nosotros los humanos y por lo contrario los archivos binarios son los que solo una maquina puede interpretar. Jpg,gif,bmp,mpg,mov,avi,zip,doc,etc.Son ejemplos de archivos binarios que podemos encontrar en imgenes,videos,documentos,msica,etc.Los archivos ASCII se encuentran en formatos de texto o archivos de fuente o bien en lo que ya nosotros los conocemos cotidianamente es al interpretar con ayuda de dgitos, distintos signos,letras,etc,al redactar un documento en computadora. Por lo tanto todos los archivos son caracterizados por tener distintos formatos, que hacen ms fcil su reconocimiento por diferentes programas de manipulacin, un ejemplo de estos archivos es el PHYLIP, el GCG, etc. El formato PHYLIP es un formato de secuencias de nucletidos y de residuos de aminocidos utilizado con frecuencia como formato de entrada de paquetes o programas. Este formato contiene en su primera lnea el nmero de secuencias a analizar y luego, el nmero de caracteres que se encuentran separados por espacios en blanco nunca por comas. En seguida se coloca el nombre de cada dato en este caso de especie, teniendo en cuanta que solo se pueden utilizar mximo 10 caracteres, se puede incluir signos y espacios. Despus deben colocarse los caracteres en cdigo de una sola letra. Recordando que las secuencias pueden ser colocadas en columnas de 10 caracteres cada una de estas para as hacer ms fcil su lectura. Un dato importante es que el nmero de caracteres de las lneas debe ser igual.

Por ejemplo as se representa:

Archaeopt CGATGCTTAC CGCCGATGCT Hesperorn CGTTACTCGT TGTCTCTGCC Baluchith TAATGTTAAT TGTCGATGCT B. virgin TAATGTTCGT TGTCGAAGCA Brontosau CAAAACCCAT CATCGTTGCT B.subtili GGCAGCCAAT CACCGAAGCT TACCGCCGAT GCTTACCGC CGTTGTCGTT ACTCGTTGT AATTGTTAAT GTTAATTGT CGTTGTTAAT GTTCGTTGT CATCATCAAA ACCCATCAT AATCACGGCA GCCAATCAA Otro formato de archivo es el denominado GenBank que es utilizado principalmente para los reportes de secuencias siendo estos nucletidos as como aminocidos que se encuentran almacenados en este formato de archivo. Es caracterizado por que proporciona al usuario informacin completa sobre lo que sucede con la secuencia, tambin algunos programas suelen o pueden utilizar archivos que se obtienen en bsquedas en el GenBank pero para que pueda suceder esto, es necesario cambiarle el formato al archivo. El formato de archivo EMBL son bsicamente reportes creados por la base de datos de secuencias de nucletidos como sucede en el caso de los formatos de archivos pasados y tambin de protenas que se respaldan por EMBL que significa en espaol (laboratorio europeo biolgico molecular).en este formato sucede lo mismo que en el formato GenBank en donde los archivos pueden ser utilizados por los programas GCG, pero solo que en este se debe de cambiar su formato al ser utilizado por este paquete. A su vez el PIR es el formato de archivo con el que pueden o son generados los diferentes archivos que provienen de su misma base de datos principalmente. FASTA siendo uno de los formatos que se emplean ms en la actualidad, esto porque puede incluir ms de una secuencia lineal de los mismos componentes de los antecesores formatos de archivos que son: nucletidos o aminocidos de los cuales estos ltimos suelen ser no alineados. El CLUSTAL es tambin uno de los muchos y diferentes formatos de archivos de secuencias bsicamente alineadas que son ms utilizados por los diferentes programas de anlisis de secuencia, este tiene como principales caractersticas al igual que los anteriores formatos, tanto nucletidos as como aminocidos los cuales son representados tan solo por el cdigo de una letra en donde los gaps siempre son indicados por un guion y al final de las secuencias, puede que

aparezca una especie de secuencia con un signo ya sea un asterisco o puntos, etc. El formato de archivos de secuencia MSF es el formato que utiliza ms de dos secuencias las cuales estn alineadas y es en donde el punto (.)representa un gap y en donde los nucletidos o aminocidos tambin son representados en el cdigo pero con una letra en especifico y tambin las secuencia se escribe con la misma capacidad que los formatos pasados sea en columnas de diez letras y por ltimo la secuencia se marca por dos // llamados backslashes. El formato de archivo RSF siendo un tipo de formato de secuencias de nucletidos o aminocidos se utiliza ms que nada en algunos programas del GCG el cual permite introducir una o varias secuencias para as poder llevar a cabo un determinado anlisis. Este archivo tambin debe de poseer diferentes caractersticas de las cuales destacan: que debemos especificar de qu tipo de archivo se trata, escribir la informacin que se requiere colocar sobre esta por lo cual se debe de encerrar con comas y llaves esta parte del archivo, y por ultimo indicar el comienzo de la seccin con comillas. MSF del GCG para poder utilizar este formato de archivo como archivo de introduccin de los datos es necesario cumplir con ciertas caractersticas esenciales por ejemplo: especificar el tipo de archivo siguiendo un orden que es (!!CC_seccion)y mencionar el comienzo de la seccin que le corresponde a la secuencia el cual se representa de la siguiente manera(..)Comienzo de la secuencia (//). Conclusin Por ltimo es importante mencionar que los diferentes tipos de formatos de archivos en su mayora son parecidos todos y si no lo son tienen sus similitudes por muy leves que sean. En general y la caracterstica ms importante y primordial de los tipos de formatos de archivos de frecuencia es que sin ellos sera imposible que los archivos fueran identificados por los diferentes tipos de programas as sean de manipulacin o tambin de anlisis de secuencias.

Referencias bibliogrficas PHYLogeny Inference Package,[En Linea], [Fecha 08/02/2012].Disponible en la http://www.cecalc.ula.ve/bioinformatica/PHYLIP/phylip.html de Consulta web:

Вам также может понравиться