Вы находитесь на странице: 1из 66

ANALISIS DE SECUENCIAS

El dogma central
DNA

CCTGAGCCAACTATTGATGAA

transcription

RNA

CCUGAGCCAACUAUUGAUGAA

traduccion

Proteina

PEPTIDE

MAGNITUD DE LA INFORMACIN GENETICA


Si toda la secuencia del genoma humano es compilada esta
ocuparia 200 guias telefonicas como las de la ciudad de
Manhattan (cada una con 1000 pginas)
Tamao de la secuencia Humana 3.4 X 109pb

ORGANISMO

Genoma: compilado

Mosca de la Fruta: Drosophila

10 vol

Levaduras:

1 vol 15X106

Bacterias: E. coli

300 pg

Cromosoma 3 de levadura

pb
15X107

4.6X106

14 pg

350X103

Chemistry
Biology
Molecular
biology

Mathematics
Statistics

Bioinformatics
Computer
Science
Informatics

Medicine
Physics

Bioinformatica
Relacionado a Biologia Molecular:
(Estadistico) Analisis de proteinas y de estructura nucleotidica
Plegamiento de proteina
Interaccion proteina-proteina y proteina nucleotido

Muchos metodos esenciales se se generaron antes de


la era genomica
Analisis de secuencias de proteinas (alineamiento de
secuencias por pares y multiple alineamiento)
Prediccion de estructura secundaria proteica

Estudios evolutivos
Reconstruccion filogenetica (clustering NJ method)

BASE DE DATOS DE
SECUENCIAS
UniProt (formerly called SwissProt)
(http://www.expasy.uniprot.org/)
PIR (http://pir.georgetown.edu/home.shtml)
NCBI NR-dataset () -- all non-redundant GenBank CDS
translations+RefSeq
Proteins+PDB+SwissProt+PIR+PRF
EMBL databank (http://www.ebi.ac.uk/embl/)
trEMBL databank (http://www.ebi.ac.uk/trembl/)
GenBank
(http://www.ncbi.nlm.nih.gov/Genbank/index.html)

METODO DE PROYECTO GENOMA


DNA genomico

Biblioteca de BACs
Organizacin por mapeo y
agrupacion de clones

Secuenciacion deBAC
Subclones del BAC
Secuencia de subclones
Organizacin o emsamblaje
de la secuencia

RawGenomeData:

El siguiente paso es localizar todos los


genes y describir su funcion. 15-20 aos
mas!

Functional Genomics
From gene to function
Genome
Expressome

Proteome
TERTIARY STRUCTURE (fold)

TERTIARY STRUCTURE (fold)

Metabolome

AGGCTATCACCTGACCTCCAGGCCGATGCCC
TAGCTATCACGACCGCGGTCGATTTGCCCGAC
-AGGCTATCACCTGACCTCCAGGCCGA--TGCCC--TAG-CTATCAC--GACCGC--GGTCGATTTGCCCGAC

COMPARACION DE SECUENCIAS

Secuencia: A
LPS S KTGKG E S L S R IWD N
Secuencia: B
LT K S AG K G AS R I D A
ALINEAMIENTO GLOBAL

gaps introducidos
LPS S KTGKG E S L S R IWD N
|
|
| | |
| | |
|
L T K S AG K G A S R I D A
ALINEAMIENTO LOCAL

bloques de secuencias alineados


GKG SRI
| | |
| | |
G K G S R I

MTODOS DE ALINEAMIENTO
1.Mtodo de diagrama o Dot Matrix para comparar
secuencias.
2.Algoritmo de programacin dinmica.
3. Metodo de alineamiento estadistico

DOT MATRIX O METODO GRAFICO PARA COMPARAR SECUENCIAS


M
M

Insercin / delecin
0

Divergencia

Repeticiones internas
0

PROGRAMACION DINAMICA
GENERACION DE MATRICES PAM
Basada en puntos de mutacin
GENERACION DE MATRICES BLOSUM
Es generada en alineamiento de bloques. La escala mas empleada es Blosum
62
ALINEAMIENTO POR METODO ESTADISTICO BAYESIANO
Los algoritmos empleando mtodos estadsticos bayesianos pueden ser empleados
desde la pagina web: www.wadsworth.org/res&res/bioinfo/

ALINEAMIENTO MULIPLE
SeqA N

SeqB N

SeqC N

SeqD N

NYLS

NKYLS
+K

NFS
-L

Y a F

NFLS

ALINEAMIENTO MULIPLE
PROGRAMACION DINAMICA
Para N secuencias se construye un hipercubo de N dimensiones y el nmero de comparaciones
de de una secuencia de X aminoacidos es de Xn

Secuencia C

B con C

A con B con C
A con B

Secuencia B
A con C

Secuencia A

ALINEAMIENTO MULIPLE
METODO PROGRESIVO Genera un Ancestro de las dos secuencias ms proximas. Ej.
Clustal, PILEUP

NYLS

NKYLS

N K/- Y L S

NFS

N F L/- S

N K/- Y/F L/- S

NFLS

DIRECCIONES ELECTRONICA PARA ACCEDER A PROGRAMAS DE ALINEAMIENTO DE PARES


DE SECUENCIAS
PROGRAMA

UBICACIN WEB

TIPO DE ALINEAMIENTO

Laling

www.ch.embnet.org/software/LALIGN_form.html

Global/local

http//fasta.bioch.virginia.edu/fasta_www/plalign.html
USC

www-hto.usc.edu/software/seqaln/seqaln-query.html

Alion

fold.Standford.edu/alion/

Global/local

Align

genome.cs.mtu.edu/alion/

Global/local

www.ebi.ac.uk/emboss/align

Global/local

Blast2seqs

www.ncbi.nih.gov/blast/bl2seq/bl2.html

Global/local

Local BLAST

web.umassmed.edu/cgi-bin/BLAST/blast2seqs
lalnview
prss

www.expasy.ch/tools/sim-pro.html

Visualizacin

www.ch.embnet.org/software/PRSS_form.html

Evaluacin

fasta.bioch.virginia.edu/fasta/pss.htm
Bayes block aligner
SIM
GAP, NAP

http://www.wadsworth.org/res&res/bioinfo

http://www.expasy.ch/tools/sim.html
http://genome.cs.mtu.edu/align/align.html

Local

Local
Local

DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS


Alineamiento global incluyendo el alineamiento progresivo
ClustalW o ClustalX

FTP to ftp://ftp-igbmc.ustrasb.fr/pub/clustalW o X

DCA

http://bibiserv.techfak.uni-biefield.de/dca

MSA

http://www.psc.edu/
http://www.ibc.wustl.edu/ibc/msa.html
FTP to fastlink.nih.gov/pub/msa

PRALINE

http://mathbio.nimr.mrc.ac.uk/jhering/praline

Iterativo y otros mtodos


IterAlign

http://glotto.Stanford.edu/luciano/iteralign.html

PRRP

ftp://ftp.genome.ad.jp/pub/genome/saitama-cc

SAM

rph@cse.ucsc.edu

HMM

http://hmmer.wustl.edu/

GA

czhang@watnow.uwaterloo.ca

OMA

http://bibiserv.techfak.uni-biefield.de/oma

DIALIGN

http:/www.gsf.de/biodv/dialign.html
http://protein.toulouse.inra.fr/multalin.html

ComAlign

http:www.daimi.au.df/ocaprani

SAGA

http:/ligs-server.cms-mrs.fr/cnotrd/Projects_home_page/saga_home_page.html

T-Coffee

http://igs-server.cms-ms.fr/cnotred

DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS


Alineamiento local de proteinas
ASSET (aligned Segment Statical Evaluation Tools)
FTP to ncbi.nml.nih.gov/pub/neuwald/asset
BLOCKS

http://blocks.fhcrc.org/blocks/

eMOTIF

http://dna.Stanford.EDU/emotif/

GIBB

FTP to ncbi.nlm.nih.gov/pub/neuwald/gibbs9_95/

HMMER (Hidden Markov model software)


http://hmmer.wustl.edu/
MACAW

FTP to ncbi.nlm.nih.gov/pub/macaw

MEME

http://meme.sdsc.edu/meme/website/

UCSD

http://www.sdsc.edu/project/profile/

SAM

http://www.cse.ucsc.edu/research/compbio/sam.html

Filogenia

Evolucion = mutaciones de secuencias


de DNA (y proteinas)
Podemos definir relacion evolutiva entre
organismos comparando secuencias de
DNA

PREDICCION FILOGENETICA
Mtodo de Mxima Parsimonia
Los programas de Parsimonia en el paquete Phylip para cidos
nucleicos son:
DNAPARS que trata al gap como un quinto nucletido
DNAPENNY modifica la parsimonia por ramas y enlaces. Puede
analizar ms secuencias (11 12)
DNACOMP Emplea el criterio de compatibilidad. Este programa
encuentra al rbol que mantiene el mayor numero de sitios o
lugares. Este mtodo es recomendado cuando el porcentaje de
evolucin vara en las regiones.
DNAMOVE interacta la parsimonia y compatibilidad.
Para anlisis de protenas: PROTPARS contabiliza el nmero
mnimo de mutaciones para cambiar un codon. Mutaciones silentes
que no cambian aminocidos no tienen puntuaciones y no tienen
significancia evolutiva.

PREDICCION FILOGENETICA
Mtodos de anlisis de distancia evolutiva
Programas que emplean distancia evolutiva:
DNADIST programa contenido en el paquete Phylip calcula la distancia en
cidos nucleicos contemplando el porcentaje de transversiones y transiciones

PROTDIST calcula la distancia en protenas basada en el modelo de


Dayhoff PAM u otros modelos de cambios en protenas.
FITCH estima un rbol empleando el mtodo Fitch-Margoliash y no
considera el reloj molecular.
KITSCH estima el rbol empleando el mtodo Fitch-Margoliash pero
considerando el reloj molecular.
NEIGHBOR estima la filogenia empleando el mtodo Neighbor-joining no
considera el reloj molecular y produce rboles sin orgenes.

PREDICCION FILOGENETICA
Mtodo de la Mxima probabilidad (The Maximun Likelihood
approach)
El mtodo emplea los clculos de probabilidad para ubicar el mejor
rbol relacionado a las variaciones del grupo de secuencias. Es un
mtodo muy similar al de mtodo de Mxima Parsimonia.
Requiere de tres elementos. Un modelo de evolucin de las
secuencias, un rbol y un dato observado.
El paquete de programas de anlisis Phylip contiene dos programas
que emplean este mtodo de Mxima probabilidad:
El DNAML estima la filogenia de acuerdo a una frecuencia variable
de los cuatro nucletidos, y un desigual porcentaje de transiciones y
transversiones.
El DNAMLK que estima la filogenia de la misma manera que el
DNAML pero asume la existencia del reloj molecular (los genes
evolucionan en una constante denominada reloj molecular).

PREDICCION DE SECUENCIAS DE PROTEINAS POR


TRADUCCION
El principal problema es identificar una secuencia de aminocidos que
est codificada en una secuencia geonmica, para ello debemos
comprender la manera en la cual los genes son especificados en el
genoma o en otras palabras descifrar el cdigo gentico.
Los genes en los organismos eucariotas no se encuentran contiguos ni
continuos, el genoma presenta regiones intergnicas largas y los genes
son interrumpidos por intrones que en muchos genomas constituyen la
mayor parte de la secuencia.
Diversas seales en las secuencias de ADN estn involucradas en la
especiacin de genes, entre ellas tenemos a los elementos promotores,
los motivos de terminacin de la transcripcin, los sitios donadores y
aceptores de empalme (splicing) y los codones de inicio y
terminacin de la traduccin

http://www.ebi.ac.uk/Tools/sequence.html

Proteins and Evolution


YRVAFEPTLDAYANLRDFEGVKKITPE

YRMFEPKLDAFANLRDFLREGVKKITSA
FRVAKFELDKYANLRWENVKKITPGWE

Time

Time

YRVFEPDAYANLRDFLEGVKKITSE
YRVAKFELDAYANLRWENVKKITPE

YRMFEPKLDAFANLRDFLREGVKKITSA
FRVAKFELDKYANLRWYENAKKITPGWE
YRMFEPKLDAFANLRDFLAREGLKKITSA
FRVAKFEIDKYANLNRWYENAKKVTPGWEE

YRMFEPKCLDAFANLRDFLARFEGLKKISA

FRVAKFEIDKYANLNRWYENAKKVTPGWEE
.:.::.:.:::..:.::..
YRMFEPKCLDAFANLRDFLARFEGLKKISA

Encontrar genes en el genoma no es facil


Cerca del 2% del genoma codifica son genes funcionales.
Los genes estan interespaciados entre grandes regiones no
codantes.
Repeticiones, pseudo-genes, e intrones provocan confusion
Es posible usar patrones de DNA para predecir un gen:
promotores
Codones de inicio y de stop (ORFs)
Sition de splicing
codon bias
Tambien puede usarse la similaridad a genes conocidos /ESTs

PROGRAMAS PARA LA VISUALIZACION DE ESTRUCTURAS PROTEICAS


Programa Localizacin WEB

Caracteristicas

CHIME http:www.umass.edu/microbio/chime/ Permite manipular la estructura


dentro de la pagina WEB
Cn3d

http://www.ncbi.nlm.nih.gov/Structure/Puede superponer imgenes para


realizar anlisis de resonancia
magntica nuclear

Mage

http://Kinemage.biochem.duke/website/kinhome.html
Visualizador estandar con animacin.

Rasmol

http://www.umass.edu/microbio/rasmol/

Es el mas completo de los

visualizadores
Swiss 3D http://www.expasy.ch/spdv/mainpage.html

Puede construir alineamiento

Viewer

estructural, calcula ngulos

Spdbv

atmicos y distancia, minimiza


la energa de la molcula e
interactua con el servidor Swiss
Model

ANALISIS DE SECUENCIAS EN EL GENBANK

Peptido

A
Peptido B

Peptido

Peptido B

Peptido A

PREDICCION DE FILOGENIA

Empleo de BIOEDIT para multiplealineamiento

Вам также может понравиться