Академический Документы
Профессиональный Документы
Культура Документы
Vctor Valds Lpez, Luisa Alba Lois, Claudia Segal Kischinevzky, Aristides
III Sampieri Hernndez, Joel Corona Pacheco y Alfonso Vilchis Peluyera.
Resumen
Desde que qued establecido que la informacin gentica de los sistemas
biolgicos se almacena en la forma de grandes molculas de DNA que constituyen
los genomas, se inici la bsqueda para desarrollar metodologas que permitieran
analizar las secuencias y comprender la estructura, regulacin, funcionamiento,
interacciones y evolucin de los genes y genomas. Inicialmente, la secuenciacin
se limitaba a establecer el orden de genes individuales. Con la llegada de tcnicas
de secuenciacin masiva, fue posible iniciar la secuenciacin de genomas
completos. Ambos aspectos se complementan en el sentido de que el genoma
completo permite tener una visin global, que se integra con la informacin
derivada de genes particulares.
292
Abstract
Since the times in which it was established that the genetic information in all
the biological systems is contained in big DNA molecules, which conforms the
genomes, a series of efforts were carried on in order to obtain the DNA sequences
in an attempt to understand the structure, regulation, performance, interactions and
evolution of genes and genomes. At the start, sequence protocols were limited in
scope and it was only feasible to obtain the sequence of individual genes.
However, with the development of massive sequence methodologies, it was
possible to obtain the complete genome sequences. Both strategies are
complementary in the sense that the complete genome allows having a global view
that supplements the information derived from specific genes.
Keywords: Prokaryotic genome, eukaryotic genome, genome annotation,
molecular evolution.
Introduccin
A partir de que Darwin postul su teora de evolucin por medio de la
seleccin natural, qued claro que la base de esta seleccin se fundamenta en la
variabilidad gentica presente en organismos y poblaciones [1]. Aunque no
conoci los trabajos de Mendel, queda claro que Darwin conceba que los
procesos evolutivos debieran tener una base gentica -aunque no usara estos
trminos-. El redescubrimiento de las leyes de Mendel a principios del siglo
pasado, permiti integrar ambos conceptos en el llamado neo-darwinismo. Sin
embargo, si bien surgieron conceptos relevantes como genotipo y fenotipo, an se
estaba lejos de lograr establecer de qu clase de compuesto estaban hechos los
genes y de concretar las bases moleculares de la mutacin. Inclusive de aquella
poca nos llega la idea de los efectos nocivos de la mutacin. Hoy entendemos
que si bien puede haber mutaciones con efectos deletreos, en realidad sin
mutacin no habra evolucin. Dicho de otro modo, la mutacin es la materia prima
de la evolucin. Slo gracias a ella se han desarrollado en este planeta, durante
ms de 3,500 millones de aos toda la plyade de organismos que conocemos, ya
293
Secuencias
Independientemente del conocimiento de la secuencia de genes y
genomas, existen algunos aspectos bsicos que distinguen a los diferentes
sistemas biolgicos. Uno que es fundamental, es que el tamao de los genomas
se incrementa proporcionalmente con la complejidad morfolgica, fisiolgica y
metablica de los organismos. Sin embargo, aunque tambin se aprecia un
aumento en el nmero de genes, ste no es equivalente. Por ejemplo, entre
Escherichia coli y Homo sapiens, el aumento del tamao del genoma es de tres
rdenes de magnitud (4.6 megabases vs. 3,000 megabases), mientras que el
aumento en el nmero de genes es de slo cinco veces aproximadamente (4,500
vs. 20,687) [7, 8]. As, en apariencia parece haber un exceso de nucletidos en el
genoma humano. Si bien estas diferencias presentan rangos en diferentes
organismos, existe un patrn bastante claro, particularmente entre procariontes y
eucariontes. A esta discrepancia se le ha llamado la paradoja del valor C, donde
C significa cantidad de nucletidos. Esta aparente paradoja se explica por dos
motivos principalmente. El primero es que en sistemas procariontes, el espacio
entre los genes (DNA espaciador o intercistrnico), es muy pequeo, mientras que
en eucariontes este DNA intercistrnico puede ocupar millones de pares de bases.
Adicionalmente, en general los genes procariontes son una secuencia continua
entre el codn de inicio y el codn de trmino. Por su lado, genes homlogos de
eucariontes, que inclusive codifican cadenas polipeptdicas de tamaos similares,
presentan secuencias intergnicas (intrones), que se encuentran entre las
secuencias codificantes (exones), que sern unidas (empalmadas), para generar a
295
nuestro
296
297
DNA, replicacin, proteinas de membrana (sealadas con barras verticales), etc. Las
flechas en blanco indican que se desconoce la funcin de ese gen.
Sin embargo, la secuencia de nucletidos en s, necesita ser analizada para
obtener la informacin relevante. A este proceso se le denomina anotacin. De
manera resumida, un primer paso consiste en determinar si alguna secuencia
tiene posibilidades de ser codificante [7]. En este sentido, es necesario encontrar
al marco de lectura abierto (ORF por sus siglas en ingls), que tenga las mayores
posibilidades de ser codificante. De manera sencilla, un ORF est delimitado por
un posible codn de inicio (frecuentemente ATG) y alguno de los tres posibles
codones de trmino (TAA, TAG, TGA). Empleamos aqu una terminologa laxa de
codn ya que en sentido estricto los codones ocurren a nivel de RNA y por lo tanto
aparece uracilo (U) en vez de timina (T). Sin embargo, como se ve en la figura 2A,
el nmero de estos tripletes es considerable. Esto se debe a dos razones: En
cualquier secuencia de nucletidos hay tres posibles fases de lectura (en realidad
son seis si se consideran las dos cadenas del DNA), de tal manera que los
tripletes no necesariamente corresponden a codones porque pueden estar en las
fases incorrectas. Por el otro lado, an en la fase de lectura correcta, ATG puede
corresponder a codones internos de metionina. De hecho, un anlisis de la
secuencia en la figura 2A, debe mostrar que existen muchos ORFs de tamao
variable. Existen varios criterios para establecer cul de estos tiene una mayor
probabilidad de ser codificante [11]. Uno de los ms sencillos es el tamao. Este
criterio se basa en que los ORFs en una secuencia al azar deben de ser cortos
(alrededor de 21 tripletes), mientras que los ORFs codificantes deben de ser de
mayor tamao, ya que la mayor parte de las protenas contienen 100 o ms
residuos de aminocidos. Si bien este no es un criterio nico, dado que existen
polipptidos de menos de 30 residuos, stos son los menos. Otro criterio utilizado
se basa en la frecuencia de uso de codones sinnimos, que normalmente es una
caracterstica particular de cada especie. En la figura 2B, se indica cul es el
marco de lectura abierto de mayor probabilidad. Una vez ubicado, como se
muestra en la figura 2C, el siguiente paso es derivar la secuencia probable de
298
residuos de aminocido codificada por dicho ORF. Actualmente, otra opcin, dado
el gran crecimiento de las bases de datos, es llevar a cabo una bsqueda
bioinformtica para encontrar secuencias homlogas a la de inters [12]. Esta
opcin complementa los pasos anteriores. Evidentemente, en este ejemplo
sencillo no se est considerando la presencia de intrones, lo cual desde luego
requiere de procesos ms sofisticados para su identificacin.
300
Genoma eucarionte
A diferencia del genoma procarionte, en eucariontes el genoma est
dividido en varias molculas lineares de DNA que propiamente se denominan
cromosomas (cuerpos coloridos que se visualizan durante la divisin celular). El
nmero especfico de cromosomas presenta una gran variabilidad y no existe una
clara correlacin con el tamao del genoma ya que especies con genomas de
tamao similar pueden tener una diferencia importante en el nmero de
cromosomas.
Sin embargo, dado que los cambios ocurren al azar, tambin se puede dar
el caso de que la mutacin afecte de manera dramtica y desfavorable al gen que
la recibe. El resultado directo es la aparicin de un pseudogen que ha perdido su
funcin. La mutacin puede afectar cualquier regin. Por ejemplo, un cambio que
elimine el codn de inicio, introduzca un codn de trmino prematuro, o que afecte
el codn de un aminocido esencial por otro. Tambin puede haber cambios que
afecten las regiones regulatorias y por supuesto, inserciones y deleciones que no
sean mltiplos de tres, correran el marco de lectura, generando polipptidos no
funcionales. Desde un punto de vista ingenuo, parecera que los pseudogenes son
eventos muy poco favorables y por lo tanto no deberan ocurrir frecuentemente.
Sin embargo, los caminos de la seleccin natural son ms complejos y en este
caso particular es notable que los pseudogenes (y retroposeudogenes) sean
elementos comunes en nuestro genoma [19]. Inclusive, hay casos donde la
pseudogenizacin puede asociarse a ventajas evolutivas. Los pseudogenes se
identifican por tener una suficiente identidad con genes homlogos (ya sean
ortlogos o parlogos), y conservan la estructura global del gen original, i. e.,
tienen regiones equivalentes a los exones, los intrones y al promotor.
Referencias
1. Darwin, C. (1859) On the Origin of Species by Means of Natural Selection, or
the Preservation of Favored Races in the Struggle for Life. Murray, London
2. Avery, O. T., MacLeod, C. M., y McCarty, M. (1944) J. Exper. Med. 79, 137158
3. Watson, J. D. y Crick, F. H. C. (1953) Nature 171, 737- 738
309
310
311