Вы находитесь на странице: 1из 8

TEMA 12

GENOMICA

1. SECUENCIACION DE GENOMAS.

Los genomas varían en tamaño desde unos pocos millones de pares de bases hasta varios miles de
millones. Pero una sola reacción de secuenciación puede analizar únicamente unos mil pares de
bases.

Existe una estrategia para romper los genomas en fragmentos del tamaño apropiado para su
secuenciación. Esta estrategia se denomina SECUENCIACION EN PERDIGONADA o
SHOTGUN. En ella, un genoma se divide en un conjunto de fragmentos superpuestos que son lo
suficientemente pequeños como para poder secuenciarse. Usando las regiones de superposición, los
fragmentos secuenciados vuelven a ponerse en el orden correcto.

La secuenciación en perdigonada empieza usando ondas sónicas de alta frecuencia


(SONICACION) para romper el genoma en fragmentos de unas 160 kilobases (1kb son mil bases,
por tanto, 160.000 bases). A continuación, cada sección de 160 kb se inserta en un plásmido
llamado CROMOSOMA BACTERIANO ARTIFICIAL (BAC). Los BAC pueden replicar
grandes segmentos de DNA.

Cada BAC se inserta después en una célula de E. Coli distinta, y se crea lo que los investigadores
llaman una biblioteca de BAC, que no es otra cosa que una biblioteca genómica (un conjunto de
todas las secuencias de DNA de un genoma concreto, dividido en pequeños fragmentos e insertado
en un vector de clonación). Separando las células en una biblioteca de BAC y después haciendo que
cada célula de lugar a una gran colonia, los investigadores pueden aislar grandes números de cada
fragmento de 160 kb.

Una vez que un equipo de investigación dispone de muchas copias de cada fragmento de 160 kb, el
DNA se rompe de nuevo en fragmentos de unos mil pares de bases. A continuación se insertan esos
pequeños fragmentos en plásmidos y se ponen dentro de células bacterianas. De este modo, el
genoma se descompone en dos niveles manejables:

• Fragmentos de 160 kb en los BAC.


• Segmentos de 1 kb en plásmidos.

Los plásmidos se copian muchas veces a medida que las bacterias se transforman en grandes
poblaciones. Entonces, se podrá disponer de grandes números de cada fragmento de mil pares de
bases para las reacciones de secuenciación.

Una vez que los fragmentos de mil pares de bases de cada clon BAC de 160 kb son secuenciados,
determinados programas de ordenador analizan las regiones donde se superponen los extremos de
cada segmento de mil pares de bases. Los solapamientos existe porque había muchas copias de cada
segmento de 160 kb, y cada uno se fragmento al azar mediante sonicación. El ordenador mezcla y
empareja segmentos de un único clon BAC hasta que se obtiene una alineación consistente con
todos los datos disponibles. Entonces se analizan los extremos de cada BAC de un modo similar. El
objetivo es disponer cada segmento de 160 kb en su posición correcta en el cromosoma, basándose
en las regiones de solapamiento.

Básicamente, la estrategia de la perdigonada consiste en romper un genoma en fragmentos


minúsculos, secuenciar los fragmentos y después volver a ordenar la secuencia correctamente.
1
Una vez obtenidas las secuencias de un genoma completo, había que crear bases de datos que
pudieran mantener la información de las secuencias completas y manejarla de tal forma que hicieran
que los datos en bruto y distintas anotaciones estuvieran disponibles para la comunidad
internacional de investigadores. Estas bases de datos de secuencias también tenían que permitir
búsquedas, de modo que los investigadores pudieran evaluar la similitud de genes recién
descubiertos con otros ya estudiados.

Como la cantidad de datos implicados es tan enorme, los retos informáticos de la genómica son
formidables. La inmensa cantidad de datos generados por los centros de secuenciación del genoma
ha hecho que la BIOINFORMATICA sea crucial para el continuo progreso en este campo.

1.1. Qué genomas se están secuenciando y por qué.

La mayoría de los organismos seleccionados para secuenciar todo su genoma causan enfermedades
o tienen otras propiedades biológicas interesantes. Por ejemplo, se han secuenciado genomas de
bacterias y arqueas que habitan en entornos extremadamente cálidos con la esperanza de descubrir
enzimas útiles para aplicaciones industriales a altas temperaturas y para comprender como pueden
funcionar las proteínas en esas condiciones. Otras bacterias y arqueas se eligieron porque son
capaces de realizar reacciones químicas muy interesantes, como producir metano y otros
compuestos. En algunos casos, los investigadores esperan que estos organismos puedan servir como
fuente de productos comerciales. El genoma del arroz se secuencio porque el arroz es la principal
fuente de alimento para la mayoría de las personas. Por ultimo, especies como la mosca del vinagre
Drosophila Melanogaster, el nematodo Caenorhabditis Elegans, el ratón domestico Mus Musculus
y la planta de la mostaza Arabidopsis Thaliana se analizaron como organismos modelo en biología
y porque los datos de organismos bien estudiados prometían ayudar a los investigadores a
interpretar el genoma humano.

2
1.2. Qué secuencias son genes.

El objetivo mas básico al anotar o interpretar un genoma es identificar que bases constituyen genes,
los segmentos de DNA que codifican RNA o una proteínas producto y que regulan su produccion.
En bacterias y arqueas, identificar genes es relativamente directo. Sin embargo, en eucariotas es
mucho mas difícil.

1.2.1. Identificación de genes en genomas de bacterias y arqueas.

Los biólogos empiezan con programas informáticos que escanean la secuencia de un genoma en las
dos direcciones. Estos programas identifican cada marco de lectura posible en las dos hebras del
DNA. Como cada codón esta compuesto por tres bases, en cada hebra son posibles tres marcos de
lectura, con un total de seis marcos de lectura posibles. Como las secuencias generadas al azar
contienen un codón de fin en uno de cada 20 codones, un largo fragmento de codones que carezca
de codón de fin es un buen indicador de secuencia codificadora.

El programa informático destaca todos los fragmentos de secuencias del tamaño de un gen que
carezcan de un codón de fin pero que estén flanqueados por un codón de inicio y un codón de fin.
Como los polipéptidos varían en tamaño desde una pocas docenas de aminoácidos a muchos cientos
de ellos, los fragmentos de secuencia del tamaño de un gen varían desde varios cientos hasta miles
de bases. Ademas, los programas informáticos buscan secuencias características de promotores,
operadores y otros lugares reguladores. Los fragmentos de DNA identificados de este modo se
llaman MARCOS DE LECTURA ABIERTOS u ORF.

Una vez encontrado un ORF, un programa informático compara su secuencia con las secuencias de
genes conocidos de especies bien estudiadas. Si el ORF parece ser un gen que todavía no se ha
descrito en ninguna otra especie, se necesitan mas investigaciones antes de que se pueda considerar
realmente un gen. Un éxito, en cambio, significa que un ORF comparte una cantidad importante de
secuencia con un gen conocido de otra especie. Las similitudes entre genes de distintas especies
suele deberse a la HOMOLOGIA. Si los genes son homólogos, significa que son similares porque
están relacionados por descendencia de un ancestro común. Los genes homólogos tienen secuencias
de bases similares y una función parecida o igual.

Basándose en este razonamiento, los investigadores pueden confirmar que un ORF es realmente un
gen al descubrir que es homologo a un gen conocido.

1.2.2. Identificación de genes en genomas eucarióticos.

Ahondar en los datos de secuencias eucariotas buscando genes es complicado por dos motivos: las
regiones codificadoras esta interrumpidas por intrones, y la gran mayoría de DNA eucariótico no
codifica realmente un producto. En el genoma humano, por ejemplo, se calcula que menos del 2%
del DNA presente codifica en realidad proteínas, tRNA, rRNA y otros tipos de productos. Encontrar
una región codificadora en el DNA de eucariotas es como encontrar un diamante en un montón de
roca. Para conseguirlo, los investigadores han de seguir varias estrategias:

• Se pueden crear programas informáticos para buscar secuencias homologas a genes


conocidos. Si un fragmento de bases en el genoma recién secuenciado es similar a la
secuencia de un gen conocido, entonces los investigadores deducen que codifica un
producto cuya función es similar a la función del gen conocido.

3
• Los investigadores pueden aislar mRNA del organismo en estudio y después usar enzimas
para fabricar los DNA complementarios (cDNA). Si se determina la secuencia de estos
cDNA, entonces un programa informático puede escanear la secuencia genómica y señalar
donde se localiza cada uno de los cDNA. Esta estrategia permite a los investigadores
identificar genes expresados en ciertos tipos celulares.
• Para identificar genes que no tienen una función conocida, los ordenadores comparan
genomas de especies estrechamente relacionadas y señalan las secuencias que son parecidas.
Las secuencias compartidas por especies estrechamente relacionadas se supone que cambian
mucho mas despacio en el tiempo que las secuencias que no pertenecen realmente al gen.
Las secuencias génicas cambian lentamente en el tiempo porque la mayoría de los productos
de un gen funcionan menos eficazmente cuando cambian aleatóriamente por mutaciones.
Así pues, es lógico esperar que la selección natural elimine la mayoría de las mutaciones en
genes y que los genes deberían cambiar lentamente a lo largo del tiempo. Pero los cambios
en las secuencias que no codifican productos ni regulan la expresión génica no afectan al
fenotipo del organismo. Es mucho menos probable que las mutaciones en estas regiones se
eliminen por la selección natural, de modo que cambian relativamente rápido a lo largo del
tiempo.

Aunque todas estas estrategias para encontrar genes han sido productivas, probablemente pasaran
muchos años antes de que los biólogos estén convencidos de que han identificado todas las regiones
codificadoras de un solo genoma eucariótico.

2. GENOMAS DE BACTERIAS Y ARQUEAS.

En bacterias, hay una correlación global entre el tamaño de un genoma y la capacidad metabólica
del organismo. Por ejemplo, la mayoría de los parásitos tienen genomas mucho menores que los
organismos no parásitos. Los parásitos viven de un huésped y por tanto reducen la eficacia biología
de este.

La redundancia es otro aspecto a destacar en los genomas bacterianos. Por ejemplo, el genoma de E.
Coli tiene 86 pares de genes cuyas secuencias de DNA son casi idénticas, lo que significa que las
proteínas que producen son casi iguales en su estructura y presumiblemente también en su función.
Aunque no se conoce la importancia de esta redundancia, los biólogos proponen que se producen
formas ligeramente diferentes de la misma proteína en respuesta a discretos cambios en las
condiciones ambientales.

Muchas especies bacterianas contienen las pequeñas moleculas de DNA extracromosómico


llamadas plásmidos. Los plásmidos contienen un pequeño numero de genes, aunque no son genes
absolutamente esenciales para vivir. En muchos casos se pueden intercambiar plásmidos entre
células de la misma especie o incluso entre especies diferentes.

La observación mas sorprendente de todas es, quiza, que en muchas especies de bacterias y arqueas,
el 15-25% material hereditario parece ser ajeno, esto es, adquirido de otras especies poco
relacionadas.

Los biólogos usan dos criterios generales para apoyar la hipótesis de que las secuencias de genomas
de bacterias y arqueas se originaron en otras especies:

4
• Cuando los fragmentos de DNA son mucho más parecidos a genes de especies con una
relación distante que a los de especies estrechamente relacionadas.
• Cuando la proporción de los pares G-C respecto a A-T en un gen o grupo de genes concretos
es muy diferente de la composición de bases del resto del genoma.

¿Cómo pueden pasar los genes de una especie a otra? Al menos en algunos casos, los plásmidos
parecen ser los responsables. Por ejemplo, la mayoría de los genes responsables de conferir
resistencia a los antibióticos se encuentra en plásmidos. Los investigadores han documentado la
trasferencia de genes resistencia a los antibióticos transportados por plásmidos entre especies de
bacterias patógenas con una relación muy distante. En algunos casos, los genes de plásmidos se
integran en el cromosoma principal de una bacteria, lo que resulta en recombinación genética. El
movimiento de DNA de una especie a otra se llama TRANSFERENCIA LATERAL DE GENES.

Algunos biólogos proponen que la transferencia lateral de genes también ocurre por transformación:
cuando bacterias y arqueas captan segmentos en bruto de DNA del ambiente, quizá en el curso de la
adquisición de otras moléculas.

Además de transferirse entre especies mediante plásmidos o fragmentos de DNA, los genes pueden
ser transportados por virus.

3. GENOMAS EUCARIOTAS.

Muchos genomas eucariotas están dominados por secuencias de DNA repetidas que aparecen entre
los genes y no codifican productos usados por el organismo. Éstas secuencias repetidas causan
problemas importantes a la hora de alinear e interpretar los datos de secuencias. Si esas secuencias
no codifican productos, ¿por que existen?.

Cuando se descubrieron las secuencias no codificadoras y las repetidas se consideraron inicialmente


como DNA basura, que no era funcional y probablemente era despreciable y nada interesante. Sin
embargo, trabajos posteriores han demostrado que muchas de las secuencias repetidas observadas
en eucariotas realmente derivan de secuencias conocidas como ELEMENTOS DE
TRANSPOSICIÓN. Los elementos de transposición son segmentos de DNA capaces de moverse
de un lugar a otro, o transponerse, en un genoma. Los elementos de transposición nunca salen de su
célula huésped. Simplemente hacen copias de sí mismos y se mueven a nuevos lugares del genoma.
Los elementos de transposición se transmiten desde los progenitores a la descendencia, generación
tras generación, porque son parte del genoma.

Los elementos de transposición y los virus se clasifican como parásitos porque se consume tiempo y
recursos en copiarlos junto con el resto del genoma, y porque pueden alterar la función génica
cuando se mueven y se insertan en otro lugar. Como resultado, disminuyen la eficacia biológica del
huésped. Los elementos de transposición son parásitos del genoma.

3.1. Como funcionan los elementos de transposición.

Los elementos de transposición pueden ser de muchos tipos y se extienden por el genoma de
distintas formas. Especies diferentes contienen distintos tipos de elementos de transposición.
Como ejemplo del funcionamiento de éstos genes egoístas, consideremos un tipo bien estudiado,
llamado ELEMENTO NUCLEAR INTERCALADO LARGO (LINE), presente en el ser
humano y en otros eucariotas. Como los LINE son tan parecidos a los retrovirus, los biólogos
proponen la hipótesis de que derivan evolutivamente de ellos. Tu genoma contiene decenas de miles
de LINE, cada uno de entre mil y cinco mil bases.
5
Un LINE activo contiene todas las secuencias necesarias para producir copias de sí mismo e
insertarlas en un lugar distinto del genoma:

• Un gen que codifica la enzima transcriptasa inversa.


• Un gen que codifica la enzima integrasa.
• Un único promotor que es reconocido por la RNA polimerasa II.

Una vez que un LINE se transcribe a un mRNA, los ribosomas del citoplasma sintetizan la
transcriptasa inversa y la integrasa. La transcriptasa inversa hace una versión en cDNA del mRNA
del LINE, y la integrasa inserta el DNA del LINE recién sintetizado en un lugar distinto del
genoma. De ésta forma, la secuencia parásita se reproduce. Si éste tipo de transposición tiene lugar
en células reproductoras que van a convertirse en óvulos o espermatozoides, el LINE copiado se
transmitirá a la descendencia. Si el LINE se inserta dentro de un gen o una secuencia reguladora,
causa una mutación que, casi con total certeza, disminuirá la eficacia biológica del huésped.

La mayoría de los LINE observados en el genoma humano no funcionan, sin embargo, porque
carecen de promotor o de los genes de la transcriptasa inversa o la integrasa. Los análisis del
genoma humano han rebelado que sólo unos pocos de nuestros LINE parecen estar completos y ser
potencialmente activos.

Prácticamente todos los genomas eucariotas y procariotas estudiados hasta ahora contienen al
menos algunos elementos de transposición.

Varían enormemente en tipo y número, no obstante, y los genomas de bacterias y arqueas tienen
relativamente pocos elementos de transposición en comparación con la mayoría de los eucariotas
estudiados hasta ahora. Ésta observación ha suscitado la hipótesis de que bacterias y arqueas tienen
medios eficaces de eliminar secuencias parásitas o bien pueden impedir de algún modo las
inserciones. Hasta la fecha, sin embargo, ésta hipótesis no ha sido verificada con rigor.

3.2. Secuencias repetidas y perfil de huellas del DNA.

Además de contener secuencias repetidas de los elementos de transposición, los genomas eucariotas
tienen varios miles de loci llamados REPETICIONES EN TÁNDEM SIMPLES (STR). Éstas
son pequeñas secuencias repetidas una y otra vez a lo largo de un cromosoma. Hay dos tipos
principales de STR:

• MICROSATÉLITES o REPETICIONES DE SECUENCIA SIMPLES: unidades


repetidas que sólo tienen de una a cinco bases.
• MINISATÉLITES o REPETICIONES EN TANDEM DE NÚMERO VARIABLE
(VNTR): unidades repetidas de 6 a 500 bases.

Los loci de microsatélites y minisatélites son hipervariables, lo que significa que varian entre los
individuos mucho más que cualquier otro tipo de secuencia.

En la profase de la meiosis I, en vez de alinearse exactamente por el mismo lugar, los dos
cromosomas se juntan de tal forma que se emparejan bases de distintos segmentos repetidos. Por
ésta alineación incorrecta se produce un SOBRECRUZAMIENTO DESIGUAL. Los cromosomas
producidos por sobrecruzamiento desigual contienen distintos números de repeticiones.

6
Los errores de alineación o los cometidos por la DNA polimerasa son tan frecuentes en éstos loci
que, en la mayoría de los eucariotas, el genoma de prácticamente todos los individuos tiene al
menos un alelo nuevo. Ésta variación en el número de repeticiones en el individuo es la base del
PERFIL DE HUELLAS DEL DNA. El perfil de huellas del DNA se refiere a cualquier técnica
para identificar individuos basándose en las características exclusivas de sus genomas. Como los
loci de microsatélites y minisatélites varían tanto en los individuos, son ahora los loci de elección
para realizar el perfil de huellas del DNA.

3.3. Duplicación de genes y origen de las familias génicas.

En eucariotas la fuente principal de nuevos genes es la duplicación de genes previos. Los biólogos
deducen que los genes se han duplicado recientemente cuando encuentran conjuntos de genes
similares agrupados en el mismo cromosoma. Los genes suelen ser parecidos en aspectos
estructurales, como la disposición de exones e intrones, y en su secuencia de bases.

Dentro de una especie, se considera que los genes que son extremadamente parecidos entre sí en
estructura y función pertenecen a la misma FAMÍLIA GÉNICA. La hipótesis es que los genes que
componen familias génicas derivan de una secuencia ancestral común a través de la duplicación e
genes. Cuando se produce la DUPLICACIÓN DE GENES, se añade una copia extra del gen al
genoma.

4. PROYECTO GENOMA HUMANO.

En la mayoría de los casos, los investigadores están conociendo como funciona el genoma humano
comparándolo con genomas de otras especies. Una proporción especialmente grande de nuestros
genomas está dedicada a la inmunidad (defensa frente a bacterias, virus y otros parásitos).

De todas las observaciones acerca de la naturaleza de los genomas eucariotas, quizá la más
sorprendente sea, que los organismos con morfología y conducta complejas no parecen tener un
número de genes especialmente grande.

La hipótesis del ayuste alternativo propone que al menos ciertos eucariotas pluricelulares no
necesitan un número enorme de genes distintos. En cambio, el ayuste alternativo crea distintas
proteinas a partir de un mismo gen.

A nivel de secuencias de bases, los seres humanos y los chimpancés son idénticos en un 98'8% en
promedio. De los genes homólogos analizados en seres humanos y chimpancés, el 29% son
idénticos en la secuencia de aminoácidos; la diferencia promedio entre proteinas homólogas es tan
sólo de dos aminoácidos. Si los seres humanos y los chimpancés son tan parecidos genéticamente,
¿por que su morfología y su conducta son tan distintas?.

La hipótesis prevalente para resolver ésta paradoja acude a la importancia de los genes reguladores
y las secuencias reguladoras. Una secuencia reguladora es un fragmento de DNA implicado en el
control de la actividad de otros genes; puede ser un promotor, un elemento próximo al promotor, un
intensificador o un silenciador. El término gen estructural, en cambio, hace referencia a una
secuencia que codifica un tRNA, rRNA, una proteína o bien otro tipo de producto. Los genes
reguladores codifican factores reguladores de la transcripción que alteran la expresión de genes
concretos.

7
Para resolver la paradoja de similitud de secuencias, los biólogos proponen que, aunque muchos
genes estructurales de especies estrechamente relacionadas, como seres humanos y chimpancés, son
idénticos o casi idénticos, las secuencias reguladoras y los genes reguladores podrían tener
importantes diferencias entre las dos especies.

5. GENÓMICA FUNCIONAL.

Los biólogos han intentado conocer como y cuando se expresan genes concretos durante décadas.
La investigación sobre el operón lac y el operón trp son un ejemplo de éste intento. Pero ahora, con
catálogos completos de los genes presentes en una variedad de organismos, cuyos genomas se han
secuenciado, los investigadores pueden preguntarse como y cuando se expresan todos los genes de
un organismo. Éstos tipos de análisis a gran escala de la expresión génica se llaman a veces
GENÓMICA FUNCIONAL. La investigación está motivada por la intuición de que los productos
de los genes no existen en un vacío. En cambio, grupos de RNA y proteínas actúan untos para
responder a amenazas ambientales como calor o sequía extremos. De un modo parecido, grupos
concretos de genes se transcriben en distintas fases a medida que un eucariota pluricelular crece y se
desarrolla. Una de las herramientas más básicas usadas en la genómica funcional se llama
micromatiz. Una MICROMATRIZ de DNA consiste en un gran número de DNA de hebra simple
fijado permanentemente a un portaobjetos de cristal, que tiene miles de puntos, cada uno de los
cuales contiene el DNA de hebra presente en el genoma humano.

Los micromatrices de DNA representan todos los genes de un genoma. Para crear una micromatriz
de DNA, los investigadores colocan miles de secuencias de DNA, cortas de hebra simple, de
secuencias codificadoras, en una placa de cristal. Los DNA representan característicamente todos
los exones del genoma de una especia determinada.

Los micromatrices de DNA se usan para estudiar cambios en la expresión génica. Sondeando una
micromatriz con cDNA marcados sintetizados a partir de mRNA, los investigadores pueden
identificar qué secuencias codificadoras se están transcribiendo. Aquí, los mRNA de células que
crecen a temperatura normal son verdes, mientras que los mRNA de células que crecen a altas
temperaturas son rojos.

De éste modo, una micromatriz permite a los investigadores estudiar la expresión de miles de genes
a la vez. Como resultado, pueden identificar qué grupos de genes se expresan en unas condiciones
determinadas.

6. PROTEÓMICA.

Los biólogos usan el término TRANSCRIPTOMA para referirse al grupo completo de genes
transcritos en una célula determinada, y PROTEOMA para denotar todo el conjunto de proteinas
producidas. Por tanto, la PROTEÓMICA es el estudio a gran escala de la función proteica. Los
estudios proteómicos empiezan identificando las proteinas presentes en una célula o orgánulo,
después los investigadores intentan determinar las localizaciones e interacciones de las proteinas y
documentar como cambian en el tiempo o compararlas con otras células.

La proteómica se puede considerar como una rama de la genómica funcional. En vez de estudiar
proteínas individuales o como dos proteinas interaccionan los biólogos pueden estudiar todas las
proteinas presentes a la vez.
8