Вы находитесь на странице: 1из 82

GENMICA EN MEDICINA

Una gua prctica


Genmica en Medicina. Una gua prc ca.

2017.Delosautores
MedigenePressSL.

Editores:ManuelPrezyAmparoTolosa
Revisintcnica:LucaMrquezMar nez
Diseo:MedigenePressSL.
Editorial:MedigenePressSL.C/Agus nEscardino9.CP:46019Paterna,Valencia,Espaa.

ISBN:978-84-947865-0-1
DepsitoLegal:V27262017

MedigenePressS.L,sustrabajadoresycolaboradoresnoasumenningunaresponsabilidadderivadadelusoincorrectodelainformacinfacilitadaenlapresentegua,odela
presenciadeerroresuomisiones.Lamencindecualquiermtodo,terapia,tratamientooservicionodebeserconsideradounagaran aparasuu lizacin.Elcontenidode
Genmica en Medicina. Una gua prc ca eneunanicanalidadforma vaeinforma va.Determinareltratamientoadecuadoparaunpacienteesresponsabilidaddelos
mdicosyfaculta vos.MedigenePressS.L.recomiendaconsultardeformaindependienteotrasfuentes,ascomoaotrosprofesionalesantesdeconarenlaabilidaddeun
mtodooprotocolo.
INTRODUCCIN
2
ManuelPrezyAmparoTolosa

DISEODEEXPERIMENTOSDEGENMICAENMEDICINA
4
LaiaPedrolaeInsCalabria

SECUENCIACINMASIVA:DELADNALOSDATOS
CarolinaMonz,JosMiguelJuanes,PabloMarnGarca,FelipeJavier 14
Chaves,VicenteArnauLlombart,AnaBrbaraGarcaGarca

ANLISISDEDATOS
26
MJosLpezSnchez

INTERPRETACINDEDATOSGENMICOS
40
JosLuisIvorraMartnez

LAGENMICAENLAPRCTICACLNICA
50
scarPuig

EDICINDELGENOMA
64
LlusMontoliu

GLOSARIO 76

1
INTRODUCCIN
Desde el descubrimiento de la estructura del cienteytomardecisionessobresutratamiento.
ADN y la identificacin de los primeros genes Sinduda,existentodavaalgunosretosylimita
responsablesdealgunosrasgosypatologashu cionesporsuperar,peroelavancedelagenmi
manosquedclaroquenuestromaterialheredi caesyaimparable.
tario contiene gran parte de las claves de la sa Comopartedenuestramisindedifundirelco
ludylaenfermedadhumanas.Iniciadoen1.990, nocimiento de la Gentica Mdica y Genmica,
el Proyecto Genoma Humano destinado a leer desde GenticaMdicaNewshemos creado una
las instrucciones completas de una persona se guasobrelaGenmicaenMedicina,queincluye
convirtienunodelosmayoresretoscientficos las nociones bsicas sobre cmo se genera la
y tecnolgicos del momento y proporcion las informacin genmica,cmoseanalizaeinter
primeras pistas del potencial que poda tener preta y cmo puede ser utilizada en la prctica
conocernuestrogenomaenelcampodelame clnica.Conestaguapretendemosquenuestros
dicina.Msde20aosdespus,eldesarrollode lectoresconozcanqutiposdeanlisisgenmi
las tcnicas de secuenciacin de ltima genera cosexistenyeltipodeinformacinquepropor
cin ha impulsado el avance de la genmica en cionacadaunodeellos,ademsdecmoseob
laprcticaclnica,detalformaquelaideatradi tiene la informacin genmica, los diferentes
cional de medicina personalizada como una mtodospara analizarlay extraerlos datosque
aproximacin al paciente que tiene en cuenta puedanserutilizadosenunmbitoclnico,ypor
sus caractersticas, necesidades y preferencias ltimo, qu mtodos existen en la actualidad
especficas,haempezadoacambiarparaincluir paramodificarelgenomahumano.
tambin la informacin gentica como variable
ConfiamosenquelaguaGenmica en Medici
degranvalor.
na:unaguaprcticanospermitafamiliarizaros
La genmica se ha convertido en una herra conestainteresantereadelacienciaylasalud,
mientamsparaelprofesionalmdico.Unahe y esperamos que compartis nuestro entusias
rramientaquedebeconocerysaberutilizarpara moporestanuevamedicinadelfuturoqueyaes
ofrecer el mejor cuidado a los pacientes. Del una realidad en muchos mbitos de la prctica
mismo modo, numerosos ensayos clnicos y de clnica.
investigacinincluyeninformacingenmicade
personas sanas y afectadas por enfermedades, Manuel Prez Alonso
lo que ha llevado a que nuestro conocimiento Amparo Tolosa
delgenomahumanoseamayordeloquenunca
ha sido, al igual que su utilidad para descubrir
nuevos genes implicados en enfermedades o
mecanismos biolgicos relacionados. Nos en
contramospues,enunmomentonico.
Subidosahombrosdelosgigantesqueiniciaron
el camino desde el estudio del ADN al estudio
del genoma y su interpretacin en el rea de la
medicina,hoyendayapodemosvislumbraruna
medicinadondelainformacingenmicadeuna
persona sea utilizada para diagnosticar un pa

GENMICA EN MEDICINA. Una gua prctica. 3


CAPTULO 1:
DISEO DE EXPERIMENTOS DE
GENMICA EN MEDICINA
En este captulo se revisan las principales opciones disponibles en la
actualidad para el diseo de experimentos en genmica, poniendo
especial inters en las tecnologas de secuenciacin masiva.

Laia Pedrola e Ins Calabria


Unidad de Genmica, Instituto de Investigacin Sanitaria La Fe, Valencia
DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

INTRODUCCIN alasnuevasestrategiasdesecuenciacindetercera
generacinqueutilizantecnologaSMRT(single mo
ElProyectoGenomaHumano,juntoconeldesarro lecule real time sequencing).Estatecnologasebasa
llodetecnologasmicasdealtorendimientocomo principalmente en la lectura de la hebra molde del
laNext Generation SequencingoNGS,hapermitido DNA,llevandoallmitelosavancesdelananotecno
una rpida evolucin del campo de la genmica. loga y de la microscopa de fluorescencia. De esta
Graciasaldesarrollodeestasnuevastecnologasya manera,seconsiguenanalizarhebrasdemayorlon
laimplementacindeprogramasbioinformticosde gituddemaneraindividualysinnecesidaddeampli
anlisis de datos, podemos abordar experimentos ficacin previa. Adems de todas las ventajas rela
genmicos que hace poco ms de una dcada eran cionadas con el coste y la velocidad de secuencia
inasumibles. El uso de datos genmicos ha supues cin,conestatecnologaesmuchomsfcilensam
to, por tanto, una revolucin tanto a nivel mdico blarlosgenomas,siendolasecuenciacinde novo su
comocientfico. principalobjetivo.
Los datos genmicos analizados pueden alcanzar AunquelasplataformasdeNGSdifierenenlatecno
desdegenomascompletosyexomasdirigidoshasta loga utilizada, todas ellas comparten la capacidad
gruposdegenesounsologen.LaNGSpermitede de secuenciar moldes de ADN amplificados clonal
tectarvariacionesdeunsolonucletido(SNVs),va mente. La amplificacin se lleva a cabo sobre ADN
riaciones en nmero de copias (CNVs), inserciones, inmovilizadoenunasuperficieslida(nanopartcula
deleciones, y traslocaciones. As mismo, podemos esfricaobead),quesedepositaenelfondodelos
obtener perfiles de expresin gnica, nuevos trans nanopocillosdeunaplaca(chipoflowcell)enlosque
critos, variantes que afecten a sitios de splicing, se sellevaracabo lareaccinde secuenciacin.Esto
cuenciacin de ARN no codificante (ncARNnc), etc. permitelalecturaenparalelodemillonesdesecuen
Tambines denotableimportancialadeteccin de ciasylareduccindrsticadeltiempoydelcostede
variantesdebajafrecuencia,pocorepresentadasen secuenciacin debido a la disminucin de la canti
la muestra analizada y por tanto indetectables me dad de reactivos necesarios en estas nanoreaccio
diante secuenciacin Sanger, como ocurre en mu nes.Porotrolado,lagrancantidaddedatosgenera
chostiposdecnceryenelcribadoprenatalensan dos en este proceso ha supuesto un gran reto para
grematerna. ingenieros y bioinformticos, que han tenido que
Aunque es mucha la informacin existente sobre desarrollarprogramasespecficosdeanlisisdefcil
estas nuevas tecnologasgenmicas ysu aplicacin manejo.
al diseo de experimentos, este captulo pretende La correcta interpretacin de la informacin gen
revisardeformaclaraysencillalasprincipalesopcio micaobtenidamedianteestastcnicasesunodelos
nesactualmentedisponiblesparaeldiseodeexpe pasosmscrticosdelaNGS.Paraello,esnecesaria
rimentosengenmica,profundizandoenlastecno la participacin de bioinformticos y analistas de
logasdesecuenciacinNGS. NGSascomodeespecialistasengenticahumana
NextGenerationSequencing(NGS) ybiologamolecularquepuedandeterminarlasim
plicacionesclnicasymolecularesdelasalteraciones
Enestaltimadcada,sehaevolucionadodesdela
detectadas para un correcto asesoramiento genti
secuenciacin automtica de un mximo de 96 se
co y un posible abordaje teraputico. De no existir
cuencias de 800 nucletidos con secuenciadores de
esta interrelacin multidisciplinar, el gran potencial
primera generacin (mtodo Sanger), a la secuen
deestaherramientadiagnsticatancomplejapuede
ciacindemillonesdefragmentosdeADNconequi
resultarenunperjuicioparaelpaciente.
posdesegundageneracin(NGS).Cabemencionar

GENMICA EN MEDICINA. Una gua prctica. 5


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

AplicacionesclnicasdelaNGS
Actualmente,enlaprcticaclnicadiariaseutilizala
NGSparaladeteccindevariantesrelacionadascon
la enfermedad. Esta tecnologa permite abordar en
un mbito clnico el estudio de un gran nmero de
genes al mismo tiempo, algo impensable hace tan
solo unos aos. La NGS juega un papel importante
en el diagnstico diferencial de enfermedades con
sntomas clnicos solapantes (ej. miocardiopata hi
pertrficavs.enfermedaddeFabry,colagenopatas,
etc.),enladeteccindevariantesdebajafrecuencia
(mosaicismos germinales o somticos) y de varian
tesqueactancomomodificadoresdelfenotipo.
LaNGShasidoampliamenteutilizadaparaeldescu
brimiento denuevos genes implicados en enferme


dades monognicas genticamente heterogneas
(sndromedeKabuki,enfermedaddeCharcotMarie GRACIAS AL
Tooth). En enfermedades complejas (autismo o DESARROLLO DE LAS
discapacidadintelectual)laNGSestsiendodegran
utilidad, tanto para el descubrimiento de nuevos NUEVAS TECNOLOGAS DE
genescomoparaladeteccindevariantesestructu SECUENCIACIN, JUNTO CON
rales y de nmero de copias (Martnez, 2017; Ng,
2010).Enestembito,lasecuenciacindelgenoma
LA IMPLEMENTACIN DE
completoesunaherramientapocodesarrolladapor PROGRAMAS BIOINFORMTICOS
el momento que est adquiriendo cada vez mayor DE ANLISIS DE DATOS,
relevancia.
SE PUEDEN ABORDAR HOY EN
Asmismo,laNGShasupuestoungranavanceenel
estudiodeenfermedadesmultignicascomoelcn DA EXPERIMENTOS GENMICOS
cer, siendo clave para establecer una medicina de QUE HACE POCO MS DE UNA
precisin en nuestro sistema sanitario. El concepto
de medicina de precisin ha cobrado especial rele
DCADA ERAN INASUMIBLES.
vancia en los ltimos tiempos debido a la creciente
necesidad de desarrollar estrategias personalizadas
paraeldiagnstico,eltratamientoyelseguimiento
de diversas enfermedades de origen gentico. La
medicina de precisin en oncologa, a travs de la
integracin de los datos clnicos, anatomopatolgi
cosymoleculares,permiteobtenerunconocimiento
ms profundo del perfil biolgico tumoral de cada
paciente y est permitiendo realizar un anlisis tu
moral a nivel molecular sin precedentes (Calabria,
2016).

6
DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

TIPOSDEEXPERIMENTOS sarseydarlugaraprotenas.Correspondeaaproxi
madamenteel1.5%delgenomayeslapartefuncio
Actualmente existe un gran abanico de estrategias
nalmsimportantedeste.Aniveltcnico,existen
de secuenciacin NGS que pueden ser utilizadas en
distintosabordajesparasecuenciarelexoma,como
funcin de la aplicacin que se les quiera dar. En
la amplificacin previa de exones (amplicones) me
cuantoaltipodemuestradepartidatambinexiste
diantereaccinen cadenadela polimerasa(PCR)o
unagranversatilidad,yesposiblesecuenciarADNy
su captura mediante sondas especficas. Segn su
ARNprocedentesdetejidofresco,tejidoparafinado,
aplicacin en el mbito de la investigacin o en el
sangre perifrica, suero, plasma, lgrimas, heces,
clnico, se puede optar por el estudio del exoma
etc. Adems, la NGS es el abordaje ptimo para la
completo(aprox.22.000genes)obienelestudiode
secuenciacin de ADN procedente de biopsia lqui
un exoma dirigido (una seleccin concreta de estos
da,unmtodonoinvasivoqueestrevolucionando
genes),respectivamente.Elexomadirigidoseutiliza
la medicina de precisin. A continuacin describi
como herramienta de rutina en el diagnstico. La
mos diversas estrategias de secuenciacin NGS, as
secuenciacindelexomapermiteademsciertaver
comosusprincipalesventajaseinconvenientes.
satilidad en la eleccin de regiones de inters, de
Secuenciacin del genoma (Whole Genome formaquesepuedendisearexomasalacarta(por
SequencingoWGS) ejemplo,sepuedenaadiraestosdiseoslasregio
nespromotorasyreguladoras,etc.).
La secuenciacin WGS abarca el genoma completo
de un individuo, incluyendo el ADN cromosmico y DebidoaqueenunasecuenciacinWESseestudian
mitocondrial. En la actualidad, esta estrategia se un menor nmero de regiones comparado con el
utiliza principalmente en el mbito de la investiga genoma completo, es asumible obtener una mayor
cindebidoasucosteelevadoylagrancomplejidad profundidad de lectura (mayor nmero de secuen
delanlisis.Parallevaracaboestasecuenciacin,se cias por muestra) sin que el coste sea desorbitado.
necesitan secuenciadores de rendimiento muy ele Por otro lado, su anlisis e interpretacin es menos
vadonodisponiblesenlamayoradeloscentrosde complejo.Apesardeesto,paralamayoradeenfer
investigacinuhospitalesdenuestropas. medadesmendelianasbiencaracterizadasyconuna
sospecha clnica bien fundada, la relacin coste
Losestudiosdesecuenciacindegenomacompleto
eficienciadeunWESnoesptimaparasuusohabi
proporcionan una imagen completa y detallada del
tualengenticamdicayaqueobtenemosunagran
perfilgenmicodeunindividuo.Laprincipalutilidad
cantidad de informacin no aprovechable para este
de la WGS es el descubrimiento de nuevos genes
tipodeestudios.
relacionadosconunaenfermedadascomoladetec
cin de reordenamientos complejos. Estas variacio La secuenciacin del exoma permite identificar ge
nes estructurales pueden tener consecuencias tan nesyvariantespotencialmenteimplicadasenlaen
diversascomolainterrupcindegenes,eliminacin fermedadnodescritosanteriormente.Lautilizacin
deregionescodificantes,interferenciaenelprocesa de la secuenciacin WES es clave en el estudio de
mientodelARNmensajerooformacindegenesde desrdenescomplejosenlosqueexisteungrann
fusin. mero de genes implicados y tambin para llevar a
cabo un diagnstico diferencial en enfermedades
Secuenciacin del Exoma (Whole Exome cuya clnica es solapante. Actualmente el WES se
SequencingWES) utilizacomoherramientadiagnsticaodeinvestiga
Elexomaesla parte delgenomacorrespondientea cinparaelestudiodenumerosasenfermedadesde
lasregionescodificantes(exones),capacesdeexpre origengentico.

GENMICA EN MEDICINA. Una gua prctica. 7


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

Secuenciacindepanelesdegenes nmerodepanelescomerciales,aunquetambinse
Lasecuenciacindeunpaneldegenesconsisteenel pueden disear a la carta. Combinando estudios
estudiodeundeterminadogrupodegenesdeinte deADNyARNpodemossecuenciarmutacionesco
rs de manera rentable y eficiente. Existe un gran nocidas(hot spots),genescompletos,detectarCNVs
ytraslocaciones.

Lospanelescomercialestienenlaventajadequesu
diseoestmuyoptimizado,porloquepermitenla
secuenciacinde los genesdeinters conunagran
LA SECUENCIACIN coberturayprofundidaddelectura.Estohacefacti
MASIVA JUEGA UN PAPEL ble la deteccin de variantes de muy baja frecuen
cia,ascomounanlisisrpidoyfiable.Sinembar
IMPORTANTE EN EL go,lospanelescomercialesnosiempreincluyenlas
DIAGNSTICO DIFERENCIAL regionesrelevantesparanuestroestudio,nocontie
DE ENFERMEDADES CON nenlatotalidaddeisoformasdeungenocontienen
genesconunahomologaelevadaconpseudogenes
SNTOMAS CLNICOS que pueden llevar a resultados errneos. En esos
SOLAPANTES, EN LA DETECCIN casoshayquedisearunpanelpersonalizadoselec
cionando las regiones cromosmicas de inters y
DE VARIANTES DE BAJA optimizarsusecuenciacin,loquesuponeunesfuer
FRECUENCIA Y DE VARIANTES zoextraporpartedelgenetista/investigador.Parael
QUE ACTAN COMO diseo de paneles, existen diversas aplicaciones in
formticasdelascasascomercialesquefacilitanes
MODIFICADORES DEL tatarea.
FENOTIPO. Lasecuenciacindepanelesdirigidosevitadetectar
variantes no relacionadas con la patologa de estu
dioquegenerangrancomplejidadalanlisisdebido
a la dificultad de su interpretacin, como ocurre en

8 GENMICA EN MEDICINA. Una gua prctica.


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

PRINCIPALES ESTRATEGIAS DE
SECUENCIACIN MASIVA UTILIZADAS EN EL
CONTEXTO DE LA MEDICINA

lasecuenciacindeunexoma.Porotraparte,elhe mento. Con esta aplicacin podemos estudiar los


choquelospanelesdegenesestndirigidosaregio transcritos de ARN, identificar eventos de splicing
nesconocidas,hacequenoseaposibleeldescubri alternativo, modificaciones post transcripcionales,
mientodegenesnorelacionadosconlapatologade eventos de fusin gnica, cambios en la expresin
estudiohastaelmomento. gnica,ascomolaidentificacindeSNVsdemane
Apesardequelospanelesdegenessonampliamen ra simultnea. Es posible secuenciar diferentes po
te utilizados en la rutina diagnstica de muchos la blaciones de ARN (ARN total, ARN pequeos,
boratorios para el estudio de determinadas patolo ARNm, ARNr, ARNt y otros ARNs no codificantes).
gas y dado el abaratamiento de los costes de se Hay que considerar que los resultados obtenidos
cuenciacin,latendenciaactualeselusodepaneles mediante estos experimentos son especficos de
queincluyanunnmerodegenescadavezmsele tejido,dependientesdeltiempoydelaprofundidad
vado.Estopermitetantoagilizareltrabajodelabo delectura.Suanlisiseinterpretacinesaltamente
ratorio como evitar el diseo y puesta a punto de complejo y requiere de expertos en bioinformtica,
panelesespecficosparacadamuestra. bioestadstica y biologa molecular. El anlisis del
ARN ms comnmente utilizado es el estudio de
SecuenciacindelTranscriptomaoRNAseq(Whole expresindiferencialparaconocerqugenesseso
TranscriptomeSequencingWTS) breexpresanosereprimenendosomscondiciones
El transcriptoma representa el ARN transcrito, que (porejemplo,sanovs.enfermo)enelqueserealiza
se traducir finalmente a protenas, y representa un conteo del nmero de bases secuenciadas en
solounapartedelgenomacompleto(<2%).Setrata cadaposicinparadeterminarlosnivelesdeexpre
deunconceptoglobaldebidoaque,inclusoparala sindelosgenes.Paraestetipodeanlisissereco
mismaespecie,puedeexistirdiversostranscritosde mienda utilizar la expresin en tejido sano como
unmismogenenfuncindeltipotisularenelquese control.Estosestudiospuedenhacersetambinme
exprese,lascondicionesambientales,etc. diantetecnologadearrayspero,dadalaconstante
ElRNAseqosecuenciacindeADNcmedianteNGS mejora de la NGS, cada vez ms, se estn sustitu
permite obtener informacin global de los genes yendoporlaNGS.
expresadosporunindividuoenundeterminadomo

GENMICA EN MEDICINA. Una gua prctica. 9


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

PLATAFORMASDESECUENCIACIN Elinconvenientedeesteequipoeselelevadocoste
de la ptica en el instrumento para ladeteccin lu
La secuenciacin con el mtodo Sanger del primer
miniscenteyelnmerodesecuenciasobtenido,que
genomahumano,completadaen2003(Human Ge
durante estos ltimos aos, ha sido superado por
nome Project) supuso un esfuerzo de 13 aos y un
otrastecnologas.
costede2,7billonesdedlares.Esteproyectofueel
detonanteparaquebilogosmoleculareseingenie Illumina
ros impulsaran el desarrollo de secuenciadores de La plataforma Illumina se basa en la incorporacin
gran rendimiento, capaces de generar millones de de nucletidos marcados con terminadores reversi
secuencias en paralelo y a un coste menor que los blesdemaneraqueencadaciclodeligacinseune
mtodostradicionales.En2008,5aosdespus,se un nucletido complementario al ADN molde emi
secuenci un genoma humano con un coste de 1,5 tiendo una seal luminosa que es captada por un
millones de dlares (Wheeler, 2008). Actualmente, sistema ptico altamente sensible (secuenciacin
la secuenciacin de un genoma humano completo porsntesis).LaqumicaempleadaporIlluminaper
tieneuncostedetansolo1.000dlares.Hoyenda, mite generar lecturas de hasta 300 nucletidos lle
estas plataformas se han extendido rpidamente gandoaproducirhasta6000Gbendatos.
dotando a grandes y pequeos laboratorios de la
Larelacin costeefectividadque ofrecen las plata
tecnologadesecuenciacinmsavanzada.
formasdeIlluminayelelevadorendimientoobteni
Actualmente existen diversas plataformas de se do con ellas hace que actualmente sea una de las
cuenciacin y es til conocer sus principios bsicos compaaslderenelsector.Illuminaofreceequipos
ascomosusventajaseinconvenientesalahorade que se adaptan a diferentes tipos de laboratorios,
adquiriralgunadeellasosimplementeparalaelec desdemquinasdemenorrendimientocomoelMi
cindelatecnologaentuexperimentooanlisis.A niSeq (7,5 Gb de secuencia por run) hasta el Nova
continuacin describimos las plataformas de NGS Seq(6000Gbdesecuenciaporrun),pudiendoutili
disponibles. zarse en todas las aplicaciones que ofrece la NGS.
454LifeSciences Los equipos de Illumina presentan la ventaja de te
ner bajas tasas de error en los resultados. Un gran
454 Life Sciences fue la primera empresa en lanzar
inconvenienteeselelevadocosteinicialdelosequi
al mercado una plataforma de secuenciacin masi
posyuntiempodevidatilcorto,ascomouname
va.Estatecnologaestbasadaenlapirosecuencia
norlongituddelassecuenciasobtenidas.
cin,queconsisteenladeteccindesealeslumino
sas generadas a partir de grupos pirofosfato libera IonTorrent
dostraslaunindeunnucletidocomplementarioa La secuenciacin por semiconductores es un mto
unahebradeADNmolde. dodesecuenciacindeADNbasadoenladeteccin
Esteprimersecuenciadorpresentgrandesventajas de protones liberados durante el proceso
respecto a la secuenciacin Sanger, suponiendo un de polimerizacin del ADN. Este tipo de secuencia
gran abaratamiento del coste de secuenciacin por cindifieredelosdemsenquenousannucletidos
base y el gran aumento en la cantidad de informa modificadosqumicamenteyenqueladeteccinno
cin generada (aproximadamente 1 milln de se se realiza por mtodos pticos, sino por deteccin
cuencias). Una de las fortalezas de esta tecnologa de cambios de pH. Laincorporacindenucletidos
es la longitud de secuencia, de hasta 800 pares de complementariosalacadenamoldedeADNimplica
bases,quefacilitaelensamblajedegenomasde no lageneracindeunenlacecovalenteylaliberacin
vo. de unpirofosfatoyunprotn.Esteprotnproduce

10 GENMICA EN MEDICINA. Una gua prctica.


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

uncambiodepHyporconsecuenciaunasealelc muestraynounADNamplificado,yalmismotiem
tricaqueserdetectadaporlamquina.Laprincipal po,sereduciraeltiempodetrabajoyelprecioglo
ventaja de este proceso es la velocidad de secuen baldesecuenciacin.
ciacin, as como el bajo coste debido a que no se Existe ms de una empresa que est desarrollando
utilizannucletidosmodificadosyaqueladeteccin equipos que disponen de la tecnologa de tercera
noesptica. generacin,comoOxfordNanoporesyPacificBios
No obstante, existen algunas limitaciones. Entre ciences (PacBio), pero es esta ltima la que se ha
ellassindudalamsimportanteeslasecuenciacin establecido en el mercado actual. Su secuenciador
de regiones de homopolmeros, o repeticin de va SMRT,sebasaenelusodechipsquecontienenmi
riasbasesiguales,enlasqueseproduceunaelevada les de pocillos en los que se encuentra anclada una
tasadeerror.Otralimitacinseralalongituddelas nicapolimerasaquepermitellevaracabolaincor
secuencias(hasta400paresdebases),bastantems poracin de nucletidos marcados en tiempo real
pequeas comparadas con otras tcnicas como la (750nucletidosen1segundoconsiguiendosecuen
secuenciacin de Sanger o la pirosecuenciacin. cias de hasta 60.000 pares de bases). Debido a sus
Adems, el rendimiento actualmente es ms bajo nuevos sistemas de ensamblaje que corrigen los
respectoalrestodetcnicasdesecuenciacinNGS, errores y auna disminucindelcoste delasecuen
aunquelacompaaestdesarrollandonuevassolu cia,haconseguidoabrirsepaso,siendolatecnologa
cionesaesteproblema. de eleccin para proyectos de investigacin ambi
ciosos. As, es la mejortecnologa para obtenerun
Secuenciacindetercerageneracin
genoma cerrado de bacteria o para detectar y con
Lasnuevasplataformasqueseencuentranendesa firmar isoformas en genomas con patrones de spli
rrollo, conocidas como secuenciadores de tercera cingmuycomplejosytambinparadetectarvarian
generacin,permitenlasecuenciacindeunanica tesestructurales.
molcula de ADN (singlemolecule sequencing) evi
Apesardeesto,PacBiotieneunoutputlimitado,un
tando la amplificacin de los fragmentos de ADN
elevado coste y una elevada tasa de error con una
mediantePCR.Deestaforma,seevitaranlasaltera
distribucin de los errores casi aleatoria. Requiere
ciones generadas durante el proceso de amplifica
unacantidaddeADNdepartidamuygrandedebido
cin ya que el ADN secuenciado es el original de la
a que no existe ningn paso de amplificacin de

GENMICA EN MEDICINA. Una gua prctica. 11


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

ADN.Noeslatcnicaptimaparalasecuenciacin yora de ellas desactualizadas y no validadas. Hay


deungenomacompletoperoesclaveenlasecuen quedestacarlaimportanciaderegistrarenunabase
ciacin de zonas del genoma de elevada compleji de datos propia del laboratorio todas las variantes
dad. encontradas con una misma tecnologa, lo que nos
permitedetectarfcilmenteartefactosypolimorfis
mos poblacionales facilitando en gran medida el
CONCLUSIN
anlisisdedatosylainterpretacin.
Durante los ltimos aos hemos experimentado el Apesardequeanquedacaminoporrecorrerenla
rpido desarrollo de tecnologas de secuenciacin implementacindelaNGSenloslaboratoriosclni
que comparten una base comn: la secuenciacin cos, la capacidad de estudiar fenmenos biolgicos
masiva paralela de ADN amplificado clonalmente. a un nivel genmico ha supuesto un avance signifi
La cantidad tan ingente de datos de secuencias de cativoeneldiagnsticodeenfermedadesgenticas.
ADNqueseestngenerandoestcambiandolafor Lavelocidadalaqueseestndesarrollandolasnue
maenque se hace investigacin biomdica, permi vastecnologasenestecampopuederesultarabru
tiendonuevosdescubrimientosyavancescientficos madora. Sin embargo, los profesionales sanitarios
aunritmonuncavistoantes.Adems,latercerage debenestarpreparadosparaadaptarseaestanueva
neracin de secuenciadores promete nuevas alter eratecnolgicaysaberaprovecharlosrecursosdis
nativas an ms baratas y con la posibilidad de re poniblesenbeneficiodelpaciente.
solveralgunosproblemasasociadosalossecuencia
dores actuales, tales como el estudio de expansio
nes, deteccin de variantes de nmero de copia o BIBLIOGRAFA
trastornosdemetilacin,ascomoladisminucinde Calabria I, et al. The new challenge in oncology:
tiempototaldesecuenciacin. Nextgeneration sequencing and its application in
EstosavancesentcnicasdesecuenciacindeADN precision medicine. An Pediatr (Barc). 2016 Nov;85
no han venido solos. La cantidad de datos que se (5):273.e1273.e7.doi:10.1016/j.anpedi.2016.05.006.
estgenerandohacreadounanecesidaddemejorar MartnezF,etal.Highdiagnosticyieldofsyndromic
y expandir los recursos informticos asociados. Los intellectual disability by targeted nextgeneration
nuevos secuenciadores pueden generar cientos o sequencing.JMedGenet.2017Feb;54(2):8792.doi:
milesdegigabytes(Gb)dedatosenbrutoenapenas 10.1136/jmedgenet2016103964.
unas horas y estos datos hay que almacenarlos y
Matthijs G, et al. Guidelines for diagnostic next
analizarlos. As pues, en paralelo al avance de las
generation sequencing. Eur J Hum Genet. 2016
tcnicasdesecuenciacin,sehageneradounagran
Jan;24(1):25.doi:10.1038/ejhg.2015.226.
necesidaddeespecialistasbioinformticosydeana
listas quepuedanmanejarestosdatos yanalizarlos NgSB,etal.ExomesequencingidentifiesMLL2mu
paradarlesunautilidadbiolgica.Dehecho,unode tations as a cause of Kabuki syndrome. Nat Genet.
los principales cuellos de botella de esta tecnologa 2010Sep;42(9):7903.doi:10.1038/ng.646.
es la escasez de especialistas en NGS as como la WheelerDA,etal.Thecompletegenomeofanindi
falta de bases de datos de variantes relacionadas vidualbymassivelyparallelDNAsequencing.Natu
conlasenfermedadesydeguasconsensuadaspara re. 2008 Apr 17;452(7189):8726. doi: 10.1038/
lainterpretacindevariantesgenmicas(Matthijs, nature06884
2016).Actualmente,hayunagranvariedaddebases
de datos genmicos que utilizan criterios distintos
paralaasignacindepatogenicidad,estandolama

12 GENMICA EN MEDICINA. Una gua prctica.


DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA

LA CANTIDAD DE DATOS QUE SE EST


GENERANDO HA CREADO UNA NECESIDAD
DE MEJORAR Y EXPANDIR LOS RECURSOS
INFORMTICOS ASOCIADOS.
AS PUES, EN PARALELO AL AVANCE
DE LAS TCNICAS DE SECUENCIACIN,
SE HA GENERADO UNA GRAN NECESIDAD
DE ESPECIALISTAS BIOINFORMTICOS
Y DE ANALISTAS QUE PUEDAN MANEJAR
ESTOS DATOS Y ANALIZARLOS PARA
DARLES UNA UTILIDAD BIOLGICA.

GENMICA EN MEDICINA. Una gua prctica. 13


CAPTULO 2:
SECUENCIACIN MASIVA:
DEL ADN A LOS DATOS
El primer paso en todo anlisis gentico es la obtencin del ADN
y su procesado. Cada tipo de anlisis gentico necesita un procesado
especfico, de ah que el camino desde el ADN a los datos no siempre
sea el mismo y por tanto sea fundamental proveer de material
adecuado a cada anlisis. Este captulo repasa los pasos desde
la obtencin del ADN hasta los datos brutos que permitirn
la posterior interpretacin clnica.

Carolina Monz1,2, Jos Miguel Juanes1,2,5, Pablo Marn-Garca1, Felipe Javier Chaves2,3,
Vicente Arnau Llombart4,5, Ana Brbara Garca-Garca1,2,3
1 Medical Genomics Visualization group (MGviz.org)
2 Unidad de Genmica y Diagnstico Gentico (UGDG), Fundacin Investigacin Clnico Valencia (INCLIVA)
3 CIBER de Diabetes y Enfermedades Metablicas Asociadas (CIBERDEM)

4 Departamento de Informtica, Escuela Tcnica Superior de Ingeniera (ETSE), Universitat de Valncia

5 Institute for Integrative Systems Biology (I2SysBio, Universitat de Valncia-CSIC)


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

INTRODUCCIN les, hanpermitidolaincorporacindelasecuencia


cindelADNenlossistemasdeSaludylaobtencin
Hanpasadomsde10aosdesdelafinalizacindel de diagnsticos basados en la genmica de forma
Proyecto Genoma Humano (International Human rutinaria.
GenomeSequencingConsortium,2004)ygraciasal
Estosavancesestnpermitiendodefinirloscompo
rpidoprogresodelasecuenciacinmasivaenpara
nentes genticos de muchas enfermedades, carac
leloysuabaratamiento,hoyendaesfcilvereluso
terizarcomprensivamentegenomasdecncer,crear
rutinariodeldiagnsticogenticodemuchasenfer
sistemasprcticosparalainformticadelagenmi
medadesenelmbitohospitalario.
caclnicaeincluirelmicrobiomaenlosmodelosde
Aunque el uso de la genmica mdica es muy pro saludyenfermedadhumana.
metedor, todava est en sus inicios. Cada ao se
Enestecaptulointroduciremoslasdiferentestcni
desarrollan nuevas tecnologas, mtodos y secuen
casdesecuenciacinyanlisisdelADN,explorando
ciadores que hacen del diagnstico gentico una
todos los pasos del camino que se recorre desde el
realidad (Goodwin, 2016). La denominacin ms
ADNhastalosdatosbrutosquepermitirnlainter
precisa para la secuenciacin de nueva generacin
pretacin clnica de los resultados de la secuencia
seraSecuenciacinMasivaenParalelo(MPS,desu
cinmasiva.
nombreeninglsMassive Parallel sequencing).No
obstante, la expresin ms utilizada, que adopta
mostambinenestagua,esladeNextGeneration TENEMOSUNPACIENTE,YAHORAQU?
Sequencing(oNGS).Lasecuenciacindenuevage
neracinhasupuestounsaltocualitativoycuantita Preparacindelasmuestras
tivoquehacambiadolasreglasdeljuegoenelpano Para proceder a la correcta extraccin del material
rama del diagnstico gentico, permitiendo pasar gentico a analizar hay que tener claro el estudio
delagenticaclnicaalagenmicamdicayenun quesequiererealizar.Enlamayoradeloscasosse
futuro cercano, a la medicina de precisin (Green, analiza el ADN genmico para la identificacin de
2011). las variantes causantes de una enfermedad. Por
Durante los ltimos aos, se han realizado grandes ejemplo,enenfermedadeshereditariassesueleob
proyectospblicosinternacionalesdesecuenciacin tener ADN a partir de sangre perifrica, pero si se
masiva, como el proyecto 1000 genomas (Birney y quiereverlapresenciademutacionesenuntumor,
Soranzo,2015),ENCODE(ENCODEProjectConsor hayquehacerunabiopsiayanalizarelADNdelmis
tium, 2012), 100K genomas del Genome England mo. Tambin se puede analizar el ADN circulante
(Genomics England, 2017), ExAC y gnomAD para diagnstico prenatal no invasivo (Figura 1) e
(Monkol, 2016), Genome Asia 100K (http:// inclusoeldelacargavrica.
www.genomeasia100k.com/), AllofUs/PrecisionMe La extraccin del ADN es un proceso sencillo que
dicineInitiative(NIH)(Sankar,2016)yalgunospriva consistebsicamenteenextraerlosleucocitosdela
dos como AstraZeneca (Ledford, 2016). A partir de sangre (o clulas de tejidos como la mucosa bucal,
este tipo de proyectos y otros a menor escala, se biopsias o heces), romper su pared celular y la del
han abaratado los costes de procesado de ADN, ncleoyprecipitarelADNmediantesalesyalcohol.
estandarizado los protocolos de secuenciacin y Cuestionesimportantesenesteprocesoson:inhibir
anlisisysehandesarrolladomquinasdesecuen las protenas que degradan el ADN cuando se lisan
ciacinlosuficientementesimples,rpidasybaratas lasclulas;obtenersoloADNoARN(olosdosjun
que,juntoalosavancesenlasherramientasdean tos segn se necesite) o nicamente el ADN mito
lisisypotenciadeclculodelosordenadoresactua

GENMICA EN MEDICINA. Una gua prctica. 15


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

condrialyqueelADNobtenidosealomspuropo
10%delADN
sible y no contenga trazas de los productos usados circulanteesfetal
para la lisis y extraccin del ADN (detergentes, fe
nol, cloroformo, etc.), que interferiran en la PCR y
procesosdesecuenciacin(PsifidiA,2015).Haycier
tosanlisisqueimplicanelusodefragmentoslargos
deADNyesmuyimportantequeelmaterialdepar
tida noestefraccionado.Algunos robots de extrac
cin automtica de ADN lo fraccionan demasiado
durante el proceso y no daran buenos resultados
para estos anlisis, as como tampoco el ADN de 1%clulasfetales
muestras sometidas a procesos de conservacin de
tejidosfijadosconformaldehdo(bloquesdeparafi
na), cuyo procesado fracciona el ADN en tamaos
Figura 1. El test prenatal no invasivo o NIPT (non invasive prenatal
deentre125y200paresdebases. test) se hace a partir de ADN libre circulante (cfDNA) en el plasma
materno (Vermeesch, 2016).

PRINCIPALES OPCIONES DE TCNICAS DE SECUENCIACIN.

SECUENCIACIN CLSICA

Secuencias de 500 a 100 pares de bases (una secuencia de un solo individuo a la vez).
Sanger
Paralelizacin 96x.

MPS (MILLONES DE SECUENCIAS EN PARALELO)

Secuencias de entre 75 y 150 pb.


Illumina Error aleatorio, pero segn secuenciador (los que usan dos colores) mayor
Lecturas cortas sesgo en llamado de Gs y problemas con regiones ricas en AT y GC.

Secuencias entre 200 y 400 pb.


Ion torrent
Mayor tasa de error en homopolmeros.

Secuencias de entre 8 y 30 Kb.


PacBio Tasas de error bajas a 1% con muchos pases de la misma secuencia
(circular consensus read).

Oxford Secuencias de 200 Kb (en continua mejora).


Lecturas largas nanopore Tasa de error entre un 2 y un 10% segn metodologa.

Secuencias 'ligadas' de longitud virtual de 100 Kb.


Lecturas largas Uso de cdigo de barras nicos para fragmentos largos antes de fraccio-
sintticas namiento para preparar la genoteca y 'unir sintticamente' las lecturas.
10X Genomics.

16 GENMICA EN MEDICINA. Una gua prctica.


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

YATENEMOSELADNYAHORAQU? tosdeADNalavez.Lostresmilmillonesdebases
de un genoma se pueden secuenciar en dos das, y
Una vez extrado el ADN, el siguiente paso es ver
teniendo en cuenta que se pueden poner varias
qu mtodo de secuenciacin es el ms adecuado
muestras a la vez cada una con una 'etiqueta', los
paraelexperimentoplanteado.
secuenciadoresactualescomoelNovaSeqdeIllumi
A la hora de secuenciar el ADN la primera decisin naadmitenhasta16genomasalavezporcarreray
es si necesitamos secuenciar una secuencia larga y los secuencian todos en 40 horas. A esto hay que
continua (para el tipado de HLA, discriminar la se aadirotras40horasparaprocesarlosdatosbioin
cuencia de un gen de sus pseudogenes o estudiar formticamente en un centro de alta computacin
grandesreordenamientosdelgenoma)onossirven quepermitalaparalelizacinmasivadelosprocesos
fragmentospequeos.Otrofactoratenerencuenta de anlisis. Este anlisis bioinformtico se puede
essiqueremossecuenciarmuchosindividuosomu hacer en ordenadores de sobremesa con 32 GB de
chos genes a la vez, en cuyo caso la secuenciacin RAMysepuedeanalizarunexomaen3horas.
Sanger sera sustituida por la secuenciacin masiva
Cmoconseguirlaparalelizacinycmoseleenlas
enparalelo(NGS)porsurapidezyprecio.
bases es lo que diferencia a las diferentes platafor
mas.
SECUENCIACINMASIVA A da de hoy hay dos modelos principales de tcni
cas desecuenciacinNGS:secuenciacinpor snte
La secuenciacin masiva en paralelo consiste en
sis (SBS) que implica fragmentos cortos y Single
fragmentar el ADN en pequeos trozos, amplificar
Molecule RealTime Sequencing (SMRT)quepermite
los mediante PCR y procesarlos todos a la vez
fragmentosdevariaskilobasesperoconmayortasa
(Figura2).EstopermiteanalizarcualquierADNaun
deerror.
que no se tenga conocimiento de la secuencia a
priori, ya que no se van a disear cebadores para EnelladodelossecuenciadoresSBS,lasdostecno
amplificar regiones especficas del ADN, como se logas ms asentadas son Illumina (detecta la adi
hace clsicamente con la tecnologa Sanger o de cindelasbasesunaaunamediantefluorforos)e
electroforesiscapilar. Ion Torrent, que detecta grupos de bases iguales y
que mide la seal mediante semiconductores que
Eltrucodelasecuenciacinmasivaestenlaparale
evalancambiosdeconcentracindeprotones(pH).
lizacin, es decir, en secuenciar todos los fragmen

Figura 2. Sucesin simplificada de pasos a llevar a cabo en estudios de secuenciacin masiva.

GENMICA EN MEDICINA. Una gua prctica. 17


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

Encuantoalossecuenciadoresdesecuenciaslargas
ydeteccinentiemporealdemolculasnicas,los
dos exponentes principales son PacBio de Pacific
Biosciences y MinIon de Oxford Nanopore. PacBio
lee secuencias largas en tiempo real midiendo la
emisin de luz del fluorforo liberado tras la incor
poracindecadanucletido.MinIondetectalasba
ses de la secuencia midiendo cambios de corriente
elctricaenlamembranadelporoamedidaquepa
salasecuenciadecadenasimpledelDNA.
Veamos ms detalladamente en qu consiste cada
tcnica:
Ion Torrent. LatcnicadesecuenciacindeIon
TorrentiniciasuprocesamientoconunaPCRen
emulsin con microgotas (Nyrn, 1985) y usa C
semiconductores para detectar los H+ despren
didosenlaincorporacindelosdNTPs.
Illumina. Unadelasmayoresaportacionesdela
tecnologadesecuenciacindeSolexaIllumina,
eslaPCRpuenteparalageneracindeclsteres
y el mtodo de la terminacin cclica reversible
paralasecuenciacinporsntesis.Encadaciclo,
seuneundNTPmarcado,setomaunafotogra
fa y se retira para empezar de nuevo (Bentley,
2008).
Tanto Ion Torrent como Illumina, generan se
cuencias cortas. Illumina de 75 a 300 pares de
bases; Ion Torrent hasta 400. Si se necesitan
lecturasmslargas,lossecuenciadoresdePaci
fic Biosciences (Rhoads, 2015) y Oxford
Nanopore Technologies (Haque, 2013) son ca
pacesdeproducirlecturasquesuperanlos1.000
TECNOLOGA ILLUMINA
10.000paresdebases.Estastecnologasfacili
A. El ADN se fragmenta y se une a dos adaptadores, uno en
tan la secuenciacin de regiones del ADN que cada extremo, y se fijan sobre una lmina de vidrio sobre
contienen alta cantidad de nucletidos GC y el la que hay oligonucletidos complementarios a los adap-
alineamientodesecuenciasquecontienenrepe tadores.
ticiones. Adems, al no requerir un paso previo B. PCR en puente para amplificacin clonal. Cuando se han
deamplificacinporPCR,evitanloserroresdela formado los clsteres de secuencias iguales.
C. Secuenciacin. Esta tcnica utiliza dNTPs con distintos
enzimapolimerasa.
fluorforos y terminadores reversibles.
D. En cada ciclo una nueva base es aadida al clster y se
saca una foto. Por ejemplo, en el clster superior izquier-
do primero se ha aadido una C luego una T y finalmente
una T, quedando la secuencia CTT.
18
SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

TECNOLOGA ION TORRENT


A. Microgotas con perlas y reactivos de PCR.
B. Unin de un nico fragmento por perla.
C. Amplificacin del fragmento en cada microgota de PCR individual.
D.Distribucin de una perla por pocillo.
E. Secuenciacin por sntesis. Cada incorporacin de un nucletido libera un protn que mide un pHmetro.
F. Si hay varias bases idnticas consecutivas da una seal proporcional al nmero de bases consecutivas, pero debido a pro-
blemas de saturacin de seal esto genera problemas con homopolmeros de ms de 7 bases dando tasas de error alto en
estos casos.

TECNOLOGA PacBio TECNOLOGA MinIon


Detecta mediante un microscopio confocal la luz liberada Detecta cambios en la corriente que pasa por el poro a me-
tras cada incorporacin de cada nucletido a la cadena dida que la secuencia va avanzando.
de ADN que va sintetizando

19
SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

Cul ha sido la revolucin de la secuenciacin


masiva?
Laimportanciadelaparalelizacinestentodoslos
pasosdelproceso.Losmtodosactualesdesecuen
ciacinhantriunfadoporquesoncapacesdeparale
lizaryautomatizarelanlisisa granescala,nosolo
laadquisicindelasecuencia.Estosehaconseguido
graciasaun puntoclavequehafacilitadotodoslos
pasos posteriores. Cada secuenciacin en paralelo
partedeunasolahebradeADN,nodecadaunade
lascopiasdecadacromosoma.Portanto,adiferen
ciadelasecuenciacinSanger,dondeunavariacin
enheterocigosisimplicaladeteccinencadalectura
de las dos variantes a la vez, aqu se tiene una se


cuencia distinta para cada alelo, o copia de ADN.
Esto implica lo que se conoce como una lectura
"digital", o lo que es lo mismo, es posible contar
cuntaslecturashaydeunaleloycuntasdelalter LA SECUENCIACIN
nativoeinferirsiesasproporcionescorrespondena SANGER SE USA PARA VALIDAR
unheterocigoto(50%delecturasaproximadamente
decadaalelo),mutacionessomticas(encncer)oa
LOS RESULTADOS DE
unartefactodesecuenciacin. LA SECUENCIACIN MASIVA
La NGS es ms rpida, pero la secuenciacin PORQUE ES UNA TCNICA
Sangeresmejor,no? 'ORTOGONAL', ES DECIR,
No necesariamente. Hoy en da, la secuenciacin UNA TECNOLOGA CON
masivadelecturascortascomoladeIllumina,tiene
la misma o ms calidad que la secuenciacin me UN TIPO DE ERROR
dianteelmtodoSanger(patrnestndaractual)si TOTALMENTE DIFERENTE.
serealizaaunacoberturade200x.Adems,tienela
ventajadequesepuedenautomatizartodoslospa
sosdelanlisis,sobretodoeldellamadodevarian
tes,loquepermitepoderanalizarunexomacomple
toenelmismotiempoqueseharaunpanelde10o
15 genes siguiendo el mtodo estndar. Hay que
resaltar que es verdad que la secuenciacin masiva
tiene un una mayor tasa de error por lectura, pero
esonoesningnproblemayaquesupotenciaviene
de leer la misma secuencia entre 30 y 200 veces y
sacarunconsenso.
La secuenciacin Sanger sigue siendo til en regio
nesdelgenomadondehaganfaltasecuenciaslargas
para poder alinear/amplificar de forma unvoca una

20
SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

reginyasegurarsedequelasvariantesquesevana distribuye). Este mtodo consigue un fracciona


llamar,sonrealmentelasdeesazonaynolasdeun mientodelADNmuyhomogneoynormalmentese
pseudogenoreginhomloga. obtiene un rango de fragmentos con un pico a 250
nucletidosalosqueluegoselesaadeporligacin
Si la secuenciacin Sanger no es mejor, por qu
un adaptador a cada lado. Este mtodo, aunque
seusaparavalidarlosdatosdesecuenciacinma
muypreciso,eslaboriosoyhoyendahayprotoco
siva?
losmscortosconmtodosenzimticos.
La secuenciacin Sanger se usa para validar los re
Losmtodosenzimticossebasanenenzimasderi
sultados de la secuenciacin masiva porque es una
vadas de elementos transponibles, llamadas trans
tcnica 'ortogonal', es decir, una tecnologa con un
posasas.Estemtodoaadeyaunapartedeladap
tipodeerrortotalmentediferentealdelametodolo
tadoralhacerelcorteyluegoseaadeelrestodel
gaoriginal,deformaquesielresultadodelaprime
adaptadorporPCR(Figura6).Lafragmentacinba
raeraunartefactodelatcnica,podraserunerror
sada en transposasas (tagmentacin), aunque es
intrnsecodelmtodoyvolveraasalirenunarepe
mucho ms rpida, no tiene tanta calidad como la
ticin.Usarunatecnologacompletamentediferen
sonicacin de foco adaptativo. Nextera (Illumina) y
te, con fuentes de error distintas, nos reafirma en
QXT(Agilent)sondosproductoscomercialesbasa
que un resultado coincidente sea real y no un arte
dosenestatecnologa.
facto.
Eltipodemuestradepartidaesdeterminanteenla
eleccindelmtododefragmentacin.Anivelprc
PREPARACINDEGENOTECASPARA tico, cuando hay que procesar gran cantidad de
SECUENCIACINMASIVA muestrasdesangreomaterialnoembebidoenpa
rafina, la tagmentacin es una buena opcin. No
Enesteapartadotrataremossololapreparacinde
obstante, para muestras de parafina, es altamente
genotecasdeIllumina,queeselmtodomsexten
recomendableusarsonicacinyaqueestosADNya
didoenelmbitoclnico.Losconceptossonbsica
estn fragmentados o deteriorados por el proceso
mentelosmismosparaotrasplataformas.Elprimer
de fijacin y la mayora de los fragmentos de ADN
paso para poder secuenciar con las tecnologas de
tienen tamaos por debajo de los 250 pares de ba
NGS es procesar el ADN creando una genoteca
ses,loquedificultaelcorteporlastransposasas.
(fragmentos pequeos de ADN de unos 200 a 400
paresdebasesconunassecuenciasenlosextremos La fragmentacin requiere una comprobacin de
llamadasadaptadores,quenospermitirnrealizarla calidadparaverquehasidocorrecta.Estechequeo
secuenciacin).Paraello,seusandiferentestcnicas consiste en ver el perfil de fragmentacin en un
de fragmentacin, ya sea mecnica (sonicacin), Bioanalyzer,TapeStationoQIAxcel.
qumica (temperatura y pH) o enzimtica Otraformadeobtenerlagenotecaesporamplifica
(fragmentasasotransposasas). cindefragmentosenvezdeporfragmentacinde
Elsistemadefragmentacinaelegiresmuyimpor todoelgenoma(IonTorrent).Cuandoelnmerode
tanteporqueesunodelospasosdondehayquepo genes a estudiar es bajo, es ms rentable disear
ner el primer control de calidad, ya que cualquier PCRs para todos los exones de los genes y secuen
fallopuedeincurrirenungransesgoenlacalidadde ciar los fragmentos, que hacer un exoma o disear
los resultados. Tcnicamente, la mejor fragmenta sondasdecapturayrealizartodoelprocesodeenri
cinylamayorcalidadseconsiguenconunmtodo quecimiento.
especialdesonicacinllamadodefocalizacinadap Hay productos comerciales que amplifican por PCR
tativa (Covaris es la principal casa comercial que lo todoelexomaograncantidaddegenes.Estotiene

GENMICA EN MEDICINA. Una gua prctica. 21


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

Tagmentacin: Fragmentacin del ADN con transposasas modificadas. Un mtodo rpido y eficaz de preparar
libreras para MPS de fragmentos cortos es la fragmentacin del ADN por mtodos enzimticos.

Perfil de longitudes de fragmentacin del ADN antes de aadir los adaptadores visto con Bioanalyzer, Tapes-
tation o Qiaxcel

22 GENMICA EN MEDICINA. Una gua prctica.


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

sus ventajas e inconvenientes. La secuenciacin a (normalmente indicado como una cobertura


partir de fragmentos de PCR es ms barata porque mediamnimade30x).Alsecuenciartodoelge
esmsespecficaysesecuenciansololosfragmen noma directamente se obtiene una cobertura
tos deseados, pero es ms laborioso disear todos similarparatodaslasbases.Ademsnosoloda
loscebadores.Porelcontrario,losmtodosdecap la informacin sobre las variantes de una sola
turaoenriquecimientosonmsrpidosperoacaban base,sinoquetambinpermiteidentificarreor
secuenciandoun40%desecuenciasfueradelazona denamientosyvariacionesennmerodecopias
deinters,encareciendolasecuenciacin. (CNVs).
Endefinitiva,lastresaproximacionesmscomunes Cadaunodeestosestudiostienesusprosysuscon
deseleccinderegionesparasecuenciaralahorade tras.Sinembargo,debidoaquetodavasedescono
prepararlalibrerason: celafuncindegranpartedelasregionesdelADNy
Estudio utilizando paneles de genes implicados dado el alto coste de un genoma, para los estudios
enlaenfermedadorelacionadosconelfenotipo dediagnsticoclnicoseutilizamayoritariamenteel
del paciente, que supone secuenciar una canti anlisisdeexoma,oencasodetenersospechassig
dad de genes determinados. Este tipo de estu nificativasquedirijaneldiagnsticohaciasndromes
dioreducelacantidaddegenesaevaluar,facili concretosdeorigenmonognicoconocido,paneles
tandoeldiagnsticorpidoydirigidodelapato degenesdirigidos.
loga cuando hay una sospecha significativa de
un sndrome concreto. Normalmente se hacen DISCUSIN
porPCRlaseleccindereginparamenosde10
genesodiseandosondasdecapturasisevaa LademocratizacindelaNGSenlaclnica,hadado
amplificarmsde1Mb. lugaraunsinfndeposibilidadesquepermitendesa
rrollarnuevosmtodosyprocedimientosparafacili
Estudiodelexoma,quesuponelasecuenciacin
taryacelerareldiagnsticogenticoylaampliacin
mayoritariamente de la parte codificante del
desusaplicaciones.Lasimplificacindelprocesado
ADN (aproximadamente un 12% de la secuen
de muestras y la automatizacin del anlisis bioin
ciagenmica).Estosignificasecuenciarentre30
formticoconlasnuevastcnicasdeNGShaceque
y 60 millones de bases 100 veces de media por
estetipodeanlisisestllegandoaloshospitalesy
individuo(cobertura100x).Alcubrirlagranma
seaunatcnicamsalalcancedelosmdicospara
yora de las variantes interpretables, la secuen
suusoeneldiagnsticodiario.
ciacindelexomaestilcuandosedesconocela
posiblecausadelaenfermedaddelpacienteen HayquementalizarsedequelaNGSestaqupara
estudio o se han descartado los genes clsicos quedarse. Son tcnicas robustas de alta fiabilidad,
asociados con la enfermedad. La calidad de la reproducibilidad, automatizacin y capacidad de
secuenciacin para cada gen est relacionada deteccin. En concreto, la secuenciacin de exoma
conelsistemadecapturaysuscoberturasfina completoidentificalasbasesgenticasdelasenfer
les dependern de la eficiencia de las sondas medades en un 2540% de los casos (dependiendo
diseadasparaesegen. desisehaceunexomacompletodeinicioocuando
nosehaencontradonadaenlosgenescandidatos).
Estudio de genoma completo, que supone la
secuenciacindetodoelADNdelindividuo.Es AunquelaNGSesmuyprometedoraytilantiene
tosignificasecuenciartresmilmillonesdepares suslimitaciones.Porejemplo,nosepuedensecuen
de bases al menos 30 veces por individuo ciar regiones largas de homopolmeros (una misma

GENMICA EN MEDICINA. Una gua prctica. 23


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

Dada la importancia de la NGS en el rea clnica, el procesado de los datos se ofrece ya muchas veces como un software
cerrado al que se proporcionan unos datos de entrada y una configuracin y se obtienen "mgicamente" unos resultados.
Pero cuidado, esos resultados hay que interpretarlos teniendo en cuenta las medidas de calidad de cada parmetro en la
interpretacin y visualizar los alineamientos para descartar artefactos.

baserepetidamuchasveces)siseutilizaunatecno BIBLIOGRAFA
loga como la de IonTorrent. La saturacin de H+
Bentley DR, et al. Accurate whole human genome
queproducenimpideelconteocorrecto.ConIllumi
sequencing using reversible terminator chemistry.
na pasa algo parecido pero es menos dramtica la
Nature.2008;456:5359.doi:10.1038/nature07517
prdida de calidad. Tampoco se puede analizar ge
nes que comparten zonas homlogas con otras re BirneyEySoranzoN.Humangenomics:Theendof
giones del genoma (pseudogenes, exones muy ho the start for population sequencing. Nature. 2015;
mlogos)siseutilizantcnicasdesecuenciacinque 526:5253.doi:10.1038/526052a
generan fragmentos cortos, ya que durante el ali ENCODE Project Consortium. An integrated
neamiento de estas secuencias se pueden producir encyclopediaofDNAelementsinthehumangeno
mapeados ambiguos y no se podr asignar a una me. Nature. 2012; 489(7414):5774. doi: 10.1038/
posicinconcreta.Estosepuedeevitarusandotec nature11247
nologasdelecturaslargascomoPacBiooNanopo
Genomics England. The 100,000 Genomes Project
re.
Protocol. 2017; doi: 10.6084/
Contodo,laimplementacindelaNGSenlarutina m9.figshare.4530893.v2.2017.
delsistemapblicodesaludserunarealidadenlos
GreenED,etal.Chartingacourseforgenomicme
prximos aos y facilitar la personalizacin de la
dicine from base pairs to bedside. Nature. 2011;
medicinaylaadaptacindeltratamientodelpacien
470:204213.doi:10.1038/nature09764
te tanto para el manejo adecuado de sus signos y
sntomascomoparalaanticipacinalprogresodela Goodwin S et al. Coming of age: ten years of next
enfermedad. generation sequencing technologies. Nature Re
views.2016;17:333351.doi:10.1038/nrg.2016.49
Haque F, et al. Solidstate and biological nanopore
forrealtimesensingofsinglechemicalandsequen

24 GENMICA EN MEDICINA. Una gua prctica.


SECUENCIACIN MASIVA: DEL ADN A LOS DATOS

LA IMPLEMENTACIN DE LA NGS EN
LA RUTINA DEL SISTEMA PBLICO DE SALUD SER
UNA REALIDAD EN LOS PRXIMOS AOS Y FACILITAR
LA PERSONALIZACIN DE LA MEDICINA Y LA
ADAPTACIN DEL TRATAMIENTO DEL PACIENTE,
TANTO PARA EL MANEJO ADECUADO DE SUS SIGNOS
Y SNTOMAS, COMO PARA LA ANTICIPACIN AL
PROGRESO DE LA ENFERMEDAD.

cing of DNA. Nano Today. 2013; 8:5674. doi: Sankar PL y Parker LS. The Precision Medicine Ini
10.1016/j.nantod.2012.12.008 tiative's All of Us Research Program: an agenda for
International Human Genome Sequencing Consor researchonitsethical,legal,andsocialissues.Genet
tium. Finishing the euchromatic sequence of the Med. 2016; (Online advance). doi: 10.1038/
human genome. Nature. 2004; 431:931945. doi: gim.2016.183
10.1038/nature03001 Vermeesch JR, et al. Prenatal and preimplantation
LedfordH.AstraZenecalaunchesprojecttosequen genetic diagnosis. Nature Reviews Genetics, 2016;
ce 2 million genomes. Nature. 2016; 427. doi: 17:643656
10.1038/nature.2016.19797
Monkol L, et al. Analysis of proteincoding genetic
variationin60,706humans.Nature.2016;536:285
291.doi:10.1038/nature19057
Nyrn Pl y Lundin A. Enzymatic method for conti
nuousmonitoringofinorganicpyrophosphatesynt
hesis.Anal.Biochem.1985;509:504509
Psifidi A, et al. Comparison of Eleven Methods for
Genomic DNA Extraction Suitable for LargeScale
WholeGenome Genotyping and LongTerm DNA
Banking Using Blood Samples. Plos One. 2015;
DOI:10.1371/journal.pone.0115960
RhoadsA,AuKF.PacBioSequencingandItsAppli
cations.GenomicsProteomicsBioinformatics.2015;
13:278289.doi:10.1016/j.gpb.2015.08.002

GENMICA EN MEDICINA. Una gua prctica. 25


CAPTULO 3:
ANLISIS DE DATOS
Las tcnicas de secuenciacin o microarrays producen millones
de datos, que deben ser analizados para poder extraer la valiosa
informacin que contienen. En este captulo se repasa cmo es
el proceso de anlisis de datos genmicos desde la obtencin de los
resultados de secuenciacin hasta que los datos estn procesados
y listos para su interpretacin.

M Jos Lpez Snchez


Unidad de Genmica y Secuenciacin Masiva
Centro de Biologa Molecular Severo Ochoa
ANLISIS DE DATOS

INTRODUCCIN Si nos centramos en los microarrays de ADN, se


puedendistinguirdiferentesenfuncindelobjetivo
DescifrarlasecuenciadeADNysuinterpretacinha final:deexpresin,anlisisdeSNPs,ChiP,Compara
sidodesiempreunsectorimportantedelasciencias tive Genomic Hybridization (CGH),tilling,etc.Labase
delavida.Desdeeldescubrimientodelaestructura tecnolgicadelmicroarraydeADNsebasaenlafija
del ADN en 1953 por James Watson and Francis cindeeste cido nucleicode cadenasimplea una
Crick,yeldesarrollodelasprimerastcnicasdese superficie de forma ordenada, lo que permite, me
cuenciacindelADN,comoloeselmtododeSan diante hibridacin, medir la concentracin relativa
ger en 1977, el campo de la secuenciacin de ADN decidosnucleicosenunamezclaylasubsecuente
ha experimentado una rpida evolucin. Ha sido a deteccindeloseventosdehibridacin.Deestama
finales del siglo XX y comienzos del XXI, cuando la nera,amenorcomplementariedadentrelasmolcu
segunda y tercera generacin de secuenciacin co las,menosintensidaddesealyporelcontrario,la
menzaronaemerger.Decenasdeempresasdenext intensidaddesealdeunasondasermayorcuando
generation sequencing (NGS)sedesarrollaronenese las molculas complementarias presentes hibriden
tiempoyconelloseprodujounaexplosindenue msconlasonda.
vos mtodos y protocolos de secuenciacin para el
Existentrestiposbsicosdemicroarrays:
anlisis tanto del ADN como del ARN. La primera
preguntaquesenospasaalacabezaesporquest 1) Microarraysdedoscanales(ospotted microarra
de moda eso de la NGS. Respuestas hay muchas, ys):lassondasqueseutilizansonpequeosproduc
perounadeellaseslaextraordinariaceleridadenla tosdePCR,ADNcuotrosoligonucletidosdeinte
secuenciacindegenomasysuutilidadenlamedici rsquecorrespondenalARNm.Cadaunadelasson
na personalizada o de precisin. Adems, la ubicui das, las cuales pueden llegar hasta 40.000, se sita
dad de la propia tecnologa de secuenciacin hace enunpocillodeunaplacamicrotituladoradedonde
que tenga muchas aplicaciones en investigacin, se coger una pequea cantidad de esta mediante
tanto bsica como clnica, produciendo de miles a un brazo robtico que la depositar sobre un por
millones de secuencias simultneamente en un taobjetos recubierto de polilisina a la cual se unen
tiempo y coste reducido. Estos millones de datos las sondas de manera especfica. Las muestras de
debenserahoraanalizadosparaasdeducirlavalio ADNc obtenido a partir de dos muestras biolgicas
sa informacin que nos aportan. Es aqu donde se diferentes van marcadas con un fluorforo dado.
produceelcuellodebotelladelastcnicasdeNGS, Estasmuestrassemezclanyseponenahibridarso
yaqueelanlisisimplicatenerunasbasesenbioin breelchipdeADN,procedindosedespusalesca
formtica y equipos con mucha capacidad compu neoyvisualizacindelahibridacinresultante.
tacionalparaejecutaralgoritmoscomplejosyalma 2) Arrays sintetizados insitu:lassondassesinteti
cenarlosdatos. zaninsitusobreunaplacadevidrio.Unejemplode
esta tecnologa la usa Aymetrix, en cuyo chip se
puedencrearmediomillndeceldas,sintetizndose
ANLISISDEMICROARRAYS
cientos de copias de mismo oligo en cada celda. A
Aunque todos los microarrays coinciden en que las diferencia del anterior, aqu se emplean entre 22 a
biomolculasestnlocalizadasenunsoportefsico, 40 sondas dispuestas al azar para un nico gen, de
varan segn el tipo de reacciones de hibridacin las cuales, la mitad de stas contienen el Perfect
realizada y en los sistemas de deteccin. Segn la Match (PM)ylaotramitadcontienenunmismatch
biomolcula,sepuedendistinguirdistintostiposde (MM) en la posicin 13. Estas sondas no completa
bioarrays,comoporejemplo:ADN,ARN,protenas, mentecomplementariaspermitendetectarhibrida
qumicos,anticuerpos,tejidos cinnoespecficaehibridacincruzada,loqueper

GENMICA EN MEDICINA. Una gua prctica. 27


ANLISIS DE DATOS

TIPOS BSICOS DE MICROARRAYS

mite cuantificar con ms exactitud aquellos ARNm con unanicamuestra yporlo tanto darn elnivel
queseexpresenenbajacantidad.Alcontrarioquela deexpresindeungendado,porloquelosvalores
anterior, esta tecnologa solo emplea una muestra deexpresingeneradossernabsolutos.Enelcaso
porchip. demicroarraysdedoblecanal,seproduceunahibri
3) Beadarray (Arrays de microesferas): setratade dacincondosmuestras,unapuedeserconsiderada
unconjuntodemicroesferasdevidriodondeseune comolamuestracontrolyotraladeestudio,porlo
covalentemente la sonda de oligonucletidos espe queelniveldeexpresinserrelativoyaquedepen
cficos,lacualessintetizadainsitu.Esasmicroesfe dedeambasmuestras.
rasseautoensamblanenlosmicropozosdelarray.A Elprimerpasoenelanlisisdeimgenesdeunmi
continuacin, antes de proceder con la hibridacin, croarray es identificar la localizacin de cada spot,
se determina la posicin de cada microesfera. Para llamado tambin grillado. Idealmente, los spots se
esto,serealizaunahibridacinconoligonucletidos localizanequiespaciadosyenelmismolugardonde
marcados con fluorescencia a un segmento de las fueronimpresos,sinembargo,puedenexistirciertas
sondasllamadosecuenciadedireccionamiento. variaciones durante la impresin del array. Para lo
calizarlosspotssedefineuncuadradoorectngulo
Deteccinylecturadelmicroarray
por spot, de manera automtica o manual. En mu
Una vez realizada la hibridacin, se procede con la chas ocasiones se producen alteraciones durante el
deteccin y la lectura del microarray, tanto del experimento(marcaje,hibridacinoelscanner)que
background,ofondo,comoelforegroundo,intensi afectan a la lectura del chip como pueden ser dife
daddelspot.Ladeteccinvaadependerdeltipode renciasenlasintensidadesentremicroarrays,man
marcaje que se haya elegido, siendo el marcaje de chasofondosenlashibridaciones.Paraellosepro
fluorescencia el tipo mayoritario frente al marcaje cedeconlasegmentacinqueeselprocesodedis
radioactivo o el quimioluminiscente. En el caso del tinguir aquellos pixeles que pertenecen al back
marcaje fluoromtrico la captura de las seales se groundoazonasdefondo.Acontinuacin,sereali
hace con cmaras fotogrficas CCD o escneres la za la alineacin de gradillas con programas como
ser.Losnivelesdeexpresindeungendadovienen ScanAlyze o TIGR Spotfinder, para la identificacin
determinadosporelvalordesuintensidad.Aquhay de las manchas. Estas gradillas son definidas por el
que distinguir entre los microarrays de uno o dos usuario en la mayora de los microarrays, excepto
canales.Losmicroarraysdeuncanalsonhibridados paraaquellosdeltipoAymetrixenlacuallaalinea

28 GENMICA EN MEDICINA. Una gua prctica.


ANLISIS DE DATOS

PROGRAMAS UTILIZADOS PARA EL PRE-PROCESADO DE DATOS Y EL ANLISIS DE MICROARRAYS

AFFYMETRIX PIPELINE SOFTWARE

Anlisis de imagen, cuantificacin de expresin y normalizacin de


GeneChip Operating Software
datos.

Affymetrix Affymetrix GeneChip Una mejora de la anterior herramienta, desarrollada para las ltimas
Command Console Software tcnologas de microarrays.

Affymetrix Expression Console Herramienta sencilla para generar valores de expresin (CHP) para
Software arrays de expression 3 individuales o de grupo y archivos CEL.

FREE SOFTWARE

RMA Express (Bolstad, Irizarry, As- Cuantifica y normaliza valores de expresin de microarrays, tambin
trand, & Speed, 2003) de Affymetrix.

Incluye un gran nmero de mdulos para el anlisis de datos brutos o


dCHIP (Li & Wong, DNA-chip analyzer
ya procesados de microarrays de Affymetrix; procesa otros tipos de
(dchip), 2003)
microarrays como SNP array, exon array, tiling array,

Incluye un grupo de cuatro grandes aplicaciones: Microarray


TM4 (Saeed, et al., 2003) Data Manager (MADAM), TIGR Spotfinder, Microarray Data
Analysis System (MIDAS) Multiexperiment Viewer (MeV).

Snomad (Parmigiani, Garrett, Irizarry, Herramienta web que permite normalizar los datos de experimentos
& Zeger, 2003) de uno o dos canales.

Contiene mdulos para la transformacin y normalizacin de datos de


Genesis (Sturn, Quackenbush, & Tra-
microarrays de ADNc e incluye un gran nmero de opciones de cluste-
janoski, 2002)
ring.

Est basado en el lenguaje de programacin R para el anlisis de dife-


Bioconductor project
rentes tipos de microarrays.

Gene expression model selector Utiliza mquinas de soporte vectorial y permite realizar clasificaciones
(GEMS) multiclases.

https://www.thermofisher.com/es/es/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/
microarray-analysis-software/genechip-operating-software-service-pack-2-software-update.html
https://www.thermofisher.com/es/es/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/
microarray-analysis-software/affymetrix-genechip-command-console-software.html
https://www.thermofisher.com/es/es/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/
microarray-analysis-software/affymetrix-expression-console-software.html
http://rmaexpress.bmbolstad.com/
http://www.dchip.org/
https://www.tm4.com/technology/power-electronics/software/
http://pevsnerlab.kennedykrieger.org/snomadinput.html
http://genome.tugraz.at/genesisclient/genesisclient_description.shtml

GENMICA EN MEDICINA. Una gua prctica. 29


ANLISIS DE DATOS

ANLISIS DE MICROARRAYS

cin de la imagen del microarray con la gradilla se unas propiedades deseables. En experimentos
haceautomticamenteatravsdelsoftware.Trasla condosmuestrassepretenderdecentrarloslog
alineacin de la gradilla, el software de procesa ratios alrededor de cero. En microarrays de un
mientodeimgenescomienzaagenerardatosesta solocanalsenormalizadeestemodopudindose
dsticos como la media y mediana de la intensidad as comparar las intensidades entre los compo
delpixeldecadamarca,elreadesta(nmerode nentesdeungrupodemicroarrays.
pixeles)orelacionesdeintensidadenelcasodelos Normalizacin por Gen Set: consisteenelusode
microarraysdedoscanales.Comoresultadosecrea unosgenescontroles,enconcretolosgeneshou
un fichero de texto plano con los datos generados sekeeping para normalizar, ya que se asume que
sintratardecadamarcadelmicroarray. presentansiempreunaexpresinconstanteenel
Normalizacindelosdatos microarray independientemente del tipo de
muestra.
Elsiguientepasoeslanormalizacin de los datos
parasolucionaraquellosartefactosquepuedenocu Otrotipodenormalizacinserealizaparalosmicro
rrir por causas aleatorias o tcnicas, preservando la arraysdeAymetrix,enloscualeshayqueteneren
informacin biolgica y comparando intensidades consideracin que hay mltiples valores (sondas)
entre diferentes sondas del microarray y entre mi por cada gen, originando un probeset, y que cada
croarrays.Laimportanciadelanormalizacinpuede grupodesondasconsisteenmltiplesparesdeson
versemsclaramenteenaquellosexperimentoscon das:perfect match probe (PM)ylamismatch probe.
doscolores.Existenmltiplesmtodosparanorma LassondasPMcontienenexactamentelasecuencia
lizar,algunasestrategiascomunesson: correspondientealgendeestudio,mientrasquelas
sondasMMhansufridounainversinenelnucleti
Correccin de fondos: enlacualseeliminalaseal
do central. Entre los mtodos para normalizar este
dadaporelfondo,quepuedeserdebidaalsopor
tipodemicroarraysestn:
tefsicooamolculaslibresdelmarcadorfluores
cente. En este mtodo, a partir de la lectura de Microarray Suite (MAS) 5.0 (Aymetrix, 2002):es
cada canal se substrae la media (o mediana) del el mtodo oficial de Aymetrix. MAS 5.0 es una
fondoalacorrespondientelongituddeondapre implementacin de la versin anterior MAS 4.0.
vioalclculodelarelacin. Estemtodotratadepaliarlahibridacincruzada
entre las diferentes sondas, seleccionando el
Normalizacin dependiente de la intensidad: enla
arraymsprximoalamedia(referencia)yajus
que se modifica especficamente cada valor para
tando los nivelesmedios de cadaarrayal de ese
que la distribucin de las intensidades tengan
array.

30 GENMICA EN MEDICINA. Una gua prctica.


ANLISIS DE DATOS

Robust MultiArray Average (Irizarry&et,2003):


este sistema ajusta las intensidades del fondo,
tomalogaritmosenbase2decadaintensidadde
fondo ajustada y normaliza mediante cuantiles
las seales PM ajustadas entre todos los chips,
estimando finalmente las intensidades de cada
gen separadamente para cada conjunto de son
das.
Modelos multichip, de Li y Wong (Li&Wong,
2001): este mtodo supone que menor variabili
dad interchip que intrachip. Usa mtodos robus


tospararealizarlaestimacinconeliminacinde
outliersyhaciendoreestimacionessucesivashas
talaconvergencia. LOS MTODOS
Anlisisestdisticodelosdatosnormalizados
PARA EL ANLISIS
Una vez preprocesada la informacin obtenida del DE DATOS DE MICROARRAYS
microarray se procede al anlisis estadstico de los PUEDEN CLASIFICARSE
datosnormalizadosatravsdeherramientasbioin
GENERALMENTE COMO
formticas avanzadas y algoritmos matemticos
capacesdemanejarlaabundanciadedatosgenera MTODOS SUPERVISADOS Y
dos.Aliniciodeestatecnologalaaplicacinprinci NO SUPERVISADOS.
paldelosmicroarraysdeADNfueelanlisisdeex
presin gnica, lo que permite medir niveles de
LOS PROCESOS SUPERVISADOS
ARNmsimultneamenteenmilesdegenes. SE BASAN EN TCNICAS PARA
Losmtodosparaelanlisisdedatosdemicroarrays DEDUCIR ALGO A PARTIR DE
pueden clasificarse generalmente como mtodos
UN ENTRENAMIENTO DE DATOS.
supervisadosynosupervisados.Losprocesossuper
visadossebasanentcnicasparadeduciralgoapar POR EL CONTRARIO, EN LOS
tirdeunentrenamiento de datos; en estegrupose MTODOS NO SUPERVISADOS
incluyentcnicascomolaregresinlinear,knearest
neighbor,learning vector quantization,decision tree
NO EXISTE UN CONOCIMIENTO
analysis,random forests,naive Bayes,redesneura A PRIORI Y CONSTRUYE UN
les,support vector machinesymtodosestadsticos
MODELO AJUSTADO A LAS
clsicoscomo:ANOVA,ttest,Wilcoxon rank score,
anlisisdiscriminanteyelMannWhitneyUtest.Por OBSERVACIONES.
el contrario, en los mtodos no supervisados no
existeunconocimientoa priori yconstruyeunmo
delo ajustado a las observaciones, siendo el cluste
ringlatcnicamsimportante.Mtodosdeestetipo
tiles para la generacin de hiptesis estn: self
organizing maps,neural gas,kmeans cluster analy
ses,hierarchical cluster analysis,Genomic Signal Pro

GENMICA EN MEDICINA. Una gua prctica. 31


ANLISIS DE DATOS

cessing based clustering, anlisis de componentes los selforganising maps.Estealgoritmotienela


principalesyredesbayesianas. peculiaridaddequeidentificafcilmenteaquellos
Acontinuacindescribimosalgunosdelosmtodos clsteres adyacentes a uno dado, lo cual es muy
supervisados y no supervisados ms utilizados que importanteparadescribirrelacionesentreclste
ayudan a analizar e interpretar los datos de micro res.
arrays. Hierarchical cluster analysis: eselalgoritmoem
knearest neighbor: omtododelvecinomspr pleado para el anlisis de clster. Este mtodo
ximo,esunodelosmsusadosdebidoasusim tomatodoslosdatosylosdivideenclasesdepen
plicidad.Prediceelgrupodeuncasodepruebaa diendo de sus similitudes, de acuerdo a una dis
travsdelamayoradevotosentrelos(k)vecinos tancia o mtrica, repitindose esto de nuevo en
mscercanosadichocaso. las clases resultantes. La ventaja de sta tcnica
esdepoderelegirelpuntodecorteeneliteracin
Support vector machines: sebasanentcnicasde
demodoquelasclasesobtenidastenganunsen
aprendizaje automtico. Si bien originariamente
tidobiolgico.Elresultadofinalpuedemostrarse
sedesarrollaroncomounmtododeclasificacin
comoundendrogramaenelquelalongituddelas
binario, su aplicacin se ha extendido a proble
ramasreflejaelgradodesimilitudentrelasvaria
mas de clasificacin mltiple y regresin. En el
bles.Otromododevisualizarlosdatosseranme
casodequenopuedasepararbiendosgruposen
dianteheat maps quenospermitenvergrfica
unespaciolointentaproyectandolosvaloresaun
menteelrangodenivelesanalizadosylanatura
espacio de mayor dimensin obteniendo un hi
lezadelarelacincalculadaentreellas.
perplano de separacin entre las clases, definido
como aquel que garantiza que hay una distancia Anlisis de componentes principales: permitere
mxima entre el hiperplano y el punto ms cer ducir el nmero de variables en un conjunto de
cano de cualquiera de las clases. Su versatilidad datos identificando un subconjunto de stas que
hacequeseamuypopularparaelanlisisdeeste sea el responsable de la mayora de las diferen
tipodedatos,sinembargosucomplejoentendi cias observadas. Este anlisis resulta ms eficaz
mientoencomparacin alos enfoques mssim cuandosecombinaconotrosalgoritmosdeclus
plesharestringidosuexpansin. tering,comoporejemploelanlisisdiscriminante
lineal.
Anlisis discriminante: esotrodelosmtodosms
populares,elcualpermiteclasificarlosresultados Noobstante,senecesitanademsherramientasdel
binarios o mltiples usando una funcin lineal o tipodeaprendizajeautomtico(machine learning)y
cuadrtica llamada funcin discriminante de las mineradedatos(data mining)paradarunsignifica
variables continuas que, bajo supuestos de nor do biolgico a la informacin contenida en los mi
malidad, se puede obtener mediante maximiza croarrays.Entreestastcnicasunadelasmscono
cin de la razn de la verosimilitud entre grupos cidas para estructurar el conocimientos son las de
frentealaverosimilituddentrodelosgrupos.En ontologaylamscomnparaladescripcindelas
el caso concreto de microarrays se han utilizado funcionesbiolgicasesGene Ontology (GO).Esta
dosvariantes:anlisisdiscriminantelinealdiago ontologadegenesescapazdeproporcionarunvo
nal (DLDA) y el algoritmo de ponderacin de los cabulario controlado para describir caractersticas
votosweightvotingalgorithm. de genes y productos gnicos en trminos de los
procesos biolgicos asociados, los componentes
Redes neurales: permitentrabajarcongrandes
celulares y la funcin molecular de forma indepen
cantidades y complejos datos. Entre las redes
dientedelaespecieencuestin.Unavezdetermina
neuronales los ms comnmente utilizados son
dos los trminos GO y su atribucin a los datos de

32 GENMICA EN MEDICINA. Una gua prctica.


ANLISIS DE DATOS

LOS ARRAYS COMENZARON


COMO UNA HERRAMIENTA DE
INVESTIGACIN, PERO PRONTO
SE EXPANDIERON COMO TCNICAS
DE DIAGNSTICO EN LOS
LABORATORIOS CLNICOS.
LA VENTAJA DE LA TCNICA ES
SU RAPIDEZ EN INTERROGAR
UN NMERO ELEVADO DE GENES,
DETECTANDO AS GANANCIAS
Y PRDIDAS DE MATERIAL GENMICO,
Y OTROS CAMBIOS GENTICOS
RELACIONADOS CON NUMEROSAS
ENFERMEDADES.

33
ANLISIS DE DATOS

microarrayssepuedenvisualizarlasrutasmetabli los extremos. En el siguiente paso, los fragmentos


casimplicadasenlosgenesalterados. de ADN se amplifican, lo que implica la unin del
fragmento de ADN a las microbeads o a la misma
superficiedecristal.Poniendocomoejemploelcaso
ANLISISDENGS
delatecnologadeIllumina,seproduceunaamplifi
Las tcnicas de secuenciacin de masiva o next cacin clonal del ADN hasta obtener un clster del
generation sequencing(NGS)estnganandoterreno fragmento inicial (clustering) que es utilizado como
nosoloenelcampodelainvestigacinsinotambin entidad a secuenciar. Finalmente, se produce la se
a nivel clnico. Las nuevas tecnologas de NGS son cuenciacin,quealternaciclosdeterminacinrever
un medio rpido para la realizacin de un amplio y siblecclica(cyclic reversible termination,CRT)incor
variadorangodeexperimentos.Entreellosestnlos porando nucletidos marcados fluorescentemente
anlisis de genes diferencialmente expresados, la con la captura de imgenes (imaging) y el procesa
caracterizacin de genomas completos, perfiles de mientodeestas.Lassecuenciasasgeneradasapar
ARNm,pequeosARNs,regionesdeunindefacto tir de los extremos de ADN con los adaptadores se
res de transcripcin (enhancers), estructura de la denominan lecturas o reads. Los nuevos secuencia
cromatina,panelesdegenesimplicadoseneldesa dores,deformausual,creanlecturasapartirdeca
rrollodepatologasrarasy/ocnceres(targeted se da uno de los extremos de un fragmento de ADN
quencing), patrones de metilacin de ADN (metil (inserto) lo que origina lecturas pareadas. Existen
Seq),estudiosepigenticosmediantelainmunopre dos tipos, y por consiguiente, dos estrategias para
cipitacindelashistonasunidasalADN(ChipSeq)o producirestetipodelecturas.Losmate pairs proce
estudiosmetagenmicos.Laevolucindelasplata dendelibrerasconfragmentosdeADNlargos,que
formas y tcnicas de secuenciacin hace que sea vandesde600pbhasta4kb,loscualessecirculari
cada vez ms eficiente y menos costosa por lo que zan y se ligan usando un adaptador interno. Poste
su expansin est siendo mayor. Estos progresos riormente,esosfragmentossontroceadosalazary
implicanunamayorvelocidaddesecuenciacin,lon aquellossegmentosquecontieneneladaptadorson
gitud de las lecturas y rendimiento, por lo que se purificadosysecuenciados.Porelcontrario,laslec
estndesarrollandoungrannmerodeaplicaciones turaspairedend provienendelibrerasconfragmen
de NGS en las reas de investigacin traslacional y tosmscortos,enelquesesecuenciaelfinaldeam
diagnsticoclnico. bosextremos.
Laeleccindeuntipodetecnologaparauntipode
Seleccindeplataformadesecuenciacin
muestraesmuyimportante.Estefactorvienecondi
Aunquelasplataformasdesecuenciacindifierenen cionadoporunaseriedeparmetrosquesonnece
susconfiguracionesinternasyeneltipodereaccio sariosparaevaluareinterpretarlosresultadosdela
nes qumicas que llevan a cabo, el principio bsico secuenciacin.Entreestosparmetrosestn:
porlastcnicasdeNGSessimilaralasecuenciacin
Profundidad: nmero de veces que cada base de
Sanger tradicional. La NGS comienza con la prepa
ADN est presente en las lecturas producidas du
racindelasmuestrasyADNdedoblecadenacomo
rante la secuenciacin, denominndose tambin
material de partida, el cual puede proceder de dis
profundidaddecobertura.Esteparmetroesmuy
tintas fuentes y ser ADN genmico, ADN inmuno
importante ya que determina la fiabilidad del nu
precipitado, ARN retrotranscrito o ADNc. A conti
cletidoasignadoaunaposicindadaenelgeno
nuacin, se preparan las libreras, lo que podra im
ma.
plicarlafragmentacindeADNgenmico,laselec
cinportamaosylaligacindelosadaptadoresa Cobertura: nmero de lecturas presentes en una

34 GENMICA EN MEDICINA. Una gua prctica.


ANLISIS DE DATOS

regindadaoenlatotalidadderegionesdelase ayudabuscareincorporartodaaquellainformacin
cuencia reconstruida. Con lecturas largas una co relevanteparaelestudio,porloqueesdegranim
bertura de entre 20x y 30x es suficiente para afir portancia integrar la informacin obtenida en los
mar que los nucletidos presentes en la lectura estudiosenlasdiferentesbasesdedatosconinfor
estn en la secuencia, mientras que con lecturas macin biolgica como por ejemplo las bases de
cortas la cobertura sera de un 72x a 100x. Este datosdelENA(delEBI),GEOyNCBI.Lasdiferentes
parmetronosdaunaestimadecunbienhafun plataformas y los diferentes tipos de experimentos
cionadolasecuenciacin. realizados necesitan diferentes mtodos y algorit
Sensibilidad: capacidaddelatcnicadesecuencia mos para procesarlos, ya que cada anlisis seguir
cin de identificar variantes presentes en las un patrn diferente y una combinacin de algorit
muestras. Este parmetro viene influido por los mos y bases de datos especificas para la muestra y
dos anteriores, pero tambin del gen y las muta metodologa usada. Esto ha hecho que surjan dife
cionesqueseestudie,supresenciaenlatotalidad rentesscripts ypipelinesparaunanlisismseficien
delasclulas,lascaractersticasdelasmuestras... tedelosdatos,cuyacomplejidadnovienedadasolo
porelgranvolumendedatosquesemanipulansino
Especificidad: ndicedelafiabilidaddelasvariantes
tambinpor lacomplejidadqueconllevanalahora
identificadas. Puede definirse como el porcentaje
dedarunainterpretacinbiolgica.
devariantesgenticasquelatcnicadesecuencia
cindetectayquerealmenteestnpresentesenla ComoresultadodelprocesodesecuenciacinNGS,
muestra. enlamayoradeloscasosypordiferentescaminos
dependiendo de la plataforma usada, se generan
Unavezelegidalaplataformaadecuadaparauntipo
archivos con formato FASTQ. Estos archivos alma
deexperimentodado, seprocede con la secuencia
cenan las lecturas junto con ms informacin rele
cin. Como resultado, estos experimentos de NGS
vante de sta. Cada lectura aqu est representada
producenunaabrumadoracantidaddedatosqueun
en cuatro lneas que contienen: la identificacin de
ordenadorcomnnopodramanejar.Estehechoha
lasecuencia,lasbasesdesta,otroidentificadorde
supuestoeldesarrollodelcampodelaBioinformti
findesecuenciaylacalidaddecadabaseenesalec
cacomoherramientanecesariapararesolveranivel
tura. Este fichero FASTQ es el input estndar que
computacionalelgranvolumendedatosgenerados
reconocenmuchasherramientasdebioinformtica.
con NGS y su anlisis. Adems, para que el experi
mentotengaunsignificadobiolgico, seradegran

GENMICA EN MEDICINA. Una gua prctica. 35


ANLISIS DE DATOS

Anlisisdecalidad
El primer paso antes de comenzar el anlisis de las
secuenciaseselanlisisdelacalidaddelaslecturas.
Aunque hoy en da casi todos los secuenciadores
realizanuncontrolinternodecalidad,esconvenien
te realizar un anlisis de calidad de las secuencias
conotrosprogramas.Unadeesasherramientasbio
informticasesFastQC.Estesoftwarepuedesereje
cutadodemaneragrfica,peroademspermitein
tegrarsusfunciones en un pipeline,permitiendo as ALINEAMIENTO DE SECUENCIAS
CONTRA GENOMAS DE REFERENCIA
un procesamiento sistemtico de un gran nmero
dearchivos.Entrelosresultados,representadema
neragrficalascalidadesdecadabasealolargode
lassecuencias.Estetipodeanlisispermitedetectar
la presencia de adaptadores en las lecturas, de ex
tremosdebajacalidadyvisualizarsecuenciassobre
rrepresentadasquepuedenindicarunaposiblecon
taminacin.Todosestosfactorespodraninfluirne
gativamenteenelanlisisdelassecuencias.

Alineamiento de lecturas contra genomas de


referencia ENSAMBLADO DE GENOMAS
Una vez procesadas las lecturas, uno de los anlisis
primariosdelassecuenciaseselalineamientodelas
lecturas contra un genoma de referencia. Es muy
importante la eleccin de un buen genoma con el
quecompararlassecuencias.Existendiferentesba
sesdedatosydiferentesversionesdelosgenomas.
Es recomendable trabajar con aquellos genomas
msactualizados,locualimplicasubsquedaenlas
diferentes bases de datos. Entre las principales ba
sesdedatosestnelNCBI(National Center for Bio
technology Information) que aloja la base de datos
GenBank,elEBI(European Bioinformatics Institute)
quealojalaBibliotecadeDatosdelEMBL(European
Molecular Biology Laboratory),yelDDBJ(DNA Data
Base of Japan).Antesdelalineamiento,esnecesario
indexar la secuencia, normalmente en formato fas
ta,delgenomadereferencia.Elalineamientosupo
ne un alto coste computacional y de memoria, lo
quehasupuestoeldesarrollodenuevosalgoritmos
para resolver este problema. Existen dos tipos de
algoritmos:losbasadosentablashasholosbasados
ANOTACIN DE GENOMAS

36
ANLISIS DE DATOS

en rboles sufijo/prefijo. Dentro de ste ltimo se genomas estn: SOAPdenovo (Luo, 2012) y HGAP.
englobaelpaquetedesoftwareBWA.Estealineador SOAPdenovo(short oligonucleotide analysis packa
mapeasecuenciascortaspocodivergentesalgeno ge) es un software desarrollado para el ensamblaje
ma de referencia, empleando la transformada Bu delecturascortasde novo.Comoalgoritmousaun
rrowsWheeler para indexar. El paquete consta de sistemadeensamblajeparalelizablebasadoengra
tres algoritmos: BWAbacktrack, BWASW y BWA fosdeBrujin.Esunprogramaquefuncionabastante
MEM. Mientras que el primero trabaja con lecturas bien para ensamblar genomas grandes a partir de
dehasta100pb,losdosltimoshanestadodisea lecturascortas,deltipodeIllumina.Porotrolado,el
dosparalecturasmslargasyalineamientoderup paquetedeprogramasdeHGAP(hierarchical geno
turas, siendo BWAMEM ms rpido y ms preciso meassembly process)hasidodesarrolladoparaen
queBWASW.Otraherramientadealineamientoes samblar lecturas largas generadas en un solo paso
Bowtie 2. Este programa est implementado para porlatcnicadesecuenciacinSingle Molecule Real
alinearlecturasdeentre50y100pbcontraelgeno Time(SMRT)dePacBio.
ma de referencia. Los archivos resultantes del ali
Anotacindegenomas
neamiento tiene formato SAM. Estos archivos ali
neadospuedensermanipuladosconprogramasco Una vez ensamblado el genoma en un nico contig
mo SAMtools. Este paquete de programas permite es esencial interpretarlainformacinquestecon
cambiar de formato los alineamientos, fusionar el tiene.Porellosedebenidentificarloselementosdel
alineamiento y eliminar duplicados de PCR entre genoma, o lo que es lo mismo se debe anotar. Hay
otrasfunciones. dos tipos de anotacin: la estructural, en la que se
predicelasregionescodificantes,ylaanotacinfun
Ensambladodegenomas cional,enlacualseleasignalainformacinbiolgi
OtrotipodeanlisisdesecuenciasdeNGSeselen caalosgenespredichospreviamente.Dentrodela
sambladodegenomas,yaseaporsecuenciacinde anotacinfuncional,existendosmtodosdeanota
un genoma de novo, o resecuenciar uno conocido. cin:ab initio ode novo yelmtododecomparacin.
En este proceso se intenta reconstruir la secuencia El mtodo ab initio usa diferentes algoritmos para
delgenomacompletaatravsdeconectarlosfrag detectarpatronesenelgenomaomotivosespecfi
mentos individuales de las lecturas en secuencias cosdelasecuencia,locuallepermiteidentificarsila
contiguas ms largas denominadas contigs. El en secuenciaescodificanteono.Porotrolado,laano
samblajepuedeserde novo,enelcualnohayunco tacinporcomparacinidentificaloselementosdel
nocimientoa priori delaorganizacindelgenoma genoma mediante comparacin con otro genoma
que se secuencia, aunque es necesario tener una deorganismosaltamenterelacionados.Losprogra
estimadelcontenidodeGCdelgenoma,osulongi mas de anotacin ms usados son Prokka
tud; y ensamblaje con genoma de referencia, en el (Seemann,2014)yAugustus(StankeM.etal.,2006,
que el algoritmo necesita un genoma de referencia StankeM.etal.,2008).Prokkaesunprogramapara
para poder ensamblar elnuevo.Un factor limitante anotar genomas de bacterias, arqueas y virus. Este
enesteprocesoeslalongituddelaslecturas,sobre softwaretieneimplementadosotrosprogramaspa
todosisetratadegenomascomplejosconsecuen ra localizar genes, traducirlos a protenas e identifi
cias repetidas. Para abordar este problema, se ha carquproductoscodifican;tambinpermiteidenti
desarrollado recientemente una tecnologa de se ficarlasregionescongenesdeARNmedianteelpro
cuenciacin PacBio que produce secuencias de ma grama Prodigal (Hyatt, Chen, Locascio, Land, Lari
yorlongitudaunquedemenorcalidad. mer, & Hauser, 2010). En cuanto a Augustus, es un
Entre los programas ms usados para ensamblar softwarequehasidodiseadoparalaanotacinde

GENMICA EN MEDICINA. Una gua prctica. 37


ANLISIS DE DATOS

genomaseucariotas.Esteprogramasebasaeneva genesconbajaexpresindiferencial.Encuantoalas
luar las correspondencias entre las potenciales re nuevastecnologasdesecuenciacinmasiva,gracias
gionescodificantesdelgenomadeestudiomedian asugranavanceenlosnuevosequiposylamejora
te modelos ocultos generalizados de Markov, te delasqumicas,juntoconlareduccindeloscostes,
niendo en cuenta tanto el genoma nuevo como estncambiandoelescenarioactualdeldiagnstico
aquelconelquesehaentrenadoelsoftware. y tratamientodemuchade las enfermedades pres
critashoyenda.Anivelclnico,seestnutilizando
Identificacindevariantes
nosoloaniveldetratamiento,sinoeneldiagnstico
Otrotipodeanlisisdeintersquesellevanacabo paralaprevencindemuchasenfermedades.
con las secuencias de NGS es la identificacin de
variantespresentesenelexoma.Unodelospaque
tes de programa ms usado para este anlisis es el BIBLIOGRAFA
GATK(Genome Analysis Toolkit)(McKenna,etal., Aymetrix. Aymetrix Microarray Suite User Guide
2010).Esteprogramausadiferentesalgoritmospara version5edition.2002.SantaClara:CAAymetrix.
hacer un mapeo inicial de las secuencias, detectar
Bolstad BM, et al. A comparison of normalization
losindels,hacerunrealineamientoalrededordelos
methodsforhighdensityoligonucleotidearraydata
indels conelobjetivodecorregirartefactosrelacio
basedonvarianceandbias.Bioinformatics.2003Jan
nadosconelalineamientoyfinalmente,darunalista
22;19(2):18593.
conlalocalizacinytipodevarianteencontrada.Las
variantes,ascomotambinlosalineamientos,pue Hyatt D, et al. Prodigal: prokaryotic gene recogni
den ser visualizados con el programa IGV tion and translation initiation site identification.
(Integrative Genomic Viewers)(JamesT.Robinson, BMC Bioinformatics. 2010 Mar 8;11:119. doi:
2011, Helga Thorvaldsdttir, 2013). Sin embargo, 10.1186/1471210511119.
unaveztenemoslasvariantes,esinteresanteenten Irizarry RA, et al. Summaries of Aymetrix Gene
der el contenido funcional y por lo tanto, realizar Chip probe level data. Nucleic Acids Res. 2003 Feb
unaanotacinfuncionaldeesasvariantes.Estepro 15;31(4):e15.
cesopuedehacerseconelsoftwarellamadoANNO
Li,C.,&Wong,W.DNAchipanalyzer(dchip).2003.
VAR(Wang,Li,&Hakonarson,2010).
(G.E.ParmigianiG,Ed.)DNAchipanalyzer(dchip).
LiC,HungWongW.Modelbasedanalysisofoligo
CONCLUSIN nucleotide arrays: model validation, design issues
andstandarderrorapplication.GenomeBiol.2001;2
Sibienlastcnicasdemicroarraysfueronlaprimera
(8):RESEARCH0032.Epub2001Aug3.
tecnologa que permita la posibilidad de anlisis
highthrough genmico,hoyendaquedaunpoco LuoR,etal.SOAPdenovo2:anempiricallyimproved
limitado a nivel conceptual y tcnico. No obstante, memoryecient shortread de novoassembler. Gi
los arrays comenzaron como una herramienta de gascience. 2012 Dec 27;1(1):18. doi: 10.1186/2047
investigacin, pero pronto se expandieron como 217X118.Erratumin:Gigascience.2015;4:30.
tcnicas de diagnstico en los laboratorios clnicos. McKenna A, et al. The Genome Analysis Toolkit: a
La ventaja de la tcnica es su rapidez en interrogar MapReduce framework for analyzing next
un nmero elevado de genes y detectar tanto ga generation DNA sequencing data. Genome Res.
nancias y prdidas de material genmico como 2010 Sep;20(9):1297303. doi: 10.1101/
otros cambios genticos relacionados con numero gr.107524.110.
sas enfermedades. La tcnica de microarrays se ve Parmigiani,G.,etal.Theanalysisofgeneexpression
limitada cuando, por ejemplo, se quieren detectar

38 GENMICA EN MEDICINA. Una gua prctica.


ANLISIS DE DATOS

data. Methods and software. 2003. Methods and http://www.broadinstitute.org/gatk/


software http://software.broadinstitute.org/software/igv/
RobinsonJT,etal.Integrativegenomicsviewer.Nat
Biotechnol. 2011 Jan;29(1):246. doi: 10.1038/
nbt.1754.
SaeedAI,etal.TM4:afree,opensourcesystemfor
microarraydatamanagementandanalysis.Biotech
niques.2003Feb;34(2):3748.
Seemann T. Prokka: rapid prokaryotic genome an
notation. Bioinformatics. 2014 Jul 15;30(14):20689.
doi:10.1093/bioinformatics/btu153.
StankeM,etal.Usingnativeandsyntenicallymap
pedcDNAalignmentstoimprovedenovogenefin
ding. Bioinformatics. 2008 Mar 1;24(5):63744. doi:
10.1093/bioinformatics/btn013.
StankeM,etal.Genepredictionineukaryoteswith
ageneralized hidden Markov model that uses hints
from external sources. BMC Bioinformatics. 2006
Feb9;7:62.
SturnA,etal.Genesis:clusteranalysisofmicroarray
data.Bioinformatics.2002Jan;18(1):2078.
Thorvaldsdttir H, et al. Integrative Genomics Vie
wer(IGV):highperformancegenomicsdatavisuali
zationandexploration.BriefBioinform.2013Mar;14
(2):17892.doi:10.1093/bib/bbs017.
WangK,LiM,HakonarsonH.ANNOVAR:functional
annotation of genetic variants from high
throughput sequencing data. Nucleic Acids Res.
2010Sep;38(16):e164.doi:10.1093/nar/gkq603.
Pginaswebdeinters:
FastQC.Web:http://www.bioinformatics.babraham.ac.uk/
projects/fastqc/

https://www.ncbi.nlm.nih.gov/
https://www.ebi.ac.uk/
http://www.ddbj.nig.ac.jp/
http://soap.genomics.org.cn/soapdenovo.html
https://github.com/PacificBiosciences/Bioinformatics
Training/wiki/HGAPinSMRTAnalysis
http://prodigal.ornl.gov/

GENMICA EN MEDICINA. Una gua prctica. 39


CAPTULO 4:
INTERPRETACIN DE
DATOS GENMICOS
Una vez obtenidos y procesados los datos de secuenciacin
del ADN es necesario interpretarlos dentro del contexto de la
enfermedad o condicin que se est estudiando.
En este captulo se presentan algunas de las claves necesarias
para obtener informacin gentica relevante para la prctica clnica
a partir del material bruto de datos genmicos obtenidos tras
la secuenciacin y anlisis del ADN.

Jos Luis Ivorra Martnez


Centro de Investigacin en Red de Salud Mental (CIBERSAM)
INTERPRETACIN DE DATOS GENMICOS

INTRODUCCIN ciadaspreviamentealaenfermedadenexomas,por
serelcasomsutilizadoengenticaclnicaencuan
Despus de un laborioso trabajo preparando las li tonossalimosdelasecuenciacindegenesconcre
breras de un exoma (es decir, todas las secuencias tos (targeted sequencing). ste ltimo caso es mu
exnicas, codificantes o no, de un individuo), se cho ms simple puesto que normalmente simple
cuencindolo y extrayendo las variantes, parecera mente se comparar la lista con una base de datos
que por fin hemos finalizado nuestro trabajo: tene demutacionesconocidasenesosgenes.Porltimo,
mos una hoja de clculo y nuestras variantes, ya trataremosbrevementelasdiferenciasenelcasode
sean polimorfismos o inserciones/deleciones tenersecuenciadosgenomasotranscriptomas.
(indels),deberanestarah.Peroprontonosencon
tramos con un pequeo problema: un individuo
tiene docenas de miles de variantes en zona codifi ANOTACINYVISUALIZACIN
cante y solo unas pocas nos interesan! Es la tpica DEVARIANTES
situacindeencontrarunaagujaenunpajar,conla
Lo primero que necesitamos es informacin sobre
salvedaddequeenestecasotodoparecenagujas
lasvariantes,todalaquenospuedanofrecerlasba
Ysienvezdeunexomahablamosdeungenoma,el
ses de datos. Para ello existen numerosos progra
problema se complica enormemente: ya no habla
mas,tantogratuitos(SeattleSeq,CADD,Annovar)
mos de docenas de miles sino de millones. Cmo
comodepago(Sequencheresunodelosmspopu
filtrar las variantes? En este captulo intentaremos
lares).Paraunalistaextensivadeherramientasjun
darunaseriedeconsejoseideas,pero,adiferencia
to con enlaces, recomendamos la pgina omictools
deloscaptulosanteriores,nohayunprotocoloab
(https://omictools.com). En nuestro caso vamos a
solutoyvaadependermuchodeloqueseestbus
utilizar Annovar (Wang, 2010), pero la mayora de
cando: Es la enfermedad mendeliana o compleja?
programas funcionan de forma similar. En general,
Setienenrbolesgenealgicosqueapoyenunni
los programas, incluido Annovar, trabajan bajo la
cogenquesetransmitedeformadominanteorece
consolaUnix(disponible deformanativaenlossis
siva?Seconocepartedelaetiologadelaenferme
temasoperativosdeLinuxyMacOs,ymediantem
dad? Segn la respuesta a esta u otras preguntas,
quinas virtuales y emuladores desde Windows) as
lospasosaseguirserndiferentes.Tambinhayque
que es necesario asumir un nivel bsico de manejo
tenerencuentaqueelprocesodefiltracinespare
deUnix.Encasocontrario,nopuedodejardereco
cidoaunjuegodeacercarsealnmerojustosinpa
mendar este curso gratuito increblemente til:
sarse. Como en cualquier proceso estadstico, se
http://korflab.ucdavis.edu/unix_and_perl/.
trata de jugar con el porcentaje de falsos positivos
(quesignificaquedarseconunavariantefalsa)yne Annovar tiene tambin una versin online (http://
gativos (que se traduce en que se ha filtrado la va wannovar.wglab.org/)peroestlimitadaensusfun
riantedeinters).Siseesmuylaxoconlosfiltros,se cionalidades a da de hoy y recomendamos la ver
acabar con una lista de docenas de variantes que sin completa. En Annovar, mediante una serie de
ser muy difcil de probar de vuelta al laboratorio. comandos (perfectamente explicados en el tutorial
Peroseesmuyexigente,secorreelriesgodefiltrar de la pgina), se obtiene un archivo que se puede
la variante y volverse loco cuando ninguna de las abrirencualquierprocesadordehojadeclculosen
variantesrestantesparezcatenerrelacinconlaen el que aparecen una gran cantidad de informacin
fermedad. sobre nuestras variantes proveniente de diferentes
bases de datos. Una vez obtenida toda la informa
Hay que resear que en este captulo hablaremos
cin, las variantes pueden empezar a ser filtradas
principalmente de bsquedas de variantes no aso

GENMICA EN MEDICINA. Una gua prctica. 41


INTERPRETACIN DE DATOS GENMICOS

usandocomandosdeAnnovarodirectamentesobre
lahojadeclculo.
DeformaparalelaaAnnovar,yaunquenoesnece
sariamente obligatorio, estn los programas de vi
sualizacin de variantes como el Integrative Geno
mics Viewer (http://software.broadinstitute.org/
software/igv/MainWindow; Robinson, 2011). Estos
programascolocantodalainformacindevariantes
deunaformavisualmsatractivaypuedenserti
lesparaverlalocalizacinyfrecuenciadevariantes
encromosomasygenesdeunaforma msvisuale
intuitiva.

FILTRADOPORCALIDAD
Elprimerpasoavecesyavienedadodurantelava
riant call,procesoquetratadeidentificarlasvarian
tesennuestrasecuenciarespectodeunasecuencia
molde, el genoma humano, del que se ha hablado
en el captulo anterior. Durante este paso, adems
delasvariantestendremosunaseriedeparmetros
decalidad:silavarianteesunpotencialduplicado,si
elnmerode secuencias dela zona es muybajo,si
los fragmentos de la zona son extraamente cor
tosNormalmente,elprogramamarcaresassea
lesconunavisoperonosiempreloseliminar,por
que al fin y al cabo los algoritmos tambin pueden
equivocarse.Unconsejoeseliminartodaslasvarian
tesquetenganavisos.SilacalidaddelADNesbue
na y la secuenciacin ha salido bien, la experiencia
dice que prcticamente todos los polimorfismos
marcados sern falsos positivos. Pero cuidado: si el
ADN est muy fragmentado o deteriorado la situa
cincambiacompletamenteyesprobablequehaya
quemodificarelalgoritmoenelvariant caller.Estos
programas tambin suelen dar, junto con cada va
riante,unndicedecalidadllamadoPhredScoreQ,
queeslaprobabilidad(enescalalogartmica)deque
esaposicin(yaseaunavarianteono)seaunerror:
PROCESO DE FILTRADO DE VARIANTES As, por ejemplo, un valor de Q de 10 significa una
probabilidad de 1 entre 10 de que la base sea un
error. No existe un valor Q acordado por el que fil
trartusvalores,peroponerunlmitealrededorde20

42 GENMICA EN MEDICINA. Una gua prctica.


INTERPRETACIN DE DATOS GENMICOS

Salida del programa Annovar, con las primeras variantes anotadas de un exoma.

(una probabilidad de 1 entre 100) es muy utilizado. las.Uncasoparticularsonlasvariantesdesplicingo


Deestemodosecontrolabastantelatasadefalsos procesadodelARNmensajero,enelqueasignasde
positivossinqueseproduzcanmuchosfalsosnega formamanualelnmerodeposicionesalrededorde
tivos. unauninexnintrnparaqueseaconsideradade
talforma.Annovarutilizadeformaestndar3bases
(aguasarribaoaguasabajodelborde)peroennues
FILTRADOPORTIPODEVARIANTE
traexperiencia poner5suele cubrir mejorestosca
Unaveztenemosvariantesdelasqueestamosrazo sos.
nablemente seguros que no son artefactos de se Otraformadeclasificarlasvariantesescatalogarlas
cuenciacin, lo siguiente suele ser filtrar por el tipo como homocigotas (dos copias del polimorfismo) o
devariante.Existenmuchostiposdevariantesytan heterocigotas(solounodeloscromosomashomlo
solo algunos nos interesarn. Por ejemplo, un por goslatiene).Parapoderfiltrarporestetipo,esim
centajemuyimportantedelasvariantessernintr perativoteneralgunainformacinprevia.Sisetrata
nicas osisonexnicas, sinnimas, y lo ms normal de unaenfermedadyadiagnosticada y sesabeque
esfiltrarambostipos.Hayquetenerencuentaque solo se presenta de forma dominante o recesiva,
los dos tipos de variantes pueden ser responsables deberamos inmediatamente filtrar. Si no estamos
deenfermedadesgenticas(Sauna,2011),peroson seguros de la enfermedad, pero tenemos un rbol
casos muy raros ya menos quetengamos informa genealgico bastante claro que apunta haca un
cin sobre nuestra enfermedad que lleve a pensar punto u otro, tambin deberamos hacerlo puesto
que este puede ser el caso, vale la pena correr el queeliminaremos(sobretodosiesunaenfermedad
riesgo. El resto de tipo de variantes (ARNnc, miss recesiva) un porcentaje muy importante de varian
sense, nonsense, frameshift, splicing,) son todas tes.
potencialmente funcionales y debemos conservar

GENMICA EN MEDICINA. Una gua prctica. 43


INTERPRETACIN DE DATOS GENMICOS

FILTRADOPORFRECUENCIA tratadeunarecopilacindeexomasdediferentes

DELPOLIMORFISMO grupos de investigacininteresadosendiferentes
enfermedadesmsqueunproyectodesecuencia
Yatenemosunalistamuchomscortaquealprinci cinensmismo(como1000genomes).
pio,peroprobablementetodavaestamoshablando
El campo de la genmica avanza a una velocidad
decentenaresomilesdevariantes.Elsiguientepaso
vertiginosa y probablemente esta lista se quedar
es filtrar por la frecuencia del polimorfismo en po
obsoletaenunosmesestraslasalidadeestapubli
blacingeneral.Porejemplo,siestamosinvestigan
cacin.Durante2017estprevistalapublicacinde
do una enfermedad que se da en un caso de cada
100000genomasenelproyecto100,000Genomes
100.000 nacimientos, un polimorfismo presente en
Project (https://www.genomicsengland.co.uk/the
el 5% de los individuos no nos interesa para nada.
100000genomesproject/)yAstraZenecapretende
Para ello, Annovar nos compara todas nuestras va
secuenciar2millonesdegenomas!enelplazode
riantes con una serie de bases de datos para decir
unosaos(LedfordH,2016).
nos la frecuencia en cada una de ellos. Algunas de
lasbasesmstilesson:
1000GenomesDatabase(1000 Genome Consor Y qu frecuencia deberamos escoger para filtrar?
Dependertotalmentedeloqueestemosbuscando.
tium,2015;http://www.internationalgenome.org/):
Existenalelosderiesgoencncerconfrecuenciasde
Ensufase3,tienelosgenomascompletosde2504
ms del 40% en poblacin control mientras que las
individuos, pertenecientes a 26 poblaciones dife
mutacionesdealgunasenfermedadesraraspueden
rentes.
ser nicas y no estar presentes en ninguna base de
ExomeVariantServer datos conocida. Pero s que podemos dar algunos
(http://evs.gs.washington.edu/EVS/): consejosdeformageneral:
Tiene 6503 exomas completos. Hay que tener en Silaenfermedadesconsideradarara(enEuropa
cuenta que la representacin de poblaciones es seconsiderararasiafectaamenosde1persona
mucho menor que en el proyecto de 1000 geno entre 2.000) podemos ser bastante conservado
mas,conungransesgohaciapoblacincaucsica. res y una frecuencia del 0.1% lograr filtrar una
Otro inconveniente de esta base datos es que no enormemayoradenuestrasvariantessinningn
espoblacincontrolsana,sinoqueenunporcen miedoaeliminarlaverdadera.
taje importante son individuos con diferentes ti
Si la enfermedad es ms comn, va a haber dos
pos de enfermedades (fibrosis qustica, enferme
casos. Si lo que queremos es buscar nuevas va
dades cardiovasculares, asthma). Es importante
riantesnoconocidasenlaliteratura,podemosser
conocersilaenfermedaddeestudioest(oessi
mucho ms conservadores puesto que podemos
milar) entre algunas de las listadas en su base de
asumirquecualquiervariantefrecuenteyahabr
datos puesto que, en ese caso, las variantes de
sido encontrada. En esta situacin, un 1% suena
riesgo estarn sobrerepresentadas en la base de
razonable.Siencambio,queremosdiagnosticara
datos.
un paciente, todas las variantes conocidas nos
Exome Aggregation Consortium or EXac (Lek, interesarn y deberamos utilizar una frecuencia
2016;http://exac.broadinstitute.org/): acordealaestructuragenticadelaenfermedad.
Es la base de datos ms completa hasta el mo Porejemplo,sisonmuchospolimorfismosdeba
mento, con 60,706 exomas completos en su ver jo riesgo deberamos usar una frecuencia mucho
sin0.3.1.Noobstante,tienelosmismosinconve mayorquesisonpocospolimorfismosdeelevado
nientesqueelExomeVariantServerpuestoquese riesgo.

44 GENMICA EN MEDICINA. Una gua prctica.


INTERPRETACIN DE DATOS GENMICOS

almenosunalgoritmopositivo.Entrelasdosestra
FILTRADOPOREFECTODEL tegias, hay multitud de posibilidades, como por

ejemplo utilizar solo aquellos algoritmos que consi
POLIMORFISMO
deremosmstiles.Noeselpropsitodeestecap
Las mutaciones no sinnimas o missense son aque tulodiscutirlasventajasydesventajasdecadauno,
llasquecambianelaminocidodeunaprotenapor pero los ms utilizados actualmente son posible
otro. Pese a que pudiera parecer que ese cambio mente SIFT (Kumar, 2009) en que el un valor por
implica un cambio en la funcin de la protena, no debajo de 0.05 es patognico, y Polyphen2
ocurreasenmuchoscasos:cambiosdeunamino (Adzhubei, 2010) en el que clasifica las mutaciones
cidoporotrosimilar,ocambiosenzonasdelapro como benignas, posiblemente patognica y proba
tena no importantes harn que el efecto sobre la blementepatognica.Adems,recientementeseha
funcin sea menor o insignificante. Por fortuna, popularizadounnuevoalgoritmo,CombinedAnno
existen numerosos algoritmos que son capaces de tationDependentDepletionoCADD(Kircher,2014),
estimarlapatogenicidaddeuncambiodeaminoci que es una suma ponderada de la mayora de los
do.ConAnnovarporejemploobtendremosungran anteriormentemencionados.CADDnospresentaun
nmerodeellos:SIFT,PolyPhen,LRT,MutationTas valor numrico, el Cscore que funciona de forma
ter, MutationAssessor, FATHMM, MetaSVM y Me logaritmica. De esta forma, un valor Cscore de 10
taLR.Cadaunodeellossiguemtodosdiferentes,lo indica que ese polimorfismo seencontraraentre el
quehacequemuchasvecestansoloalgunosdenun 10%delassustitucionesmsdeletreasquepuedes
resultado positivo. La estrategia ms conservadora realizarenelgenomahumano,mientrasqueunva
defiltrarharqueseleccionemosaquellasvariantes lorde20indicaraqueestentreel1%.Elvalorque
enlasquetodoslosalgoritmosdenunresultadode elijamosdependerunavezmsdelascaractersti
patogenicidadmientrasquelamenosconservadora casdenuestraenfermedad,perounvalormayorde
seraaquellaenqueseleccionemoslasvariantescon 15o20esbastantecomnmenteutilizado.

GENMICA EN MEDICINA. Una gua prctica. 45


INTERPRETACIN DE DATOS GENMICOS

CMOANALIZARVARIANTESENEL FILTRADOPORFUNCINDELGEN
NMERODECOPIAS(CNVs)
Con todos los pasos anteriores, habremos agotado
Annovartansoloanalizapolimorfismosdeunnico prcticamente toda la informacin que se puede
nucletido y microdeleciones o microinserciones, extraer a los polimorfismos: funcin, frecuencia,
pero obvia las grandes variaciones estructurales: efectoElsiguientepasoesmirarunpocomsarri
grandesinserciones,delecionesotranslocacionesde ba:noalpolimorfismosinoalgendndeseencuen
muchaskilobasesomegabasesqueenglobanunoo tra.Siestamosinteresadosenunaenfermedadneu
varios genes en su totalidad. Estas variaciones son ronal, un gen que codifique para una protena es
de por s muy interesantes, puesto que existen en tructural del estmago no nos interesar incluso si
fermedadescomoelautismoenlasquepareceque tieneunamutacinmuypocofrecuenteyprobable
la mayora de mutaciones relacionadas son CNVs. mentedeletrea.Porello,existenprogramasenlos
Desgraciadamente,porlaspropiascaractersticasde que,alproporcionarlesunalistadegenesnosindica
la secuenciacin de exomas (secuenciacin de las rnsufuncinylarelacinentreellas.Sibienexis
zonascodificantesdelgenoma,quesonunporcen tenvariosprogramasquerealizanestafuncin,uno
taje mnimo y no uniformemente distribuido), de de los primeros y ms populares es Gene Ontology
tectar y analizar las translocaciones y las CNVs es (Ashburner, 2000; http://www.geneontology.org/).
bastante complejo, especialmente cuando se en Esteprogramapermitenosolofiltrarlosgenesque
cuentranenheterocigosis.Lasdelecionesenhomo nonosinteresen,sinoademscuantificarsilostr
cigosissonlasmsfcilesdedetectar. minos relacionados con nuestra enfermedad estn
Existen varias herramientas informticas que pro enriquecidos.Porejemplo,pensemosenunaenfer
porcionanunaestimacindeCNVs.Todasellasem medad relacionada con pigmentacin, un trmino
pleandiferentesalgoritmosquecomparanelnme presente en el 0.5% de protenas de la base de da
rodesecuenciasdeungen(conocidocomolacober tos, pero que en nuestra lista est en un 10% de
turadelgen)respectoalasesperadas.As,porejem ellos. Podemos entonces pensar que existe no solo
plo, una delecin heterozigtica debera tener la unamutacinsinoposiblementevariasconunefec
mitad de cobertura de la esperada, mientras una toacumulativo.
duplicacin homozigtica debera tener el doble.
Unavezms,existennumerosasherramientas,pero CONFIRMACINDELAMUTACIN
las cuatro ms utilizadas en la actualidad son
XHMM,CoNIFER,ExomeDepthyCONTRA.Noobs Alfinaldelproceso,sitodohaidobien,deberamos
tante, se han publicado evidencias (Tan,2014) de tener una lista de mutaciones muy prometedoras,
que todos ellos tienen debilidades, incluyendo un perodesgraciadamentenopodremospublicarlatan
porcentajesignificativodefalsospositivosy/ofalsos fcilmente: es necesario confirmarlas, un proceso
negativos en segn qu circunstancias. En nuestra que puede tomar mucho ms tiempo que el de en
propia experiencia (utilizando ExomeDepth y CoNI contrarla. Esto es debido a que incluso la mutacin
FER) aproximadamente entre el 2030% de varian ms obvia y patognica en apariencia puede luego
tespredichasnoeranluegoreplicadasalutilizarm no tener un efecto funcional debido a procesos co
todosexperimentales.Porello,consideramosqueel molacompensacingnica.Dehecho,laliteratura
reto de predecir CNVs a partir de datos de exomas estplagadadecasosdemutacionespublicadasque
siguesiendocomplejoderesolversibiendebidoasu luego no han tenido un efecto real en la enferme
importanciaesnecesariointentarlo. dad.

46 GENMICA EN MEDICINA. Una gua prctica.


INTERPRETACIN DE DATOS GENMICOS

AL FINAL DE TODO EL
PROCESO DE FILTRADO DE
VARIANTES SE DEBERA DISPONER
DE UNA LISTA DE MUTACIONES
POTENCIALES QUE DEBEN
SER CONFIRMADAS,
YA QUE INCLUSO LA MUTACIN
MS PATOGNICA EN APARIENCIA
PUEDE LUEGO NO TENER UN
EFECTO FUNCIONAL.

GENMICA EN MEDICINA. Una gua prctica. 47


INTERPRETACIN DE DATOS GENMICOS

El primer paso para confirmar la mutacin es de tileseslaconocidacomoCombined Approach,que


mostrar que realmente existe. Esto se puede hacer utiliza un proceso stepwise combinando diferentes
fcilmentemediantesecuenciacinporSangerdela mtodos.
zona donde est localizada la mutacin. Despus, Apartedelasvariantesestructurales,podemostam
una prueba muy contundente a favor del efecto es bin analizar variantes en zonas no codificantes en
localizar casos independientes de pacientes con la baseavariosparmetros.Unodeelloseslaconser
mismaenfermedadylamismamutacin.Paraello, vacin, puesto que una regin que se conserve en
suele ser necesaria la colaboracin de diferentes diferentesespeciesespresumiblequetengaimpor
grupos de investigacin que estudien la misma en tanciainclusosinoconocemossufuncin.Paraco
fermedad.Tambinexisteunabasededatosdemu nocer la conservacin, existen principalmente dos
taciones hurfanas, que an nadie ha sido capaz algoritmos, PhastCons (Siepel, 2005) y Phylop
de replicar: Leiden Open Variation Database (Pollard, 2010). El primero mide la probabilidad de
(Fokkema,2011).Allesposiblepublicartusmutacio queunnucletidopertenezcaaunelementoconser
nesalaesperaqueotrogrupolaencuentreyseco vado,mientraselsegundoesellog(pvalor)deun
muniquecontigooalainversa. testconlahiptesisnuladeevolucinneutral.
Otra forma de confirmar la mutacin es realizar un Otros parmetros a tener en cuenta son la posible
estudiofuncionaldelamutacin:mediantemutag localizacinde las variantes en lugares de unin de
nesis dirigida, colocar en un organismo modelo la protenasreguladoresdelatranscripcinyelhecho
mutacinyestudiarlosefectosbiolgicosquepue de que, debido al plegamiento del ADN en los cro
dantener.Elmodelodependerdelgenyenferme mosomas, estos lugares de unin puedan estar si
dadaestudiar,peroengenerallamutagnesisdiri tuadosfsicamenteacientosdekilobasesdeungen.
gida se ha facilitado enormemente con la aparicin Estos sitios se miden a gran escala principalmente
delatcnicaCRISPRCas9. mediantedosmtodos:localizandolossitios hiper
sensibles a DNAsa y haciendo InmunoPrecipitacin
ANLISISEINTERPRETACINDEGENOMAS de Chromatina (ChrIP). Un mapeado exhaustivo de
estossitiosseencuentraenlabasededatosENCO
Podra parecer que el anlisis de genomas es una DE (Encode Project Consortium, 2012, https://
versinampliadadeldeexomas,peroenrealidadla www.encodeproject.org/), el primer intento a gran
complejidad aumenta exponencialmente: en este escaladeanotarlasregionesintergnicas.
caso aparte de cambios en exones, mucho ms in
vestigados y con un efecto ms predecible, suma
mos millones de cambios en zonas mucho menos SECUENCIACINDETRANSCRIPTOMAS
conocidas.Noobstante,esonosignificaquenopo Si la anotacin y filtrado de genomas completas es
damos hacer nada. En primer lugar, el anlisis de compleja, el caso de secuenciacin de transcripto
variantes estructurales se facilita enormemente y mas o RNAseq es un mundo muy diferente de los
consecuentemente el nmero defalsosnegativosy exomas y genomas. En este caso no solo podemos
positivos(sibientodavaexisten),disminuyensensi analizarpolimorfismosymutacionesenlostranscri
blemente. Existen tambin numerosos softwares tossinotambinvercambiossignificativosenlaex
queanalizanlasCNVsapartirdedatosdegenomas, presindelosgenes(yaseasobreexpresinorepre
quesebasanendiferentesaproximaciones. sin) y detectar nuevos productos transcritos en el
Sibiennopodemosrecomendarunsoftwareconcre tejido/cluladelquehagamoselanlisiscomparan
to (en Piroznia, 2015, podemos encontrar una revi dolosyapublicadosenbasesdedatosdeexpresin
sin exhaustiva), una de las aproximaciones ms de productos. Para introducirseenlas estrategias a

48 GENMICA EN MEDICINA. Una gua prctica.


INTERPRETACIN DE DATOS GENMICOS

emplearenelanlisisyanotacindelosdatos,reco Res20:110121,2010.
mendamoslarevisindeWolf(Wolf,2013). Robinson JT, et al. Mesirov. Integrative Genomics
Viewer. Nat Biotech 2011 29, 2426 . URL: http://
REFERENCIAS software.broadinstitute.org/software/igv/home [15
052017].
Ashburneretal.Geneontology:toolfortheunifica
Sauna ZE, et al. Understanding the contribution of
tionofbiology.NatGenet.200025(1):259.
synonymous mutations to human disease. Nat Rev
AdzhubeiIA,etal.Amethodandserverforpredic Genet. 2011 Aug 31;12(10):68391. doi: 10.1038/
ting damaging missense mutations. Nat Met nrg3051.
hods20107(4):248249.
SiepelA,etal.Evolutionarilyconservedelementsin
ENCODE Project Consortium. An integrated vertebrate, insect, worm, and yeast geno
encyclopediaofDNAelementsinthehumangeno mes.GenomeRes200515:10341050.
me. Nature. 2012 Sep 6;489(7414):5774. doi:
TanR,etal.Anevaluationofcopynumbervariation
10.1038/nature11247.
detectiontoolsfromwholeexomesequencingdata.
Exome Variant Server. URL: http:// Hum Mutat. 2014 Jul;35(7):899907. doi: 10.1002/
evs.gs.washington.edu/EVS/[20May2017]. humu.22537
Fokkema IF, et al. LOVD v.2.0: the next generation The 1000 Genomes Project Consortium. A global
ingenevariantdatabases.HumMutat.2011May;32 referenceforhumangeneticvariation. Nature2015
(5):55763. 526,6874doi:10.1038/nature15393
KircherM,etal.Ageneralframeworkforestimating The 100,000 Genomes Project. URL: https://
the relative pathogenicity of human genetic va www.genomicsengland.co.uk/the100000genomes
riants.NatGenet.2014Feb2.doi:10.1038/ng.2892 project/[20May2017].
KumarP,etal.Predictingtheeectsofcodingnon WangK,etal.ANNOVAR:Functionalannotationof
synonymous variants on protein function using the genetic variants from nextgeneration sequencing
SIFTalgorithm.NatProtoc.2009;4(7):107381. data. Nucleic Acids Research, 2010 38:e164. URLs:
Ledford H. Why big pharma wants to collect 2 mi URL: http://wannovar.wglab.org/ ; http://
llion genomes. Nature. 2016. Doi: 10.1038/ annovar.openbioinformatics.org/en/latest/ [1505
nature.2016.20697 2017].
LekMetal.Analysisofproteincodinggeneticvaria Wolf JB. Principles of transcriptome analysis and
tion in 60,706 humans. Nature. 2016 Aug 18;536 geneexpressionquantification:anRNAseqtutorial.
(7616):28591.doi:10.1038/nature19057. Mol Ecol Resour. 2013 Jul;13(4):55972. doi:
10.1111/17550998.12109
OMICtools: Bioinformatics software and database
search engine. URL: https://omictools.com/ [2005
2017].
Pirooznia, M., et al. Wholegenome CNV analysis:
advancesincomputationalapproaches.Frontiersin
Genetics 2015 6(138). doi: doi.org/10.3389/
fgene.2015.00138.
PollardKS,etal.Detectionofnonneutralsubstitu
tion rates on Mammalian phylogenies. Genome

GENMICA EN MEDICINA. Una gua prctica. 49


CAPTULO 5:
LA GENMICA EN
LA PRCTICA CLNICA
La genmica ha cambiado la forma en la que se practica la medicina.
En este captulo se presenta el papel de la genmica en el desarrollo
de la medicina de precisin en diversas reas de la medicina,
as como algunos retos que todava quedan por resolver para su
incorporacin definitiva en la prctica clnica.

scar Puig
Phosphorus Inc.
LA GENMICA EN LA PRCTICA CLNICA

INTRODUCCIN culardecadapacientepermiteconseguirtratamien
tosmseficaces.Estaevolucinhasidoposiblegra
Tradicionalmente, los tratamientos mdicos se ba cias a una nueva disciplina cientfica llamada gen
sabanenrespuestasclnicasmedidasenpoblaciones micayelesfuerzoqueconcluyconlasecuenciacin
heterogneas de pacientes con diversos orgenes delgenomahumanoen2001(Lander,2001;Venter,
tnicos y bases moleculares y genticas muy dife 2001).Lagenmicaeselestudiointegraldelconte
rentes, no en el perfil molecular de cada paciente nidoyfuncionamientodelosgenomas.
individual. Como consecuencia, estos tratamientos
Lasecuenciacindelgenomahumanohacambiado
resultaban ser ineficaces en la mayora de indivi
la forma en la que practicamos la medicina. La dis
duos.Porejemplo,en2001soloel25%depacientes
ponibilidad de la secuencia de todos los genes hu
con cncer respondan adecuadamente al trata
manoshapermitidodesarrollartcnicascapacesde
miento (Figura 1). Actualmente, la tendencia es
medir diferencias de expresin de ARN o detectar
practicar medicina de precisin, aproximacin enla
cualquiermutacinenelADNylosavancesbioinfor
que los doctores usan pruebas diagnsticas para
mticoshanpermitidofacilitarlaintegracindeto
identificarmarcadoresbiolgicos,amenudogenti
daestainformacinparatomardecisionesmdicas.
cos,queayudanadeterminarqutratamientoesel
Empresas como Foundation Medicine, Genomic
mseficazparadeterminadopaciente,teniendoen
Health, y muchas otras han basado su xito en el
cuenta sus singularidades moleculares y genticas.
procesado e integracin de informacin gentica
Lacomposicingenticadecadaindividuomarcala
aplicadaenelcampodelamedicina. En2017yaes
respuesta a la enfermedad y a su tratamiento y la
rutinario que un mdico onclogo pida los resulta
combinacindelahistoriaclnicaconelperfilmole

Figura 1. Eficacia de los tratamientos farmacolgicos estndar de diferentes enfermedades humanas.


(Spear BB, 2001)

GENMICA EN MEDICINA. Una gua prctica. 51


LA GENMICA EN LA PRCTICA CLNICA

EL TRMINO MEDICINA DE PRECISIN SE UTILIZA


PARA ILUSTRAR LA PRCTICA MDICA ACTUAL BASADA
EN INTERPRETAR LAS SINGULARIDADES DE LA
COMPOSICIN MOLECULAR DE CADA PACIENTE
Y DERIVAR TRATAMIENTOS QUE SE ADAPTAN
ESPECIALMENTE A CADA PERSONA,
TENIENDO EN CUENTA SU COMPOSICIN GENTICA
Y LA INTERACCIN DE STA CON EL MEDIO AMBIENTE.

52 GENMICA EN MEDICINA. Una gua prctica.


LA GENMICA EN LA PRCTICA CLNICA

dosdeltestFoundationOneuOncotypeDxparade laquinasaEML4ALKpuedensertratadosconmedi
terminarqucursodetratamientorecomiendaasus cinascomoCrizotinibyAlectinib,envezdequimio
pacientes.Enlosltimos15aoslaprcticamdica terapia,conlaconsiguientemejoraenlacalidadde
hacambiadograciasalasecuenciadelgenomahu vida y la extensin de la misma. Las dos transloca
mano y se puede decir que hay un antes y un des cionessepuedendetectaraniveldelADNmediante
pus del genoma humano en medicina. La secuen lasecuenciacindelgenomadeltumor.Claramente,
ciacindeADNoARN,pormediodelossecuencia elfuturodelamedicinaenelcampodelcncer,yen
dores de Illumina o Ion Torrent, se utiliza de forma otrasenfermedades,estenlaintegracindelage
rutinariaenlaprcticamdica,yeltrminomedici nmicaenlaprcticamdica.
nadeprecisinseutilizaparailustrarlaprcticam
dica actual basada en interpretar las singularidades
SELECCINDELASPRUEBAS
delacomposicinmoleculardecadapacienteyde
rivar tratamientos que se adaptan especialmente a Lasecuenciacindelprimergenomahumanocost
cada persona, teniendo en cuenta su composicin milmillonesdedlaresydurdiezaos,culminan
gentica y la interaccin de sta con el medio am do en el trabajo presentado en 2001. En la actuali
biente. La prctica anterior de tratar un paciente dad, se puede secuenciar un genoma humano en
basndose en los resultados obtenidos en la media unospocosdasyporelpreciodepocomsde1.000
delapoblacinhadadopasoauntratamientoper dlares.Laevolucintecnolgicaenelcampodela
sonalizado basado en el perfil molecular de cada secuenciacin de ADN y en la integracin bioinfor
uno. mticadelosresultadosharesultadoenunaexplo
LaCoalicindeMedicinaPersonalizadaesunaorga sindeinformacinquehapermitidoelavancerapi
nizacinqueseencarga,entreotrasactividades,de dsimodelaprcticagenmicaenmedicina.Elpun
hacer un seguimiento de las medicinas que requie todeinflexinocurrien2007conlainvencinpor
renpruebasbasadasenmarcadoresespecficospara parte de la compaa Solexa, adquirida posterior
una administracin ms efectiva. En 2017 hay 132 menteporIllumina,delasecuenciacinporsntesis
medicinas en esta categora, en comparacin con deADN.Comohemosvistoencaptulosanteriores,
solo 5 en 2008 (Personalized Medicine Coalition, estatcnicapermitelasecuenciacindemillonesde
2017). Muchas de ellas han sido aprobadas por la fragmentoscortosdeADNysuposteriorensambla
FDAenconjuncinconunapruebadiagnsticaque je,paradeterminarlasecuenciaenteradelgenoma
se utiliza para determinar qu pacientes responden deunapersonadeformabaratayprecisa.Losavan
mejoraltratamiento.Estasmedicinasestnbasadas cesbioinformticosenelprocesado,almacenamien
en perfiles especficos de cada paciente. Por ejem to y visualizacin de la informacin genmica han
plo, pacientes con leucemia crnica mieloide con permitido la integracin de los perfiles genmicos
unatranslocacinensugenomaconocidacomocro con el historial mdico de cada paciente. El campo
mosoma Filadelfia, que transpone el oncogn ABL cientfico de la genmica ha explotado en los lti
detrs delgen BCR, respondeneficazmentealinhi mos15aos.
bidordequinasasImatinib(Gleevec).As,unaenfer Los tipos de pruebas genmicas utilizadas en la
medadqueacababaconlavidadelospacientesen prctica clnica se reducen a dos: secuenciacin de
mesesyrequeratratamientosdequimioterapiaque ADN,quepermitedeterminarmutacionesenelge
debilitaban considerablemente al paciente es trata nomaquecausanlaenfermedad,ysecuenciacinde
daahoraeficazmentepermitiendounavidacasinor ARN,quepermiteestudiarcambiosenlaexpresin
mal durante aos. De forma similar, pacientes con gentica que sirven como marcadores predictores
cncerdepulmnconlatranslocacinespecficaen

GENMICA EN MEDICINA. Una gua prctica. 53


LA GENMICA EN LA PRCTICA CLNICA

deactividaddeunmedicamento,opronsticosdela desarrolloembrionarioyseapagadespusdelnaci
evolucindeunaenfermedad.Unejemplodeprue miento. Como consecuencia de la translocacin, el
basdelaprimeracategora(secuenciacindeADN) genALKseexpresadenuevoeneltejidodelpulmn
es, por ejemplo, el FoundationOne de Foundacion traseldesarrollo,algoqueconstituyeunaexpresin
Medicine (Frampton et al, 2013) que caracteriza el aberrante y deslocalizada. Esta expresin descon
perfildemutacionesdeuntumor,loquepermiteel trolada de la quinasa ALK causa la transformacin
tratamiento del cncer segn el conjunto de muta de las clulas sanas del pulmn en clulas cancero
cionespresenteseneltumordecadapaciente.As, sasyacabacausandocncer.Ladesregulacindela
porejemplo,pacientesconcncerdepulmnconla expresin de la quinasa ALK causa un tumor muy
mutacin EML4ALK presente en su tumor respon agresivo y los pacientes con esta mutacin que no
den favorablemente a Alectinib, un inhibidor de la sontratadoscorrectamentepuedenmorirenpocos
quinasaALK(Sakamotoetal,2011).Porcontra,los das con metstasis que invaden, sobre todo, el h
pacientes que no tienen la mutacin EML4ALK no gadoyelcerebro.Medicamentosqueinhibendirec
sebeneficianenningunamaneradeAlectinib,yne tamentelaactividaddelaquinasaALKhandemos
cesitansertratadosconquimioterapiauotrasmedi tradosermuyefectivoscontraelcncerdepulmn
cinas.Unejemplodelaspruebasdelasegundacate causadoporestamutacin(Sakamotoetal,2011).
gora (secuenciacin de ARN) es, por ejemplo, On La primera prueba de identificacin de la mutacin
coType Dx (Paik et al, 2006), de Genomic Health, EML4ALK fue una prueba de FISH (hibridacin in
una prueba de valor pronstico y predictivo de la situ fluorescente) y fue utilizada en el desarrollo de
probabilidad de recurrencia de cncer de mama en Crizotinib, el primer tratamiento contra NSCLC del
estadiotemprano, quepermitedeterminarsi lapa tipoEML4ALK.LapruebadeFISHdetectadirecta
cientetieneuncncermsagresivoydeberadeser mente la translocacin en los cromosomas del tu
tratadaconquimioterapiaosi,porcontra,elcncer mor. Sin embargo, es una prueba tediosa, cara (en
esmenosagresivoylaadministracindehormonas losEE.UU.cuesta1.500dlares)yrequieretantoun
essuficienteparaeltratamientoefectivo,loqueevi procesadoespecialdeltejidocancergenocomoco
ta la quimioterapia y proporciona la consecuente nocimientos especializados de patologa, ya que
mejoraenlacalidaddevida. deben contarse un numero especifico de clulas
(ms de 15) con la translocacin, utilizando un mi
LAGENMICAENONCOLOGA croscopiodefluorescenciaparadeterminaruncaso
positivo(Ouetal,2011).LapruebaFISHdiopasoal
Un ejemplo muy ilustrativo de las ventajas de las anlisisdetincindeimmunohistoqumica(IHC)del
pruebas genmicas es el del cncer de pulmn con tumor. En el tejido pulmonar canceroso donde la
mutacionesenEGFR,ALK,RET,METyotros. quinasa ALK se expresa, se puede detectar la pre
Elcncerdepulmneselcncermscomnyagre senciadelamismamediantelatincindelaprote
sivo,con1.8millonesdecasosnuevosen2012y1.2 naconanticuerposespecficos. Este anlisis es mu
millones de muertes en todo el mundo. (American chomssencillodellevaracabo,msbarato($150)
Lung Association). El 85% es del tipo NSCLC (non y solo requiere conocimientos generales de patolo
small cell lung cancer)ocncerdepulmndeclulas gaparasuinterpretacin,quesereduceadetermi
nomicroctico.El57%deloscasosdeNSCLCestn nar si la protena est en el tejido (caso positivo) o
causadosporunatranslocacindelgenquecodifica noest(casonegativo).Elanlisisimmunohistoqu
la quinasa ALK (quinasa anaplastia de linfoma) que mico ha sido la prueba utilizada en el desarrollo de
lo situa detrs del gen EML4. Normalmente el gen inhibidores de la quinasa ALK de segunda genera
ALK se expresa en el sistema nervioso durante el cin, como el Alectinib, que han demostrado una

54 GENMICA EN MEDICINA. Una gua prctica.


LA GENMICA EN LA PRCTICA CLNICA

ANTES DE LA SECUENCIACIN GENMICA: CON LA SECUENCIACIN GENMICA:


Cada mutacin, un test diferente. Un test para todas las mutaciones.
Anlisis secuencial en 2 meses. Anlisis simultneo en 2-3 semanas.
Un trozo de biopsia para cada test implica una La misma biopsia sirve para obtener todos
segunda biopsia si no hay suficiente tumor. los resultados.

Figura 2. Anlisis genticos antes y despus de la secuenciacin genmica.

mejorrespuestaqueelCrizotinib(Petersetal,2017). mutaciones en EGFR, ALK, RET, MET, BRAF, etc se


Con la aparicin de pruebas genmicas que permi trataba con quimioterapia. Desgraciadamente, el
ten la deteccin de la mutacin EML4ALK por se diagnstico secuencial de mutaciones en EGFR pri
cuenciacin directa del ADN del tumor del tejido meroyluegoALKseguidodeMET,REToBRAFcon
pulmonar, los patlogos han dejado de utilizar las llevatiempoenelqueelpacientedebeesperarhas
otras dos pruebas: el FISH y el IHC. Por qu? Por ta tener un diagnstico correcto que muchas veces
queahoraconunasolaprueba,losdoctorespueden acababa en indeterminado. El 15% de NSCLC es
diagnosticar hasta 300 mutaciones simultneamen causado por mutaciones en EGFR, el 7% en ALK, el
te.Enelpasado,cuandounpacientevenaalacon 1%enRET,etc.,asquelamayoradepacientesaca
sultaconsntomasdecncerdepulmn,serealiza babaenquimioterapiadespusdeesperarhastados
baunabiopsiadeltejidoypartedeesetejidoseusa mesesparatenerundiagnsticocorrecto(Figura2).
ba para la caracterizacin de mutaciones en el gen En un 15% de casos, la biopsia no daba suficiente
EGFR medianteunatcnicallamadaPCR.Lasmuta tejidoparaelanlisissecuencialdeEGFR,ALK,RET
cionesenEGFRcausancncerdepulmn,ysontra yotrosgenes,loquesuponaqueelpacientenecesi
tadas con xito con medicamentos como el Erloti taba una segunda biopsia para obtener ms tejido,
nib, un inhibidor de la quinasa EGFR. Si el paciente conelconsiguienteaumentodelriesgodeenfisema
no tena mutaciones en EGFR, se segua el proceso (un3%delasbiopsias).Hoy,laspruebasgenmicas
dediagnsticoconladeteccindelamutacinEM hancambiadolaformaenquesediagnosticaelcn
L4ALK, lo que requera el uso adicional de tejido cer de pulmn: se obtiene una biopsia y se pueden
pulmonar de la biopsia. Si no haba mutaciones en detectar simultneamente mutaciones en EGFR,
EGFR o ALK, se segua con pruebas de mutaciones ALK,RET,RASyhasta300genes.Estopermiteun
en RET (1% de casos de NSCLC, detectado por diagnstico rpido de la causa del cncer en poco
FISH),MET(23%,detectadoporIHC)uotrosgenes msdedossemanasyeltratamientoinmediato,sin
(BRAF, PI3K, HER2). Estas pruebas utilizaban cada lanecesidaddeesperarlosresultadosdevariosan
unauntrozodelabiopsiayserealizabancontcni lisis secuenciales y con una sola biopsia. La prueba
casdistintas(FISH,IHC,PCR).Sielpacientenotena de Foundation Medicine, y pruebas similares de

GENMICA EN MEDICINA. Una gua prctica. 55


LA GENMICA EN LA PRCTICA CLNICA

CON LA APARICIN DE PRUEBAS GENMICAS QUE


PERMITEN LA DETECCIN DE LA MUTACIN EML4-ALK POR
SECUENCIACIN DIRECTA DEL ADN DEL TUMOR DEL TEJIDO
PULMONAR, LOS PATLOGOS HAN DEJADO DE UTILIZAR LAS OTRAS
DOS PRUEBAS: EL FISH Y EL IHC, PORQUE AHORA,
CON UNA SOLA PRUEBA, SE PUEDEN DIAGNOSTICAR
HASTA 300 MUTACIONES SIMULTNEAMENTE.

otras empresas, se utilizan rutinariamente en la direccin,dondelasecuenciacindelgenomacom


prcticaclnica oncolgica yaque permiteneldiag pleto del tumor informar de forma ms integral
nstico simultneo de mutaciones en ms de 300 sobreloscambiossufridoseneltumor,loquelleva
genes.Estohaceposiblelacaracterizacindelperfil raterapiasmspersonalizadasyefectivas.
molecular en cnceres de pulmn (con mutaciones
en los genes EGFR, ALK, RET, MET), de colon (con
LAGENMICAENOTRASREASMDICAS
mutacionesenMSH1,MSH2,MSH6,APC),demama
(con mutaciones en BRCA1, BRCA2) y otros tipos,
Lagenmicaenlasenfermedadescardiovasculares
todos con la misma prueba, de forma ms rpida y
barata. Eltratamientodelcncernoeselnicocampocien
tficoquesehabeneficiadodeldesarrollodelastc
Lospanelesdesecuenciacinconunnmerodeter
nicasgenmicas.Otrasreasmdicascomoladelas
minado de genes tienen una limitacin obvia: qu
enfermedadescardiovascularesyladelasenferme
pasaconloscnceresdepulmnquenoestncau
dadesrarassehanbeneficiadotambin.
sados por mutaciones en EGFR, ALK, RET o MET?
Cercadelamitaddecanceresdepulmnnotienen Casilamitaddelasarritmiascardiacasquellevana
causa molecular conocida. Por lo tanto, los paneles lamuertesbitaenpersonassinningntipodesn
con 300 genes dan un diagnstico incompleto. Por tomassoncausadaspormutacionesqueseheredan
ello,elcampodeldiagnsticodecncerestevolu depadresahijos,localizadasengenesquecodifican
cionando hacia la secuenciacin completa de todos protenas que conducen impulsos elctricos, poros
los genes (exoma) o del genoma entero (genoma). de membrana en el corazn, o protenas contrcti
Estas tcnicas todava estn en desarrollo porque les.SndromesdeQTlargo,QTcortooBrugadase
requieren una cantidad muy grande de ADN y son manifiestanamenudoporlamuertedelpacientede
an un poco caras. Sin embargo, con la mejora de forma sbita (Zipes et al, 2006). Las tcnicas de
lastcnicasdesecuenciacinyelconsiguienteaba diagnsticogenticobasadasenlasecuenciacinde
ratamiento, el futuro claramente nos lleva en esa variosgeneshanpermitido,nosoloproporcionarun

56 GENMICA EN MEDICINA. Una gua prctica.


LA GENMICA EN LA PRCTICA CLNICA

diagnsticocorrectoaaquellospacientesquesobre
vivenalaarritmia,sinolaimportanteposibilidadde
diagnosticar a sus familiares directos permitiendo
medidas profilcticas. Por ejemplo, el 25% de los
casos de sndrome de Brugada, una arritmia que
acabaconlavidadepersonasqueparecensanas(ya
veces incluso son atletas) es causado por mutacio
nesenelgenquecodificaelcanaldesodioSCN5A,
genqueseexpresaenelcoraznyquetieneunpa
pel central en la conduccin de impulsos elctricos
(SchulzeBahr et al, 2003). La implantacin de un
desfibriladorpermitelacorreccindeldefectodela
mutacin,aldetectarsituacionesdearritmiaydes
plegarunshockelctricoquenormalizaloslatidosy
previene la muerte sbita. El diagnstico gentico
de estos pacientes se produce de forma rutinaria
analizando el ADN de linfocitos en una muestra de
sangre y permite la identificacin de familiares que
no han demostrado ningn sntoma, lo que puede
prevenirlamuertesbitadelosmismos.
Unasituacinsimilarocurreenpacientesconhiper
colesterolemiafamiliar(FH),unaenfermedadcausa
da por mutaciones en los genes LDLR, PCSK9 o
ApoB que causa un aumento del colesterol en san
gre,aumentandoelriesgodeaterosclerosis(Soutar
y Naoumova, 2007). La medicin del colesterol co
mobasedeundiagnsticoesmuyimprecisa,sobre
todoennios,porqueestos,adiferenciadelosadul
tos,nomuestranningnsntomaniniveleselevados
decolesterolpatolgicos.Sinembargo,eldiagnsti
cogenticodelosfamiliaresdeunpacienteconFH
permitelaidentificacintempranadeportadoresde
mutaciones y el inicio de tratamiento con medica
mentos llamados estatinas, que reducen significati
vamente el riesgo de enfermedades cardiovascula
res.As,cuandounpacientellegaalaconsultayes
diagnosticado clnicamente con FH, hoy en da es
rutinarioquesedeterminequmutacineslacausa,
as como si la mutacin ha sido heredada por sus
familiares, lo que permite hacer un seguimiento y
tratamientoadecuados.

GENMICA EN MEDICINA. Una gua prctica. 57


LA GENMICA EN LA PRCTICA CLNICA

Lagenmicaenenfermedadesraras queestnenelADNcausandolaenfermedad?Qu
ElcasodeNicVolker(Herper2011),unniosalvado ocurre cuando se detectan artefactos como si fue
por la secuenciacin de su genoma, representa un senmutacionesreales,confundiendolosresultados
claro ejemplo de cmo las pruebas genmicas han diagnsticos? Qu pasa cuando las mutaciones
cambiadolaformaenquesediagnosticanlasenfer identificadassondesconocidasynosepuedetrazar
medades raras en nios. Se calcula que hay unos inequvocamente la causa de la enfermedad? En el
7.000 tipos de enfermedades raras, que afectan a sndromedeBrugada,el70%deloscasossedeben
ms de 300 millones de personas en el mundo, la a mutaciones desconocidas, as que el diagnstico
mayora nios. Nic es un ejemplo de enfermedad genticonoproduceningnresultado.Enloscasos
rara:desdequeeraunbebtenaproblemasgastro de enfermedadesraras,enlos queseanalizaelge
intestinales, con inflamacin del colon. A los seis noma entero, a menudo se descubren cientos de
aos,lainflamacineratanseveraquehabanecesi posibles mutaciones con significados confusos que
tadocasicienoperacionesyhabapasadosuvidaen nosepuedenasignarclaramentealaenfermedad.
elhospital.Losmdicosinvestigaronmutacionesen Otroposibleproblemadelaspruebasgenmicases
genesconocidos,perolosresultadosfueronnegati lareclasificacindemutaciones,quesucedecuando
vos. Finalmente, se le extrajo el colon, pero no se hay informacin adicional que permite modificar la
consigui parar la inflamacin. El caso acab en el primeraclasificacin.Porejemplo,consideremosun
hospitaldeWisconsin,dondeunequipopionerose pacienteconsntomasdearritmiacardiacaalquese
cuenci su genoma y demostr que una mutacin le detecta una mutacin de efecto desconocido y,
enelgencodificantedelaprotenaXIAP,hastaaho porlotanto,delaquenoseconstaqueproduzcala
ra no relacionado con la enfermedad de Nic, era la enfermedad. Seis meses mstarde, unnuevo estu
causadesupatologa.Untrasplantedemdulaco dio cientfico demuestra que esa mutacin s que
rrigieldefectoycontribuyaqueNiclleveunavi causala enfermedad.Elinforme gentico que sele
dacasinormal.ComoNic,cientosdeniossebene dioalpacienteseismesesantesdeberaactualizarse
fician cada ao de la secuenciacin del genoma en paraincorporarlanuevainformacin,deformaque
busca de mutaciones que causen la enfermedad. El el paciente pueda ser tratado correctamente. Pero,
beneficioseproduceinclusoenloscasosenlosque qu sucede si el informe gentico no es actualiza
no hay tratamiento conocido, porque, al menos, se do? Con qu frecuencia deben de actualizarse los
terminalaodiseadiagnsticaenlaqueseemplean informesgenticos?
un incontable nmero de anlisis y otros procedi
mientosmdicosparaintentardiagnosticarlaenfer
HALLAZGOSSECUNDARIOS
medad,amenudosinxito.Paralospadresdeestos
niosafectados,unarespuestaclara,inclusocuando La secuenciacin completa del genoma humano
nohaytratamiento,esmejorqueningunarespues puedellevarahallazgossecundariosyesmuydifcil
ta. determinar qu hacer en estos casos. Se deben
comunicarloshallazgossecundariosalospacientes?
Loshallazgossecundariosaparecencuandoseiden
PROBLEMASTICOS
tifican mutaciones en genes no relacionados con la
Las pruebas genmicas no estn desprovistas de enfermedad pero que afectan directamente la cali
problemas.Nohayningunapruebadiagnsticaque dad de vida de los adultos. Por ejemplo, podemos
sea100%precisa.Enelcasodelaspruebasgenmi pensarqueunapersonaconarritmiacardiacaserea
castodavaquedanalgunascuestionesqueresolver: lizaunapruebagenmicaquenoencuentralacausa
Qusucedecuandonosedetectanlasmutaciones de la arritmia, pero que identifica al paciente como

58 GENMICA EN MEDICINA. Una gua prctica.


LA GENMICA EN LA PRCTICA CLNICA

LA SECUENCIACIN COMPLETA DEL GENOMA


HUMANO PUEDE LLEVAR A HALLAZGOS SECUNDARIOS
CUANDO SE IDENTIFICAN MUTACIONES EN GENES
NO RELACIONADOS CON LA ENFERMEDAD ESTUDIADA
PERO QUE AFECTAN DIRECTAMENTE LA CALIDAD DE VIDA DE
LOS ADULTOS.
SE DEBEN COMUNICAR LOS HALLAZGOS SECUNDARIOS
A LOS PACIENTES?

GENMICA EN MEDICINA. Una gua prctica. 59


LA GENMICA EN LA PRCTICA CLNICA

portadordeunavarianteenelgenPSEN1,quecausa engeneral,fcilesdeentender,peroestnlascom
Alzheimer,oenBRCA1,quecausacncerdemama paas obligadas a procesar un informe gentico
yovario.Quhacerenesoscasossielpacienteno cadavezqueelpacientedeseeunnuevoanlisisde
quiereteneresainformacinadicional?Quseles los datos? Las organizaciones mdicas publican re
diceasusfamiliaresquepuedenhaberheredadola gularmenteguas quesirven de referenciadecmo
mismamutacin?Quocurresiesainformacines los datos genticos deben compartirse con los pa
robada y usada contra el paciente para negarle se cientes. Sin embargo, no hay legislacin clara que
guromdicooempleo?Hayleyesqueprotegenalos definaelprocesodeaccesoalainformacingenti
pacientesdelusoindebidodeinformacingentica, caylosdistintosproveedoresdepruebasgenticas
pero los problemas ticos hay que discutirlos antes tienenpolticasdiferentes.
dequeserealicelapruebagentica,parairprepara
docontracualquiersituacin.
CONCLUSIN
Los ltimos15 aos hanvisto avancesincreblesen
ACCESOALAINFORMACINGENTICA
lasecuenciacindeADN,ascomodelprocesadode
Los laboratorios genticos tienen la obligacin de informacinderivadadelosmismos.Hoyenda,las
guardarlosdatosdesecuenciacinalargoplazo,de pruebas genmicas son parte de la rutina de diag
forma que el paciente tenga acceso a los mismos nstico clnica y, en el futuro, van a proporcionar
variosaosdespusdequeseobtuvieronlosresul soluciones a problemas cada vez ms complejos.
tadosdelaprimeraprueba.EnlosEstadosUnidosla Porejemplo,esdifcilidentificarlacausadeunaen
mayora de estados regulan el almacenamiento de fermedad polignica, donde varios genes interac
resultados genticos con plazos de hasta 15 aos tanentreellosyconelmedioambienteparacausar
despus de que la prueba se procese. Pero, cmo la enfermedad en unos individuos ms propensos
se debe compartir la informacin gentica con los queotros(laobesidadcomoejemplo).Sinembargo,
pacientes?Losdatosdeunareaccindesecuencia tenemos cada vez ms cerca la posibilidad de inte
cin genmica pueden ocupar terabytes, son com grarinformacincompleja,porejemplo,atravsde
plejos y requieren de conocimientos especializados redesdegenesyconlasuperposicindedatosorto
parapoderentenderlos.Losinformesgenticosson, gonales producidos por varias metodologas, como

60 GENMICA EN MEDICINA. Una gua prctica.


LA GENMICA EN LA PRCTICA CLNICA

lagenmica,laprotemicaolametabolmica.Em receptorpositive breast cancer. J Clin Oncol. 2006


presas como Human Longevity prometen el diag Aug10;24(23):372634.
nsticodeenfermedadescomplejasenbasealaca Personalized Medicine Coalition. The Personalized
racterizacinmolecularadistintosniveles,integran Medicine Report. 2017. Opportunity, Challenges,
do medidas genticas, de metabolitos en sangre, and the Future. http://
imgenesdeMRIdelcuerpoentero,etc.Enlaactua www.personalizedmedicinecoalition.org/Userfiles/
lidad,estosprocedimientosnosondiagnsticosto PMCCorporate/file/ThePersonalizedMedicine
dava, sino de investigacin, pero con la acumula Report1.pdf
cin de datos y la interpretacin integrada de los
Peters S, et al. Alectinib versus Crizotinib in Un
mismos, haremos frente a preguntas cada vez ms
treated ALKPositive NonSmallCell Lung Cancer.
complejas. Es ciertamente un tiempo emocionante
N Engl J Med. 2017 Jun 6. doi: 10.1056/
en el que la investigacin genmica es puntera y
NEJMoa1704795.
ayuda a solucionar problemas que solo hace unos
aoseranintocables. SakamotoH,etal.CH5424802,aselectiveALKinhi
bitor capable of blocking the resistant gatekeeper
mutant.CancerCell.2011May17;19(5):67990.doi:
BIBLIOGRAFA 10.1016/j.ccr.2011.04.004.
American Lung Association. Lung Cancer Fact SchulzeBahrE,etal.Sodiumchannelgene(SCN5A)
Sheet. http://www.lung.org/lunghealthand mutationsin44indexpatientswithBrugadasyndro
diseases/lungdiseaselookup/lungcancer/resource me: dierent incidences in familial and sporadic di
library/lungcancerfactsheet.html[23082017] sease.HumMutat.2003Jun;21(6):6512.
FramptonGM,etal.Developmentandvalidationof Soutar AK, Naoumova RP. Mechanisms of disease:
a clinical cancer genomic profiling test based on geneticcausesoffamilialhypercholesterolemia.Nat
massivelyparallelDNAsequencing.NatBiotechnol. ClinPractCardiovascMed.2007Apr;4(4):21425.
2013Nov;31(11):102331.doi:10.1038/nbt.2696. Spear BB, HeathChiozzi M, Hu J. Clinical applica
Herper M. The First Child Saved By DNA Sequen tion of pharmacogenetics. Trends Mol Med. 2001
cing.Forbes.2011. May;7(5):2014.
Lander ES, et al. Initial sequencing and analysis of Zipes DP, et al. ACC/AHA/ESC 2006 guidelines for
the human genome. Nature. 2001 Feb 15;409 management of patients with ventricular arrhyth
(6822):860921. miasandthepreventionofsuddencardiacdeath:a
Venter JC, et al. The sequence of the human geno report of the American College of Cardiology/
me. Science. 2001 Feb 16;291(5507):130451. Erra AmericanHeartAssociationTaskForceandtheEu
tumin:Science2001Jun5;292(5523):1838. ropeanSocietyofCardiologyCommitteeforPracti
ceGuidelines(WritingCommitteetoDevelopguide
Ou SH, et al. Activity of crizotinib (PF02341066), a
lines for management of patients with ventricular
dual mesenchymalepithelial transition (MET) and
arrhythmias and the prevention of sudden cardiac
anaplastic lymphoma kinase (ALK) inhibitor, in a
death) developed in collaboration with the Euro
nonsmallcelllungcancerpatientwithdenovoMET
pean Heart Rhythm Association and the Heart
amplification.JThoracOncol.2011May;6(5):9426.
RhythmSociety.Europace.2006Sep;8(9):746837.
doi:10.1097/JTO.0b013e31821528d3.
PaikS,etal.Geneexpressionandbenefitofchemo
therapy in women with nodenegative, estrogen

GENMICA EN MEDICINA. Una gua prctica. 61


CAPTULO 6:
EDICIN DEL GENOMA
La edicin de genomas ya est entre nosotros.
Tras explorar diversas estrategias anteriores, con mayor
o menor xito, la edicin gentica ha triunfado con las
herramientas CRISPR, derivadas de un ancestral sistema de defensa
que usan los procariotas para zafarse de las intromisiones
de virus y plsmidos.
Este captulo ofrece una introduccin a los sistemas de edicin del
genoma y sus posibles aplicaciones en el campo de la medicina.

Llus Montoliu
Centro Nacional de Biotecnologa (CNB-CSIC) y Centro de Investigacin
Biomdica en Red en Enfermedades Raras (CIBERER-ISCIII)
EDICIN DEL GENOMA

INTRODUCCIN Evans, Oliver Smithies y Mario Capecchi


(galardonadoslostresconelpremioNobeldeMedi
Laedicindegenomasyaestentrenosotros.Tras cina en 2007 por estos experimentos) (Mak, 2007),
explorar diversas estrategias anteriores, con mayor hicieron posible la generacin de miles de modelos
o menorxito,laedicin genticaha triunfado con animales genticamente modificados, mayoritaria
lasherramientasCRISPR,derivadasdeunancestral mente ratones, para los estudios de genes y enfer
sistema de defensa que usan los procariotas para medades.
zafarsedelasintromisionesdevirusyplsmidos.La
Hace 20 aos un nuevo grupo de tcnicas, comn
sencillez,robustez,plasticidadyasequibilidaddelas
mentedenominadasdeclonacin,perotcnicamen
herramientasCRISPRlashanconvertidoenlatecno
te conocidas como transferencia nuclear de clulas
logamsinnovadora,explosivayenauge,capazde
somticas (SCNT, en sus siglas en ingls), hicieron
revolucionarycambiarcmoabordamoslosexperi
posiblequenacieralaovejaDolly,elprimermamfe
mentosenbiologa,biomedicinaybiotecnologa.Su
ro clonado a partir de una clula adulta (Wilmut et
simplicidad (apenas dos pequeas molculas de
al., 1997). A Dolly le seguiran centenares de otras
ARN y una protena, una endonucleasa) y efectivi
ovejas,cabras,vacas,conejosy,sobretodo,cerdos
dad(losporcentajesdexitosuelenserdedoscifras
modificadosconestasnuevastecnologas.Yaunque
y, a menudo, superiores al 50%) hacen de las
elNobeldeMedicinaen2012premiaralaregenera
CRISPR las herramientas actuales de eleccin para
cin celular, resaltando los trabajos pioneros de
cualquierestrategiadeedicingenticaquepersiga
John Gurdon, en anfibios, y las sorprendentes clu
eliminar, aadir, substituir, duplicar o invertir se
las pluripotentes inducibles de Sinya Yamanaka
cuenciasespecficasenungendeterminadodelge
(pero olvidando injustamente a los investigadores
noma. Ms all de las aplicaciones en el desarrollo
del Instituto Roslin, donde naci Dolly), lo cierto es
demejoresmodeloscelularesyanimalesparaeles
que las tcnicas de clonacin han sido esenciales
tudio de enfermedades, su papel en la prxima ge
para la modificacin gentica de muchos animales
neracin de estrategias de terapia gnica somtica
de granja. Adicionalmente, durante estos aos,
seesperacongranatencin.Paratodoellodebere
otrastecnologasfueronapareciendo,talescomoel
mosaprenderamejorarlas,areducirelmosaicismo
uso de lentivirus, transposones, sistemas de expre
consubstancial al sitio de edicin y las alteraciones
sin gnica y de mutacin inducibles, cromosomas
no deseadas en secuencias similares hasta valores
artificiales o clulas espermticas para conseguir
aceptables,quepermitansuutilizacinsegurayefi
trasladar las alteraciones genticas al genoma
cazenlaclnica.
deseado.
La modificacin gentica de animales es posible
Tal aparente variedad de mtodos de modificacin
desde hace casi 40 aos. A finales de los aos 70 y
gentica puede clasificarse esencialmente en dos
duranteladcadadelos80sedesarrollaronlasprin
categoras,que,desdelosiniciosdelaedicingni
cipales tcnicas que nos han permitido abordar ex
cahanpreocupadoalosinvestigadores.Lasdosca
perimentosdemodificacingenticaenclulasyen
tegoras se refieren a decidir si la edicin del geno
muchas especies animales. La microinyeccin de
ma ocurre al azar o de forma dirigida. En un lugar
ADN en proncleos de vulos fertilizados de ratn,
indeterminado del genoma, fuera del control del
establecidafundamentalmenteporRalphBrinster,o
investigador, o en secuencias especficas, seleccio
el uso de clulas troncales pluripotentes embriona
nadasporelinvestigador.Huelgadecirquelaprefe
riasparalainactivacinespecficadegenesmedian
rencia de los investigadores fue siempre poder ge
te procedimientos de recombinacin homloga, lo
nerar cambios en el genoma de forma controlada,
grada tras los esfuerzos independientes de Martin

GENMICA EN MEDICINA. Una gua prctica. 63


EDICIN DEL GENOMA

decidiendo dnde debera ocurrir la edicin gnica zonadehomologa,ycombinndoloconunsistema


deseada.Perolarealidaderabiendistinta,dadoque de seleccin positiva (resistencia a neomicina)
la modificacin dirigida en secuencias concretas (Smithiesetal.,1985).Estacontribucinesencialle
ocurraconfrecuenciasmuybajasenclulasdema valdrasumerecidopuestoenlaternadelNobelde
mfero, entre 104 y 106, poco operativas para su 2007perotambin sera muyimportanteparatoda
aplicacin rutinaria. Por el contrario, los mtodos la evolucin de tecnologas de edicin del genoma
msasequiblesyeficacesdemodificacingentica, quevendranacontinuacin,yquenoseentienden
confrecuenciasdelordende101 102,progresaban sinelpapelprimordialdeSmithies,elverdaderoes
al azar, lo cual repercuta en los resultados que se tudioso de los mecanismos de recombinacin ho
obtenan, fuertemente dependientes del sitio del mlogaqueoperanennuestrasclulas.Esderecibo
genoma donde la modificacin gentica hubiera pues rendirle el homenaje que su figura merece
ocurrido sin el control de los investigadores cuandosehabladeedicindegenomas.
(Fernandezetal.,2017).
Oliver Smithies, recientemente fallecido (1922 TECNOLOGASDEEDICINDELGENOMA
2017), fue el primero quedecidiinvestigar los me
(MEGANUCLEASAS,ZFN,TALENYCRISPR)
canismos de modificacin gentica mediante re
combinacin homloga, aprovechando la similitud Diezaosmstarde,traslapublicacindeSmithies,
de secuencias entre los fragmentos de ADN a inte un grupo de investigadores franceses del Instituto
graryellocusdedestino.En1985consiguiaumen Pasteur decidi utilizar una enzima de restriccin
tarlafrecuenciademodificacingenticaenelgen singular,lameganucleasaSceI,derivadadelevadu
de las betaglobinas, de forma dirigida, en clulas ras(Saccharomyces cerevisiae),quecortabaelADN
humanas,hasta103,abriendoelplsmidoquecon en secuencias especficas de gran longitud
tenalassecuenciashomolgas,precisamenteenla (alrededor de 20 nucletidos), para demostrar que

64 GENMICA EN MEDICINA. Una gua prctica.


EDICIN DEL GENOMA

uncortededoblecadena,laaperturadelgenomaen los dedos de zinc, y capacidad de corte de la doble


un lugar especfico, catapultaba la eficiencia de re cadena del ADN, garantizada por el dominio endo
combinacinhomlogaenesepuntohastafrecuen nucleasadelenzimaderestriccinFokI,lasllamaron
ciasaltsimas(101)parecidasalasobtenidasporlas nucleasas de dedos de zinc, o, simplemente ZFN
tecnologas que modificaban el genoma al azar (porsussiglaseningls).Sinembargo,estatecnolo
(Choulika et al., 1995). Sin probablemente intuir la ga tan prometedora, no llegara a triunfar ni a uni
transcendencia de su experimento, estos investiga versalizarse. Una empresa retena los derechos de
dores haban lanzado la carrera del desarrollo de explotacindelasZFNyobligabaacualquierinves
herramientas para la edicin del genoma. Efectiva tigador interesado a establecer una colaboracin
mente, otros investigadores desarrollaron meganu conellosoacomprarlosreactivosaunprecioconsi
cleasas programables, mutando las enzimas silves derable.Y,loqueeratodavamspreocupante,ce
tres,hastaconseguirnuevasendonucleasasdedise diendo a la empresa posibles derechos de explota
o que cortaran en secuencias predefinidas, am cinindustrialdelaclulaoanimaleditadomedian
pliandoelrangodeaccindeestasprimerasherra te estas nucleasas. Ha habido excelentes diseos
mientasdeedicingentica. experimentales y estupendos desarrollos cientficos
Aproximadamente por el mismo tiempo, de forma basados en ZFN, y, debido a ser prcticamente las
convergente,seempezaronainvestigarycombinar primeras (aunque tras las meganucleasas) herra
losdominiosdeuninaADNqueaportabanlosfac mientas de edicin gnica disponibles, no es sor
tores de transcripcin de la familia de los dedos de prendenteencontrarlasenlosprimerosensayoscl
zinc, con dominios proteicos de nucleasas, obteni nicos aprobados para terapia gnica somtica. Sin
dos de enzimas de restriccin bacterianos, como embargo,lanecesidadderecurriraunsistemapro
FokI.Alasprotenasquimricasresultantes,queau pietario ha limitado extraordinariamente su uso, y
naban especificidad de unin al ADN, mediada por las herramientas posteriores han acabado prctica

GENMICA EN MEDICINA. Una gua prctica. 65


EDICIN DEL GENOMA

edicin gentica. Nuevamente el corte del ADN se


dejaba en manos del mismo dominioendonucleasa
deFokI.Sinembargo,muyprontosecomprobque
la aparente versatilidad en la construccin de cual
quier TALEN tena un peaje inesperado: la mayora
deTALENresultantesnoparecandirigirelcortedel
ADNcomoseesperaba.Habaqueanalizarmuchas
de ellas, con el consiguiente trabajo, antes de en
contrarunaquefuncionaratalycomoestabaprevis
to(Seruggia&Montoliu,2014).
A principios de 2013 dos estudios publicados en
Science por parte de cientficos del rea de Boston,
lideradosrespectivamenteporFengZhangyGeorge
Church, demostraron que una nueva generacin de
herramientas de edicin gnica, denominadas
CRISPRCas9, o CRISPRCas o, simplemente
CRISPR, eran capaces de dirigir la edicin de geno
Esquema de los principales sistemas de edicin del mas de clulas humanas y de ratn. Estos experi
genoma. mentos pioneros vieron la luz tras la propuesta de
utilizacin del sistema CRISPR, uno de los sistemas
menteporarrinconarlas(Josaetal.,2016). dedefensaqueusanlosprocariotas(bacteriasyar
TraslasZFNllegaronlasTALEN,acrnimoeningls queas)paradefendersedelataquedevirusyplsmi
de nucleasas efectoras parecidas a activadores dos,comoherramientasparalaedicingentica.La
transcripcionales,querepresentaronuncambiosig descripcindeloselementosnecesariosparaqueel
nificativo en el diseo de los experimentos de edi sistema CRISPR funcionara como herramienta de
cin gnica. Las TALEN derivan de protenas exis edicin gnica se la debemos a Emmanuelle Char
tentes en la naturaleza (las ZFN eran totalmente pentieryJennifer Doudna.Lapropuestadeuso del
quimricas y artificiales), en patgenos de plantas, sistemaCRISPRparalaedicingnicalacomparten
que las usan para tomar el control transcripcional con Virginijius Siksnys. En cualquier caso, nada de
delgenomadelaclulavegetalqueinfectan.Anali todo esto hubiera sido posible sin la intervencin
zandomuchasdeellas,losinvestigadoresllegarona visionariadeFranciscoJ.MartnezMojica,microbi
deducir la existencia de una zona central de estas logo de la Universidad de Alicante, quien describi
protenas, hipervariable, que contena un cdigo los sistemas CRISPR por vez primera en arqueas a
sencillodeunaparejadeaminocidosconsucorres principiosdelos90.Trasmicrobilogosjaponesesy
pondientepreferenciadeuninaalgunodeloscua holandeses,quehabandescritosecuenciasCRISPR
tronucletidos:A,G,CoT.Medianteunsistemade en genomas de bacterias gram negativas y gram
clonacinmuchomseficazquelaingenieragen positivas, l las detect en arqueas y se dio cuenta
ticaclsica,denominadoGolden Gate,basadoenel delarelevanciadeunasrepeticionesquehabansi
usodeenzimasderestriccindetipoII,quebuscan doconservadasporlaevolucinengruposdeproca
una secuencia diana en el ADN pero cortan en se riotas tan distantes. Fue Mojica quien acuo el tr
cuencias adyacentes, sin importarles qu nucleti mino CRISPR y tambin quien propuso por vez pri
doshaya,lasTALENseconvirtieronrpidamenteen meraqueelsistemaCRISPReraenrealidadunsiste
las nucleasas de eleccin para los experimentos de ma inmune de defensa, adaptativo. Tras l, fueron

66 GENMICA EN MEDICINA. Una gua prctica.


EDICIN DEL GENOMA

PublicacionesCRISPRenPubMedentre2001y2016.

muchos los microbilogos, bilogos moleculares y generandouncortededoblecadenaenelADN,que


bioqumicos que, con su trabajo, acumularon evi rpidamentedebeserreparadoporlaclula,obien
dencias y hallazgos hasta permitir que las herra medianteelsistemadeunindeextremosnohom
mientasCRISPRfueranpresentadasensociedaden logos (NHEJ, en sus siglas en ingls), insertando y
2012 y usadas por vez primera en 2013 en experi delecionando nucletidos (los famosos INDELs),
mentosdeedicingenticaenclulasanimalescon hasta que aparece una microhomologa que se usa
xito(Mojica&Montoliu,2016).Trasestasprimeras pararestaurarlacontinuidaddelcromosoma;obien
publicaciones en clulas siguieron otras en organis se repara mediante la ruta dirigida por homologa
mosmodelo,enratones,enpezcebra,enratasyen (HDR,ensussiglaseningls),locualpermiteintro
muchas otras especies, quedando demostrada la ducirsecuenciasexternasavoluntadenlugarespre
plasticidadyversatilidad,ascomolaeficaciadelas cisos. La ruta NHEJ provoca mutaciones y variabili
herramientasCRISPRdeedicingentica. dad,mosaicismogenticoyfrecuentementecondu
En todos los casos, con independencia del sistema cealainactivacingnica.LarutaHDRpromuevela
deedicingenticaempleado(meganucleasa,ZFN, edicin controlada del genoma, a partir de secuen
TALEN o CRISPR) el mecanismo es similar. La nu cias exgenas aportadas al sistema, que actan co
cleasa abre el genoma en un punto determinado, momoldeenelprocesodereparacin.

GENMICA EN MEDICINA. Una gua prctica. 67


EDICIN DEL GENOMA

ELFUTURODELAEDICINDELGENOMA ydemssecuenciasindispensablesparaelfunciona
miento ptimo de los genes. Su estudio funcional
Afinalesde2016,unartculoderevisinenlarevista
era,hastalaactualidad, algo imposible.La existen
Science pona el acento del xito de las herramien
cia de secuencias repetitivas por doquier inhabilita
tasCRISPRenlavelocidaddeobtencindenuevos
bacualquierestrategiatradicionalbasadaenrecom
mutantes(Cohen,2016).Ymostrabaunafiguraenla
binacin homloga. Sin embargo, con la aparicin
quecomparabacmo,aproximadamente,lasestra
de las nucleasas de edicin y, especialmente las
tegiastradicionalesdeinactivacingnicamediante
CRISPR, apenas necesitamos encontrar (p.e. utili
recombinacin homolga en clulas troncales em
zando recursos bioinformticos) dos secuencias de
brionales pluripotentes de ratn (clulas ES, del in
20nucletidosnicasqueseubiquenenposiciones
glsEmbryonic Stem cells)requerandeunos18me
flanqueantes al elemento regulador que deseamos
sesdetrabajo,mientrasqueelusodeunaestrategia
investigar para que podamos plantear una estrate
CRISPR para inactivar el mismo gen poda acome
gia de delecin basada en dos guas de ARN dirigi
tersehoyendaenunos6meses,estoes,tresveces
das a estas microsecuencias nicas que, normal
ms rpido. Siendo aproximadamente cierto este
mente, dirigirn con xito la eliminacin de la se
cuadro(aunqueolvidabaexplicarquelamayorade
cuencia interna y permitirn analizar el fenotipo de
ratones mutantes obtenidos mediante CRISPR son
laclulaoanimalresultante.Ennuestrolaboratorio
mosaicosy,porello,serequierenvariosmesesadi
hemosaplicadoconxitoestaestrategiaparaesta
cionales,frecuentementehasta6meses,paracruzar
blecer la relevancia de elementos reguladores del
los ratones fundadores, segregar los alelos intere
locusdelatirosinasaderatnysuposiblepapelen
santesypoderanalizarlosenprofundidad)personal
la enfermedad rara de albinismo (Seruggia et al.,
mente creo que lo relevante de las estrategias
2015).Laaplicacinsistemticadelasherramientas
CRISPRnoespoderabordarexperimentosmsrpi
CRISPR en el estudio funcional de todo el genoma
damente,sinopoderabordarexperimentosquean
ser una de las aplicaciones ms interesantes de la
teriormente, sencillamente, no podan acometerse.
edicingenticaenelfuturoinmediato.
ste y no otro es el gran xito de las herramientas
CRISPR(y,de,engeneral,cualquieradelossistemas Elintersporlaepigenticaestaumentandoame
de edicin gentica anteriores, pero especialmente dida que vamos descubriendo cmo determinadas
las CRISPR, por su sencillez, robustez y eficacia), la protenas y pequeas molculas que interaccionan
posibilidad que nos ofrecen de hacer ahora experi conlacromatinamodulanlaexpresindelosgenes
mentosquehastafecharecienteeraninabordables. de forma indirecta, cambiando su nivel de metila
Comentaralgunosejemplosacontinuacin. cindelDNA,promoviendolacondensacinorela
jacindellocus,propiciandoointerfiriendolainter
ElusodelasherramientasCRISPRhaposibilitadoel
accin de determinadas secuencias con protenas
anlisis funcional del genoma no codificante, el ge
nucleares,msalldelainformacingenticacodi
noma intergnico. Este representa la inmensa ma
ficadaenlasecuenciadelDNA.Hastafechasrecien
yoradelgenoma(98%),frentealosexiguos2%en
tes, la modulacin de los efectos epigenticos era
losqueseacumulanlosgenestalycomoloscono
posible pero necesariamente implicaba alterar el
cemos. En el genoma no codificante encontramos
patrndeexpresindemuchosgenes,alusarsedro
mltiples familias de elementos mviles
gas inespecficas, que activaban o silenciaban mu
(transposones y retrotransposones) y diversos gru
chosgenesalavez.Actualmentepuedenusarsever
pos de secuencias repetitivas, pero tambin encon
sionesde lanucleasa Cas9inactivasdesde elpunto
tramos los elementos reguladores de la expresin
de vista de la actividad endonucleasa (dCas9, del
gnica: potenciadores y silenciadores transcripcio
ingls dead Cas9), pero que mantienen intacta su
nales,especficosdetejidootipocelular,aisladores

68 GENMICA EN MEDICINA. Una gua prctica.


EDICIN DEL GENOMA

LO RELEVANTE DE LAS ESTRATEGIAS


CRISPR NO ES PODER ABORDAR EXPERIMENTOS
MS RPIDAMENTE, SINO PODER ABORDAR
EXPERIMENTOS QUE ANTERIORMENTE,
SENCILLAMENTE, NO PODAN ACOMETERSE.

GENMICA EN MEDICINA. Una gua prctica. 69


EDICIN DEL GENOMA

capacidad para situarse encima de secuencias con inactivacinsistemticadelamayoradegenesdel


cretas, dirigidas por guas ARN especficas. Acom genomadeunmamferomodelo,delratn(Meehan
plejandodCas9condominiosefectoresdeprotenas et al., 2017). Sin embargo, todas estas estrategias
activadoras(comoporejemplop300),sepuedecon tienen un problema fundamental. Apenas existen
seguirreactivargenesdeformaespecfica,dirigien personas que carezcan del primer exn de un gen,
do la dCas9p300 a los potenciadores transcripcio enlasqueseastalacausadesucondicingentica
nales conocidos (Hilton et al., 2015). La posibilidad o enfermedad rara congnita. Las mutaciones que
dealterarelcomportamientoepigenticodelosge encontramos al diagnosticar genticamente a pa
nes de forma especfica, reactivando o silenciando cientessoninsercionesodelecionesdeunoopocos
genesavoluntad,esalgoquesolamentehapodido nucletidos, pequeas duplicaciones o inversiones,
hacersetrasincorporarelusodelasherramientasde que, sin embargo, son suficientes para promover el
edicingentica,comolasCRISPR,aestosaborda cambiodeunaminocidoesencialparalafuncinde
jesexperimentales.Estesersindudaotrograngru laprotena,oqueprovocanelcambiodefasedelec
podeaplicacionesfuturasdelasCRISPR. turay/olaaparicinprematuradecodonesdeparo,
Noshemos pasadoms de 30 aos generandomu locualacabagenerandoprotenasalteradas,trunca
tantesespecifcosengenesderatnyotrasespecies das, que determinan la patologa subyacente. Es
animales modelo. Aplicando estrategias tradiciona aqu donde las herramientas CRISPR tambin han
les de inactivacin gentica basadas en recombina llegadoparaquedarse,paraabrirunfuturoinespera
cin homloga en clulas ES. Habitualmente esta do en la generacin de nuevos modelos celulares y
inactivacinimplicabalaeliminacindeunexndel animales que reproducen, fielmente, las mismas
gen,frecuentementeelprimero,locualdetermina mutaciones previamente detectadas en los pacien
balainterrupcindelatranscripciny/oladesapari tes (Birling et al., 2017). Estos nuevos modelos, lla
cin delaprotenacodificadade forma muy efecti mados avatares, porque, como en la pelcula, repli
va. El uso de los sistemas Cre/LoxP de mutacin canexactamenteelgenotipodelpacienteainvesti
condicionalpermitainclusoeliminartodosaquellos gar, permiten investigar una enfermedad de forma
genes de seleccin positiva/negativa implicados en msdirecta,determinandoconmayorexactitudc
elprocesoydejarellocusdelecionado,conunexn mo las mutaciones condicionan la aparicin de sn
menos, pero aparentemente intacto, sin ms seal tomas patolgicos. Y, a su vez, permiten validar,
residual que una sola secuencia LoxP. Esta estrate sobremodelosavatar,nuevasestrategiasteraputi
giahasidopoderossimaparadeterminarlafuncin casdeunaformamsadecuada,personalizada,an
de muchos genes y por ello ha sido utilizada por el tesdesertestadasenelpaciente,conlocualgana
consorcio IMPC (International Mouse Phenotyping mosenseguridadyeneficacia.
Consortium) para acometer el megaproyecto de Lamejoragenticatradicionalenespeciesdeconsu

70 GENMICA EN MEDICINA. Una gua prctica.


EDICIN DEL GENOMA

mo,yaseanvegetalesoanimales,hageneradodu
rantelospocosmilesdeaosquellevamosaplicn
dola variedades con extraordinarias propiedades


agronmicas, pero desgraciadamente tambin
subptimasfrentealasagresionesmedioambienta
les o a los ataques de plagas o infecciones. Es fre ES IMPORTANTE
cuente haber conseguido vacas con excelente pro
duccinlcteaperomuysensiblesamastitis,mien PROMOVER UN DEBATE
trasqueotrasrazasvacunassonresistentesalain TICO, ENTRE EXPERTOS
feccin en sus glndulas mamarias, aunque con un
niveldeproduccindelechesensiblementemenor.
Y CON LA SOCIEDAD,
Losintentostradicionalesdecruzarambasvarieda PARA DISCUTIR EL USO
des intentando detectar, entre la descendencia, in RESPONSABLE DE LAS
dividuos ptimos para la produccin lctea y resis
tentesalainfeccinhandadolugaraanimalescon TCNICAS DE EDICIN GENTICA
caractersticas intermedias, al entrar en juego la SOBRE PACIENTES HUMANOS,
meiosisylasegregacindecaracteres.Unaalterna
EN EL QUE SE EVALE, CASO
tivaalamejoragenticatradicionalesahoraeluso
de herramientas de edicin gentica (Tan et al., POR CASO, POSIBLES RIESGOS
2016).Combinadaconelconocimientobiolgicode Y BENEFICIOS, ANTES
losmecanismossubyacentesligadosaloscaracteres
apreservarconsigueeditarlosgenesenlasvarieda
DE TOMAR DECISIONES
des de consumo produciendo animales (o plantas) GENRICAS QUE PODRAN
con las caractersticas deseadas y con el resto del SER IMPRUDENTES, CON LOS
genoma propio de la variedad intacto. Adicional
mente,dadoquelaedicingenticanodejahuellay CONOCIMIENTOS QUE
puedetrasladarvariantesmutantesexistentesenla TENEMOS HOY EN DA.
naturalezaresultamuydifcildenominaraestosor
ganismos resultantes como modificados gentica
mente y aplicarles la estricta legislacin de OGM.
De ah que sea tambin una fuente de innovacin
futura para nuevas empresas biotecnolgicas que
deseen mejorar especies de consumo editndolas

GENMICA EN MEDICINA. Una gua prctica. 71


EDICIN DEL GENOMA

conmutacionesyaexistentesenelmedioambiente.
Como ltimo ejemplo de aplicacin futura de las
herramientas CRISPR de edicin gentica, tengo
quereferirmetambinalimpulsognico(delingls
gene drive),unaestrategiaenlaqueunasecuencia
de ADN que contiene los genes para las guas de
ARN y el gen de la nucleasa Cas9, flanqueada por
secuenciashomlogasdelgenainactivar,promueve
espontneamente su insercinenlos dos alelosdel
gen,lograndosubvertirelordenMendelianoycon
seguir que todos los descendientes de un animal
expuesto a uno de estos cassettes autoreplicantes
acabenconvirtindoseenhomocigotosmutantesen
unasolageneracin.Laaplicacindeestrategiasde
impulsognicoenelcontroldeplagasydeenferme
dades infecciosas graves causadas por insectos es


ya,yseguirsiendo,unadelasaplicacionesconma
yorfuturo(Hammondetal.,2016).

EL LMITE DE LAS EDICINDELGENOMAENLAPRCTICA


CLNICA
APLICACIONES CRISPR
Alpocotiempodedescubrirse,enlosprimerosme
NO EST MS QUE EN sesde2013,queeraposiblemodificarelgenomade
LA IMAGINACIN DE clulashumanasencultivoaparecieronlosprimeros
LOS INVESTIGADORES. comentariossobrelaposibilidaddemodificarelge
noma de embriones humanos. Esto es una aplica
cinilegalenmuchospasesque,comoEspaa,fir
maronelconveniodeOviedoen1997,queimpidela
transmisin de modificaciones irreversibles del ge
nomahumanoaladescendencia.Peroesposibleen
el resto de pases que, como Reino Unido, China,
Estados Unidos de Amrica y Japn, no firmaron
dichoconvenio.En2015unequipochinocomparti,
porvezprimera, susresultadosdeedicingentica
conCRISPRenembrioneshumanosdescartadosde
fertilizacininvitroporsertriploides(resultadodela
entradadedosespermatozoidesenunvulo)(Liang
etal.,2015).Losresultadosobtenidos,quecausaron
mucho revuelo meditico, en realidad reproducan
fielmenteloqueyasabamosyhabamosconstata
do en otras especies modelo (ratn, rata, pez ce
bra). Esto es, que era posible obtener los alelos

GENMICA EN MEDICINA. Una gua prctica.


EDICIN DEL GENOMA

mutantes o corregir las mutaciones deseadas, pero llados en EE.UU. permiten sustentar una edicin
que la mayora de embriones resultantes eran mo gentica en embriones humanos sin apenas mosai
saicos, portadores de numerosos alelos distintos, cismoysinlamodificacindetectabledesecuencias
debido a la activacin de la ruta de reparacin de genmicas parecidas a la diana (Hong et al., 2017).
unindeextremosnohomlogos(NHEJ),yquepo Estos resultados debern confirmarse en otros ge
dandetectarsealteracionesnodeseadasensecuen nesyenfermedades.
cias parecidas del genoma. Otros dos equipos en Personalmente, sigo pensando que el futuro de las
Chinaconfirmaronestaobservacininicialyrecien herramientasdelaedicingenticaenlaclnicaest
temente los resultados parecen haber sido mejora eneldesarrollodenuevasestrategiasdeterapiag
dosporunequiponorteamericano. nica somtica, potencialmente aplicables a muchos
Siendopotencialmenteinteresantelaedicingen pacientes de enfermedades congnitas, raras o no,
ticaenembrioneshumanos(siempreycuandofuera incurables. Diversos ejemplos exitosos, ya aborda
para una buena causa, para un motivo razonable, dos en estudios preclnicos son muy prometedores.
como la eliminacin de alelos mutantes causantes Aprincipiosde2016conocimostresinvestigaciones
de enfermedades degenerativas y/o mortales para independientes en las que los tres equipos usaban
las que hoy en da no tenemos cura, tras la evalua un modelo de ratn de distrofia muscular de Du
cin caso por caso de los beneficios y riegos de la chenneparavalidarsusestrategiasdecorreccindel
intervencin gentica y, por supuesto, no para la mismo mediante reactivos CRISPR, encapsulndo
potenciacindecaracteresdeeleccin)creoqueno los en vectores virales adenoasociados (AAV), y
es la aplicacin futura de las herramientas CRISPR aprovechando los mltiples serotipos existentes,
en la prctica clnica. La existencia de mtodos de contropismosdiversos,capacesdeentrarpreferen
rutina actuales, robustos y eficaces, como el diag tementeendeterminadostiposcelulares(Nelsonet
nstico gentico preimplantacional (DGP) hace in al.,2016).
necesariausarlaedicingenticaparatratarenfer Tras estos primeros trabajos de terapia gnica so
medadescongnitasmonognicas,puesesgeneral mticaaparecieronotrosconfirmandolautilidadde
mente posible seleccionar aquellos embriones que estainnovadoraestrategiaenotrosmodelosanima
no portan el alelo mutante. Solamente en un muy lesdediversasenfermedades(tirosinemiaheredita
reducido nmero de casos cabra plantearse la edi ria de tipo 1, deficiencia en ornitin trascarbamilasa,
cingenticaenembrioneshumanos.Porejemplo, catatara congnita, retinosis pigmentaria, amauro
en enfermedades graves, degenerativas o fatales, sis congnita de Leber, enfermedad de Hunting
causadaspormutacionesdominantesenlasqueun ton) usando AAVs y tambin mediante sistemas
miembrodelaparejafuerahomocigotoparalamu novirales,nanopartculas, que muyprobablemente
taciny,porlotanto,transmisorobligatoriodelale sernelfuturoparalaentregadereactivosCRISPRa
lomutanteatodasudescendencia,queirremisible lasclulasdiana.Enmenosdedosaossehanacu
mente desarrollara la enfermedad. O en casos de muladonumerososejemplos(enmodelosanimales,
parejasenlasquelosdosmiembrossonhomocigo preclnicos)quevalidanlaaproximacinteraputica
tosparalamutaciny,entonces,todossushijosse somticadelaedicingenticamediadaporlashe
guiran siendo homocigotos y desarrollaran la en rramientas CRISPR. Es posible que pronto veamos
fermedad.EnestosdoscasoselDGPnoestilypo unensayoclnicoaprobadoconCRISPRparaeltra
dravalorarselaedicingentica,siestuvieralegal tamientodealgnpacientedeenfermedadcongni
mente permitida, si el experimento fuera aprobado ta.Porelmomento,ningunapersonahasidotrata
y si se hubieran validado los parmetros de seguri da con estas estrategias. Solamente tenemos noti
dad yeficacia.Losrecientes experimentosdesarro

GENMICA EN MEDICINA. Una gua prctica. 73


EDICIN DEL GENOMA

ciasdeuntratamientoex vivo,enChina,enelque genomaeditadoparaincrementarsuvalorganadero


unaaproximacinCRISPRsehausadoparainactivar comoproductorasdecarneyleche,graciasaunex
elgenPD1 enlinfocitosdeunpacienteavanzadode perimento desarrollado en Montevideo (Uruguay),
cncer, para promover una mejor respuesta anti hasta las propuestas ms recientes e innovadoras
tumoraldelsistemainmunedelpaciente.Aproxima que implican al sistema CRISPR en diagnstico ge
ciones similares ya han sido aprobadas para ZFN y nticoo enlacodificacin deinformacineimge
TALEN. nesengenomasbacterianos.Ellmitedelasaplica
Sin embargo, debemos seguir explorando vas que cionesCRISPRnoestmsqueenlaimaginacinde
permitanreducirelmosaicismogenticoylaposible los investigadores. La plasticidad del sistema
modificacindesecuenciassimilaresanivelesacep CRISPR permite su inclusin en experimentos que,
tables y, en cualquier caso, creo que es importante hastaahora,noeransencillosdeabordaro,directa
promover un debate tico, entre expertos y con la mente,eranimposiblesdeacometer.
sociedad,paradiscutirelusoresponsabledelastc Para terminar, un apunte microbiolgico. La exis
nicasdeedicingenticasobrepacienteshumanos, tencia de centenares de miles si no millones de es
enelqueseevale,casoporcaso,posiblesriesgosy peciesdebacteriasyarqueas,portadorasdenuevos
beneficios,antesdetomardecisionesgenricasque sistemas CRISPR todava por identificar, garantiza
podranserimprudentes,conlosconocimientosque queelfuturoestarrepletodenuevasherramientas
tenemoshoyenda.Enestadireccin,ungrupode de edicin gentica, cada una con sus propiedades
investigadoresymiembrosdecomitsdeticainsti especficas, distintas. Descubrir estos nuevos siste
tucionaleseuropeospromovemoslacreacindeun masCRISPRyadaptarlosparasuusoenbiomedici
comiteuropeodondepudierandebatirseestoste naserunodelosretosmsapasionantesquetiene
mas(Chneiweissetal.,2017). lamicrobiologaantes.

CONCLUSIONES BIBLIOGRAFA
ElsistemaCRISPRhademostradoserelmsvers BirlingMCetal.Modelinghumandiseaseinrodents
til,sencillodeusar,eficaz,rpidoybaratodetodas by CRISPR/Cas9 genome editing. Mamm Genome.
las herramientas de edicin gnica conocidas hasta 2017Jul4.doi:10.1007/s003350179703x.
el momento. De ah su inusitadamente rpida uni Chneiweiss H et al. Fostering responsible research
versalizacin y su robustez, la que permite que un withgenomeeditingtechnologies:aEuropeanpers
experimento de edicin gentica con CRISPR sea pective. Transgenic Res. 2017 Jul 20. doi: 10.1007/
extraordinariamente sencillo de abordar y ejecutar s112480170028z.
y,enparticular,queparaellonoserequieransofisti
ChoulikaAetal.Inductionofhomologousrecombi
cados laboratorios ni caros equipamientos. Cual
nation in mammalian chromosomes by using the I
quierlaboratoriodebiologamolecularmnimamen
SceIsystemofSaccharomycescerevisiae.Mol.Cell.
tedotadoyhbilentcnicashabitualesdeingenie
Biol.1995;15:196873.
ra gentica es capaz de plantear, concebir y desa
rrollar un experimento de edicin gentica con xi Cohen J. Mice made easy. Science. 2016 Nov 4;354
to. (6312):538542.

Son numerossimas las aplicaciones que continua Fernndez A et al. A history of genome editing in
mente pueblan las publicaciones y extienden los mammals. Mamm Genome. 2017 Jun 6. doi:
usosdelasherramientasCRISPRenbiologa,biotec 10.1007/s0033501796992.
nologa y biomedicina. Desde unas ovejas con su Hammond A et al. A CRISPRCas9 gene drive sys

74 GENMICA EN MEDICINA. Una gua prctica.


EDICIN DEL GENOMA

tem targeting female reproduction in the malaria WilmutIetal.Viableospringderivedfromfetaland


mosquitovectorAnophelesgambiae.NatBiotechnol. adult mammalian cells. Nature. 1997 Feb 27;385
2016Jan;34(1):7883. (6619):8103.
HiltonIBetal.EpigenomeeditingbyaCRISPRCas9
basedacetyltransferase activates genes frompromo
ters and enhancers. Nat Biotechnol. 2015 May;33
(5):5107.
HongMaetal.Correctionofapathogenicgenemuta
tion in human embryos. Nature, 2 August 2017,
doi:10.1038/nature23305.
JosaSetal.Conceptsandtoolsforgeneediting.Re
prodFertilDev.2016Jan;29(1):17.
Liang P et al. CRISPR/Cas9mediated gene editing in
humantripronuclearzygotes.ProteinCell.2015May;6
(5):36372.
MakTW.Genetargetinginembryonicstemcellssco
res a knockout in Stockholm. Cell. 2007 Dec 14;131
(6):102731.
MeehanTFetal.Diseasemodeldiscoveryfrom3,328
gene knockouts by The International Mouse Pheno
typing Consortium. Nat Genet. 2017 Aug;49(8):1231
1238.
Mojica FJ, Montoliu L. On the Origin of CRISPRCas
Technology: From Prokaryotes to Mammals. Trends
Microbiol.2016Oct;24(10):81120.
NelsonCEetal.Invivogenomeeditingimprovesmus
clefunctioninamousemodelofDuchennemuscular
dystrophy.Science2016Jan22;351(6271):4037.
SeruggiaD,MontoliuL.ThenewCRISPRCassystem:
RNAguidedgenomeengineeringtoecientlyprodu
ceanydesiredgeneticalterationinanimals.Transge
nicRes.2014Oct;23(5):70716.
SeruggiaDetal.Functionalvalidationofmousetyro
sinase noncoding regulatory DNA elements by
CRISPRCas9mediated mutagenesis. Nucleic Acids
Res.2015May26;43(10):485567.
SmithiesOetal.InsertionofDNAsequencesintothe
human chromosomal betaglobin locus by homolo
gousrecombination.Nature.1985;317:2304.
Tan W et al. Gene targeting, genome editing: from
Dolly to editors. Transgenic Res. 2016 Jun;25(3):273
87.
GENMICA EN MEDICINA. Una gua prctica. 75
GLOSARIO
ALELOS: Cada una de las formas posibles de un gen o GENOTIPO: Coleccin de genes de un individuo. La ex-
fragmento de ADN, que se sitan en la misma localiza- presin del genotipo contribuye a la manifestacin de
cin del genoma. rasgos de un individuo. A nivel ms concreto se refiere al
conjunto de dos alelos heredados de los progenitores en
ANOTACIN DEL GENOMA: Correlacin de informacin una posicin concreta del genoma.
biolgica a secuencias de ADN.
GWAS: Estudios de asociacin del genoma completo.
ARN MENSAJERO: Molcula de cadena sencilla de ARN, Estudios que evalan el genoma de un nmero elevado
obtenida como resultado de la transcripcin, que contie- de personas con el fin de detectar variacin gentica
ne la informacin para la secuencia de aminocidos de relacionada con rasgos o condiciones concretas.
una protena.
HALLAZGOS INESPERADOS O SECUNDARIOS: Resulta-
CNV: Variacin del ADN consistente en el nmero varia- dos que pueden tener informacin importane para la
ble de fragmentos concretos del ADN, bien debido a du- salud de una persona pero que no estn relacionados o
plicacin o delecin del ADN respecto al genoma de re- no son el objetivo principal de un estudio.
ferencia.
MICROARRAY: Tecnologa que permite estudiar mlti-
CRISPR-Cas9: Herramienta de edicin gnica que deriva ples genes de forma simultnea por medio de la hibrida-
de un sistema inmunolgio adaptativo empleado por los cin a molculas de ADN o ARN unidas a una superficie.
microorganismos para protegerse frente elementos ge-
nticos forneos. MPS: Massive Parallel Sequencing. Secuenciacin masiva
en Paralelo. Tipo de secuenciacin que permite el anli-
DELECIN: Tipo de variacin gentica caracterizada por sis simultneo y en paralelo de mltiples fragmentos de
la prdida de nucletidos en una posicin concreta del ADN.
genoma. Su longitud puede variar desde un nico nu-
cletido a millones de ellos. MUTACIN: Cambio en el ADN respecto a su estado ori-
ginal o secuencia de referencia.
ENFERMEDAD MENDELIANA: Un rasgo o enfermedad se
considera mendeliano cuando sigue un patrn de heren- NIPT: Non invasive prenatal test. Test prenatal no inva-
cia concreto que sugiere que est determinado por un sivo, realizado a partir del anlisis del ADN libre circulan-
nico gen, en una posicin nica del genoma. te presente en el plasma materno.

EXOMA: Parte del genoma que contiene secuencias co- NGS: Plataformas de secuenciacin masiva de cidos
dificantes de protenas. nucleicos.

FARMACOGENMICA: Estudio de los genes cuya varia- PANEL DE GENES: Coleccin de genes que se analiza de
cin influye en la respuesta a los frmacos. forma simultnea por su relacin con un rasgo concreto
o condicin.
FENOTIPO: Conjunto de rasgos observables de un indivi-
duo. Manifestacin observable del genotipo. PCR: Reaccin en cadena de la polimerasa. Tcnica que
permite amplificar fragmentos de ADN, delimitados por
GENOMA: Conjunto de informacin gentica de un orga- fragmentos cortos conocidos de la secuencia
nismo, incluido en cada una de sus clulas. (cebadores) a travs de repetidos ciclos de desnaturali-
zacin y replicacin con una ADN polimerasa.
GENOTECA GENMICA: Coleccin de clones que repre-
sentan el genoma de un organismo. En la genoteca el PENETRANCIA: Proporcin de personas que presentan
ADN est almacenado en diferentes vectores idnticos, un genotipo concreto que manifiestan evidencias del
cada uno de los cuales contiene un fragmento diferente fenotipo asociado a ese genotipo.
de ADN d etamao similar.
POLIMORFISMO: Variacin en una secuencia particular

GENMICA EN MEDICINA. Una gua prctica. 77


del ADN.

SECUENCIACIN: Obtencin de la secuencia de nucleti-


dos de un fragmento de ADN o genoma.

SECUENCIACIN MASIVA: Tecnologa de secuenciacin


del ADN que permite analizar de forma rpida y simult-
nea grandes fragmentos del genoma.

SNP: Polimorfismo en un nico nucletido. Variacin de


la secuencia del ADN que se produce en un nico par de
bases.

SMRT: Single Molecule Real Time. Tecnologa de secuen-


ciacin en tiempo real basada en la lectura de una nica
molcula de ADN.

TRADUCCIN: Proceso de sntesis de una secuencia de


aminocidos o pptido a partir de un ARN mensajero.

TRANSCRIPCIN: Proceso de sntesis de ARN a partir del


ADN.

UTILIDAD CLNICA: Valor del resultado de una prueba


para proporcionar asistencia clnica (en diagnstico, pro-
nstico o tratamiento) y mejorar la situacin del pacien-
te.

VALIDEZ CLNICA: Probabilidad de que el resultado de


una prueba concreta prediga correctamente la presencia
o ausencia de enfermedad o su riesgo.

VARIANT CALLING: Proceso en el que se identifican las


variantes de una secuencia de ADN concreta respecto de
la secuencia de referencia

WES: Secuenciacin del exoma completo. Tipo de se-


cuenciacin que analiza el exoma o parte del genoma
que codifica para protenas.

WGS: Secuenciacin del genoma completo. Tipo de se-


cuenciaicn que analiza el genoma completo.

Microbioma: Colecin de microorganismos, y su respec-


tivo material gentico, que vive en asociacin con un
organismo

78 GENMICA EN MEDICINA. Una gua prctica.

Вам также может понравиться