Академический Документы
Профессиональный Документы
Культура Документы
2017.Delosautores
MedigenePressSL.
Editores:ManuelPrezyAmparoTolosa
Revisintcnica:LucaMrquezMar nez
Diseo:MedigenePressSL.
Editorial:MedigenePressSL.C/Agus nEscardino9.CP:46019Paterna,Valencia,Espaa.
ISBN:978-84-947865-0-1
DepsitoLegal:V27262017
MedigenePressS.L,sustrabajadoresycolaboradoresnoasumenningunaresponsabilidadderivadadelusoincorrectodelainformacinfacilitadaenlapresentegua,odela
presenciadeerroresuomisiones.Lamencindecualquiermtodo,terapia,tratamientooservicionodebeserconsideradounagaran aparasuu lizacin.Elcontenidode
Genmica en Medicina. Una gua prc ca eneunanicanalidadforma vaeinforma va.Determinareltratamientoadecuadoparaunpacienteesresponsabilidaddelos
mdicosyfaculta vos.MedigenePressS.L.recomiendaconsultardeformaindependienteotrasfuentes,ascomoaotrosprofesionalesantesdeconarenlaabilidaddeun
mtodooprotocolo.
INTRODUCCIN
2
ManuelPrezyAmparoTolosa
DISEODEEXPERIMENTOSDEGENMICAENMEDICINA
4
LaiaPedrolaeInsCalabria
SECUENCIACINMASIVA:DELADNALOSDATOS
CarolinaMonz,JosMiguelJuanes,PabloMarnGarca,FelipeJavier 14
Chaves,VicenteArnauLlombart,AnaBrbaraGarcaGarca
ANLISISDEDATOS
26
MJosLpezSnchez
INTERPRETACINDEDATOSGENMICOS
40
JosLuisIvorraMartnez
LAGENMICAENLAPRCTICACLNICA
50
scarPuig
EDICINDELGENOMA
64
LlusMontoliu
GLOSARIO 76
1
INTRODUCCIN
Desde el descubrimiento de la estructura del cienteytomardecisionessobresutratamiento.
ADN y la identificacin de los primeros genes Sinduda,existentodavaalgunosretosylimita
responsablesdealgunosrasgosypatologashu cionesporsuperar,peroelavancedelagenmi
manosquedclaroquenuestromaterialheredi caesyaimparable.
tario contiene gran parte de las claves de la sa Comopartedenuestramisindedifundirelco
ludylaenfermedadhumanas.Iniciadoen1.990, nocimiento de la Gentica Mdica y Genmica,
el Proyecto Genoma Humano destinado a leer desde GenticaMdicaNewshemos creado una
las instrucciones completas de una persona se guasobrelaGenmicaenMedicina,queincluye
convirtienunodelosmayoresretoscientficos las nociones bsicas sobre cmo se genera la
y tecnolgicos del momento y proporcion las informacin genmica,cmoseanalizaeinter
primeras pistas del potencial que poda tener preta y cmo puede ser utilizada en la prctica
conocernuestrogenomaenelcampodelame clnica.Conestaguapretendemosquenuestros
dicina.Msde20aosdespus,eldesarrollode lectoresconozcanqutiposdeanlisisgenmi
las tcnicas de secuenciacin de ltima genera cosexistenyeltipodeinformacinquepropor
cin ha impulsado el avance de la genmica en cionacadaunodeellos,ademsdecmoseob
laprcticaclnica,detalformaquelaideatradi tiene la informacin genmica, los diferentes
cional de medicina personalizada como una mtodospara analizarlay extraerlos datosque
aproximacin al paciente que tiene en cuenta puedanserutilizadosenunmbitoclnico,ypor
sus caractersticas, necesidades y preferencias ltimo, qu mtodos existen en la actualidad
especficas,haempezadoacambiarparaincluir paramodificarelgenomahumano.
tambin la informacin gentica como variable
ConfiamosenquelaguaGenmica en Medici
degranvalor.
na:unaguaprcticanospermitafamiliarizaros
La genmica se ha convertido en una herra conestainteresantereadelacienciaylasalud,
mientamsparaelprofesionalmdico.Unahe y esperamos que compartis nuestro entusias
rramientaquedebeconocerysaberutilizarpara moporestanuevamedicinadelfuturoqueyaes
ofrecer el mejor cuidado a los pacientes. Del una realidad en muchos mbitos de la prctica
mismo modo, numerosos ensayos clnicos y de clnica.
investigacinincluyeninformacingenmicade
personas sanas y afectadas por enfermedades, Manuel Prez Alonso
lo que ha llevado a que nuestro conocimiento Amparo Tolosa
delgenomahumanoseamayordeloquenunca
ha sido, al igual que su utilidad para descubrir
nuevos genes implicados en enfermedades o
mecanismos biolgicos relacionados. Nos en
contramospues,enunmomentonico.
Subidosahombrosdelosgigantesqueiniciaron
el camino desde el estudio del ADN al estudio
del genoma y su interpretacin en el rea de la
medicina,hoyendayapodemosvislumbraruna
medicinadondelainformacingenmicadeuna
persona sea utilizada para diagnosticar un pa
INTRODUCCIN alasnuevasestrategiasdesecuenciacindetercera
generacinqueutilizantecnologaSMRT(single mo
ElProyectoGenomaHumano,juntoconeldesarro lecule real time sequencing).Estatecnologasebasa
llodetecnologasmicasdealtorendimientocomo principalmente en la lectura de la hebra molde del
laNext Generation SequencingoNGS,hapermitido DNA,llevandoallmitelosavancesdelananotecno
una rpida evolucin del campo de la genmica. loga y de la microscopa de fluorescencia. De esta
Graciasaldesarrollodeestasnuevastecnologasya manera,seconsiguenanalizarhebrasdemayorlon
laimplementacindeprogramasbioinformticosde gituddemaneraindividualysinnecesidaddeampli
anlisis de datos, podemos abordar experimentos ficacin previa. Adems de todas las ventajas rela
genmicos que hace poco ms de una dcada eran cionadas con el coste y la velocidad de secuencia
inasumibles. El uso de datos genmicos ha supues cin,conestatecnologaesmuchomsfcilensam
to, por tanto, una revolucin tanto a nivel mdico blarlosgenomas,siendolasecuenciacinde novo su
comocientfico. principalobjetivo.
Los datos genmicos analizados pueden alcanzar AunquelasplataformasdeNGSdifierenenlatecno
desdegenomascompletosyexomasdirigidoshasta loga utilizada, todas ellas comparten la capacidad
gruposdegenesounsologen.LaNGSpermitede de secuenciar moldes de ADN amplificados clonal
tectarvariacionesdeunsolonucletido(SNVs),va mente. La amplificacin se lleva a cabo sobre ADN
riaciones en nmero de copias (CNVs), inserciones, inmovilizadoenunasuperficieslida(nanopartcula
deleciones, y traslocaciones. As mismo, podemos esfricaobead),quesedepositaenelfondodelos
obtener perfiles de expresin gnica, nuevos trans nanopocillosdeunaplaca(chipoflowcell)enlosque
critos, variantes que afecten a sitios de splicing, se sellevaracabo lareaccinde secuenciacin.Esto
cuenciacin de ARN no codificante (ncARNnc), etc. permitelalecturaenparalelodemillonesdesecuen
Tambines denotableimportancialadeteccin de ciasylareduccindrsticadeltiempoydelcostede
variantesdebajafrecuencia,pocorepresentadasen secuenciacin debido a la disminucin de la canti
la muestra analizada y por tanto indetectables me dad de reactivos necesarios en estas nanoreaccio
diante secuenciacin Sanger, como ocurre en mu nes.Porotrolado,lagrancantidaddedatosgenera
chostiposdecnceryenelcribadoprenatalensan dos en este proceso ha supuesto un gran reto para
grematerna. ingenieros y bioinformticos, que han tenido que
Aunque es mucha la informacin existente sobre desarrollarprogramasespecficosdeanlisisdefcil
estas nuevas tecnologasgenmicas ysu aplicacin manejo.
al diseo de experimentos, este captulo pretende La correcta interpretacin de la informacin gen
revisardeformaclaraysencillalasprincipalesopcio micaobtenidamedianteestastcnicasesunodelos
nesactualmentedisponiblesparaeldiseodeexpe pasosmscrticosdelaNGS.Paraello,esnecesaria
rimentosengenmica,profundizandoenlastecno la participacin de bioinformticos y analistas de
logasdesecuenciacinNGS. NGSascomodeespecialistasengenticahumana
NextGenerationSequencing(NGS) ybiologamolecularquepuedandeterminarlasim
plicacionesclnicasymolecularesdelasalteraciones
Enestaltimadcada,sehaevolucionadodesdela
detectadas para un correcto asesoramiento genti
secuenciacin automtica de un mximo de 96 se
co y un posible abordaje teraputico. De no existir
cuencias de 800 nucletidos con secuenciadores de
esta interrelacin multidisciplinar, el gran potencial
primera generacin (mtodo Sanger), a la secuen
deestaherramientadiagnsticatancomplejapuede
ciacindemillonesdefragmentosdeADNconequi
resultarenunperjuicioparaelpaciente.
posdesegundageneracin(NGS).Cabemencionar
AplicacionesclnicasdelaNGS
Actualmente,enlaprcticaclnicadiariaseutilizala
NGSparaladeteccindevariantesrelacionadascon
la enfermedad. Esta tecnologa permite abordar en
un mbito clnico el estudio de un gran nmero de
genes al mismo tiempo, algo impensable hace tan
solo unos aos. La NGS juega un papel importante
en el diagnstico diferencial de enfermedades con
sntomas clnicos solapantes (ej. miocardiopata hi
pertrficavs.enfermedaddeFabry,colagenopatas,
etc.),enladeteccindevariantesdebajafrecuencia
(mosaicismos germinales o somticos) y de varian
tesqueactancomomodificadoresdelfenotipo.
LaNGShasidoampliamenteutilizadaparaeldescu
brimiento denuevos genes implicados en enferme
dades monognicas genticamente heterogneas
(sndromedeKabuki,enfermedaddeCharcotMarie GRACIAS AL
Tooth). En enfermedades complejas (autismo o DESARROLLO DE LAS
discapacidadintelectual)laNGSestsiendodegran
utilidad, tanto para el descubrimiento de nuevos NUEVAS TECNOLOGAS DE
genescomoparaladeteccindevariantesestructu SECUENCIACIN, JUNTO CON
rales y de nmero de copias (Martnez, 2017; Ng,
2010).Enestembito,lasecuenciacindelgenoma
LA IMPLEMENTACIN DE
completoesunaherramientapocodesarrolladapor PROGRAMAS BIOINFORMTICOS
el momento que est adquiriendo cada vez mayor DE ANLISIS DE DATOS,
relevancia.
SE PUEDEN ABORDAR HOY EN
Asmismo,laNGShasupuestoungranavanceenel
estudiodeenfermedadesmultignicascomoelcn DA EXPERIMENTOS GENMICOS
cer, siendo clave para establecer una medicina de QUE HACE POCO MS DE UNA
precisin en nuestro sistema sanitario. El concepto
de medicina de precisin ha cobrado especial rele
DCADA ERAN INASUMIBLES.
vancia en los ltimos tiempos debido a la creciente
necesidad de desarrollar estrategias personalizadas
paraeldiagnstico,eltratamientoyelseguimiento
de diversas enfermedades de origen gentico. La
medicina de precisin en oncologa, a travs de la
integracin de los datos clnicos, anatomopatolgi
cosymoleculares,permiteobtenerunconocimiento
ms profundo del perfil biolgico tumoral de cada
paciente y est permitiendo realizar un anlisis tu
moral a nivel molecular sin precedentes (Calabria,
2016).
6
DISEO DE EXPERIMENTOS DE GENMICA EN MEDICINA
TIPOSDEEXPERIMENTOS sarseydarlugaraprotenas.Correspondeaaproxi
madamenteel1.5%delgenomayeslapartefuncio
Actualmente existe un gran abanico de estrategias
nalmsimportantedeste.Aniveltcnico,existen
de secuenciacin NGS que pueden ser utilizadas en
distintosabordajesparasecuenciarelexoma,como
funcin de la aplicacin que se les quiera dar. En
la amplificacin previa de exones (amplicones) me
cuantoaltipodemuestradepartidatambinexiste
diantereaccinen cadenadela polimerasa(PCR)o
unagranversatilidad,yesposiblesecuenciarADNy
su captura mediante sondas especficas. Segn su
ARNprocedentesdetejidofresco,tejidoparafinado,
aplicacin en el mbito de la investigacin o en el
sangre perifrica, suero, plasma, lgrimas, heces,
clnico, se puede optar por el estudio del exoma
etc. Adems, la NGS es el abordaje ptimo para la
completo(aprox.22.000genes)obienelestudiode
secuenciacin de ADN procedente de biopsia lqui
un exoma dirigido (una seleccin concreta de estos
da,unmtodonoinvasivoqueestrevolucionando
genes),respectivamente.Elexomadirigidoseutiliza
la medicina de precisin. A continuacin describi
como herramienta de rutina en el diagnstico. La
mos diversas estrategias de secuenciacin NGS, as
secuenciacindelexomapermiteademsciertaver
comosusprincipalesventajaseinconvenientes.
satilidad en la eleccin de regiones de inters, de
Secuenciacin del genoma (Whole Genome formaquesepuedendisearexomasalacarta(por
SequencingoWGS) ejemplo,sepuedenaadiraestosdiseoslasregio
nespromotorasyreguladoras,etc.).
La secuenciacin WGS abarca el genoma completo
de un individuo, incluyendo el ADN cromosmico y DebidoaqueenunasecuenciacinWESseestudian
mitocondrial. En la actualidad, esta estrategia se un menor nmero de regiones comparado con el
utiliza principalmente en el mbito de la investiga genoma completo, es asumible obtener una mayor
cindebidoasucosteelevadoylagrancomplejidad profundidad de lectura (mayor nmero de secuen
delanlisis.Parallevaracaboestasecuenciacin,se cias por muestra) sin que el coste sea desorbitado.
necesitan secuenciadores de rendimiento muy ele Por otro lado, su anlisis e interpretacin es menos
vadonodisponiblesenlamayoradeloscentrosde complejo.Apesardeesto,paralamayoradeenfer
investigacinuhospitalesdenuestropas. medadesmendelianasbiencaracterizadasyconuna
sospecha clnica bien fundada, la relacin coste
Losestudiosdesecuenciacindegenomacompleto
eficienciadeunWESnoesptimaparasuusohabi
proporcionan una imagen completa y detallada del
tualengenticamdicayaqueobtenemosunagran
perfilgenmicodeunindividuo.Laprincipalutilidad
cantidad de informacin no aprovechable para este
de la WGS es el descubrimiento de nuevos genes
tipodeestudios.
relacionadosconunaenfermedadascomoladetec
cin de reordenamientos complejos. Estas variacio La secuenciacin del exoma permite identificar ge
nes estructurales pueden tener consecuencias tan nesyvariantespotencialmenteimplicadasenlaen
diversascomolainterrupcindegenes,eliminacin fermedadnodescritosanteriormente.Lautilizacin
deregionescodificantes,interferenciaenelprocesa de la secuenciacin WES es clave en el estudio de
mientodelARNmensajerooformacindegenesde desrdenescomplejosenlosqueexisteungrann
fusin. mero de genes implicados y tambin para llevar a
cabo un diagnstico diferencial en enfermedades
Secuenciacin del Exoma (Whole Exome cuya clnica es solapante. Actualmente el WES se
SequencingWES) utilizacomoherramientadiagnsticaodeinvestiga
Elexomaesla parte delgenomacorrespondientea cinparaelestudiodenumerosasenfermedadesde
lasregionescodificantes(exones),capacesdeexpre origengentico.
Secuenciacindepanelesdegenes nmerodepanelescomerciales,aunquetambinse
Lasecuenciacindeunpaneldegenesconsisteenel pueden disear a la carta. Combinando estudios
estudiodeundeterminadogrupodegenesdeinte deADNyARNpodemossecuenciarmutacionesco
rs de manera rentable y eficiente. Existe un gran nocidas(hot spots),genescompletos,detectarCNVs
ytraslocaciones.
Lospanelescomercialestienenlaventajadequesu
diseoestmuyoptimizado,porloquepermitenla
secuenciacinde los genesdeinters conunagran
LA SECUENCIACIN coberturayprofundidaddelectura.Estohacefacti
MASIVA JUEGA UN PAPEL ble la deteccin de variantes de muy baja frecuen
cia,ascomounanlisisrpidoyfiable.Sinembar
IMPORTANTE EN EL go,lospanelescomercialesnosiempreincluyenlas
DIAGNSTICO DIFERENCIAL regionesrelevantesparanuestroestudio,nocontie
DE ENFERMEDADES CON nenlatotalidaddeisoformasdeungenocontienen
genesconunahomologaelevadaconpseudogenes
SNTOMAS CLNICOS que pueden llevar a resultados errneos. En esos
SOLAPANTES, EN LA DETECCIN casoshayquedisearunpanelpersonalizadoselec
cionando las regiones cromosmicas de inters y
DE VARIANTES DE BAJA optimizarsusecuenciacin,loquesuponeunesfuer
FRECUENCIA Y DE VARIANTES zoextraporpartedelgenetista/investigador.Parael
QUE ACTAN COMO diseo de paneles, existen diversas aplicaciones in
formticasdelascasascomercialesquefacilitanes
MODIFICADORES DEL tatarea.
FENOTIPO. Lasecuenciacindepanelesdirigidosevitadetectar
variantes no relacionadas con la patologa de estu
dioquegenerangrancomplejidadalanlisisdebido
a la dificultad de su interpretacin, como ocurre en
PRINCIPALES ESTRATEGIAS DE
SECUENCIACIN MASIVA UTILIZADAS EN EL
CONTEXTO DE LA MEDICINA
PLATAFORMASDESECUENCIACIN Elinconvenientedeesteequipoeselelevadocoste
de la ptica en el instrumento para ladeteccin lu
La secuenciacin con el mtodo Sanger del primer
miniscenteyelnmerodesecuenciasobtenido,que
genomahumano,completadaen2003(Human Ge
durante estos ltimos aos, ha sido superado por
nome Project) supuso un esfuerzo de 13 aos y un
otrastecnologas.
costede2,7billonesdedlares.Esteproyectofueel
detonanteparaquebilogosmoleculareseingenie Illumina
ros impulsaran el desarrollo de secuenciadores de La plataforma Illumina se basa en la incorporacin
gran rendimiento, capaces de generar millones de de nucletidos marcados con terminadores reversi
secuencias en paralelo y a un coste menor que los blesdemaneraqueencadaciclodeligacinseune
mtodostradicionales.En2008,5aosdespus,se un nucletido complementario al ADN molde emi
secuenci un genoma humano con un coste de 1,5 tiendo una seal luminosa que es captada por un
millones de dlares (Wheeler, 2008). Actualmente, sistema ptico altamente sensible (secuenciacin
la secuenciacin de un genoma humano completo porsntesis).LaqumicaempleadaporIlluminaper
tieneuncostedetansolo1.000dlares.Hoyenda, mite generar lecturas de hasta 300 nucletidos lle
estas plataformas se han extendido rpidamente gandoaproducirhasta6000Gbendatos.
dotando a grandes y pequeos laboratorios de la
Larelacin costeefectividadque ofrecen las plata
tecnologadesecuenciacinmsavanzada.
formasdeIlluminayelelevadorendimientoobteni
Actualmente existen diversas plataformas de se do con ellas hace que actualmente sea una de las
cuenciacin y es til conocer sus principios bsicos compaaslderenelsector.Illuminaofreceequipos
ascomosusventajaseinconvenientesalahorade que se adaptan a diferentes tipos de laboratorios,
adquiriralgunadeellasosimplementeparalaelec desdemquinasdemenorrendimientocomoelMi
cindelatecnologaentuexperimentooanlisis.A niSeq (7,5 Gb de secuencia por run) hasta el Nova
continuacin describimos las plataformas de NGS Seq(6000Gbdesecuenciaporrun),pudiendoutili
disponibles. zarse en todas las aplicaciones que ofrece la NGS.
454LifeSciences Los equipos de Illumina presentan la ventaja de te
ner bajas tasas de error en los resultados. Un gran
454 Life Sciences fue la primera empresa en lanzar
inconvenienteeselelevadocosteinicialdelosequi
al mercado una plataforma de secuenciacin masi
posyuntiempodevidatilcorto,ascomouname
va.Estatecnologaestbasadaenlapirosecuencia
norlongituddelassecuenciasobtenidas.
cin,queconsisteenladeteccindesealeslumino
sas generadas a partir de grupos pirofosfato libera IonTorrent
dostraslaunindeunnucletidocomplementarioa La secuenciacin por semiconductores es un mto
unahebradeADNmolde. dodesecuenciacindeADNbasadoenladeteccin
Esteprimersecuenciadorpresentgrandesventajas de protones liberados durante el proceso
respecto a la secuenciacin Sanger, suponiendo un de polimerizacin del ADN. Este tipo de secuencia
gran abaratamiento del coste de secuenciacin por cindifieredelosdemsenquenousannucletidos
base y el gran aumento en la cantidad de informa modificadosqumicamenteyenqueladeteccinno
cin generada (aproximadamente 1 milln de se se realiza por mtodos pticos, sino por deteccin
cuencias). Una de las fortalezas de esta tecnologa de cambios de pH. Laincorporacindenucletidos
es la longitud de secuencia, de hasta 800 pares de complementariosalacadenamoldedeADNimplica
bases,quefacilitaelensamblajedegenomasde no lageneracindeunenlacecovalenteylaliberacin
vo. de unpirofosfatoyunprotn.Esteprotnproduce
uncambiodepHyporconsecuenciaunasealelc muestraynounADNamplificado,yalmismotiem
tricaqueserdetectadaporlamquina.Laprincipal po,sereduciraeltiempodetrabajoyelprecioglo
ventaja de este proceso es la velocidad de secuen baldesecuenciacin.
ciacin, as como el bajo coste debido a que no se Existe ms de una empresa que est desarrollando
utilizannucletidosmodificadosyaqueladeteccin equipos que disponen de la tecnologa de tercera
noesptica. generacin,comoOxfordNanoporesyPacificBios
No obstante, existen algunas limitaciones. Entre ciences (PacBio), pero es esta ltima la que se ha
ellassindudalamsimportanteeslasecuenciacin establecido en el mercado actual. Su secuenciador
de regiones de homopolmeros, o repeticin de va SMRT,sebasaenelusodechipsquecontienenmi
riasbasesiguales,enlasqueseproduceunaelevada les de pocillos en los que se encuentra anclada una
tasadeerror.Otralimitacinseralalongituddelas nicapolimerasaquepermitellevaracabolaincor
secuencias(hasta400paresdebases),bastantems poracin de nucletidos marcados en tiempo real
pequeas comparadas con otras tcnicas como la (750nucletidosen1segundoconsiguiendosecuen
secuenciacin de Sanger o la pirosecuenciacin. cias de hasta 60.000 pares de bases). Debido a sus
Adems, el rendimiento actualmente es ms bajo nuevos sistemas de ensamblaje que corrigen los
respectoalrestodetcnicasdesecuenciacinNGS, errores y auna disminucindelcoste delasecuen
aunquelacompaaestdesarrollandonuevassolu cia,haconseguidoabrirsepaso,siendolatecnologa
cionesaesteproblema. de eleccin para proyectos de investigacin ambi
ciosos. As, es la mejortecnologa para obtenerun
Secuenciacindetercerageneracin
genoma cerrado de bacteria o para detectar y con
Lasnuevasplataformasqueseencuentranendesa firmar isoformas en genomas con patrones de spli
rrollo, conocidas como secuenciadores de tercera cingmuycomplejosytambinparadetectarvarian
generacin,permitenlasecuenciacindeunanica tesestructurales.
molcula de ADN (singlemolecule sequencing) evi
Apesardeesto,PacBiotieneunoutputlimitado,un
tando la amplificacin de los fragmentos de ADN
elevado coste y una elevada tasa de error con una
mediantePCR.Deestaforma,seevitaranlasaltera
distribucin de los errores casi aleatoria. Requiere
ciones generadas durante el proceso de amplifica
unacantidaddeADNdepartidamuygrandedebido
cin ya que el ADN secuenciado es el original de la
a que no existe ningn paso de amplificacin de
Carolina Monz1,2, Jos Miguel Juanes1,2,5, Pablo Marn-Garca1, Felipe Javier Chaves2,3,
Vicente Arnau Llombart4,5, Ana Brbara Garca-Garca1,2,3
1 Medical Genomics Visualization group (MGviz.org)
2 Unidad de Genmica y Diagnstico Gentico (UGDG), Fundacin Investigacin Clnico Valencia (INCLIVA)
3 CIBER de Diabetes y Enfermedades Metablicas Asociadas (CIBERDEM)
condrialyqueelADNobtenidosealomspuropo
10%delADN
sible y no contenga trazas de los productos usados circulanteesfetal
para la lisis y extraccin del ADN (detergentes, fe
nol, cloroformo, etc.), que interferiran en la PCR y
procesosdesecuenciacin(PsifidiA,2015).Haycier
tosanlisisqueimplicanelusodefragmentoslargos
deADNyesmuyimportantequeelmaterialdepar
tida noestefraccionado.Algunos robots de extrac
cin automtica de ADN lo fraccionan demasiado
durante el proceso y no daran buenos resultados
para estos anlisis, as como tampoco el ADN de 1%clulasfetales
muestras sometidas a procesos de conservacin de
tejidosfijadosconformaldehdo(bloquesdeparafi
na), cuyo procesado fracciona el ADN en tamaos
Figura 1. El test prenatal no invasivo o NIPT (non invasive prenatal
deentre125y200paresdebases. test) se hace a partir de ADN libre circulante (cfDNA) en el plasma
materno (Vermeesch, 2016).
SECUENCIACIN CLSICA
Secuencias de 500 a 100 pares de bases (una secuencia de un solo individuo a la vez).
Sanger
Paralelizacin 96x.
YATENEMOSELADNYAHORAQU? tosdeADNalavez.Lostresmilmillonesdebases
de un genoma se pueden secuenciar en dos das, y
Una vez extrado el ADN, el siguiente paso es ver
teniendo en cuenta que se pueden poner varias
qu mtodo de secuenciacin es el ms adecuado
muestras a la vez cada una con una 'etiqueta', los
paraelexperimentoplanteado.
secuenciadoresactualescomoelNovaSeqdeIllumi
A la hora de secuenciar el ADN la primera decisin naadmitenhasta16genomasalavezporcarreray
es si necesitamos secuenciar una secuencia larga y los secuencian todos en 40 horas. A esto hay que
continua (para el tipado de HLA, discriminar la se aadirotras40horasparaprocesarlosdatosbioin
cuencia de un gen de sus pseudogenes o estudiar formticamente en un centro de alta computacin
grandesreordenamientosdelgenoma)onossirven quepermitalaparalelizacinmasivadelosprocesos
fragmentospequeos.Otrofactoratenerencuenta de anlisis. Este anlisis bioinformtico se puede
essiqueremossecuenciarmuchosindividuosomu hacer en ordenadores de sobremesa con 32 GB de
chos genes a la vez, en cuyo caso la secuenciacin RAMysepuedeanalizarunexomaen3horas.
Sanger sera sustituida por la secuenciacin masiva
Cmoconseguirlaparalelizacinycmoseleenlas
enparalelo(NGS)porsurapidezyprecio.
bases es lo que diferencia a las diferentes platafor
mas.
SECUENCIACINMASIVA A da de hoy hay dos modelos principales de tcni
cas desecuenciacinNGS:secuenciacinpor snte
La secuenciacin masiva en paralelo consiste en
sis (SBS) que implica fragmentos cortos y Single
fragmentar el ADN en pequeos trozos, amplificar
Molecule RealTime Sequencing (SMRT)quepermite
los mediante PCR y procesarlos todos a la vez
fragmentosdevariaskilobasesperoconmayortasa
(Figura2).EstopermiteanalizarcualquierADNaun
deerror.
que no se tenga conocimiento de la secuencia a
priori, ya que no se van a disear cebadores para EnelladodelossecuenciadoresSBS,lasdostecno
amplificar regiones especficas del ADN, como se logas ms asentadas son Illumina (detecta la adi
hace clsicamente con la tecnologa Sanger o de cindelasbasesunaaunamediantefluorforos)e
electroforesiscapilar. Ion Torrent, que detecta grupos de bases iguales y
que mide la seal mediante semiconductores que
Eltrucodelasecuenciacinmasivaestenlaparale
evalancambiosdeconcentracindeprotones(pH).
lizacin, es decir, en secuenciar todos los fragmen
Encuantoalossecuenciadoresdesecuenciaslargas
ydeteccinentiemporealdemolculasnicas,los
dos exponentes principales son PacBio de Pacific
Biosciences y MinIon de Oxford Nanopore. PacBio
lee secuencias largas en tiempo real midiendo la
emisin de luz del fluorforo liberado tras la incor
poracindecadanucletido.MinIondetectalasba
ses de la secuencia midiendo cambios de corriente
elctricaenlamembranadelporoamedidaquepa
salasecuenciadecadenasimpledelDNA.
Veamos ms detalladamente en qu consiste cada
tcnica:
Ion Torrent. LatcnicadesecuenciacindeIon
TorrentiniciasuprocesamientoconunaPCRen
emulsin con microgotas (Nyrn, 1985) y usa C
semiconductores para detectar los H+ despren
didosenlaincorporacindelosdNTPs.
Illumina. Unadelasmayoresaportacionesdela
tecnologadesecuenciacindeSolexaIllumina,
eslaPCRpuenteparalageneracindeclsteres
y el mtodo de la terminacin cclica reversible
paralasecuenciacinporsntesis.Encadaciclo,
seuneundNTPmarcado,setomaunafotogra
fa y se retira para empezar de nuevo (Bentley,
2008).
Tanto Ion Torrent como Illumina, generan se
cuencias cortas. Illumina de 75 a 300 pares de
bases; Ion Torrent hasta 400. Si se necesitan
lecturasmslargas,lossecuenciadoresdePaci
fic Biosciences (Rhoads, 2015) y Oxford
Nanopore Technologies (Haque, 2013) son ca
pacesdeproducirlecturasquesuperanlos1.000
TECNOLOGA ILLUMINA
10.000paresdebases.Estastecnologasfacili
A. El ADN se fragmenta y se une a dos adaptadores, uno en
tan la secuenciacin de regiones del ADN que cada extremo, y se fijan sobre una lmina de vidrio sobre
contienen alta cantidad de nucletidos GC y el la que hay oligonucletidos complementarios a los adap-
alineamientodesecuenciasquecontienenrepe tadores.
ticiones. Adems, al no requerir un paso previo B. PCR en puente para amplificacin clonal. Cuando se han
deamplificacinporPCR,evitanloserroresdela formado los clsteres de secuencias iguales.
C. Secuenciacin. Esta tcnica utiliza dNTPs con distintos
enzimapolimerasa.
fluorforos y terminadores reversibles.
D. En cada ciclo una nueva base es aadida al clster y se
saca una foto. Por ejemplo, en el clster superior izquier-
do primero se ha aadido una C luego una T y finalmente
una T, quedando la secuencia CTT.
18
SECUENCIACIN MASIVA: DEL ADN A LOS DATOS
19
SECUENCIACIN MASIVA: DEL ADN A LOS DATOS
cuencia distinta para cada alelo, o copia de ADN.
Esto implica lo que se conoce como una lectura
"digital", o lo que es lo mismo, es posible contar
cuntaslecturashaydeunaleloycuntasdelalter LA SECUENCIACIN
nativoeinferirsiesasproporcionescorrespondena SANGER SE USA PARA VALIDAR
unheterocigoto(50%delecturasaproximadamente
decadaalelo),mutacionessomticas(encncer)oa
LOS RESULTADOS DE
unartefactodesecuenciacin. LA SECUENCIACIN MASIVA
La NGS es ms rpida, pero la secuenciacin PORQUE ES UNA TCNICA
Sangeresmejor,no? 'ORTOGONAL', ES DECIR,
No necesariamente. Hoy en da, la secuenciacin UNA TECNOLOGA CON
masivadelecturascortascomoladeIllumina,tiene
la misma o ms calidad que la secuenciacin me UN TIPO DE ERROR
dianteelmtodoSanger(patrnestndaractual)si TOTALMENTE DIFERENTE.
serealizaaunacoberturade200x.Adems,tienela
ventajadequesepuedenautomatizartodoslospa
sosdelanlisis,sobretodoeldellamadodevarian
tes,loquepermitepoderanalizarunexomacomple
toenelmismotiempoqueseharaunpanelde10o
15 genes siguiendo el mtodo estndar. Hay que
resaltar que es verdad que la secuenciacin masiva
tiene un una mayor tasa de error por lectura, pero
esonoesningnproblemayaquesupotenciaviene
de leer la misma secuencia entre 30 y 200 veces y
sacarunconsenso.
La secuenciacin Sanger sigue siendo til en regio
nesdelgenomadondehaganfaltasecuenciaslargas
para poder alinear/amplificar de forma unvoca una
20
SECUENCIACIN MASIVA: DEL ADN A LOS DATOS
Tagmentacin: Fragmentacin del ADN con transposasas modificadas. Un mtodo rpido y eficaz de preparar
libreras para MPS de fragmentos cortos es la fragmentacin del ADN por mtodos enzimticos.
Perfil de longitudes de fragmentacin del ADN antes de aadir los adaptadores visto con Bioanalyzer, Tapes-
tation o Qiaxcel
Dada la importancia de la NGS en el rea clnica, el procesado de los datos se ofrece ya muchas veces como un software
cerrado al que se proporcionan unos datos de entrada y una configuracin y se obtienen "mgicamente" unos resultados.
Pero cuidado, esos resultados hay que interpretarlos teniendo en cuenta las medidas de calidad de cada parmetro en la
interpretacin y visualizar los alineamientos para descartar artefactos.
baserepetidamuchasveces)siseutilizaunatecno BIBLIOGRAFA
loga como la de IonTorrent. La saturacin de H+
Bentley DR, et al. Accurate whole human genome
queproducenimpideelconteocorrecto.ConIllumi
sequencing using reversible terminator chemistry.
na pasa algo parecido pero es menos dramtica la
Nature.2008;456:5359.doi:10.1038/nature07517
prdida de calidad. Tampoco se puede analizar ge
nes que comparten zonas homlogas con otras re BirneyEySoranzoN.Humangenomics:Theendof
giones del genoma (pseudogenes, exones muy ho the start for population sequencing. Nature. 2015;
mlogos)siseutilizantcnicasdesecuenciacinque 526:5253.doi:10.1038/526052a
generan fragmentos cortos, ya que durante el ali ENCODE Project Consortium. An integrated
neamiento de estas secuencias se pueden producir encyclopediaofDNAelementsinthehumangeno
mapeados ambiguos y no se podr asignar a una me. Nature. 2012; 489(7414):5774. doi: 10.1038/
posicinconcreta.Estosepuedeevitarusandotec nature11247
nologasdelecturaslargascomoPacBiooNanopo
Genomics England. The 100,000 Genomes Project
re.
Protocol. 2017; doi: 10.6084/
Contodo,laimplementacindelaNGSenlarutina m9.figshare.4530893.v2.2017.
delsistemapblicodesaludserunarealidadenlos
GreenED,etal.Chartingacourseforgenomicme
prximos aos y facilitar la personalizacin de la
dicine from base pairs to bedside. Nature. 2011;
medicinaylaadaptacindeltratamientodelpacien
470:204213.doi:10.1038/nature09764
te tanto para el manejo adecuado de sus signos y
sntomascomoparalaanticipacinalprogresodela Goodwin S et al. Coming of age: ten years of next
enfermedad. generation sequencing technologies. Nature Re
views.2016;17:333351.doi:10.1038/nrg.2016.49
Haque F, et al. Solidstate and biological nanopore
forrealtimesensingofsinglechemicalandsequen
LA IMPLEMENTACIN DE LA NGS EN
LA RUTINA DEL SISTEMA PBLICO DE SALUD SER
UNA REALIDAD EN LOS PRXIMOS AOS Y FACILITAR
LA PERSONALIZACIN DE LA MEDICINA Y LA
ADAPTACIN DEL TRATAMIENTO DEL PACIENTE,
TANTO PARA EL MANEJO ADECUADO DE SUS SIGNOS
Y SNTOMAS, COMO PARA LA ANTICIPACIN AL
PROGRESO DE LA ENFERMEDAD.
cing of DNA. Nano Today. 2013; 8:5674. doi: Sankar PL y Parker LS. The Precision Medicine Ini
10.1016/j.nantod.2012.12.008 tiative's All of Us Research Program: an agenda for
International Human Genome Sequencing Consor researchonitsethical,legal,andsocialissues.Genet
tium. Finishing the euchromatic sequence of the Med. 2016; (Online advance). doi: 10.1038/
human genome. Nature. 2004; 431:931945. doi: gim.2016.183
10.1038/nature03001 Vermeesch JR, et al. Prenatal and preimplantation
LedfordH.AstraZenecalaunchesprojecttosequen genetic diagnosis. Nature Reviews Genetics, 2016;
ce 2 million genomes. Nature. 2016; 427. doi: 17:643656
10.1038/nature.2016.19797
Monkol L, et al. Analysis of proteincoding genetic
variationin60,706humans.Nature.2016;536:285
291.doi:10.1038/nature19057
Nyrn Pl y Lundin A. Enzymatic method for conti
nuousmonitoringofinorganicpyrophosphatesynt
hesis.Anal.Biochem.1985;509:504509
Psifidi A, et al. Comparison of Eleven Methods for
Genomic DNA Extraction Suitable for LargeScale
WholeGenome Genotyping and LongTerm DNA
Banking Using Blood Samples. Plos One. 2015;
DOI:10.1371/journal.pone.0115960
RhoadsA,AuKF.PacBioSequencingandItsAppli
cations.GenomicsProteomicsBioinformatics.2015;
13:278289.doi:10.1016/j.gpb.2015.08.002
mite cuantificar con ms exactitud aquellos ARNm con unanicamuestra yporlo tanto darn elnivel
queseexpresenenbajacantidad.Alcontrarioquela deexpresindeungendado,porloquelosvalores
anterior, esta tecnologa solo emplea una muestra deexpresingeneradossernabsolutos.Enelcaso
porchip. demicroarraysdedoblecanal,seproduceunahibri
3) Beadarray (Arrays de microesferas): setratade dacincondosmuestras,unapuedeserconsiderada
unconjuntodemicroesferasdevidriodondeseune comolamuestracontrolyotraladeestudio,porlo
covalentemente la sonda de oligonucletidos espe queelniveldeexpresinserrelativoyaquedepen
cficos,lacualessintetizadainsitu.Esasmicroesfe dedeambasmuestras.
rasseautoensamblanenlosmicropozosdelarray.A Elprimerpasoenelanlisisdeimgenesdeunmi
continuacin, antes de proceder con la hibridacin, croarray es identificar la localizacin de cada spot,
se determina la posicin de cada microesfera. Para llamado tambin grillado. Idealmente, los spots se
esto,serealizaunahibridacinconoligonucletidos localizanequiespaciadosyenelmismolugardonde
marcados con fluorescencia a un segmento de las fueronimpresos,sinembargo,puedenexistirciertas
sondasllamadosecuenciadedireccionamiento. variaciones durante la impresin del array. Para lo
calizarlosspotssedefineuncuadradoorectngulo
Deteccinylecturadelmicroarray
por spot, de manera automtica o manual. En mu
Una vez realizada la hibridacin, se procede con la chas ocasiones se producen alteraciones durante el
deteccin y la lectura del microarray, tanto del experimento(marcaje,hibridacinoelscanner)que
background,ofondo,comoelforegroundo,intensi afectan a la lectura del chip como pueden ser dife
daddelspot.Ladeteccinvaadependerdeltipode renciasenlasintensidadesentremicroarrays,man
marcaje que se haya elegido, siendo el marcaje de chasofondosenlashibridaciones.Paraellosepro
fluorescencia el tipo mayoritario frente al marcaje cedeconlasegmentacinqueeselprocesodedis
radioactivo o el quimioluminiscente. En el caso del tinguir aquellos pixeles que pertenecen al back
marcaje fluoromtrico la captura de las seales se groundoazonasdefondo.Acontinuacin,sereali
hace con cmaras fotogrficas CCD o escneres la za la alineacin de gradillas con programas como
ser.Losnivelesdeexpresindeungendadovienen ScanAlyze o TIGR Spotfinder, para la identificacin
determinadosporelvalordesuintensidad.Aquhay de las manchas. Estas gradillas son definidas por el
que distinguir entre los microarrays de uno o dos usuario en la mayora de los microarrays, excepto
canales.Losmicroarraysdeuncanalsonhibridados paraaquellosdeltipoAymetrixenlacuallaalinea
Affymetrix Affymetrix GeneChip Una mejora de la anterior herramienta, desarrollada para las ltimas
Command Console Software tcnologas de microarrays.
Affymetrix Expression Console Herramienta sencilla para generar valores de expresin (CHP) para
Software arrays de expression 3 individuales o de grupo y archivos CEL.
FREE SOFTWARE
RMA Express (Bolstad, Irizarry, As- Cuantifica y normaliza valores de expresin de microarrays, tambin
trand, & Speed, 2003) de Affymetrix.
Snomad (Parmigiani, Garrett, Irizarry, Herramienta web que permite normalizar los datos de experimentos
& Zeger, 2003) de uno o dos canales.
Gene expression model selector Utiliza mquinas de soporte vectorial y permite realizar clasificaciones
(GEMS) multiclases.
https://www.thermofisher.com/es/es/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/
microarray-analysis-software/genechip-operating-software-service-pack-2-software-update.html
https://www.thermofisher.com/es/es/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/
microarray-analysis-software/affymetrix-genechip-command-console-software.html
https://www.thermofisher.com/es/es/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/
microarray-analysis-software/affymetrix-expression-console-software.html
http://rmaexpress.bmbolstad.com/
http://www.dchip.org/
https://www.tm4.com/technology/power-electronics/software/
http://pevsnerlab.kennedykrieger.org/snomadinput.html
http://genome.tugraz.at/genesisclient/genesisclient_description.shtml
ANLISIS DE MICROARRAYS
cin de la imagen del microarray con la gradilla se unas propiedades deseables. En experimentos
haceautomticamenteatravsdelsoftware.Trasla condosmuestrassepretenderdecentrarloslog
alineacin de la gradilla, el software de procesa ratios alrededor de cero. En microarrays de un
mientodeimgenescomienzaagenerardatosesta solocanalsenormalizadeestemodopudindose
dsticos como la media y mediana de la intensidad as comparar las intensidades entre los compo
delpixeldecadamarca,elreadesta(nmerode nentesdeungrupodemicroarrays.
pixeles)orelacionesdeintensidadenelcasodelos Normalizacin por Gen Set: consisteenelusode
microarraysdedoscanales.Comoresultadosecrea unosgenescontroles,enconcretolosgeneshou
un fichero de texto plano con los datos generados sekeeping para normalizar, ya que se asume que
sintratardecadamarcadelmicroarray. presentansiempreunaexpresinconstanteenel
Normalizacindelosdatos microarray independientemente del tipo de
muestra.
Elsiguientepasoeslanormalizacin de los datos
parasolucionaraquellosartefactosquepuedenocu Otrotipodenormalizacinserealizaparalosmicro
rrir por causas aleatorias o tcnicas, preservando la arraysdeAymetrix,enloscualeshayqueteneren
informacin biolgica y comparando intensidades consideracin que hay mltiples valores (sondas)
entre diferentes sondas del microarray y entre mi por cada gen, originando un probeset, y que cada
croarrays.Laimportanciadelanormalizacinpuede grupodesondasconsisteenmltiplesparesdeson
versemsclaramenteenaquellosexperimentoscon das:perfect match probe (PM)ylamismatch probe.
doscolores.Existenmltiplesmtodosparanorma LassondasPMcontienenexactamentelasecuencia
lizar,algunasestrategiascomunesson: correspondientealgendeestudio,mientrasquelas
sondasMMhansufridounainversinenelnucleti
Correccin de fondos: enlacualseeliminalaseal
do central. Entre los mtodos para normalizar este
dadaporelfondo,quepuedeserdebidaalsopor
tipodemicroarraysestn:
tefsicooamolculaslibresdelmarcadorfluores
cente. En este mtodo, a partir de la lectura de Microarray Suite (MAS) 5.0 (Aymetrix, 2002):es
cada canal se substrae la media (o mediana) del el mtodo oficial de Aymetrix. MAS 5.0 es una
fondoalacorrespondientelongituddeondapre implementacin de la versin anterior MAS 4.0.
vioalclculodelarelacin. Estemtodotratadepaliarlahibridacincruzada
entre las diferentes sondas, seleccionando el
Normalizacin dependiente de la intensidad: enla
arraymsprximoalamedia(referencia)yajus
que se modifica especficamente cada valor para
tando los nivelesmedios de cadaarrayal de ese
que la distribucin de las intensidades tengan
array.
tospararealizarlaestimacinconeliminacinde
outliersyhaciendoreestimacionessucesivashas
talaconvergencia. LOS MTODOS
Anlisisestdisticodelosdatosnormalizados
PARA EL ANLISIS
Una vez preprocesada la informacin obtenida del DE DATOS DE MICROARRAYS
microarray se procede al anlisis estadstico de los PUEDEN CLASIFICARSE
datosnormalizadosatravsdeherramientasbioin
GENERALMENTE COMO
formticas avanzadas y algoritmos matemticos
capacesdemanejarlaabundanciadedatosgenera MTODOS SUPERVISADOS Y
dos.Aliniciodeestatecnologalaaplicacinprinci NO SUPERVISADOS.
paldelosmicroarraysdeADNfueelanlisisdeex
presin gnica, lo que permite medir niveles de
LOS PROCESOS SUPERVISADOS
ARNmsimultneamenteenmilesdegenes. SE BASAN EN TCNICAS PARA
Losmtodosparaelanlisisdedatosdemicroarrays DEDUCIR ALGO A PARTIR DE
pueden clasificarse generalmente como mtodos
UN ENTRENAMIENTO DE DATOS.
supervisadosynosupervisados.Losprocesossuper
visadossebasanentcnicasparadeduciralgoapar POR EL CONTRARIO, EN LOS
tirdeunentrenamiento de datos; en estegrupose MTODOS NO SUPERVISADOS
incluyentcnicascomolaregresinlinear,knearest
neighbor,learning vector quantization,decision tree
NO EXISTE UN CONOCIMIENTO
analysis,random forests,naive Bayes,redesneura A PRIORI Y CONSTRUYE UN
les,support vector machinesymtodosestadsticos
MODELO AJUSTADO A LAS
clsicoscomo:ANOVA,ttest,Wilcoxon rank score,
anlisisdiscriminanteyelMannWhitneyUtest.Por OBSERVACIONES.
el contrario, en los mtodos no supervisados no
existeunconocimientoa priori yconstruyeunmo
delo ajustado a las observaciones, siendo el cluste
ringlatcnicamsimportante.Mtodosdeestetipo
tiles para la generacin de hiptesis estn: self
organizing maps,neural gas,kmeans cluster analy
ses,hierarchical cluster analysis,Genomic Signal Pro
33
ANLISIS DE DATOS
regindadaoenlatotalidadderegionesdelase ayudabuscareincorporartodaaquellainformacin
cuencia reconstruida. Con lecturas largas una co relevanteparaelestudio,porloqueesdegranim
bertura de entre 20x y 30x es suficiente para afir portancia integrar la informacin obtenida en los
mar que los nucletidos presentes en la lectura estudiosenlasdiferentesbasesdedatosconinfor
estn en la secuencia, mientras que con lecturas macin biolgica como por ejemplo las bases de
cortas la cobertura sera de un 72x a 100x. Este datosdelENA(delEBI),GEOyNCBI.Lasdiferentes
parmetronosdaunaestimadecunbienhafun plataformas y los diferentes tipos de experimentos
cionadolasecuenciacin. realizados necesitan diferentes mtodos y algorit
Sensibilidad: capacidaddelatcnicadesecuencia mos para procesarlos, ya que cada anlisis seguir
cin de identificar variantes presentes en las un patrn diferente y una combinacin de algorit
muestras. Este parmetro viene influido por los mos y bases de datos especificas para la muestra y
dos anteriores, pero tambin del gen y las muta metodologa usada. Esto ha hecho que surjan dife
cionesqueseestudie,supresenciaenlatotalidad rentesscripts ypipelinesparaunanlisismseficien
delasclulas,lascaractersticasdelasmuestras... tedelosdatos,cuyacomplejidadnovienedadasolo
porelgranvolumendedatosquesemanipulansino
Especificidad: ndicedelafiabilidaddelasvariantes
tambinpor lacomplejidadqueconllevanalahora
identificadas. Puede definirse como el porcentaje
dedarunainterpretacinbiolgica.
devariantesgenticasquelatcnicadesecuencia
cindetectayquerealmenteestnpresentesenla ComoresultadodelprocesodesecuenciacinNGS,
muestra. enlamayoradeloscasosypordiferentescaminos
dependiendo de la plataforma usada, se generan
Unavezelegidalaplataformaadecuadaparauntipo
archivos con formato FASTQ. Estos archivos alma
deexperimentodado, seprocede con la secuencia
cenan las lecturas junto con ms informacin rele
cin. Como resultado, estos experimentos de NGS
vante de sta. Cada lectura aqu est representada
producenunaabrumadoracantidaddedatosqueun
en cuatro lneas que contienen: la identificacin de
ordenadorcomnnopodramanejar.Estehechoha
lasecuencia,lasbasesdesta,otroidentificadorde
supuestoeldesarrollodelcampodelaBioinformti
findesecuenciaylacalidaddecadabaseenesalec
cacomoherramientanecesariapararesolveranivel
tura. Este fichero FASTQ es el input estndar que
computacionalelgranvolumendedatosgenerados
reconocenmuchasherramientasdebioinformtica.
con NGS y su anlisis. Adems, para que el experi
mentotengaunsignificadobiolgico, seradegran
Anlisisdecalidad
El primer paso antes de comenzar el anlisis de las
secuenciaseselanlisisdelacalidaddelaslecturas.
Aunque hoy en da casi todos los secuenciadores
realizanuncontrolinternodecalidad,esconvenien
te realizar un anlisis de calidad de las secuencias
conotrosprogramas.Unadeesasherramientasbio
informticasesFastQC.Estesoftwarepuedesereje
cutadodemaneragrfica,peroademspermitein
tegrarsusfunciones en un pipeline,permitiendo as ALINEAMIENTO DE SECUENCIAS
CONTRA GENOMAS DE REFERENCIA
un procesamiento sistemtico de un gran nmero
dearchivos.Entrelosresultados,representadema
neragrficalascalidadesdecadabasealolargode
lassecuencias.Estetipodeanlisispermitedetectar
la presencia de adaptadores en las lecturas, de ex
tremosdebajacalidadyvisualizarsecuenciassobre
rrepresentadasquepuedenindicarunaposiblecon
taminacin.Todosestosfactorespodraninfluirne
gativamenteenelanlisisdelassecuencias.
36
ANLISIS DE DATOS
en rboles sufijo/prefijo. Dentro de ste ltimo se genomas estn: SOAPdenovo (Luo, 2012) y HGAP.
englobaelpaquetedesoftwareBWA.Estealineador SOAPdenovo(short oligonucleotide analysis packa
mapeasecuenciascortaspocodivergentesalgeno ge) es un software desarrollado para el ensamblaje
ma de referencia, empleando la transformada Bu delecturascortasde novo.Comoalgoritmousaun
rrowsWheeler para indexar. El paquete consta de sistemadeensamblajeparalelizablebasadoengra
tres algoritmos: BWAbacktrack, BWASW y BWA fosdeBrujin.Esunprogramaquefuncionabastante
MEM. Mientras que el primero trabaja con lecturas bien para ensamblar genomas grandes a partir de
dehasta100pb,losdosltimoshanestadodisea lecturascortas,deltipodeIllumina.Porotrolado,el
dosparalecturasmslargasyalineamientoderup paquetedeprogramasdeHGAP(hierarchical geno
turas, siendo BWAMEM ms rpido y ms preciso meassembly process)hasidodesarrolladoparaen
queBWASW.Otraherramientadealineamientoes samblar lecturas largas generadas en un solo paso
Bowtie 2. Este programa est implementado para porlatcnicadesecuenciacinSingle Molecule Real
alinearlecturasdeentre50y100pbcontraelgeno Time(SMRT)dePacBio.
ma de referencia. Los archivos resultantes del ali
Anotacindegenomas
neamiento tiene formato SAM. Estos archivos ali
neadospuedensermanipuladosconprogramasco Una vez ensamblado el genoma en un nico contig
mo SAMtools. Este paquete de programas permite es esencial interpretarlainformacinquestecon
cambiar de formato los alineamientos, fusionar el tiene.Porellosedebenidentificarloselementosdel
alineamiento y eliminar duplicados de PCR entre genoma, o lo que es lo mismo se debe anotar. Hay
otrasfunciones. dos tipos de anotacin: la estructural, en la que se
predicelasregionescodificantes,ylaanotacinfun
Ensambladodegenomas cional,enlacualseleasignalainformacinbiolgi
OtrotipodeanlisisdesecuenciasdeNGSeselen caalosgenespredichospreviamente.Dentrodela
sambladodegenomas,yaseaporsecuenciacinde anotacinfuncional,existendosmtodosdeanota
un genoma de novo, o resecuenciar uno conocido. cin:ab initio ode novo yelmtododecomparacin.
En este proceso se intenta reconstruir la secuencia El mtodo ab initio usa diferentes algoritmos para
delgenomacompletaatravsdeconectarlosfrag detectarpatronesenelgenomaomotivosespecfi
mentos individuales de las lecturas en secuencias cosdelasecuencia,locuallepermiteidentificarsila
contiguas ms largas denominadas contigs. El en secuenciaescodificanteono.Porotrolado,laano
samblajepuedeserde novo,enelcualnohayunco tacinporcomparacinidentificaloselementosdel
nocimientoa priori delaorganizacindelgenoma genoma mediante comparacin con otro genoma
que se secuencia, aunque es necesario tener una deorganismosaltamenterelacionados.Losprogra
estimadelcontenidodeGCdelgenoma,osulongi mas de anotacin ms usados son Prokka
tud; y ensamblaje con genoma de referencia, en el (Seemann,2014)yAugustus(StankeM.etal.,2006,
que el algoritmo necesita un genoma de referencia StankeM.etal.,2008).Prokkaesunprogramapara
para poder ensamblar elnuevo.Un factor limitante anotar genomas de bacterias, arqueas y virus. Este
enesteprocesoeslalongituddelaslecturas,sobre softwaretieneimplementadosotrosprogramaspa
todosisetratadegenomascomplejosconsecuen ra localizar genes, traducirlos a protenas e identifi
cias repetidas. Para abordar este problema, se ha carquproductoscodifican;tambinpermiteidenti
desarrollado recientemente una tecnologa de se ficarlasregionescongenesdeARNmedianteelpro
cuenciacin PacBio que produce secuencias de ma grama Prodigal (Hyatt, Chen, Locascio, Land, Lari
yorlongitudaunquedemenorcalidad. mer, & Hauser, 2010). En cuanto a Augustus, es un
Entre los programas ms usados para ensamblar softwarequehasidodiseadoparalaanotacinde
genomaseucariotas.Esteprogramasebasaeneva genesconbajaexpresindiferencial.Encuantoalas
luar las correspondencias entre las potenciales re nuevastecnologasdesecuenciacinmasiva,gracias
gionescodificantesdelgenomadeestudiomedian asugranavanceenlosnuevosequiposylamejora
te modelos ocultos generalizados de Markov, te delasqumicas,juntoconlareduccindeloscostes,
niendo en cuenta tanto el genoma nuevo como estncambiandoelescenarioactualdeldiagnstico
aquelconelquesehaentrenadoelsoftware. y tratamientodemuchade las enfermedades pres
critashoyenda.Anivelclnico,seestnutilizando
Identificacindevariantes
nosoloaniveldetratamiento,sinoeneldiagnstico
Otrotipodeanlisisdeintersquesellevanacabo paralaprevencindemuchasenfermedades.
con las secuencias de NGS es la identificacin de
variantespresentesenelexoma.Unodelospaque
tes de programa ms usado para este anlisis es el BIBLIOGRAFA
GATK(Genome Analysis Toolkit)(McKenna,etal., Aymetrix. Aymetrix Microarray Suite User Guide
2010).Esteprogramausadiferentesalgoritmospara version5edition.2002.SantaClara:CAAymetrix.
hacer un mapeo inicial de las secuencias, detectar
Bolstad BM, et al. A comparison of normalization
losindels,hacerunrealineamientoalrededordelos
methodsforhighdensityoligonucleotidearraydata
indels conelobjetivodecorregirartefactosrelacio
basedonvarianceandbias.Bioinformatics.2003Jan
nadosconelalineamientoyfinalmente,darunalista
22;19(2):18593.
conlalocalizacinytipodevarianteencontrada.Las
variantes,ascomotambinlosalineamientos,pue Hyatt D, et al. Prodigal: prokaryotic gene recogni
den ser visualizados con el programa IGV tion and translation initiation site identification.
(Integrative Genomic Viewers)(JamesT.Robinson, BMC Bioinformatics. 2010 Mar 8;11:119. doi:
2011, Helga Thorvaldsdttir, 2013). Sin embargo, 10.1186/1471210511119.
unaveztenemoslasvariantes,esinteresanteenten Irizarry RA, et al. Summaries of Aymetrix Gene
der el contenido funcional y por lo tanto, realizar Chip probe level data. Nucleic Acids Res. 2003 Feb
unaanotacinfuncionaldeesasvariantes.Estepro 15;31(4):e15.
cesopuedehacerseconelsoftwarellamadoANNO
Li,C.,&Wong,W.DNAchipanalyzer(dchip).2003.
VAR(Wang,Li,&Hakonarson,2010).
(G.E.ParmigianiG,Ed.)DNAchipanalyzer(dchip).
LiC,HungWongW.Modelbasedanalysisofoligo
CONCLUSIN nucleotide arrays: model validation, design issues
andstandarderrorapplication.GenomeBiol.2001;2
Sibienlastcnicasdemicroarraysfueronlaprimera
(8):RESEARCH0032.Epub2001Aug3.
tecnologa que permita la posibilidad de anlisis
highthrough genmico,hoyendaquedaunpoco LuoR,etal.SOAPdenovo2:anempiricallyimproved
limitado a nivel conceptual y tcnico. No obstante, memoryecient shortread de novoassembler. Gi
los arrays comenzaron como una herramienta de gascience. 2012 Dec 27;1(1):18. doi: 10.1186/2047
investigacin, pero pronto se expandieron como 217X118.Erratumin:Gigascience.2015;4:30.
tcnicas de diagnstico en los laboratorios clnicos. McKenna A, et al. The Genome Analysis Toolkit: a
La ventaja de la tcnica es su rapidez en interrogar MapReduce framework for analyzing next
un nmero elevado de genes y detectar tanto ga generation DNA sequencing data. Genome Res.
nancias y prdidas de material genmico como 2010 Sep;20(9):1297303. doi: 10.1101/
otros cambios genticos relacionados con numero gr.107524.110.
sas enfermedades. La tcnica de microarrays se ve Parmigiani,G.,etal.Theanalysisofgeneexpression
limitada cuando, por ejemplo, se quieren detectar
https://www.ncbi.nlm.nih.gov/
https://www.ebi.ac.uk/
http://www.ddbj.nig.ac.jp/
http://soap.genomics.org.cn/soapdenovo.html
https://github.com/PacificBiosciences/Bioinformatics
Training/wiki/HGAPinSMRTAnalysis
http://prodigal.ornl.gov/
INTRODUCCIN ciadaspreviamentealaenfermedadenexomas,por
serelcasomsutilizadoengenticaclnicaencuan
Despus de un laborioso trabajo preparando las li tonossalimosdelasecuenciacindegenesconcre
breras de un exoma (es decir, todas las secuencias tos (targeted sequencing). ste ltimo caso es mu
exnicas, codificantes o no, de un individuo), se cho ms simple puesto que normalmente simple
cuencindolo y extrayendo las variantes, parecera mente se comparar la lista con una base de datos
que por fin hemos finalizado nuestro trabajo: tene demutacionesconocidasenesosgenes.Porltimo,
mos una hoja de clculo y nuestras variantes, ya trataremosbrevementelasdiferenciasenelcasode
sean polimorfismos o inserciones/deleciones tenersecuenciadosgenomasotranscriptomas.
(indels),deberanestarah.Peroprontonosencon
tramos con un pequeo problema: un individuo
tiene docenas de miles de variantes en zona codifi ANOTACINYVISUALIZACIN
cante y solo unas pocas nos interesan! Es la tpica DEVARIANTES
situacindeencontrarunaagujaenunpajar,conla
Lo primero que necesitamos es informacin sobre
salvedaddequeenestecasotodoparecenagujas
lasvariantes,todalaquenospuedanofrecerlasba
Ysienvezdeunexomahablamosdeungenoma,el
ses de datos. Para ello existen numerosos progra
problema se complica enormemente: ya no habla
mas,tantogratuitos(SeattleSeq,CADD,Annovar)
mos de docenas de miles sino de millones. Cmo
comodepago(Sequencheresunodelosmspopu
filtrar las variantes? En este captulo intentaremos
lares).Paraunalistaextensivadeherramientasjun
darunaseriedeconsejoseideas,pero,adiferencia
to con enlaces, recomendamos la pgina omictools
deloscaptulosanteriores,nohayunprotocoloab
(https://omictools.com). En nuestro caso vamos a
solutoyvaadependermuchodeloqueseestbus
utilizar Annovar (Wang, 2010), pero la mayora de
cando: Es la enfermedad mendeliana o compleja?
programas funcionan de forma similar. En general,
Setienenrbolesgenealgicosqueapoyenunni
los programas, incluido Annovar, trabajan bajo la
cogenquesetransmitedeformadominanteorece
consolaUnix(disponible deformanativaenlossis
siva?Seconocepartedelaetiologadelaenferme
temasoperativosdeLinuxyMacOs,ymediantem
dad? Segn la respuesta a esta u otras preguntas,
quinas virtuales y emuladores desde Windows) as
lospasosaseguirserndiferentes.Tambinhayque
que es necesario asumir un nivel bsico de manejo
tenerencuentaqueelprocesodefiltracinespare
deUnix.Encasocontrario,nopuedodejardereco
cidoaunjuegodeacercarsealnmerojustosinpa
mendar este curso gratuito increblemente til:
sarse. Como en cualquier proceso estadstico, se
http://korflab.ucdavis.edu/unix_and_perl/.
trata de jugar con el porcentaje de falsos positivos
(quesignificaquedarseconunavariantefalsa)yne Annovar tiene tambin una versin online (http://
gativos (que se traduce en que se ha filtrado la va wannovar.wglab.org/)peroestlimitadaensusfun
riantedeinters).Siseesmuylaxoconlosfiltros,se cionalidades a da de hoy y recomendamos la ver
acabar con una lista de docenas de variantes que sin completa. En Annovar, mediante una serie de
ser muy difcil de probar de vuelta al laboratorio. comandos (perfectamente explicados en el tutorial
Peroseesmuyexigente,secorreelriesgodefiltrar de la pgina), se obtiene un archivo que se puede
la variante y volverse loco cuando ninguna de las abrirencualquierprocesadordehojadeclculosen
variantesrestantesparezcatenerrelacinconlaen el que aparecen una gran cantidad de informacin
fermedad. sobre nuestras variantes proveniente de diferentes
bases de datos. Una vez obtenida toda la informa
Hay que resear que en este captulo hablaremos
cin, las variantes pueden empezar a ser filtradas
principalmente de bsquedas de variantes no aso
usandocomandosdeAnnovarodirectamentesobre
lahojadeclculo.
DeformaparalelaaAnnovar,yaunquenoesnece
sariamente obligatorio, estn los programas de vi
sualizacin de variantes como el Integrative Geno
mics Viewer (http://software.broadinstitute.org/
software/igv/MainWindow; Robinson, 2011). Estos
programascolocantodalainformacindevariantes
deunaformavisualmsatractivaypuedenserti
lesparaverlalocalizacinyfrecuenciadevariantes
encromosomasygenesdeunaforma msvisuale
intuitiva.
FILTRADOPORCALIDAD
Elprimerpasoavecesyavienedadodurantelava
riant call,procesoquetratadeidentificarlasvarian
tesennuestrasecuenciarespectodeunasecuencia
molde, el genoma humano, del que se ha hablado
en el captulo anterior. Durante este paso, adems
delasvariantestendremosunaseriedeparmetros
decalidad:silavarianteesunpotencialduplicado,si
elnmerode secuencias dela zona es muybajo,si
los fragmentos de la zona son extraamente cor
tosNormalmente,elprogramamarcaresassea
lesconunavisoperonosiempreloseliminar,por
que al fin y al cabo los algoritmos tambin pueden
equivocarse.Unconsejoeseliminartodaslasvarian
tesquetenganavisos.SilacalidaddelADNesbue
na y la secuenciacin ha salido bien, la experiencia
dice que prcticamente todos los polimorfismos
marcados sern falsos positivos. Pero cuidado: si el
ADN est muy fragmentado o deteriorado la situa
cincambiacompletamenteyesprobablequehaya
quemodificarelalgoritmoenelvariant caller.Estos
programas tambin suelen dar, junto con cada va
riante,unndicedecalidadllamadoPhredScoreQ,
queeslaprobabilidad(enescalalogartmica)deque
esaposicin(yaseaunavarianteono)seaunerror:
PROCESO DE FILTRADO DE VARIANTES As, por ejemplo, un valor de Q de 10 significa una
probabilidad de 1 entre 10 de que la base sea un
error. No existe un valor Q acordado por el que fil
trartusvalores,peroponerunlmitealrededorde20
Salida del programa Annovar, con las primeras variantes anotadas de un exoma.
FILTRADOPORFRECUENCIA tratadeunarecopilacindeexomasdediferentes
DELPOLIMORFISMO grupos de investigacininteresadosendiferentes
enfermedadesmsqueunproyectodesecuencia
Yatenemosunalistamuchomscortaquealprinci cinensmismo(como1000genomes).
pio,peroprobablementetodavaestamoshablando
El campo de la genmica avanza a una velocidad
decentenaresomilesdevariantes.Elsiguientepaso
vertiginosa y probablemente esta lista se quedar
es filtrar por la frecuencia del polimorfismo en po
obsoletaenunosmesestraslasalidadeestapubli
blacingeneral.Porejemplo,siestamosinvestigan
cacin.Durante2017estprevistalapublicacinde
do una enfermedad que se da en un caso de cada
100000genomasenelproyecto100,000Genomes
100.000 nacimientos, un polimorfismo presente en
Project (https://www.genomicsengland.co.uk/the
el 5% de los individuos no nos interesa para nada.
100000genomesproject/)yAstraZenecapretende
Para ello, Annovar nos compara todas nuestras va
secuenciar2millonesdegenomas!enelplazode
riantes con una serie de bases de datos para decir
unosaos(LedfordH,2016).
nos la frecuencia en cada una de ellos. Algunas de
lasbasesmstilesson:
1000GenomesDatabase(1000 Genome Consor Y qu frecuencia deberamos escoger para filtrar?
Dependertotalmentedeloqueestemosbuscando.
tium,2015;http://www.internationalgenome.org/):
Existenalelosderiesgoencncerconfrecuenciasde
Ensufase3,tienelosgenomascompletosde2504
ms del 40% en poblacin control mientras que las
individuos, pertenecientes a 26 poblaciones dife
mutacionesdealgunasenfermedadesraraspueden
rentes.
ser nicas y no estar presentes en ninguna base de
ExomeVariantServer datos conocida. Pero s que podemos dar algunos
(http://evs.gs.washington.edu/EVS/): consejosdeformageneral:
Tiene 6503 exomas completos. Hay que tener en Silaenfermedadesconsideradarara(enEuropa
cuenta que la representacin de poblaciones es seconsiderararasiafectaamenosde1persona
mucho menor que en el proyecto de 1000 geno entre 2.000) podemos ser bastante conservado
mas,conungransesgohaciapoblacincaucsica. res y una frecuencia del 0.1% lograr filtrar una
Otro inconveniente de esta base datos es que no enormemayoradenuestrasvariantessinningn
espoblacincontrolsana,sinoqueenunporcen miedoaeliminarlaverdadera.
taje importante son individuos con diferentes ti
Si la enfermedad es ms comn, va a haber dos
pos de enfermedades (fibrosis qustica, enferme
casos. Si lo que queremos es buscar nuevas va
dades cardiovasculares, asthma). Es importante
riantesnoconocidasenlaliteratura,podemosser
conocersilaenfermedaddeestudioest(oessi
mucho ms conservadores puesto que podemos
milar) entre algunas de las listadas en su base de
asumirquecualquiervariantefrecuenteyahabr
datos puesto que, en ese caso, las variantes de
sido encontrada. En esta situacin, un 1% suena
riesgo estarn sobrerepresentadas en la base de
razonable.Siencambio,queremosdiagnosticara
datos.
un paciente, todas las variantes conocidas nos
Exome Aggregation Consortium or EXac (Lek, interesarn y deberamos utilizar una frecuencia
2016;http://exac.broadinstitute.org/): acordealaestructuragenticadelaenfermedad.
Es la base de datos ms completa hasta el mo Porejemplo,sisonmuchospolimorfismosdeba
mento, con 60,706 exomas completos en su ver jo riesgo deberamos usar una frecuencia mucho
sin0.3.1.Noobstante,tienelosmismosinconve mayorquesisonpocospolimorfismosdeelevado
nientesqueelExomeVariantServerpuestoquese riesgo.
almenosunalgoritmopositivo.Entrelasdosestra
FILTRADOPOREFECTODEL tegias, hay multitud de posibilidades, como por
ejemplo utilizar solo aquellos algoritmos que consi
POLIMORFISMO
deremosmstiles.Noeselpropsitodeestecap
Las mutaciones no sinnimas o missense son aque tulodiscutirlasventajasydesventajasdecadauno,
llasquecambianelaminocidodeunaprotenapor pero los ms utilizados actualmente son posible
otro. Pese a que pudiera parecer que ese cambio mente SIFT (Kumar, 2009) en que el un valor por
implica un cambio en la funcin de la protena, no debajo de 0.05 es patognico, y Polyphen2
ocurreasenmuchoscasos:cambiosdeunamino (Adzhubei, 2010) en el que clasifica las mutaciones
cidoporotrosimilar,ocambiosenzonasdelapro como benignas, posiblemente patognica y proba
tena no importantes harn que el efecto sobre la blementepatognica.Adems,recientementeseha
funcin sea menor o insignificante. Por fortuna, popularizadounnuevoalgoritmo,CombinedAnno
existen numerosos algoritmos que son capaces de tationDependentDepletionoCADD(Kircher,2014),
estimarlapatogenicidaddeuncambiodeaminoci que es una suma ponderada de la mayora de los
do.ConAnnovarporejemploobtendremosungran anteriormentemencionados.CADDnospresentaun
nmerodeellos:SIFT,PolyPhen,LRT,MutationTas valor numrico, el Cscore que funciona de forma
ter, MutationAssessor, FATHMM, MetaSVM y Me logaritmica. De esta forma, un valor Cscore de 10
taLR.Cadaunodeellossiguemtodosdiferentes,lo indica que ese polimorfismo seencontraraentre el
quehacequemuchasvecestansoloalgunosdenun 10%delassustitucionesmsdeletreasquepuedes
resultado positivo. La estrategia ms conservadora realizarenelgenomahumano,mientrasqueunva
defiltrarharqueseleccionemosaquellasvariantes lorde20indicaraqueestentreel1%.Elvalorque
enlasquetodoslosalgoritmosdenunresultadode elijamosdependerunavezmsdelascaractersti
patogenicidadmientrasquelamenosconservadora casdenuestraenfermedad,perounvalormayorde
seraaquellaenqueseleccionemoslasvariantescon 15o20esbastantecomnmenteutilizado.
CMOANALIZARVARIANTESENEL FILTRADOPORFUNCINDELGEN
NMERODECOPIAS(CNVs)
Con todos los pasos anteriores, habremos agotado
Annovartansoloanalizapolimorfismosdeunnico prcticamente toda la informacin que se puede
nucletido y microdeleciones o microinserciones, extraer a los polimorfismos: funcin, frecuencia,
pero obvia las grandes variaciones estructurales: efectoElsiguientepasoesmirarunpocomsarri
grandesinserciones,delecionesotranslocacionesde ba:noalpolimorfismosinoalgendndeseencuen
muchaskilobasesomegabasesqueenglobanunoo tra.Siestamosinteresadosenunaenfermedadneu
varios genes en su totalidad. Estas variaciones son ronal, un gen que codifique para una protena es
de por s muy interesantes, puesto que existen en tructural del estmago no nos interesar incluso si
fermedadescomoelautismoenlasquepareceque tieneunamutacinmuypocofrecuenteyprobable
la mayora de mutaciones relacionadas son CNVs. mentedeletrea.Porello,existenprogramasenlos
Desgraciadamente,porlaspropiascaractersticasde que,alproporcionarlesunalistadegenesnosindica
la secuenciacin de exomas (secuenciacin de las rnsufuncinylarelacinentreellas.Sibienexis
zonascodificantesdelgenoma,quesonunporcen tenvariosprogramasquerealizanestafuncin,uno
taje mnimo y no uniformemente distribuido), de de los primeros y ms populares es Gene Ontology
tectar y analizar las translocaciones y las CNVs es (Ashburner, 2000; http://www.geneontology.org/).
bastante complejo, especialmente cuando se en Esteprogramapermitenosolofiltrarlosgenesque
cuentranenheterocigosis.Lasdelecionesenhomo nonosinteresen,sinoademscuantificarsilostr
cigosissonlasmsfcilesdedetectar. minos relacionados con nuestra enfermedad estn
Existen varias herramientas informticas que pro enriquecidos.Porejemplo,pensemosenunaenfer
porcionanunaestimacindeCNVs.Todasellasem medad relacionada con pigmentacin, un trmino
pleandiferentesalgoritmosquecomparanelnme presente en el 0.5% de protenas de la base de da
rodesecuenciasdeungen(conocidocomolacober tos, pero que en nuestra lista est en un 10% de
turadelgen)respectoalasesperadas.As,porejem ellos. Podemos entonces pensar que existe no solo
plo, una delecin heterozigtica debera tener la unamutacinsinoposiblementevariasconunefec
mitad de cobertura de la esperada, mientras una toacumulativo.
duplicacin homozigtica debera tener el doble.
Unavezms,existennumerosasherramientas,pero CONFIRMACINDELAMUTACIN
las cuatro ms utilizadas en la actualidad son
XHMM,CoNIFER,ExomeDepthyCONTRA.Noobs Alfinaldelproceso,sitodohaidobien,deberamos
tante, se han publicado evidencias (Tan,2014) de tener una lista de mutaciones muy prometedoras,
que todos ellos tienen debilidades, incluyendo un perodesgraciadamentenopodremospublicarlatan
porcentajesignificativodefalsospositivosy/ofalsos fcilmente: es necesario confirmarlas, un proceso
negativos en segn qu circunstancias. En nuestra que puede tomar mucho ms tiempo que el de en
propia experiencia (utilizando ExomeDepth y CoNI contrarla. Esto es debido a que incluso la mutacin
FER) aproximadamente entre el 2030% de varian ms obvia y patognica en apariencia puede luego
tespredichasnoeranluegoreplicadasalutilizarm no tener un efecto funcional debido a procesos co
todosexperimentales.Porello,consideramosqueel molacompensacingnica.Dehecho,laliteratura
reto de predecir CNVs a partir de datos de exomas estplagadadecasosdemutacionespublicadasque
siguesiendocomplejoderesolversibiendebidoasu luego no han tenido un efecto real en la enferme
importanciaesnecesariointentarlo. dad.
AL FINAL DE TODO EL
PROCESO DE FILTRADO DE
VARIANTES SE DEBERA DISPONER
DE UNA LISTA DE MUTACIONES
POTENCIALES QUE DEBEN
SER CONFIRMADAS,
YA QUE INCLUSO LA MUTACIN
MS PATOGNICA EN APARIENCIA
PUEDE LUEGO NO TENER UN
EFECTO FUNCIONAL.
emplearenelanlisisyanotacindelosdatos,reco Res20:110121,2010.
mendamoslarevisindeWolf(Wolf,2013). Robinson JT, et al. Mesirov. Integrative Genomics
Viewer. Nat Biotech 2011 29, 2426 . URL: http://
REFERENCIAS software.broadinstitute.org/software/igv/home [15
052017].
Ashburneretal.Geneontology:toolfortheunifica
Sauna ZE, et al. Understanding the contribution of
tionofbiology.NatGenet.200025(1):259.
synonymous mutations to human disease. Nat Rev
AdzhubeiIA,etal.Amethodandserverforpredic Genet. 2011 Aug 31;12(10):68391. doi: 10.1038/
ting damaging missense mutations. Nat Met nrg3051.
hods20107(4):248249.
SiepelA,etal.Evolutionarilyconservedelementsin
ENCODE Project Consortium. An integrated vertebrate, insect, worm, and yeast geno
encyclopediaofDNAelementsinthehumangeno mes.GenomeRes200515:10341050.
me. Nature. 2012 Sep 6;489(7414):5774. doi:
TanR,etal.Anevaluationofcopynumbervariation
10.1038/nature11247.
detectiontoolsfromwholeexomesequencingdata.
Exome Variant Server. URL: http:// Hum Mutat. 2014 Jul;35(7):899907. doi: 10.1002/
evs.gs.washington.edu/EVS/[20May2017]. humu.22537
Fokkema IF, et al. LOVD v.2.0: the next generation The 1000 Genomes Project Consortium. A global
ingenevariantdatabases.HumMutat.2011May;32 referenceforhumangeneticvariation. Nature2015
(5):55763. 526,6874doi:10.1038/nature15393
KircherM,etal.Ageneralframeworkforestimating The 100,000 Genomes Project. URL: https://
the relative pathogenicity of human genetic va www.genomicsengland.co.uk/the100000genomes
riants.NatGenet.2014Feb2.doi:10.1038/ng.2892 project/[20May2017].
KumarP,etal.Predictingtheeectsofcodingnon WangK,etal.ANNOVAR:Functionalannotationof
synonymous variants on protein function using the genetic variants from nextgeneration sequencing
SIFTalgorithm.NatProtoc.2009;4(7):107381. data. Nucleic Acids Research, 2010 38:e164. URLs:
Ledford H. Why big pharma wants to collect 2 mi URL: http://wannovar.wglab.org/ ; http://
llion genomes. Nature. 2016. Doi: 10.1038/ annovar.openbioinformatics.org/en/latest/ [1505
nature.2016.20697 2017].
LekMetal.Analysisofproteincodinggeneticvaria Wolf JB. Principles of transcriptome analysis and
tion in 60,706 humans. Nature. 2016 Aug 18;536 geneexpressionquantification:anRNAseqtutorial.
(7616):28591.doi:10.1038/nature19057. Mol Ecol Resour. 2013 Jul;13(4):55972. doi:
10.1111/17550998.12109
OMICtools: Bioinformatics software and database
search engine. URL: https://omictools.com/ [2005
2017].
Pirooznia, M., et al. Wholegenome CNV analysis:
advancesincomputationalapproaches.Frontiersin
Genetics 2015 6(138). doi: doi.org/10.3389/
fgene.2015.00138.
PollardKS,etal.Detectionofnonneutralsubstitu
tion rates on Mammalian phylogenies. Genome
scar Puig
Phosphorus Inc.
LA GENMICA EN LA PRCTICA CLNICA
INTRODUCCIN culardecadapacientepermiteconseguirtratamien
tosmseficaces.Estaevolucinhasidoposiblegra
Tradicionalmente, los tratamientos mdicos se ba cias a una nueva disciplina cientfica llamada gen
sabanenrespuestasclnicasmedidasenpoblaciones micayelesfuerzoqueconcluyconlasecuenciacin
heterogneas de pacientes con diversos orgenes delgenomahumanoen2001(Lander,2001;Venter,
tnicos y bases moleculares y genticas muy dife 2001).Lagenmicaeselestudiointegraldelconte
rentes, no en el perfil molecular de cada paciente nidoyfuncionamientodelosgenomas.
individual. Como consecuencia, estos tratamientos
Lasecuenciacindelgenomahumanohacambiado
resultaban ser ineficaces en la mayora de indivi
la forma en la que practicamos la medicina. La dis
duos.Porejemplo,en2001soloel25%depacientes
ponibilidad de la secuencia de todos los genes hu
con cncer respondan adecuadamente al trata
manoshapermitidodesarrollartcnicascapacesde
miento (Figura 1). Actualmente, la tendencia es
medir diferencias de expresin de ARN o detectar
practicar medicina de precisin, aproximacin enla
cualquiermutacinenelADNylosavancesbioinfor
que los doctores usan pruebas diagnsticas para
mticoshanpermitidofacilitarlaintegracindeto
identificarmarcadoresbiolgicos,amenudogenti
daestainformacinparatomardecisionesmdicas.
cos,queayudanadeterminarqutratamientoesel
Empresas como Foundation Medicine, Genomic
mseficazparadeterminadopaciente,teniendoen
Health, y muchas otras han basado su xito en el
cuenta sus singularidades moleculares y genticas.
procesado e integracin de informacin gentica
Lacomposicingenticadecadaindividuomarcala
aplicadaenelcampodelamedicina. En2017yaes
respuesta a la enfermedad y a su tratamiento y la
rutinario que un mdico onclogo pida los resulta
combinacindelahistoriaclnicaconelperfilmole
dosdeltestFoundationOneuOncotypeDxparade laquinasaEML4ALKpuedensertratadosconmedi
terminarqucursodetratamientorecomiendaasus cinascomoCrizotinibyAlectinib,envezdequimio
pacientes.Enlosltimos15aoslaprcticamdica terapia,conlaconsiguientemejoraenlacalidadde
hacambiadograciasalasecuenciadelgenomahu vida y la extensin de la misma. Las dos transloca
mano y se puede decir que hay un antes y un des cionessepuedendetectaraniveldelADNmediante
pus del genoma humano en medicina. La secuen lasecuenciacindelgenomadeltumor.Claramente,
ciacindeADNoARN,pormediodelossecuencia elfuturodelamedicinaenelcampodelcncer,yen
dores de Illumina o Ion Torrent, se utiliza de forma otrasenfermedades,estenlaintegracindelage
rutinariaenlaprcticamdica,yeltrminomedici nmicaenlaprcticamdica.
nadeprecisinseutilizaparailustrarlaprcticam
dica actual basada en interpretar las singularidades
SELECCINDELASPRUEBAS
delacomposicinmoleculardecadapacienteyde
rivar tratamientos que se adaptan especialmente a Lasecuenciacindelprimergenomahumanocost
cada persona, teniendo en cuenta su composicin milmillonesdedlaresydurdiezaos,culminan
gentica y la interaccin de sta con el medio am do en el trabajo presentado en 2001. En la actuali
biente. La prctica anterior de tratar un paciente dad, se puede secuenciar un genoma humano en
basndose en los resultados obtenidos en la media unospocosdasyporelpreciodepocomsde1.000
delapoblacinhadadopasoauntratamientoper dlares.Laevolucintecnolgicaenelcampodela
sonalizado basado en el perfil molecular de cada secuenciacin de ADN y en la integracin bioinfor
uno. mticadelosresultadosharesultadoenunaexplo
LaCoalicindeMedicinaPersonalizadaesunaorga sindeinformacinquehapermitidoelavancerapi
nizacinqueseencarga,entreotrasactividades,de dsimodelaprcticagenmicaenmedicina.Elpun
hacer un seguimiento de las medicinas que requie todeinflexinocurrien2007conlainvencinpor
renpruebasbasadasenmarcadoresespecficospara parte de la compaa Solexa, adquirida posterior
una administracin ms efectiva. En 2017 hay 132 menteporIllumina,delasecuenciacinporsntesis
medicinas en esta categora, en comparacin con deADN.Comohemosvistoencaptulosanteriores,
solo 5 en 2008 (Personalized Medicine Coalition, estatcnicapermitelasecuenciacindemillonesde
2017). Muchas de ellas han sido aprobadas por la fragmentoscortosdeADNysuposteriorensambla
FDAenconjuncinconunapruebadiagnsticaque je,paradeterminarlasecuenciaenteradelgenoma
se utiliza para determinar qu pacientes responden deunapersonadeformabaratayprecisa.Losavan
mejoraltratamiento.Estasmedicinasestnbasadas cesbioinformticosenelprocesado,almacenamien
en perfiles especficos de cada paciente. Por ejem to y visualizacin de la informacin genmica han
plo, pacientes con leucemia crnica mieloide con permitido la integracin de los perfiles genmicos
unatranslocacinensugenomaconocidacomocro con el historial mdico de cada paciente. El campo
mosoma Filadelfia, que transpone el oncogn ABL cientfico de la genmica ha explotado en los lti
detrs delgen BCR, respondeneficazmentealinhi mos15aos.
bidordequinasasImatinib(Gleevec).As,unaenfer Los tipos de pruebas genmicas utilizadas en la
medadqueacababaconlavidadelospacientesen prctica clnica se reducen a dos: secuenciacin de
mesesyrequeratratamientosdequimioterapiaque ADN,quepermitedeterminarmutacionesenelge
debilitaban considerablemente al paciente es trata nomaquecausanlaenfermedad,ysecuenciacinde
daahoraeficazmentepermitiendounavidacasinor ARN,quepermiteestudiarcambiosenlaexpresin
mal durante aos. De forma similar, pacientes con gentica que sirven como marcadores predictores
cncerdepulmnconlatranslocacinespecficaen
deactividaddeunmedicamento,opronsticosdela desarrolloembrionarioyseapagadespusdelnaci
evolucindeunaenfermedad.Unejemplodeprue miento. Como consecuencia de la translocacin, el
basdelaprimeracategora(secuenciacindeADN) genALKseexpresadenuevoeneltejidodelpulmn
es, por ejemplo, el FoundationOne de Foundacion traseldesarrollo,algoqueconstituyeunaexpresin
Medicine (Frampton et al, 2013) que caracteriza el aberrante y deslocalizada. Esta expresin descon
perfildemutacionesdeuntumor,loquepermiteel trolada de la quinasa ALK causa la transformacin
tratamiento del cncer segn el conjunto de muta de las clulas sanas del pulmn en clulas cancero
cionespresenteseneltumordecadapaciente.As, sasyacabacausandocncer.Ladesregulacindela
porejemplo,pacientesconcncerdepulmnconla expresin de la quinasa ALK causa un tumor muy
mutacin EML4ALK presente en su tumor respon agresivo y los pacientes con esta mutacin que no
den favorablemente a Alectinib, un inhibidor de la sontratadoscorrectamentepuedenmorirenpocos
quinasaALK(Sakamotoetal,2011).Porcontra,los das con metstasis que invaden, sobre todo, el h
pacientes que no tienen la mutacin EML4ALK no gadoyelcerebro.Medicamentosqueinhibendirec
sebeneficianenningunamaneradeAlectinib,yne tamentelaactividaddelaquinasaALKhandemos
cesitansertratadosconquimioterapiauotrasmedi tradosermuyefectivoscontraelcncerdepulmn
cinas.Unejemplodelaspruebasdelasegundacate causadoporestamutacin(Sakamotoetal,2011).
gora (secuenciacin de ARN) es, por ejemplo, On La primera prueba de identificacin de la mutacin
coType Dx (Paik et al, 2006), de Genomic Health, EML4ALK fue una prueba de FISH (hibridacin in
una prueba de valor pronstico y predictivo de la situ fluorescente) y fue utilizada en el desarrollo de
probabilidad de recurrencia de cncer de mama en Crizotinib, el primer tratamiento contra NSCLC del
estadiotemprano, quepermitedeterminarsi lapa tipoEML4ALK.LapruebadeFISHdetectadirecta
cientetieneuncncermsagresivoydeberadeser mente la translocacin en los cromosomas del tu
tratadaconquimioterapiaosi,porcontra,elcncer mor. Sin embargo, es una prueba tediosa, cara (en
esmenosagresivoylaadministracindehormonas losEE.UU.cuesta1.500dlares)yrequieretantoun
essuficienteparaeltratamientoefectivo,loqueevi procesadoespecialdeltejidocancergenocomoco
ta la quimioterapia y proporciona la consecuente nocimientos especializados de patologa, ya que
mejoraenlacalidaddevida. deben contarse un numero especifico de clulas
(ms de 15) con la translocacin, utilizando un mi
LAGENMICAENONCOLOGA croscopiodefluorescenciaparadeterminaruncaso
positivo(Ouetal,2011).LapruebaFISHdiopasoal
Un ejemplo muy ilustrativo de las ventajas de las anlisisdetincindeimmunohistoqumica(IHC)del
pruebas genmicas es el del cncer de pulmn con tumor. En el tejido pulmonar canceroso donde la
mutacionesenEGFR,ALK,RET,METyotros. quinasa ALK se expresa, se puede detectar la pre
Elcncerdepulmneselcncermscomnyagre senciadelamismamediantelatincindelaprote
sivo,con1.8millonesdecasosnuevosen2012y1.2 naconanticuerposespecficos. Este anlisis es mu
millones de muertes en todo el mundo. (American chomssencillodellevaracabo,msbarato($150)
Lung Association). El 85% es del tipo NSCLC (non y solo requiere conocimientos generales de patolo
small cell lung cancer)ocncerdepulmndeclulas gaparasuinterpretacin,quesereduceadetermi
nomicroctico.El57%deloscasosdeNSCLCestn nar si la protena est en el tejido (caso positivo) o
causadosporunatranslocacindelgenquecodifica noest(casonegativo).Elanlisisimmunohistoqu
la quinasa ALK (quinasa anaplastia de linfoma) que mico ha sido la prueba utilizada en el desarrollo de
lo situa detrs del gen EML4. Normalmente el gen inhibidores de la quinasa ALK de segunda genera
ALK se expresa en el sistema nervioso durante el cin, como el Alectinib, que han demostrado una
diagnsticocorrectoaaquellospacientesquesobre
vivenalaarritmia,sinolaimportanteposibilidadde
diagnosticar a sus familiares directos permitiendo
medidas profilcticas. Por ejemplo, el 25% de los
casos de sndrome de Brugada, una arritmia que
acabaconlavidadepersonasqueparecensanas(ya
veces incluso son atletas) es causado por mutacio
nesenelgenquecodificaelcanaldesodioSCN5A,
genqueseexpresaenelcoraznyquetieneunpa
pel central en la conduccin de impulsos elctricos
(SchulzeBahr et al, 2003). La implantacin de un
desfibriladorpermitelacorreccindeldefectodela
mutacin,aldetectarsituacionesdearritmiaydes
plegarunshockelctricoquenormalizaloslatidosy
previene la muerte sbita. El diagnstico gentico
de estos pacientes se produce de forma rutinaria
analizando el ADN de linfocitos en una muestra de
sangre y permite la identificacin de familiares que
no han demostrado ningn sntoma, lo que puede
prevenirlamuertesbitadelosmismos.
Unasituacinsimilarocurreenpacientesconhiper
colesterolemiafamiliar(FH),unaenfermedadcausa
da por mutaciones en los genes LDLR, PCSK9 o
ApoB que causa un aumento del colesterol en san
gre,aumentandoelriesgodeaterosclerosis(Soutar
y Naoumova, 2007). La medicin del colesterol co
mobasedeundiagnsticoesmuyimprecisa,sobre
todoennios,porqueestos,adiferenciadelosadul
tos,nomuestranningnsntomaniniveleselevados
decolesterolpatolgicos.Sinembargo,eldiagnsti
cogenticodelosfamiliaresdeunpacienteconFH
permitelaidentificacintempranadeportadoresde
mutaciones y el inicio de tratamiento con medica
mentos llamados estatinas, que reducen significati
vamente el riesgo de enfermedades cardiovascula
res.As,cuandounpacientellegaalaconsultayes
diagnosticado clnicamente con FH, hoy en da es
rutinarioquesedeterminequmutacineslacausa,
as como si la mutacin ha sido heredada por sus
familiares, lo que permite hacer un seguimiento y
tratamientoadecuados.
Lagenmicaenenfermedadesraras queestnenelADNcausandolaenfermedad?Qu
ElcasodeNicVolker(Herper2011),unniosalvado ocurre cuando se detectan artefactos como si fue
por la secuenciacin de su genoma, representa un senmutacionesreales,confundiendolosresultados
claro ejemplo de cmo las pruebas genmicas han diagnsticos? Qu pasa cuando las mutaciones
cambiadolaformaenquesediagnosticanlasenfer identificadassondesconocidasynosepuedetrazar
medades raras en nios. Se calcula que hay unos inequvocamente la causa de la enfermedad? En el
7.000 tipos de enfermedades raras, que afectan a sndromedeBrugada,el70%deloscasossedeben
ms de 300 millones de personas en el mundo, la a mutaciones desconocidas, as que el diagnstico
mayora nios. Nic es un ejemplo de enfermedad genticonoproduceningnresultado.Enloscasos
rara:desdequeeraunbebtenaproblemasgastro de enfermedadesraras,enlos queseanalizaelge
intestinales, con inflamacin del colon. A los seis noma entero, a menudo se descubren cientos de
aos,lainflamacineratanseveraquehabanecesi posibles mutaciones con significados confusos que
tadocasicienoperacionesyhabapasadosuvidaen nosepuedenasignarclaramentealaenfermedad.
elhospital.Losmdicosinvestigaronmutacionesen Otroposibleproblemadelaspruebasgenmicases
genesconocidos,perolosresultadosfueronnegati lareclasificacindemutaciones,quesucedecuando
vos. Finalmente, se le extrajo el colon, pero no se hay informacin adicional que permite modificar la
consigui parar la inflamacin. El caso acab en el primeraclasificacin.Porejemplo,consideremosun
hospitaldeWisconsin,dondeunequipopionerose pacienteconsntomasdearritmiacardiacaalquese
cuenci su genoma y demostr que una mutacin le detecta una mutacin de efecto desconocido y,
enelgencodificantedelaprotenaXIAP,hastaaho porlotanto,delaquenoseconstaqueproduzcala
ra no relacionado con la enfermedad de Nic, era la enfermedad. Seis meses mstarde, unnuevo estu
causadesupatologa.Untrasplantedemdulaco dio cientfico demuestra que esa mutacin s que
rrigieldefectoycontribuyaqueNiclleveunavi causala enfermedad.Elinforme gentico que sele
dacasinormal.ComoNic,cientosdeniossebene dioalpacienteseismesesantesdeberaactualizarse
fician cada ao de la secuenciacin del genoma en paraincorporarlanuevainformacin,deformaque
busca de mutaciones que causen la enfermedad. El el paciente pueda ser tratado correctamente. Pero,
beneficioseproduceinclusoenloscasosenlosque qu sucede si el informe gentico no es actualiza
no hay tratamiento conocido, porque, al menos, se do? Con qu frecuencia deben de actualizarse los
terminalaodiseadiagnsticaenlaqueseemplean informesgenticos?
un incontable nmero de anlisis y otros procedi
mientosmdicosparaintentardiagnosticarlaenfer
HALLAZGOSSECUNDARIOS
medad,amenudosinxito.Paralospadresdeestos
niosafectados,unarespuestaclara,inclusocuando La secuenciacin completa del genoma humano
nohaytratamiento,esmejorqueningunarespues puedellevarahallazgossecundariosyesmuydifcil
ta. determinar qu hacer en estos casos. Se deben
comunicarloshallazgossecundariosalospacientes?
Loshallazgossecundariosaparecencuandoseiden
PROBLEMASTICOS
tifican mutaciones en genes no relacionados con la
Las pruebas genmicas no estn desprovistas de enfermedad pero que afectan directamente la cali
problemas.Nohayningunapruebadiagnsticaque dad de vida de los adultos. Por ejemplo, podemos
sea100%precisa.Enelcasodelaspruebasgenmi pensarqueunapersonaconarritmiacardiacaserea
castodavaquedanalgunascuestionesqueresolver: lizaunapruebagenmicaquenoencuentralacausa
Qusucedecuandonosedetectanlasmutaciones de la arritmia, pero que identifica al paciente como
portadordeunavarianteenelgenPSEN1,quecausa engeneral,fcilesdeentender,peroestnlascom
Alzheimer,oenBRCA1,quecausacncerdemama paas obligadas a procesar un informe gentico
yovario.Quhacerenesoscasossielpacienteno cadavezqueelpacientedeseeunnuevoanlisisde
quiereteneresainformacinadicional?Quseles los datos? Las organizaciones mdicas publican re
diceasusfamiliaresquepuedenhaberheredadola gularmenteguas quesirven de referenciadecmo
mismamutacin?Quocurresiesainformacines los datos genticos deben compartirse con los pa
robada y usada contra el paciente para negarle se cientes. Sin embargo, no hay legislacin clara que
guromdicooempleo?Hayleyesqueprotegenalos definaelprocesodeaccesoalainformacingenti
pacientesdelusoindebidodeinformacingentica, caylosdistintosproveedoresdepruebasgenticas
pero los problemas ticos hay que discutirlos antes tienenpolticasdiferentes.
dequeserealicelapruebagentica,parairprepara
docontracualquiersituacin.
CONCLUSIN
Los ltimos15 aos hanvisto avancesincreblesen
ACCESOALAINFORMACINGENTICA
lasecuenciacindeADN,ascomodelprocesadode
Los laboratorios genticos tienen la obligacin de informacinderivadadelosmismos.Hoyenda,las
guardarlosdatosdesecuenciacinalargoplazo,de pruebas genmicas son parte de la rutina de diag
forma que el paciente tenga acceso a los mismos nstico clnica y, en el futuro, van a proporcionar
variosaosdespusdequeseobtuvieronlosresul soluciones a problemas cada vez ms complejos.
tadosdelaprimeraprueba.EnlosEstadosUnidosla Porejemplo,esdifcilidentificarlacausadeunaen
mayora de estados regulan el almacenamiento de fermedad polignica, donde varios genes interac
resultados genticos con plazos de hasta 15 aos tanentreellosyconelmedioambienteparacausar
despus de que la prueba se procese. Pero, cmo la enfermedad en unos individuos ms propensos
se debe compartir la informacin gentica con los queotros(laobesidadcomoejemplo).Sinembargo,
pacientes?Losdatosdeunareaccindesecuencia tenemos cada vez ms cerca la posibilidad de inte
cin genmica pueden ocupar terabytes, son com grarinformacincompleja,porejemplo,atravsde
plejos y requieren de conocimientos especializados redesdegenesyconlasuperposicindedatosorto
parapoderentenderlos.Losinformesgenticosson, gonales producidos por varias metodologas, como
Llus Montoliu
Centro Nacional de Biotecnologa (CNB-CSIC) y Centro de Investigacin
Biomdica en Red en Enfermedades Raras (CIBERER-ISCIII)
EDICIN DEL GENOMA
PublicacionesCRISPRenPubMedentre2001y2016.
ELFUTURODELAEDICINDELGENOMA ydemssecuenciasindispensablesparaelfunciona
miento ptimo de los genes. Su estudio funcional
Afinalesde2016,unartculoderevisinenlarevista
era,hastalaactualidad, algo imposible.La existen
Science pona el acento del xito de las herramien
cia de secuencias repetitivas por doquier inhabilita
tasCRISPRenlavelocidaddeobtencindenuevos
bacualquierestrategiatradicionalbasadaenrecom
mutantes(Cohen,2016).Ymostrabaunafiguraenla
binacin homloga. Sin embargo, con la aparicin
quecomparabacmo,aproximadamente,lasestra
de las nucleasas de edicin y, especialmente las
tegiastradicionalesdeinactivacingnicamediante
CRISPR, apenas necesitamos encontrar (p.e. utili
recombinacin homolga en clulas troncales em
zando recursos bioinformticos) dos secuencias de
brionales pluripotentes de ratn (clulas ES, del in
20nucletidosnicasqueseubiquenenposiciones
glsEmbryonic Stem cells)requerandeunos18me
flanqueantes al elemento regulador que deseamos
sesdetrabajo,mientrasqueelusodeunaestrategia
investigar para que podamos plantear una estrate
CRISPR para inactivar el mismo gen poda acome
gia de delecin basada en dos guas de ARN dirigi
tersehoyendaenunos6meses,estoes,tresveces
das a estas microsecuencias nicas que, normal
ms rpido. Siendo aproximadamente cierto este
mente, dirigirn con xito la eliminacin de la se
cuadro(aunqueolvidabaexplicarquelamayorade
cuencia interna y permitirn analizar el fenotipo de
ratones mutantes obtenidos mediante CRISPR son
laclulaoanimalresultante.Ennuestrolaboratorio
mosaicosy,porello,serequierenvariosmesesadi
hemosaplicadoconxitoestaestrategiaparaesta
cionales,frecuentementehasta6meses,paracruzar
blecer la relevancia de elementos reguladores del
los ratones fundadores, segregar los alelos intere
locusdelatirosinasaderatnysuposiblepapelen
santesypoderanalizarlosenprofundidad)personal
la enfermedad rara de albinismo (Seruggia et al.,
mente creo que lo relevante de las estrategias
2015).Laaplicacinsistemticadelasherramientas
CRISPRnoespoderabordarexperimentosmsrpi
CRISPR en el estudio funcional de todo el genoma
damente,sinopoderabordarexperimentosquean
ser una de las aplicaciones ms interesantes de la
teriormente, sencillamente, no podan acometerse.
edicingenticaenelfuturoinmediato.
ste y no otro es el gran xito de las herramientas
CRISPR(y,de,engeneral,cualquieradelossistemas Elintersporlaepigenticaestaumentandoame
de edicin gentica anteriores, pero especialmente dida que vamos descubriendo cmo determinadas
las CRISPR, por su sencillez, robustez y eficacia), la protenas y pequeas molculas que interaccionan
posibilidad que nos ofrecen de hacer ahora experi conlacromatinamodulanlaexpresindelosgenes
mentosquehastafecharecienteeraninabordables. de forma indirecta, cambiando su nivel de metila
Comentaralgunosejemplosacontinuacin. cindelDNA,promoviendolacondensacinorela
jacindellocus,propiciandoointerfiriendolainter
ElusodelasherramientasCRISPRhaposibilitadoel
accin de determinadas secuencias con protenas
anlisis funcional del genoma no codificante, el ge
nucleares,msalldelainformacingenticacodi
noma intergnico. Este representa la inmensa ma
ficadaenlasecuenciadelDNA.Hastafechasrecien
yoradelgenoma(98%),frentealosexiguos2%en
tes, la modulacin de los efectos epigenticos era
losqueseacumulanlosgenestalycomoloscono
posible pero necesariamente implicaba alterar el
cemos. En el genoma no codificante encontramos
patrndeexpresindemuchosgenes,alusarsedro
mltiples familias de elementos mviles
gas inespecficas, que activaban o silenciaban mu
(transposones y retrotransposones) y diversos gru
chosgenesalavez.Actualmentepuedenusarsever
pos de secuencias repetitivas, pero tambin encon
sionesde lanucleasa Cas9inactivasdesde elpunto
tramos los elementos reguladores de la expresin
de vista de la actividad endonucleasa (dCas9, del
gnica: potenciadores y silenciadores transcripcio
ingls dead Cas9), pero que mantienen intacta su
nales,especficosdetejidootipocelular,aisladores
mo,yaseanvegetalesoanimales,hageneradodu
rantelospocosmilesdeaosquellevamosaplicn
dola variedades con extraordinarias propiedades
agronmicas, pero desgraciadamente tambin
subptimasfrentealasagresionesmedioambienta
les o a los ataques de plagas o infecciones. Es fre ES IMPORTANTE
cuente haber conseguido vacas con excelente pro
duccinlcteaperomuysensiblesamastitis,mien PROMOVER UN DEBATE
trasqueotrasrazasvacunassonresistentesalain TICO, ENTRE EXPERTOS
feccin en sus glndulas mamarias, aunque con un
niveldeproduccindelechesensiblementemenor.
Y CON LA SOCIEDAD,
Losintentostradicionalesdecruzarambasvarieda PARA DISCUTIR EL USO
des intentando detectar, entre la descendencia, in RESPONSABLE DE LAS
dividuos ptimos para la produccin lctea y resis
tentesalainfeccinhandadolugaraanimalescon TCNICAS DE EDICIN GENTICA
caractersticas intermedias, al entrar en juego la SOBRE PACIENTES HUMANOS,
meiosisylasegregacindecaracteres.Unaalterna
EN EL QUE SE EVALE, CASO
tivaalamejoragenticatradicionalesahoraeluso
de herramientas de edicin gentica (Tan et al., POR CASO, POSIBLES RIESGOS
2016).Combinadaconelconocimientobiolgicode Y BENEFICIOS, ANTES
losmecanismossubyacentesligadosaloscaracteres
apreservarconsigueeditarlosgenesenlasvarieda
DE TOMAR DECISIONES
des de consumo produciendo animales (o plantas) GENRICAS QUE PODRAN
con las caractersticas deseadas y con el resto del SER IMPRUDENTES, CON LOS
genoma propio de la variedad intacto. Adicional
mente,dadoquelaedicingenticanodejahuellay CONOCIMIENTOS QUE
puedetrasladarvariantesmutantesexistentesenla TENEMOS HOY EN DA.
naturalezaresultamuydifcildenominaraestosor
ganismos resultantes como modificados gentica
mente y aplicarles la estricta legislacin de OGM.
De ah que sea tambin una fuente de innovacin
futura para nuevas empresas biotecnolgicas que
deseen mejorar especies de consumo editndolas
conmutacionesyaexistentesenelmedioambiente.
Como ltimo ejemplo de aplicacin futura de las
herramientas CRISPR de edicin gentica, tengo
quereferirmetambinalimpulsognico(delingls
gene drive),unaestrategiaenlaqueunasecuencia
de ADN que contiene los genes para las guas de
ARN y el gen de la nucleasa Cas9, flanqueada por
secuenciashomlogasdelgenainactivar,promueve
espontneamente su insercinenlos dos alelosdel
gen,lograndosubvertirelordenMendelianoycon
seguir que todos los descendientes de un animal
expuesto a uno de estos cassettes autoreplicantes
acabenconvirtindoseenhomocigotosmutantesen
unasolageneracin.Laaplicacindeestrategiasde
impulsognicoenelcontroldeplagasydeenferme
dades infecciosas graves causadas por insectos es
ya,yseguirsiendo,unadelasaplicacionesconma
yorfuturo(Hammondetal.,2016).
mutantes o corregir las mutaciones deseadas, pero llados en EE.UU. permiten sustentar una edicin
que la mayora de embriones resultantes eran mo gentica en embriones humanos sin apenas mosai
saicos, portadores de numerosos alelos distintos, cismoysinlamodificacindetectabledesecuencias
debido a la activacin de la ruta de reparacin de genmicas parecidas a la diana (Hong et al., 2017).
unindeextremosnohomlogos(NHEJ),yquepo Estos resultados debern confirmarse en otros ge
dandetectarsealteracionesnodeseadasensecuen nesyenfermedades.
cias parecidas del genoma. Otros dos equipos en Personalmente, sigo pensando que el futuro de las
Chinaconfirmaronestaobservacininicialyrecien herramientasdelaedicingenticaenlaclnicaest
temente los resultados parecen haber sido mejora eneldesarrollodenuevasestrategiasdeterapiag
dosporunequiponorteamericano. nica somtica, potencialmente aplicables a muchos
Siendopotencialmenteinteresantelaedicingen pacientes de enfermedades congnitas, raras o no,
ticaenembrioneshumanos(siempreycuandofuera incurables. Diversos ejemplos exitosos, ya aborda
para una buena causa, para un motivo razonable, dos en estudios preclnicos son muy prometedores.
como la eliminacin de alelos mutantes causantes Aprincipiosde2016conocimostresinvestigaciones
de enfermedades degenerativas y/o mortales para independientes en las que los tres equipos usaban
las que hoy en da no tenemos cura, tras la evalua un modelo de ratn de distrofia muscular de Du
cin caso por caso de los beneficios y riegos de la chenneparavalidarsusestrategiasdecorreccindel
intervencin gentica y, por supuesto, no para la mismo mediante reactivos CRISPR, encapsulndo
potenciacindecaracteresdeeleccin)creoqueno los en vectores virales adenoasociados (AAV), y
es la aplicacin futura de las herramientas CRISPR aprovechando los mltiples serotipos existentes,
en la prctica clnica. La existencia de mtodos de contropismosdiversos,capacesdeentrarpreferen
rutina actuales, robustos y eficaces, como el diag tementeendeterminadostiposcelulares(Nelsonet
nstico gentico preimplantacional (DGP) hace in al.,2016).
necesariausarlaedicingenticaparatratarenfer Tras estos primeros trabajos de terapia gnica so
medadescongnitasmonognicas,puesesgeneral mticaaparecieronotrosconfirmandolautilidadde
mente posible seleccionar aquellos embriones que estainnovadoraestrategiaenotrosmodelosanima
no portan el alelo mutante. Solamente en un muy lesdediversasenfermedades(tirosinemiaheredita
reducido nmero de casos cabra plantearse la edi ria de tipo 1, deficiencia en ornitin trascarbamilasa,
cingenticaenembrioneshumanos.Porejemplo, catatara congnita, retinosis pigmentaria, amauro
en enfermedades graves, degenerativas o fatales, sis congnita de Leber, enfermedad de Hunting
causadaspormutacionesdominantesenlasqueun ton) usando AAVs y tambin mediante sistemas
miembrodelaparejafuerahomocigotoparalamu novirales,nanopartculas, que muyprobablemente
taciny,porlotanto,transmisorobligatoriodelale sernelfuturoparalaentregadereactivosCRISPRa
lomutanteatodasudescendencia,queirremisible lasclulasdiana.Enmenosdedosaossehanacu
mente desarrollara la enfermedad. O en casos de muladonumerososejemplos(enmodelosanimales,
parejasenlasquelosdosmiembrossonhomocigo preclnicos)quevalidanlaaproximacinteraputica
tosparalamutaciny,entonces,todossushijosse somticadelaedicingenticamediadaporlashe
guiran siendo homocigotos y desarrollaran la en rramientas CRISPR. Es posible que pronto veamos
fermedad.EnestosdoscasoselDGPnoestilypo unensayoclnicoaprobadoconCRISPRparaeltra
dravalorarselaedicingentica,siestuvieralegal tamientodealgnpacientedeenfermedadcongni
mente permitida, si el experimento fuera aprobado ta.Porelmomento,ningunapersonahasidotrata
y si se hubieran validado los parmetros de seguri da con estas estrategias. Solamente tenemos noti
dad yeficacia.Losrecientes experimentosdesarro
CONCLUSIONES BIBLIOGRAFA
ElsistemaCRISPRhademostradoserelmsvers BirlingMCetal.Modelinghumandiseaseinrodents
til,sencillodeusar,eficaz,rpidoybaratodetodas by CRISPR/Cas9 genome editing. Mamm Genome.
las herramientas de edicin gnica conocidas hasta 2017Jul4.doi:10.1007/s003350179703x.
el momento. De ah su inusitadamente rpida uni Chneiweiss H et al. Fostering responsible research
versalizacin y su robustez, la que permite que un withgenomeeditingtechnologies:aEuropeanpers
experimento de edicin gentica con CRISPR sea pective. Transgenic Res. 2017 Jul 20. doi: 10.1007/
extraordinariamente sencillo de abordar y ejecutar s112480170028z.
y,enparticular,queparaellonoserequieransofisti
ChoulikaAetal.Inductionofhomologousrecombi
cados laboratorios ni caros equipamientos. Cual
nation in mammalian chromosomes by using the I
quierlaboratoriodebiologamolecularmnimamen
SceIsystemofSaccharomycescerevisiae.Mol.Cell.
tedotadoyhbilentcnicashabitualesdeingenie
Biol.1995;15:196873.
ra gentica es capaz de plantear, concebir y desa
rrollar un experimento de edicin gentica con xi Cohen J. Mice made easy. Science. 2016 Nov 4;354
to. (6312):538542.
Son numerossimas las aplicaciones que continua Fernndez A et al. A history of genome editing in
mente pueblan las publicaciones y extienden los mammals. Mamm Genome. 2017 Jun 6. doi:
usosdelasherramientasCRISPRenbiologa,biotec 10.1007/s0033501796992.
nologa y biomedicina. Desde unas ovejas con su Hammond A et al. A CRISPRCas9 gene drive sys
EXOMA: Parte del genoma que contiene secuencias co- NGS: Plataformas de secuenciacin masiva de cidos
dificantes de protenas. nucleicos.
FARMACOGENMICA: Estudio de los genes cuya varia- PANEL DE GENES: Coleccin de genes que se analiza de
cin influye en la respuesta a los frmacos. forma simultnea por su relacin con un rasgo concreto
o condicin.
FENOTIPO: Conjunto de rasgos observables de un indivi-
duo. Manifestacin observable del genotipo. PCR: Reaccin en cadena de la polimerasa. Tcnica que
permite amplificar fragmentos de ADN, delimitados por
GENOMA: Conjunto de informacin gentica de un orga- fragmentos cortos conocidos de la secuencia
nismo, incluido en cada una de sus clulas. (cebadores) a travs de repetidos ciclos de desnaturali-
zacin y replicacin con una ADN polimerasa.
GENOTECA GENMICA: Coleccin de clones que repre-
sentan el genoma de un organismo. En la genoteca el PENETRANCIA: Proporcin de personas que presentan
ADN est almacenado en diferentes vectores idnticos, un genotipo concreto que manifiestan evidencias del
cada uno de los cuales contiene un fragmento diferente fenotipo asociado a ese genotipo.
de ADN d etamao similar.
POLIMORFISMO: Variacin en una secuencia particular