Вы находитесь на странице: 1из 21

La revolucin cient o ca del siglo XXI

Miguel Blanco Vzquez a 30 de Agosto del 2011


Resumen En los ultimos diez aos han aparecido una serie de tcnicas de secuen n e ciacin de segunda generacin (NGS) que han revolucionado la capacidad o o de obtener informacin genmica. Tanto que no solo han revolucionado el o o campo de la genmica de secuenciacin sino otros campos de la biolog o o a donde la informacin que de ellas se puede extraer permiten responder o a preguntas antes no resolubles con la primera generacin de tcnicas de o e secuenciacin. Entender como es el transcriptoma de clulas y tejidos en o e condiones diferentes a lo largo del desarrollo y del tiempo se ha mostrado esencial para interpretar los elementos funcionales del genoma y descubrir los constituyentes moleculares que estn implicados en los procesos de a desarrollo y enfermedad. La tecnolog RNA-Seq es una tcnica de reciena e te desarrollo que precisamente pretende analizar en profundidad perles de transcripcin haciendo uso de secuenciacin de alta resolucin. Aunque o o o de reciente aparicin ya existen bases de datos y herramientas de anlisis o a de datos de RNA-Seq robustas. En este proyecto se pretende hacer uso de la plataforma Galaxy para analizar datos de RNA-Seq del estudio del perl transcripcional de eritroblastos en Mus musculus.

Introduccin o
Advenimiento de las nuevas tecnolog de secuenciacin as o
Durante las ultimas tres dcadas el foco de la investigacin en biolog mo e o a lecular ha estado en la elucidacin de los mecanismos moleculares por los cuales o la informacin gentica codicaba la s o e ntesis de las biomolculas. As la mayor e a de los estudios de este per odo se centraban habitualmente en genes individuales a n de obtener informacin de mecanismos de transcripcin, modelado de o o cromatina, empalme y ayuste de RNA, duplicacin del DNA u otros procesos o genmicos. Pero, aunque nuestra informacin en el campo sigue creciendo y las o o conclusiones as extra das parecen ser vlidas, estos estudios no han aportado a una visin de la funcin biolgica de eses procesos a un nivel global de genoma[1]. o o o Solo tras resolucin de la estructura del DNA en los 1950s por Watson y o Crick se puso nfasis en conocer la secuencia del DNA con la pretensin de e o hallar el cdigode todos los organismos, pasados y presentes [2]. El primer o informe de una secuencia de 10 bases consecutivas de DNA se publico en 1968 pero los mtodos para obtener mayores longitudes y calidad, especialmente la e secuenciacin por los mtodos de Sanger y Maxam-Gilbert, no llegaron hasta el o e ao 1977 [3]. De estos solo el mtodo de secuenciacin de Sanger fue desarrollado n e o lo suciente como para poder automatizarlo. Con este hito se inicio un periodo 1

de 30 aos de proyectos de secuenciacin a gran escala que dieron como fruto n o la secuencia completa de varias especias, incluida la humana [4, 3]. Esta v de a secuenciacin de genomas ser el comienzo de la genmica y el inicio de las o a o expectativas de conocimiento mencionadas antes. Aunque los hitos alcanzados con el mtodo de secuenciacin de Sanger son e o enormes, como lo fue la publicacin de lo que hoy es la unica lectura nalizada o del genoma humano; las limitaciones de esta tecnolog a nivel de costes y datos a, de lectura, hizo que se apreciara la necesidad buscar nuevas tcnicas de secuene ciacin en masa o de mejorarlas[3, 4]. Pero la secuenciacin del genoma humano o o fue tan solo el inicio de la era de la secuenciacin de DNA [5]. En los ultimos o diez aos han aparecido una serie de tcnicas de segunda generacin (NGS) que n e o han revolucionado la capacidad de obtener informacin genmica. El alto grado o o de paralelizacin que estas tcnicas presentan, en la que se producen de millones o e a miles de millones de reacciones de secuenciacin en al mismo tiempo y en un o pequeo volumen, supone que presentan un rendimiento much n simo mayor que las tcnicas de secuenciacin basadas en Sanger. As no solo han revolucionado e o el campo de la genmica de secuenciacin sino otros campos de la biolog dono o a de la informacin que de ellas se puede extraer permiten responder a preguntas o antes no resolubles con la primera generacin de tcnicas de secuenciacin [3]. o e o La primera tecnolog NGS que estuvo disponible fue el secuenciador Roa che/454. Aunque las primeras mquinas eran capaces de producir lecturas de a 100 pares de bases, la generacin actual de esta mquina produce secuencias de o a ms de 400 bases. Con ello, son las mayores longitudes que actualmente se puea den obtener con cualquiera de las plataformas de NGS. Otras plataformas muy usadas, de introduccin algo posterior, son Ilumina/Solexa Genome Analyzer o y el ABI SOLiD System. Aunque tienen un mayor rendimiento, las longitudes de secuencia que producen son menores. Otra plataforma comercial, y la unica de cdigo abierto, es Polonator. Su principal defecto es tener la menor longitud o de lectura de todas las NGS. Hasta este momento la unica plataforma que se ha desarrollado y usado que use secuenciacin de molcula unica, lo cual evita o e sesgos de amplicacin, es HeliScope Sequencer. Ya de muy reciente introduco cin, Pacic Biosystems ha introducido la secuenciacin de DNA en tiempo real o o con molculas unicas de polimerasa. En teor las longitudes de lectura pueden e a superar los 1000bp[2, 3]. Otros mtodos de secuenciacin, que se especicarn e o a ms adelante, denominados de tercera generacin estn en desarrollo o han sido a o a introducidos en los ultimos aos. n

Figura 1: Diagrama de nuevas tcnicas de secuenciacin y las respuestas a difee o rentes cuestiones biolgicas [3]. o

Tecnolog de secuenciacin HT-NGSs as o


Plataformas actualmente en uso Entre las plataformas comerciales disponibles, Roche/454 FLX, Ilumina/Solexa Genome Analyzer y Applied Biosystems (ABI) SOLiD Analyzer son las l deres del mercado de secuenciacin de nueva generacin. Las otras dos plataformas, o o Polonator G.007 y Helicos HeliScope acaban de ser recientemente lanzadas y an no han alcanzado muchos usuarios[6, 5]. u Roche GS-FLX 454 Genome Sequencer Roche GS-FLX 454 Genome Sequencer fue la primera plataforma comercial que se introdujo y lo hizo en 2004. Usa la secuenciacin por s o ntesis o pirosecuenciacin. La clave de este o procedimiento es que se realizan PCRs de emulsin en la que perlas de anclaje a o DNA monocatenario se encapsulan por agitacin vigorosa en micelas acuosas y o en las que se atrapan reactantes de PCR rodeados por aceite amplicacin por o PCR de emulsin. Durante la pirosecuenciacin, la luz emitida por las molculas o o e de fosfato durante la incorporacin de nucletidos se anota segn avanza la o o u s ntesis de la cadena de DNA. Actualmente este mtodo puede alcanzar lecturas e de 600bp[6, 5]. Illumina/Solexa Genome Analyzer Illumina/Solexa Genome Analyzer fue la segunda plataforma comercializada. Esta usa un sistema de secuenciacin por o s ntesis en la que todos los nucletidos se aaden simultneamente a clsters de o n a u fragmentos de oligos con primers en clulas de ujo a los que se aade DNA e n

polimerasa. La amplicacin por puente extiende los clsters con los nucletio u o dos marcados. La alta calidad y la larga longitud de lectura han hecho de este sistema el ms empleado[6, 5]. a ABI SOLiD platform ABI SOLiD usa una tcnica de secuenciacin por ligae o miento que se basa en una estrategia de PCR de emulsin con perlas magnticas o e para amplicar fragmentos de DNA y ejecutar una secuenciacin en paralelo. o Durante la secuenciacin se lleva a cabo un ligamiento de DNA para asociar o espec camente oligonucletidos 8-mer con uorforos tal que se establece una o o codicacin de dinucletidos, donde cada cuarta y quinta base estn codicao o a das con un uorforo distinto. As cada marcador uorescente en cada 8-mer o identica combinaciones de dos bases determinadas, que luego pueden ser determinadas por desplazamiento de primer. En cada paso de ligamiento hay una deteccin de uorescencia y una ronda de ligamiento posterior[6, 5]. o Danaher/Dover/Azco Polonator G.007 Danaher/Dover/Azco Polonator G.007 es una plataforma de aparicin reciente que emplea una estrategia de o secuenciacin por ligamiento usando una PCR de emulsin en array, basada o o en perlas para amplicar fragmentos de DNA en secuenciacin en paralelo. La o longitud de lectura es de 26bp[6, 5]. Helicos HeliScope Helicos HeliScope Platform es la primera plataforma que usa una tecnolog de alta sensibilidad a uorescencia para detectar directaa mente la incorporacin nucletidos durante la s o o ntesis. La caracter stica ms a relevante es que permite la secuenciacin de molculas de DNA unicas sin hacer o e uso de un procedimiento de amplicacin. La longitud de lectura est entre los o a 30bp a 35bp[6, 5]. Plataformas en desarrollo Ya que la tecnolog de lectura de molculas unicas de DNA podr leer a e a moldes de DNA en tiempo real sin amplicacin, ofrecer un sistema able o a con lecturas potencialmente largas. Este tipo de sistemas se estn intentando a obtener con ah nco. Actualmente existen varias plataformas que avanzan en esta direccin pero hay poca informacin disponible pblicamente de momento[6, 5]. o o u Secuenciacin de molcula unica basados en uorescencia Pacic BioSo e ciences est desarrollando un sistema de lectura en tiempo real de molcula a e unica para identicar nucletidos que estn fosfoligados con diferentes colores. o a Durante el proceso de s ntesis, hay una emisin de uorescencia durante la eso cisin del fosfato y la incorporacin de nucletidos por la polimerasa. En algo o o o similar trabaja Visigen Biotechnology usando tecnolog de medicin en tiempo a o real de seales de uorescencia dependientes de tiempo. Y no solo estas, sino n que otras compa tiene en desarrollo proyectos en la misma linea[6, 5]. nas Nano-tecnologias para la secuenciacin de molculas unica Se pueden o e usar miles de nanotubos en chips para monitorizar el movimiento de polimerasas a lo largo de una cadena de DNA durante la replicacin para proceder o a una secuenciacin por s o ntesis sobre una unica molcula. Desde hace tiempo e

la nanotecnolog ha sido considerada como tecnolog de ultima generacin a a a o estos efectos de secuenciacin y existen ya varios conceptos y plataformas en o desarrollo. Uno de estos conceptos parte de la observacin de que cuando una o cadena de DNA uye a travs de un nanoporo gracias a un ujo de corriente e elctrica cada base nuecleot e dica al pasar por el nanotubo altera de una manera unica el patrn de corriente elctrica. Esta marca.elctrica podr ser usada o e e a pasa secuenciar DNA[6, 5, 7]. Deteccin electrnica para la secuenciacin de molculas unicas Reo o o e veo est desarrollando tecnolog para dispersar molculas de DNA sobre supera a e cies conductivas y as hacer detecciones electrnicas de bases. Una molcula o e de DNA estirada e inmovilizada se leer por medio de sondas provistas de naa nocuchillas. Intelligent Biosystems esta trabajando en proyectos similares[6, 5]. Microscop electrnica para secuenciacin de molculas unicas La a o o e microscop electrnica ya hab sido propuesta antes del desarrollo de mtoa o a e do de Sanger como y este concepto ha sido re-explorado recientemente con la emergencia de nueva tecnolog en el campo. Ya que la microscop de escaneaa a do en tnel puede llegar al nivel atmico, se est explorando este mtodo para u o a e secuenciar DNA[6, 5]. Otras aproximaciones para para la secuenciacin de molculas unicas o e Ion Torrent ha desarrollado un nuevo mtodo de secuenciacin basado en la e o bien establecida caracterizacin que existe de la incorporacin de nucletidos a o o o la cadena de DNA por la polimerasa en la que un hidrgeno se genera como o subproducto. Han desarrollado un sensor de iones que puede transformar la detectaccin de estos iones directamente a informacin digital[6, 5]. o o

Aplicacin de las NGS o


Las tecnolog de NGS estn revolucionando el anlisis de genomas. Esto as a a es debido a que permiten, entre otras, el anlisis de la inmunoprecipitacin a o de prote nas asociadas a microarrays de DNA (Chip-chip), o su secuenciacin o (Chip-Seq), por la secuenciacin de RNA ( o RNA-Seq ), genotipado a nivel de genoma, variacin estructural a nivel de genoma, ensamo blado de novo y reensamblado de genomas, deteccin de mutaciones y deteccin o o de portadores, deteccin de desrdenes adquiridos o de enfermedades humanas o o complejas, preparacin de librer de DNA, extremos pareados (pair ended ) y o as capturas de genoma, secuenciacin de genomas mitocondriales e incluso abrir la o posibilidad a una medicina personalizada [5, 8]. Para empezar, una de las aplicaciones ms obvias de las NGS es la secuena ciacin de genomas a coste reducidos, ya sea resecuenciacin como de novo. La o o resecuenciacin est siendo util en la conrmacin de genomas de referencia o a o ya obtenidos previamente. Cuando se usan mapeados de lecturas de secuencias sobre genomas de referencia obtenemos otra aplicacin: la identicacin de de o o SNPs y variaciones en nmero de copia as como informacin de otras varianu o tes estructurales. Con estas ultimas obtenemos conocimiento de las diferencias fenot picas poblacionales [3, 4]. 5

Por otra parte tenemos el anlisis de la organizacin del genoma que pera o miten las NGSs, pues con estas se pueden resolver problemas estructurales de orden superior en la estructuracin del material gentico en el ncleo eucariota. o e u Dentro de los mtodos que permiten esto estn la Hi-C (High thoughput Chroe a mosome Capture), ChIP-seq (Chromatine Inmunoprecipitation Sequencing) y la Methyl-Seq [3, 4, 8]. Tambin las NGSs permiten la resolucin de problemas en el mbito del e o a anlisis de expresin gnica. De hecho tan pronto se comenzaron a aplicar las a o e NGSs a la (re)secuenciacin de genomas se aplic a la secuenciacin de cDNA o o o con lo cual se obtiene una perspectiva del transcriptoma, en lo que se conoce como secuenciacin en profundidad del RNA o RNA-Seq. Esta tcnica se detao e llar en profundidad en lo que sigue de informe. Aparte de secuenciar y incluso a descubrir nuevos trnscritos esta tcnica permite establecer las fronteras entre a e trnscritos y los l a mites intrn-exn [3, 4]. o o

Impacto y Biolog de Sistemas a


Durante los ultimos aos los anlisis de datos HT-NGSs han ido revelando n a las relaciones a nivel de genoma completo, entre otras, con la organizacin a o nivel de nucleosoma, actividad gnica y regulacin gnica. As se est realmente e o e a llegando a una verdadera aproximacin de biolog de sistemas con los mmtodos o a e mencionados antes (Chip-Seq, Methyl-seq o RNA-Seq) que permiten estudiar simultneamente la conformacin genmica y la actividad transcripcional lo cual a o o nos llevar a comprender mejor la biolog celular. En el caso humano esta visin a a o de conjunto se est llevando a cabo en el proyecto ENCODE (Encyclopaedia of a DNA elements) y para otros organismos, como los hongos lamentosos, en otros proyectos especializados [3, 8].

Retos Bioinformticos a
A nivel bioinformtico las nuevas tecnolog de secuenciacin no estn exena as o a tas de problemas al los que los investigadores se deben enfrentar. El principal reto que hay que afrontar en estudios con NGSs es la elevadisima cantidad de datos que generan estos experimentos y por tanto los elevados requerimientos de capacidad de clculo y almacenamiento computacional que se necesitan para a tratar con toda esta informacin. Adems otros problemas van desde que no o a existe de momento ningn formato de datos unicado, se necesita ensamblar u de novo miles de millones de lecturas, ensamblar transcritos que han sufrido empalme y ayuste, a que se precisa cuanticar datos de RNA-Seq [3]. Entrando en ms detalle, en cuanto al formato de datos decir que, tanto a con Sanger como con la mayor de las NGSs, se producen seales de luz que a n deben ser decodicadas a bases de DNA. Este proceso de determinacin de o base (base-calling) depende de la plataforma usada. En los formatos de chero esta lectura asocia, o no, una secuencia a una calidad de lectura. En el proceso Sanger este formato se nombro como FASTAQ y fue empleado, con variacin o en las NGSs por Illumina/Solexa. Con esto, tenemos actualmente al menos tres diferentes formatos de FASTQ. Habitualmente el primer paso en el anlsis de a datos de NGSs es convertir este formato a un formato de entrada vlido. Como a las lecturas realizadas se han de mapear, otro problema son los derivados de los formatos usados a este n, que igualmente son varios. Alguno de estos formatos 6

de mapeado son espec cos de cada aplicacin y no pueden ser usados por otras o aplicaciones. An as existen esfuerzos de estadarizacin en este terreno. As el u o , formato Sequence/Alignment Map (SAM) y su versin comprimida (BAM) ya o son formatos aceptados por muchas de las aplicaciones de analisis de datos de NGSs, incluidos varios visores de genomas. Y ya que el campo del anlisis de datos NGSs es muy reciente, no existe a ninguna suite informtica que realice el proceso completo de anlisis. Habituala a mente hay que construir pipelines de anlisis espec a cas para cada experimento. Por otra banda, el ensamblado de genomas a partir de datos de NGSs no es una tarea trivial. Hay que tener en cuenta que una longitud de lectura corta implica que se necesitan ms lecturas de la misma regin para poder tener una a o conanza alta en el ensamblado de contigs, lo cual signica que las lecturas de NGSs tiene una tasa de error mayor que los mtodos de ensamblador basados e en el mtodo Sanger. Aunque la tasa de error se rebajar con mayor lectura de e a la misma regin en zonas altamente repetitivas, las cuales son problemticas a o a la hora de los anlisis; sigue siendo un problema la longitud de lectura. Por eso, a una mejora de las tcnicas de secuenciacin ha sido el uso de datos pair-ended, e o esto son lecturas en una y otra direccin de lectura de secuencia. Otra solucin o o es la combinacin de lecturas cortas con lecturas de secuencia largas si lo que o se pretende es el ensamblaje de genomas grandes y complejos/citep*minou2010. A excepcin del ensamblado de novo, la aplicacin de NGSs requiere del mao o peo de las lecturas contra un genoma de referencia antes de proseguir con el anlisis. Esto ha requerido del desarrollo de nuevos algoritmos que puedan haa cer este ingente trabajo, ya que aquellos diseados para secuenciacin Sanger n o no son adaptables a esta nueva escala de trabajo. Un problema particularmente espec co en este aspecto en RNA-Seq es que una lectura que contenga uniones por empalme y ayuste no puede ser asignada a un lugar genmico concreto. o Con lo cual, se han tenido que desarrollar programas para detectar uniones de empalme y ayuste que trabajen durante el mapeo de las lecturas o durante un primer mapeo inicial[3]. Por ultimo, se ha de afrontar el problema de almacenamiento. Los cheros de datos de lecturas, p.ej. FASTQ, estn habitualmente en el orden de GibaBytes a y los cheros producidos por aplicaciones que se aplican a posteriori sobre estos estn tambin en tamaos similares; con lo cual un proyecto de anlisis de estos a e n a datos de alto rendimiento genera informacin en el orden de TeraBytes. Para o facilitar el alamacenamiento de esta informacin el NCBI, el EBI y el DDBJ o han establecido una base de datos para informacin de NGSs, la SRA, Sequence o Read Archive. An con esto los servicios online para visualizacin o exploracin u o o de datos no estn an preparados del todo para manejar tanta informacin y a u o queda mucho desarrollo pendiente en esta rea [3]. a

RNA-Seq
La tecnolog RNA-Seq es una tcnica de reciente desarrollo para analizar a e en profundidad el perl de transcripcin de un tipo celular y que hace uso de o secuenciacin de alta resolucin. Los estudios empleando esta tcnica ya han o o e alterado la perspectiva que tenemos de la complejidad de los transcriptomas eucariotas[9, 1]. Los transcriptomas son el juego completo de trnscritos de una clula y su a e

cantidad para un determinado tejido y estadio de desarrollo celular. Entender el transcriptoma es esencial para interpretar los elementos funcionales del genoma y descubrir los constituyentes moleculares en clulas y tejidos, as como e para entender los procesos de desarrollo y enfermedad. As las prioridades en la , transcriptmica es catalogar los transcriptomas con todas sus formas de RNA o (mRNA, ncRNA y small RNA) para determinar la estructura transcripcional de los genes: los inicios 5, las terminaciones 3, los patrones de empalme y ayuste y otras modicaciones post-transcripcionales; y cuanticar el cambio de niveles de expresin gnica de cada trnscrito en varias condiciones de desarrollo y o e a siolog celular. Se han desarrollado varias tecnolog de deduccin y cuana as o ticacin de transcriptomas, inclu o das tcnicas de hibridacin y secuenciacin. e o o Pero recientemente el desarrollo de nuevos mtodos de secuenciacin de alta ree o solucin ha generado este mtodo de RNA-Seq (RNA-Secuencing) que permite o e tanto cuanticar como descubrir trnscritos[9]. a Se har un estudio detallado de esta tcnica ya que ser en la que la parte a e a prctica se centre. a

Tecnolog RNA-Seq a
RNA-Seq est basado en tecnolog NGS. Brevemente, una poblacin de a a o RNA (total o fraccionado, como poly(A)+) se convierte en una librer de fraga mentos de cDNA con adaptadores adheridos a ambos extremos. Cada molcula e de esta librer tras amplicacin o no, es secuenciada a alta resolucin (esto es, a, o o con NGSs) para obtener secuencias cortas desde un extremo (secuenciacin de o extremo unico, single ended ) o de ambos extremos (secuenciacin de extremos o pareados, pair ended ). Las lecturas estn habitualmente entre 30-400bp, depena diendo de la plataforma de secuenciacin usada. A priori cualquier plataforma o NGS se puede usar para RNA-Seq y ya Illumina IG, Applied Biosystems SOliD y Roche 454 Life Science ya han sido aplicados con xito a este n. Helicos e Bioscience tSMS es tambin una plataforma adecuada para RNA-Seq aunque e no existen publicaciones de trabajo con ella. Su ventaja principal ser evitar la a amplicacin de cDNA[9]. Tras la secuenciacin las lecturas resultantes han de o o alinearse sobre de un genoma de referencia o trnscritos de referencia. As misa mo, podr ser usados para un ensamblaje de novo de la secuencia genmica an o que produce un mapa transcripcional de escala genmica con informacin tanto o o de la estructura transcripcional como del nivel de expresin de cada gen[9]. o

Ventajas y retos de la RNA-Seq


Esta joven tecnolog ofrece una serie de importantes ventajas sobre sus a alternativas. Primero, y al contrario que otras tecnolog basadas en hibrias dacin, RNA-Seq no se limita a detectar trnscritos que se correspoden con o a secuencias genmicas conocidas. Esto es particularmente ventajoso en estudio o de organismos no modelo. RNA-Seq puede descrifrar la localizacin concreta de o las fronteras de transcripcin a un nivel de una sola base. As lecturas cortas o aportan informacin de como dos exones se conectan mientras lecturas largas o hablan de la conectividad a niveles mayores. Tambin, puede revelar variacioe nes en regiones transcripcionales. Por otra banda, RNA-Seq carece de ruido de fondo en el sentido de que una secuencia se pude mapear en regiones concretas del genoma (salvadas consideraciones hechas anteriormente), sin que tampoco 8

Figura 2: Diagrama de un experimento t pico de RNA-Seq. En esencia, los RNAs largos se almacenan en una librer de fragmentos de cDNA bion por fragmentaa cion de RNA bien de DNA. Posteriormente se realiza una unin de cada cadena o de cDNA a adaptadores y de cada uno de estos fragmentos se obtiene una lectura en una plataforma de secuenciacin de alto rendimiento. La secuencia resultano te se alinea con el genoma de referencia o un transcriptoma y se clasican tres tipos de elementos: lecturas de exones, lecturas de uniones o lecturas de colas Poly(A). Estos tipos se usan para obtener un perl de expresin para cada gen o con resolucin a nivel de base[9]. o

exista un l mite superior de cuanticacin, en contraposin con los microarrays. o o Tampoco hay pasos de clonado y en algunas plataformas nin se precisa de amplicacin[9, 10]. o Sin embargo, no est exenta de retos esta tecnolog La preparacin de a a. o muestras de cDNA para RNA-Seq implica manipulaciones, aunque en general sean pocas, que pueden dicultar el anlisis de perles de transcripcin. Al a o contrario que los miRNAs, piRNAs o siRNAs que pueden ser secuenciados directamente tras la unin a adaptador, las molculas de RNA largas han de ser o e fragmentadas para ser compatibles con secuenciacin en las NGSs, y esta frago

mentacin puede incluir sesgos. Tambin, durante los procesos de amplicacin o e o para la construccin de cDNA no podemos obviar los artefactos resultado de la o PCR[9, 10].

Retos del anlisis bioinformtico de RNA-Seq a a


En cuanto a los retos bionformticos que plantea la RNA-Seq, decir que son a similares a los que en general afectan al anlisis de datos HT-NGS: problemas a de almacenamiento, recuperacin y procesado de datos. o Toda vez se tiene los datos de lectura el primer paso en el anlisis es el a mapeo de las lecturas a un genoma de referencia o ensamblarlos en contigs. Existen varias alternativas para el mapeo a un genoma, que incluyen ELAND, SOAP, MAQ y RMAP. [9] Como las lecturas de transcriptomas son lecturas que fruto de uniones exnio cas y en algunos casos estn poliadeniladas, el anlisis se complica. En los gea a nomas donde el empalme y ayuste es raro basta con buscar secuencias ricas en As o Ts (cola poly(A)) y en el caso de las uniones exnicas buscar secuencias o espec cas (GT-AG) y conrmarlas con una baja transcripcin intrnica. Pero o o en el caso de transcriptonas complejos, con trans-splicing, el mapeado es mucho ms complejo. Una solucin parcial es hacer un registro de uniones encontradas a o o predichas y realizar el mapeado contra esta. An as se necesita desarrollar u algoritmos que identiquen ecientemente eventos de splicing alternativo que afecten a regiones distantes [3, 9]. En transcriptomas grandes el alineamiento se complica por la multitud de hits que una secuencia puede producir a lo largo del genoma. Una solucin es o asignar eses lecturas de mltiple posicin basndose en el nmero de lecturas u o a u de las posiciones vecinas unicas. Esta estrategia ha funcionado con secuencias repetitivas que aparecen en baja cantidad pero no es vlida para secuencias a repetitivas largas, que siguen representando un reto. As mismo, variaciones de secuenciacin o polimorsmos de ms de dos bases son tambin un reto para el o a e mapeado[3, 9].

10

Figura 3: Pipeline de anlisis de datos de origen en secuenciacin RNA-Seq a o

Microarrays y RNA-Seq
Los microarrays han producido mucha y muy relevante informacin sobre coo mo el transcriptoma evoluciona en diferentes clulas, tejidos, como la expresin e o gnica cambia a lo largo del desarrollo y sobre los fenotipos de enfermedades, e tambin de su variacin a lo largo de tiempo y entre especies. Han, muy espee o cialmente, mostrado como el genoma se transcribe a RNA no codicante. Con esto debe entenderse, por tanto, que los microarrays han sido una plataforma de elucidacin de patrones de expresin exitosa. Mas, ahora RNA-Seq est apao o a reciendo como una alternativa para anlisis de perles de transcripcin. Y hay a o varios aspectos a los que la secuenciacin de RNA puede llegar que los microo arrays no. Una de ellas es que ya que esta tcnica permite un acceso directo a la e secuencia, las uniones entre exones se pueden conocer sin ser necesario un conocimiento previo de la estructura gnica. Otras son que los eventos de edicin de e o RNA se pueden detectar y que conocer los polimorsmos permite una medida de expresin alelo-espec o ca. As mismo, los microarrays no pueden ser aplicados directamente en especies de las que carecemos de genoma de referencia, mientras que RNA-Seq si. Y aunque RNA-Seq es una tcnica muy reciente se ha come probado que las mediciones con arrays y RNA-Seq son altamente congruentes [11, 9, 10].

11

Casos de aplicacin de secuenciacin RNA-Seq o o


Aunque la RNA-Seq es una tecnolog muy joven, ha sido aplicada con xito a e a varios estudios y ya hay varias revisiones y comparativas sobre esta tcnica. e Como casos que resear, Buermans et al. (2010) analiz el perf de transcripn o l cin de miRNAs con HT-NGS y en la que propone un mtodo ms eciente para o e a generar librer de secuencias de miRNAs. Erhard y Zimmer (2010) han clasias cado RNAs pequeos no codicantes (ncRNAs) usando igualmente HT-NGSs n y en el que demuestran la validez de un mtodo de clasicacin por puntuacin e o o que solo hace uso de las posiciones relativas y las longitudes de lectura de datos NGS para clasicar ncRNAs. Ramsingh et al. (2010) caracteriz por primera o vez en transcriptoma de miRNAs en un cncer primario humano; se bas en el a o estudio de las variaciones de genes de miRNA y test alteraciones en lugares de o unin a miRNAs en pacientes con leucemia mieloide aguda. Un ultimo ejemplo o en el campo de las revisiones es Yang et al. (2011) donde propone una nueva base de datos, deepBase, para facilitar la anotacin y descubrimiento de small o RNAs de datos de transcripcin genmica [5, 2]. o o

Material y Mtodos e
Se pretende analizar la capacidad de la plataforma Galaxy[12, 13] para el anlisis de datos de secuenciacin de alto rendimiento usando datos de RNAa o Seq. Los datos escogidos se correspoden con el estudio Genome-wide maps of epigenetic features in G1E model and in mouse primary erythroblasts (NCBI GEO Ref. GSE30142 [14]). Dentro de estos solo se han usados dos lanes de datos de RNA-Seq para el cromosoma 12 de Mus musculus, que provienen de la plataformas Illumina Genome Analyzer II, Illumina Genome Analyzer IIx y Illumina HiSeq 2000. Tras la importacin de los cheros FASTQ originales, se ejecuta un anlisis o a de calidad de los datos usando FASTQ Summary Statistics y se representa la salida con un BoxPlot. Se realiza un anlisis de los resultados para comprobar a la necesidad de ltrado con FASTQ Trimmer de las bases de las lecturas por si tuvieran una baja calidad. Toda vez comprobado esto, se ejecuta un mapeado de las lecturas sobre del genoma de ratn (NCBI37/mm9, ensamblado de 2007) o usando Tophat[15], que es un mapeador rpido de uniones de empalme y ayuste a para lecturas de RNA-Seq. Este alinea secuencias de RNA-Seq a genomas de tamaos grandes usando el alineador de secuencias Bowtie[16] y luego analiza el n resultado de mapeo para identicar uniones de empalme y ayuste entre exones. Tras el mapeo de las lecturas se ensamblan a trnscritos completos a los a que se pueda aplicar anlisis ulteriores, como anlisis de expresin diferencial a a o o bsqueda de posiciones de empalme. A cada conjunto de datos en BAM prou ducido en Tophat se aplica Cuinks. Cuinks importa datos en formato SAM o BAM y produce una salida datos de isoformas ensambladas, niveles de expresin a nivel de isoforma y valores de expresin a nivel de gen. Hecho esto o o se comparan con el genoma de referencia mm9 de ratn, que ha sido importao do en formato GFT a la plataforma desde el navegador genmico USCS, con o la herramienta Cucompare que incluye Cuinks y que est destinada a este a n. Finalmente la ejecucin de Cudi a las salidas de Cucompare permite o visualizar los cambios signicativos en la expresin de los trnscritos, empalme o a

12

y ayuste u uso de promotores.

Resultados
Un boxplot sobre el resultado del anlisis de FASTQ Summary Statistics a muestra que la calidad media de las bases est por encima de 38. De la base 24 a en adelante la desviacin t o pica es mayor mas no signicativamente relevante. Con lo que presuponemos innecesario realizar un ltrado de posiciones con baja calidad. Figura 4: BoxPlot en los datos de salida de FASTQ Summary Statistics. En el eje de abscisas se muestran la posicin de la base en la lectura y en las ordenadas o la calidad de la lectura.

Tras el mapeado Tophat localiza 73,324 uniones de empalme y ayuste, de los cuales un 33,06 % de los trnscritos superan las 10 copias. a Las pistas generadas pueden ser visualizadas en el navegador genmico de o Galaxy o verlos en el navegador de ESMBL o USCS. Se ha explorado tanto en USCS como en le navegador de Galaxy las pistas generadas por TopHat, Cuinks, Cucompare y Cudi. Contrastando la informacin de la anotacin del genoma de ratn con los o o o trnscritos ensamblados podemos encontrar mltiples ejemplos a lo largo de a u nuestros datos de anotaciones coincidentes, anotaciones que no se expresan en nuestra muestra, nuevos trnscritos e isoformas del mismo trnscrito. Coma a parando la informacin anotada en el genoma de referencia con las pistas de o emplame y ayuste o de emsamblado podemos deducir toda esa informacin. o

13

Figura 5: La mayor de los transcritos ensamblados corroboran las anotaciones a realizadas en el genoma de referencia. Las posiciones y las uniones de empalme y ayuste coinciden en ambas pistas.

Figura 6: En otros casos nos encontramos trnscritos anotados en el genoma de a referencia que estn ausentes en el transcriptoma analizado a

Figura 7: Al contrario, tambin nos encontramos trnscritos no anotados en el e a genoma de referencia que si estn presentes en el transcriptoma analizado a

Figura 8: En algunos casos las uniones de unin y empalme no coinciden del o todo o aparecen otras nuevas, dentro del mismo trnscrito. En este caso estamos a ante isoformas del mismo trnscrito. a

Podemos comparar los niveles de expresin de los trnscritos ensamblados o a para identicar expresiones diferenciales entre muestras. Los niveles de expresin o 14

se cuantican como fragmentos por kilobase por milln de lecturas mapeadas o (FPKM) y Cucompare ofrece esa informacin junto con bandas de conanza. o Las bandas no solapadas entre muestras indican expresin diferencial. o Figura 9: Expresin diferencial en dos pistas analizadas. Se puede comprobar o que algunas de las pistas de cucompare no se solapan con lo que nos indican una expresin diferencial o

Con cutdi obtenemos los cambios de expresin en los trnscritos de nueso a tra muestra analizada con respecto a un genoma de referencia. En la siguiente cabecera del chero producido por Cudi podemos ver la informacin que nos o ofrece, siendo en valor de cambio de expresin el ms interesante. En este caso o a se han obtenido 26.000 trnscritos con expresin diferencial entre las muestras a o analizadas y el genoma de referencia de Mus musculus. est_id gene_id gene locus sample_1 sample_2 status value_1 value_2 ln(fold_change) test_stat p_value q_value significant NM_001001130 NM_001001130 -chr13:67830198-67857775 q1 q2 OK 1.74715 0.319978 -1.69749 4.26317 2.01551e-05 4.99445e-05 yes NM_001001144 NM_001001144 -chr9:110235796-110287450 q1 q2 OK 2.88935 3.23605 0.113323 -0.544143 0.586343 0.67294 no NM_001001152 NM_001001152 -chr13:67355853-67370004 q1 q2 OK 0.760322 0.117624 -1.86625 3.84734 0.000119405 0.000268869 yes NM_001001160 NM_001001160 -chr6:85419571-85452880 q1 q2 NOTEST 0 0.0103522 1.79769e+308 1.79769e+308 0.158655 1 no NM_001001176 NM_001001176 -chrX:103402212-103416497 q1 q2 OK 1.50126 2.01928 0.296438 -1.02307 0.306273 0.377534 no

Discusin o
Las tecnolog de NGS estn ofreciendo todo una nueva v para llegar a as a a descubrimientos en campos muy variados de investigacin biolgica, incluso alo o gunos en los que las tcnicas de secuenciacin no hab sido aplicadas. Aunque e o an hay muchos puntos que mejorar, sobre todo en cuanto a tasas de error en las lecturas, tanto las plataformas NGS como las herramientas de anlisis informtico a a de los datos producidos por estas han evolucionado ya hasta tal punto que han permitido el ensamblado, por ejemplo, de genomas de novo solo usando datos procedentes de NGSs, y por tanto pueden considerarse ya herramientas slidas. o An as las NGSs nos plantean como manejar toda esa cantidad de informacin u o que nos ofrecen con lo que el desarrollo y avance de herramientas informticas a y bases de datos sern esenciales. La tcnica en la que he jado la atencin, la a e o RNA-Seq y an con todos los retos que afronta y que han sido descritos anteu riormente, ha permitido ya una perspectiva sin precedentes del transcriptoma de una pequea pero signicativa cantidad de especies. n 15

Galaxy, la plaforma usada para el anlisis de los datos, es un plataforma a de anlisis que facilita la exploracin de los datos genmicos alto rendimiento a o o a investigadores sin grandes conocimientos de bioinformtica y con la comoa didad de ejecucin dentro de un navegador, sin necesidad de instalaciones. Al o mismo tiempo que esconde los detalles de operacin computacional permite reao lizar anlisis complejos y robustos con herramientas de estudio slidas. Es por a o lo tanto, una herramienta consolidada y de calidad para el anlisis de datos a biolgicos de alto rendimiento, como ha sido este caso de estudio de RNA-Seq o o como prodr ser otros como Chip-Seq. Con esta plataforma se ha podido an analizar un complejo set de datos que analizados en local requerir de una an alta capacidad de procesamiento computacional. Se ha ejecutado un anlisis de a calidad de los datos, un ltrado de calidad de los datos, un mapeado a un genoma de referencia, un ensamblado y un anlisis de trnscritos y identicacin a a o de isoformas de trnscritos lo cual constituye un anlisis realmente completo a a de la informacin. o

Anexo I: Anlisis de RNA-Seq con Bioconductor a


Bioconductor [17] ofrece herramientas para el anlisis de datos genmicos de a o alto rendimient. Bioconductor usa el lenguaje de programacin estad o stico R y es de cdigo abierto. Con ms de 460 paquetes ofrece soluciones al anlisis de o a a diferentes tipos de datos, desde microarrays, anlisis de secuencias, anotacin a o y de ensayos HT-NGSs. Aunque de RNA-Seq es de reciente aparicin, Biocono ductor ya cuenta con paquetes especializados en el anlisis de datos producidos a mediante esta tcnica, especialmente de anlisis de expresin diferencial. En ese a o te anexo se pretende hacer una pequea introducin a algunas herramientas de n o anlisis de RNA-Seq disponibles para Bioconductor. a

ArrayExpressHTS
ArrayExpressHTS [18] es un pipeline basado en R para preprocesado, estimacin de expresin y analisis de calidad de datos de datos de alto rendimiento o o producidos por RNA-Seq. El pipeline comienza con la secuencia original y produce los objetos en R con las medidas de transcripcion para anlisis downstream a junto con informes de calidad de los datos. Puede ser ejecutado localmente o en un servidor R remoto, como el alojado en en European Bioinformatics Institute. Los pasos que sigue el pipeline son: Preparacin de los datos y metadatos experimentales o Analizar la calidad de los datos en bruto y produccin de un informe de o calidad Alinear las secuencias a una referencia, como un genoma de referencia Filtrado de las lecturas Analizar la calidad de las secuencias y produccin de un informe de calidad o Estimar la expresin o

16

Con las conguraciones por defecto se iniciar el pipeline del siguiente modo, a donde se d la clave de acceso a unos datos alojados pblicamente en NCBI a u GEO: library("ArrayExpressHTS") aehts <- ArrayExpressHTS("E-GEOD-30142GS") Si no queremos usar la referencia de EMBL, podremos obtener nuestro genoma o secuencia de referencia de esta manera: prepareReference("Mus_musculus", version = "current", type = "genome", location = referencefolder ) prepareReference("Mus_musculus", version = "current", type = "transcriptome", location = referencefolder ) y preparar la anotacin: o prepareAnnotation("Mus_musculus", "NCBIM37.61", location = referencefolder ) Estableciendo este entorno de trabalo, donde se copia en local los datos: srcfolder <- system.file("expdata", "testExperiment", package="ArrayExpressHTS"); dstfolder <- tempdir(); file.copy(srcfolder, dstfolder, recursive = TRUE); El pipeline se ejecutar de esta manera: a aehts = ArrayExpressHTSFastQ(accession = "testExperiment", organism = "Homo_sappiens", dir = dstfolder); El set de datos de expresin se cargar as o a : loadednames = load(paste(dstfolder, "/testExperiment/eset_notstd_rpkm.RData", sep="")); loadednames; get(library)(Biobase); Obtendriamos los valores de expresion ejecutando: head(assayData(eset)$exprs); Y los metadatos del experimento haciendo lo siguiente experimentData(eset); pData(eset);

17

DEseq
El anlisis de expresin diferencial para los datos recolectados puede ser reaa o lizado con otras herramientas, luego de un anlisis con ArrayExpressHTS, con a paquetes como edgeR o DEseq. En los experimentos con RNA-Seq o relacionados, se trabaja con tablas de recuento, que recopilan para cada muestra, el nmero de lecturas que han sido asignadas a cada gen, o otro tipo de entidad. u DEseq[19] ofrece una herramienta potente de estimacin de la varianza para o estos datos y test de expresin diferencial. o Si los datos estuvieran en un data frame countsTable con unas condiciones conds > head(countsTable) T1a T1b T2 T3 N1 N2 Gene_00001 0 0 2 0 0 1 Gene_00002 20 8 12 5 19 26 Gene_00003 3 0 2 0 0 0 Gene_00004 75 84 241 149 271 257 Gene_00005 10 16 4 0 4 10 Gene_00006 129 126 451 223 243 149 > conds [1] T T T Tb N Levels: N T Tb N Un anlisis m a nimo completo consistir en: a > > > > cds cds cds res <<<<newCountDataSet( countsTable, conds ) estimateSizeFactors( cds ) estimateVarianceFunctions( cds ) nbinomTest( cds, "T", "N")

La ultima instruccin realiza un test diferencial entre las condiciones etique o tadas como T y N y devuelve una frame de datos con p-valores (en bruto y ajustados), valores medios, tasas de cambio y otra informacin util. Un ejemplo o ser este: a id baseMean baseMeanA baseMeanB foldChange log2FoldChange 1 Gene_00001 0.4509631 0.3938651 0.536610 1.3624208 0.4461724 2 Gene_00002 17.9472488 16.0027575 20.863986 1.3037744 0.3826943 3 Gene_00003 1.0629635 1.7716058 0.000000 0.0000000 -Inf

Referencias
[1] E. Birney, J. A. Stamatoyannopoulos, A. Dutta, R. Guigo, T. R. Gingeras, E. H. Margulies, Z. Weng, M. Snyder, E. T. Dermitzakis, R. E. Thurman, M. S. Kuehn, C. M. Taylor, S. Neph, C. M. Koch, S. Asthana, A. Malhotra, I. Adzhubei, J. A. Greenbaum, R. M. Andrews, P. Flicek, P. J. Boyle, H. Cao, N. P. Carter, G. K. Clelland, S. Davis, N. Day, P. Dhami, S. C. Dillon, M. O. Dorschner, H. Fiegler, P. G. Giresi, J. Goldy, M. Hawrylycz, A. Haydock, R. Humbert, K. D. James, B. E. Johnson, E. M. Johnson, 18

T. T. Frum, E. R. Rosenzweig, N. Karnani, K. Lee, G. C. Lefebvre, P. A. Navas, F. Neri, S. C. Parker, P. J. Sabo, R. Sandstrom, A. Shafer, D. Vetrie, M. Weaver, S. Wilcox, M. Yu, F. S. Collins, J. Dekker, J. D. Lieb, T. D. Tullius, G. E. Crawford, S. Sunyaev, W. S. Noble, I. Dunham, F. Denoeud, A. Reymond, P. Kapranov, J. Rozowsky, D. Zheng, R. Castelo, A. Frankish, J. Harrow, S. Ghosh, A. Sandelin, I. L. Hofacker, R. Baertsch, D. Keefe, S. Dike, J. Cheng, H. A. Hirsch, E. A. Sekinger, J. Lagarde, J. F. Abril, A. Shahab, C. Flamm, C. Fried, J. Hackermuller, J. Hertel, M. Lindemeyer, K. Missal, A. Tanzer, S. Washietl, J. Korbel, O. Emanuelsson, J. S. Pedersen, N. Holroyd, R. Taylor, D. Swarbreck, N. Matthews, M. C. Dickson, D. J. Thomas, M. T. Weirauch, J. Gilbert, J. Drenkow, I. Bell, X. Zhao, K. G. Srinivasan, W. K. Sung, H. S. Ooi, K. P. Chiu, S. Foissac, T. Alioto, M. Brent, L. Pachter, M. L. Tress, A. Valencia, S. W. Choo, C. Y. Choo, C. Ucla, C. Manzano, C. Wyss, E. Cheung, T. G. Clark, J. B. Brown, M. Ganesh, S. Patel, H. Tammana, J. Chrast, C. N. Henrichsen, C. Kai, J. Kawai, U. Nagalakshmi, J. Wu, Z. Lian, J. Lian, P. Newburger, X. Zhang, P. Bickel, J. S. Mattick, P. Carninci, Y. Hayashizaki, S. Weissman, T. Hubbard, R. M. Myers, J. Rogers, P. F. Stadler, T. M. Lowe, C. L. Wei, Y. Ruan, K. Struhl, M. Gerstein, S. E. Antonarakis, Y. Fu, E. D. Green, U. Karaoz, A. Siepel, J. Taylor, L. A. Liefer, K. A. Wetterstrand, P. J. Good, E. A. Feingold, M. S. Guyer, G. M. Cooper, G. Asimenos, C. N. Dewey, M. Hou, S. Nikolaev, J. I. Montoya-Burgos, A. Loytynoja, S. Whelan, F. Pardi, T. Massingham, H. Huang, N. R. Zhang, I. Holmes, J. C. Mullikin, A. Ureta-Vidal, B. Paten, M. Seringhaus, D. Church, K. Rosenbloom, W. J. Kent, E. A. Stone, S. Batzoglou, N. Goldman, R. C. Hardison, D. Haussler, W. Miller, A. Sidow, N. D. Trinklein, Z. D. Zhang, L. Barrera, R. Stuart, D. C. King, A. Ameur, S. Enroth, M. C. Bieda, J. Kim, A. A. Bhinge, N. Jiang, J. Liu, F. Yao, V. B. Vega, C. W. Lee, P. Ng, A. Shahab, A. Yang, Z. Moqtaderi, Z. Zhu, X. Xu, S. Squazzo, M. J. Oberley, D. Inman, M. A. Singer, T. A. Richmond, K. J. Munn, A. RadaIglesias, O. Wallerman, J. Komorowski, J. C. Fowler, P. Couttet, A. W. Bruce, O. M. Dovey, P. D. Ellis, C. F. Langford, D. A. Nix, G. Euskirchen, S. Hartman, A. E. Urban, P. Kraus, S. V. Calcar, N. Heintzman, T. H. Kim, K. Wang, C. Qu, G. Hon, R. Luna, C. K. Glass, M. G. Rosenfeld, S. F. Aldred, S. J. Cooper, A. Halees, J. M. Lin, H. P. Shulha, X. Zhang, M. Xu, J. N. Haidar, Y. Yu, Y. Ruan, V. R. Iyer, R. D. Green, C. Wadelius, P. J. Farnham, B. Ren, R. A. Harte, A. S. Hinrichs, H. Trumbower, H. Clawson, J. Hillman-Jackson, A. S. Zweig, K. Smith, A. Thakkapallayil, G. Barber, R. M. Kuhn, D. Karolchik, L. Armengol, C. P. Bird, P. I. de Bakker, A. D. Kern, N. Lopez-Bigas, J. D. Martin, B. E. Stranger, A. Woodroe, E. Davydov, A. Dimas, E. Eyras, I. B. Hallgrimsdottir, J. Huppert, M. C. Zody, G. R. Abecasis, X. Estivill, G. G. Bouard, X. Guan, N. F. Hansen, J. R. Idol, V. V. Maduro, B. Maskeri, J. C. McDowell, M. Park, P. J. Thomas, A. C. Young, R. W. Blakesley, D. M. Muzny, E. Sodergren, D. A. Wheeler, K. C. Worley, H. Jiang, G. M. Weinstock, R. A. Gibbs, T. Graves, R. Fulton, E. R. Mardis, R. K. Wilson, M. Clamp, J. Cu, S. Gnerre, D. B. Jae, J. L. Chang, K. Lindblad-Toh, E. S. Lander, M. Koriabine, M. Nefedov, K. Osoegawa, Y. Yoshinaga, B. Zhu, and P. J. de Jong, Identication and analysis of functional elements in 1 % of the human genome by the ENCODE pilot project, Nature, vol. 447, pp. 799816, Jun 2007. 19

[2] R. Cullum, O. Alder, and P. A. Hoodless, The next generation: using new sequencing technologies to analyse gene regulation, Respirology, vol. 16, pp. 210222, Feb 2011. [3] M. Nowrousian, Next-generation sequencing techniques for eukaryotic microorganisms: sequencing-based solutions to biological problems, Eukaryotic Cell, vol. 9, pp. 13001310, Sep 2010. [4] M. L. Metzker, Sequencing technologies - the next generation, Nat. Rev. Genet., vol. 11, pp. 3146, Jan 2010. [5] C. S. Pareek, R. Smoczynski, and A. Tretyn, Sequencing technologies and genome sequencing, J Appl Genet, Jun 2011. [6] J. Zhang, R. Chiodini, A. Badr, and G. Zhang, The impact of nextgeneration sequencing on genomics, J Genet Genomics, vol. 38, pp. 95 109, Mar 2011. [7] D. Fologea, M. Gershow, B. Ledden, D. S. McNabb, J. A. Golovchenko, and J. Li, Detecting single stranded DNA with a solid state nanopore, Nano Lett., vol. 5, pp. 19051909, Oct 2005. [8] E. Liu, S. Pott, and M. Huss, Q & a: Chip-seq technologies and the study of gene regulation, BMC biology, vol. 8, no. 1, p. 56, 2010. [9] Z. Wang, M. Gerstein, and M. Snyder, Rna-seq: a revolutionary tool for transcriptomics., Nat Rev Genet, vol. 10, pp. 5763, Jan. 2009. [10] V. Costa, C. Angelini, I. D. Feis, and A. Ciccodicola, Uncovering the complexity of transcriptomes with RNA-Seq, J. Biomed. Biotechnol., vol. 2010, p. 853916, 2010. [11] J. Malone and B. Oliver, Microarrays, deep sequencing and the true measure of the transcriptome, BMC biology, vol. 9, no. 1, p. 34, 2011. [12] J. Goecks, A. Nekrutenko, J. Taylor, E. Afgan, G. Ananda, D. Baker, D. Blankenberg, R. Chakrabarty, N. Coraor, J. Goecks, G. Von Kuster, R. Lazarus, K. Li, A. Nekrutenko, J. Taylor, and K. Vincent, Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences, Genome Biol., vol. 11, p. R86, 2010. [13] D. M. me 19, Blankenberg, G. Von Kuster, N. Coraor, G. Ananda, R. Lazarus, Mangan, A. Nekrutenko, and J. Taylor, Galaxy: a web-based genoanalysis tool for experimentalists, Curr Protoc Mol Biol, vol. Chapter pp. 121, Jan 2010.

[14] T. Barrett, D. B. Troup, S. E. Wilhite, P. Ledoux, C. Evangelista, I. F. Kim, M. Tomashevsky, K. A. Marshall, K. H. Phillippy, P. M. Sherman, R. N. Muertter, M. Holko, O. Ayanbule, A. Yefanov, and A. Soboleva, NCBI GEO: archive for functional genomics data sets10 years on, Nucleic Acids Res., vol. 39, pp. D10051010, Jan 2011.

20

[15] C. Trapnell, L. Pachter, and S. L. Salzberg, TopHat: discovering splice junctions with RNA-Seq, Bioinformatics, vol. 25, pp. 11051111, May 2009. [16] B. Langmead, C. Trapnell, M. Pop, and S. L. Salzberg, Ultrafast and memory-ecient alignment of short DNA sequences to the human genome, Genome Biol., vol. 10, p. R25, 2009. [17] Bioconductor, Bioconductor, January 2011. [18] A. T. A. Goncalves, Arrayexpresshts, January 2011. [19] S. Anders, Deseq, January 2011.

21

Вам также может понравиться