Академический Документы
Профессиональный Документы
Культура Документы
Orientadora
Prof.
Dr.
Braslia
2012
Prof.
Dr.
Prof.
Dr.
CDU 10/0055684
Endereo:
Universidade de Braslia
Campus Universitrio Darcy Ribeiro Asa Norte
CEP 70910-900
BrasliaDF Brasil
Universidade de Braslia
Instituto de Cincias Exatas
Departamento de Cincia da Computao
Prof.
Dr.
Prof.
Dr.
Dedicatria
Dedico este trabalho aos meus pais que, ainda longe, sempre acreditaram em mim.
Exemplos de fora e dedicao, bases da minha formao como pessoa, que cuidaram com
ateno ensinando-me os valores da vida.
Aos meus irmos e toda minha famlia que nunca se esqueceram de mim.
Aos mestres que souberam ensinar e guiar na direo correta, a todas as pessoas que
acreditaram na minha capacidade. Em especial a minha orientadora, que ainda de culturas
diferentes, soube me entender e acreditar em minhas habilidades, MUCHAS GRACIAS
Dra. Maristela Holanda.
Eu acredito demais na sorte. E tenho constatado que, quanto mais duro eu trabalho,
mais sorte eu tenho. Thomas Jeerson
iv
Agradecimentos
Antes de tudo preciso dizer que meus agradecimentos no so formais.
reconheceria neles se assim fora.
Eu no me
presentes, que se preocuparam, que foram solidrias, que torceram por mim. Mas bem
sei que agradecer sempre difcil. Posso cometer mais injustias esquecendo pessoas que
me ajudaram do que fazer justia a todas que merecem.
De qualquer forma, todos os que realizam um trabalho de pesquisa sabem que no o
fazem sozinhos, embora seja solitrio o ato da leitura (em nossos tempos) e o do escrever.
O resultado de nossos estudos foi possvel apenas pela cooperao e pelo esforo de outros
antes de ns. Como grandes pesquisadores da importncia de Albert Einstein disse "No
descobri a teoria da relatividade apenas com o pensamento racional".
Isto me leva a
questionar quanto deste trabalho meu e quanto dos outros com quem convivi e com
quem convivo, ento chego concluso de que este trabalho no s meu.
Queria agradecer de maneira especial a minha professora Maristela Terto de Holanda,
minha orientadora do mestrado pelas aulas, pelas sugestes pelos conselhos e dicas de
pesquisa, pelo material emprestado, pela pacincia que teve comigo, pela participao e
pela ajuda incondicional, juntamente com a Profesora Maria Emlia M. T. Walter quem
com seus conhecimentos e experincia souberam me encaminhar no mestrado. O professor
Srgio Lifschitz e a professora Clia Ghedini Ralha que so parte da minha banca de
qualicao, agradeo pela sua presena, suas sugestes e contribuies para com meu
trabalho.
Agradeo a todas as pessoas que conaram em mim desde o primeiro momento que
comecei o mestrado e me ajudaram nas minhas primeiras experincias neste novo pas
que me acolheu com braos aberto. Agradeo, particularmente, Juliana Barbosa, minha primeira amiga e condente no Brasil que fez todo o possvel para eu me adaptar
num lugar novo, de costumes diferentes dos meus, muito obrigado Juliana. No poderia
deixar de lado a minha famlia que, mesmo longe de mim, fez o possvel para me ajudar e
dar suporte nos momentos difceis. No poderia me esquecer de meus colegas de mestrado
que me acompanharam nesta etapa da minha vida, muito obrigado Daniel Saad, Wosley
Arruda, Tulio Conrado, Paulo Alvarez, Felipe Lessa, Halian Vilela, Taina Raiol, Beatriz
Walter, Harley Olivera, e todo o pessoal da Bioinformtica e do CIC com os quais passei
bons momentos.
MUITO OBRIGADO A TODOS VOCS, NUNCA PODEREI PAGAR SEU APOIO
SOMENTE COM MINHA GRATIDO ETERNA.
Resumo
O rpido avano nas tcnicas de sequenciamento de alto desempenho de fragmentos de
DNA/RNA criou novos desaos computacionais na rea de bioinformtica. Um desses desaos administrar o enorme volume de dados gerados pelos sequenciadores automticos,
particularmente o armazenamento e a anlise desses dados processados em larga escala.
A existncia de diferentes formatos de representao, terminologia, estrutura de arquivos
e semnticas, faz muito complexa a representao e administrao desses dados. Neste
contexto, um modelo de dados para representar, organizar e garantir o acesso aos dados
biolgicos essencial para suportar o trabalho dos pesquisadores do campo da biologia,
quando fazendo uso de pipelines de sequenciamento de alto desempenho.
Este trabalho prope tanto um modelo de dados conceitual, como tambm seu respectivo esquema relacional, permitindo a representao e o gerenciamento de um pipeline
de sequenciamento de alto desempenho para projetos transcritmicos no intuito de organizar e armazenar de maneira simples e eciente os dados gerados em cada fase da
anlise do pipeline. Nesta dissertao, trabalhamos com pipelines de sequenciamento de
alto desempenho com trs fases: ltragem, mapeamento e anlise. Para validar nosso modelo, apresentamos dois estudos de casos para identicar a expresso diferencial de genes
usando dados de sequenciamento de alto desempenho transcritmico. Estes estudos de
caso mostraram que introduzir o modelo de dados, e o esquema correspondente, tornou o
pipeline mais eciente, organizado, para dar suporte ao trabalho dos bilogos envolvidos
em um projeto de transcritoma.
Palavras-chave:
Dados Biolgicos
vi
Abstract
The rapid advances in high-throughput sequencing techniques of DNA/RNA fragments
created new computational challenges in bioinformatics.
manage the enormous volume of data generated by automatic sequencers, specially storage
and analysis of these data processed on large scale.
format, terminology, le structure and semantics, becomes very complex representation
and management of such data. In this context, a data model to represent, organize and
provide access to biological data is essential to support the researchers works into biology
eld when using high-throughput sequencing.
This work proposes a conceptual model as well as its database schema to represent
and manage a high-throughput transcriptome pipeline in order to organize and store in
a simple and ecient way data generated in each pipeline phase.
In this dissertation,
we work with three phases high-throughput sequencing pipeline: ltering, mapping and
analysis.
In order to validate our model, we present two case studies both having the
Keywords:
Data
vii
Sumrio
1 Introduo
1.1
Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Objetivos
1.2.1
1.3
2.2
Objetivos Especcos . . . . . . . . . . . . . . . . . . . . . . . . . .
Estrutura do Trabalho
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Biologia Molecular
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
Protena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
cidos Nuclicos
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3
11
Bioinformtica
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.1
. . . . . . . .
12
2.2.2
Projetos Transcritoma
. . . . . . . . . . . . . . . . . . . . . . . . .
13
2.2.3
13
2.2.4
15
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modelagem de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
17
3.1.1
Modelo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.1.2
23
3.1.3
29
. . . . . . . .
4.2
4.3
. . .
32
4.2.1
37
4.2.2
. . . . . . . . . . . . . .
40
4.2.3
. . . . . . . . . . . . . . . . .
41
43
4.3.1
. . . . . . . . . . . . . .
43
4.3.2
46
4.3.3
47
viii
5 Estudo de Caso
5.1
5.2
5.3
5.4
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
52
52
53
. . . . . .
57
5.3.1
57
5.3.2
5.3.3
. . . . . .
59
. . . . . . . . . . . . . . . . . . . .
62
Trabalhos Publicados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
ix
64
66
72
74
76
79
81
84
86
Lista de Figuras
2.1
2.2
2.3
. . . . . . . . . . . . . .
do carbono C [2]. . . . . . . . . . .
moglobina [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4
2.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6
tado de [4].
10
2.7
2.8
10
2.9
11
3.1
. . . . . . . . . . . .
19
3.2
20
3.3
3.4
. . . . . . . . . . . . . . . . . . . . . . . . . .
22
24
3.5
25
3.6
26
3.7
. . . . . . . . .
27
3.8
28
3.9
30
4.2
31
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico.
anexo I.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.3
38
4.4
40
4.5
42
. . . . . . . . . . . . . . . . . .
4.6
44
4.7
47
4.8
. . . . . . . . . . . . . . . . .
49
4.9
50
5.1
. . . . . . . . . . . . . . . . . . .
53
5.2
55
5.3
As linhas
ponteadas de cor cinza delimita o esquema TranscriptDB gerado pelo pacote GenomeFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.1
Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico.
II.1
58
. . . . . . . . . . . . . . . . . .
73
75
xi
85
Lista de Tabelas
2.1
3.1
Comparao dos modelos conceituais. A modelo de dados que usa, diculdade no uso, plataforma onde foi implementada.
. . . . . . . . . . . . .
29
. . . . . . . . . . . . . . . . . . . . . . . . . .
35
4.1
4.2
4.3
4.4
41
4.5
. . . . . . . . . . . . . . . . . . .
42
4.6
45
4.7
46
4.8
48
4.9
. . . . . . . . . . . . . . .
49
4.10
51
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
5.1
5.2
. .
39
60
61
5.4
37
62
62
III.1
76
IV.1
79
V.1
xii
. . . . . . . . . . . . . .
. . . . . . . . .
81
BLOB
cDNA
CDS
ChIP
COG
DNA
DOM
DoTS
EBI
edgeR
EE
EER
EMBL
ER
GAI
GAII
GMOD
GUS
KEGG
LNCaP
MCK
MOO
mRNA
NCBI
ncRNA
PDB
RAD
RefSeq
RNA
SGBD
SQL
SR
SRS
TESS
TOAST
tRNA
UML
xiii
Captulo 1
Introduo
Desde a descoberta da estrutura do DNA (Deoxyribonucleic Acid ) em 1953, por Watson e Crick [13] os avanos na biologia molecular tm notveis progressos criando-se uma
nova rea de pesquisa, a bioinformtica. Um dos desaos que se destaca o tratamento do
grande volume de dados biolgicos gerados pelos modernos sequenciadores de alto desempenho. Os gigabytes de sequncias de DNA gerados por cada projeto de sequenciamento
precisam ser armazenados. Enquanto o Projeto do Genoma Humano demorou 10 anos e
custou aproximado de $3 bilhes de dlares [14] gerando aproximadamente 3.5 bilhes de
pares de bases (pb), atualmente os novos projetos caram mais rpidos, baratos e geram
maiores quantidades de dados (entre 2 a 4 bilhes de pb em poucos dias). Como exemplo
desses projetos tem-se o Personal Genome Project de grande ajuda para rea mdica,
com o objetivo de obter diagnsticos mais precisos de doenas e tratamentos mdicos mais
apropiados para um indivduo particular [15]. Para este e outros projetos so usados os
sequenciadores de alto desempenho, tais como Illumina [16].
A Bioinformtica estuda os genomas que so compostos por cromossomos, cada um
sendo uma cadeia longa de DNA de 4 nucleotdeos: Adena (A), Citocina (C), Guanina
(G) e Timina (T). Por outro lado, o RNA uma cadeia de quatro nucleotdeos, tendo
Uracila (U) em vez da Timina (T). O processo de sequenciamento a decodicao da
sequncia de nucleotdeos dos cromossomos de um organismo. As sequncias de RNA so
gerados a partir de regies particulares de DNA, formando dessa forma transcritos que
codicaro protenas, onde a coleo desses transcritos chamada de transcritoma.
As tecnologias de sequenciamento de alto desempenho geram quantidades massivas de
fragmentos de DNA/RNA. O comprimento desses fragmentos muito pequeno quando
comparado com os tamanhos DNA/RNA completos.
Aps serem geradas, as SRS passam por mltiplas anlises, tais como:
(i) avaliar a qualidade dos dados; (ii) ltrar erros de sequenciamento; (iii) armazenar
sequncias de banco de dados externos ao laboratrio de bioinformtica; (iv) buscar funcionalidades biolgicas e (v) armazenar resultados produzidos pelos diferentes sistemas
usados.
Como dito antes, essas anlises geram grandes quantidades de dados, ento
essencial criar modelos de dados que representem, organizem e garantam o acesso aos
dados biolgicos nas diferentes fases do pipeline de sequenciamento de alto desempenho.
Neste contexto, o uso de um SGBD (Sistemas de Gerenciamento de Banco de Dados)
ou sistema de arquivos tem um papel crucial para resolver os desaos de armazenamento
e administrao de grande volume de dados que tm caractersticas peculiares como os
dados biolgicos. Alm desse problema, esses dados precisam de modelos adequados que
representem a informao gerada nos laboratrios de biologia molecular.
Sistemas de
pipelines tm sido criados para lidar com as diferentes fases de um projeto de sequenciamento de genoma. A diculdade na organizao e o armazenamento dos dados gerados
pelas diferentes fases e programas de um pipeline de sequenciamento de alto desempenho
o foco do nosso trabalho.
Particularmente, o interesse no uso de um SGBD dar-se- pelas vantagens que ele
fornece, tais como: segurana, organizao, fcil consulta aos dados e compresso dos
dados, o que muito til para administrar dados biolgicos.
a SGBD relacional para armazenar dados ao longo das diferentes fases do pipeline de
sequenciamento de alto desempenho. O SGBD relacional traz vantagens: amplo uso no
mercado, muitos SGBDs relacionais comerciais e de cdigo aberto so disponibilizados, a
existncia de padres e a facilidade de uso da linguagem de consulta.
1.1 Motivao
Os pipelines para projetos de sequenciamento de genomas so implementados como
meio para administrar, especicar e coordenar a execuo de experimentos que envolvam
diferentes fases com caractersticas particulares e com ns especcos. Eles permitem a
execuo de tarefas que usam dados e ferramentas heterogneos.
H diversos sistemas
1.2 Objetivos
Esta dissertao tem como objetivo geral o desenvolvimento de modelos de dados para
um pipeline de sequenciamento de alto desempenho, onde seja possvel a representao
dos dados das diferentes fases desse pipeline. Esses modelos de dados, referem-se a representao conceitual que utiliza a abordagem orientada a objetos, assim como tambm a
implementao do modelo atravs de um esquema relacional.
Captulo 2
Conceitos Bsicos de Biologia
Molecular e Bioinformtica
O presente captulo apresenta conceitos fundamentais de Biologia Molecular e Bioinformtica, necessrios ao entendimento deste trabalho. A Seo 2.1 apresenta de forma
breve conceitos de protenas e cidos nucleicos (DNA e RNA). Alm disso, exposto o
dogma central da biologia molecular, ou o processo atravs do qual as informaes contidas
no DNA so utilizadas para a sntese de protenas. Na seo 2.2, apresentamos conceitos
de bioinformtica, mas particularmente, falamos sobre o sequenciamento de alto desempenho do Illumina, transcritomas, as fases de um pipeline para projetos transcritomas de
alto desempenho, e bancos de dados biolgicos.
2.1.1 Protena
Os organismos da natureza na sua maioria so feitos de protenas que so cadeias
de molculas chamadas aminocidos.
representada pela Figura 2.1.
do carbono C [2].
Composio Qumica
Protenas, como ditas anteriormente, so formadas por longas cadeias de aminocidos.
A estrutura do monmero aminocido formada essencialmente por um carbono central,
um grupo amina, um grupo carboxila e uma cadeia complementar (radical), que responsvel pela existncia de vrios aminocidos nicos na natureza [4]. A Figura 2.1 mostra
os grupos formadores. Somente aminocidos entram na composio de protenas [12].
Para a formao das protenas, dois aminocidos so combinados atravs de uma
reao de snteses por desidratao (gera uma molcula de gua por cada unio), onde o
carbono do grupo carboxila de um aminocido liga-se ao tomo de nitrognio do grupo
amina do outro aminocido, gerando uma molcula de gua neste processo, esse tipo de
ligao chamada de ligao peptdica, criando resduos de aminocidos que formaram
as protenas.
A protena formada pelo encadeamento de aminocidos uma sequncia linear, conhecida de estrutura primria, mas a protena tem estrutura secundria, terciria e quaternria, que formam a estrutura tridimensional da protena (Figura 2.3). Na natureza,
so catalogados 22 aminocidos conhecidos [12], sendo 20 os mais comumentes achados
em protenas, e 2 aminocidos raramente encontrados em polipeptdeos, eles so listados
na Tabela 2.1.
Figura 2.3: Estrutura primria, secundria, terciria e quaternria da molcula da hemoglobina [3].
Estrutura da Protena
A funo de uma protena determinada pela sua estrutura espacial [17]. Os peptdeos
que a compe combinam-se por meio de ligaes de hidrognio (chamadas tambm de
ponte de hidrognio), ligaes inicas e ligaes dissulfricas (entre tomos de enxofre dos
resduos de aminocidos Cisteina (Cys)). Outros determinantes da conformao espacial
Tabela 2.1:
Os aminocidos
Nome
Abreviao Cdigo
Ala
Arginima
Arg
Asparagina
Asn
cido Asprtico
Asp
Asx
Cistena
Cys
Glutamina
Gln
cido glutmico
Glu
Glx
10
Glicina
Gly
11
Histidina
His
12
Isoleucina
Ile
13
Leucina
Leu
14
Lisina
Lys
15
Metionina
Met
16
Fenilalanina
Phe
17
Prolina
Pro
18
Serina
Ser
19
Treonina
Thr
20
Triptofano
Trp
21
Tirosina
Tyr
22
Valina
Val
Alanima
(Figura 2.2).
e pelo alinha-
-folha,
-hlice.
-hlice
ou da
-folha
descrevendo
considera sua totalidade em forma tridimensional, o que signica que a forma natural
como encontrada no organismo.
DNA - cido
DNA
O DNA um cido nucleico formado por um acar central - a pentose (acar com
cinco tomos de carbonos) desoxirribose (Figura 2.4) - e uma base nitrogenada - molculas
com ciclos de carbonos e nitrognios- (Figura 2.5).
Figura 2.4: Acar pentose principal que compe o nucleotdeo criador do DNA: a desoxirribose.
Na Figura 2.4 tem-se os carbonos numerados de 1' a 5' por conveno em relao
estrutura qumica do composto.
ao carbono 5' o fosfato.
nucleotdeo com o grupo hidroxila do carbono 3' do nucleotdeo ao qual est se ligando.
Naturalmente, por causa desta ligao, a molcula de DNA orientada do carbono 5' ao
carbono 3' [17].
A molcula de DNA de dupla ta. As duas tas formam uma estrutura de hlice
(Figura 2.6), sendo descobertas por James Watson e Francis Crick em 1953. A dupla ta
se mantm dessa forma graas s unies entre duas bases, cada uma de uma ta diferente,
essa unio acontece graas natureza complementar delas, neste caso as pricas (Adena e
Timina) unem-se com as pirimidinas (Citosina e Timina) [13] (Figura 2.5) . Isto acontece
por causa da anidade eletrnica da molcula. Pela natureza complementar das bases,
possvel extrair o complemento de uma ta do DNA aplicando a seguinte regra:
Figura 2.5: Bases nitrogenadas que compem um nucleotdeo da molcula DNA adaptado
de [4].
Adenina
Guanina
onde a
Timina
Citosina
A disposio espacial de uma ta de DNA, indo de 5' ao 3', pode- se concluir que seu
complemento exato oposto, indo de 3' ao 5'. Portanto, uma ta o exato complemento
reverso da outra, dando origem duplicao de trechos do cdigo de DNA.
Grande parte do material gentico encontrado no DNA de organismos eucariotos no
codica para protenas [18]. Denomina-se genes as regies delimitadas do DNA que codicam para protenas ou RNAs [4], isso no ato de transcrio, o DNA transcrito para
um RNA funcional vlido ou para um RNA mensageiro vlido (veja seo 2.1.3).
RNA
O RNA um aminocido como o DNA com certas diferenas e funcionalidades especcas. O RNA formado pelo acar ribose (veja Figura 2.7), a diferena do DNA que
tem a 2'- desoxirribose. Esta molcula est composta por uma base nitrogenada alm das
j descritas, ela a Uracila (U) que substitui a Timina (T). Outra diferena com o DNA
que s tem uma cadeia ou ta nica de nucleotdeos (ver Figura 2.6), tendo diferentes
formatos de acordo com a funo que pode exercer.
Identicamente ao DNA, a orientao do RNA se d do carbono 5' ao carbono 3'.
Podem-se reescrever as regras de complementaridade das bases nitrogenadas simplesmente
trocando-se a base Timina pela base Uracila.
A estrutura de ta nica faz ao RNA vulnervel a danos e erros, portanto menos apto
a transportar informao gentica [17]. Por essa caracterstica, alm da estrutura qumica
mais simplicada tanto da base Uracila (Figura 2.8), como da estrutura do RNA, existem
teorias de que o RNA teria sido o primeiro cido nuclico a ser usado como transportador
de material gentico [19].
Figura 2.6: A dupla Hlice do DNA mostrando a unio das bases [1].
Figura 2.7: Acar principal do nucleotdeo formador do RNA: a ribose adaptado de [4].
Figura 2.8: Uracila - base pirimidina que compe um nucleotdeo de molcula RNA.
10
mais acessvel (uma ta de RNA complementar) e atravs da traduo, o cdigo gentico
contido no RNA traduzido em protenas (Figura 2.9).
reconhecendo o incio de um gene graas a uma pequena regio do DNA sinalizado como
o comeo de um gene, chamado promotor.
informao do gene criando uma molcula de RNA complementar a uma ta de DNA.
Esta molcula de RNA chamada de RNA mensageiro ou mRNA (messenger RNA).
Assim o mRNA possui a mesma sequncia de uma das tas de DNA, contudo tendo a
base U no lugar da T. Este processo chamado de transcrio. O processo de transcrio
descrito acima vlido para seres chamados de procariotos, organismos sem ncleo celular
e com o DNA utuando livremente na clula.
Cada tRNA
composto de duas partes, uma delas possui anidade qumica a um dado cdon, enquanto a outra se liga com facilidade ao aminocido correspondente ao cdon. Conforme
a ta de mRNA passa pelo ribossomo, um tRNA correspondente ao cdon sendo lido pelo
ribossomo liga-se ao mesmo em questo trazendo consigo o aminocido correspondente.
Uma enzima ento catalisa a ligao peptdica para adicionar o aminocido em questo a
protena. A sntese prossegue assim, um aminocido de cada vez, parando apenas quando
11
um cdon do tipo STOP encontrado. Quando isso ocorre, a protena desliga-se do ribossomo, liberada na clula.
2.2 Bioinformtica
A Bioinformtica uma rea multidiciplinar que envolve cincias como Biologia Molecular, Estatstica, Matemtica e Cincia da Computao, e tem como objetivo realizar
anlises de dados biolgicos, como sequncias de bases de DNA e genes, predizer a estrutura e funo de diversas macromolculas [20].
necessrio o uso de ferramentas computacionais para anlises de dados genticos, originado com os projetos genoma, na dcada de 1990. Portanto, um ramo do conhecimento
relativamente recente.
A bioinformtica enfatiza o desenvolvimento de ferramentas para realizar o armazenamento e manipulao dos dados biolgicos gerados durante um projeto de sequenciamento.
Com o atual volume de dados produzidos pelos projetos de sequenciamento, a utilizao
de ferramentas computacionais traz grandes auxlios aos bilogos, ao permitir a recuperao rpida dos dados armazenados de um projeto genoma e apresentar os resultados de
maneira a facilitar a anlise dos mesmos e assim auxiliar na descoberta de funes para
as sequncias obtidas.
12
Mb de dados por corrida ao longo de aproximadamente quatro dias. O mtodo de Illumina um dos mais amplamente usados em sua curta existncia; aplicaes publicadas
incluem expresso de genes, descoberta de SNP, resequenciamento, e experimentos ChIP
(Chromatin Immunoprecipitation).
mRNA, ncRNA (non-coding RNA) e pequenos RNAs; determinar a estrutura transcricional dos genes; quanticar os nveis expresso de cada transcrito durante o desenvolvimento
da celula e baixo diferentes condies; entre outras.
Como visto na Seo 2.1.1, a sntese de uma protena ocorre atravs da transcrio
das informaes contidas no DNA em um RNA mensageiro e posterior traduo desta
informao em aminocidos. Dizemos ento que o gene codicando a protena em questo
expresso. O conjunto dos RNAs mensageiros de uma clula chamado de transcritoma,
e projetos de sequenciamento visando a obteno desses RNAs mensageiros so conhecidos
como projetos transcritoma.
A obteno de todos os transcritos de uma determinada clula de um dado organismo
uma tarefa complexa, pois nem todos os genes so expressos a todo momento.
De
2.2.3
13
vido s diferentes caratersticas das sequncias obtidas pelos novos sequenciadores, novos
Neste sentido, a
soluo desse quebra-cabea procurar onde poderiam encaixar as SRS dentro desse
enorme quebra-cabea chamado genoma de referncia. A procura das localizaes mais
adequadas das SRS so feitas por comparao, em particular observando sobreposies
no genoma de referncia [4].
O processo de mapeamento muito importante, j que uma fase que ajuda a encontrar genes, particularmente aqueles envolvidos em doenas humanas.
Por exemplo,
os pesquisadores estudam famlias inteiras afetadas por uma doena, seguem o rastro de
doenas hereditrias por muitas geraes. Regies, que tendem a ser herdadas junto com
a doena tendem a ser localizados prximos ao gene da doena e torna-se marcadores
para o gene em questo [26].
A fase de anlise constitui a ltima fase do pipeline de sequenciamento. Nesta fase
os pesquisadores procuram identicar os genes presentes nas regies mapeadas na fase
anterior e tambm outras informaes como as funes biolgicas, participao em vias
metablicas e relaes logenticas desses genes, entre outras importantes funes. Portanto, a fase de anlise um processo de interpretao dos dados brutos gerados pelo
sequenciamento com o objetivo de acrescentar informaes biolgicas.
A fase de an-
lise realizada por sistemas computacionais que tentam inferir as funes biolgicas das
14
GenBank
res [27].
O
EMBL
Laboratory ou conhecido como EMBL-Bank) a atividade central do EBI (Instituto Europeu de Bioinformatica). O banco de dados EMBL coleta, organiza e distribui um banco
PDB
molculas biolgicas, tais como protenas e cidos nucleicos. O PDB a fonte importante
COG
tenas (produzidas por genes derivados de um ancestral comum que se diferenciou devido
a divergncias dos organismos associados a eles; tais genes tendem a ter funes semelhantes).
evolutivo, ou seja, funes que se desenvolveram desde cedo e se mantiveram nas espcies
15
KEGG
utiliza conhecimentos de interaes moleculares, de genes, protenas e de compostos qumico e suas reaes para identicar um produto genmico dentro das vias metablicas
SWISS-PROT
de protenas. Para cada sequncia no banco de dados tem-se dados da molcula em questo
e anotao biolgica da mesma. A anotao da protena bastante completa abarcando
vrias caratersticas onde a ideia adicionar o maior nmero possvel de informaes
relativas aquela protena no Swiss-Prot. E assim como o RefSeq, o Swiss-Prot tambm
tem a inteno de produzir a menor redundncia possvel em relao s entradas de
protenas presentes no banco. Alm disso, Swiss-Prot apresenta referncia cruzadas com
outras bases de dados de biomolculas, dessa forma facilitando a apresso de informao
TrEMBL
RefSeq
16
Captulo 3
Modelos de Dados para Bioinformtica
No presente capitulo so apresentados os conceitos tericos fundamentais de modelagem de dados e o estudo desse tema na rea da bioinformtica. Na seo 3.1, o foco
principal na modelagem de dados de maneira geral, abordando as principais caractersticas de um modelo de dados, assim como, a sua importncia em um sistema computacional.
Nessa seo tambm so apresentados, os modelos de dados mais usados na atualidade
para representar um conjunto de requerimentos dos sistemas. Na seo 3.2, apresentado
o estado da arte dos trabalhos relacionados modelagem de dados da bioinformtica. No
nal da Seo 3.2 uma anlise comparativa entre os diferentes modelos realizada.
Segundo
17
E1 , E2 , E3 ..., En
onde (e1 ,
e2 ,
...,
en )
que descreve as entidades Gene, Exon, Segmento DNA e Intron, assim como tambm, os
relacionamentos entre as mesmas. A entidade Gene contm segmentos de DNA, onde os
segmentos de DNA podem ser Introns e/ou Exons que tambm so segmentos de DNA
com um identicador unico, incio e m do segmento.
superclasse
do banco de dados [36]. O conjunto que engloba esses subgrupos (subclasses) chamado
de
uma entidade, que membro de uma subclasse, herda todos os atributos da entidade como
membro da superclasse, assim como tambm herda todos os relacionamentos associados
especializao
superclasse.
A
versas especializaes para a mesma entidade, baseada nas diferentes caractersticas que
as distinguem. Em termos do diagrama ER, a especializao representada por um componente triangular etiquetado com IS-A. A relao IS-A pode-se chamar de relao
superclasse/subclasse [35] j que, este tipo de relao comea desde superclasses genricas
at subclasses mais especicas, ou em outras palavras, entidade de alto nvel a entidades
de baixo nvel (top-down ). Contrariamente especializao, a generalizao acontece das
entidades de baixo nvel s entidades de alto nvel, identicando caractersticas em comum
19
O MOO
baseado no que chamado paradigma orientado objeto, onde tudo modelado como
objetos [39]. Para modelar sistemas complexos de maneira adequada tem-se o desenho
orientado a funes e a abordagem orientada a dados (comumente usada por projetistas
de banco de dados). Essas duas tcnicas podem ser unidas em um s elemento chamadas
classe, encapsulando tanto dados como processos [39]. Uma classe representa um conjunto
de objetos parecidos, estes objetos tm propriedades (atributos) semelhantes e os mesmos
comportamentos (operaes), consequentemente a mesma semntica [40].
Dene-se um objeto como um conceito, uma abstrao, com limites ntidos e signicado em relao realidade estudada [40], por exemplo, a bactria Escherichia Coli, o
cromossomo 20 do genoma humano, o sequnciador illumina, dentre outros, so objetos
dentro do mundo dos dados biolgicos.
20
No MOO, um objeto pode ser qualquer coisa fsica ou abstrata que tem propriedades
(atributos) intrnsecas ou comuns a diferentes objetos.
conjunto de operaes que denem seu estado.
21
Figura 3.3: Diagrama da relao do gene com os elementos que o compem usando o
modelo orientado a objetos.
Modelo Relacional
O modelo relacional um modelo de lgico muito usado atualmente.
Esse modelo
foi proposto por Edgar Codd [44] em 1970, como uma viso de apresentao dos dados.
Codd mostrou que uma viso relacional dos dados permite a sua descrio natural, sem
que sejam necessrias estruturas adicionais para sua representao, provendo uma maior
independncia dos dados em relao aos programas.
Em complementao, apresentou
trabalho [45], Codd deniu uma lgebra relacional e provou, por meio de sua equivalncia
com o clculo relacional, que ela era completa, dando fundamentao terica ao modelo
relacional [45].
ser uma excelente opo, superando os modelos mais usados quela poca: o de redes
e o hierrquico.
representao simples dos dados e a facilidade com que consultas complexas podem ser
expressas.
O modelo relacional tem por nalidade representar os dados como uma coleo de relaes, onde cada relao representada por uma tabela. Cada linha na tabela representa
uma coleo de valores de dados, como uma tupla de uma relao [36]. Os valores de cada
linha podem ser interpretados como fatos descrevendo uma instncia de uma relao. Na
terminologia do modelo relacional, cada tabela chamada de relao; uma linha de uma
22
tabela chamada de tupla; o nome de cada coluna chamado de atributo; o tipo de dado
que descreve cada coluna chamado de domnio.
Um domnio D um conjunto de valores atmicos (cada valor do domnio indivisvel).
Durante a especicao do domnio importante destacar o tipo e tamanho do atributo
que est sendo especicado. Um esquema de relao R, denotado por R(A1 ,
onde cada atributo
Ai
A2 ,
... ,
An ),
Ai
t2 ,
... ,
tn ]
t2 ,
... ,
tn ]
domnio D. O valor nulo tambm pode fazer parte do domnio de um atributo e representa
um valor no conhecido para uma determinada tupla.
Dois conceitos fundamentais de um modelo relacional so chave primria e chave
estrangeira. Chave primria utilizada para identicar unicamente uma tupla em uma
realizao.
tabelas. Neste contexto, a restrio de domnio especica que, dentro de cada tupla, o
valor de cada atributo A deve ser um valor atmico do domnio Dom(A). A restrio de
chave dene que toda tupla tem um conjunto de atributos que a identica de maneira
nica na relao, isto , nenhum valor de chave primria poder ser repetido. A restrio
de chave estrangeira dene que uma relao pode ter um conjunto de atributos que contm
valores com mesmo domnio de um conjunto de atributos que forma a chave primaria de
outra relao. Este conjunto chamado de chave estrangeira. Na Figura 3.4 apresentado
um diagrama relacional do Gene, o o classe Gene esta composto por Segmento de DNA
(atravs de una relao de composio). A classe Segmento de DNA tem una relao de
especializao com as classes Intron e Exon.
Na Figura 3.4 apresentado um diagrama no modelo relacional do Gene, Segmento
de DNA, Intron, Exon e seus relacionamentos.
Que
tipo de relacionamentos tem-se entre esses tipos? devem ser respondidas antes da implementao real. A modelagem de dados conceituais pode prover uma forma cientca para
capturar as principais propriedades dos dados biolgicos. Os modelos de dados estudados
anteriormente tm uso extensivo para a modelagem de dados biolgicos. Nessa seo, so
apresentados diferentes trabalhos que usam modelos de dados tais como o modelo entidade relacionamento, modelo entidade relacionamento extendido e o modelo orientado a
objetos nas aplicaes de gerenciamento de dados de projetos na rea de bioinformtica.
Em estudos preliminares, foram identicados trabalhos que apresentam propostas relacionadas aos objetivos desta dissertao. A maioria deles surge com o intuito de procurar
uma forma de representar conceitos da biologia molecular.
Nos prximos pargrafos so detalhados alguns dos principais modelos de dados para
representar dados biolgicos disponveis na literatura, suas caractersticas, vantagens e
eventuais desvantagens.
23
Figura 3.4: Diagrama da relao do gene com os elementos que o compem usando o
modelo relacional.
1. Paton et al. (2000) [5] um dos primeiros trabalhos que apresentou modelos conceituais que descrevem dados genmicos e transcritmicos de eucariotos. Os modelos
conceituais deste trabalho so descritos usando diagramas de classes usando UML.
Neste trabalho so apresentados uma coleo de modelos conceituais para dados
de sequncias genmicas. Alm disso, so representados conceitos relacionados aos
acontecimentos naturais ou modicaes induzidas ao genoma, descrevendo a modicao e as consequncias dessas modicaes. Dessa forma, permitindo a integrao qualitativa e quantitativa dos distintos conjuntos de dados genmico funcionais
que tem sido produzidos. A representao de sequncias genmicas feita por meio
de um esquema bsico onde a entidade genoma composta pela entidade cromossomo, a entidade cromossomo composta pela entidade fragmentos de cromossomo
que ao mesmo tempo est composta por regies transcritas e no transcritas e o nvel de granularidade vai aumentando. Este modelo em especico importante pois
representa detalhes das sequncias de DNA (genmica) e RNA (transcritmica) at
serem traduzidas em protenas.
2. Bornberg-Bauer e Paton (2002) [46] fazem uso de conceitos bsicos dos modelos ER
e modelos orientado a objetos para especizar modelos conceituais no contexto da
bioinformtica. Pode-se considerar uma extenso dos modelos apresentados em [5],
pois, alm de apresentar o modelo geral para sequncias genmicas (Figura 3.5), so
apresentados modelos para estruturas de protenas e motifs usando os modelos ER
e MOO. O modelo ER usado para representar a relao que existe entre enzima,
protena e DNA com biopolmeros, assim como a relao de enzima-protenas e
enzima-reao. Embora seja usado o modelo ER, apresentado o mapeamento desse
24
25
4. Busch e Wedemann (2009) [7] deniram um DOM (Dynamic Object Model ) [47]
baseado no modelo orientado a objetos.
Contm conceitos
26
Figura 3.7: Os quatro submodelos: modelo operacional, meta modelo, modelo de conhecimento e modelo de informao [7].
5. Macedo (2007) et al. [8] prope uma linguagem conceitual chamada BioConceptual.
A BioConceptual prope estender os construtores tradicionais (conceito, relao e
classicao) do MOO para dessa forma melhorar sua expressividade e facilitar a
especicao do domnio biolgico em termo de dados.
BioConceptual proporci-
ona uma notao grca associada para cada tipo de construtor. Neste contexto,
algumas extenses so:
Por
exemplo, no esquema pode-se ter o conceito de Exon, ele usar o construtor de tipo
de dados objeto para denir este conceito.
Tipo de relacionamento :
Relacionamentos de associao : associaes no BioConceptual so ligaes direcionadas dada a necessidade de indicar qual a ordem dos parmetros dentro do
predicado que representa o relacionamento. As instncias dos relacionamentos no
27
Relao de agregao : dene um construtor especial chamado conguration constraint, que ajuda a especicar uma congurao usando relacionamentos de agregao, onde pode ser usado uma expresso regular.
Restries de integridade : dene-se Constraint como construtor especco de restries, podendo ser denida usando a lgica de primeira ordem.
O construtor
Figura 3.8: Denio de uma ordem entre instancias de tipo agregao [8].
Os modelos
[5, 46, 7] usam os modelos de dados existentes (ER, EER e MOO). Outros modelos tais
28
Tabela 3.1: Comparao dos modelos conceituais. A modelo de dados que usa, diculdade
no uso, plataforma onde foi implementada.
Bornberg-Bauer
Pa-
MOO
Baixa
PEOT
ER-MOO
Baixa
PEOT
ER-EER
Medio
Qualquer SGBD
ton [46]
3
relacional
4
BioConceptual [8]
MOO-DOM
MOO
Alto
MCK
Medio
Framework
ori-
entado a ob jetos
como [6, 8] adicionam novas caractersticas aos modelos de dados para adaptar-se e representar conceitos complexos da biologia molecular. O fato de modicar modelos de dados
e acrescentar algumas propriedades tem o objetivo de representar conceitos difceis de
modelar com os modelos de dados existentes. As modicaes tem o objetivo de simplicar a representao de conceitos complexos. No etanto a implementao das abordagens
foram usados o banco de dados orientado a objetos POET (agora FastObjects de Versant
que comprou Poet Software ), banco de dados relacionais, o framework MCK (Molecular
GUS
O GUS(Genomics Unied Schema ) um esquema de banco de dados relacional que
suporta uma ampla gama de tipos de dados que inclui genmicos, expresso de genes,
regies de transcrio, protemica, entre outros [9]. O GUS props uma modelagem de
dados para a implementao de aplicaes bioinformticas, de modo que o ncleo central
do modelo baseado no dogma da biologia molecular (ver Seao 2.1.3).
Conforme a
Figura 3.9 apresenta, as entidades principais e suas relaes so: um gene pode ter vrios
RNAs, um RNA pode dar origem a vrias protenas. O GUS tambm separa as anotaes
dos genes das anotaes de RNAs.
29
tion Element Search System ); SRes (Source Shared ); e o ncleo; usado para rastreamento
no biolgico e sobrecarga. Mas o nmero de tabelas que o esquema GUS possui aproximadamente de 480 tabelas [9], o que limita seu entendimento e consequentemente a
realizao de consultas nesse esquema muito complexa [49]. De forma similar a outro
esquemas, os usurios do GUS devem avaliar o esquema que se acomoda de melhor forma
a suas necessidades [49].
CHADO
O CHADO um esquema de banco de dados relacional modular usado para administrar dados biolgicos para uma grande variedade de organismos, especialmente, informao que est diretamente ou indiretamente envolvida com sequncias DNA, sequncias de
RNA e protenas [10, 50, 48]. O CHADO baseado na metodologia orientado a ontologias
e terminologias a qual a chave da sua exibilidade.
O CHADO foi originalmente desenvolvido para integrar recursos de informao em
dois bancos de dados de Drosophila independentes. Desde ento, tem sido desenvolvido
um esquema de banco de dados genmico ontolgico em resposta ao feedback dos usurios nais e da comunidade de bioinformtica. parte integrante como um componente
importante no projeto GMOD (Modelo de Banco de Dados Genrico para Organismos),
e agora fornece a infraestrutura de banco de dados para numerosos pacotes de software
dentro e fora do projeto GMOD (The Generic Model Organism Database ) [50].
30
A modularidade um princpio fundamental que reduz a complexidade e as dependncias. Neste contexto, o CHADO tem cinco mdulos centrais: de uso geral, publicao,
auditoria, vocabulrio controlado (ontologias) e de sequncia.
prove entidades de dados com identicadores estveis, globais e nicos. A tabela dbxref
armazena os identicadores, junto com uma coluna que referncia o nome do banco de dados, que armazenado em uma tabela separada. O mdulo de publicao denido para
armazenar informaes de provenincia de dados. Neste mdulo, a tabela pub no esta
limitado a armazenar informao de documentos publicados, mas tambm comunicaes
pessoais e anlises. O mdulo de auditoria, autogerado pelo esquema de banco dados
mesmo. Para cada tabela do banco de dados existe um conjunto de triggers que populam
a tabela audit_chado. Uma vez realizado uma insertao, atualizao, ou deleo armazenada dentro da tabela de auditoria o tempo, e o identicador de usurio. O mdulo
cvterm armazena cada um desses tipos (dados e relaes). O mdulo sequncia, mais particularmente a tabela feature muito importante para que o esquema do CHADO gerencie
sequncias de dados. Neste contexto uma feature uma regio de uma macromolcula
(DNA, RNA ou protena) [10, 50]. A Figura 3.10 mostra as tabelas mais importantes que
compem a mdulo de sequence feature.
Algumas
tabelas e colunas foram omitidas para fazer o diagrama mais conciso. Adaptado de [10].
31
Captulo 4
Modelo de Dados para um Pipeline de
Sequenciamento de Alto Desempenho
O presente captulo apresenta um modelo de dados orientado a objetos para dar suporte a um pipeline de sequenciamento de alto desempenho usando a notao UML. Alm
disso, apresentado o esquema relacional correspondente. O objetivo desta proposta
oferecer um modelo capaz de representar as diferentes fases que envolvem um projeto
de sequenciamento transcritmico. Dessa forma, tentar trazer o modelo conceitual mais
perto do domnio do processo de sequenciamento, alm do domnio biolgico.
Como exposto no captulo anterior (Seo 3.2), os modelos conceituais disponveis na
literatura, tem o foco principal no dado biolgico, e no, no processamento dos projetos
de sequenciamento atuais.
pipeline, descrita na Seo 4.1. O prximo passo a denio dos modelos conceituais
para cada uma dessas fases, assim como o modelo conceitual geral para o pipeline de
sequenciamento de alto desempenho transcritmico detalhado na Seo 4.2. Na Seo 4.3
desenvolvido o esquema relacional para a implementao do modelo de dados proposto
em um sistema gerenciador de banco de dados relacional.
Em
contraste as sequncias de comprimento maior do sequenciamento Sanger, o pequeno tamanho das SRS produzido pelos novos sequenciadores torn-lo mais difcil para realizar as
diferentes anlises de um pipeline tradicional. Alm disso, para a montagem de sequncias
e o resequenciamento de genoma, sequncias mais curtas vo exigir uma maior cobertura
ou amostragem do genoma para representar com preciso as informaes genticas [16].
32
Figura 4.1: Estrutura do pipeline de alto desempenho com as fases da ltragem, mapeamento e anlise
A qualidade um valor
numrico que expressa a probabilidade de erro associada a cada base. Cada projeto xa
um valor mnimo aceitvel de qualidade. As bases que apresentam um valor de qualidade
abaixo de um limite preestabelecido devem ser descartadas, uma vez que podem gerar
imprecises nas etapas subsequentes do pipeline. As SRS geradas tambm podem conter
contaminantes provenientes de fragmentos de DNA no pertencentes espcie estudada.
Em um laboratrio comum a execuo de experimentos com organismos diferentes.
Acidentalmente, possvel que uma amostras seja contaminada com sequncias de outro
organismo estudado no mesmo laboratrio. Outra possibilidade de contaminao ocorre
quando se estuda organismos que vivem relaes simbiontes ou atacado por alguma
doena. Existe a possibilidade de contaminao, pois durante a coleta de material existe
a possibilidade da obteno de DNA de ambos [25].
No sequenciamento so usados outros fragmentos tais como primers, vetores e adaptadores que podem de alguma forma conter contaminantes e afetar o valor de certeza das
bases sequenciadas (qualidade) [24]. Outras caractersticas possivelmente presentes nas
sequncias transcritas que podem dicultar o processamento das etapas subsequentes do
33
que uma base seja considerada de baixa qualidade e o tamanho mnimo para que uma
sequncia no seja descartada aps a limpeza so exemplos de parmetros congurveis
nessa etapa.
Fase de mapeamento : Uma vez que as sequncias obtidas pelos novos sequenciadores
so relativamente curtas em relao ao sequenciamento tradicional, isso torna invivel
o uso das tcnicas tradicionais para reagrupar e ordenar os fragmentos sequenciados no
DNA original, de forma a corresponderem s suas respectivas posies nos cromossomos
[4]. Nesta etapa, usa-se um genoma de referncia, normalmente um organismo prximo
ao organismo sendo sequenciado cujo genoma j conhecido com grande preciso. Dado
esse genoma de referncia, pode-se mapear as pequenas sequncias obtidas pelos novos
sequenciadores e agrup-las conforme a posio das mesmas no mapeamento. Uma vez
que as sequncias agrupadas constituem um nmero muito menor a ser analisado e visto
possurem poucas diferenas entre si, pois esto mapeadas aproximadamente na mesma
regio do genoma, seria possvel aplicar tcnicas de montagem tradicional a esses grupos de
sequncias. Alm de um genoma de referncia, seria possvel tambm utilizar bibliotecas
de exons como sequncias de referncias para a vericao de splicing alternativo a partir
do sequenciamento das SRS [1].
A tarefa de mapeamento de SRS buscar a localizao onde uma SRS idntica
referncia.
fonte biolgica atual do DNA/RNA que foi sequenciado. Alm disso, as SRS podem as
vezes ser mapeadas perfeitamente em vrios locais [51].
dessa fase encontrar o local onde cada SRS seja mapeada com mais alta preciso no
genoma de referncia. Comumente, esta fase includa no pipeline transcritmico quando
existem estudos logenticos de organismos prximos que tenham sido bem estudados,
chamados genomas de referncia. As SRS que so mapeadas na mesma regio do genoma
de referncia so agrupadas dentro de um conjunto que representado por uma sequncia
de consenso construda a partir do todas as SRS que pertencem a este conjunto.
Fase de anlise : Esta fase tem uma grande dependncia do propsito do projeto. A
fase de anlise o processo de procurar informao relevante das SRS obtidas na fase do
mapeamento, devidamente interpretadas, para extrair seu signicado biolgico e coloclo no contexto da compreenso dos processos biolgicos [52].
formulao de testes de hipteses biolgicas [53].
modelos de dados para um pipeline de sequenciamento de alto desempenho para armazenar os dados gerados pelas diferentes fases do pipeline.
34
A segunda fase prevista por Silberschatz et al. [35] se refere escolha do paradigma de
modelamento para a modelagem conceitual; neste caso, escolheu-se o modelo MOO por
sua capacidade de representar dados complexo, e a seguir foi desenvolvido o diagrama de
classes usando usando a notao UML (veja Figura 4.2). O modelo de dados conceitual
est dividido em trs modelos: ltragem, mapeamento e anlise.
Os modelos esto de
Nome entidade
Tabela 4.1:
organism
Descrio entidade
sample
project
projetos
short_read
Sequncias de bases
sequencer
Sequenciadores
quality_type
ltering_process
parameter
ltering_parameter
reference_genome
chromosome
gene
chromosome_fragment
Segmentos de cromossomo
mapping_process
Processos de mapeamento
mapping_result
database
analysis_process
Processos de anlises
ncRNA_identication
dierential_expression
phylogenetic_analysis
sequence_alignment
Alinhamento de sequncias
other
35
36
Figura 4.2: Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico. Ver
O modelo de dados est dividido em trs modelos menores. Estes modelos representam
as fases da ltragem, mapeamento e anlise. A Tabela 4.2 mostra para cada modelo as
entidades que o compem.
Tabela 4.2:
sequencer
Filtragem
quality_type
ltering_process
ltering_parameter
parameter
reference_genome
chromosome
Mapeamento
chromosome_fragment
mapping_process
mapping_parameter
mapping_result
database
analyse_process
ncRNA_identication
Anlise
dierential_expression
phylogenetic_analysis
sequence_alignment
other
37
o autorelacionamento lters (veja gura 4.3) evidencia aquelas SRS que satisfazem o critrio da ltragem, tais como porcentagem mnima de bases, onde cada um tenha um
mnimo de qualidade, ou outros ltros de acordo com o objetivo do projeto.
As SRS
38
Tabela 4.3:
Entidade
organism
sample
project
short_read
Nome atributos
Descrio atributos
species
Espcie do organismo
common_name
description
Descrio do organismo
sample
Nome da amostra
date
responsible
Pessoa encarregada
description
Descrio
project_name
Nome do projeto
namager_name
funding
instituition
description
Descrio do projeto
sequence
sequncia de bases
quality_seq
genus
Gnero do organismo
name_sequencer_center
Nome
do
centro
de
sequencia-
mento
sequencer
quality_type
plataform
Tecnologia do sequenciador
description
descrio
quality_name
start_ASCII
end_ASCII
oset
Deslocamento
type
Tipo
de
escore
de
qualidades
ltering_process
start_quality_range
Incio de qualidade
end_quality_range
Fim de qualidade
description
ltering_paramenter
parameter
value
Valor do parmetro
description
parameter_name
Nome do parmetro
39
chromosome que representa todos os cromossomos que compem o genoma de referncia. Cada cromossomo pode ser considerado como uma sequncia longa de DNA/RNA,
o que por sua vez consiste de uma sequncia (potencialmente sobrepostos) de fragmentos
de sequncias (entidade chromosome_fragment ) com seus incios e ns. No modelo da
Figura 4.4, a entidade mapping_process associada s SRS ltradas ao genoma de referncia e est relacionada com a entidade mapping_parameter que representa os valores
usados dos paramentos no processo de mapeamento.
40
Tabela 4.4:
Entidade
Reference_genome
Chromosome
Chromosome_fragment
Verso do genoma
description
descrio
start
Mapping_process
end
failed_mapped
ok_mapped
Mapping_parameter
mapping_resul
description
descrio
value
Valor de parmetro
description
descrio
strand
start
end
ncRNA_identication que representa a identicao de RNA no codicadores; dierential_expresion que representa o estudo de expresso diferencial; phylogenetic_analysis
que representa os processos de anlises logenticas (identicao de genes homlogos,
ortologos, e parologos), e other_analysis que representa outros tipos de anlises em especco que podem ser feitos. A Figura 4.5 apresenta esse modelo. A Tabela 4.5 apresenta
a descrio de cada entidade.
41
Tabela 4.5:
Entidade
database
url
Web site
description
description
analysis_process
anlise
ncRNA_identication
description
dierentiall_expression
description
phylogenetic_analysis
description
sequence_alignment
description
other_analyssis
Como a Tabela 4.5 apresenta, possvel ser realizados diferentes processos de anlises.
42
(dierential_expression ).
As tabelas resultam
necessaria a criaao de um novo tipo de dados para agrupar e armazenar milhes de SRS
em um s elemento, j que a representao e consequentemente a insero das SRS individualmente custosa em termos de tempo e espao dentro do SGBD, j que a criao
dos metadados, ndices e dados estatsticos fazem a insero das SRS individualmente
demoradas e aumentam o tamanho do banco de dados signicativamente.
Neste con-
ltering_result contm a coluna data criado para poder armazenar arquivos inteiros,
data denido usando o tipo de dados BLOB (Binary Large Objects ). Por outro lado, a
tabela ltering_process est associada a diferentes parmetros de ltragem que dependem
dos diferentes ltros adotados armazenado na tabela ltering_parameter que contm os
parmetros e os valores usados nas diferentes execues para poder conseguir os resultados
da tabela ltering_result.
As tabelas organism, sample, project, quality_type, sequencer e parameter no apresentam mudanas com respeito as suas correspondentes entidades do modelo conceitual.
43
Figura 4.6: Esquema relacional do pipeline de sequenciamento de alto desempenho transcritmico. Ver diagrama ampliado no anexo II.
44
Tabela 4.6:
Nome tabela
Descrio entidade
sample
project
Os projetos desenvolvidos
short_read
sequncias de bases
sequencer
Sequenciadores
quality_type
ltering_process
parameter
ltering_parameter
short_read_ltering
organism
ring_process
ltering_result
reference_genome
chromosome
chromosome_mapping
database_organism
mapping_process
Processos de mapeamento
mapping_result
mapping_parameter
database
mapping_analysis
ping_process
analysis_process
A Tabela 4.8 apresenta algumas tabelas, colunas e suas descries (Anexo III para ver a
tabela completa).
45
Tabela 4.7:
Sequencer
quality_type
ltering_process
ltering_parameter
parameter
short_read_ltering
ltering_result
Reference_genome
chromosome_mapping
chromosome
Mapeamento
Mapping_process
Mapping_parameter
chromosome_mapping
mapping_result
database
database_organism
Anlise
analysis_process
mapping_analysis
analysis_type
gene
Ana-
46
47
Tabela
organism
sample
project
Tabela 4.8:
Coluna
Descrio coluna
genus
Gnero do organismo
species
Espcie do organismo
common_name
description
Descrio do organismo
id_sample
Identicador da amostra
sample
Nome da amostra
date
responsible
Pessoa encarregada
description
Descrio
id_project_name
Identicador do projeto
project_name
Nome do projeto
namager_name
funding
instituition
description
Descrio
id_read
Identicador
id_organism
Identicador do organismo
do
conjunto
con-
tendo as SRS
id_sample
short_read
id_quality_type
id_sequencer
data
description
descrio
48
Tabela
Tabela 4.9:
Coluna
id_reference_genome
Descrio coluna
reference_genome id_organism
Verso do genoma
description
descrio
id_chromosome
Identicador do cromossomo
id_reference_genome
chromosome
chromosome_name
Nome do cromossomo
data
description
chromosome_
descrio
id_mapping_process
mapping
ping_process,
identica
pro-
cesso de mapeamento
id_chromosome
49
50
Tabela 4.10:
Tabela
Coluna
analysis_process
id_database
id_analysis_process
Descrio coluna
id_analysis_type
Chave
estrangeira
analysis_type,
da
identica
tabela
o
tipo
de anlise
analysis_type
database
database_organism
description
descrio da anlise
id_analysis_type
name_analysis
Nome da anlise
description
db_name
url
Sitio web
description
Descrio
id_database
id_organism
id_mapping_process
Chave
fornea
ping_process,
da
tabela
identica
mappro-
cesso de mapeamento
id_analysis_process
51
Captulo 5
Estudo de Caso
No presente captulo apresenta-se dois estudos de caso com o objetivo de validar a proposta de modelagem e implementao apresentada no Captulo 4. Na Seo 5.1 apresentada uma viso geral dos estudos de casos implementados. Na Seo 5.2 so estudadas as
diferentes tecnologias usadas nos estudos de caso. Na Seo 5.3 denido o pipeline com
as aplicaes da bioinformtica incluindo as fases: ltragem, mapeamento e anlise. Na
Seo 5.4 so apresentados os resultados experimentais. Na Seo 5.5 apresenta-se a discusso dos modelos e dos resultados alcanados. Na seo 5.6 apresentam-se os trabalhos
publicados.
52
10 109 398 SRS para amostras tratadas e 7 156 324 SRS para amostras no tratadas. O
resultado do sequnciamento um conjunto de arquivos FASTA contendo SRS de 36 pares
de base de comprimento. As SRS deste sequnciamento no apresentam as sequncias das
qualidades correspondentes a cada base, por isso o tratamento destes dados tem algumas
peculiaridades que so descritas nas prximas sees.
funcionamento do pipeline.
Figura 5.1: Viso geral do pipeline de anlise para sequnciamento de alto desempenho
transcritmico usado como estudo de caso.
Como dito na seo anterior, as SRS utilizadas no estudo de caso tm o formato
FASTQ [58]. Em linhas gerais o formato FASTQ composto pelas cadeias de sequncias
de bases e as sequncias de qualidades associadas a cada base.
armazena informao gerada pelos sequnciador Illumina em formato texto (Ver Anexo
VII). Os arquivos FASTQ tem um grande volume de dados, chegando ao tamanho de
mais de 10GB de dados nos nossos estudos de caso.
Na fase de ltragem do pipeline, foram usados os pacotes FASTX-Toolkit e o pacote FASTQC. O FASTX-toolkit [59] uma coleo de ferramentas que fornece prprocessamento de arquivos FASTA e FASTQ. Entre as principais caratersticas tem-se a
converso do formato FASTQ a FASTA, remoo de barcodes de sequncias, remoo de
adaptadores de sequncias, ltragem de sequncias baseadas na qualidade, entre outras.
O FastQC [60] uma aplicao java que gera um relatrio de controle de qualidade dos
53
Esta fase da
ltragem de suma importncia para assegurar que a fase seguinte do pipeline use s
sequncias com qualidade aceitvel.
Uma vez que a fase de ltragem foi completada, o processo de mapeamento comea
usando o programa TopHat. O TopHat [61] implementa um algoritmo de mapeamento de
SRS eciente projetado para alinhar SRS que vem de um sequenciamento de alto desempenho. O TopHat encontra junes mapeando as SRS em duas fases. Na primeira fase,
so mapeadas todas as SRS no genoma de referncia usando Bowtie [62] que usa ndices
para acelerar o procedimento de busca e diminuir o custo de memria associado a procura
das sequncias no genoma de referncia. Esta tcnica usada pelo Bowtie consiste em concatenar todo o genoma de referncia em uma nica string e realizar uma transformao
de Burrows-Wheeler para construir um ndices do genoma de referncia. O programa ento procede realizando o mapeamento de um caracter da SRS por vez, at alinhar todas
as SRS. Se isso no for possvel, o programa volta atrs e realiza a substituio de um
caracter, uma opo permite controlar o nmero mximo de substituies de carateres
permitidas. Todas as SRS que no foram mapeadas no genoma so separadas como SRS
no mapeadas inicialmente. Depois, as SRS no mapeadas so divididas em segmentos
menores e mapeadas individualmente. Dessa forma, amplia-se as probabilidades de ser
mapeadas no genoma de referncia.
O programa R foi escolhido para implementar a anlise de dados.
O R [63] um
ambiente de software livre para computao estatstica. Trabalha sobre diferentes plataformas: UNIX, Windows e MacOS. Uma das principais vantagens do R a facilidade de
projetar plots de qualidade, incluindo smbolos e frmulas matemticas, quando necessrias. Outra importante vantagem a facilidade de incluso de diferentes aplicativos tal
como o projeto BioConductor [64] que fornece ferramentas para as anlises e compreenso
de dados de sequenciamento de alto desempenho.
Entre os diferentes pacotes oferecidos pelo projeto BioConductor tem-se o pacote
Rsamtool [65] que traz as funcionalidades do samtool atravs dos mtodos scanBAM
e BAM Views. O mtodo scanBAM altamente parametrizado de modo que muitos detalhes de acesso e de ltragem de arquivos BAM contendo SRS podem ser controlados
atravs do R. O mtodo BAM Views permite a leitura e gerenciamento dos dados no R;
SRS mapeadas podem ser importadas, e visualizadas ecientemente para grandes colees
de dados. O pacote de GenomicFeatures [11], um conjunto de ferramentas e mtodos
para fazer e manipular anotaes de transcritos. Com estas ferramentas o usurio pode
facilmente baixar as localizaes genmicas dos transcritos, exons e CDS de um dado
organismo. Esta informao armazenada em um banco de dados local que mantm o
controle da relao entre os trancritos, exons CDS e genes. O GenomicFeatures tambm
fornece mtodos exveis para extrair as caratersticas desejadas em um formato conveniente. O Pacote edgeR (Empirical analysis of Digital Gene Expression data in R ) [66], usa
54
O SGBD o
responsvel pelo controle de acesso aos dados, ou seja, ele que gerencia os privilgios
de cada um dos usurios, e libera, ou no, o acesso aos dados, geralmente por meio de
um sistema de acesso a usurios.
55
Nesta pesquisa, optou-se pelo SGBD PostgreSQL que possui como ambiente nativo a
plataforma Unix, sendo tambm compatvel com a plataforma aberta Linux que bastante
usada na rea de bioinformtica. Outra caracterstica que possui uma interface grca
atravs de um cliente no ambiente MS Windows, bem como nas plataformas Linux e
Unix. Alm disso, realizou-se anlises de tempo gasto e de espao na insero de grandes
volumes de dados no SGBD MySQL comparado com o SGBD PostgreSQL, onde o SGBD
PostgreSQL obteve melhores resultados.
economizado (EE) pela abordagem SGBD em relao a uma abordagem usando sistemas
de arquivos. A seguir, descrevemos a medida de avaliao de espao economizado que
necessrio para entender a avaliao no armazenamento.
A denio de espao economizado (EE) a reduo do tamanho relativo ao tamanho
descompactado [69]. Esta denio apresentada na equao 5.1; enquanto o equivalente
para nosso estudo de caso apresentado na equao 5.2 (usada pelas Tabelas 5.1 e 5.2).
T amanho Compactado
;
T amanho Original
(5.1)
T amanho em SGBD
;
T amanho em Sistema de Arquivos
(5.2)
EE = 1
EE = 1
56
% T empo Gasto =
(5.3)
Alm disso so
Similarmente
a outros trabalhos da literatura, a nossa abordagem faz uso do MOO e a UML para
representar dados complexos da bioinformtica.
Na reviso da literatura, foi possvel vericar que a maioria de modelos para dados
biolgicos existentes esto mais interessados em representar os conceitos da biologia molecular, mas no os processos envolvidos tais como a ltragem de dados, mapeamento de
57
Figura 5.3: Esquema relacional da fase de anlise expresso diferencial. As linhas ponteadas de cor cinza delimita o esquema TranscriptDB gerado pelo pacote GenomeFeatures
Bauer e Paton (2002) [46] representam conceitos e fenmenos da biologia molecular para
sequncias genmicas e proteicas. Elmasri et al. (2006) [6] e Macedo et at. (2007) [8] so
trabalhos mais recentes tambm interessados na representao de dados biolgicos. Estes
trabalhos acrescentam algumas funcionalidades especiais para dessa forma acomodar o
modelo EER (Enhanced Entity Relationship ) e o MOO (Modelo Orientado a Objetos)
representando de melhor forma conceitos da biologia molecular.
Na abordagem de Busch e Wedeman (2009) [7] possvel cumprir com os requisitos
interoperabilidade e exibilidade para o domnio da biologia molecular.
Isto graas
denio de um modelo dinmico. Enquanto que a abordagem que propomos est interessada na representao e organizao de resultados parciais das anlises ao longo do
desenvolvimento de um pipeline, tais como controle de qualidade, mapeamento de SRS
(Short Read Sequences ) e a identicao da expresso diferencial de genes.
58
pipeline mais fcil, pois, muito importante poder fazer consultas e conseguir informao
da fase atual, anterior ou prxima.
consultas sobre o processamento do pipeline, uma vez que o esquema relaciona as tabelas
de processos: ltragem, mapeamento e anlise (expresso diferencial).
59
Os SGBDs modernos, entre os quais se incluem o PostgreSQL implementam o algoritmo de compresso, no PostgreSQL utilizado o TOAST (The Oversized-Attribute
Storage Technique ) [70]. A compresso TOAST habilitada automaticamente para todos os tipos de dados que contenham cadeias de caracteres e superam o tamanho de 2
KB. Uma vez superado o valor de 2KB por um atributo de alguma tabela, esse dado
armazenado em um tipo "extension room "(tabelas "TOAST") da tabela usada para armazenar (no sentido do tamanho dos dados) atributos com valores muito grandes que no
cabem em pginas de dados normais (como textos longos) [70]. Alm disto, os arquivos
de tamanho muito grande so armazenados no tipo de dados BLOB.
A Tabela 5.1 mostra o tamanho total de espao em disco para armazenar os dados do
genoma de referncia e os dados gerados pelo pacote GenomicFeature (banco de dados
de transcritos), tanto para sistema de arquivos como para SGBD. No caso do genoma de
referncia, os dados (arquivos) so armazenado em colunas de tipo BLOB. Uma vez que
esses dados so grandes demais, o algoritmo de compresso interna TOAST implementado
pelo PostgreSQL ativado, dessa forma obtendo uma taxa de economia de espao de 51,1%
para os dados do genoma de referncia. No entanto, os dados do TranscriptDB alcanaram
uma taxa de espao economizado negativo de -195,7% o que signica que o tamanho dos
dados no SGBD aumentaram de tamanho em um porcentagem de 195,7% do tamanho
original. Uma vez que os dados do TranscripDB so pequenos demais para que o algoritmo
de compresso TOAST seja aplicado e o aumento de dados como a criao de ndices e/ou
tabelas de ndices associadas a cada insero de dados muito pequenos; fazem que os dados
originais do TranscripDB (dados gerados pelo pacote GenomicFeatures ) aumentem de
tamanho no SGBD. O espao economizado total na Tabela 5.1 45,38%. Este resultado
consequncia do volume maior dos dados do genoma de referncia comparado ao volume
dos dados do TranscriptDB. Ainda que o espao economizado do TranscriptDB tenha
sido negativo.
Genoma de referencia
Dados
do
Trans-
Sistema de Esquema
Arquivos SGBD
(MB)
(MB)
2.745,0
1.343,0
51,1
64,6
191,0
-195,7
2.809,6
1.534
45,38
criptDB
Total
60
Na Tabela 5.2 o espao economizado para as SRS de rim e fgado foi de 57.9% e
48.2% para dados de clulas de cncer de prstata LNCaP. Para as SRS ltradas foi de
54,8% e 48,8% respectivamente.
que arquivos FASTQ podem ser comprimidos ecientemente, j que so de tipo texto.
Contudo, foram obtidos resultados negativos com arquivos que no so formados por
cadeias de caracteres.
bm que quanto maior o tamanho dos dados de tipo texto, maior ser a valor de espao
economizado devido ao algoritmo de compresso TOAST.
Tabela 5.2:
Sistema de Esquema
Espao EconoArquivos
SGBD (MB) mizado (%)
(MB)
Rim/
Cncer
Rim/
Cncer
Rim/
Cncer
fgado
CNcap
fgado
CNcap
fgado
CNcap
SRS
35.691,5
843,9
15.023,0
437,0
57,9
48,2
SRS ltradas
30.176,4
843,9
13.629.0
432,0
54,8
48,8
Mapeamento
2.784,3
139,0
3.758.0
231,0
-35,0
-66,2
Dados da expres-
2,4
2,2
10,0
10,0
-316,7
-354,5
68.654,6
1.829,0
32.420,0
1.110,0
52,8
39,3
so diferencial de
genes
Total
Os resultados nais totais mostram que o espao economizado variou de 45,38% (Tabela 5.1) a 39,3 - 52,8% (Tabela 5.2) o que se aproxima a 50%.
61
necessrio para a insero dos dados das diferentes fases nas tabelas do esquema relacional.
Por isso, foram realizadas algumas anlises em relao a esse tempo de processamento.
As Tabelas 5.3 e 5.4 mostram os tempos gastos pelos processos de ltragem, mapeamento e anlise comparado com o tempo gasto na insero de dados no SGBD para os
dados de clula de rim/gado e cncer de prstata.
zenadas as SRS no SGBD junto com as SRS ltradas. Na fase de mapeamento as SRS
foram mapeadas e os resultados (arquivos BAM) foram armazenados no SGBD. Na fase
anlise, a expresso diferencial foi realizada e os resultados armazenados no SGBD. Alm
disso, so mostrado os tempos de exportao dos dados inseridos no SGBD gerados nas
diferentes fases.
Filtragem
01:51:54
00:28:27
100,4
25,5
Mapeamento
68:26:12
00:08:55
00:01:51
0,2
0,04
Anlise
00:17:52
00:00:12
1,1
Total
70:35:26
02:01:01
00:30:18
2,9
0,7
Filtragem
00:02:03
00:00:15
Mapeamento
05:10:35
00:00:14
00:00:02
0,08
0,01
Anlise
00:15:50
00:00:13
1,4
Total
05:26:25
00:02:30
00:00:17
0,8
0,09
A Tabela 5.3 mosta que o tempo gasto pelos processos maior em relao ao tempo
gasto no armazenamento dentro do SGBD. O tempo de processamento dos dados de clulas de rim/fgado que mais demorou, foi do processo de mapeamento, 68 horas. Enquanto
que o tempo de insero e exportao no SGBD foi menos de 9 e 2 minutos respectivamente, o que representa apenas 0,2% e 0,04% em relao ao tempo do processo de
mapeamento, respectivamente. Apenas na fase de ltragem, o tempo gasto para a execuo do processo foi praticamente o mesmo para a insero dos dados no SGBD. Este
resultado consequncia dos mais de 64GB de dados (entre SRS e SRS ltradas) envolvidos no processo de ltragem fazendo que o tempo de insero no SGBD seja ligeiramente
maior (100,4%) em relao ao tempo gasto no processo de ltragem. Na fase de anlise,
o tempo gasto pelo processo de expresso diferencial maior comparado com o tempo
62
sium on Bioinformatics, sob o titulo de A Conceptual Model for Transcriptome HighThroughput Sequencing Pipeline [71]. O respectivo resumo estendido foi publicado nos
proceedings do congresso pela Springer.
O artigo completo foi aceito no BIBM 2011, Workshop on Data-mining of Next-
Generation Sequencing Data, sob o titulo de A Conceptual Data Model for Transcriptome
Project Pipeline [72]. O respectivo artigo foi publicado nos anais do congresso.
O artigo completo foi aceito e apresentado no The IADIS Applied Computing 2011
conference, sob o titulo de A Data Base Schema for High-Throughput Sequencing Transcriptome Pipelines [73]. O respectivo artigo foi publicado nos anais do congresso.
63
Captulo 6
Concluses e Trabalhos Futuros
Nesta dissertao, foi realizado o estudo dos principais modelos de dados para a representao de dados biolgicos disponveis atualmente na literatura. A partir desse estudo,
foi desenvolvido um modelo conceitual orientado a objetos para pipelines de sequenciamento de alto desempenho transcritmico baseado em trs fases: ltragem, mapeamento
e anlise. A especicao do modelo proposto levou em considerao a necessidade dos
projetos de sequenciamento envolvendo essas trs fases, assim como tambm, suprir as
decincias apresentadas nos modelos da literatura.
O modelo conceitual desenvolvido nesta dissertao representa os dados gerados nas
diferentes fases de um pipeline tais como SRS, SRS mapeadas, dados do genoma de referncia e todos os processos envolvidos. Sendo assim, o modelo proposto contempla os
dados biolgicos e as informaes sobre os processos envolvidos no pipeline de sequenciamento.
O esquema relacional foi baseado no modelo conceitual proposto. A especicao desse
esquema relacional levou em considerao regras bsicas para transformar um modelo conceitual em um esquema relacional, porm algumas diculdades foram encontradas j que
os dados dos sequenciamentos de alto desempenho tem caractersticas especcas, dentre
essas destacam-se: a criao de tipo de dado para agrupar grandes quantidades de SRS e
a criao de tabelas intermedirias entre o TranscriptDB gerado pelo GenomicFeatures e
o subesquema da fase de anlise; entre outras.
Aps a implementao do esquema relacional foi avaliado o desempenho no armazenamento, levando em considerao o espao economizado entre as abordagens SGBD e
sistemas de arquivo. Os resultados obtidos nos dois estudos de caso demostraram que a
abordagem SGBD em relao ao espao economizado teve bons resultados de forma geral
com 45,3% de espao economizado para os dados do genoma de referncia e TranscriptDB,
de 39,3% para os dados de clula de rim/gado e 52,8% para os dados de clulas de cncer de prstata LNCaP. No primeiro estudo de caso (dados de clulas de rim e fgado),
os dados so de volume considerveis com o formato FASTQ gerado pelo sequenciador
Illumina. No segundo estudo de caso (clulas de cncer de prstata LNCaP), os dados
so menores em relao ao primeiro, mas o volume de dados considervel.
Em relao ao tempo de processamento do pipeline, vericou-se que no impactante
a utilizao de um SGBD nas fases de mapeamento e anlise, uma vez que o tempo gasto
para inserir e extrair os dados necessrios para a execuo do pipeline pequeno em
relao ao tempo total de processamento do mesmo.
64
Alm
65
Referncias
[1] P.A. Alvarez. Pipelines para transcritomas obtidos porsequenciadores de alto desempenho. Technical report, Departamento de Cincia da computao - Universidade de
Braslia, 2009. x, 5, 10, 34
[2] T.C.C. da Silva.
Som-portrait:
quimica/module12/par01212protproducao.html.
http://www.daanvanalten.nl/
Acessado em Dezembro, 2011.
x, 6
[4] J.C. Setubal and J. Meidanis.
Medical Systems, pages 599604, Washington, DC, USA, 2006. IEEE Computer Society. x, 25, 26, 29, 58
[7] N. Busch and G. Wedemann. Modeling genomic data with type attributes, balancing
stability and maintainability. BMC Bioinformatics, 10(1):97113, 2009. x, 26, 27,
28, 29, 58
[8] J.A.F Macedo, F. Porto, S. Lifschitz, and P. Picouet.
language for the molecular biology domain. In Proceedings of the Twentieth IEEE
http://www.gusdb.org/about.php.
66
Conference on Innovative Data Systems Research (CIDR), volume 5667, pages 97
111, 2009. 1
[15] M.L. Metzker. Sequencing technologies - the next generation. Nature reviews. Ge-
Annual
2(12):919929,
2001. 9
[20] D.W. Mount. Bioinformatics: Sequence and Genome Analysis, Second Edition. Cold
Spring Harbor Laboratory Press, 2nd edition, July 2004. 12
[21] F. Sanger, S. Nicklen, and A.R. Coulson.
67
[26] M. Morgan,
M. Carlson,
V. Obenchain,
D. Tenenbaum,
and H. Pages.
Ge-
http://www.genomenewsnetwork.org/resources/whats_a_
genome/Chp3_1.shtml. Acessado em Junho, 2011. 14
nome news network.
The EMBL
Acta Crystallo-
An Entity-
[38] P.P. Chen. The entity-relationship modeltoward a unied view of data. ACM Trans.
projetos baseados em objetos, volume 8. Campus, Rio de Janeiro, 1st edition, 1994.
20
[41] G. Booch, R.A. Maksimchuk, M.W. Engel, B.J. Young, J. Conallen, and K.A. Houston. Object-Oriented Analysis and Design with Applications (3rd Edition). AddisonWesley Professional, 3 edition, April 2007. 21
[42] M. Fowler. UML Distilled: A Brief Guide to the Standard Object Modeling Language.
Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2003. 21
[43] G. Booch, J. Rumbaugh, and I. Jacobson. UML - Guia Do Usurio. Livraria Tempo
Real Inform, 2 edition, 2005. 21
[44] E. F. Codd. A relational model of data for large shared data banks. Commun. ACM,
13(6):377387, 1970. 22
[45] E.F. Codd. Relational completeness of data base sublanguages. IBM Corp., March
1972. 22
[46] E. Bornberg-Bauer and N.W. Paton. Conceptual data modelling for bioinformatics.
In 2000 Con-
http://gmod.org/wiki/Chado.
Current protocols in bioinformatics / editoral board, Andreas D. Baxevanis ... [et al.],
Chapter 9, January 2006. 30, 31
[51] Alicia Oshlack, Mark D. Robinson, and Matthew D. Young. From RNA-seq reads to
dierential expression results. Genome biology, 11(12):220230, December 2010. 34
[52] L.D. Stein. Genome annotation: from sequence to biology. Nature Reviews Genetics,
2(7):493503, July 2001. 34
[53] D. Frishman and Alfonso Valencia.
69
[54] M.
Morgan,
M.
Carlson,
V.
Obenchain,
D.
Tenenbaum,
and
H.
Pa-
http:
//www.bioconductor.org/help/course-materials/2011/SeattleIntro2011/
Bioconductor-tutorial.pdf. Acessado em Julhio, 2011. 57
ges.
High-throughput
sequence
analysis
with
and
bioconductor.
[55] J.C. Marioni, C.E. Mason, S.M. Mane, M. Stephens, and Y. Gilad.
RNA-seq: an
Microarray technology:
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/.
Aces-
html.
[60] S.
http://hannonlab.cshl.edu/fastx_toolkit/index.
Andrews.
Fastqc.
quality
control
tool
for
high
throughput
se-
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/Help/
1%20Introduction/. Acessado Abril, 2011. 53
quence data.
[61] C. Trapnell, L. Pachter, and S.L. Salzberg. TopHat: discovering splice junctions with
RNA-Seq. Bioinformatics, 25(9):11051111, May 2009. 54
[62] B. Langmead, C. Trapnell, M. Pop, and S. Salzberg. Ultrafast and memory-ecient
alignment of short DNA sequences to the human genome. Genome Biology, 10(3):25
35, 2009. 54
[63] R Development Core Team. R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria, 2010. 54
[64] R. Gentleman, V. Carey, D. Bates, Ben Bolstad, M. Dettling, Sandrine Dudoit, Byron
Ellis, Laurent Gautier, Yongchao Ge, Je Gentry, Kurt Hornik, Torsten Hothorn,
Wolfgang Huber, Stefano Iacus, Rafael Irizarry, Friedrich Leisch, Cheng Li, Martin
Maechler, Anthony Rossini, Gunther Sawitzki, Colin Smith, Gordon Smyth, Luke
Tierney, Jean Yang, and Jianhua Zhang. Bioconductor: open software development
for computational biology and bioinformatics. Genome Biology, 5(10):R80+, 2004.
54
[65] N. Delhomme. RNA-Seq Tutorial (EBI, October 2011), 2011. 54
[66] Mark D. Robinson, Davis J. McCarthy, and Gordon K. Smyth.
edgeR: a Biocon-
ductor package for dierential expression analysis of digital gene expression data.
70
http://rdbi.sourceforge.net.
55
[68] N. Edelweiss.
In XVII Jornada de
www.postgresql.org/docs/8.4/static/storage-toast.html.
http://
Acessado em Julio,
2011. 60
[71] R.C. Huacarpuma, M. Holanda, and M.E.M.T. Walter. A conceptual model for transcriptome high-throughput sequencing pipeline. In Proceedings of the 6th Brazilian
In Proceedings of
71
72
Anexo I
73
Figura I.1: Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico.
Anexo II
Esquema Relacional do
74
Pipeline
Figura II.1:
75
Anexo III
Tabela do Esquema de Filtragem
Tabela III.1: Tabelas e colunas do subesquema ltragem.
Tabela
organism
sample
project
Coluna
Descrio coluna
genus
Gnero do organismo
species
Espcie do organismo
common_name
description
Descrio do organismo
id_sample
Identicador da amostra
sample
Nome da amostra
date
responsible
Pessoa encarregada
description
Descrio
id_project_name
Identicador do projeto
project_name
Nome do projeto
namager_name
funding
instituition
description
Descrio
id_read
Identicador
id_organism
Identicador do organismo
do
conjunto
con-
tendo as SRS
id_sample
short_read
id_quality_type
id_sequencer
data
description
descrio
Continua na proxima pagina
76
Tabela
Coluna
Descrio coluna
sequencer
name_sequencer_center
Nome
id_sequencer
Identicador do sequenciador
do
centro
de
sequencia-
mento
plataform
Tecnologia do sequenciador
description
descrio
id_quality
quality_name
start_ASCII
quality_type
end_ASCII
oset
Deslocamento
type
Tipo
de
escore
de
qualidades
start_quality_range
end_quality_range
id_ltering_process
ltering_process
ltering_name
ok_ltered
failed_ltered
description
id_ltering_process
Chave
fornea
da
lte-
tabela
ltering_paramenter
id_parameter
parameter
short_read_ltering
value
Valor do parmetro
description
id_parameter_name
Identicador do parmetro
parameter_name
Nome do parmetro
id_ltering_process
Chave
fornea
da
lte-
tabela
id_read
Chave
fornea
da
tabela
77
Tabela
Coluna
ltering_result
id_ltering_process
id_ltering_result
Descrio coluna
fornea
da
tabela
lte-
data
78
Anexo IV
Tabela do Esquema de Mapeamento
Tabela IV.1: Tabelas e Colunas do subesquema mapeamento.
Tabela
Coluna
id_reference_genome
Descrio coluna
reference_genome
id_organism
Verso do genoma
description
descrio
id_chromosome
Identicador do cromossomo
id_reference_genome
chromosome
chromosome_name
Nome do cromossomo
data
chromosome_mapping
description
descrio
id_mapping_process
ping_process,
identica
pro-
cesso de mapeamento
id_chromosome
id_mapping_process
id_ltering_result
mapping_process
failed_mapped
ok_mapped
79
Tabela
Coluna
Descrio coluna
id_mapping_process
description
Descrio
ping_process,
identica
pro-
cesso de mapeamento
mapping_parameter
id_parameter
Valor de parmetro
description
Descrio
id_mapping_result
Identicador
do
resultado
pro
processo de mapeamento
id_mapping_process
ping_process,
identica
pro-
cesso de mapeamento
mapping_resul
data
start
description
Descrio
80
Anexo V
Tabela do Esquema de Anlise Usada
nos Estudos Caso
Tabela V.1: Tabelas e Colunas do subesquema da anlise - Expresso.
Tabela
Coluna
id_analysis_process
Descrio coluna
analysis_process
id_database
id_analysis_type
Chave
estrangeira
analysis_type,
da
identica
tabela
o
tipo
de anlise
analysis_type
database
database_organism
description
descrio da anlise
id_analysis_type
name_analysis
Nome da anlise
description
db_name
url
Sitio web
description
Descrio
id_database
gene
gene_id
Identicador do gene
gene_name
Nome do transcrito
_chrom_id
start
Incio do transcrito
end
Fim do transcrito
Continua na proxima pagina
81
Tabela
transcript
Coluna
Descrio coluna
tx_name
Nome do transcrito
_chrom_id
_tx_id
Identicador do transcrito
genes_transcript
strand
start
Incio do transcrito
end
Fim do transcrito
gene_id
_tx_id
exon
_exon_id
Identicador do exon
exon_name
Nome do exon
_chrom_id
transcript
strand
start
Incio do exon
end
Fim do exon
_cds_id
Identicador do cds
cds_name
Nome do cds
_chrom_id
start
Incio do cds
end
Fim do cds
_tx_id
splicing
exon_rank
_exon_id
_cds_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
gene_result
id_mapping_process
ping_process,
identica
pro-
cesso de mappeamento
gene_id
82
Tabela
Coluna
Descrio coluna
count
Nmero de SRSs que foram mapeadas dentro do gene identicado por gene_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
transcript_result
id_mapping_process
ping_process,
identica
pro-
cesso de mappeamento
_tx_id
Chave
estrangeira
transcript,
da
identica
tabela
um
trans-
crito
count
Nmero de SRSs que foram mapeadas dentro do transcrito identicado por _tx_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
exon_result
id_mapping_process
ping_process,
identica
pro-
cesso de mappeamento
_exon_id
count
Nmero de SRSs que foram mapeadas dentro do exon identicado por _exon_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
cds_result
id_mapping_process
ping_process,
identica
pro-
cesso de mappeamento
_cds_id
count
chrominfo
_chrom_id
Identicador do cromossomo
chrom
Nome do cromossomo
length
Tamanho do cromossomo
is_circular
Se o cromossomo circular
83
Anexo VI
Esquema Relacional do Pipeline Usado
nos Estudos de Caso
84
Figura VI.1: Esquema relacional do pipeline de sequenciamento de alto desempenho transcritmico. As linhas ponteadas de cor cinza delimita o esquema TranscriptDB gerado pelo
pacote GenomicFeatures [11].
85
Anexo VII
Formato do Arquivo FASTQ
@SRR002325.1 080317_CM-KID-LIV-2-REPEAT_0003:2:1:906:788 length=36
GAGAACCCTTTCCTCTTAAATTCTACTTCCACATAA
+SRR002325.1 080317_CM-KID-LIV-2-REPEAT_0003:2:1:906:788 length=36
IIII:.GAIIIIII6III:%II=I;0I)>5*III3
@SRR002325.2 080317_CM-KID-LIV-2-REPEAT_0003:2:1:919:342 length=36
TGAACCTAGAGTCTGGATCTATTTTTGTCTGAATGC
+SRR002325.2 080317_CM-KID-LIV-2-REPEAT_0003:2:1:919:342 length=36
IIIIIIIII+IIIIIIFIII0IIIIIHIII)8)I5I
@SRR002325.3 080317_CM-KID-LIV-2-REPEAT_0003:2:1:874:773 length=36
GGTCGGTTCCTTCCTTTTTTGCCTAGATTTTATGTA
+SRR002325.3 080317_CM-KID-LIV-2-REPEAT_0003:2:1:874:773 length=36
IIIIIIIII+IIIIIIFIII0IIIIIHIII)8)I5I
@SRR002325.4 080317_CM-KID-LIV-2-REPEAT_0003:2:1:876:756 length=36
GGAAAGTTCTTACATCTTGCGACTCATGAAATATTT
+SRR002325.4 080317_CM-KID-LIV-2-REPEAT_0003:2:1:876:756 length=36
IIIIIIIII+IIIIIIFIII0IIIIIHIII)8)I5I
@SRR002325.5 080317_CM-KID-LIV-2-REPEAT_0003:2:1:893:816 length=36
GAAAGCGCTCAAGCTCAACACCCATCACCTAAAAAA
+SRR002325.5 080317_CM-KID-LIV-2-REPEAT_0003:2:1:893:816 length=36
IIIIIIIII+IIIIIIFIII0IIIIIHIII)8)I5I
@SRR002325.6 080317_CM-KID-LIV-2-REPEAT_0003:2:1:875:565 length=36
TGTTAATCTTCTGTCTTGTTTATCTTTGCAATATTG
+SRR002325.6 080317_CM-KID-LIV-2-REPEAT_0003:2:1:875:565 length=36
IIIIIIIII+IIIIIIFIII0IIIIIHIII)8)I5I
86