Академический Документы
Профессиональный Документы
Культура Документы
Sumário
1 Introdução 2
1.1 Anatomia de genomas . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Genomas procarióticos . . . . . . . . . . . . . . . . . . 2
1.1.2 Genomas eucarióticos . . . . . . . . . . . . . . . . . . . 3
1.2 Montagem de sequências e identificação de genes . . . . . . . . 4
2 Métodos 5
2.1 Genômica comparativa . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Análise do proteoma . . . . . . . . . . . . . . . . . . . 5
2.1.2 Regiões conservadas antigas . . . . . . . . . . . . . . . 8
2.1.3 Transferência horizontal de genes . . . . . . . . . . . . 8
2.2 Classificação funcional de genes . . . . . . . . . . . . . . . . . 8
2.3 A ordem dos genes (sintenia) é conservada em cromossomos
de organismos relacionados . . . . . . . . . . . . . . . . . . . . 9
2.4 Regulação gênica global . . . . . . . . . . . . . . . . . . . . . 11
2.5 Predição da função gênica baseada na análise de compostos . . 12
2.6 Genômica funcional . . . . . . . . . . . . . . . . . . . . . . . . 13
2.7 Juntando todas as informações em um banco de dados de geno-
mas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1
1 Introdução
Uma das maiores aplicações da bioinformática é a análise de genomas in-
teiros de organismos que foram sequenciados no final dos anos 1990, como
os organismos modelo C. elegans e A. thaliana. Vários outros projetos de se-
quenciamento de genomas estão sendo planejados ou já estão em andamento.
A genética tradicional e a biologia molecular foram direcionadas para o
entendimento do papel de um gene em particular ou de uma proteína em um
processo biológico importante. Um gene é seqüenciado para a predição de
sua função ou para a manipulação de sua atividade ou expressão. A disponi-
bilidade de sequências de genomas fornece oportunidades sem precedentes
para explorar a variabilidade genética entre organismos ou dentro de um or-
ganismo em particular. Uma das maiores tarefas na comparação de genomas
é identificar os genes que codificam proteínas e descobrir a função do maior
número possível dessas proteínas (por buscas de similaridade em um banco
de dados).
2
As sequências genômicas foram anotadas conforme eram obtidas. A an-
otação envolve a identificação de fases de leitura abertas (ORFs) usando a
proteína prevista como consulta em uma busca num banco de dados, seguida
da adição dos resultados significantes ao registro do genoma no banco de da-
dos (outros métodos para busca de famílias proteicas também são usados).
Na análise dos resultados, é importante observar qual o método utilizado, a
significância estatística dos resultados e o nível geral de confiança dos alin-
hamentos.
Repetições de sequências
Regiões que possuem repetições são conhecidas como DNA satélite (co-
mumente encontrados perto do centrômero), cujo comprimento da unidade
de repetição varia entre 5 e 200 bp. Algumas subcategorias são os minis-
satélites (monômeros de até 25 bp) e os microssatélites (monômeros de 4 bp
ou menos). Microssatélites são encontrados nos telômeros de cromossomos
eucarióticos.
3
Ainda existe uma terceira categoria de ETs que possui características das
classes I e II. Essas ETs de repetições invertidas em miniatura (MITES) pos-
suem comprimento de 400 bp e foram descobertas em angiospermas diversas,
onde estão frequentemente associadas a regiões reguladoras de genes (e, por-
tanto, poderiam exercer influência na expressão gênica).
Pseudogenes
Acredita-se que novas funções gênicas são adquiridas pela duplicação de
um gene existente (criando duas cópias em tandem), seguida por mutação e
seleção (que causam a diferenciação). Porém, como a maioria das mutações
é deletéria (e apenas uma cópia do gene pode ser necessária), existe uma
tendência forte de uma cópia acumular mutações que inibam a função do gene
(tornando-se pseudogenes). Pseudogenes processados são os derivados de um
gene funcional, mas não contém íntrons e nem um promotor (e, portanto, não
são expressos).
4
em uma sequência proteica (o conjunto de proteínas de um organismo é
chamado de proteoma). Cada proteína do proteoma é então usada como
consulta numa busca de similaridade em um banco de dados. Os resulta-
dos da busca são realinhados com a consulta para avaliar a extensão e a
significância do alinhamento.
A comparação das sequências proteicas previstas com uma biblioteca de
etiquetas de sequência expressa (ESTs) confirma a predição e a expressão do
gene. A informação sobre a função do proteoma pode ser analisada por au-
tocomparação para encontrar genes duplicados (parálogos) ou por compara-
ção com outro proteoma para identificar ortólogos (genes que mantiveram a
mesma função após a especiação) e outras relações evolutivas.
2 Métodos
2.1 Genômica comparativa
A genômica comparativa inclui uma comparação do número, conteúdo e lo-
calização dos genes em grupos de organismos procarióticos. A disponibilidade
de sequências genômicas completas torna possível a comparação entre pro-
teomas de organismos diferentes. Como a sequência genômica fornece tanto
a composição quanto a localização de cada gene, ambas as informações po-
dem ser comparadas. Comparações entre sequências dão informações sobre
as relações entre os genes: se um conjunto deles estiver agrupado em uma
dada localização cromossômica, e se um conjunto de genes similares tam-
bém estiver agrupado no genoma de outro organismo, então esses grupos
compartilham uma história evolutiva.
5
agrupamentos. Ela organiza as proteínas em grupos de acordo com critérios
objetivos, como a significância estatística do alinhamento (são considerados
significantes os que tiverem E valor < 0, 01 − 0, 05) e a distância entre cada
par de sequências num alinhamento múltiplo (medida pelo número de mu-
danças nos aminoácidos).
6
Duas proteínas (X no proteoma A e Y no proteoma B) são classificadas como
ortólogas se buscas recíprocas (de Y em A e X em B) produzirem a outra
proteína como resultado de maior pontuação. Além disso, o E valor para
cada alinhamento deve ser < 0, 01 e o alinhamento deve se estender a mais
de 60% de cada proteína.
7
Uma característica importante das proteínas é a sua organização em
domínios que representam módulos estruturais e funcionais. Proteínas são
mosaicos de domínios, que ocorrem em combinações diferentes em cada uma
delas. A comparação dos domínios de um proteoma com os de outro pro-
teoma pode revelar os papéis biológicos de domínios diversos em organismos
distintos.
8
uma cópia executando a função original e a outra produzindo uma nova
função não muito distante (sujeita à seleção natural). Os números da Comis-
são de Enzimas (números EC) formulados pela Comissão de Enzimas da
União Internacional de Bioquímica e Biologia Molecular fornecem um modo
detalhado de classificar enzimas de acordo com as reações que catalisam. A
designação EC a.b.c.d fornece as seguintes informações:
a) uma das seis classes principais de reações bioquímicas (1: oxirredutases,
2: transferases, 3: hidrolases, 4: liases, 5: isomerases, 6: ligases);
b) o grupo da molécula do substrato ou a natureza da ligação química en-
volvida na reação;
c) designação para moléculas aceptoras (cofatores);
d) detalhes específicos da reação bioquímica.
Outro esquema de classificação funcional para genes inclui uma categoria
mais geral para genes envolvidos num mesmo processo biológico, como os
relacionados à energia, à informação ou à comunicação. Mais da metade do
genoma das plantas é relacionado à energia, enquanto metade do genoma dos
animais é relacionado à comunicação.
Rearranjos cromossômicos
9
Uma conservação similar da ordem gênica também parece estar pre-
sente em genomas eucarióticos intimamente relacionados. As evidências são
baseadas em experimentos de tingimento cromossômico no qual o DNA de
uma seção de um cromossomo de um organismo é marcado e se hibridiza com
cromossomos de um segundo organismo (as regiões do segundo cromossomo
que ficam marcadas revelam a presença de uma região homóloga).
10
sido demonstrada e pode ser prevista para quase todas as proteínas (com
base em comparações adicionais de sequências).
Num segundo método (Overbeek et al. 1999) uma busca recíproca total
(cada proteína de um proteoma foi usada como consulta numa busca no outro
proteoma) foi feita entre os proteomas de dois procariontes. Foram identifica-
dos os pares de proteínas que resultavam num melhor resultado com o outro
proteoma e tinham um E valor < 10−5 , chamados de melhores resultados
bidirecionais (BBH). Os pares de BBH próximos (PCBBH) que estavam a
até 300 bp um do outro nos cromossomos dos respectivos organismos e eram
transcritos da mesma fita (como em um operon) também foram identificados.
Foi feito um esquema de pontuação para esses pares, de modo que os que
eram observados em vários organismos distantes filogeneticamente recebiam
maior pontuação. Quarenta porcento do conjunto de pares com maior pon-
tuação correspondia a proteínas que sabidamente faziam parte da mesma via
metabólica.
11
ocorre em câncer).
A análise de microarranjo (ou microchip) é uma tecnologia na qual to-
dos os genes de um organismo são representados por sequências de oligonu-
cleotídeos espalhados numa matriz 80 × 80 de lâminas de microscópio. Os
oligonucleotídeos são hibridizados com uma biblioteca de cDNAs marcados,
preparados por transcrição reversa a partir do RNAm das células. A quanti-
dade de sondas que se ligam em cada ponto refletem a quantidade de RNAm
na célula. Os genes que respondem do mesmo modo a um sinal ambiental
são agrupados numa tela.
Uma vez que um conjunto de genes corregulados é encontrado, suas
regiões promotoras podem ser analisadas para a busca de padrões conserva-
dos que representem sítios de interação com fatores de transcrição específicos.
12
2.6 Genômica funcional
Uma grande parte da análise genômica depende de métodos de análise de
sequências que identifiquem funções gênicas baseados na similaridade entre
proteínas de função desconhecida e proteínas de função conhecida. Porém,
esses métodos podem não conseguir determinar a função de um gene com
precisão.
Para conseguir isso, existem dois tipos de abordagens: uma na qual um
elemento genético é elaborado de forma a interferir na expressão de um gene
em particular e outra na qual várias mutações aleatórias são geradas numa
população de organismos. Os indivíduos com uma mutação em particular são
então identificados. Em seguida, o efeito dos genes mutantes no fenótipo é
determinado, pois a função gênica pode ser prevista com base nas alterações.
Como tais tipos de experimentos não podem ser feitos com humanos, os
camundongos podem servir para o mesmo propósito.
13