Вы находитесь на странице: 1из 13

Resumo - capítulo 10 - Análise de genomas

Pedro Ivo Gomes de Faria

Sumário
1 Introdução 2
1.1 Anatomia de genomas . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Genomas procarióticos . . . . . . . . . . . . . . . . . . 2
1.1.2 Genomas eucarióticos . . . . . . . . . . . . . . . . . . . 3
1.2 Montagem de sequências e identificação de genes . . . . . . . . 4

2 Métodos 5
2.1 Genômica comparativa . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Análise do proteoma . . . . . . . . . . . . . . . . . . . 5
2.1.2 Regiões conservadas antigas . . . . . . . . . . . . . . . 8
2.1.3 Transferência horizontal de genes . . . . . . . . . . . . 8
2.2 Classificação funcional de genes . . . . . . . . . . . . . . . . . 8
2.3 A ordem dos genes (sintenia) é conservada em cromossomos
de organismos relacionados . . . . . . . . . . . . . . . . . . . . 9
2.4 Regulação gênica global . . . . . . . . . . . . . . . . . . . . . 11
2.5 Predição da função gênica baseada na análise de compostos . . 12
2.6 Genômica funcional . . . . . . . . . . . . . . . . . . . . . . . . 13
2.7 Juntando todas as informações em um banco de dados de geno-
mas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1
1 Introdução
Uma das maiores aplicações da bioinformática é a análise de genomas in-
teiros de organismos que foram sequenciados no final dos anos 1990, como
os organismos modelo C. elegans e A. thaliana. Vários outros projetos de se-
quenciamento de genomas estão sendo planejados ou já estão em andamento.
A genética tradicional e a biologia molecular foram direcionadas para o
entendimento do papel de um gene em particular ou de uma proteína em um
processo biológico importante. Um gene é seqüenciado para a predição de
sua função ou para a manipulação de sua atividade ou expressão. A disponi-
bilidade de sequências de genomas fornece oportunidades sem precedentes
para explorar a variabilidade genética entre organismos ou dentro de um or-
ganismo em particular. Uma das maiores tarefas na comparação de genomas
é identificar os genes que codificam proteínas e descobrir a função do maior
número possível dessas proteínas (por buscas de similaridade em um banco
de dados).

1.1 Anatomia de genomas


A análise microscópica de células de plantas ou de animais (eucarióticas)
revelou um núcleo com um número específico de cromossomos compactados
de tamanho e morfologia variáveis, que podiam ser vistos em determinados
estágios da divisão celular. Os núcleos e os cromossomos não foram detec-
tados inicialmente em células bacteriais (procarióticas), mas posteriormente
observou-se que o DNA bacterial era normalmente circular e também estava
em uma forma compactada.

1.1.1 Genomas procarióticos


O sucesso do sequenciamento de Hemophilus influenzae (um patógeno hu-
mano moderado), feito num tempo relativamente curto e com orçamento
modesto, estimulou o sequenciamento de um grande número de organismos
procariontes. Eles foram selecionados com base em pelo menos três critérios:

1. eram organismos modelos (como E. coli), submetidos a uma grande


carga de análises biológicas;

2. eram patógenos humanos importantes (como Mycoplasma pneumoniae,


causador da pneumonia);

3. eram de interesse filogenético.

2
As sequências genômicas foram anotadas conforme eram obtidas. A an-
otação envolve a identificação de fases de leitura abertas (ORFs) usando a
proteína prevista como consulta em uma busca num banco de dados, seguida
da adição dos resultados significantes ao registro do genoma no banco de da-
dos (outros métodos para busca de famílias proteicas também são usados).
Na análise dos resultados, é importante observar qual o método utilizado, a
significância estatística dos resultados e o nível geral de confiança dos alin-
hamentos.

1.1.2 Genomas eucarióticos


Além de ter cromossomos lineares dentro de um núcleo, genomas eucarióti-
cos comumente possuem repetições em tandem de sequências e seus genes
possuem íntrons (regiões que não são traduzidas).

Repetições de sequências
Regiões que possuem repetições são conhecidas como DNA satélite (co-
mumente encontrados perto do centrômero), cujo comprimento da unidade
de repetição varia entre 5 e 200 bp. Algumas subcategorias são os minis-
satélites (monômeros de até 25 bp) e os microssatélites (monômeros de 4 bp
ou menos). Microssatélites são encontrados nos telômeros de cromossomos
eucarióticos.

Elementos de transposição (ETs)


Esses elementos compõem uma grande porcentagem dos genomas eucar-
ióticos, e acredita-se que possuem um papel evolutivo importante. Os ele-
mentos de transposição (transposons ou ETs) são sequências de DNA que
podem se mover de uma localização cromossômica para outra, de modo mais
rápido do que a replicação dos cromossomos. Eles são basicamente dividi-
dos em duas classes, de acordo com o mecanismo de transposição (“copiar e
colar” - classe I - ou “cortar e colar” - classe II).
A classe I é a dos retrotransposons, que inicialmente são transcritos para
RNA e depois para uma cópia de DNA por transcrição reversa (a enzima
necessária normalmente é codificada pelo próprio retrotransposon). A cópia
é então inserida no genoma em uma nova posição (isso faz com que se com-
portem de modo semelhante ao dos retrovírus, como o HIV).
A classe II é a dos transposons que não utilizam uma molécula de RNA
intermediária para a transposição. A enzima transposase corta o transposon
e o religa em outra parte do genoma (de acordo com uma sequência alvo),
seguida pela atuação das enzimas DNA polimerase e ligase (que completam
a inserção do transposon).

3
Ainda existe uma terceira categoria de ETs que possui características das
classes I e II. Essas ETs de repetições invertidas em miniatura (MITES) pos-
suem comprimento de 400 bp e foram descobertas em angiospermas diversas,
onde estão frequentemente associadas a regiões reguladoras de genes (e, por-
tanto, poderiam exercer influência na expressão gênica).

A estrutura gênica varia em eucariontes


Genes eucarióticos que codificam proteínas são interrompidos por íntrons
de tamanhos e quantidades variáveis. A origem dos íntrons ainda não é
conhecida, mas existem duas teorias evolutivas a respeito: a dos “íntrons
precoces” (propõe que os íntrons formaram os primeiros genes unindo éxons
conservados) e a dos “íntrons tardios” (propõe que os íntrons interromperam
genes que eram contínuos, inserindo-se neles).
A estrutura intrônica dos genes em um eucarionte em particular é usada
para prever a localização dos genes em sequências genômicas. Outras car-
acterísticas úteis para isso são as sequências de consenso das junções éxon-
íntron, a composição das bases, a utilização dos códons e preferência por
códons vizinhos. Apesar de não estarem sempre corretas essas estimativas
fornecem uma anotação útil para uma sequência genômica e, combinadas a
buscas de similaridade em bancos de dados, dão uma indicação do potencial
genético de um organismo.

Pseudogenes
Acredita-se que novas funções gênicas são adquiridas pela duplicação de
um gene existente (criando duas cópias em tandem), seguida por mutação e
seleção (que causam a diferenciação). Porém, como a maioria das mutações
é deletéria (e apenas uma cópia do gene pode ser necessária), existe uma
tendência forte de uma cópia acumular mutações que inibam a função do gene
(tornando-se pseudogenes). Pseudogenes processados são os derivados de um
gene funcional, mas não contém íntrons e nem um promotor (e, portanto, não
são expressos).

1.2 Montagem de sequências e identificação de genes


O sequenciamento de genomas depende da montagem de um grande número
de leituras de DNA para formar uma sequência contígua. O custo e a eficiên-
cia desse processo foram melhorados por métodos automáticos de montagem
de sequências.
Cada sequência genômica é analisada para a busca de genes que codificam
proteínas, usando modelos treinados a partir sequências gênicas conhecidas
do mesmo organismo. Para um genoma novo, cada gene previsto é traduzido

4
em uma sequência proteica (o conjunto de proteínas de um organismo é
chamado de proteoma). Cada proteína do proteoma é então usada como
consulta numa busca de similaridade em um banco de dados. Os resulta-
dos da busca são realinhados com a consulta para avaliar a extensão e a
significância do alinhamento.
A comparação das sequências proteicas previstas com uma biblioteca de
etiquetas de sequência expressa (ESTs) confirma a predição e a expressão do
gene. A informação sobre a função do proteoma pode ser analisada por au-
tocomparação para encontrar genes duplicados (parálogos) ou por compara-
ção com outro proteoma para identificar ortólogos (genes que mantiveram a
mesma função após a especiação) e outras relações evolutivas.

2 Métodos
2.1 Genômica comparativa
A genômica comparativa inclui uma comparação do número, conteúdo e lo-
calização dos genes em grupos de organismos procarióticos. A disponibilidade
de sequências genômicas completas torna possível a comparação entre pro-
teomas de organismos diferentes. Como a sequência genômica fornece tanto
a composição quanto a localização de cada gene, ambas as informações po-
dem ser comparadas. Comparações entre sequências dão informações sobre
as relações entre os genes: se um conjunto deles estiver agrupado em uma
dada localização cromossômica, e se um conjunto de genes similares tam-
bém estiver agrupado no genoma de outro organismo, então esses grupos
compartilham uma história evolutiva.

2.1.1 Análise do proteoma


Uma comparação de “todas com todas” revela o número de famílias
gênicas e genes duplicados

Uma comparação de cada proteína do proteoma (usada como consulta no


busca de similaridade) com as outras distingue proteínas únicas de proteí-
nas que surgiram por duplicação gênica, além de revelar o número de famílias
proteicas. Um casamento entre a consulta e um resultado que tenha a mesma
estrutura de domínios produz um alinhamento de alta pontuação e signifi-
cante (nesse caso, provavelmente as proteínas são parálogas).

Análise de agrupamentos. Para classificar as relações entre as pro-


teínas já sabidamente relacionadas, elas são submetidas a uma análise de

5
agrupamentos. Ela organiza as proteínas em grupos de acordo com critérios
objetivos, como a significância estatística do alinhamento (são considerados
significantes os que tiverem E valor < 0, 01 − 0, 05) e a distância entre cada
par de sequências num alinhamento múltiplo (medida pelo número de mu-
danças nos aminoácidos).

Agrupamento por subgrafos. Um dos modos de agrupar sequências


relacionadas é um grafo, no qual cada vértice é uma sequência e cada aresta
possui um peso de acordo com a significância estatística do alinhamento. Um
jeito de identificar os agrupamentos mais prováveis é remover as arestas de
menor peso (maior pontuação P/E). Conforme as ligações mais fracas são
removidas, as combinações restantes de arestas e vértices representam se-
quências relacionadas mais fortemente.

Agrupamento por ligação única. Outro método é baseado no critério


de distâncias entre sequências. Primeiramente, um grupo de sequências rela-
cionadas é sujeito a um alinhamento múltiplo, e então é construída uma ma-
triz de distâncias que mostra o número de mudanças nos aminoácidos entre
cada par de sequências (usada para agrupar as sequências por um algoritmo
de união de vizinhos). Esses métodos produzem uma árvore geradora mínima
(pois minimiza o número de mudanças que geraria o grupo de sequências),
que divide as sequências em grupos mais intimamente relacionados.

Proteoma central. As análises do tipo “todos com todos” acima dão


uma indicação do número de proteínas/famílias gênicas de um organismo.
Esse número representa o proteoma central do organismo, a partir do qual
todas as funções biológicas se diferenciaram.

Comparações entre proteomas identificam ortólogos, famílias


gênicas e domínios

Nessa análise, cada proteína do proteoma é usada como consulta numa


busca de similaridade feita em outro proteoma (ou conjunto de proteomas).
Quando o proteoma não estiver disponível, a busca pode ser feita em um
banco ESTs (embora ela seja menos informativa do que uma comparação
com um genoma completa). Duas proteínas que possuem um bom alin-
hamento (de alta similaridade e significância) provavelmente são ortólogas
(compartilham um ancestral em comum e mantiveram a mesma função após
a especiação).
Em um método para identificar ortólogos verdadeiros, os pares do sequên-
cias mais intimamente relacionados dos proteomas A e B são identificados.

6
Duas proteínas (X no proteoma A e Y no proteoma B) são classificadas como
ortólogas se buscas recíprocas (de Y em A e X em B) produzirem a outra
proteína como resultado de maior pontuação. Além disso, o E valor para
cada alinhamento deve ser < 0, 01 e o alinhamento deve se estender a mais
de 60% de cada proteína.

Agrupamento de grupos de ortólogos. Em muitos casos, os ortólo-


gos identificados pelos métodos acima pertence a uma família de parálogos
(relacionados por eventos de duplicação gênica). Portanto, o casamento de
uma busca recíproca não irá envolver apenas a sequência ortóloga no outro
proteoma, mas também aquelas que forem parálogas à ortóloga encontrada.
O objetivo da abordagem de agrupamento de grupos de ortólogos (COG)
é identificar todas as proteínas compatíveis nos organismos, definidas como
grupo de ortólogos relacionados tanto pela especiação como por eventos de
duplicação gênica. Grupos de ortólogos relacionados em diferentes organ-
ismos são agrupados para formar um COG que irá incluir tanto ortólogos
quanto parálogos, com cada COG correspondendo a uma classe de funções
metabólicas.

Comparação entre proteomas e bancos de ESTs de um organ-


ismo. Para muitos organismos eucarióticos, a sequência genômica completa
não está disponível, mas existe uma grande coleção de ESTs (obtidos pelo
sequenciamento aleatório de cDNA) que pode servir para a busca. Uma
proteína de levedura ou de mosca (por exemplo) pode ser usada como con-
sulta em um banco de ESTs humanos, traduzindo cada EST nas seis fases de
leituras possíveis. As limitações dessa abordagem são causadas pelo tamanho
pequeno das EST (equivalente a 100 − 150 aminoácidos), que irá casar com
uma porção reduzida da proteína. Portanto, não é possível impor a condição
de alinhamento com 60 − 80% da consulta (que aumenta consideravelmente
a predição de ortólogos).

Busca por ortólogos a uma família proteica em um banco de


ESTs. Buscas em bancos de ESTs normalmente produzem muitos resulta-
dos que precisam ser verificados manualmente para encontrar os significantes.
Retief et al. (1999) descreveram um método automatizado (FAST-PAN) faz
buscas em bancos de EST com consultas múltiplas de uma família prote-
ica, ordena as pontuações dos alinhamentos e produz gráficos e alinhamentos
para os resultados encontrados.

Análise de domínios e famílias

7
Uma característica importante das proteínas é a sua organização em
domínios que representam módulos estruturais e funcionais. Proteínas são
mosaicos de domínios, que ocorrem em combinações diferentes em cada uma
delas. A comparação dos domínios de um proteoma com os de outro pro-
teoma pode revelar os papéis biológicos de domínios diversos em organismos
distintos.

2.1.2 Regiões conservadas antigas


Grupos filogeneticamente diversos foram analisados para a busca de proteí-
nas e domínios que se conservaram por longos períodos de tempo evolutivo,
chamadas regiões conservadas antigas ou ACRs. O método envolve buscas
de similaridade em bancos de dados proteicos (como o SwissProt) por um
dado gene e a identificação dos resultados que forem de um filo diferente da
consulta. Uma análise de ACRs que antecederam a radiação dos principais
filos animais há 580−540 milhões de anos sugere que 20−40% das sequências
codificantes são ACRs (podem representar proteínas presentes no momento
da divergência entre procariontes e eucariontes).

2.1.3 Transferência horizontal de genes


O genoma da maioria dos organismos origina-se da transmissão vertical (dos
pais para a prole), mas em alguns casos pode ser modificado por transfer-
ência horizontal (aquisição de material genético de outro organismo). Um
exemplo extremo de transferência horizontal (HT) é a proposta origem en-
dossimbiótica de mitocôndrias (em eucariontes) e cloroplastos (em plantas),
que diz que essas organelas eram bactérias de vida livre que entraram em
simbiose com outro organismo.
A transferência gênica horizontal é uma fonte significante de variação
gênica para bactérias, que as permite explorar novos ambientes. Ela é co-
mumente detectada como uma porção de sequência que possui composição
diferente do resto do genoma do receptor. É importante notar que quando os
genes de uma mesma via estiverem agrupados no organismo doador, o recip-
iente poderá obter uma via metabólica inteira por transferência horizontal.

2.2 Classificação funcional de genes


O passo seguinte à anotação de genes é classificá-los de acordo com a função.
Genes que são significativamente semelhantes em um organismo (parálogos)
normalmente possuem uma função biológica relacionada. Isso está de acordo
com a origem esperada dos parálogos por eventos de duplicação gênica, com

8
uma cópia executando a função original e a outra produzindo uma nova
função não muito distante (sujeita à seleção natural). Os números da Comis-
são de Enzimas (números EC) formulados pela Comissão de Enzimas da
União Internacional de Bioquímica e Biologia Molecular fornecem um modo
detalhado de classificar enzimas de acordo com as reações que catalisam. A
designação EC a.b.c.d fornece as seguintes informações:
a) uma das seis classes principais de reações bioquímicas (1: oxirredutases,
2: transferases, 3: hidrolases, 4: liases, 5: isomerases, 6: ligases);
b) o grupo da molécula do substrato ou a natureza da ligação química en-
volvida na reação;
c) designação para moléculas aceptoras (cofatores);
d) detalhes específicos da reação bioquímica.
Outro esquema de classificação funcional para genes inclui uma categoria
mais geral para genes envolvidos num mesmo processo biológico, como os
relacionados à energia, à informação ou à comunicação. Mais da metade do
genoma das plantas é relacionado à energia, enquanto metade do genoma dos
animais é relacionado à comunicação.

2.3 A ordem dos genes (sintenia) é conservada em cro-


mossomos de organismos relacionados
Existem duas observações importantes em relação à ordem dos genes: em
primeiro lugar, ela se mantém altamente conservada entre espécies intima-
mente relacionadas, mas altera-se (por causa de rearranjos) conforme o tempo
evolutivo. As alterações se acumulam até que não exista mais uma corre-
spondência entre a ordem de genes ortólogos em cromossomos de dois or-
ganismos. Em segundo lugar, genes que possuem função biológica similar
tendem a permanecer agrupados numa mesma localização.

Rearranjos cromossômicos

A comparação do número de rearranjos num dado período evolutivo po-


dem variar significativamente de um organismo para outro. Numa análise
de organismos procarióticos de origens filogenéticas diversas (Huynen e Bork
1998), foi mostrado que se os genes A e B forem vizinhos e um ortólogo de
A ocorrer em outro genoma, então aumenta a probabilidade de que um or-
tólogo de B também ocorra nesse outro genoma (mas é menos provável que
os ortólogos também sejam vizinhos se as espécies forem mais divergentes).

9
Uma conservação similar da ordem gênica também parece estar pre-
sente em genomas eucarióticos intimamente relacionados. As evidências são
baseadas em experimentos de tingimento cromossômico no qual o DNA de
uma seção de um cromossomo de um organismo é marcado e se hibridiza com
cromossomos de um segundo organismo (as regiões do segundo cromossomo
que ficam marcadas revelam a presença de uma região homóloga).

Análise computacional de rearranjos gênicos

Conforme as comparações entre os cromossomos de espécies relacionadas


são feitas e os rearranjos são descobertos, um desafio maior é estimar a quan-
tidade e os tipos de rearranjos (deleção, duplicação, translocação ou inversão)
que ocorreram, além de determinar quando esses eventos aconteceram. Por
exemplo, é possível segmentar os cromossomos humanos e rearranjá-los de
forma com que fiquem quase iguais aos cromossomos de camundongo.
Para fazer o alinhamento de genomas costuma-se levar em conta os rear-
ranjos (não considerados no alinhamento de sequências), que aparecem como
linhas que se intersectam (com cada linha ligando os genes correspondentes).
No modelo aleatório, tenta-se estimar o número de rearranjos que produz o
número observado de interseções, que é comparado ao número que embaral-
haria aleatoriamente os mesmos fragmentos.

Grupos de genes em cromossomos possuem funções relacionadas


metabolicamente

Num dado organismo ou espécie, a ordem gênica costuma ser mantida


entre as gerações. Análises genéticas revelaram que genes com funções rela-
cionadas (fazem parte da mesma via metabólica) frequentemente estão agru-
pados na mesma localização cromossômica. Essa característica supostamente
constitui uma vantagem evolutiva, mas a razão biológica subjacente ainda
não é conhecida. Algumas possibilidades estão na compatibilidade de ape-
nas algumas variações alélicas de genes do mesmo agrupamento ou em algum
tipo de tradução coordenada de proteínas (que facilite o dobramento).
Dois métodos para a identificação de agrupamentos ou genes regulados
de modo coordenado foram descritos. No primeiro, a partir de um estudo de
três grupos de procariontes distantes (Dandekar et al. 1998), observou-se que
100 genes estavam conservados num agrupamento de dois pares. O sentido de
transcrição era o mesmo para todos, o que implica em uma relação regulatória
(como em um operon - conjunto de genes que se encontram relacionados
funcionalmente, são contíguos e controlados de forma coordenada). Para
aproximadamente 75% dos genes, uma interação física entre eles já havia

10
sido demonstrada e pode ser prevista para quase todas as proteínas (com
base em comparações adicionais de sequências).
Num segundo método (Overbeek et al. 1999) uma busca recíproca total
(cada proteína de um proteoma foi usada como consulta numa busca no outro
proteoma) foi feita entre os proteomas de dois procariontes. Foram identifica-
dos os pares de proteínas que resultavam num melhor resultado com o outro
proteoma e tinham um E valor < 10−5 , chamados de melhores resultados
bidirecionais (BBH). Os pares de BBH próximos (PCBBH) que estavam a
até 300 bp um do outro nos cromossomos dos respectivos organismos e eram
transcritos da mesma fita (como em um operon) também foram identificados.
Foi feito um esquema de pontuação para esses pares, de modo que os que
eram observados em vários organismos distantes filogeneticamente recebiam
maior pontuação. Quarenta porcento do conjunto de pares com maior pon-
tuação correspondia a proteínas que sabidamente faziam parte da mesma via
metabólica.

Genes compostos com um conjunto de domínios múltiplos predi-


zem as interações físicas e as relações funcionais entre pares de
proteínas que compartilham os mesmos domínios

A ocorrência de um gene composto ou fundido em um organismo é chamada


“sequência da pedra de Roseta”, pois fornece evidência de que os genes com-
ponentes codificam proteínas que interagem fisicamente. Por exemplo, se
um gene humano composto possuir os domínios A e B, assume-se que A e B
interagem fisicamente dentro da proteína. Se dois genes separados em outros
organismos produzirem duas proteínas (uma com o domínio A e outra com o
domínio B), então essas duas proteínas interagem (porque A e B interagem).
Essas relações entre sequências podem ser encontradas pelo alinhamento da
proteína composta AB com as outras duas proteínas (mas as proteínas que
contém A e B separadamente não irão se alinhar). Mesmo que A e B não
interajam, espera-se que essas proteínas tenham funções relacionadas (devido
à fusão dos genes).

2.4 Regulação gênica global


Um modo de obter informação útil sobre um genoma é determinar quais
genes são induzidos ou reprimidos em resposta a uma fase do ciclo celular,
uma fase do desenvolvimento ou uma mudança no ambiente. Conjuntos de
genes cujas expressões aumentam ou diminuem sob as mesmas condições
tendem a possuir funções relacionadas. Além disso, um padrão de expressão
gênica pode também ser um indicador de regulação celular anormal (como

11
ocorre em câncer).
A análise de microarranjo (ou microchip) é uma tecnologia na qual to-
dos os genes de um organismo são representados por sequências de oligonu-
cleotídeos espalhados numa matriz 80 × 80 de lâminas de microscópio. Os
oligonucleotídeos são hibridizados com uma biblioteca de cDNAs marcados,
preparados por transcrição reversa a partir do RNAm das células. A quanti-
dade de sondas que se ligam em cada ponto refletem a quantidade de RNAm
na célula. Os genes que respondem do mesmo modo a um sinal ambiental
são agrupados numa tela.
Uma vez que um conjunto de genes corregulados é encontrado, suas
regiões promotoras podem ser analisadas para a busca de padrões conserva-
dos que representem sítios de interação com fatores de transcrição específicos.

2.5 Predição da função gênica baseada na análise de


compostos
Quando duas proteínas grau considerável de identidade de sequência (evi-
denciado por um alinhamento), elas provavelmente compartilham a mesma
função. Por outro lado uma fração razoável de um genoma pode codificar
proteínas cujas funções não podem ser identificadas dessa forma (pois não
estão relacionadas a proteínas de função conhecida). Outras formas de de-
pendência entre genes (não relacionadas à similaridade entre sequências) são:

1. genes intimamente ligados e transcritos a partir da mesma fita (como


em operons);

2. são observadas fusões (num determinado organismo) entre genes que


aparecem separados (em outros organismos);

3. perfis filogenéticos revelam que o mesmo grupo de genes está presente


em muitos organismos.

Outros tipos de dados usados como evidência de relação gênica são:

1. as proteínas codificadas possuem homólogos em outros organismos que


operam numa mesma via metabólica;

2. dados experimentais sugerem interação entre as proteínas codificadas;

3. descobre-se correlação entre padrões de expressão de RNAm em dados


de microarranjos.

12
2.6 Genômica funcional
Uma grande parte da análise genômica depende de métodos de análise de
sequências que identifiquem funções gênicas baseados na similaridade entre
proteínas de função desconhecida e proteínas de função conhecida. Porém,
esses métodos podem não conseguir determinar a função de um gene com
precisão.
Para conseguir isso, existem dois tipos de abordagens: uma na qual um
elemento genético é elaborado de forma a interferir na expressão de um gene
em particular e outra na qual várias mutações aleatórias são geradas numa
população de organismos. Os indivíduos com uma mutação em particular são
então identificados. Em seguida, o efeito dos genes mutantes no fenótipo é
determinado, pois a função gênica pode ser prevista com base nas alterações.
Como tais tipos de experimentos não podem ser feitos com humanos, os
camundongos podem servir para o mesmo propósito.

2.7 Juntando todas as informações em um banco de


dados de genomas
A meta final da análise genômica é reunir as informações sobre genes e pro-
teínas de um organismo em um banco de dados abrangente. Esse banco de
dados deve ser logicamente organizado, de forma que todos os tipos de infor-
mação são prontamente acessíveis e facilmente recuperáveis pelos usuários.
Esse objetivo é alcançado da melhor forma utilizando vocabulários contro-
lados, que possam identificar a mesma função genética ou bioquímica sem
ambiguidades em organismos diferentes.

13

Вам также может понравиться