Вы находитесь на странице: 1из 53

UNIVERSIDADE DE SO PAULO

ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE


QUEIROZ

Tutorial

Anlise de Microarray usando o


R e o Bioconductor

DIGENES FERREIRA FILHO


ROSELI APARECIDA LEANDRO

So Carlos SP
29/07/2009

Tutorial

Anlise de Microarray usando o


R e o Bioconductor
Tutorial apresentado no
54 RBRAS e 13 SEAGRO

DIGENES FERREIRA FILHO


ROSELI APARECIDA LEANDRO

So Carlos SP
29/07/2009

ndice
1. Introduo
2. Objetivos
3. Reviso da Tcnica de Microarray
3.1. cDNA Microarray
3.1.1. Fixao dos cDNAs nas lminas de vidro
3.1.2. Extrao de RNA e hibridizao
3.1.3. Aquisio de Imagens
3.1.4. Anlise das imagens
3.2. Microarray de uma cor
4. Delineamento
5. Visualizao dos dados
6. Correo do background
7. Normalizao dos dados
7.1. Normalizao Global
7.2. Normalizao dependente da intensidade de expresso
7.3. Normalizao dentro de grupo de impresso
7.4. Normalizao dentro do array para escala
7.5. Normalizao entre arrays
8. Anlise dos dados - Busca de genes Diferencialmente Expressos
8.1. Modelos Lineares
8.1.1. Matriz Delineamento
8.1.2. Matriz Contraste
8.2. Teste t
8.3. Abordagem Bayesiana Emprica
8.4. Testes Mltiplos
9. Materiais e Mtodos
9.1. Material
9.1.1. Banco de dados Swirl Zebrafish
9.1.2. Banco de dados ApoAI Knockout
9.1.3. Softwares utilizados na anlise dos dados
9.2. Mtodos
10. Procedimentos para anlise dos dados utilizando o pacote limma do
Bioconductor.
10.1. Instalao do R e do Bioconductor
10.2. Anlise dos dados
10.2.1. Banco de dados Swirl Zebrafish
10.2.2. Banco de dados ApoAI Knockout
10.2.3. Analisando microarray de uma cor como delineamento com referencia
comum
11. Referncias Bibliogrficas

01
01
01
04
04
05
06
09
13
13
14
15
16
16
17
18
19
19
19
20
20
23
24
24
24
25
25
25
26
27
28
28
28
28
28
38
48
49

1. Introduo
Com raras excees todas as clulas que constituem um organismo vivo contm a
mesma carga gentica, ou seja, o mesmo DNA. O que diferencia dois grupos celulares
morfologicamente distintos so os genes expressos nesses dois tipos de clulas e os
nveis de expresso desses genes.
A comparao dos nveis de expresso dos genes de diferentes tecidos pode levar ao
entendimento dos diversos fenmenos encontrados em um organismo e,
experimentos para a deteco de genes com expresso diferencial entre tecidos e
rgos podem ser realizados com microarrays (microarranjos) de DNA. Essa tcnica
permite mensurar os nveis de expresso de milhares de genes simultaneamente.
A capacidade de obteno de dados de expresso gnica superou a capacidade de
analis-los manualmente. O uso de softwares para a anlise de dados genmicos
tornou-se imprescindvel.

2. Objetivos
Nesse tutorial faremos uma reviso de literatura mostrando as etapas da tcnica de
microarray, desde a fabricao dos arrays at a anlise de genes diferencialmente
expressos utilizando modelos lineares. Para realizao das anlises utilizaremos o
software R e o pacote limma do Bioconductor.
O objetivo principal fornecer ao leitor passos para anlise de um experimento de
microarray utilizando o R e o Bioconductor. Sero mostradas e explicadas as linhas de
comando necessrias para realizarmos a anlise em dois bancos de dados reais
bastante utilizados na literatura.

3. Reviso da Tcnica de Microarray


Antes da tecnologia de microarray a pesquisa gentica era quase artesanal e os
avanos faziam-se passo a passo, gene a gene.
A tcnica de microarray permite mensurar os nveis de expresso de milhares de genes
simultaneamente, possibilitando comparaes entre amostras de tecidos pelos perfis
de expresso.
So realizados milhares de testes simultneos para diferentes variveis-respostas na
mesma estrutura de unidades experimentais.

Figura 3.1: Imagem de um microarray.

Algumas aplicaes de Microarray


Alm da anlise de expresso gnica, experimentos de microarray podem ter outras
aplicaes como, por exemplo:
Deteco de polimorfismos;
Re-seqenciao gentica;
Genotipagem;
Escalagem genmica.

Algumas tcnicas de Microarray


As tcnicas de microarray diferem quanto forma de fixao do material gentico nas
lminas sendo o restante do processo semelhante para todas. Alguns exemplos de
tcnicas so:
Ilumina bead array (www.illumina.com);
Nylon Membrane (www.schleicher-schuell.com);
Agilent: Long oligo Ink Jet (www.home.agilent.com);
GeneChip Affymetrix (www.affymetrix.com);
cDNA microarray;
Microarrays de protenas e Oligo Microarrays;

Fabricao de Microarrays
A construo dos microarrays pode ser feita por diferentes tcnicas onde estas
diferem quanto forma de fixao do material gentico nas lminas. A figura abaixo
ilustra trs tcnicas de fabricao de microarrays: (a) Photolithography, (b) Mechanical
microspotting e (c) Ink jetting.
Veremos apenas a tcnica (b) Mechanical microspotting.

Figura 3.2: Tcnicas de fabricao de microarray. (a) Photolithography, (b) Mechanical


microspotting, (c) Ink jetting. Fonte: Schena et al. (1998).
Segundo Lopes e Pais (2006) apesar da existncia de microarrays de expresso gnica
em vrios formatos, so usados com mais regularidade duas categorias:
Microarrays de cDNA compostos por cDNA ou oligonucleotdeos;
Arrays de grande densidade produzidos comercialmente que contm
oligonucleotdeos sintetizados.
O princpio pelo qual todos os microarrays se regem o da capacidade de uma
seqncia presa de nucleotdeos se colar ou hibridar com sua seqncia
complementar e formar uma seqncia dupla de DNA (Lopes e Pais, 2006).

Figura 3.3: DNA.

3.1. cDNA Microarray


Segundo Esteves, 2007, nos experimentos de cDNA microarray, necessrio um banco
de clones de seqncias expressas (ESTs). As ESTs so produzidas atravs da criao de
fragmentos de DNA dupla fita a partir de uma seqncia expressa (RNA mensageiro mRNA) por transcrio reversa. Esse procedimento experimental d origem a
molculas de DNA complementar (cDNA) que so ento clonados em bactrias. A
construo da lmina comea com a seleo dos clones que contm as seqncias
especficas dos genes de interesse. Essas seqncias so removidas dos clones,
amplificadas por PCR e fixadas em posies especficas da lmina, conhecidas como
spots, atravs de agulhas de impresso que so controladas por um rob especfico.

3.1.1. Fixao dos cDNAs nas lminas de vidro

Seleo de clones: A fase inicial de um experimento consiste na seleo de


clones de cDNA vindos de algum banco de clones que geralmente esto
relacionados com algum projeto genoma especfico.
Amplificao dos fragmentos por PCR: Como em experimentos de microarray
podem ser utilizados vrios microarrays a quantidade inicial de cDNAs pode
no ser suficiente, e deve ento ser amplificada por PCR (Reao em cadeia por
Polimerase).

Figura 3.4: Termociclador. Aparelho utilizado para realizao de PCR.

Fixao das cDNAs: Os fragmentos selecionados so fixados nas lminas de


vidro por um rob chamado Arrayer em posies especficas conhecidas como
spots.
Os cDNAs fixados na lmina so chamados cDNAs sonda, os quais contm,
cada um, as seqncias de um nico gene.

Figura 3.5: Arrayer depositando os cDNAs nas lminas de vidro.

3.1.2. Extrao de RNA e hibridizao

So extrados o RNA mensageiro (mRNA) ou RNA total das duas populaes


celulares de interesse (Tratamento e Controle, por exemplo: clulas
cancergenas e clulas normais).
A partir de cada amostra de RNA produzido cDNA (DNA complementar) por
transcrio reversa. Os cDNAs de cada amostra so tingidos com os corantes
fluorescentes Cy3 e Cy5 os quais sero excitados com comprimentos de onda
diferentes. Os cDNAs da populao controle sero tingidos com Cy3 e os
cDNAs da populao tratamento sero tingidos com Cy5.
Os cDNAs alvo de duas amostras distintas (uma com Cy3 e outra com Cy5) so
misturados e hibridizados contra a lmina de vidro;
Nesse processo as seqncias de cDNAs das duas amostras, em contato com a
lmina de vidro, iro se anelar com suas seqncias complementares dos
cDNAs sonda. Haver competio entre as duas amostras.

Figura 3.6: As duas amostras de cDNAs marcados so misturadas e colocadas na


lmina para hibridizao. Fonte: Souto (2008).

Figura 3.7: Etapas do processo de hibridizao.

3.1.3. Aquisio de Imagens


Depois que a lmina foi hibridizada ela passa por uma etapa de lavagens para remover
o excesso de material gentico que no hibridizou com os as sondas e feita a leitura
do microarray pelo scanner para digitalizao da imagem;
Existem dois tipos de scanners:
Scanner CCD: Na tecnologia CCD as lminas so excitadas com uma luz branca
em toda sua extenso e uma cmera fotografa a imagem decorrente da
emisso de intensidade proveniente dos fluorocromos (Cy3 e Cy5) presentes
nos alvos (populaes celulares de interesse) que foram utilizados para a
hibridizao (Esteves, 2002).
Scanner a laser: Os scanners a laser fazem uma varredura na lmina com um
raio laser nos comprimentos de onda especficos digitalizando a imagem
gerada.

Figura 3.8: Leitura de um microaray pelo scanner a laser.


Os dados brutos resultantes de um experimento de microarray de duas cores so
imagens monocromticas, uma para cada corante, usualmente um arquivo .tif.
Posteriormente um software de anlise de imagens atribui cores a cada uma das
imagens e mescla essas imagens dando origem a uma nica imagem. O ScanAlyse, por

exemplo, um programa para anlise de imagem de microarrays de DNA, Eisen


(1998).
12130c1G

12130c1R

Figura 3.9: Imagens de um experimento de microarray. A figura 12130c1G


corresponde leitura do scanner no comprimento de onda que excita o Cy3 e a figura
12130c1R corresponde leitura do scanner no comprimento de onda que excita o Cy5.
Estas figuras fazem parte do experimento Apo AI o qual tratado por Dudoit et al.
(2000). O banco de dados desse experimento, incluindo as imagens, est disponvel em
http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.

Figura 3.10: Software de anlise de imagens de microarray ScanAlyse gerando uma


nova imagem pela composio das imagens 12130c1G e 12130c1R atribudas das cores
verde para 12130c1G e vermelha para 12130c1R.

Figura 3.11: Outro exemplo de imagem de microarray.

Figura 3.12: Diagrama ilustrativo da tcnica de cDNA microarray. Fonte: Fujita (2007).

3.1.4. Anlise das imagens


As imagens constituem os dados da anlise de expresso gnica;
Vejamos, segundo Esteves (2002), alguns termos usados na linguagem de
processamento de imagens de microarray:
Foreground ou regio de sinal: Regio ocupada pelo spot;
Background: Imagem de fundo da lmina (regio onde no se encontram os
spots);
Rudo: Falta de contribuio de sinal devido a molculas que no se anelam
com nenhuma molcula fluorescente;
Artefato: Sinais inespecficos decorrentes de sujeira na lmina ou hibridizao
inespecfica que contaminam o background;

Figura 3.13: Termos usados na linguagem de processamento de imagens de


microarray.
O processamento de imagens de microarray pode ser dividido em trs partes:
1. Endereamento ou gradeamento;
2. Segmentao do sinal (ou dos spots);
3. Quantificao da intensidade;

Endereamento ou gradeamento;
Nessa etapa localizamos os blocos e os spots. Assim devem ser feitos dois
gradeamentos:
Blocos;
Regio de influncia do spot;

Figura 3.14: Gradeamento dos blocos no software Bioinfo. Fonte: Esteves (2002).

Figura 3.15: Gradeamento e segmentao dos spots. Fonte: Esteves (2002).

10

Segmentao do sinal (ou dos spots)


Verifica se o pixel pertencente ao foreground ou ao background;
Mtodos de segmentao:
Segmentao de crculo fixo;
Segmentao de crculo adaptativo;
Segmentao por histograma;
Segmentao por variao de intensidade;

Figura 3.16: Imagens de segmentao por crculo fixo e segmentao por variao de
intensidade respectivamente. Fonte: Esteves (2002).

Quantificao da intensidade
So feitos os clculos das intensidades background e do foreground. Observe na figura
abaixo, Target Median a mediana da intensidade de luz (vermelha ou verde) dentro
do crculo, e Bkgd Median a mediana da intensidade de luz do background (regio
fora do crculo porm dentro do quadrado). A rea calculada como sendo o nmero
de pixels dentro do crculo cuja intensidade seja maior que todos os pixels fora do
crculo mas dentro do quadrado. Assim a intensidade do spot calculada por:
Intensidade = (Target median Bkgd median)*Area.

11

Figura 3.17: Clculo da intensidade do spot. Fonte: Carazzolle (2008).


Aps a anlise da imagem de microarray o resultado uma tabela contendo os nveis
de expresso dos genes.

Figura 3.18: Banco de dados de microarrays com o background corrigido. Esses dados
so parte do experimento Apo AI o qual tratado por Dudoit et al. (2000). Banco de
dados disponvel em:

12

http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.

3.2. Microarray de uma cor


Segundo Pereira (2008), nos arrays de uma cor, um procedimento de transcrio
reversa usado para produzir cDNA de fita dupla, que transcrito e amplificado in
vitro para cRNA marcado com biotina. O cRNA biotinizado , ento, fragmentado e
hibridizado no chip. Aps a hibridizao, o cRNA no hibridizado removido do array e
o este submetido a uma srie de lavagens e etapas de colorao, em que o corante
fluorescente streptavidin-phycoerythrin (SAPE) liga com a biotina do cRNA marcado.
Finalmente, o array digitalizado usando-se um laser que excita o corante
fluorescente. O processo de leitura da imagem o mesmo que o de arrays de duas
cores.

Figura 3.19: Esquema da tcnica de microarrays para arrays de duas cores e uma cor.

4. Delineamento
O delineamento adotado deve eliminar o confundimento nas fontes de variao e
evidenciar a variabilidade biolgica, Haddad (2007) apud Rosa et al.(2005b).
Para a representao do delineamento de um experimento de microarray de duas
cores utilizaremos flechas para representar os microarrays (lminas) e letras para
representar as amostras biolgicas (amostras de cDNA). A base da flecha indica que a
13

amostra correspondente foi marcada com Cy3 e a ponta da flecha indica que a amostra
correspondente foi marcada com Cy5.
Por exemplo, na figura abaixo, o experimento (a) tem um nico microarray onde a
amostra A foi marcada com Cy3 (verde) e a amostra B foi marcada com Cy5 (vermelho),
j o experimento (b) tem dois microarrays onde no primeiro a amostra A foi marcada
com Cy3 e a amostra B com Cy5 enquanto no segundo microarray foi feito o inverso, ou
seja, a amostra A foi marcada com Cy5 e a amostra B com Cy3.

Figura 4.1: Exemplos de delineamentos para microarray de duas cores.

Na figura acima temos:


(a) Delineamento com comparao direta;
(b) Delineamento com Inverso de Corantes (Dye Swap);
(c) Delineamento com Referncia;
(d) Delineamento em Loop.

O delineamento com inverso de corantes (dye swap) tem como objetivo eliminar o
confundimento devido ao efeito dos corantes.
No delineamento com referncia as amostras de interesse so comparadas
indiretamente, atravs de uma referncia comum. Esse tipo de delineamento tem a
vantagem de outros tipos de amostras poderem ser adicionados posteriormente para
serem comparadas com as amostras que j haviam sido comparadas, bastando utilizar
a mesma referencia comum utilizada nas amostras anteriores. Podemos tambm
analisar experimentos de microarray de uma s cor como se fosse um delineamento
com referncia comum.

5. Visualizao dos dados


Os dados de intensidade de fluorescncia so tradicionalmente visualizados utilizandose grficos de disperso. Os grficos a seguir foram feitos com dados do experimento
APO AI, Dudoit et al. (2000).
Os grficos mais comuns so:
14

Cy3 x Cy5;
MA-plot;
onde M = log2(R) - log2(G)

A = [log2(R) + log2(G)].

Figura 5.1: Grfico de disperso de Cy3 x Cy5 para o microarray c1

Figura 5.2: MA-plot para o microarray c1.


Sobre a transformao M = log2(R) - log2(G), A = [log2(R) + log2(G)] so aplicadas
ento as tcnicas de normalizao, que buscam reduzir a variao da tcnica e tornar
as intensidades comparveis entre diferentes hibridizaes.

6. Correo do background
Segundo Esteves, 2007, a intensidade do background necessria para a correo dos
valores de intensidade obtidos. A motivao para a utilizao deste dado est no fato

15

de que no possvel obter exatamente os valores de rudo encontrados nos spots,


entretanto o efeito desse rudo pode ser minimizado atravs da correo dos valores
de intensidade da regio de sinal pelos valores de intensidade do background.
A correo do background feita subtraindo as intensidades do background das
intensidades do foreground.

7. Normalizao dos dados


Experimentos de microarray tm muitas fontes de variao sistemtica as quais
podem afetar as medies dos nveis de expresso gnica. Para comparar microarrays
devem ser removidas as fontes de variao de cada um deles.
As tcnicas de normalizao so transformaes dos dados que buscam remover essas
fontes de variao.
A normalizao pode ser feita:
Dentro do array;
Entre os array;
A Normalizao dentro do array feita em cada array separadamente e pode envolver
todos os genes do array, ou ser realizada por regies do array. Esse tipo de
normalizao busca remover, por exemplo, o vis dos corantes dentro de cada array ou
corrigir a locao;
A normalizao entre array utilizada para permitir a comparao entre os array do
experimento.

Causas de variao

Diferenas na eficincia da incorporao dos corantes;


Diferenas na quantidade de RNA inicial utilizado para marcao e hibridizao;
Diferenas de ajuste de parmetros do scanner de leitura das lminas;
Falhas na impresso das sondas, etc.
Impreciso de equipamentos;
Procedimentos de localizao e quantificao adotados pelos softwares;

7.1. Normalizao Global


feita para correo de locao. aplicada quando existe uma relao constante
(Cy5=k.Cy3).
Log 2 (Cy 5 / Cy 3 )i = Log 2 (Cy 5 / Cy 3 )i
= Log 2 (Cy 5 / k.Cy 3 )i

16

O centro da distribuio de todos os logaritmos da razo das amostras zero.


Tem a desvantagem de no considerar os efeitos da distribuio espacial dos spots nos
arrays na expresso dos genes e por considerar que as diferenas so independentes
da intensidade de expresso.

Figura 7.1: Possvel problema em uma imagem de microarray. A mancha na figura


aparenta ser uma marca de dedo. Fonte: Esteves (2007).

7.2. Normalizao dependente da intensidade de expresso


Vcios dependentes da intensidade de expresso na distribuio dos log-ratios.
Isto pode ser notado quando se observa o MA-plot.

Figura 7.2: MA-plot com curva de lowess para o slide swirl.1


Utiliza-se um mtodo no paramtrico para regresso de M em A, chamado Lowess
(Local-Weighted Regression and Smoothing Scatterplot).
Esse mtodo adapta uma curva linear de regresso localmente ponderada, que uma
das tcnicas estatsticas de suavizao de grficos de disperso. Tais mtodos tentam
estimar curvas no lineares capazes de resumir os dados observados.
A partir da regresso, a correo feita como:
17

Log 2 (Cy 3/ Cy 5)i = Log 2 (Cy 5 / Cy 3)i b( A)


= Log 2 (Cy 5 / k ( A).Cy 3)i
Os valores de Cy5 e Cy3 ajustados podem ser obtidos como:
Log 2 (Cy5)i = A + Log 2 (Cy 5 / Cy 3)i / 2
e
Log 2 (Cy 3)i = A Log 2 (Cy 5 / Cy 3)i
b(A) o ajuste de lowess para o MA-plot.

7.3. Normalizao dentro de grupo de impresso


O processo de depositar os oligonucleotdeos de cDNA nos respectivos pontos (spots)
nas placas (slides) chamado de impresso.

Figura 7.3: esquerda temos as lminas sendo impressas e direita temos um


microarray onde podemos observar os grupos de impresso.
Este conjunto de agulhas pode ser uma fonte de variao sistemtica de variao no
nvel de expresso medido.
Este tipo de normalizao semelhante normalizao dependente da intensidade de
expresso sendo, no entanto, realizado por grupo de impresso.

Figura 7.4: Grupos de impresso de um microarray com correspondentes curvas de


lowess.

18

7.4. Normalizao dentro do array para escala


Segundo Stafford (2008) a normalizao dentro do array para escala ajusta a diferena
de escala entre os valores M dentro do array ou entre os arrays.
Assume que a maioria dos genes no so diferencialmente expressos entre diferentes
amostras no banco de dados, portanto, a escala de seus valores M deve ser constante.
Se denotarmos Ms como o log da razo normalizado para escala, ento Ms = M/s,
onde M o log da razo de genes antes da normalizao, e s o fator de escala.
O fator de escala pode ser calculado s pode ser calculado usando a median absolut
deviation (MAD) que uma estimativa robusta de s.
Ento
MADi = medianai {| M i mediana ( M i ) |}
onde Mi representa o log da razo de genes no array i antes da normalizao, e o fator
de escala si para o array i pode ser estimado como:

MADi

si =
I

I
i =1

MADi

7.5. Normalizao entre arrays


Esta normalizao utilizada para permitir a comparao entre os arrays do
experimento. aplicada aps a normalizao dentro do array para correo dos
efeitos de escala entre arrays.
O mesmo mtodo utilizado para a correo de escala dentro do array pode ser
diretamente estendido para esta situao.

8. Anlise dos dados - Busca de genes Diferencialmente


Expressos
Nesta etapa, possvel seguir diferentes abordagens matemticas e estatsticas,
dependendo das questes biolgicas envolvidas com o experimento.
Os tipos mais comuns de anlise de microarrays so:
a) Busca de genes diferencialmente expressos (DE);
b) Construo de agrupamentos (tanto para genes como para amostras);
c) Busca de grupos de genes capazes de discriminar tipos biolgicos diferentes
(anlise discriminante).
Iremos considerar nesse trabalho apenas a Busca de genes diferencialmente
expressos.

19

O objetivo desse tipo de anlise a identificao de genes com diferenas significativas


de expresso entre os tecidos biolgicos estudados. Em um estudo com dois tecidos
biolgicos, cancergeno e sadio, por exemplo, esse tipo de anlise busca identificar
genes que estejam se expressando de maneira diferencial no tecido cancergeno ou no
tecido sadio.

8.1. Modelos Lineares


O delineamento de qualquer experimento de microarray pode ser representado em
termos de um modelo linear para cada gene.
Essa abordagem requer que duas matrizes sejam definidas:
Matriz delineamento (design matrix)
Matriz contraste (contrast matrix)
Matematicamente assumimos um modelo linear:
E [Y j ] = X j

onde:
y j contm os dados de expresso para o gene j;

X a matriz delineamento;
j um vetor de coeficientes.

8.1.1. Matriz Delineamento


Essa matriz representa as diferentes amostras de RNA que sero hibridizadas no array.
uma matriz de coeficientes onde cada linha representa um array e cada coluna
corresponde a um coeficiente. Os coeficientes devem ser independentes.
Veja mais sobre matriz delineamento em Thorne.

Exemplo:
Considere o delineamento com trs arrays onde comparamos duas amostras (A e B)
indiretamente atravs de uma referncia comum (Ref).
Quando utilizarmos um delineamento com dye swap deveremos indicar invertendo o
sinal do coeficiente.

Cada array ser representado fazendo-se a amostra na ponta da flecha menos a


amostra na base da flecha. Assim o array 1 ser representado por (A Ref), o slide 2
ser representado por (Ref A) ou (A Ref) e o slide 3 ser representado por
(B Ref):

20

array 1 A Ref
array 2 = (A Ref)

array 3 B Ref

Se considerarmos como coeficientes (A Ref) e (B Ref), por exemplo, teremos:


A Ref

j =

B Ref
Assim a matriz delineamento dever ser uma matriz X tal que:

array 1
array 2 = X A Ref
B Ref

array 3

ou

A Ref
(A Ref) = X A Ref
B Ref

B Ref

Logo a matriz delineamento ser:

array 1 1 0
array 2 1 0
array 3 0 1
O sinal (-1) na segunda linha indica que houve inverso de corante (dye swap) no array
2.
Temos ento:

A Ref
(A Ref) =

B Ref

1 0
1 0 x A Ref


0 1 B Ref

Escreveremos o modelo linear para o gene j usando a matriz delineamento:


y1 1 0
A Ref

E y 2 = 1 0 x

y 0 1 B Ref
3

21

Observe que o modelo acima compara apenas A com Ref e B com Ref, porm a
comparao de interesse que seria A com B no feita. Para comparar as amostras A e
B devemos podemos utilizar a matriz contraste ou nesse caso podemos simplesmente
especificar esse coeficiente no vetor j .
Faremos ento um novo vetor j contendo o coeficiente B A:
A Ref

j =

BA
Teremos agora:

A Ref
(A Ref) = X A Ref
BA

B Ref

Assim a matriz delineamento dever ser:

1 0
X = 1 0
1 1

Temos ento:

A Ref
(A Ref) =

B Ref

1 0
1 0 x A Ref


1 1 B A

Escreveremos o modelo linear para o gene j usando a matriz delineamento:

y1
E y 2 =
y
3

1 0
1 0 x A Ref


1 1 B A

Observe que esse modelo contm o coeficiente de interesse (B A).


Depois de ajustar um modelo linear para cada gene os coeficientes so estimados pelo
mtodo dos mnimos quadrados e submetidos a testes de significncia.

E (Y ) = X .

 = ( X ' X ) 1 X ' Y

22

8.1.2. Matriz Contraste


Como na matriz delineamento todos os coeficientes devem ser independentes pode
ocorrer de algum contraste de interesse no estar includo. Deveremos ento fazer
uma nova matriz para incluir esses coeficientes na anlise, a matriz contraste.
Essa matriz permite que os coeficientes definidos pela matriz delineamento sejam
combinados em contrastes de interesse.
Cada contraste corresponde uma comparao de interesse entre as amostras de RNA.
Para experimentos simples a matriz contraste pode ser omitida.
Os contrastes de interesse so dados por:

j = C T j
onde C a matriz contraste.

Exemplo:
Considere o delineamento em loop com trs arrays e trs amostras:

O pesquisador pode ter interesse nos contrastes B A, C B e C A ,


porm, a matriz delineamento define apenas dois desses coeficientes pois eles devem
ser independentes. Entretanto podemos utilizar a matriz contraste para fazer
combinaes dos dois coeficientes definidos pela matriz delineamento e obter os trs
contrastes de interesse.
Considere o modelo em que a matriz delineamento define os contrastes B A e C B:
Y j1 1
Y 2
E j = 0
Y j 3 1

0
B A
1
C B
1

Onde:

1
Matriz delineamento: X = 0
1

0
1 ;
1

B A
Vetor de coeficientes: j =
.
C B

23

Tomando a matriz contraste:


1 0 1
C =

0 1 1

Temos que os coeficientes de interesse so obtidos por j = C T j


Assim:
0 1
B A

j = 1 0

1 1C B

C B
j = B A
C A

8.2. Teste t
Em geral em estudos com microarrays o nmero de lminas nh pequeno, e, portanto
as estimativas da varincia por gene vo ter muito poucos graus de liberdade e sero
muito instveis, Soler e Rosa (2004).
Para contornar esse problema proposta em Smyth (2004) uma abordagem Bayesiana
emprica.

8.3. Abordagem Bayesiana Emprica


A estatstica utilizada para anlise de significncia a estatstica t moderada. Tem a
mesma interpretao que a estatstica t ordinria exceto que os erros padres foram
moderados ao longo dos genes, isto , reajustados em direo a um valor comum,
usando um modelo Bayesiano, Smyth (2005).
A estatstica t moderada conduz a p-valores do mesmo modo que as estatsticas t
ordinrias, com exceo dos graus de liberdade que so aumentados, refletindo maior
confiabilidade associada com os erros padres suavizados.
Outra estatstica utilizada a estatstica B ou lods ( log(odds ) ), o logaritmo da
probabilidade do gene ser diferencialmente expresso, Smyth (2004).

8.4. Testes Mltiplos


Consideremos que para cada gene j foi conduzido um teste de hiptese para verificar
se h diferena de expresso. Digamos que conclumos que os genes j1 e j2 so
diferentemente expressos, com um nvel de significncia individual = 0, 05 . Isso
significa que a probabilidade de um falso positivo de 5%, isto , de j1 no ser
diferentemente expresso e estarmos identificando ele como tal. O mesmo vale para j2.
Consideremos agora a probabilidade de que ambos os genes sejam identificados
corretamente: assumindo independncia entre as inferncias, temos que essa

24

probabilidade dada por (1 0, 05) 2 = 0, 9025 . imediato ento que a probabilidade


de estarmos cometendo algum erro ser de 1 0, 9025 = 0, 0925 . Ou seja, apesar de
estarmos tolerando um erro de 5% individualmente, quando consideramos a
probabilidade de todas as nossas afirmaes estarem corretas no conjunto de testes
realizados, estamos lidando com um erro quase duas vezes maior, Soler e Rosa (2004).
Quanto maior o nmero de hipteses rejeitadas, ou de genes identificados segundo
esse critrio, maior ser a probabilidade de que hajam falsos positivos.
Para controlar a taxa de erro global podemos utilizar o mtodo de Bonferroni ou o
ajuste por FDR, por exemplo, que ajusta os nveis descritivos individuais, garantindo o
controle da taxa de falsas descobertas.

9. Materiais e Mtodos
9.1. Material
9.1.1. Banco de dados Swirl Zebrafish
O experimento Swirl Zebrafish muito conhecido na literatura de microarray.
Esse experimento foi realizado utilizando o peixe Zebrafish como um organismo
modelo para estudo de crescimento em vertebrados.
Swirl uma mutao no gene BMP2 que afeta o eixo dorsal/ventral do corpo do
animal.
Objetivo:
O objetivo do experimento identificar genes com expresso alterada nos peixes com
a mutao Swirl em relao a peixes do tipo selvagem.

Figura 9.1: Peixe Zebra (Zebrafish)

Delineamento:

4 microarrays em dois pares de dye swap.

25

Figura 9.2: Delineamento do experimento Swirl

Layout do slide:
8.448 sondas;
4 x 4 sub-arrays (blocos);
22 x 24 spots.

Figura 9.3: layout do array do experimento Swirl.

O banco de dados est disponvel para download em:


http://bioinf.wehi.edu.au/limmaGUI/DataSets.html

9.1.2. Banco de dados ApoAI Knockout


O experimento ApoAI foi parte de um estudo sobre metabolismo de lipdio e
suscetibilidade arteriosclerose em ratos Dudoit (2000).
Apolipoprotein AI (ApoAI) um gene importante no metabolismo do colesterol HDL.
Ratos com o gene ApoAI knocked-out tem nveis muito baixos de colesterol HDL.
Objetivo:
O objetivo desse experimento foi comparar genes com nvel de expresso alterada no
fgado de ratos knock-out com ratos controle.
Delineamento:
Para cada um dos 16 ratos cDNA marcado foi obtido do mRNA por transcrio reversa
e tingido usando o corante fluorescente vermelho Cy5. A amostra referncia usada em
todas as hibridizaes foram preparadas misturando cDNA dos 8 ratos controle e
foram tingidos com o corante fluorescente verde Cy3, Dudoit (2001).

26

Figura 9.4: A referncia comum foi feita misturando RNA dos oito ratos normais, as
amostras para os outros grupos so formadas com o RNA de cada rato, oito ratos
formam o grupo controle e oito ratos formam o tratamento (ratos knockout).
Foram utilizados 16 microarrays no total:

Figura 9.5: Delineamento do experimento ApoAI.


Layout do slide:
Cada microarray tem 6.384 sondas de cDNA impressas em arranjos 4x4 (16 blocos),
onde cada bloco tem 19 linhas e 21 colunas.

9.1.3. Softwares utilizados na anlise dos dados


Analisaremos os dois bancos de dados utilizando o software estatstico livre R e o
pacote limma do Bioconductor.

27

Bioconductor um projeto de software de cdigo e desenvolvimento aberto


pra prover ferramentas para anlise e compreenso de dados genmicos. Funciona no
ambiente computacional estatstico livre R.

9.2. Mtodos
Analisaremos os dados utilizando a abordagem de modelos lineares, a qual est
implementada no pacote limma do Bioconductor. Para verificao de expresso
diferencial utilizaremos a abordagem Bayesiana emprica e, para controlar a taxa de
falsos positivos utilizaremos o critrio FDR.

10. Procedimentos para anlise dos dados utilizando o pacote


limma do Bioconductor.
10.1. Instalao do R e do Bioconductor
Inicialmente precisamos ter instalados o R e o Bioconductor.
1 Passo
Faa o download e instale o software R. Ele est disponvel para download em:
http://cran.r-project.org/bin/windows/base/.

2 Passo
Instale os pacotes do Bioconductor. Basta digitar diretamente no R os comandos
abaixo ( necessrio conexo com a internet):
> source("http://www.bioconductor.org/getBioC.R")
> getBioC()
Obs.: No digite o smbolo ( > ) que inicia a linha.
Depois de Instalados o r e o Bioconductor, podemos prosseguir para as anlises.

10.2. Anlise dos dados


10.2.1. Banco de dados Swirl Zebrafish
1 Passo

28

Faa o download do Banco de Dados. Est disponvel para download na pgina:


http://bioinf.wehi.edu.au/limmaGUI/DataSets.html.
Aps o download extraia os arquivos.

2 Passo
Mudar o diretrio para a pasta onde foram extrados os arquivos do Banco de Dados.
> setwd("C:/RBRAS_2009/Swirl")
> getwd()
[1] "C:/RBRAS_2009/Swirl"
> dir()
[1] "fish.gal"
"SpotTypes.txt"
[4] "swirl.2.spot"
"swirl.3.spot"
[7] "SwirlSample.txt"

"swirl.1.spot"
"swirl.4.spot"

3 Passo
Carregar o pacote limma:
> library(limma)

4 Passo
Carregar o objeto que mostra como foram feitas as hibridizaes (arquivo target).
> targets <- readTargets("SwirlSample.txt")
> targets
SlideNumber
FileName
Cy3
Cy5
1
81 swirl.1.spot
swirl wild type
2
82 swirl.2.spot wild type
swirl
3
93 swirl.3.spot
swirl wild type
4
94 swirl.4.spot wild type
swirl

Date
2001/9/20
2001/9/20
2001/11/8
2001/11/8

5 Passo
Carregar um objeto com as intensidades de expresso (ler os arquivos com extenso
.spot que contm os nveis de expresso dos genes).
Como as imagens desse experimento foram analisadas pelo software Spot, os dados
podem ser lidos pelo limma. Deveremos indicar que esses dados so provenientes do
software Spot, pois eles tm uma estrutura prpria desse software.
> RG <- read.maimages(targets$FileName, source="spot")
Read swirl.1.spot
Read swirl.2.spot
29

Read swirl.3.spot
Read swirl.4.spot
> names(RG)
[1] "R"
"G"
[6] "source" "genes"

"Rb"
"Gb"
"printer"

"targets"

Caso as imagens no tivessem sido analisadas no Spot ou em nenhum outro software


que o limma capaz de ler os arquivos de dados, eles poderiam ser organizados em
um arquivo de texto na forma de uma matriz, de forma que cada linha represente um
gene e cada coluna uma hibridizao. Assim poderemos ler os dados diretamente no R
utilizando o comando:
> read.table()
ou o comando
> read.delim()

6 Passo
Acrescentar ao objeto RG a localizao, tipo e nome de cada gene (essas informaes
esto no arquivo com extenso .gal).

> RG$genes <- readGAL("fish.gal")


> names(RG)
[1] "R"
"G"
"Rb"
"Gb"
[6] "source" "genes"
> RG$genes[1:10,]
Block Row Column
ID Name
1
1
1
1 control geno1
2
1
1
2 control geno2
3
1
1
3 control geno3
4
1
1
4 control 3XSSC
5
1
1
5 control 3XSSC
6
1
1
6 control EST1
7
1
1
7 control geno1
8
1
1
8 control geno2
9
1
1
9 control geno3
10
1
1
10 control 3XSSC

"targets"

7 Passo
Como estamos utilizando sadas .spot, o layout de impresso 4x4x22x24 tambm
precisa ser fixado. Faremos isso utilizando o arquivo .gal.

30

> RG$printer <- getLayout(RG$genes)


> RG$printer
$ngrid.r
[1] 4
$ngrid.c
[1] 4
$nspot.r
[1] 22
$nspot.c
[1] 24
attr(,"class")
[1] "PrintLayout"

8 Passo
Fazer a correo do background.
O comando:
> RGb <- backgroundCorrect(RG, method="subtract)
pode ser utilizado para calcular os valores do background corrigido, porm o comando
> MA <- normalizeWithinArrays(RG, method="none")
corrige o background e calcula os valores M e A.
> names(MA)
[1] "targets" "source"
[6] "A"

"genes"

"printer" "M"

9 Passo
Fazer um MA-plot para cada array:
>
>
>
>

plotMA(MA,
plotMA(MA,
plotMA(MA,
plotMA(MA,

array=1)
array=2)
array=3)
array=4)

31

Figura 10.1: MA-plots dos quatro arrays do experimento swirl.

10 Passo
Fazer MA-plots dos grupos de impresso para cada array.
>
>
>
>

plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,

array=1)
array=2)
array=3)
array=4)

32

Figura 10.2: Grficos MA dos grupos de impresso (blocos), sem normalizao, para os
arrays 1, 2, 3 e 4 respectivamente do experimento swirl.

11 Passo
Normalizao dentro do array:
> MA <- normalizeWithinArrays(RG)
Visualizao dos grficos aps a normalizao:
>
>
>
>

plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,

array=1)
array=2)
array=3)
array=4)

33

Figura 10.3: Grficos MA dos grupos de impresso (blocos), aps a normalizao


dentro dos arrays, para os arrays 1, 2, 3 e 4 respectivamente do experimento swirl.

12 Passo
Fazer um boxplot de cada array.
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(4))

34

Figura 10.4: Boxplot dos quatro arrays do experimento swirl.


Por esses grficos podemos observar que as intensidades esto centradas na mdia
zero, ou seja, foram corrigidas quanto locao pela normalizao dentro do array,
entretanto a variao nos arrays diferente, ento devemos fazer uma normalizao
entre os array para correo de escala.

13 Passo
Fazer uma normalizao de escala entre os arrays.
> MA <- normalizeBetweenArrays(MA,method="scale")
Verificao da normalizao:
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(4))

Figura 10.5: Boxplot dos quatro arrays do experimento swirl depois da normalizao
entre os arrays.

35

14 Passo
Ajustaremos um modelo linear para cada gene.
> design <- c(-1,1,-1,1)
> fit <- lmFit(MA,design)
> names(fit)
[1] "coefficients"
"rank"
[3] "assign"
"qr"
[5] "df.residual"
"sigma"
[7] "cov.coefficients" "stdev.unscaled"
[9] "pivot"
"genes"
[11] "Amean"
"method"
[13] "design"

15 Passo
Calcular as estatsticas de teste usando a abordagem bayesiana emprica.
> fit <- eBayes(fit)
> names(fit)
[1] "coefficients"
[3] "assign"
[5] "df.residual"
[7] "cov.coefficients"
[9] "pivot"
[11] "Amean"
[13] "design"
[15] "s2.prior"
[17] "proportion"
[19] "t"
[21] "lods"
[23] "F.p.value"

"rank"
"qr"
"sigma"
"stdev.unscaled"
"genes"
"method"
"df.prior"
"var.prior"
"s2.post"
"p.value"
"F"

16 Passo
Tabela de Genes Diferencialmente Expressos
> options(digits=3)
> topTable(fit,number=30,adjust="fdr")
3721
1609
3723
1611
8295
7036
515
5075
7307

Block Row Column


ID
Name
8
2
1 control
BMP2
4
2
1 control
BMP2
8
2
3 control
Dlx3
4
2
3 control
Dlx3
16 16
15 fb94h06 20-L12
14
8
4 fb40h07 7-D14
1 22
11 fc22a09 27-E17
10 14
11 fb85f09 18-G18
14 19
11 fc10h09 24-H18

logFC AveExpr
t P.Value adj.P.Val
B
-2.21
12.1 -21.1 1.03e-07 0.000357 7.96
-2.30
13.1 -20.3 1.34e-07 0.000357 7.78
-2.18
13.3 -20.0 1.48e-07 0.000357 7.71
-2.18
13.5 -19.6 1.69e-07 0.000357 7.62
1.27
12.0 14.1 1.74e-06 0.002067 5.78
1.35
13.8 13.5 2.29e-06 0.002067 5.54
1.27
13.2 13.4 2.44e-06 0.002067 5.48
1.28
14.4 13.4 2.46e-06 0.002067 5.48
1.20
13.4 13.2 2.67e-06 0.002067 5.40

36

319
2961
4032
6903
4546
683
1697
7491
4188
4380
3726
2679
5931
7602
2151
3790
7542
4263
6375
1146
157

1
6
8
14
9
2
4
15
8
9
8
6
12
15
5
8
15
9
13
3
1

14
14
14
2
14
7
5
5
21
7
2
2
6
9
2
4
7
2
2
4
7

7
9
24
15
10
11
17
3
12
12
6
15
3
18
15
22
6
15
15
18
13

fb85a01
fb85d05
fb87d12
control
fb85e07
fb37b09
fb26b10
fb24g06
fc18d12
fb37e11
control
control
fb32f06
fb50g12
control
fb23d08
fb36g12
control
control
fb22a12
fb38a01

18-E1
18-F10
18-N24
Vox
18-G13
6-E18
3-I20
3-D11
26-F24
6-G21
fli-1
Vox
5-C12
9-L23
vent
2-N16
6-D23
vent
vent
2-I23
6-I1

-1.29
-2.69
1.27
-1.26
1.23
1.31
1.09
1.33
-1.25
1.23
-1.32
-1.25
-1.10
1.16
-1.40
1.16
1.12
-1.41
-1.37
1.05
-1.82

12.5
10.3
14.2
13.4
14.2
13.3
13.3
13.6
12.1
14.0
10.3
13.4
13.0
14.0
12.7
12.5
13.5
12.7
12.5
13.7
10.8

-13.1
-13.0
12.8
-12.8
12.8
12.4
12.4
12.3
-12.2
12.0
-11.9
-11.9
-11.7
11.7
-11.7
11.6
11.0
-10.8
-10.5
10.2
-10.2

2.91e-06
3.04e-06
3.28e-06
3.35e-06
3.42e-06
4.10e-06
4.30e-06
4.39e-06
4.71e-06
5.19e-06
5.40e-06
5.72e-06
6.24e-06
6.25e-06
6.30e-06
6.57e-06
9.23e-06
1.06e-05
1.33e-05
1.57e-05
1.58e-05

0.002067
0.002067
0.002067
0.002067
0.002067
0.002182
0.002182
0.002182
0.002209
0.002216
0.002216
0.002216
0.002216
0.002216
0.002216
0.002221
0.003000
0.003326
0.004026
0.004242
0.004242

17 Passo
Fazer um grfico Volcano.
Este grfico feito como: log2(fold-change) VS log10(p-valor).
Vamos carregar um objeto contendo os log2(fold-change) e p-valores para todos os
genes (especificaremos que so todos os genes colocando o comando number =
nrow(MA$M) em topTable, onde nrow(MA$M) o nmero de linhas de M, ou seja,
nmero total de genes ).
> y<-topTable(fit,number=nrow(MA$M),adjust="fdr")
> names(y)
[1] "Block"
"Row"
"Column"
"ID"
[5] "Name"
"logFC"
"AveExpr"
"t"
[9] "P.Value"
"adj.P.Val" "B"
Como log2(fold-change) est na coluna 6 e os p-valores ajustados esto na coluna 10
utilizaremos essas colunas para criar o grfico.
> plot(y[,6],-log(y[,10],10),xlab="log2(Fold-Change)",
ylab="-log10(P.Value)",main="Volcano plot",cex=0.1,pch=19)
> abline(v=c(-1,1),col="blue")
> abline(h=-log(0.05,10),col="red")

37

5.32
5.29
5.22
5.20
5.18
5.02
4.97
4.96
4.89
4.80
4.76
4.71
4.63
4.63
4.62
4.58
4.27
4.13
3.91
3.76
3.75

Figura 10.6: Grfico Volcano do experimento swirl.


Os pontos acima da linha vermelha representam os genes com p-valor menor que
0,05, ou seja, genes que apresentam expresso diferencial com um nvel de confiana
de 5%. Os genes acima da linha vermelha e esquerda da linha azul correspondente
log2(fold-change)= -1 e direita da linha azul correspondente log2(fold-change)= 1
so genes que se expressam mais do que duas vezes em uma amostra em relao
outra.

10.2.2. Banco de dados ApoAI Knockout

1 Passo
Faa o download do Banco de Dados. Est disponvel para download na pgina:
http://bioinf.wehi.edu.au/limmaGUI/DataSets.html.
Aps o download extraia os arquivos.
2 Passo
Mudar o diretrio para a pasta onde foram extrados os arquivos do Banco de Dados.
> setwd("C:/RBRAS_2009/ApoAI")
> getwd()
[1] "C:/RBRAS_2009/ApoAI"
> dir()
[1] "ApoAI.gal"
"ApoAISpotTypes.txt"
[3] "ApoAITargets.txt"
"c1.spot"
[5] "c2.spot"
"c3.spot"
[7] "c4.spot"
"c5.spot"
38

[9]
[11]
[13]
[15]
[17]
[19]

"c6.spot"
"c8.spot"
"k2.spot"
"k4.spot"
"k6.spot"
"k8.spot"

"c7.spot"
"k1.spot"
"k3.spot"
"k5.spot"
"k7.spot"

3 Passo
Carregar o pacote limma:
> library(limma)

4 Passo
Carregar o objeto que mostra como foram feitas as hibridizaes (arquivo target).
> targets <- readTargets("ApoAITargets.txt")
> targets
SlideNumber Name FileName Cy3
Cy5
1
1
c1 c1.spot Ref wild type
2
2
c2 c2.spot Ref wild type
3
3
c3 c3.spot Ref wild type
4
4
c4 c4.spot Ref wild type
5
5
c5 c5.spot Ref wild type
6
6
c6 c6.spot Ref wild type
7
7
c7 c7.spot Ref wild type
8
8
c8 c8.spot Ref wild type
9
9
k1 k1.spot Ref ApoAI KO
10
10
k2 k2.spot Ref ApoAI KO
11
11
k3 k3.spot Ref ApoAI KO
12
12
k4 k4.spot Ref ApoAI KO
13
13
k5 k5.spot Ref ApoAI KO
14
14
k6 k6.spot Ref ApoAI KO
15
15
k7 k7.spot Ref ApoAI KO
16
16
k8 k8.spot Ref ApoAI KO

5 Passo
Carregar um objeto com as intensidades de expresso (ler os arquivos com extenso
.spot que contm os nveis de expresso dos genes).
Como as imagens desse experimento foram analisadas pelo software spot, os dados
podem ser lidos diretamente no limma. Deveremos indicar que esses dados so
provenientes do software spot, pois eles tm uma estrutura prpria desse software.

39

> RG <- read.maimages(targets$FileName, source="spot")


Read c1.spot
Read c2.spot
Read c3.spot
Read c4.spot
Read c5.spot
Read c6.spot
Read c7.spot
Read c8.spot
Read k1.spot
Read k2.spot
Read k3.spot
Read k4.spot
Read k5.spot
Read k6.spot
Read k7.spot
Read k8.spot
> names(RG)
[1] "R"
"G"
"Rb"
"Gb"
"targets"
[6] "source"

6 Passo
Acrescentar ao objeto RG a localizao, tipo e nome de cada gene (essas informaes
esto no arquivo com extenso .gal).

> RG$genes <- readGAL("ApoAI.gal")


> names(RG)
[1] "R"
"G"
"Rb"
"Gb"
"targets"
[6] "source" "genes"
> RG$genes[1:10,]
Block Row Column
ID
Name CloneID
1
1
1
1 Control
Cy3RT
BLANK
2
1
1
2 Control
Cy5RT
BLANK
3
1
1
3
cDNA
mSRB1
mSRB1
4
1
1
4
BLANK
BLANK
BLANK
5
1
1
5
BLANK
BLANK
BLANK
6
1
1
6
BLANK
BLANK
BLANK
7
1
1
7
cDNA
317448
8
1
1
8
cDNA 5'similartoSW:BTF3_H 317452
9
1
1
9
cDNA 5'similartogb:J04794 317456
10
1
1
10
cDNA 5'.gi|1287586|gb|W13 317460

40

7 Passo
Como estamos utilizando sadas SPOT, o layout de impresso 4x4x19x21 tambm
precisa ser fixado. Faremos isso utilizando o arquivo GAL.
> RG$printer <- getLayout(RG$genes)
> RG$printer
$ngrid.r
[1] 4
$ngrid.c
[1] 4
$nspot.r
[1] 19
$nspot.c
[1] 21
attr(,"class")
[1] "PrintLayout"

8 Passo
Fazer a correo do background.
> MA <- normalizeWithinArrays(RG, method="none")
> names(MA)
[1] "targets" "source" "genes"
"printer" "M"
[6] "A"

9 Passo
Fazer MA-plots dos arrays:
> plotMA(MA, array=1)
> plotMA(MA, array=2)

.
.
.

> plotMA(MA, array=15)


> plotMA(MA, array=16)

41

.
.
.

.
.
.

Figura 10.7: MA-plots para os arrays 1, 2, 15 e 16, respectivamente, para o


experimento ApoAI.
10 Passo
Fazer MA-plots dos grupos de impresso para os arrays.
> plotPrintTipLoess(MA, array=1)
> plotPrintTipLoess(MA, array=2)

.
.
.

> plotPrintTipLoess(MA, array=15)


> plotPrintTipLoess(MA, array=16)

42

.
.
.

.
.
.

Figura 10.8: Grficos MA dos grupos de impresso (blocos), sem normalizao, para os
arrays 1, 2, 15 e 16 respectivamente do experimento ApoAI.

11 Passo
Normalizao dentro do array:
> MA <- normalizeWithinArrays(RG)
Visualizao dos grficos aps a normalizao:
> plotPrintTipLoess(MA, array=1)

43

> plotPrintTipLoess(MA, array=2)

.
.
.

> plotPrintTipLoess(MA, array=15)


> plotPrintTipLoess(MA, array=16)

.
.
.

.
.
.

Figura 10.9: Grficos MA dos grupos de impresso (blocos), aps a normalizao


dentro dos arrays, para os arrays 1, 2, 15 e 16 respectivamente do experimento ApoAI.

12 Passo
Fazer um boxplot de cada array.
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(16))
44

Figura 10.10: Boxplot dos 16 arrays do experimento ApoAI.

13 Passo
Fazer uma normalizao de escala entre os arrays.
> MA <- normalizeBetweenArrays(MA,method="scale")
Verificao da normalizao:
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(16))

Figura 10.10: Boxplot dos 16 arrays do experimento ApoAI aps a normalizao entre
os arrays.

45

14 Passo
Ajustaremos um modelo linear para cada gene.
> design <- cbind("Control-Ref"=1, "KOControl"=c(rep(0,8),rep(1,8)))
> design
Control-Ref KO-Control
[1,]
1
0
[2,]
1
0
[3,]
1
0
[4,]
1
0
[5,]
1
0
[6,]
1
0
[7,]
1
0
[8,]
1
0
[9,]
1
1
[10,]
1
1
[11,]
1
1
[12,]
1
1
[13,]
1
1
[14,]
1
1
[15,]
1
1
[16,]
1
1
> fit <- lmFit(MA,design)
> names(fit)
[1] "coefficients"
"stdev.unscaled"
[3] "sigma"
"df.residual"
[5] "cov.coefficients" "pivot"
[7] "genes"
"Amean"
[9] "method"
"design"

15 Passo
Calcular as estatsticas de teste usando a abordagem bayesiana emprica.
> fit <- eBayes(fit)
> names(fit)
[1] "coefficients"
[3] "sigma"
[5] "cov.coefficients"
[7] "genes"
[9] "method"
[11] "df.prior"
[13] "var.prior"
[15] "s2.post"
[17] "p.value"
[19] "F"

"stdev.unscaled"
"df.residual"
"pivot"
"Amean"
"design"
"s2.prior"
"proportion"
"t"
"lods"
"F.p.value"

46

16 Passo
Tabela de Genes Diferencialmente Expressos
> names(topTable(fit,coef=2,
[1] "Block"
"Row"
[5] "Name"
"CloneID"
[9] "t"
"P.Value"

number=30,adjust="fdr"))
"Column"
"ID"
"logFC"
"AveExpr"
"adj.P.Val" "B"

> options(digits=3)
> topTable(fit,coef=2, number=30,adjust="fdr")
2149
5356
540
4139
1739
1496
2537
4941
947
3920
6073
5693
1347
3510
654
4140
2009
954
5692
5986
1337
4943
5562
4892
634
1224
5343
1972
2352
834

Name
ApoAI,lipid-Img
CATECHOLO-METHYLTRAN
EST,HighlysimilartoA
EST,WeaklysimilartoC
ApoCIII,lipid-Img
est
ESTs,Highlysimilarto
similartoyeaststerol
EST,WeaklysimilartoF
ESTs,Weaklysimilarto
estrogenrec
Meox2
Musmusculustranscrip
MousemRNAfortypeIIDN
BLANK
APXL2,5q-Img
5'.gi|1285734|gb|W11
Caspase7,heart-Img
Olf-1
Cy3RT
psoriasis-associated
ADENOSINEA1RECEPTOR,
BLANK
FGF12A
MDB1376
5'.gi|1287131|gb|W12
NCAM-120,Brain-Img
BLANK
ESTs,Moderatelysimil

logFC AveExpr
t P.Value adj.P.Val
B
-2.930
12.46 -16.81 1.93e-12 1.23e-08 11.002
-1.678
12.92 -12.73 1.98e-10 6.32e-07 9.239
-2.822
12.28 -12.25 3.70e-10 7.88e-07 8.956
-0.883
12.60 -10.16 7.04e-09 1.12e-05 7.476
-0.828
13.74 -8.83 5.87e-08 7.49e-05 6.258
-0.866
12.23 -7.92 2.84e-07 3.03e-04 5.273
-0.911
13.63 -7.77 3.72e-07 3.39e-04 5.099
-0.793
13.29 -5.91 1.35e-05 1.08e-02 2.602
-0.504
10.54 -4.46 3.03e-04 2.15e-01 0.231
0.345
10.78
3.95 9.41e-04 5.59e-01 -0.667
0.416
9.78
3.93 9.86e-04 5.59e-01 -0.705
0.517
9.77
3.90 1.05e-03 5.59e-01 -0.755
-0.376
10.18 -3.73 1.52e-03 6.58e-01 -1.052
0.366
10.31
3.69 1.69e-03 6.58e-01 -1.135
-0.447
9.37 -3.67 1.75e-03 6.58e-01 -1.164
-0.377
9.78 -3.65 1.82e-03 6.58e-01 -1.195
0.426
9.63
3.65 1.83e-03 6.58e-01 -1.202
-0.276
12.15 -3.63 1.93e-03 6.58e-01 -1.244
0.441
9.77
3.62 1.96e-03 6.58e-01 -1.255
0.870
10.24
3.59 2.10e-03 6.70e-01 -1.310
-0.717
11.67 -3.56 2.24e-03 6.80e-01 -1.362
-0.371
11.73 -3.51 2.48e-03 7.03e-01 -1.445
0.396
8.66
3.50 2.53e-03 7.03e-01 -1.462
0.431
9.74
3.46 2.78e-03 7.32e-01 -1.537
-0.334
9.31 -3.37 3.44e-03 7.32e-01 -1.709
0.512
10.18
3.32 3.78e-03 7.32e-01 -1.785
-0.392
10.75 -3.30 3.99e-03 7.32e-01 -1.828
-0.331
8.43 -3.28 4.16e-03 7.32e-01 -1.862
-0.405
9.14 -3.28 4.18e-03 7.32e-01 -1.865
0.300
10.25
3.27 4.28e-03 7.32e-01 -1.884

17 Passo
Fazer um grfico Volcano.
> y<- topTable(fit,coef=2, number=nrow(MA$M), adjust="fdr")

47

> names(y)
[1] "Block"
[5] "Name"
[9] "t"

"Row"
"CloneID"
"P.Value"

"Column"
"ID"
"logFC"
"AveExpr"
"adj.P.Val" "B"

> plot(y[,7],-log(y[,10],10),xlab="log2(Fold-Change)",
ylab="-log10(P.Value)",main="Volcano plot",cex=0.2,pch=19)

Figura 10.11: Grfico Volcano do experimento ApoAI.

10.2.3. Analisando microarray de uma cor como delineamento com


referncia comum.
Podemos analisar um experimento de uma cor como se fosse um experimento de duas
cores com referncia comum.
Se tivssemos, por exemplo, quatro microarrays, cada dois formando dois grupos A e
B, poderamos compar-los como um delineamento com referencia comum utilizando
a matriz delineamento:
1 0
1 0

X =
1 1

1 1
que especifica os contrastes:

48

A - Ref

j =

B- A
Observe que a referencia comum no existe, porm, no comando topTable
informamos que queremos o resultado referente ao coeficiente 2
(topTable(fit,coef=2)), que compara os grupos A e B.
Aps definirmos a matriz delineamento ajustamos um modelo linear com o comando
lmFit() e calculamos as estatsticas de teste e os p-valores com o comando
eBayes().

11. Referncias Bibliogrficas


CARAZZOLLE, M. F., (2008) Anlises de microarranjos de DNA. Disponvel em:
http://www.lge.ibi.unicamp.br/lgeextensao2008/extsup/microarray.pdf.
DUDOIT, S. et al. Statistical methods for identifying dierentially expressed genes in
replicated cDNA microarray experiments. 2000.
DUDOIT, S. et al. Normalization for cDNA Microarray Data. 2001.
EISEN, M. ScanAlyze User Manual. Stanford University; 1998. Disponvel em:
http://rana.lbl.gov/EisenSoftware.htm.
ESTEVES, G.H. Validao de procedimentos para medida de expresso gnica a partir
de imagens de cDNA Microarray. So Paulo; 2002. [Dissertao de Mestrado
Fundao Antnio Prudente].
ESTEVES, G.H. Mtodos estatsticos para a anlise de dados de cDNA microarray em
um ambiente computacional integrado. So Paulo; 2007. [Tese de Doutorado
Universidade de So Paulo].
FUJITA, A. Anlise de dados de expresso gnica: normalizao de microarrays e
modelagem de redes regulatrias. So Paulo; 2007. [Tese de Doutorado
Universidade de So Paulo].
HADDAD, S. R., APLICAO DE MODELOS LINEARES PARA ANLISE DE EXPRESSO
GNICA EM EXPERIMENTOS DE MICROARRAYS. Botucatu; 2007. [Dissertao de
mestrado UNIVERSIDADE ESTADUAL PAULISTA - FACULDADE DE MEDICINA
VETERINRIA E ZOOTECNIA].
LOPES, F. C.; PAIS, H. L. M., (Jul. 2006) Relatrio de Projecto de Final de Curso.
49

Universidade de Aveiro, Aveiro, Portugal.


MARQUES, E. K. Diagnstico Gentico Molecular. 1. ed. Canoas: Ed. ULBRA, 2003. 372
p.
PEREIRA, R. N., Controle do erro do tipo I em um experimento de Microarrays com
eucalipto. Lavras; 2008. [Dissertao de mestrado Universidade Federal de Lavras].

SCHENA, M. et al., (Jul. 1998) Microarrays: biotechnology's discovery platform for


functional genomics TIBTECH 16:301-306.
SMYTH, G. K. Linear models and empirical bayes methods for assessing differential
expression in microarray experiments. Statistical Applications in Genetics and
Molecular Biology, p. Article 3, 2004.
SMYTH, G. K. (2005). Limma: linear models for microarray data. In: Bioinformatics and
Computational Biology Solutions using R and Bioconductor, R. Gentleman, V. Carey, S.
Dudoit, R. Irizarry, W. Huber (eds.), Springer, New York, pages 397-420. (Publisher web
site, PDF).
SOLER, J. P., ROSA, F. H. F. P. (2005). Relatrio sobre o Projeto Utilizao de mtodos
estatsticos e desenvolvimento de ferramentas em bioinformtica para anlise de
cDNA utilizando microarrays. Projeto FAPESP 03/02074-0. So Paulo.
Disponvel em: http://www.feferraz.net/files/lista/relatfapesp_20041210.pdf.
SOUTO, M. C. P., Expresso Gnica. Disponvel em
http://www.dimap.ufrn.br/~marcilio/BIOINFORMATICA/BIO2004.1/BIO-aula-11expressao-genica.ppt.
STAFFORD, P. (2008). Methods in Microarray Normalization.
THORNE, N., Understanding the design matrix in linear models for microarray
experiments. Disponvel em:
http://www.damtp.cam.ac.uk/user/npt22/npt22webpages/designMatrixLects.pdf.
Yang, Y. H., Dudoit, S., Luu, P., Lin, D. M., Peng, V., Ngai, J., and Speed, T. P. (2002).
Normalization for cDNA microarray data: a robust composite method addressing single
and multiple slide systematic variation. Nucleic Acids Research 30(4):e15.

50

Вам также может понравиться