Академический Документы
Профессиональный Документы
Культура Документы
Tutorial
So Carlos SP
29/07/2009
Tutorial
So Carlos SP
29/07/2009
ndice
1. Introduo
2. Objetivos
3. Reviso da Tcnica de Microarray
3.1. cDNA Microarray
3.1.1. Fixao dos cDNAs nas lminas de vidro
3.1.2. Extrao de RNA e hibridizao
3.1.3. Aquisio de Imagens
3.1.4. Anlise das imagens
3.2. Microarray de uma cor
4. Delineamento
5. Visualizao dos dados
6. Correo do background
7. Normalizao dos dados
7.1. Normalizao Global
7.2. Normalizao dependente da intensidade de expresso
7.3. Normalizao dentro de grupo de impresso
7.4. Normalizao dentro do array para escala
7.5. Normalizao entre arrays
8. Anlise dos dados - Busca de genes Diferencialmente Expressos
8.1. Modelos Lineares
8.1.1. Matriz Delineamento
8.1.2. Matriz Contraste
8.2. Teste t
8.3. Abordagem Bayesiana Emprica
8.4. Testes Mltiplos
9. Materiais e Mtodos
9.1. Material
9.1.1. Banco de dados Swirl Zebrafish
9.1.2. Banco de dados ApoAI Knockout
9.1.3. Softwares utilizados na anlise dos dados
9.2. Mtodos
10. Procedimentos para anlise dos dados utilizando o pacote limma do
Bioconductor.
10.1. Instalao do R e do Bioconductor
10.2. Anlise dos dados
10.2.1. Banco de dados Swirl Zebrafish
10.2.2. Banco de dados ApoAI Knockout
10.2.3. Analisando microarray de uma cor como delineamento com referencia
comum
11. Referncias Bibliogrficas
01
01
01
04
04
05
06
09
13
13
14
15
16
16
17
18
19
19
19
20
20
23
24
24
24
25
25
25
26
27
28
28
28
28
28
38
48
49
1. Introduo
Com raras excees todas as clulas que constituem um organismo vivo contm a
mesma carga gentica, ou seja, o mesmo DNA. O que diferencia dois grupos celulares
morfologicamente distintos so os genes expressos nesses dois tipos de clulas e os
nveis de expresso desses genes.
A comparao dos nveis de expresso dos genes de diferentes tecidos pode levar ao
entendimento dos diversos fenmenos encontrados em um organismo e,
experimentos para a deteco de genes com expresso diferencial entre tecidos e
rgos podem ser realizados com microarrays (microarranjos) de DNA. Essa tcnica
permite mensurar os nveis de expresso de milhares de genes simultaneamente.
A capacidade de obteno de dados de expresso gnica superou a capacidade de
analis-los manualmente. O uso de softwares para a anlise de dados genmicos
tornou-se imprescindvel.
2. Objetivos
Nesse tutorial faremos uma reviso de literatura mostrando as etapas da tcnica de
microarray, desde a fabricao dos arrays at a anlise de genes diferencialmente
expressos utilizando modelos lineares. Para realizao das anlises utilizaremos o
software R e o pacote limma do Bioconductor.
O objetivo principal fornecer ao leitor passos para anlise de um experimento de
microarray utilizando o R e o Bioconductor. Sero mostradas e explicadas as linhas de
comando necessrias para realizarmos a anlise em dois bancos de dados reais
bastante utilizados na literatura.
Fabricao de Microarrays
A construo dos microarrays pode ser feita por diferentes tcnicas onde estas
diferem quanto forma de fixao do material gentico nas lminas. A figura abaixo
ilustra trs tcnicas de fabricao de microarrays: (a) Photolithography, (b) Mechanical
microspotting e (c) Ink jetting.
Veremos apenas a tcnica (b) Mechanical microspotting.
12130c1R
Figura 3.12: Diagrama ilustrativo da tcnica de cDNA microarray. Fonte: Fujita (2007).
Endereamento ou gradeamento;
Nessa etapa localizamos os blocos e os spots. Assim devem ser feitos dois
gradeamentos:
Blocos;
Regio de influncia do spot;
Figura 3.14: Gradeamento dos blocos no software Bioinfo. Fonte: Esteves (2002).
10
Figura 3.16: Imagens de segmentao por crculo fixo e segmentao por variao de
intensidade respectivamente. Fonte: Esteves (2002).
Quantificao da intensidade
So feitos os clculos das intensidades background e do foreground. Observe na figura
abaixo, Target Median a mediana da intensidade de luz (vermelha ou verde) dentro
do crculo, e Bkgd Median a mediana da intensidade de luz do background (regio
fora do crculo porm dentro do quadrado). A rea calculada como sendo o nmero
de pixels dentro do crculo cuja intensidade seja maior que todos os pixels fora do
crculo mas dentro do quadrado. Assim a intensidade do spot calculada por:
Intensidade = (Target median Bkgd median)*Area.
11
Figura 3.18: Banco de dados de microarrays com o background corrigido. Esses dados
so parte do experimento Apo AI o qual tratado por Dudoit et al. (2000). Banco de
dados disponvel em:
12
http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.
Figura 3.19: Esquema da tcnica de microarrays para arrays de duas cores e uma cor.
4. Delineamento
O delineamento adotado deve eliminar o confundimento nas fontes de variao e
evidenciar a variabilidade biolgica, Haddad (2007) apud Rosa et al.(2005b).
Para a representao do delineamento de um experimento de microarray de duas
cores utilizaremos flechas para representar os microarrays (lminas) e letras para
representar as amostras biolgicas (amostras de cDNA). A base da flecha indica que a
13
amostra correspondente foi marcada com Cy3 e a ponta da flecha indica que a amostra
correspondente foi marcada com Cy5.
Por exemplo, na figura abaixo, o experimento (a) tem um nico microarray onde a
amostra A foi marcada com Cy3 (verde) e a amostra B foi marcada com Cy5 (vermelho),
j o experimento (b) tem dois microarrays onde no primeiro a amostra A foi marcada
com Cy3 e a amostra B com Cy5 enquanto no segundo microarray foi feito o inverso, ou
seja, a amostra A foi marcada com Cy5 e a amostra B com Cy3.
O delineamento com inverso de corantes (dye swap) tem como objetivo eliminar o
confundimento devido ao efeito dos corantes.
No delineamento com referncia as amostras de interesse so comparadas
indiretamente, atravs de uma referncia comum. Esse tipo de delineamento tem a
vantagem de outros tipos de amostras poderem ser adicionados posteriormente para
serem comparadas com as amostras que j haviam sido comparadas, bastando utilizar
a mesma referencia comum utilizada nas amostras anteriores. Podemos tambm
analisar experimentos de microarray de uma s cor como se fosse um delineamento
com referncia comum.
Cy3 x Cy5;
MA-plot;
onde M = log2(R) - log2(G)
A = [log2(R) + log2(G)].
6. Correo do background
Segundo Esteves, 2007, a intensidade do background necessria para a correo dos
valores de intensidade obtidos. A motivao para a utilizao deste dado est no fato
15
Causas de variao
16
18
MADi
si =
I
I
i =1
MADi
19
onde:
y j contm os dados de expresso para o gene j;
X a matriz delineamento;
j um vetor de coeficientes.
Exemplo:
Considere o delineamento com trs arrays onde comparamos duas amostras (A e B)
indiretamente atravs de uma referncia comum (Ref).
Quando utilizarmos um delineamento com dye swap deveremos indicar invertendo o
sinal do coeficiente.
20
array 1 A Ref
array 2 = (A Ref)
array 3 B Ref
j =
B Ref
Assim a matriz delineamento dever ser uma matriz X tal que:
array 1
array 2 = X A Ref
B Ref
array 3
ou
A Ref
(A Ref) = X A Ref
B Ref
B Ref
array 1 1 0
array 2 1 0
array 3 0 1
O sinal (-1) na segunda linha indica que houve inverso de corante (dye swap) no array
2.
Temos ento:
A Ref
(A Ref) =
B Ref
1 0
1 0 x A Ref
0 1 B Ref
E y 2 = 1 0 x
y 0 1 B Ref
3
21
Observe que o modelo acima compara apenas A com Ref e B com Ref, porm a
comparao de interesse que seria A com B no feita. Para comparar as amostras A e
B devemos podemos utilizar a matriz contraste ou nesse caso podemos simplesmente
especificar esse coeficiente no vetor j .
Faremos ento um novo vetor j contendo o coeficiente B A:
A Ref
j =
BA
Teremos agora:
A Ref
(A Ref) = X A Ref
BA
B Ref
1 0
X = 1 0
1 1
Temos ento:
A Ref
(A Ref) =
B Ref
1 0
1 0 x A Ref
1 1 B A
y1
E y 2 =
y
3
1 0
1 0 x A Ref
1 1 B A
E (Y ) = X .
= ( X ' X ) 1 X ' Y
22
j = C T j
onde C a matriz contraste.
Exemplo:
Considere o delineamento em loop com trs arrays e trs amostras:
0
B A
1
C B
1
Onde:
1
Matriz delineamento: X = 0
1
0
1 ;
1
B A
Vetor de coeficientes: j =
.
C B
23
0 1 1
j = 1 0
1 1C B
C B
j = B A
C A
8.2. Teste t
Em geral em estudos com microarrays o nmero de lminas nh pequeno, e, portanto
as estimativas da varincia por gene vo ter muito poucos graus de liberdade e sero
muito instveis, Soler e Rosa (2004).
Para contornar esse problema proposta em Smyth (2004) uma abordagem Bayesiana
emprica.
24
9. Materiais e Mtodos
9.1. Material
9.1.1. Banco de dados Swirl Zebrafish
O experimento Swirl Zebrafish muito conhecido na literatura de microarray.
Esse experimento foi realizado utilizando o peixe Zebrafish como um organismo
modelo para estudo de crescimento em vertebrados.
Swirl uma mutao no gene BMP2 que afeta o eixo dorsal/ventral do corpo do
animal.
Objetivo:
O objetivo do experimento identificar genes com expresso alterada nos peixes com
a mutao Swirl em relao a peixes do tipo selvagem.
Delineamento:
25
Layout do slide:
8.448 sondas;
4 x 4 sub-arrays (blocos);
22 x 24 spots.
26
Figura 9.4: A referncia comum foi feita misturando RNA dos oito ratos normais, as
amostras para os outros grupos so formadas com o RNA de cada rato, oito ratos
formam o grupo controle e oito ratos formam o tratamento (ratos knockout).
Foram utilizados 16 microarrays no total:
27
9.2. Mtodos
Analisaremos os dados utilizando a abordagem de modelos lineares, a qual est
implementada no pacote limma do Bioconductor. Para verificao de expresso
diferencial utilizaremos a abordagem Bayesiana emprica e, para controlar a taxa de
falsos positivos utilizaremos o critrio FDR.
2 Passo
Instale os pacotes do Bioconductor. Basta digitar diretamente no R os comandos
abaixo ( necessrio conexo com a internet):
> source("http://www.bioconductor.org/getBioC.R")
> getBioC()
Obs.: No digite o smbolo ( > ) que inicia a linha.
Depois de Instalados o r e o Bioconductor, podemos prosseguir para as anlises.
28
2 Passo
Mudar o diretrio para a pasta onde foram extrados os arquivos do Banco de Dados.
> setwd("C:/RBRAS_2009/Swirl")
> getwd()
[1] "C:/RBRAS_2009/Swirl"
> dir()
[1] "fish.gal"
"SpotTypes.txt"
[4] "swirl.2.spot"
"swirl.3.spot"
[7] "SwirlSample.txt"
"swirl.1.spot"
"swirl.4.spot"
3 Passo
Carregar o pacote limma:
> library(limma)
4 Passo
Carregar o objeto que mostra como foram feitas as hibridizaes (arquivo target).
> targets <- readTargets("SwirlSample.txt")
> targets
SlideNumber
FileName
Cy3
Cy5
1
81 swirl.1.spot
swirl wild type
2
82 swirl.2.spot wild type
swirl
3
93 swirl.3.spot
swirl wild type
4
94 swirl.4.spot wild type
swirl
Date
2001/9/20
2001/9/20
2001/11/8
2001/11/8
5 Passo
Carregar um objeto com as intensidades de expresso (ler os arquivos com extenso
.spot que contm os nveis de expresso dos genes).
Como as imagens desse experimento foram analisadas pelo software Spot, os dados
podem ser lidos pelo limma. Deveremos indicar que esses dados so provenientes do
software Spot, pois eles tm uma estrutura prpria desse software.
> RG <- read.maimages(targets$FileName, source="spot")
Read swirl.1.spot
Read swirl.2.spot
29
Read swirl.3.spot
Read swirl.4.spot
> names(RG)
[1] "R"
"G"
[6] "source" "genes"
"Rb"
"Gb"
"printer"
"targets"
6 Passo
Acrescentar ao objeto RG a localizao, tipo e nome de cada gene (essas informaes
esto no arquivo com extenso .gal).
"targets"
7 Passo
Como estamos utilizando sadas .spot, o layout de impresso 4x4x22x24 tambm
precisa ser fixado. Faremos isso utilizando o arquivo .gal.
30
8 Passo
Fazer a correo do background.
O comando:
> RGb <- backgroundCorrect(RG, method="subtract)
pode ser utilizado para calcular os valores do background corrigido, porm o comando
> MA <- normalizeWithinArrays(RG, method="none")
corrige o background e calcula os valores M e A.
> names(MA)
[1] "targets" "source"
[6] "A"
"genes"
"printer" "M"
9 Passo
Fazer um MA-plot para cada array:
>
>
>
>
plotMA(MA,
plotMA(MA,
plotMA(MA,
plotMA(MA,
array=1)
array=2)
array=3)
array=4)
31
10 Passo
Fazer MA-plots dos grupos de impresso para cada array.
>
>
>
>
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
array=1)
array=2)
array=3)
array=4)
32
Figura 10.2: Grficos MA dos grupos de impresso (blocos), sem normalizao, para os
arrays 1, 2, 3 e 4 respectivamente do experimento swirl.
11 Passo
Normalizao dentro do array:
> MA <- normalizeWithinArrays(RG)
Visualizao dos grficos aps a normalizao:
>
>
>
>
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
plotPrintTipLoess(MA,
array=1)
array=2)
array=3)
array=4)
33
12 Passo
Fazer um boxplot de cada array.
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(4))
34
13 Passo
Fazer uma normalizao de escala entre os arrays.
> MA <- normalizeBetweenArrays(MA,method="scale")
Verificao da normalizao:
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(4))
Figura 10.5: Boxplot dos quatro arrays do experimento swirl depois da normalizao
entre os arrays.
35
14 Passo
Ajustaremos um modelo linear para cada gene.
> design <- c(-1,1,-1,1)
> fit <- lmFit(MA,design)
> names(fit)
[1] "coefficients"
"rank"
[3] "assign"
"qr"
[5] "df.residual"
"sigma"
[7] "cov.coefficients" "stdev.unscaled"
[9] "pivot"
"genes"
[11] "Amean"
"method"
[13] "design"
15 Passo
Calcular as estatsticas de teste usando a abordagem bayesiana emprica.
> fit <- eBayes(fit)
> names(fit)
[1] "coefficients"
[3] "assign"
[5] "df.residual"
[7] "cov.coefficients"
[9] "pivot"
[11] "Amean"
[13] "design"
[15] "s2.prior"
[17] "proportion"
[19] "t"
[21] "lods"
[23] "F.p.value"
"rank"
"qr"
"sigma"
"stdev.unscaled"
"genes"
"method"
"df.prior"
"var.prior"
"s2.post"
"p.value"
"F"
16 Passo
Tabela de Genes Diferencialmente Expressos
> options(digits=3)
> topTable(fit,number=30,adjust="fdr")
3721
1609
3723
1611
8295
7036
515
5075
7307
logFC AveExpr
t P.Value adj.P.Val
B
-2.21
12.1 -21.1 1.03e-07 0.000357 7.96
-2.30
13.1 -20.3 1.34e-07 0.000357 7.78
-2.18
13.3 -20.0 1.48e-07 0.000357 7.71
-2.18
13.5 -19.6 1.69e-07 0.000357 7.62
1.27
12.0 14.1 1.74e-06 0.002067 5.78
1.35
13.8 13.5 2.29e-06 0.002067 5.54
1.27
13.2 13.4 2.44e-06 0.002067 5.48
1.28
14.4 13.4 2.46e-06 0.002067 5.48
1.20
13.4 13.2 2.67e-06 0.002067 5.40
36
319
2961
4032
6903
4546
683
1697
7491
4188
4380
3726
2679
5931
7602
2151
3790
7542
4263
6375
1146
157
1
6
8
14
9
2
4
15
8
9
8
6
12
15
5
8
15
9
13
3
1
14
14
14
2
14
7
5
5
21
7
2
2
6
9
2
4
7
2
2
4
7
7
9
24
15
10
11
17
3
12
12
6
15
3
18
15
22
6
15
15
18
13
fb85a01
fb85d05
fb87d12
control
fb85e07
fb37b09
fb26b10
fb24g06
fc18d12
fb37e11
control
control
fb32f06
fb50g12
control
fb23d08
fb36g12
control
control
fb22a12
fb38a01
18-E1
18-F10
18-N24
Vox
18-G13
6-E18
3-I20
3-D11
26-F24
6-G21
fli-1
Vox
5-C12
9-L23
vent
2-N16
6-D23
vent
vent
2-I23
6-I1
-1.29
-2.69
1.27
-1.26
1.23
1.31
1.09
1.33
-1.25
1.23
-1.32
-1.25
-1.10
1.16
-1.40
1.16
1.12
-1.41
-1.37
1.05
-1.82
12.5
10.3
14.2
13.4
14.2
13.3
13.3
13.6
12.1
14.0
10.3
13.4
13.0
14.0
12.7
12.5
13.5
12.7
12.5
13.7
10.8
-13.1
-13.0
12.8
-12.8
12.8
12.4
12.4
12.3
-12.2
12.0
-11.9
-11.9
-11.7
11.7
-11.7
11.6
11.0
-10.8
-10.5
10.2
-10.2
2.91e-06
3.04e-06
3.28e-06
3.35e-06
3.42e-06
4.10e-06
4.30e-06
4.39e-06
4.71e-06
5.19e-06
5.40e-06
5.72e-06
6.24e-06
6.25e-06
6.30e-06
6.57e-06
9.23e-06
1.06e-05
1.33e-05
1.57e-05
1.58e-05
0.002067
0.002067
0.002067
0.002067
0.002067
0.002182
0.002182
0.002182
0.002209
0.002216
0.002216
0.002216
0.002216
0.002216
0.002216
0.002221
0.003000
0.003326
0.004026
0.004242
0.004242
17 Passo
Fazer um grfico Volcano.
Este grfico feito como: log2(fold-change) VS log10(p-valor).
Vamos carregar um objeto contendo os log2(fold-change) e p-valores para todos os
genes (especificaremos que so todos os genes colocando o comando number =
nrow(MA$M) em topTable, onde nrow(MA$M) o nmero de linhas de M, ou seja,
nmero total de genes ).
> y<-topTable(fit,number=nrow(MA$M),adjust="fdr")
> names(y)
[1] "Block"
"Row"
"Column"
"ID"
[5] "Name"
"logFC"
"AveExpr"
"t"
[9] "P.Value"
"adj.P.Val" "B"
Como log2(fold-change) est na coluna 6 e os p-valores ajustados esto na coluna 10
utilizaremos essas colunas para criar o grfico.
> plot(y[,6],-log(y[,10],10),xlab="log2(Fold-Change)",
ylab="-log10(P.Value)",main="Volcano plot",cex=0.1,pch=19)
> abline(v=c(-1,1),col="blue")
> abline(h=-log(0.05,10),col="red")
37
5.32
5.29
5.22
5.20
5.18
5.02
4.97
4.96
4.89
4.80
4.76
4.71
4.63
4.63
4.62
4.58
4.27
4.13
3.91
3.76
3.75
1 Passo
Faa o download do Banco de Dados. Est disponvel para download na pgina:
http://bioinf.wehi.edu.au/limmaGUI/DataSets.html.
Aps o download extraia os arquivos.
2 Passo
Mudar o diretrio para a pasta onde foram extrados os arquivos do Banco de Dados.
> setwd("C:/RBRAS_2009/ApoAI")
> getwd()
[1] "C:/RBRAS_2009/ApoAI"
> dir()
[1] "ApoAI.gal"
"ApoAISpotTypes.txt"
[3] "ApoAITargets.txt"
"c1.spot"
[5] "c2.spot"
"c3.spot"
[7] "c4.spot"
"c5.spot"
38
[9]
[11]
[13]
[15]
[17]
[19]
"c6.spot"
"c8.spot"
"k2.spot"
"k4.spot"
"k6.spot"
"k8.spot"
"c7.spot"
"k1.spot"
"k3.spot"
"k5.spot"
"k7.spot"
3 Passo
Carregar o pacote limma:
> library(limma)
4 Passo
Carregar o objeto que mostra como foram feitas as hibridizaes (arquivo target).
> targets <- readTargets("ApoAITargets.txt")
> targets
SlideNumber Name FileName Cy3
Cy5
1
1
c1 c1.spot Ref wild type
2
2
c2 c2.spot Ref wild type
3
3
c3 c3.spot Ref wild type
4
4
c4 c4.spot Ref wild type
5
5
c5 c5.spot Ref wild type
6
6
c6 c6.spot Ref wild type
7
7
c7 c7.spot Ref wild type
8
8
c8 c8.spot Ref wild type
9
9
k1 k1.spot Ref ApoAI KO
10
10
k2 k2.spot Ref ApoAI KO
11
11
k3 k3.spot Ref ApoAI KO
12
12
k4 k4.spot Ref ApoAI KO
13
13
k5 k5.spot Ref ApoAI KO
14
14
k6 k6.spot Ref ApoAI KO
15
15
k7 k7.spot Ref ApoAI KO
16
16
k8 k8.spot Ref ApoAI KO
5 Passo
Carregar um objeto com as intensidades de expresso (ler os arquivos com extenso
.spot que contm os nveis de expresso dos genes).
Como as imagens desse experimento foram analisadas pelo software spot, os dados
podem ser lidos diretamente no limma. Deveremos indicar que esses dados so
provenientes do software spot, pois eles tm uma estrutura prpria desse software.
39
6 Passo
Acrescentar ao objeto RG a localizao, tipo e nome de cada gene (essas informaes
esto no arquivo com extenso .gal).
40
7 Passo
Como estamos utilizando sadas SPOT, o layout de impresso 4x4x19x21 tambm
precisa ser fixado. Faremos isso utilizando o arquivo GAL.
> RG$printer <- getLayout(RG$genes)
> RG$printer
$ngrid.r
[1] 4
$ngrid.c
[1] 4
$nspot.r
[1] 19
$nspot.c
[1] 21
attr(,"class")
[1] "PrintLayout"
8 Passo
Fazer a correo do background.
> MA <- normalizeWithinArrays(RG, method="none")
> names(MA)
[1] "targets" "source" "genes"
"printer" "M"
[6] "A"
9 Passo
Fazer MA-plots dos arrays:
> plotMA(MA, array=1)
> plotMA(MA, array=2)
.
.
.
41
.
.
.
.
.
.
.
.
.
42
.
.
.
.
.
.
Figura 10.8: Grficos MA dos grupos de impresso (blocos), sem normalizao, para os
arrays 1, 2, 15 e 16 respectivamente do experimento ApoAI.
11 Passo
Normalizao dentro do array:
> MA <- normalizeWithinArrays(RG)
Visualizao dos grficos aps a normalizao:
> plotPrintTipLoess(MA, array=1)
43
.
.
.
.
.
.
.
.
.
12 Passo
Fazer um boxplot de cada array.
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(16))
44
13 Passo
Fazer uma normalizao de escala entre os arrays.
> MA <- normalizeBetweenArrays(MA,method="scale")
Verificao da normalizao:
> boxplot(MA$M~col(MA$M),names=colnames(MA$M),col=rainbow(16))
Figura 10.10: Boxplot dos 16 arrays do experimento ApoAI aps a normalizao entre
os arrays.
45
14 Passo
Ajustaremos um modelo linear para cada gene.
> design <- cbind("Control-Ref"=1, "KOControl"=c(rep(0,8),rep(1,8)))
> design
Control-Ref KO-Control
[1,]
1
0
[2,]
1
0
[3,]
1
0
[4,]
1
0
[5,]
1
0
[6,]
1
0
[7,]
1
0
[8,]
1
0
[9,]
1
1
[10,]
1
1
[11,]
1
1
[12,]
1
1
[13,]
1
1
[14,]
1
1
[15,]
1
1
[16,]
1
1
> fit <- lmFit(MA,design)
> names(fit)
[1] "coefficients"
"stdev.unscaled"
[3] "sigma"
"df.residual"
[5] "cov.coefficients" "pivot"
[7] "genes"
"Amean"
[9] "method"
"design"
15 Passo
Calcular as estatsticas de teste usando a abordagem bayesiana emprica.
> fit <- eBayes(fit)
> names(fit)
[1] "coefficients"
[3] "sigma"
[5] "cov.coefficients"
[7] "genes"
[9] "method"
[11] "df.prior"
[13] "var.prior"
[15] "s2.post"
[17] "p.value"
[19] "F"
"stdev.unscaled"
"df.residual"
"pivot"
"Amean"
"design"
"s2.prior"
"proportion"
"t"
"lods"
"F.p.value"
46
16 Passo
Tabela de Genes Diferencialmente Expressos
> names(topTable(fit,coef=2,
[1] "Block"
"Row"
[5] "Name"
"CloneID"
[9] "t"
"P.Value"
number=30,adjust="fdr"))
"Column"
"ID"
"logFC"
"AveExpr"
"adj.P.Val" "B"
> options(digits=3)
> topTable(fit,coef=2, number=30,adjust="fdr")
2149
5356
540
4139
1739
1496
2537
4941
947
3920
6073
5693
1347
3510
654
4140
2009
954
5692
5986
1337
4943
5562
4892
634
1224
5343
1972
2352
834
Name
ApoAI,lipid-Img
CATECHOLO-METHYLTRAN
EST,HighlysimilartoA
EST,WeaklysimilartoC
ApoCIII,lipid-Img
est
ESTs,Highlysimilarto
similartoyeaststerol
EST,WeaklysimilartoF
ESTs,Weaklysimilarto
estrogenrec
Meox2
Musmusculustranscrip
MousemRNAfortypeIIDN
BLANK
APXL2,5q-Img
5'.gi|1285734|gb|W11
Caspase7,heart-Img
Olf-1
Cy3RT
psoriasis-associated
ADENOSINEA1RECEPTOR,
BLANK
FGF12A
MDB1376
5'.gi|1287131|gb|W12
NCAM-120,Brain-Img
BLANK
ESTs,Moderatelysimil
logFC AveExpr
t P.Value adj.P.Val
B
-2.930
12.46 -16.81 1.93e-12 1.23e-08 11.002
-1.678
12.92 -12.73 1.98e-10 6.32e-07 9.239
-2.822
12.28 -12.25 3.70e-10 7.88e-07 8.956
-0.883
12.60 -10.16 7.04e-09 1.12e-05 7.476
-0.828
13.74 -8.83 5.87e-08 7.49e-05 6.258
-0.866
12.23 -7.92 2.84e-07 3.03e-04 5.273
-0.911
13.63 -7.77 3.72e-07 3.39e-04 5.099
-0.793
13.29 -5.91 1.35e-05 1.08e-02 2.602
-0.504
10.54 -4.46 3.03e-04 2.15e-01 0.231
0.345
10.78
3.95 9.41e-04 5.59e-01 -0.667
0.416
9.78
3.93 9.86e-04 5.59e-01 -0.705
0.517
9.77
3.90 1.05e-03 5.59e-01 -0.755
-0.376
10.18 -3.73 1.52e-03 6.58e-01 -1.052
0.366
10.31
3.69 1.69e-03 6.58e-01 -1.135
-0.447
9.37 -3.67 1.75e-03 6.58e-01 -1.164
-0.377
9.78 -3.65 1.82e-03 6.58e-01 -1.195
0.426
9.63
3.65 1.83e-03 6.58e-01 -1.202
-0.276
12.15 -3.63 1.93e-03 6.58e-01 -1.244
0.441
9.77
3.62 1.96e-03 6.58e-01 -1.255
0.870
10.24
3.59 2.10e-03 6.70e-01 -1.310
-0.717
11.67 -3.56 2.24e-03 6.80e-01 -1.362
-0.371
11.73 -3.51 2.48e-03 7.03e-01 -1.445
0.396
8.66
3.50 2.53e-03 7.03e-01 -1.462
0.431
9.74
3.46 2.78e-03 7.32e-01 -1.537
-0.334
9.31 -3.37 3.44e-03 7.32e-01 -1.709
0.512
10.18
3.32 3.78e-03 7.32e-01 -1.785
-0.392
10.75 -3.30 3.99e-03 7.32e-01 -1.828
-0.331
8.43 -3.28 4.16e-03 7.32e-01 -1.862
-0.405
9.14 -3.28 4.18e-03 7.32e-01 -1.865
0.300
10.25
3.27 4.28e-03 7.32e-01 -1.884
17 Passo
Fazer um grfico Volcano.
> y<- topTable(fit,coef=2, number=nrow(MA$M), adjust="fdr")
47
> names(y)
[1] "Block"
[5] "Name"
[9] "t"
"Row"
"CloneID"
"P.Value"
"Column"
"ID"
"logFC"
"AveExpr"
"adj.P.Val" "B"
> plot(y[,7],-log(y[,10],10),xlab="log2(Fold-Change)",
ylab="-log10(P.Value)",main="Volcano plot",cex=0.2,pch=19)
X =
1 1
1 1
que especifica os contrastes:
48
A - Ref
j =
B- A
Observe que a referencia comum no existe, porm, no comando topTable
informamos que queremos o resultado referente ao coeficiente 2
(topTable(fit,coef=2)), que compara os grupos A e B.
Aps definirmos a matriz delineamento ajustamos um modelo linear com o comando
lmFit() e calculamos as estatsticas de teste e os p-valores com o comando
eBayes().
50