Академический Документы
Профессиональный Документы
Культура Документы
Professores responsveis:
Diogo Borges Provete (dbprovete@gmail.com)
Fernando Rodrigues da Silva (bigosbio@yahoo.com.br)
Thiago Gonalves Souza (tgoncalves.souza@gmail.com)
So Jos do Rio Preto, SP
Abril, 2011
SUMRIO
Objetivo do curso
10
Porque usar o R
10
O workspace do R e o Tinn-R
11
12
15
16
17
18
20
Distribuies estatsticas
18
Funes de probabilidade
23
24
Distribuio binomial
24
Distribuio Poisson
28
Distribuio Normal
32
36
65
2
Estimadores de riqueza
69
82
93
Leitura recomendada
118
OBJETIVO DO CURSO
Esta apostila foi elaborada para servir como material de apoio para um curso ministrado
no PPG Biolgia Animal da UNESP de S.J. Rio Preto. Nossa proposta com o curso e com esta
apostila de traar o melhor caminho (pelo menos em nosso ponto de vista) entre questes
ecolgicas e os mtodos estatsticos mais robustos para test-las. Guiar seus passos nesse
caminho (nem sempre linear) necessita que voc utilize um requisito bsico: o de utilizar seu
esforo para caminhar. O nosso esforo, em contrapartida, ser o de segurar suas mos, mantlo de p e indicar as melhores direes para que adquira certa independncia em anlises
ecolgicas. Todo o material utilizado durante este curso, incluindo scripts e pdf das aulas est
disponvel
em:
https://sites.google.com/site/diogoprovetepage/teaching.
Um
dos
nossos
informaes que infelizmente no sero abordadas neste curso. O foco do curso a explicao
de como cada teste funciona (teoria e procedimentos matemticos bsicos) e sua aplicao em
testes ecolgicos usando o programa R. Para tanto, o livro dos irmos Pierre e Louis Legendre
(Legendre & Legendre 1998) uma leitura que permite o aprofundamento de cada uma das
anlises propostas aqui. Alm disso, so de fundamental importncia para o amadurecimento
em anlises ecolgicas as seguintes leituras: Manly (1991), Pinheiro & Bates (2000), Scheiner
& Gurevitch (2001), Quinn & Keough (2002), Venables & Ripley (2002), Magurran (2004) e
Gotelli & Ellison (2004).
Unidade amostral
Variveis
Covariveis
Escala
Questes
Predies
Hipteses biolgicas
Hiptese nula
Hiptese alternativa
Hipteses estatsticas
TEORIA
Generalizao
Observao
Anlises
estatsticas
P, R2, F, t, r, Z, AIC,
AICc ...
DECISO
Figura 1. Estrutura lgica para integrar teorias/questes ecolgicas com anlises estatsticas (e
vice-versa). Lembre-se de que omitimos etapas importantes desta estrutura lgica, como o
delineamento experimental, a coleta e organizao dos dados, que esto alm do objetivo desta
apostila.
5
traz certa vertigem e averso. Em geral, alunos e professores consideram este passo um dos
mais (se no o mais) problemticos da pesquisa cientfica. Para ecologia e, especialmente,
ecologia de comunidades, mtodos analticos complexos e que consomem muito tempo para
serem realizados tornam a estatstica uma tarefa ainda mais distante de ser alcanada (e
compreendida). Infelizmente, a maioria opta por no cumprir esta tarefa. Em nossa opinio,
muito dessa averso estatstica se deve s disciplinas introdutrias do curso de graduao em
Cincias Biolgicas (a maioria, claro) estarem baseados em um contexto puramente estatstico
e com exemplos no-biolgicos, sem um programa que integre a ferramenta analtica a um
problema de pesquisa. De fato, entender exemplos estatsticos com uma lgica puramente
estatstica no parece uma tarefa trivial para alunos que buscam entender, por exemplo, como
processos populacionais, de comunidades e ecossistmicos determinam a distribuio das
espcies. Uma alternativa que pode facilitar a compreenso das anlises estatsticas para
bilogos (e para todos os cientistas!) a utilizao da lgica do mtodo cientfico tomando
como fator de deciso os resultados estatsticos. Ao final do curso, ou da leitura desta apostila,
gostaramos de que voc refletisse um pouco sobre as seguintes questes: (1) qual a principal
teoria do meu trabalho? (2) Qual a principal pergunta do meu trabalho? (3) Qual a unidade
amostral, a varivel dependente e independente do meu trabalho? A seguir, apresentamos a
seqncia lgica que sugerimos que seja aplicada a todo e qualquer teste que utilize estatstica
frequentista (interpretao objetiva da probabilidade baseada no critrio de falseamento de Karl
R. Popper). Esta interpretao , por sua vez, diferente da interpretao subjetiva da
probabilidade utilizada no arcabouo da estatstica Bayesiana e da Maxima Verossimilhana.
importante ressaltar ainda que a probabilidade (o fator de deciso dos frequentistas, i.e., o to
sonhado p < 0,05) representa uma classe de eventos (observados) comparados com uma srie
de repeties, e portanto o grau de incerteza relacionada a eventos. Todo este arcabouo dos
testes de hipteses estatsticas foi desenvolvido por Jerzy Neyman e Egon S. Pearson (Neyman
& Pearson, 1933) adotando a viso Popperiana de que uma observao no fornece confirmao
para uma teoria, devido ao problema da induo (para uma discusso mais detalhada veja os
cap. 2 e 3 de Godfrey-Smith, 2003). Ao contrrio, um teste deveria procurar refutar uma teoria,
somente desta forma haveria ganhado conhecimento. Ento, segundo o arcabouo de NeymanPearson, o teste estatstico procura rejeitar a hiptese nula, e no a confirmao da hiptese
alternativa. Numa regresso, por exemplo, se o teste verificar que o coeficiente significativo,
isto quer dizer que a inclinao da reta diferente de zero, no entanto a interpretao biolgica
de uma relao linear entre as duas variveis deve ser feita luz das predies da teoria que se
pretende testar. Por outro lado, os testes de modelos lineares generalizados em mistos utiliza a
6
Em geral, questes no devem ser muito gerais (e.g., qual o efeito das mudanas globais
nas florestas?) por que dificultam a compreenso do que efetivamente voc est testando.
prefervel que suas hipteses sejam mais gerais (tericas) e suas questes mais especficas
(referidas como operacionais daqui pra frente), para que voc e o seu leitor saibam o que vai ser
testado efetivamente e qual teste dever ser empregado. Por exemplo, um pesquisador tem a
seguinte hiptese: mudanas globais afetam a dinmica e estrutura de florestas; para testar
esta hiptese este pesquisador levantou duas questes operacionais: (1) o aumento da
temperatura modifica a composio de espcies vegetais? (2) O aumento da temperatura
aumenta a ocorrncia de espcies exticas? Com essas questes operacionais fica mais fcil
compreender qual sua varivel independente (neste caso temperatura) que representa a
mudana climtica e que afeta sua varivel dependente (dinmica e estrutura de florestas)
que foi operacionalizada em duas variveis composio de espcies vegetais e ocorrncia de
espcies exticas. Alm disso, muito importante saber qual a unidade amostral do seu
trabalho. No exemplo acima, o pesquisador coletou em 30 reas de floresta em diversos pontos
da Amrica do Norte. Desse modo, os pontos seriam unidades amostrais (as linhas em sua
planilha) e as variveis dependentes e independentes seriam consideradas as colunas de sua
anlise. bastante importante ter em mente o formato padro das planilhas utilizadas na maioria
das anlises ecolgicas (Tabela 1). Alguns pacotes ou funes do R utilizam como padro a
matriz transposta da Tabela 1.
Aps a definio das hipteses/questes e de suas predies, preciso pensar na
estatstica (lembra-se que entre os dois preciso coletar e organizar os dados!). A estatstica
necessria para descrever padres nos nossos dados e para decidir se predies das hipteses so
verdadeiras ou no. Para comear a anlise estatstica preciso definir as hipteses estatsticas,
i.e., hiptese nula (H0) e hiptese alternativa (H1). A hiptese nula representa a ausncia de
padro na hiptese cientfica (i.e., as diferenas entre grupos no maior do que o esperado ao
acaso), enquanto a hiptese alternativa mostra exatamente a existncia do padro (notem que
uma hiptese nula pode ter uma ou mais hipteses alternativas). Por exemplo, a hiptese nula da
Fig. 2 que a densidade de rvores da zona ripria no afeta a riqueza de macro-invertebrados
aquticos, enquanto a hiptese alternativa de que a densidade de rvores afeta positivamente a
riqueza desses organismos. Neste exemplo, o pesquisador comparou grupos de riachos com
densidades diferentes (e.g., variando de 0 a 10 rvores/m2) e encontrou que riachos com
florestas riprias com densidade de rvores acima de 7/m2 possuem 20% mais macroinvertebrados aquticos (P = 0,01). Desse modo, a hiptese nula de ausncia de padro
rejeitada. Para decidir se a hiptese nula pode ser aceita ou no, os testes estatsticos utilizam
8
um valor de probabilidade. Como posso dizer que a mdia de um grupo diferente da mdia de
outro grupo ou que o aumento na varivel X representa um aumento na varivel Y? Como posso
diferenciar se essas diferenas so reais ou frutos do acaso? O fator de deciso para a maioria
dos testes estatsticos o valor de P (probabilidade). O valor de P mede a probabilidade de que
a hiptese nula (a ausncia de um padro) seja verdadeira. Desse modo, valores de P muito
prximos de zero indicam que a probabilidade de que a hiptese nula seja verdadeira muito
baixa e que possvel considerar cenrios alternativos, ou seja, aceitar a hiptese alternativa. No
exemplo acima, a chance de a hiptese nula (a zona ripria no afeta a riqueza de macroinvertebrados) ser verdadeira de 1 em 100 (P = 0,01). Se o valor de P fosse 0,76 a chance de a
hiptese nula ser verdadeira seria de 76 em 100. O nmero mgico considerado como valor
crtico de deciso de 0,05. Desse modo, se a probabilidade de a hiptese nula ser verdadeira
em um teste especfico for 0,05 (resultado significativo), decidimos por rejeit-la. Do
Tabela 1. Planilha modelo para anlises estatstica, com unidades amostrais nas linhas, e variveis dependentes e independentes
nas colunas
contrrio, valores maiores do que 0,05 indicam que a hiptese nula deve ser aceita. A fixao do
v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m
valor de significncia de 5% foi puramente nominal, um consenso que visou o equilbrio entre o
unid.amostral1
2.593
3.789
n1
2.177
3.318
m1
unid.amostral3
2.190 (2004, p.
1.828
n3 livro preciso
5.007 dedicar uma
3.128
3
Gotelli & Ellison
96). Neste mesmo
ateno especialmaos
unid.amostral4
2.883
3.207
n4
5.479
4.250
m4
erros atribudos ao teste de hipteses (erros do tipo I e II), que tm importncia fundamental no
unid.amostral5
1.828
processo analtico.
unid.amostral6
3.657
1.810
n5
1.404
3.298
m5
2.760
n6
2.614
3.491
m6
unid.amostral7
3.487
1.602
n7
2.014
1.520
m7
Tabela 1. Planilha modelo
para anlises3.206
estatstica, com unidades
linhas, e variveis4.081
dependentes e independentes
unid.amostral8
3.783
n8 amostrais nas1.970
m8
nas
colunas
unid.amostral9
1.643
4.069
n9
3.310
3.947
m9
v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m
unid.amostral10
3.288
3.728
n10
3.214
2.665
m10
unid.amostral1
2.593
3.789
n1
2.177
3.318
m1
unid.amostral11
2.856
4.234
n11
2.862
3.026
m11
unid.amostral2
2.326
1.000
n2
2.910
2.575
m2
unid.amostral12
3.608
3.032
n12
2.925
3.993
m12
unid.amostral3
2.190
1.828
n3
5.007
3.128
m3
unid.amostral13
3.611
3.178
n13
2.403
3.112
m13
unid.amostral4
2.883
3.207
n4
5.479
4.250
m4
unid.amostral14
2.514
2.162
n14
4.532
3.876
m14
unid.amostral5
1.828
1.810
n5
1.404
3.298
m5
unid.amostral15
3.716
0.851
n15
2.935
4.154
m15
unid.amostral6
3.657
2.760
n6
2.614
3.491
m6
unid.amostral16
2.344
1.706
n16
1.480
2.099
m16
unid.amostral7
3.487
1.602
n7
2.014
1.520
m7
...
...
...
...
...
...
...
unid.amostral8
3.783
3.206
n8
1.970
4.081
m8
unid.amostral n i
n1
n2
np
m1
m2
mq
unid.amostral9
1.643
4.069
n9
3.310
3.947
m9
unid.amostral10
3.288
3.728
n10
3.214
2.665
m10
unid.amostral11
2.856
4.234
n11
2.862
3.026
m11
unid.amostral12
3.608
3.032
n12
2.925
3.993
m12
unid.amostral13
3.611
3.178
n13
2.403
3.112
m13
unid.amostral14
2.514
unid.amostral15
3.716
INTRODUO
AO nAMBIENTE
DE PROGRAMAO
R
2.162
4.532
3.876
14
0.851
n15
2.935
4.154
m14
m15
unid.amostral16 O objetivo
2.344 desta seo
1.706 apresentarn16
1.480 para qualquer
2.099pessoa livrar-se
m16do
aspectos bsicos
...
...
...
...
...
...
...
receio inicial e comear a usar o R para efetuar anlise de dados. Todo processo de
unid.amostral n i
n1
n2
np
m1
m2
mq
aprendizagem torna-se mais efetivo quando a teoria combinada com a prtica, ento ns
recomendamos fortemente que voc leitor acompanhe os exerccios desta apostila ao mesmo
9
tempo que os executa no seu computador, e no s os leia passivamente. Ainda, por motivo de
tempo e espao no abordaremos todas as questes relacionadas ao uso do R nesta apostila.
Logo, aconselhamos que o leitor ao final das aulas voc consulte o material sugerido para poder
se aprofundar nas questes abordadas.
diversas
lnguas
(http://cran.r-project.org/other-docs.html)
para
serem
baixados
gratuitamente.
Como o R um software livre, no existe a possibilidade de o usurio entrar em contato
com um servio de suporte de usurios, muito comuns em softwares pagos. Ao invs disso,
existem vrias listas de correio eletrnico que fornecem suporte comunidade de usurios
(http://www.r-project.org/mail.html). Ns, particularmente, recomendamos o ingresso nas
seguintes listas: R-help, R-sig-ecology, e R_BR (http://www.leg.ufpr.br/doku.php/software:rbr).
Este ltimo representa um grupo de usurios brasileiro do programa R. Ainda, existem vrios
blogs e pginas com arquivos de ajuda e planilhas com comandos, alguns deles podem ser
baixados aqui: http://www.nceas.ucsb.edu/scicomp/software/r e http://devcheatsheet.com/tag/r/.
PORQUE USAR O R?
programa execute ao invs de simplesmente pressionar um boto. E vem da uma das grandes
vantagens em se usar o R: o usurio tem total controle sobre o que est acontecendo e tambm
tem de compreender totalmente o que deseja antes de executar uma anlise.
Na pgina pessoal do Prof. Nicolas J. Gotelli existem vrios conselhos para um
estudante iniciante de ecologia. Dentre esses conselhos, o Prof. Gotelli menciona que o domnio
de uma linguagem de programao uma das mais importantes, porque d liberdade ao eclogo
para executar tarefas que vo alm daquelas disponveis em pacotes comerciais. Alm disso, a
maioria das novas anlises propostas nos mais reconhecidos peridicos em ecologia
normalmente so implementadas em linguagem R, e os autores incluem normalmente o cdigo
fonte no material suplementar dos artigos, tornando a anlise acessvel. A partir do momento
que essas anlises ficam disponveis (seja por cdigo fornecido pelo autor ou por
implementao em pacotes pr-existentes), mais simples entendermos a lgicas de anlises
complexas, especialmente as multivariadas, com nossos prprios dados realizando-as passo a
passo. Sem a utilizao do R, normalmente temos que contatar os autores que nem sempre so
acessveis.
Uma ltima vantagem que por ser um software livre, a citao do R em artigos
permitida e at aconselhvel. Para saber como citar o R, digite citation()na linha de
comando. Para citar um pacote especfico, digite citation()com o nome do pacote entre
aspas dentro dos parnteses. Neste ponto, esperamos ter convencido voc leitor de que aprender
a utilizar o R tem inmeras vantgens, vai ser difcil no comeo mas continue e perceber que o
investimento vai valer pena no futuro.
O WORKSPACE DO R E O TINN-R
Nas linhas de comandos do R haver um sinal de >, que indica o prompt, representando
que o R est pronto para receber comandos. Se uma linha de comando no est completa,
aparecer um sinal de +, indicando que voc poder continuar a digitar aquela linha. Para que o
prompt aparea novamente, pressione Esc. Para que os comandos sejam executados, pressione
Enter. Para criar objetos, podemos utilizar os smbolos -> ou = . Estes smbolos representam
que queremos guardar a informao dentro do objeto.
Neste curso iremos utilizar o R em conjunto com um editor, o Tinn-R. Existem vrios
editores para a linguagem R, como o RStudio, Eclipse etc. (veja uma lista no exaustiva em
http://en.wikipedia.org/wiki/R_(programming_language)), mas preferimos o Tinn-R por ser de
mais fcil utilizao e por possibilitar o destaque das sintaxes de programao, diminuindo erros
de digitao to comuns. E ainda, possvel salvar os scripts para continuar a trabalhar neles
posteriormente. Para baix-lo, v at http://www.sciviews.org/Tinn-R/ e faa o download do
programa. Assim que o instalar, somente ser necessrio clicar no cone do Tinn-R e o R abrir
automaticamente. Toda vez que terminar de escrever uma linha de comando, pressione
Ctrl+Enter para envi-la para o R.
Para saber qual o diretrio de trabalho do R, ou seja, em qual pasta o programa salvar
arquivos, digite:
>get.wd()
possvel mudar o diretrio de trabalho do R de acordo com as necessidades do
usurio. Ento, como exerccio para este curso, clique em Arquivo>mudar dir. e defina o
diretrio para uma pasta deste curso dentro de Meus documentos. Ns recomendamos mudar o
diretrio sempre que um novo conjunto de anlises for feito como, por exemplo, quando for
mudar das anlises do primeiro captulo da sua dissertao para o segundo, escolha a pasta onde
estaro os dados deste captulo como diretrio de trabalho.
OS TIPOS DE OBJETOS: CRIAO E MANIPULAO
Existem cinco classes de objetos na linguagem R: vetor, matriz, data frame, funes e
lista.
Vetor
Existem trs tipos de vetores: o vetor de caracteres, numrico e o lgico.
12
Vetor numrico
>a<-1
>c(1,2,3,4,5)->b
>dados.campo=seq(1,10,2)#cria uma sequncia de nmeros de 1 at
10, de 2 em 2
>x=seq(3,10) #cria uma sequncia de nmeros de 3 at 10
>sample(x, 2, replace=T)
>mata.1=rep(1:2, c(10,3))#repete o nmero 1 dez vezes e o nmero
2 trs vezes
>exemplo=c(1:10)
>length(exemplo)
A linguagem R case sensitive, o que quer dizer que ele distingue entre letras
minsculas e maisculas. Desse modo, fique atento ao criar um objeto e digite-o exatamente
como quando voc o criou. Ainda, no use acentos, til, crases etc. ao dar nome aos objetos.
Vetor de caracter
Tambm possvel criar vetores de caracteres, ou seja, com nomes ao invs de
nmeros. No R, sequncias de caracteres textuais so sempre delimitados por aspas:
>dados.pessoais=c(nome=seuNome, nascimento=aniversario,
estadoCivil=solteiro)
>dados.pessoais
Vetor lgico
Vetores lgicos so quantidades lgicas manipuladas no R. Estes vetores so bastante
teis em programao. Os elementos de um vetor lgico so TRUE, FALSE ou NA (not
available). Abaixo esto exemplos de condies criadas, quando a condio satisfeita, o R
retorna o valor TRUE, quando a mesma no satisfeita, retorna FALSE
>is.factor(x)
>FALSE
>is.matrix(xy)
>FALSE
>a<-1
13
>a<1
>a==1
>a>=1
>a!=2
Fator
Um fator utilizado para criar uma varivel categrica, muito comum em anlises
estatsticas. Para criar um fator, digite:
>dados=factor(c(baixo, menos baixo,mdio ,alto))#notem
que utilizamos um acento em mdio, isto possvel porque esta
palavra aqui tratada como um caracter (por isso as aspas) e
no como um objeto
>is.factor(dados)#testa a converso
Matriz
Uma matriz um arranjo bi-dimensional de vetores, todos os vetores devem ser do
mesmo tipo (numrico ou de caracteres). Veja um exmplo abaixo de como criar uma matriz e
manipul-la:
>xy=matrix(1:12, nrow=3)
>rownames(xy)=LETTERS[1:3]
>colnames(xy)=c(mata.1, mata.2, mata.3, mata.4)
>xy
>t(xy)#transpe a matriz
>class(xy)
>xy[,1] #para acessar a primeira coluna de uma matriz
>xy[1,] #para acessar a primeira linha de uma matriz. Veja que
as chaves representam [linha, coluna]
>head(xy) #para acessar as primeiras linhas de uma matriz
>tail(xy) #para acessar as ltimas linhas de uma matriz
>fix(xy) #edita uma matriz ou data frame
>str(xy)#avalia a estrutura do objeto
>summary(xy)
14
Data frame
O mesmo que uma matriz, mas aceita vetores de tipos diferentes. Este o tipo mais
comum de objeto que iremos usar ao longo deste curso. Um data frame permite incluir num
mesmo objeto vetores numricos e de caracteres, por exemplo:
O R tambm pode ser utilizado como uma calculadora. Faa algumas operaes
aritmticas com os objetos que voc acabou de criar, por exemplo:
15
>a*2
>b*3 #observe o que aconteceu? Como foi feita essa operao?
>b[1]*3 #e agora?
>b/4
>2+3
>3^3
>log(2)#observe o que aconteceu? Este a funo que calcula o
logaritmo neperiano (ln).
>log10(2) #compare o resultado anterior com este. So
diferentes?
>sqrt(3)
>sum(a)
>mean(b)
>sum(b)/length(a)
>pi
>cor(a,b)
>cor.test(a,b)
?cor.test
Um importante passo para ter certa intimidade com a linguagem R aprender a usar a
ajuda de cada funo. Alm disso, existem uma funo (RSiteSearch) e um pacote (sos) que
tambm auxiliam o usurio a realizar uma anlise quando no se sabe qual (e se) a mesma j foi
implementada no R. Para utilizar o RSiteSearch, digite um tema ou o nome de uma anlise entre
aspas no argumento da funo, como no exemplo abaixo:
>RSiteSearch("analysis of variance")
A funo ir buscar na pgina do R na internet qual(is) funo est(o) disponvel(is) para
implementar aquela dada anlise.
Se o pacote sos estiver instalado e carregado, basta digitar:
>???analysis of variance
e o navegador de internet abrir uma pgina mostrando qual(is) funes executam aquela
anlise. Tambm necessrio acesso internet. Outra ferramenta de busca a pgina
16
desempenham
funes
especficas
que
precisam
ser
instalados
carregados
>install.packages(c(vegan, sos))
e para carreg-los, utilize:
>library(vegan)
?vegan
Sempre que tiver de usar as funes de um pacote ser preciso carreg-lo usando a
funo library(). A maioria dos pacotes vem com bancos de dados que podem ser
acessados pelo comando data(). Esses bancos de dados podem ser usados para testar as
funes do pacote. Se estiver com dvida na maneira como voc deve preparar a planilha para
realizar uma anlise especfica, entre no help da funo e veja os conjuntos de dados que esto
no exemplo desta funo.
18
Exerccios
1) Crie 2 conjuntos de dados de 30 unidades amostrais cada com distribuio normal, mdia 1 e
desvio padro 2.5 e descubra como calcular um teste t para este conjunto, tentem:
>?rnorm
>?t.test
2) Crie 4 vetores numricos de qualquer tamanho com a funo c(), voc tambm pode
combinar as funes seq() e c() se desejar.
a) calcule o comprimento de cada um desses vetores e guarde o resultado num outro vetor.
b) calcule o somatrio dos componentes de cada vetor e guarde o valor num outro vetor.
c) utilize os itens b) e c) para calcular a mdia dos valores de cada um dos vetores.
3) Calcule novamente a mdia dos vetores, agora utilizando a funo mean().
4) Digite ls() e recupere o objeto dados.campo, selecione:
a) os cinco primeiros elementos deste objeto;
b) todos os elementos MENOS os 2 primeiros;
c) o 3 elemento;
d) todos menores que 4.
5) Crie duas sequncias de 1 a 20 com intervalo de 1. Atribua nomes diferentes a cada uma.
7) Utilize a funo cbind() para unir os dois vetores. Nomeie as colunas de a at u utilizando
o vetor letters, e as duas colunas com o vetor LETTERS j disponveis no R.
8) Recupere o objeto xy que criamos h pouco, ele uma matriz.
a) Multiplique-o por um escalar qualquer, por exemplo 3, veja o que acontece;
b) Divida o valor encontrado por 4, observe o que acontece e tente se lembrar das aulas de
lgebra de matrizes do 3 colegial.
c) acesse o elemento a3,1.
19
O pacote lattice permite fazer grficos univariados e multivariados de alto nvel. Alm
disso, ele permite criar objetos da classe trellis que podem ser exportados e modificados.
xyplot()#funo do lattice para grficos univariados
bwplot()# plota um boxplotcoplot()#plota vrios grficos com
estilos diferentes
Exerccios
4) Crie um conjunto aleatrio de nmeros com distribuio normal e d nome a este objeto.
Utilize a funo hist() para plotar um grfico com as barras em cor cinza.
a) Utilize a funo points() para criar um ponto em formato de crculo no eixo x no lugar da
mdia.
b) Agora crie dois pontos verdes em formato de tringulo verde invertido no lugar dos 2 quantis.
c) Crie uma legenda no canto superior esquerdo com os smbolos utilizados (tringulo e
crculo), com os significado (mdia e quantil).
d) Pinte de vermelho e verde os smbolos.
Variveis aleatrias:
A varivel aleatria (X) uma varivel que tem um valor nico (determinado
aleatoriamente) para cada resultado de um experimento. A palavra aleatria indica que em geral
s conhecemos aquele valor depois do experimento ser realizado.
Exemplos de variveis aleatrias:
a. Nmero de presas capturadas em um determinado dia;
b. Comprimento de um peixe adulto selecionado aleatoriamente.
As variveis aleatrias podem ser discretas ou contnuas.
22
Varivel aleatria contnua: usualmente medidas contnuas como peso, altura, distncia, pH,
biomassa, etc.
-
Funodensidadedeprobabilidade
Funomassadeprobabilidade
Figura 3. Funes de probabilidade para (a) varivel discreta e (b) varivel contnua.
23
FUNESDEDISTRIBUIOACUMULADA
A funo de distribuio acumulada igual probabilidade de que a varivel
aleatria X assuma um valor inferior ou igual a determinado x (Figura 4).
!
(1 )!!!
24
Exemplo
H uma probabilidade de 0,30 de um girino, ao forragear em um corpo dgua, ser
predado por uma larva de odonata. Determine as probabilidades de que, dentre seis girinos que
esto forrageando no corpo dgua, 0, 1, 2, 3, 5 ou 6 sejam predados. Trace um histograma
dessa distribuio de probabilidade.
Soluo
Admitindo que a escolha seja aleatria, fazemos n = 6, q = 0,30 e, respectivamente, X = 0, 1, 2,
3, 4, 5 e 6 na frmula da distribuio binomial:
=
6
0
6
p(0) = (0,30 ) (0,70 ) 0,118
0
6
1
5
p(1) = (0,30 ) (0,70 ) 0,303
1
6
2
4
p(2) = (0,30 ) (0,70 ) 0,324
2
!
(1 )!!!
6
4
2
p(4) = (0,30 ) (0,70 ) 0,060
4
6
5
1
p(5) = (0,30 ) (0,70 ) 0,010
5
6
6
0
p(6) = (0,30 ) (0,70 ) 0,001
6
6
3
3
p(3) = (0,30 ) (0,70 ) 0,185
2
Nmerodegirinospredados
25
Para descobrirmos qual a probabilidade de que cinco ou menos girinos (0, 1, 2, 3, 4) sejam
predados, precisamos digitar o seguinte comando:
26
Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando:
O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:
>plot(pbinom(seq(0,6, by =1), size = 6, prob = 0.3),type ="h",
xlab = "Nmero de girinos predados", ylab = "Probabilidade",
main = "Funo de probabilidade acumulada")
27
DISTRIBUIOPOISSON
Na teoria da probabilidade e na estatstica, a distribuio de Poisson uma distribuio
de probabilidade discreta. Expressa a probabilidade de uma srie de eventos ocorrem em um
perodo fixo de tempo, rea, volume, quadrante, etc. Esta distribuio segue as mesmas
premissas da distribuio binomial: i) as tentativas so independentes; ii) a varivel aleatria
o nmero de eventos em cada amostra; e iii) a probabilidade constante em cada intervalo.
A probabilidade de que existam exatamente k ocorrncias (k sendo um nmero inteiro,
no negativo, k = 0, 1, 2, ...) :
; =
!! ! !! !
!
!
k! o fatorial de k,
um nmero real, igual ao nmero esperado de ocorrncias que ocorrem num dado
intervalo de tempo.
Se a X ~ Pois(), isto , X uma varivel aleatria com distribuio Poisson, ento o valor
esperado de X
=
e a varincia
=
Exemplo
Suponha que um pesquisador registrou o nmero de visitas flor de uma planta durante um
perodo de 15 minutos. O nmero mdio de borboletas que visitam no perodo de 15 minutos
10 (). Determine a probabilidade de que cinco borboletas visitem a flor em 15 minutos. A
probabilidade de uma borboleta visitar a mesma para quaisquer dois perodos de tempo de
igual comprimento. Trace um histograma dessa distribuio de probabilidade.
28
Soluo
Admitindo que a visita ou no visita de uma borboleta em qualquer perodo de tempo
independente da visita ou no visita de uma segunda borboleta em qualquer outro perodo de
tempo, fazemos = 10 e X = 5 na frmula da distribuio poisson:
P( X = 5) ==
P( X = 5) ==
10 5 e 10
= 0,0378
5!
10 5 e 10
= 0,0378
5!
0.04
0.06
0.08
0.00
0.02
Probabilidade
0.10
0.12
10
12
14
Nmero de visitas
30
Finalmente nmeros aleatrios podem ser gerados de acordo com a distribuio Poisson com o
seguinte comando:
>rpois (n, lambda)
Por exemplo, para gerar dez nmeros aleatrios de uma distribuio Poisson com mdia ( ) 22.
>rbinom(10,
lambda = 22)
Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando:
>plot(dpois(seq(1,10, by =1), lambda = 10), type ="h",xlab =
"Nmero
de
visitas",
ylab
"Probabilidade",
main
"Funo
massa de probabilidade")
O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:
>plot(ppois(seq(1,10, by =1), lambda = 10),type ="h", xlab =
"Nmero
visitas",
ylab
"Probabilidade",
main
"Funo
de
probabilidade acumulada")
Podemos usar a distribuio de Poisson como uma aproximao da distribuio
Binomial quando n, o nmero de tentativas, for grande e p ou 1 p for pequeno (eventos
raros). Um bom princpio bsico usar a distribuio de Poisson quando n 30 e n.p ou n.(1p) < 5%. Quando n for grande, pode consumir muito tempo em usar a distribuio binomial e
tabelas para probabilidades binomiais, para valores muito pequenos de p podem no estar
disponveis. Se n(1-p) < 5, sucesso e fracasso devero ser redefinidos de modo que Np < 5 para
tornar a aproximao precisa.
>plot(dbinom(seq(1,50,
by
=1),
size
=50,
prob
0.09),
type
31
DISTRIBUIONORMAL
A distribuio normal uma das mais importantes distribuies com probabilidades
contnuas. Conhecida tambm como Distribuio de Gauss ou Gaussiana. Esta distribuio
inteiramente descrita por parmetros de mdia () e desvio padro (), ou seja, conhecendo-se
estes parmetros consegue-se determinar qualquer probabilidade em uma distribuio Normal.
A importncia da distribuio normal como um modelo de fenmenos quantitativos devido em
parte ao Teorema do Limite Central. O teorema afirma que "toda soma de variveis aleatrias
independentes de mdia finita e varincia limitada aproximadamente Normal, desde que o
nmero de termos da soma seja suficientemente grande" (Fig. 7). Independentemente do tipo de
distribuio da populao, na medida em que o tamanho da amostra aumenta, a distribuio das
mdias amostrais tende a uma distribuio Normal.
Figura 7. Grficos demonstrando que mesmo com um grande nmero de variveis aleatrias, as
distribuies tm um padro aproximadamente normal.
A distribuio binomial B(n,p) aproximadamente normal N(np,np(1 p)) para
grande n e para p no to prximos de 0 ou 1. Enquanto que a distribuio Poisson Pois()
aproximadamente Normal N(, ) para grandes valores de .
A funo de densidade de probabilidade da distribuio normal com mdia e varincia 2
(de forma equivalente, desvio padro ) assim definida,
f ( x) =
1
2
(x )
2 2
e . Para isso
P (a < x < b ) =
a
( x ) / 2
dx
X ~ N ( , ) Z =
~ N (0,1)
Exemplo
Qual a probabilidade de que um peixe capturado aleatoriamente tenha 20,15 cm ou mais,
sabendo que a mdia da populao 17,1 cm e o desvio padro de 1,21 cm? Trace um
histograma dessa distribuio de probabilidade.
Soluo
ZL =
20.15 17.1
= 2.52
1.21
ZU =
Para descobrir a probabilidade de se capturar um peixe maior que 20,15 cm, voc precisa
procurar pelo valor de Z = 2.52 em uma tabela de distribuio Z:
P(X20.15)=P(Z2.52)=.0059(1/170)
>help(Normal)
Quando tem-se a mdia e o desvio padro da populao voc pode utilizar o comando abaixo
para descobrir a probabilidade para qualquer intervalo.
>pnorm(x, mean, sd, lower.tail = TRUE) ## Ficar atento para
quando voc quer medir intervalo acima da mdia ou abaixo
dela. Quando for acima, voc precisa substituir o TRUE
por FALSE
No caso do exemplo acima, para descobrirmos qual a probabilidade de se capturar um peixe
maior que 20,15 cm, precisamos digitar o seguinte comando:
>pnorm (20.15, mean = 17.1, sd = 1.21, lower.tail = FALSE)
0.0058567
Imagine que se tenha uma populao com mdia 100 cm e um desvio padro de 10 cm, para
descobrir o intervalo associado com 95% de probabilidade voc deve usar o seguinte comando:
>qnorm (0.95, mean = 100, sd = 10)
116.45
Para descobrir a probabilidade de se obter valores entre 80 e 120 cm, deve-se usar o seguinte
comando:
>pnorm(120, mean=100, sd=10) - pnorm(80, mean=100, sd=10)
0.95449
Voc pode plotar o grfico da funo densidade de probabilidade atravs do seguinte
comando:
x = seq(70,130,length = 200)
y = dnorm(x, mean=100, sd=10)
plot(x,
y,
type="l",
lwd=2,
col="red",
ylab
O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:
34
x = seq(70,130,length = 200)
y = pnorm(x, mean=100, sd=10)
plot(x,
y,
type="l",
lwd=2,
col="red",
ylab
35
15%
50%
x1
20%
x2
15%
x3
Seja,
x1 o valor do peso que separa os 15% mais leves dos demais,
x2 o valor do peso que separa os 65% mais leves dos demais,
x3 o valor do peso que separa os 85% mais leves dos demais.
GeneralizedLinearModels(GLM)ModelosLinearesGeneralizados
Muitos mtodos estatsticos populares so baseados em modelos matemticos que
assumem que os dados seguem uma distribuio Normal, dentre eles a anlise de varincia e a
36
37
3. A relao entre o valor mdio de Yi e a parte sistemtica. Esta tambm chamada de ligao
entre a mdia e a parte sistemtica (Tabelas 2 e 3).
Tabela 2. Funes de ligaes para GLM.
Likelihood
Os passos finais do processo de modelagem so constitudos pela estimativa dos
parmetros a partir dos dados e teste dos modelos uns contra os outros. Estimar os parmetros
dos modelos significa achar os parmetros que fazem o modelo se ajustar melhor aos dados
coletados. Nosso goodness-of-fit ser baseado na probabilidade (likelihood) - a probabilidade de
se encontrar nossos dados dado um modelo particular. Queremos a estimativa da mxima
verossimilhana (maximum likelihood estimate) dos parmetros aqueles valores dos
parmetros que fazem os dados observados mais provveis de terem acontecido. Uma vez que
38
as observaes so independentes, a juno das probabilidades dos dados totais o produto das
probabilidades de cada observao individual. Por convenincia matemtica, sempre
maximizamos o logaritimo das probabilidades (log-likelihood) ao invs da probabilidade direto.
LikelihoodRatioTest
Os modelos GLM so ajustados aos dados pelo mtodo de mxima verossimilhana,
proporcionando no apenas estimativas dos coeficientes de regresso, mas tambm estimando
erros padres dos coeficientes. Ns podemos utilizar a likelihood ratio test (LRT) para escolher
modelos em certas situaes. A LRT compara dois modelos aninhados, testando se os
parmetros aninhados do modelo mais complexo diferem significativamente do valor nulo. Um
modelo mais simples (com menos parmetros) aninhado em outro, mais complexo (com mais
parmetros), se o modelo complexo for reduzido para o mais simples pela retirada de um dos
parmetros. Em outras palavras, ele testa se h necessidade de se incluir um parmetro extra no
modelo para explicar os dados. O residual deviance para um GLM Dm = 2 (loge Ls - loge Lm),
onde Lm a mxima verossimilhana sob o modelo em questo, e Ls a mxima
verossimilhana sob um modelo saturado (modelo mais complexo) que dedica um paramtro
para cada observao e consequentemente ajusta os dados o mais prximo possvel. O residual
deviance anlogo soma dos quadrados dos resduos para um modelo linear. Em GLM para o
qual o parmetro de disperso fixado em 1 (binomial e Poisson), a razo da verossimilhana
estatstica do teste a diferena dos residual deviance para os modelos aninhados. LRT
apresenta uma distribuio de qui-quadrado com k1- K0 graus de liberdade. Para GLM em que
existe um parmetro para estimar a disperso (Gaussian, Quasi-poisson e Gamma), podemos
comparar modelos aninhados por um teste F.
39
2( + 1)
1
onde k denota o nmero de parmetros do modelo. Assim, AICC AIC com uma maior
penalizao para os parmetros extra.
Burnham & Anderson (2002) recomendam o uso do AICC, ao invs de AIC, se n for pequeno ou
k grande. Uma vez que o valor de AICc converge para AIC quando n se torna grande, AICc
geralmente devem ser empregados independentemente do tamanho da amostra. Usar AIC, em
vez de AICC, quando n no muitas vezes maior do k2 aumenta a probabilidade de seleo dos
modelos que tm muitos parmetros (overfitting).
Uma outra comparao entre os modelos pode ser baseada no clculo do Peso do Akaike
(Akaike weigths - Buckland et al. 1997). Se existem M modelos candidatos, ento o peso para o
modelo i :
(/2)
1
2
onde a diferena entre o valor do AIC entre modelo i e os modelos restantes. Os pesos do
Akaike calculados desta forma so usados para medir a fora da evidncia em favor de cada um
dos modelos, com um grande peso indicando alta evidncia.
Dez orientaes para Seleo de Modelo
1) Cada modelo deve representar uma hiptese (interessante) especfica a ser testada.
2) Mantenha os sub-grupos de modelos candidatos curtos. desaconselhvel considerar tantos
modelos quanto o nmero de dados que voc tem.
40
3) Verificar a adequao do modelo: use o seu modelo global (modelo mais complexo) ou
modelos subglobais para determinar se as hipteses so vlidas. Se nenhum dos modelos se
ajustar aos dados, critrios de informao indicaro apenas o mais parcimonioso dos modelos
mais pobres.
4) Evitar a dragagem de dados (e.g., procura de padres aps uma rodada inicial de anlise).
5) Evite modelos overfitted.
6) Tenha cuidado com os valores faltantes (NA). Lembre-se de que valores faltantes somente
para algumas variveis alteram o tamanho do conjunto de dados e amostras dependendo de qual
varivel includa em um dado modelo. sugirido remover casos omissos antes de iniciar a
seleo de modelos.
7) Use a mesma varivel resposta para todos os modelos candidatos. inadequado executar
alguns modelos com varivel resposta transformados e outros com a varivel no transformada.
A soluo usar uma funo de ligao diferente para alguns modelos (e.g., identity vs. log
link).
8) Quando se trata de modelos com overdispersion, utilize o mesmo valor de c-hat para todos os
modelos em um conjunto de modelos candidatos. Para modelos binomiais com trials > 1 ou
com Poisson GLM, deve-se estimar o c-hat do modelo mais complexo (modelo global). Se c hat
> 1, deve-se usar o mesmo valor para cada modelo do conjunto de modelos candidatos e incluilo na contagem dos parmetros (K). Da mesma forma, para binomial negativa, voc deve
estimar o parmetro de disperso do modelo global e usar o mesmo valor em todos os modelos.
9) Burnham e Anderson (2002) recomendam evitar misturar a abordagem da teoria da
informao e noes de significncia (ou seja, os valores P). melhor fornecer estimativas e
uma medida de sua preciso (erro padro, intervalos de confiana).
10) Determinar o ranking das modelos apenas o primeiro passo. A soma do Peso Akaike 1
para o modelo de todo o conjunto e pode ser interpretado como o peso das evidncias em favor
de um determinado modelo. Modelos com grandes valores do Peso Akaike tm forte apoio.
Taxas de evidncias, valores de importncia, e intervalo de confianca para o melhor modelo so
outras medidas que auxiliam na interpretao. Nos casos em que o melhor modelo do ranking
tem um Peso Akaike > 0,9, pode-se inferir que este modelo o mais parcimonioso. Quando
muitos modelos so classificados por valores altos (ou seja, o delta (Q) AIC (c) < 2 ou 4), devese considerar a mdia dos parmetors dos modelos de interesse que aparecem no topo. A mdia
dos modelos consiste em fazer inferncias com base no conjunto de modelos candidatos, em vez
41
Modelo Global
>M1 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK,
family = poisson, data=RK)
SELEO DO MELHOR MODELO
Akaike Information Criterion (AIC)
>step(M1) ## Esse comando faz a seleo automaticamente
Outra maneira de utilizar Akaike Information Criterion. preciso construir os modelos
de acordo com suas hipteses ou retirando as variveis que no apresentam um efeito
significativo.
>M2 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC +
SQ.WATRES
L.WAT.C
SQ.LPROAD
D.PARK,
SQ.SHRUB +
family
poisson, data=RK)
>M3 <- glm (TOT.N ~ MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES +
L.WAT.C + SQ.LPROAD +
data=RK)
>M4 <- glm (TOT.N ~ L.WAT.C + SQ.LPROAD + D.PARK, family =
poisson, data=RK)
Esse comando cria uma tabela colocando os modelos em ordem crescente de valores, ou
seja, com o melhor modelo no topo. Ele apresenta o valor de delta que a diferena entre o
melhor modelo que recebe o valor de zero e os outros modelos.
WEIGHT = so usados para medir a fora da evidncia em favor de cada um dos modelos
>AIC <- ICtab (M1, M2, M3, M4, type = c("AIC"), weights = TRUE,
delta = TRUE, sort = TRUE)
>AIC
Contudo, quando o nmero de amostras dividido pelo nmero de paramtros for < 40
recomendado utilizar um AIC corrigido (AICc) para pequenas amostras. Na verdade, como em
43
grandes amostras o valor de AICc tende ao valor de AIC sem correo, recomendado sempre
utilizar AICc.
>AICc <- ICtab(M1, M2, M3, M4, type = c("AICc"), weights = TRUE,
delta = TRUE, sort = TRUE, nobs = 52)
>AICc
Terceira maneira de calcular AIC, AICc
Cria um vetor com lista de modelos:
>Modelos <- list()
>Modelos
[[1]]
<-
glm(TOT.N
OPEN.L
MONT.S
SQ.POLIC
[[2]]
SQ.SHRUB
<+
glm(TOT.N
SQ.WATRES
~
+
OPEN.L
MONT.S
L.WAT.C
SQ.LPROAD
SQ.POLIC
+
D.PARK,
44
D.PARK, family =
Este resultado indica que podemos retirar a varivel SQ.DWATCOUR, pois o modelo sem esta
varivel tem o mesmo poder de explicao do modelo com esta varivel. Repita o processo at
que nenhuma varivel possa ser retirada do modelo.
OVERDISPERSION
Contudo a vida no to simples, antes de analisar os resultados e realizar as anlises
de seleo voc precisa checar se os seus dados possuem overdispersion. A overdispersion
significa que a varincia maior do que a mdia.
45
Veja que o resultado mostra que o parmetro de disperso para famlia Poisson tem que
ser 1. Nesse caso o parmetro de disperso do seu modelo 270,23/42 = 6,43. Desse modo, seu
modelo apresenta overdispersion e voc no pode continuar a anlise considerando a famlia
Poisson.
Existem duas alternativas: corrigir o Poisson com Quasi-Poisson ou usar a distribuio
Binomial Negativa.
QUASI-POISSON
>M4
<-
glm(TOT.N
SQ.WATRES
OPEN.L
L.WAT.C
MONT.S
SQ.LPROAD+
SQ.POLIC+
SQ.DWATCOUR
SQ.SHRUB
+
D.PARK,
46
Veja que o parmetro de disperso f estimado em 5,93. Isto significa que todos os
erros padres foram multiplicados por 2,43 (a raiz quadrada de 5,93), e como resultado, a
maioria dos parmetros no so mais significativos. No escreva na sua dissertao ou artigo
que usou uma distribuio Quasi-Poisson. Quasi-Poisson no uma distribuio. Basta dizer
que voc fez GLM com distribuio Poisson, detectou overdispersion, e corrigiu os erros
padres usando um modelo Quasi-GLM, onde a varincia dada por f , onde a mdia e f
o parmetro de disperso.
Seleo modelos em Quasi-Poisson
Quando inserirmos uma varivel para a disperso, os modelos no podem ser comparados por
qui-quadrado. Eles so comparados por distribuio F.
>drop1(M4, test = "F")
<-
dredge
(M4,
rank
"QAICc",
chat
summary(M4)$dispersion)
>MQP1 <- get.models (dd1, 1:4)
model.avg(MQP1)
Os usurios devem ter em mente os riscos que correm usando tal "abordagem
impensada" de avaliao de todos os modelos possveis. Embora este procedimento seja til em
certos casos e justificado, ele pode resultar na escolha de um "melhor" modelo esprio.
Deixar o computador descobrir uma estratgia pobre e geralmente reflete o fato de
que o pesquisador no se preocupou em pensar claramente sobre o problema de interesse e sua
configurao cientfica (Burnham e Anderson, 2002).
Outra maneira de computar QAIC
>MQP <- list()
>MQP [[1]] <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC+ SQ.SHRUB
+ SQ.WATRES + L.WAT.C + SQ.LPROAD+ SQ.DWATCOUR + D.PARK,
family = poisson, data = RK)
>MQP [[2]] <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC+ SQ.SHRUB
+
SQ.WATRES
L.WAT.C
SQ.LPROAD+
D.PARK,
family
SQ.SHRUB
[[3]]
<-
glm
(TOT.N
MONT.S
SQ.POLIC+
D.PARK, family =
[[4]]
<-
glm
(TOT.N
MONT.S
SQ.POLIC
SQ.SHRUB
<-
aictab(cand.set
MQP,
modnames
Modnames,
49
L.WAT.C
SQ.LPROAD
SQ.DWATCOUR
D.PARK,
link="log", data=RK)
>odTest(NB)
O resultado mostra que a LRT entre Poisson e Binomial Negativa com uma diferena na
deviance de 141.515 e com grau de liberdade 1 p < 0.0000. Portanto, Binomial Negativa
melhor que Poisson.
Modelos de Binomial Negativa:
>NB1 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK,
link="log", data=RK)
>NB2 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, link = "log",
data = RK)
>NB3 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.SHRUB + SQ.WATRES +
L.WAT.C + SQ.LPROAD + D.PARK, link = "log", data = RK)
>NB4 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.SHRUB + L.WAT.C +
SQ.LPROAD + D.PARK, link = "log", data = RK)
>NB5 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + L.WAT.C + SQ.LPROAD +
D.PARK, link = "log", data = RK)
>NB6 <- glm.nb (TOT.N ~ OPEN.L + L.WAT.C + SQ.LPROAD +
D.PARK,
50
ylab = "residuos",
xlab = "predito")
abline(h = 0, v = 0)
Comparando os resduos do modelo final da Binomial Negativa e Quasi-Poisson vemos
que os resduos da Binomial no apresentam um padro, enquanto a Quasi-Poisson apresenta.
Ento, Binomial melhor.
GLM BINOMIAL
Agora mostraremos um exemplo bem simples com dados de presena e ausncia. GLM com
dados binrios ou proporo so tambm chamados de regresso logstica.
>data(Boar)
>head(Boar)
Varivel dependente: presena ou ausncia de tuberculose.
Varivel independente: Comprimento do javali (cabea-tronco).
>B1 = glm ( Tb ~ LengthCT, family = binomial, data = Boar)
>summary(B1)
Likelihood Ratio Test:
>drop1 (B1, test="Chi")
<-
glm
(DeerPosProp
OpenLand
ScrubLand
fFenced,
family
binomial,
weights
DeerSampledCervi,data = Tbdeer)
>summary(Deer2)
QUASI-BINOMIAL
>Deer2 <- glm(DeerPosProp ~ OpenLand + ScrubLand + QuercusPlants
+
QuercusTrees
ReedDeerIndex
EstateSize
fFenced,
<-
glm(DeerPosProp
OpenLand,
family
54
55
Utilizando praia como efeito aleatrio permite que cada praia tenha um intercepto
diferente. Se o StdDev do efeito aleatrio for zero, todos os interceptos ficam na linha predita.
Veja o grfico abaixo.
Funo para fazer o grfico:
>F0 <- fitted(Mlme1,level=0)
>F1 <- fitted(Mlme1,level=1)
>I <- order(RIKZ$NAP)
>NAPs <- sort(RIKZ$NAP)
>plot(NAPs,F0[I],lwd=4,type="l",ylim=c(0,22),
ylab="Riqueza
de
espcies",xlab="NAP")
for (i in 1:9){
x1<-RIKZ$NAP[RIKZ$Beach==i]
y1<-F1[RIKZ$Beach==i]
K<-order(x1)
lines(sort(x1),y1[K])
}
>text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9)
Suponha que a relao entre riqueza de espcies e NAP diferente em cada praia. Isto
implica em que temos de incluir um interao entre NAP*Praia no modelo. Mas isso tem um
custo muito alto elevando o modelo para 17 parmetros. E no estamos interessados no efeito da
praia. Contudo, no podemos ignorar uma possvel variao entre praias e na interao
NAP*Praias. Se fizermos isso, a variao sistemtica vai aparecer nos resduos, levando
inferncias erradas. Podemos aplicar o Mixed Effects Model com intercepto e slope (inclinao)
aleatrios.
>Mlme2 <- lme (Richness ~ NAP, random = ~ 1 + NAP | fBeach, data
= RIKZ)
>summary(Mlme2)
56
ylab="Riqueza
de
espcies",xlab="NAP")
for (i in 1:9){
x1<-RIKZ$NAP[RIKZ$Beach==i]
y1<-F1[RIKZ$Beach==i]
K<-order(x1)
lines(sort(x1),y1[K])
}
>text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9)
Likelihood em Mixed Models
MAXIMUM LIKELIHOOD (ML) - escolhe os parmetros tal que o valor de L mximo. O
problema que ML ignora o fato que intercepto e slope so estimados no modelo.
RESTRICTED MAXIMUM LIKELIHOOD (REML) - corrige o grau de liberdade incluindo o
intercepto e o slope.
Transformar algumas variveis em fatores:
>RIKZ$fExp <- RIKZ$Exposure
>RIKZ$fExp[RIKZ$fExp==8]<- 10
>RIKZ$fExp <- factor(RIKZ$fExp,levels = c (10,11))
Modelos com ML e com REML:
57
>M0.ML <- lme (Richness ~ NAP, data = RIKZ, random = ~1| fBeach,
method = "ML")
>M0.REML <-lme (Richness ~ NAP, random = ~1|fBeach, data = RIKZ,
method = "REML")
>M1.ML <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1|
fBeach, method = "ML")
>M1.REML <- lme (Richness ~ NAP + fExp, data = RIKZ, random =
~1| fBeach, method = "REML")
Tabela 4. Resultados para dois modelos usando ML (coluna da esquerda) e REML (coluna da
direita). Nmeros entre parnteses so erros padres. O primeiro modelo (parte de cima da
tabela) usa um intercepto e NAP como varivel fixa e um intercepto aleatrio. O segundo
modelo (parte inferior da tabela) usa os mesmos termos, exceto que a varivel nominal exposure
usada como uma varivel fixa tambm.
58
3 - Depois de achar o modelo aleatrio, temos que comparar os modelos fixos. Para isso temos
que usar ML;
4 - Apresente o modelo final com REML;
PASSOS 1 e 2 - Selecionando efeito aleatrio
>B1 <- gls(Richness ~ 1 + NAP * fExp, method = "REML", data =
RIKZ)
>B2 <- lme(Richness ~1 + NAP * fExp, data = RIKZ, random = ~1 |
fBeach, method = "REML")
>B3 <- lme(Richness ~ 1 + NAP * fExp,data = RIKZ, random = ~1
NAP | fBeach, method = "REML")
Seleo de Modelos Aleatrios
AIC (B1, B2, B3)
ou
anova (B1, B2, B3)
PASSO 3 - Selecionando efeito fixo
>B2 <- lme (Richness ~ NAP * fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
Fiquem atentos com valores de P prximos a 0,05.
>B3 <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
>B3a <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
>B3b <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
>AICc <- ICtab(B2, B3, B3a, B3b, type = c("AICc"), weights =
TRUE, delta = TRUE, sort = TRUE, nobs = 45)
>AICc
59
>par(op)
Comearemos com uma regresso linear e plotaremos os resduos por colmeia:
>M1 <- lm (LSpobee ~ fInfection01 * BeesN, data = Bees)
>E1 <- rstandard(M1)
>plot (E1 ~ Bees$fHive, ylab = "Resduos", xlab = "Colmias")
>abline (0, 0)
Veja que algumas colmias apresentam os trs resduos acima do esperado, enquanto
outras possuem trs resduos abaixo do esperado. Temos a opo de colocar colmia como
random effect.
Vantagens
(1) requer um parmetro extra (varincia do intercepto), comparado com regresso linear que
requer 23 parmetros extras.
(2) Podemos fazer afirmaes para colmias em geral no s para as 24 colmias do estudo.
Selecionando random effect
>M1 <- lme(LSpobee ~ fInfection01 * BeesN, random = ~ 1 | fHive,
method = "REML", data = Bees)
>M2 <- lme(LSpobee ~ fInfection01 * BeesN, random = ~ 1 + BeesN
| fHive, method = "REML", data = Bees)
>M3 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 +
fInfection01 | fHive, method = "REML", `
data = Bees)
>anova(M1,M2)
>anova(M1,M3)
Verificando o modelo selecionado:
>plot (M1, col = 1)
plota por infeco:
>boxplot (LSpobee ~ fInfection01, data = Bees, varwidth = TRUE)
61
lme
(LSpobee
fInfection01
BeesN,
random
<-
lme
1|fHive,
(LSpobee
method
fInfection01
"ML",
data
BeesN,
Bees,
random
weights
~
=
varIdent(form =~ 1 | fInfection01))
>M8sub1 <- update (M8full, .~. -fInfection01 )
>M8sub2 <- update (M8full, .~. -BeesN )
>anova(M8full,M8sub1)
>anova(M8full,M8sub2)
>M9full<-lme(LSpobee
fInfection01,
random
1|fHive,
Bees,
weights
varIdent
(form
fInfection01),
method = "REML")
62
>plot(Mfinal)
Dados categricos:
>data(ergoStool)
Esforo requerido por quatro diferentes mandbulas para rasgar nove objetos diferentes.
>fm1Stool <- lme (effort ~ Type, data = ergoStool, random = ~ 1
| Subject)
>summary(fm1Stool)
Tentar exe,plicar os valores:
> (mean <- tapply(ergoStool$effort, ergoStool$Type, mean))
O primeiro parmetro (intercepto) a mdia da primeira categoria definida por ordem
alfabtica. Portanto, sempre que for comparar categorias, o intercepto ser a categoria que
comear com a menor letra do alfabeto.
O segundo parmetro a diferena entre o segundo parmetro e o intercepto:
12.44 - 8.55 = 3.89
O terceiro parmetro a diferena entre o terceiro parmetro e o intercepto:
10.77 - 8.55 = 2.22
9.22 - 8.55 = 0.66
As comparaes podem ser alteradas de acordo com suas hipteses. Comparaes planejadas:
>contrasts(ergoStool$Type)<-cbind(c(3,-1,-1,-1),
c(0,2,-1,-1), c(0,0,-1,1))
>fm2Stool <- lme (effort ~ Type, data = ergoStool, random = ~ 1
| Subject)
>summary(fm2Stool)
63
64
CURVADEACUMULAODEESPCIES
Curvas de acumulao de espcies, algumas vezes chamadas de curva do coletor, so
representaes grficas que demonstram o nmero acumulado de espcies registradas (S) em
funo do esforo amostral (n). O esforo amostral pode ser o nmero de indivduos coletados,
ou uma medida tal como o nmero de amostras (e.g., quadrados) ou tempo amostral (e.g.,
meses). Colwell & Coddington (1994) sugeriram um mtodo que consiste em montar vrias
curvas adicionando-se as amostras em uma ordem aleatria. Aps construir vrias curvas com
este mtodo, pode-se calcular uma curva do coletor mdia (baseada na riqueza mdia para cada
nmero de amostra) e expressar a variao possvel em torno dessa mdia. importante frisar
que esta variao no corresponde ao conceito estatstico de intervalo de confiana, j que
calculada por repeties das mesmas unidades amostrais (Santos 2003). Se as curvas de
acumulao de espcies atingem um ponto em que o aumento do esforo de coleta no implica
num aumento no nmero de espcies, isto significa que aproximadamente toda a riqueza da rea
foi amostrada (Fig. 8).
65
RAREFAO
Esse mtodo nos permite comparar o nmero de espcies entre comunidades quando o
tamanho da amostra ou o nmero de indivduos (abundncia) no so iguais. A rarefao
calcula o nmero esperado de espcies em cada comunidade tendo como base comparativa um
valor em que todas as amostras atinjam um tamanho padro, ou comparaes baseadas na
menor amostra ou com menos indivduos (dentre todas amostras possveis). Se considerarmos n
indivduos (n < N) para cada comunidade, quantas espcies iramos registrar?
() =
( ! )/
/
Onde:
E(S) = Nmero de espcies esperado
N = Nmero total de indivduos na amostra
Ni = Nmero de indivduos da isima espcie
n = tamanho da amostra padronizada (menor amostra)
Gotelli & Collwel (2001) descrevem este mtodo e discutem em detalhes as restries
sobre seu uso na ecologia: i) as amostras a serem comparados devem ser consistentes do ponto
de vista taxonmico, ou seja, todos os indivduos devem pertencer ao mesmo grupo
taxonmico; ii) as comparaes devem ser realizadas somente entre amostras com as mesmas
tcnicas de coleta; iii) os tipos de hbitat onde as amostras so obtidas devem ser semelhantes; e
iv) um mtodo para estimar a riqueza de espcies em uma amostra menor no pode ser
usado para extrapolar e estimar riqueza.
66
Exemplo:
Uma amostra de roedores tem quatro espcies e 42 indivduos. A abundncia de cada espcie foi
21, 16, 3, e 2 indivduos. Desejamos calcular a riqueza de espcies esperada para amostras com
30 indivduos.
= 1
42 21 /30
42 16 /30
42 3 /30
42 2 /30
+ 1
+ 1
+ 1
42/30
42/30
42/30
42/30
rare
roedore roedore roedore
s
s1
s2
21
16
10
16
15
10
13
10
31
10
10
10
10
Para obter-se o mesmo resultado do exerccio anterior sem ter que realizar os clculos
manualmente, voc precisa digitar o seguinte comando:
>rarefy(rare$roedores, sample = 30, MARG = 2)
>3.9
>amostras2 <-
68
(amostras3
0.4,
roedor3[1,
],
type
"b",
col
(locator(1),
labs,
lty
c(1,2,3),
col
c("red",
ESTIMADORESDERIQUEZA
Uma vez que determinar a riqueza total de espcies numa rea praticamente
impossvel, principalmente em regies com alta diversidade de espcies, os estimadores so
teis para extrapolar a riqueza observada e tentar estimar a riqueza total atravs de uma amostra
incompleta de uma comunidade biolgica (Walther & Moore 2005). Nesta apostila sero
considerados apenas os estimadores no paramtricos (que no so baseados nos parmetros de
um modelo de abundncia das espcies), para outros estimadores veja Magurran (2004).
Chazdon et al. (1998) e Horter et al. (2006) definem quatro caractersticas para um bom
estimador de riqueza:
i) Independncia do tamanho da amostra (quantidade de esforo amostral realizado);
ii) Insensibilidade a diferentes padres de distribuies (diferentes equitabilidades);
iii) Insensibilidade em relao ordem das amostragens;
iv) Insensibilidade heterogeneidade entre as amostras usadas entre estudos.
69
1
0
0
0
4
0
0
0
0
5
0
14
0
8
0
4
2
0
0
2
0
0
0
0
4
0
0
0
0
3
0
3
3
6
0
1
3
0
0
2
1
0
0
0
0
2
0
6
4
15
0
15
15
3
0
0
0
0
0
5
0
5
0
6
5
2
1
8
2
12
1
0
17
0
0
0
11
4
0
9
6
2
0
2
2
0
0
0
0
1
0
1
0
2
0
6
AMOSTRAS
7
8
9
0
0
0
0
1
0
0
1
2
0
7
0
2
0
0
0
1
0
0
0
0
2
0
1
0
9
0
0
4
0
0
0
0
3
0
0
1
6
1
0
0
0
4
7
3
10
1
0
2
2
0
0
1
0
1
0
2
0
3
1
8
11
0
0
0
0
0
0
0
4
0
0
0
0
1
0
2
12
5
0
4
3
0
0
0
0
0
0
0
0
2
0
4
13
5
0
0
2
0
1
0
0
4
0
8
0
3
0
6
14
2
0
2
2
0
0
0
1
0
0
0
0
6
0
5
Total
38
2
39
42
17
3
3
30
20
4
30
14
47
1
CHAO 1
Estimador simples do nmero absoluto de espcies em uma comunidade. baseado no nmero
de espcies raras dentro de uma amostra. Esse mtodo requer a abundncia das espcies.
! = !"# +
!!
2!
onde:
Sobs = o nmero de espcies na comunidade
F1 = nmero de espcies observadas com abundncia de um indivduo (espcies singleton)
F2 = nmero de espcies observadas com abundncia de dois indivduos (espcies doubletons).
O valor de Chao 1 mximo quando todas as espcies menos uma so nicas (singleton). Neste
caso, a riqueza estimada aproximadamente o dobro da riqueza observada.
Exemplo:
Usando os dados da tabela 1 calcule o valor de Chao 1 para a comunidade:
Chao 1 = 14 + [(12)/(2*1)] = 14 + (1/2) = 14 + 0,5
Chao 1 = 14,5
70
Imagine que voc tenha a mesma tabela acima salva no R com o nome est. Aps
carregar essa tabela voc pode obter o valor de Chao 1 atravs do seguinte comando:
>est <- read.table (estimadores, h = T)
>Chao1 <-estaccumR (est, permutations = 100)
>summary(Chao1, display = chao)
<-
colSums(est)##
soma
abundncia
de
cada
linha
!
2
onde:
L = nmero de espcies que ocorrem apenas em uma amostra (espcies uniques)
M = nmero de espcies que ocorrem em exatamente duas amostras (espcies duplicates)
O valor de Chao 2 mximo quando todas as espcies menos uma so nicas
(singletons). Neste caso, a riqueza estimada aproximadamente o dobro da riqueza observada.
71
Collwel & Coddington (1994) encontraram que o valor de Chao 2 mostrou ser o estimador
menos enviesado para amostras com tamanho pequeno.
Exemplo:
Usando os dados da tabela 1 calcule o valor de Chao 2 para a comunidade:
Chao 2 = 14 + [(22)/(2*3)] = 14 + (4/6) = 14 + 0.66
Chao 2 = 14.66
JACKKNIFE 1
Este estimador baseia-se no nmero de espcies que ocorrem em somente uma amostra (Q1).
! = !"# + !
Onde:
m = nmero de amostras
72
Palmer (1990) verificou que Jackknife 1 foi o estimador mais preciso e menos
enviesado quando comparado a outros mtodos de extrapolao.
Exemplo:
Usando os dados da tabela 1 calcule o valor de Jaccknife 1 para a comunidade:
Jack 1 = 14 + 2 * [(14-1)/14] = 14 + 2 * (0.92) = 14 + 1.857
Jack 1 = 15.857
1 (2 3) 2 ( 2)2
2 = +
( 1)
Onde:
Q1 = nmero de espcies registradas em apenas uma amostra
Q2 = nmero de espcies registradas em exatamente duas amotras
73
m = nmero de amostras
Exemplo:
Usando os dados da tabela 1 calcule o valor de Jaccknife 2 para a comunidade:
Jack 2 = 14 + [2 *(((2*14)-3))/14))] [3*((14-2)2)/(14(14-1))] = 14 + 3,57 2,37
Jack 2 = 15.197
= !"#$% +
!"!#
! !
+
Onde:
74
!
!"#
=
!"
!"!#
!!! ( 1)!
1
!"# (!"!# )(!"!# 1)
!"# = 1 +
!
!"!#
!"
!"!# =
!
!!!
No precisa fazer cara feia, bvio que iremos usar o programa para fazer esses clculos.
75
= !"#$ +
!"# !
! !
+
onde:
!
!"#
=
!"# ! !"# !
!"# (!"# !!! )
!"
!!! (
1)!
(!"# ! )!
!"# = 1 +
!
!"# !
!"
!"#! =
!
!!!
BOOTSTRAP
Este mtodo difere dos demais por utilizar dados de todas as espcies coletadas para
estimar a riqueza total, no se restringindo s espcies raras. Ele requer somente dados de
76
(1 ! )!
= !"# +
!!!
Onde:
Pk = proporo do nmero de amostras em que cada espcie foi registrada
m = nmero de amostras
Exemplo:
Usando os dados da tabela 1 calcule o valor de bootstrap para a comunidade:
Bootstrap = 14 + [ (1- 8/14)14 +(1- 2/14)14 +(1- 10/14)14 +(1- 10/14)14 +(1- 3/14)14 +(1- 3/14)14
+(1- 2/14)14
+ (1- 7/14)14 +(1- 5/14)14 +(1- 1/14)14 +(1- 5/14)14 +(1- 2/14)14 +(1- 14/14)14 +(1- 1/14)14]
Bootstrap = 14 + 1 ,127
Boostrap = 15,127
77
EXERCCIOS
1) Utilize os dados da planilha rarefao exercicios.csv que foi entregue no cd junto com a
apostila.
a) Calcule a abundncia total em cada uma das comunidades
b) Calcule a riqueza total em cada comunidade
c) Construa uma grfico de rarefao comparando as quatro comunidades
2) Para esse exerccio usaremos os dados disponveis na pagina do Prof. Dr. Adriano Melo da
Universidade Federal de Gois.
Para carregar os dados vocs precisam digitar o comando abaixo:
japi <read.table(http://www.ecologia.ufrgs.br/~adrimelo/div/japi.txt
, h=T)
a) Faa um grfico com a curva do coletor e acumulao (rarefao) de espcies/amostra juntos
no mesmo grfico.
3) Utilizando a planilha est.csv
a) Faa um grfico com o estimador de riqueza bootstrap e a riqueza observada
b) Faa um grfico com o estimador de riqueza chao1 e a riqueza observada
c) Faa um grfico com os estimadores jackknife 1 e 2 e a riqueza observada
ESTIMATES
O programa R tem grandes vantagens sobre outros programas estatsticos, por permitir
realizar diversos tipos de anlises, plotar grficos, e alterar funes de acordo com suas
necessidades (leia o incio dessa apostila). No entanto, existe um programa gratuito, disponvel
na internet no endereo http://viceroy.eeb.uconn.edu/estimates voltado analises com
estimadores de riqueza. Este site foi criado e mantido pelo Dr. Robert K. Colwell, um dos
maiores especialistas do mundo em estimativas da biodiversidade.
78
79
80
14 - Determine o nmero de espcies raras para o ACE e ICE. Esse nmero corresponde ao
nmero de espcies que o programa ir considerar como espcies raras;
15 Clicar em OK;
16 - Agora s correr o teste. Clicar em Compute Diversity Stats;
81
ndices de diversidade
Os ndices de diversidade representam uma medida que combina a riqueza e abundncia
relativa (equitabilidade) das espcies de uma comunidade. O ndice de Shannon (H) um dos
mais utilizados na literatura para medir a diversidade de espcies. Este ndice derivado da
teoria da informao e sua funo foi derivada como:
H =
! ln!
Onde pi representa a proporo de indivduos na i-nsima espcie em relao
Hulbert (1971) e Gotelli & Graves (1996). Resumindo as idias, a indefinio conceitual e
tcnica dos ndices de diversidade sugerem que sua utilizao seja abandonada (ou que sejam
utilizados com rigor tremendo). H quem se refira diversidade de espcies como um noconceito (Hulbert 1971). Como alternativa elegante, a utilizao da riqueza de espcies e da
abundncia relativa como mtricas distintas para medir a diversidade, bem como suas
respostas s alteraes ambientais, pode ser o melhor caminho para o desenvolvimento de bons
estudos ecolgicos.
Calculando os ndices de diversidade no R
>library(vegan)
>mata.atlantica=read.table("mata.atlantica.txt", header=T)
>H=diversity(mata.atlantica, index="shannon")
>D=diversity(mata.atlantica, index="simpson")
>D.inv=diversity(mata.atlantica, index="invsimpson")
>riqueza=specnumber(mata.atlantica)
>diversidade.MA=cbind(riqueza, H, D, D.inv)
>diversidade.MA
>pairs(cbind(riqueza, H, D, D.inv), pch="+", col="black")
Praticando:
Exemplo 1: Bromlias geralmente acumulam gua no fitotelmata e diversos grupos de
artrpodes utilizam esses tanques para depositar ovos. Desse modo, as larvas aquticas desses
animais vivem imersas at atingirem a fase adulta. Uma biloga coletou larvas em quatro
espcies de bromlias-tanque (n=30 plantas de cada espcie) e dividiu cada bromlia em trs
grupos de tamanho: pequena (<100 ml de gua acumulada; n=10/espcie), mdia (101 600 ml
de gua acumulada; n=10/espcie) e grande (> 601 ml de gua acumulada; n=10/espcie).
Utilize os arquivos bromelias.txt e bromelia1.txt.
Pergunta 1: Qual espcie de bromlia possui maior diversidade de artrpodes aquticos?
Pergunta 2: O volume de gua afeta a diversidade de espcies de artrpodes aquticos na
Bromlia sp.1?
- Teoria: teoria da biogeografia de ilhas (volume de hbitat).
83
! = (/)
!!!
(1/)
A)
100
ComunidadeA
90
ComunidadeB
140
80
ComunidadeC
120
70
B)
Abundncia
Nmerodeespcies
160
100
80
60
60
50
40
30
40
20
20
10
0
10
20
40
60
10 11 12 13 14 15 16 17 18 19 20
Ordemdasespcies
Nmerodeindivduos
86
Pergunta: Praias mais poludas possuem padro de distribuio da abundncia da espcies mais
equitativo?
Unidade amostral: Pontos de amostragem em cada praia
Varivel dependente: Abundncia relativa
Varivel independente: Praia
Importe a planilha peixes.floripa.txt e indique a partir dos diagramas de abundncia relativa
qual a praia com melhor e pior qualidade da gua. Informe os modelos tericos que melhor
explicam o padro de distribuio de abundncia de cada praia e faa um diagrama de
abundncia relativa para cada praia e uma figura contendo todos os diagramas na mesma janela.
Diversidade beta
Desde o incio da ecologia, a identidade das espcies que constituem determinada
comunidade (i.e., composio de espcies) tem gerado uma srie de hipteses importantes para
o entendimento de como os organismos se distribuem no espao e no tempo. Uma das principais
perguntas sobre esse assunto O que torna comunidades de espcies mais ou menos similares
em diferentes lugares e tempos? (Vellend 2010). Aps os influentes estudos do eclogo Robert
Whittaker (Whittaker 1960, 1972), o termo diversidade beta (i.e., variao na composio de
espcies entre reas) ganhou fora na literatura ecolgica. Nas duas ltimas dcadas, o nmero
de trabalhos aumentou expressivamente com o desenvolvimento de novos mtodos para medir a
diversidade beta e de novos pacotes estatsticos. A grande quantidade de medidas, abordagens
estatsticas, termos e interpretaes para a diversidade beta aumentaram a confuso em relao
s maneiras corretas de acessar e testar os padres de modificao na composio de espcies
(Tuomisto 2010a,b, Anderson et al. 2011). Nesta apostila utilizaremos um roteiro prtico
baseado em hipteses sugerido recentemente por Anderson et al. (2011). Primeiro, importante
diferenciar dois tipos de conceito de diversidade beta, o conceito de substituio (turnover) e de
variao. A substituio representa a modificao na composio de espcies de uma unidade
amostral para a outra ao longo de um gradiente espacial, temporal ou ambiental. A substituio
requer um gradiente que indique direo como, por exemplo, investigar a mudana na
composio de espcies ao longo de um gradiente de profundidade em um lago (Fig. 10a). As
principais questes testadas na anlise de substituio so: (1) quantas novas espcies so
encontradas ao longo de um gradiente e quantas delas foram inicialmente presentes e agora
foram perdidas? (2) Qual a proporo de espcies encontradas em uma unidade amostral que
no so compartilhadas com a prxima unidade do gradiente?
87
A)
Transecto
Gradienteespacial,temporalouambiental
Unidadeamostral
Figura 10. Diagrama esquemtico dos dois tipos de diversidade beta: (A) substituio, mede
taxa de modificao na composio de espcie em relao a um gradiente direcional; (B)
variao, mede a diferena na composio de espcies entre grupos de unidades amostrais e
no-direcional (adaptado de Anderson et al. 2011).
(!!,!!) =
!
!!! !!
!
!!!(!!
!!
+ !! )
89
Onde y1j representa a abundncia da espcie j na localidade x1 e y2j na localidade x2. Esse
clculo prossegue at a espcie p.
Medidas multivariadas
Uma medida de diversidade beta interessante para comparar N amostras a disperso
em um espao multivariado, com uma anlise conhecida como teste de homogeneidade de
disperses multivariadas (Anderson 2006). Esta anlise calcula o centride (ou mediana
especial) de um grupo especfico (e.g., lagoa 1) e compara a dissimilaridade mdia das n
observaes individuais dentro desse grupo (e.g., abundncia de cada espcie p na lagoa 1)
utilizando uma medida apropriada de dissimilaridade (e.g., Bray-Curtis, Chao-Srensen,
Distncia Euclideana, Jaccard, Srensen). O clculo do centride para medidas que utilizam
distncia euclidiana a mdia aritmtica de cada varivel. Porm, para calcular o centride para
ndice de distncia no-euclidianos (e.g., Jaccard) necessrio fazer uma anlise de
coordenadas principais (Anderson 2006). A hiptese nula desta anlise a de que a diversidade
beta no diferente entre as amostras de interesse. Para acessar a probabilidade de a hiptese
nula ser verdadeira utiliza-se a estatstica F de Levene comparando a distncia mdia de cada
observao ao centride do seu grupo que, por sua vez, definido por uma medida de
dissimilaridade. Para gerar os valores do P so realizadas n permutaes (e.g., 1000) (detalhes
em Anderson 2006).
90
92
Exerccio 2: Uma atividade muito comum em pases com megadiversiadade de aves tais como o
Brasil chamada de birdwatching (BW), que consiste no estudo e observao de aves a olho
nu ou com binculos. Turistas estrangeiros gastam milhes de dlares anualmente para observar
aves em florestas tropicais. Em uma fazenda particular com 10000 ha de floresta amaznica, um
bilogo comparou o impacto do BW na diversidade beta de aves. Ele comparou dez trilhas
utilizadas para BW e dez trilhas bloqueadas para turismo e pesquisa. O bilogo acredita que o
fluxo de turistas nas trilhas interfere no comportamento de forrageio de muitas espcies de aves
e diminui a riqueza e diversidade beta em comparao com reas sem esta atividade.
Pergunta: a diversidade beta maior em reas sem BW?
Teoria: Nicho, teoria do forregaio timo.
Unidade amostral: pontos de amostragem ao longo da trilha.
Varivel dependente: diversidade beta.
Varivel independente: tipo de trilha (indiretamente relacionado ao impacto do turismo).
- Importe a planilha birdwatch.txt e responda se o turismo (BW) afeta a diversidade beta de
aves utilizando o teste de homogeneidade de disperses multivariadas. Faa uma figura
representando a disperso multivariada das observaes em relao ao centride de cada grupo:
trilha com turismo e trilha sem turismo. As dez primeiras linhas do arquivo birdwatch.txt
representam trilhas bloqueadas a turistas e pesquisadores e as dez ltimas linhas so trilhas
utilizadas para BW.
93
94
Agrupamento
Anlise de agrupamento hirerrquico (cluster)
A anlise de agrupamento hierrquico a mais utilizada em ecologia. No entanto,
existem tambm outras anlises no hierrquicas, como a K-means, que no sero abordadas
neste curso. O objetivo da anlise de agrupamento agrupar objetos admitindo que haja um
grau de similaridade entre eles. Esta anlise pode ser utilizada ainda para classificar uma
populao em grupos homogneos de acordo com uma caracterstica de interesse. A grosso
modo, uma anlise de agrupamento tenta resumir uma grande quantidade de dados e apresentla de maneira fcil de visualizar e entender (em geral, na forma de um dendrograma). No
entanto, os resultados da anlise podem no refletir necessariamente toda a informao
originalmente contida na matriz de dados. Para avaliar o quo bem uma anlise de agrupamento
representa os dados originais existe uma mtrica o coeficiente de correlao cofentico o
qual discutiremos em detalhes mais adiante.
Apesar da sua versatilidade, deve-se ressaltar que nem todos os problemas em ecologia
so problemas de agrupamento. Antes de considerar algum mtodo de agrupamento, pense
porque voc esperaria que houvesse uma descontinuidade nos dados; ou ainda, considere se
existe algum ganho prtico em dividir uma nuvem de objetos contnuos em grupos. Alm disso,
existem algumas crticas que merecem ateno: mesmo para um conjunto de dados aleatrios
possvel encontrar grupos; o padro apresentado pelo dendograma depende do protocolo
utilizado (mtodo de agrupamento e ndice de dissimilaridade); os grupos formados dependem
do nvel de corte escolhido. Normalmente, a anlise de agrupamento tenta arranjar os objetos
em grupos que so mutuamente excludentes, ou seja, o mesmo objeto no pode fazer parte de
mais de um grupo. No entanto, existem algumas tcnicas, chamadas de fuzzy clustering, que
permitem uma gradao na classificao de objetos. Esta tcnica no ser abordada neste
mdulo, mas o leitor interessado remetido duas referncias: Legendre & Legendre (1998) e
Borcard et al. (2011).
1) A matriz deve conter os objetos a serem agrupados (p.ex. espcies) nas linhas e as
variveis (p.ex., locais de coleta ou medidas morfolgicas) nas colunas. Primeiramente,
se os dados forem de abundncia, mais correto realizar a transformao de Hellinger
(Legendre & Gallagher, 2001). Se a matriz original contiver muitos valores
95
discrepantes (p.ex., uma espcie muito mais ou muito menos abundante que outras)
necessrio transformar os dados usando Log (x+1)1. Se as variveis forem medidas
tomadas em diferentes escalas (metros, graus celcius etc), necessrio padronizar cada
varivel utilizando a seguinte frmula:
Z=
obs mdia
desvio
Onde obs representa o valor da unidade amostral de interesse e os valores da mdia e do desvio
padro so calculados para cada varivel.
2) Escolha do mtodo de agrupamento
A escolha do mtodo de agrupamento crtico para a escolha de um coeficiente de
associao. importante compreender completamente as propriedades dos mtodos de
agrupamento para interpretar corretamente a estrutura ecolgica que eles evidenciam (Legendre
& Legendre, 1998). De acordo com a classificao de Sneath & Sokal (1973) existem cinco
tipos de mtodos: 1) seqenciais ou simultneos; 2) aglomerativo ou divisivo; 3) monotticos ou
politticos; 4) hierrquico ou no hierrquicos e 5) probabilstico. Por motivos de espao e
tempo discutiremos somente os mtodos hierrquicos, que so os mais comumente encontrados
na literatura ecolgica.
Mtodos hierrquicos podem ser divididos naqueles que consideram o centride ou a
mdia aritmtica entre os grupos. O principal mtodo hierrquico que utiliza a mdia aritmtica
o UPGMA (Agrupamento pelas mdias aritmticas no ponderadas), e o principal mtodo que
utiliza centrides a Distncia mnima de Ward.
O UPGMA funciona da seguinte forma: a maior similaridade (ou menor distncia)
identifica os prximos agrupamentos a serem formados. Aps esse evento, o mtodo calcula a
mdia aritmtica das similaridades ou distncias entre um objeto e cada um dos membros do
grupo ou, no caso de um grupo previamente formado, entre todos os membros dos dois grupos.
Todos os objetos recebem pesos iguais no clculo. A matriz de similaridade ou distncia
atualizada e reduzida de tamanho em cada etapa do agrupamento, por isso no exige tanto do
computador (Legendre & Legendre, 1998).
1Ousodo1obrigatriopoisLogdezeronabase10noexiste.
96
al. 2007). Se o leitor estiver interessado nesse assunto, existe outro ndice de mltiplas
comunidades proposto por Anne Chao (Chato et al. 2005, 2006; veja acima) que
implementado na funo no programa SPADE da autora que usa tanto dados de incidncia
quanto de presena-ausncia. Esta autora tambm props modificaes nos ndices clssicos de
Jaccard e Srensen para possibilitar a incluso de dados de abundncia. A implementao destes
ndices de Chao-Jaccard e Chao-Srensen est disponvel na funo chao.sorenson() do
pacote fossil.
98
correlao utilizando um diagrama de Shepard (Borcard et al., 2011). Ainda, possvel utilizar a
correlao de Kendall ou Spearman como alternativa para a de Pearson.
A distncia de Gower calculada como a soma dos quadrados da diferena entre as
matrizes de distncias cofenticas e a original. O mtodo de agrupamento que produzir a menor
distncia de Gower aquele que fornece o melhor modelo de agrupamento para a matriz de
distncia. Mas observe que o mtodo da correlao cofentica e a distncia de Gower nem
sempre concordam (Borcard et al., 2011).
99
Exerccios
1) No R existem dois pacotes que realizam a anlise de agrupamento: a funo hclust() do
pacote vegan e o pacote cluster. Para comearmos a trabalhar, baixe e carregue o pacote vegan,
depois carregue o arquivo de dados mite para o R da seguinte forma:
>library(vegan)
>data(mite)
a) Efetue a anlise de agrupamento pela funo hclust() utilizando o mtodo UPGMA e o
ndice de Bray-Curtis. Lembre-se de dar nome ao objeto para poder plotar o dendrograma
depois. Utilize a ajuda para encontrar como entrar com os argumentos da funo.
b) Faa agora o dendrograma com outro ndice de dissimilaridade e compare os resultados. So
diferentes? No que eles influenciaram a interpretao do resultado?
2) Agora vamos usar a abordagem proposta pelo pvclust. Primeiro instale o pacote e depois
carregue-o. Em seguida, digite esta funo no script do R:
dist <- function(x, ...){
vegdist(x, ...)
}
O pvclust limitado porque s permite que usemos os indices de dissimilaridade da
funo dist(). Essa funo faz com que possamos utilizar os ndices da funo vegdist()
do pacote vegan. Se preferir, possvel usar os ndices disponveis na funo dsvdis() do
pacote labdsv substituindo-a na funo acima. Importe o conjunto de dados bocaina.txt para o
R e faa a anlise utilizando o mtodo UPGMA e o ndice de Morisita-Horn. O pvclust agrupa
os objetos que esto na coluna. Dese modo, se quisermos agrupar as espcies da comunidade
devemos primeiro transpr a matriz. Lembre-se de dar nome ao objeto para podermos plotar o
dendrograma depois.
3) Calcule novamente o dendrograma usando o pvclust e o conjunto de dados dunedata$veg do
pacote ade4 utilizando o mtodo UPGMA e a distncia de Bray-Curtis.
IndVal
O objetivo desta anlise identificar especies indicadoras de grupos pr-estabelecidos.
Uma alta fidelidade significa que espcies ocorrem em todos os locais do grupo e uma alta
100
especificidade significa que as espcies ocorrem somente naquele grupo. Uma boa espcie
indicadora aquela na qual todos os indivduos ocorrem em todas a amostras referentes a um
grupo especfico.
A Especificidade dada pela diviso da abundancia mdia da espcie no grupo pela
somatria das abundancias mdias dos grupos. Fidelidade igual ao nmero de lugares no
grupo onde a espcie est presente dividido pelo nmero total de lugares do grupo (Dufrne &
Legendre, 1997). As vantagens desta anlise que ela baseada na abundncia das espcies
dentro do grupo e mede a associao entre as espcies e os grupos. A anlise originalmente
proposta por Dufrne & Legendre (1997) parecia um pouco circular, j que a classificao das
localidades para a formao dos grupos feita a partir de dados das espcies, ento as espcies
indicadoras j seriam aquelas que foram usadas pra formao dos grupos. Uma forma de
contornar essa circularidade seria utilizar alguma informao independente para a formao dos
grupos como, por exemplo, algum descritor ambiental. Algumas melhorias foram realizadas na
anlise original e esto disponveis em De Cceres & Legendre (2009), incluindo um novo
pacote
chamado
indicspecies
disponvel
na
pgina
pessoal
do
autor
(http://sites.google.com/site/miqueldecaceres/software).
Espcies raras podem receber o mesmo valor de IndVal das espcies indicadoras e so
chamadas de indicadoras assimtricas, i.e., contribuem com a especificidade do habitat mas no
servem para predizer grupos. Ao contrrio, as espcies indicadoras so verdadeiros indicadores
simtricos e podem ser usadas para predizer grupos.
Espcies indicadoras podem mostrar caractersticas particulares de um determinado
grupo, podendo inferir, por exemplo, situaes de eutrofizao de ambiente aqutico. Por
exemplo, algumas espcies quando muito abundantes em determinado local podem indicar que
o ambiente est poludo. A espcie indicadora definida como a mais caracterstica de um
determinado grupo.
A anlise procede da seguinte forma:
1 Uma matriz de distncia construda e as unidades amostrais so classificadas com alguma
anlise de agrupamento, hierrquico ou no;
2 A varivel ambiental para a qual se deseja classificar os grupos inserida;
3 As espcies indicadoreas de cada grupo so formadas atravs do clculo da especificidade e
fidelidade, obtendo-se o valor de IndVal para cada espcie;
4 Por fim, o conjunto de dados originais comparado para ver se anlise faz sentido.
101
Exemplo
>install.packages(labdsv)
>library(labdsv)
>mam.cerrado=read.table(file.choose(), h=T)
>?indval
>fitofis=c(rep(1,4), rep(2,4), rep(3,4), rep(4,4), rep(5,4))
>resultado=indval(mam.cerrado, fitofis)
>summary(resultado)#para apresentar uma tabela dos resultados
>resultado$maxcls
>resultado$indcls
>resultado$pval
>tab.resultado=cbind(resultado$maxcls,resultado$indcls,resultado
$pval)
>colnames(tab.resultado)<-c("maxgrp", "ind. value","P")
>tab.resultado
102
Exerccios
1) Importe o conjunto de dados indvalR.txt. Nestes dados, as espcies de cladceros esto nas
colunas e as unidades amostrais (lagoas) nas linhas, existe tambm informao sobre a turbidez
(varivel contnua) da gua, para o qual iremos tentar encontrar espcies indicadoras de cada
faixa. Esta coluna deve ser selecionada para compor os grupos.
2) Importe conjunto de dados exemploIndval.txt. Neste conjunto, as espcies de anfbios
anuros esto nas colunas e os locais de reproduo esto nas linhas. O arquivo
gruposIndval.txt classifica os locais de acordo com o nvel de poluio. Calcule o IndVal para
cada espcie e descubra se existe alguma espcie que pode ser indicativa de locais poludos.
(! ! )
( 2)
queremos comparar a diferena. Quando temos mais de dois grupos, o procedimento mais
recomendado o MRPP, que veremos a seguir.
! !
!!!
onde g o nmero de grupos, e C um peso que depende do nmero de tens nos grupos.
Existem vrios mtodos para atribuir peso, o mais usado e recomendado Ci=ni/N; onde n o
nmero de itens no grupo i e N o nmero total de itens. So calculados dois valores de , um
observado e outro simulado, que re-ordena as unidades amostrais dentro dos grupos.
Posteriormenre, o valor de entra no clculo da estatstica do teste, R, que dada por:
=1(
observado
)
esperado
Exemplo
>library(vegan)
>bocaina
>?anosim
>vec.bocaina=factor(c(rep(1, 7), rep(2,7)),
labels=c(Temporrias, Permanentes))
>bocaina.pad=decostand(bocaina, pa)
>anosim(bocaina.pad, vec.bocaina)
>plot(anosim)
104
Ordenao irrestrita
105
Conceitos importantes
Combinaes lineares: equao que agrupa as diferentes variveis, como em uma regresso
mltipla.
Componentes principais: so as combinaes lineares das variveis, eixos ortogonais
(independentes) que resumem (explicam) a variao dos objetos, e como tal podem ser
consideradas como novas variveis e usadas em anlises posteriores. O nmero de
componentes principais igual ao nmero de variveis. O primeiro componente principal
resume a maior variao dos dados, o segundo, a segunda direo de maior variao dos dados e
asim por diante.
Autovalores (eigenvalues): esses valores representam a varincia dos componentes principais e
traz a porcentagem de explicao de cada eixo. O nmero de autovalores o mesmo do nmero
de variveis. Os autovalores sero maiores para aquelas variveis que forem mais importantes
na formao do eixo.
Autovetores (eigenvectors): o mesmo que Loading, ou seja, coeficientes de combinao linear.
Os autovetores so os eixos principais de disperso da matriz e medem a importncia de uma
106
varivel em cada eixo. Desse modo, representam o peso de uma varivel para a construo de
um eixo e variam de -1 a 1 (correlao de Pearson);
Centride: mdia ponderada de um conjunto multivariado, a menor distncia mdia de todos os
objetos num espao multivariado;
Escores (Z1, Z2, Zn): posio das unidades amostrais ao longo de um eixo de ordenao, pode
se referir tanto unidades mostrais quanto variveis. Escores so fornecidos pela substituio
dos valores assumidos pelas variveis originais nas combinaes lineares. So utilizados para
ordenar as unidades amostrais em um diagrama uni, bi ou tridimensional.
Inrcia: a soma de todas as correlaes das variveis com elas mesmas, mede a quantidade de
varincia total que explicada por um eixo.
Loadings (coeficiente de estrutura): correlao de Pearson entre os escores e as variveis.
se justamente eliminar a correlao entre as variveis, produzindo assim novas variveis que
no correlacionadas. Alm disso, a PCA tambm muito sensvel a valores discrepantes e
outliers. Se a porcentagem de explicao dos eixos for muito similar entre si indica que no h
uma associao entre as variveis, i.e., no h uma estrutura clara nos dados.
Como perceber se a PCA foi a anlise adequada? Aqui no existe um nmero mgico
como o coeficiente de correlao cofentico. Ento, um critrio que se utiliza nestes casos
(dependendo do conjunto de dados analisado) utilizar a anlise somente se os dois, ou no
mximo, os trs primeiros eixos explicarem em torno de 70% da variao dos dados. Se isso
no acontecer, deve-se considerar outras anlises, como veremos a seguir. Caso contrrio, se
considerarmos quatro ou cinco eixos, a interpretao pode ficar complicada. Um exemplo de
interpretao de um biplot de PCA pode ser encontrado nas pginas 125-126 de Borcard et al.
(2011).
Exerccios
1) Carregue o pacote MASS que j instalado no R. Ative o pacote de dados Crabs,
data(crabs). Este conjunto traz medidas morfolgicas de dois morfo-tipos da espcie de
carangueijo Leptograpsus variegatus coletada em Fremantle, Austrlia. Calcule uma PCA e
veja se existe uma semelhana morfolgica entre os dois morfo-tipos. Lembre-se de dar nome
ao objeto e use a funo biplot.rda() para plotar o resultado do teste, utilize o argumento
scaling=1 e scaling=2. Dica: a projeo de um objeto perpendicular seta do descritor
fornece a posio aproximada do objeto ao longo desse descritor. A distncia dos objetos no
espao cartesiano reflete a distncia euclidiana entre eles.
2) Importe o arquivo DoubsEnv.csv para o R. Este conjunto fornece os descriores ambientais
em 30 locais do rio Doubs, prximo fronteira FranaSuia e consiste de 11 variveis
ambientais relacionada hidrologia, geomorfologia e qumica do rio. Calcule uma PCA com a
funo rda() do pacote vegan. Para ver como entrar com os argumentos na funo, digite
?rda, utilize o argumento scale=T para padronizar as variveis. Para ver quais eixos reter
para plotar e interpretar, carregue e utilize a funo evplot() escrita por Bocard et al. (2011)
disponvel no arquivo evplot.R. O argumento da funo deve ser os autovalores, portanto
extraia-os utilizando objeto1=objeto$CA$eig.
108
Exerccio
1) Importe o conjunto de dados bocaina_temporal.txt para o R. Este conjunto de dados
consiste da abundncias das espcies (nas linhas) de girinos que ocorreram em 13 poas durante
11 meses (colunas) no PARNA Serra da Bocaina. Faa uma PCoA utilizando o coeficiente de
Bray-Curtis com a funo pcoa() do pacote ape para descobrir se as espcies podem ser
agrupadas de acordo com um padro de ocorrncia temporal. Construa o biplot com a funo
biplot.pcoa().
109
aumentando-se as
Stress >0.2 ordenao invivel e a interpretao pode ficar comprometida. Com valores de
stress entre 0.35 e 0.4 as amostras esto posicionadas aleatoriamente, mantendo pouca ou
nenhuma relao com a similariadde original.
previamente. Como o nMDS uma tcnica iterativa, possvel realizar a anlise vrias vezes
como um procedimento para diminuir o valor de STRESS.
Exerccio
1) Utilize a funo metaMDS() do pacote vegan para ordenar os dados do arquivo
DoubsSpe.csv. Este conjunto de dados consiste da abundncia de peixes coletados em vrios
trechos do rio Doubs, prximo fronteira Frana-Suia, utilize a distncia de Bray-Curtis
primeiramente e depois escolha um outro ndice que tambm incorpore abundncia e plote o
resultado. Os resultados forram muito diferentes?
Ordenao restrita
Anlise de Correspondncia Cannica (CCA) e Anlise de Redundncia (RDA)
As duas principais anlises de ordenao restritas (constrained ordination) utilizadas
em ecologia so a Anlise de Correspondncia Cannica (CCA) e a Anlise de Redundncia
(RDA). Estas duas anlises so os equivalentes restritos da Anlise de Correspondncia (CA)
(no abordada no curso) e da PCA, respectivamente. O principal objetivo destas anlises
identificar a influncia de variveis ambientais sobre os padres de composio e abundncia
das espcies numa comunidade. Estas anlises so particularmente teis para analisar a
distribuio de espcies ao longo de gradientes ambientais, por isso so chamadas de anlises
direta de gradientes (direct gradient analysis).
A CCA avalia a estrutura de correlao dentro de um conjunto de dados (e.g., matriz de
abundncia de espcies) e entre a matriz de espcies e a matriz ambiental. Estas anlises so
chamadas de restritas por que restrigem a ordenao dos objetos de uma matriz por uma
regresso linear mltipla de uma segunda matriz. Em termos prticos, se o usurio est
interessado em saber o quanto da estrutura da comunidade pode estar relacionada a descritores
ambientais e se se espera que as espcies respondam de forma unimodal a estes gradientes,
ento a anlise de escolha a CCA. Similarmente, a RDA tambm busca encontrar o quanto da
composio e abundncia das espcies na comunidade esto relacionadas com descritores
ambientais, mas assume que existe uma resposta linear das espcies aos gradientes ambientais.
Enquanto o presuposto da CCA parece ser mais ecologicamente plausvel, os dados do usurio
podem ser apropriados para uma RDA se a amostragem no compreender todo o gradiente
ambiental. Por outro lado, a CA pode ser mais apropriada se o gradiente que influencia a
111
distribuio de espcies no tiver sido medido. Uma anlise recentemente proposta permite
analisar dados nos quais as espcies apresentem respostas mistas aos gradientes. O OMI (sigla
para Outlying Mean Index, Doldec et al., 2000) est disponvel na funo niche()do pacote
ade4.
A CCA maximiza a separao dos nichos das espcies. Assim, as respostas das espcies
diante do gradiente ambiental assumiriam a forma de curvas unimodais. Muitas variveis
ambientais podem ser utilizadas com o objetivo de explicar a distribuio das espcies,
resultando em nichos p-dimensionais, no entanto a anlise perde poder medida que a matriz
ambiental contiver mais e mais descritores do que unidades amostrais. A matriz de espcies
pode conter somente dados de incidncia. A RDA conceitualmente equivalente a uma
regresso linear mltipla multivariada, seguida de uma PCA baseada nos valores ajustados.
Diferentemente de outras anlises, como PCA, PCoA e nMDS, todas as anlises de
correspondncia, incluido a CCA, no calculam uma matriz de distncia. Ao contrrio, so
baseadas nas distncias de 2 onde as amostras so ponderadas de acordo com o total, fazendo
com que haja uma distino exagerada em amostras com muitas espcies raras. Por esse motivo,
o uso da CCA deve ser restrito situaes onde as espcies raras foram adequadamente
amostradas e so consideradas indicadores de caractersticas do ecosistema, do contrrio,
considere retirar espcies raras previamente anlise (Bocard et al., 2011, p.198-9).
O resultado prtico destas duas anlises, CCA e RDA, um biplot no qual as variveis
ambientais so plotadas como setas e as espcies como pontos. Quanto menor o ngulo da seta
em relao a um eixo, maior ser a correlao daquela varivel com o eixo. Geralmente em uma
anlise de ordenao, os nmeros que esto plotados nos eixos so os autovalores. Tambm
pouco comum plotar a correlao nos outros eixos. Se essa informao estiver disponvel, o
usurio pode projetar a ponta da seta representando a varivel no eixo da correlao para
encontrar a correlao da varivel com o eixo. O usurio pode saber a posio de uma amostra
no eixo simplesmente projetando perpencidularmente a amostra no eixo. De forma similar, uma
amostra pode ser projetada numa seta para saber em qual posio da varivel uma amostra se
encontra. No caso da CCA, ao projetar a espcie na seta da varivel o usurio encontra o timo
da espcie ao longo daquele gradiente. Quanto maior a seta, mais importante a varivel para
explicar a distribuio das espcies. As espcies que estiverem no quadrante para o qual a seta
aponta esto positivamente correlacionadas com varivel. Ao contrrio, as espcies que
estiverem no quadrante oposto, esto negativamente correlacionadas com a varivel. Mais
detalhes de interpretao do grfico produzido pela anlise podem ser encontradas em Legendre
& Legendre (1998; p. 586587), Zurr et al. (2007; p. 240-2) e Bocard et al. (2011; p.166-7).
112
Exerccios
1) Calcule uma RDA com os dados DoubsEnv.csv e DoubsSpe.csv, verifique se a anlise
foi aproprida e interprete o biplot.
2) Carregue os dados mite.env e mite e calcule uma CCA com esses dados, verifique se a
anlise foi aproprida e interprete o biplot.
exemplo mais famoso a comparao de uma tabela de composio de espcies com uma
segunda tabela de descritores ambientais (i.e., anlise direta de gradientes). A ideia bsica da
RDA limitar a matriz Y de composio de espcies a uma combinao linear com as
variveis ambientais. Em resumo, a RDA pode ser considerada uma regresso mltipla com
todas as espcies sendo testadas simultaneamente (ter Braak & Smilauer 2002). Tanto a RDA
parcial quanto a CCA parcial (daqui em diante RDAp e CCAp) tm a mesma lgica da RDA e
CCA, porm as parciais utilizam uma terceira matriz no clculo. A RDAp e CCAp possuem
dois grupos de variveis explanatrias: uma matriz X com as variveis explanatrias que sero
utilizadas no modelo, e uma matriz W com as covariveis (e.g., variao espacial ou temporal);
o efeito das covariveis em Y (geralmente matriz de composio de espcies) controlado na
anlise. Em geral, a matriz W contm variveis cujos efeitos sobre a matriz Y so conhecidos.
Por exemplo, coletas realizadas em tempos diferentes (e.g., dia, semana, ms) podem ser
consideradas como covariveis e, dessse modo, devem ser controladas com RDAp ou CCAp.
Para analisar a relao da matriz Y com a matriz X na presena da covarivel W necessrio:
(i) calcular os resduos de Y sobre W (chamados de Yres|w) e os resduos de X sobre W
(chamados Xres|w); (ii) calcular a RDA (ou CCA) entre Yres|w e Xres|w ou entre Y e Xres|w. Para
testar a significncia das anlises RDAp ou CCAp so utilizados mtodos de permutao.
importante notar que uma hiptese nula pode ser formulada sobre a relao entre X e Y. A partir
dessa hiptese nula e dos testes de permutao, valores de probabilidade so acessados por meio
de aleatorizaes (veja detalhes metodolgicos em Legendre & Legendre 1998; Bocard et al.
2011). Para calcular a fora da relao entre Y e Xres|w (R2 cannico) usa-se a seguinte frmula:
! !|!!"#|! =
SS(Y!"# )
SS(Y)
Onde SS (Yfit) representa a soma dos quadrados dos valores ajustados de Y, e SS(Y) a
soma dos quadrados dos valores observados de Y. Para calcular a soma dos quadrados, o
clculo mais apropriado : SS (Yfit) = SS (Yfit|(X+W)) SS(Yfit|W), e SS (Yres) = SS (Y) SS
(Yfit|(X+W)). A soma de (X + W) representa a concatenao de X e W na mesma matriz. Yfit
representado como uma regresso mltipla de Y contra X, ou seja, os valores ajustados de Y
conforme frmula da regresso, Yfit=X[XX]-1XY.
Cuidado! No caso de interao entre a varivel temporal e as variveis ambientais ou
espaciais, abordagens adicionais so necessrias para validar o modelo (mais detalhes em
Legendre & Legendre 1998).
114
Praticando:
Exemplo 1: Uma pesquisadora pretende testar como a composio de espcies de caros
(matriz Y) varia na espcie de planta Tibouchina granulosa (Melastomataceae) na Serra do Mar.
Para cada planta, ela anotou as seguintes variveis: espessura da folha (esfl), rea foliar (arfl) e
densidade de tricomas (dtri). A pesquisadora tinha conhecimento de que a quantidade de gua
no substrato (quag), o tipo de solo (tiso) e a densidade da planta competidora Tibouchina
clavatium (dens.tc) afetavam caractersticas estruturais da planta T. granulosa. Por isso, ela
coletou esses dados para utilizar como covariveis na anlise.
- Principal teoria: Teoria do nicho
- Pergunta: a estrutura foliar de T. granulosa determina a composio de espcies de caros?
- Unidade amostral: planta.
- Varivel dependente: composio de espcies.
- Varivel independente: planta, variveis ambientais (i.e., comprimento, largura, espessura e
rea foliar, densidade de tricomas).
- Covariveis: quantidade de gua no substrato e tipo de solo.
Exemplo 2: Um pesquisador pretende comparar a comunidade de caros associados
seringueiras em diversas regies do Brasil. A principal questo investigar se a composio de
espcies de caros influenciada por caractersticas ambientais (estrutura da planta hospedeira)
e espaciais (oito localidades nos seguintes estados: AM, BA, ES, MS, MT, PA, SP). O
pesquisador dividiu as caractersticas ambientais em duas escalas: uma ao nvel da planta
(densidade de tricomas, espessura foliar) e outra ao nvel bioqumico (teor de nitrognio,
enxofre, protenas e acares solveis) e anotou as coordenadas geogrficas dos pontos de
coleta de cada planta.
- Principais teorias: Teoria do nicho e teoria neutra
- Pergunta: qual a importncia relativa das caractersticas ambientais e espaciais na
determinao da composio de espcies de caros associados seringueira?
115
Anlise de Procrustes
A anlise de Procrustes um mtodo que compara dois grupos de dados. Esta anlise
mede o grau de concordncia entre duas matrizes. Em outras palavras, o mtodo combina
pontos correspondentes (chamados marcos) que so representados pela ordenao de espcies
e caractersticas ambientais (quando aplicados ecologia de comunidades) amostrados nas
mesmas unidades amostrais. O objetivo da anlise de minimizar os desvios da soma de
quadrados, o que define a estatstica do teste (m2) por meio da traduo (combina os dados de
maneira que possuam o mesmo centride), rotao e dilatao (dimensionamento dos dados) de
um conjunto de dados para que seja combinvel com a configurao alvo (target matrix
ABC; veja esquema abaixo). Desse modo, quanto menor o valor dos resduos, maior a
concordncia entre o conjunto de dados. Para testar a significncia do valor de m2 observado,
so realizadas vrias aleatorizaes (definidas pelo usurio) com os dados originais para gerar n
valores de m2. Esta aleatorizao conhecida como PROtest na literatura. Os valores de m2 e de
P so definidos por:
m2 = 1 (TraceW)2
P = 1 + m2small / 1 + n
Para obter a matriz W necessrio decompor a matriz Y(nxp) em duas matrizes ortogonais V(nxp)
e U(pxp), e na matriz diagonal W. Para o clculo do m2, TraceW representa a soma dos
elementos da diagonal principal (ou trao) da matriz W. A demonstrao matemtica dessa
funo no est no escopo dessa apostila. Para mais detalhes consulte Legendre & Legendre
(1998). Para testar a significncia do valor observado (m2obs), m2small indica o nmero de valores
de m2 simulados que so menores ou iguais ao m2obs, e n representa o nmero de aleatorizaes.
Por exemplo, se 12 valores encontrados na aleatorizao (n = 9999 aleatorizaes) so menores
ou iguais ao m2obs observado, a probabilidade de que a hiptese nula seja verdadeira (ou seja, os
dados no so concordantes) P = (1 + 12) / (1 + 9999) = 0,0013.
116
Dados originais
Dados originais
Traduo
(centride comum)
Rotao e
dimensionamento
Praticando:
Exemplo 1: Um pesquisador pretende testar se peixes e macro-invetebrados aquticos tm
respostas concordantes em relao aos lagos que ocorrem na regio de Linhares, ES. Um dos
objetivos desse pesquisador foi usar espcies-chave para reduzir o custo de se coletar vrios
txons em uma mesma regio. Em teoria, se espcies de txons distintos respondem da mesma
maneira em relao diversas localidades (i.e., respostas concordantes), a resposta de um grupo
taxonmico pode ser extrapolada para grupos concordantes. Cada lago (n = 25) foi dividido
previamente em 30 parcelas imaginrias (selecionadas com imagens areas dos lagos). Foram
sorteadas 5 parcelas/lago para fazer a coleta de peixes e macro-invertebrados com os mtodos
apropriados.
- Principal teoria: Teoria do nicho (baseando-se nas idias de concordncia de comunidades;
Community concordance em ingls). Em um contexto de metacomunidades importante
conhecer a perspectiva de species sorting.
- Pergunta: peixes e macro-invertebrados possuem distribuio concordante em lagos da regio
de Linhares?
117
LEITURA RECOMENDADA
*Artigo da PERMANOVA
Blanchet, F. G., Legendre, P. & Borcard, D. 2008.
Anderson, M.J. et al. 2011. Navigating the multiple
meanings of beta diversity: a roadmap for the
118
Berlin: Springer.
ndice.
67(3):345-366
Biometrics 62:361371.
*Artigo que prope o IndVal
Clarke, K. R. (1993). Non-parametric multivariate
analysis of changes in community structure.
Australian Journal of Ecology 18, 117-143.
**Artigo que descreve o ANOSIM e uma tima
referncia para o nMDS tambm.
a-passo
Monographs 54:187-211.
til.
Press.
http://ordination.okstate.edu/
Systematics21:129-66.
Owen, W. J. The R Guide disponvel em
*texto crtico que deve de ser lido por todo usurio de
anlises multivariadas. Bom tambm para escolher a
http://www.mathcs.richmond.edu/~wowen/TheRGuid
e.pdf.
anlise correta.
* Este um manual pequeno (49 pginas) fcil de
Krebs, C. J. 1999. Ecological Methodology. 2 ed.
Menlo-Park: Benjamin-Cummings.
*Texto bom para descries e exemplos de
coeficientes de similaridade e ndices de diversidade,
mas desatualizado infelizmente.
Legendre, P. & Legendre, L. 1998. Numerical
http://cran.r-project.org/doc/contrib/Paradisrdebuts_en.pdf
* Este manual d algumas noes iniciais de como
lidar com objetos e grficos no R, alm de
rudimentos de programao e anlises estatsticas
elementares.
programming. Springer.
Ecology 80:2508-2516.
Venables, W. N. & Ripley, B.D. 2002. Modern
R Labs for Vegetation
Ecologists<http://ecology.msu.montana.edu/labdsv/R
/labs/>
aventurar no R.
introduction to R. Disponvel em
http://brieger.esalq.usp.br/CRAN/doc/manuals/R-
intro.pdf
1167-1179.