You are on page 1of 136

William E.

Magnusson
Coordenao de Pesquisas em Ecologia
Instituto Nacional de Pesquisas da Amaznia
Guilherme Mouro
Embrapa Pantanal
Empresa Brasileira de Pesquisa Agropecuria

BASE ESTATSTICA PARA


ESTUDOS ECOLGICOS:
A ligao entre as
questes e as anlises
[Estatstica Sem Matemtica]

2002-2
Agradecimentos

Muitas pessoas contriburam para o desenvolvimento deste livro, principalmente


nossos alunos. Entretanto, somente podemos mencionar umas poucas pessoas que
contriburam no estgio final da obra. Sua estrutura geral foi concebida durante a estadia
de um de ns (W.E.M.) na Universidade de Griffith, Austrlia, graas interveno de
Carla Catterall e Marc Hero e a bolsa de ps-doutorado recebida da CAPES. Mike Dale
revisou a verso em Ingls e corrigiu muitos dos deslizes gramaticais, estatsticos e
filosficos. A verso em Portugus se beneficiou das revises cuidadosas de Helena
Bergallo, Isis Medri e Agostinho Catella.

Magnusson e Mouro

ndice
Captulo 1: Introduo ......................................................................... 4
O que delineamento amostral? ............................................................ 9
O que esperamos que voc obtenha deste livro ................................... 13
Captulo 2: Fluxogramas e questes cientficas. .................................. 16
Construindo a hiptese inicial ............................................................... 17
Trs tipos de estudo .............................................................................. 21
Qual o tamanho do problema? ............................................................. 24
Para onde ir? ......................................................................................... 25
Captulo 3: Descrevendo a natureza - algumas convenes "cientficas"
e algumas tcnicas teis. .................................................................... 26
Descritores sem sentido........................................................................ 34
Captulo 4: Quanta evidncia necessria? ........................................ 36
Qual a qualidade da informao? ......................................................... 37
Captulo 5: Quando improvvel significa bem possvel. ....................... 42
Como os livros de texto contam a estria? ........................................... 47
Como os estatsticos contam observaes independentes ................... 48
mais fcil compreender o mundo se no o colocar de cabea para
baixo. .................................................................................................... 50
Captulo 6: Como evitar acumular o risco em comparaes simples .... 53
Com que tipo de risco estamos preocupados? ..................................... 53
Usando a variabilidade para reconhecer uma diferena ....................... 54
Uma premissa importante .................................................................... 57
Partio das varincias .......................................................................... 59
Captulo 7: Anlises para um mundo com todas as tonalidades .......... 62
Encaixotando o mundo ......................................................................... 62
Descrevendo um mundo retilneo ........................................................ 65
O quanto o modelo se ajusta? .............................................................. 68
Captulo 8: Problemas do mundo real - mais de um fator ................... 71
Fatores simultneos .............................................................................. 71
2

Adicionando variabilidades repartidas .................................................. 74


Checando premissas com grficos de parciais ...................................... 75
Interaes ............................................................................................. 76
Captulo 9: Quais variveis analisar? .................................................. 78
Inteligncia artificial .............................................................................. 79
Variveis fantasmas geradas por computadores .................................. 83
Captulo 10: Modelos complexos ....................................................... 87
Estimando efeitos diretos ..................................................................... 89
Estimando efeitos indiretos .................................................................. 90
Alguns problemas com a anlise de caminhos ...................................... 91
Captulo 11: Endireitando o mundo com transformaes e outros
truques .............................................................................................. 93
Estimativas por tentativa e erro sem transformao ............................ 96
Outros mtodos atpicos ....................................................................... 97
Modelos gerais lineares ........................................................................ 98
Problemas e armadilhas da estimativa no-linear .............................. 100
Captulo 12: Anlise multivariada - cortando as rvores para enxergar
melhor a floresta. ............................................................................. 102
Grficos de gradientes ........................................................................ 103
Gradientes hipotticos ........................................................................ 106
Mais do que uma dimenso ................................................................ 109
Anlises de vetores de "eigen"............................................................ 110
A fora da cultura: testes de significncia ........................................... 112
Discriminando entre grupos ................................................................ 115
Categorias que crescem em rvores ................................................... 116
Selecionando variveis ........................................................................ 119
Saber o que queremos antes de comear ........................................... 120
Captulo 13: Dicas para professores.................................................. 122
Referncias ...................................................................................... 130
3

Magnusson e Mouro

Captulo 1:
Introduo
A ltima coisa que o mundo precisa de mais um livro de estatstica. Existem
dezenas deles, aos quais os estatsticos podem recorrer, quando necessrio. Muitos so
escritos com estilo e leveza. Ento, para qu dois eclogos, que se sentem especialmente
incompetentes em matemtica, se arriscariam a escrever um livro que trata de conceitos
de estatstica? Uma das razes que temos, j por alguns anos, lecionado um curso um
pouco "diferente" de estatstica bsica, especialmente endereado para estudantes de
ps-graduao em ecologia e, de alguma forma, este curso tem revolucionado a
habilidade destes estudantes em comunicar seus resultados de pesquisa (Magnusson
1997). Entretanto, no usvamos nenhum livro de texto para acompanhar este curso e
estudantes e professores sempre nos cobravam um. A outra razo que nos demos conta
de que nosso curso vem servindo principalmente para remediar falhas acumuladas na
formao destes alunos (Magnusson 1977). Gastamos um tempo enorme para ensinar
conceitos bsicos que eles desaprenderam durante seus cursos bsicos de estatstica.
Tukey (1980) j percebera que "Os estudantes que nunca foram expostos
estatstica confirmatria parecem aprender a estatstica exploratria mais prontamente."
Os maiores erros no delineamento amostral resultam de no se levar em conta conceitos
bsicos de lgica que muitos estudantes levariam, se sua ateno no tivesse sido
desviada pela matemtica das estatsticas. Platt (1964) colocou isto de forma eloqente na
seguinte passagem, traduzida um pouco livremente: "Voc pode capturar um fenmeno
em uma malha lgica ou matemtica. A lgica uma malha grossa, mas forte. A
matemtica fina, porm frgil. A matemtica uma forma bonita de embrulhar um
problema, mas no pode reter sua essncia, a no ser que ela tenha sido capturada na
malha lgica desde o comeo". Guttman (1985) se referiu a isso como "contingente e
contedo".
claro que esperamos poder ensinar algum contedo atravs da matemtica,
porque alguns conceitos estatsticos/matemticos podem nos ajudar a ver o mundo mais
claramente. Contudo, estes no so os conceitos enfatizados nos cursos regulares de
estatstica. Os estudantes freqentemente nos perguntam porque os cursos regulares de
estatstica no tratam destes assuntos. A resposta que eles tratam. Se voc pegar as
primeiras pginas de cada captulo de qualquer bom livro de estatstica e coloc-las juntas,
elas contariam uma histria muito semelhante que contaremos neste livro. Outros
autores tm se dados conta da necessidade de passar aos leitores uma viso geral que
coloque as diferentes anlises estatsticas em uma mesma ordenao lgica. No final do
primeiro captulo de seu livro Harris (1975) escreveu o seguinte: "Para qu ler o resto
deste livro? Podemos considerar que se um estudante de doutorado em psicologia
entendeu plenamente os conceitos contidos nesta seo, os quais se baseiam apenas em
bom senso, ento este estudante adquiriu cerca de 90% da habilidade necessria para
interpretar estatsticas multivariadas." Contudo, poucas pessoas lem o primeiro captulo
de Harris ou de qualquer outro livro de estatstica. Um pesquisador est interessado nas
interaes de muitos fatores e algum diz "voc precisa de regresso mltipla (ou anlise
de componentes principais, ou anlise de varincia fatorial, ou outro procedimento
aparentemente complicado), ento v para a pgina 365. O autor do livro deve ter tido
muita "dor de cabea" para apresentar a seqncia lgica, que gradativamente levaria ao
entendimento necessrio para usar a informao apresentada na pgina 365. Contudo,
poucos iro ler a obra pgina por pgina. Nenhum dos autores deste livro leu qualquer
4

outro livro de estatstica do princpio ao fim, na ordem em que os autores apresentaram o


contedo. Mas, gostaramos que vocs lessem este livro desta forma e portanto, fizemos
nossos captulos bastante curtos.
Este livro trata da estatstica bsica e desenho experimental que os estudantes
precisam para entender a literatura ecolgica. Quando dizemos "estatstica bsica" no
queremos dizer ficar tirando, ao acaso, bolinhas coloridas de um saco, ou usar anlise de
varincia para comparar as taxas de crescimento de sorgo em canteiros com trs nveis
diferentes de fertilizantes. Estas questes no so bsicas, so triviais. Em nosso curso
usualmente gastamos 3 dias (24 horas-aula) para preparar os alunos para simples
comparaes de mdias, mas isto no o ponto final. Se depois de 10 dias, o estudante
no entender as bases de regresses mltiplas, anlise de varincia fatorial, estatstica
multivariada e "anlise de caminhos", ele no ser capaz de ler a literatura. preciso estar
"alfabetizado" para aprender o conhecimento acadmico.
H muitos nveis pelos quais se pode abordar uma matria e a escolha da
abordagem uma deciso pessoal e criticamente importante. Para ilustrar a nossa
escolha, vamos apresentar duas analogias bem emocionais. Se voc desejasse aprender a
respeito de armas de fogo, poderia comear tomando aulas de balstica e engenharia de
materiais. Ou voc poderia ler os folhetos dos fabricantes de armas e aprender como a
posse de armas far voc se destacar socialmente e torn-lo(a) mais atraente para o sexo
oposto. Entretanto, ns comearamos ensinando que armas de fogo foram projetadas
para matar pessoas ou animais e que h consideraes ticas e prticas em relao ao
seu uso. Um fisiologista pode praticar sexo para obter dados ou amostras, e investigar a
qumica da reproduo. Revistas populares ensinam que o intercurso sexual um meio de
atingir um status social elevado e que dispor de muitos parceiros motivo para orgulho.
Ns comearamos dizendo que o intercurso sexual tem as funes bsicas de servir de
meio de comunicao entre duas pessoas e, eventualmente, fazer bebs. No estamos
dizendo que nosso ponto melhor ou mais abrangente que os demais, apenas que ele o
mais importante para ns. Acreditamos que tratados matemticos sobre estatstica so to
importantes quanto a engenharia de materiais ou a fisiologia intracelular, porm, talvez
no seja o melhor caminho para levar estudantes a dominarem o conhecimento
necessrio para usar a estatstica de uma forma prtica na interpretao de dados. Por
outro lado, a estatstica, da mesma forma que armas de fogo e revistas sobre sexo, pode
ser uma ferramenta para promover identidade cultural. Entretanto, acreditamos que o uso
da estatstica como uma ferramenta de anlise de dados e como meio de comunicao
entre pesquisadores o melhor ponto de partida. Se voc deseja uma abordagem
reducionista, leia Winer et al. (1991) ou Harris (1975). Se voc quer usar a estatstica
como uma forma de distingi-lo entre seus pares na academia, pode ler captulos
individuais de qualquer livro-texto de estatstica ou, melhor ainda, o texto inteiro de
Dytham (1999). Mas se deseja uma alternativa a estas opes, este o livro correto para
voc.
Talvez voc no precise realmente deste livro. Se voc responder "sim" para todas
as questes que aparecem na tabela 1, voc domina os principais conceitos necessrios
para planejar pesquisas e pode se imergir na malha delicada da matemtica. Infelizmente,
a maioria das pessoas que respondem "sim" para todas as questes da tabela 1
simplesmente o fazem por no serem capazes de se aperceber o quanto desconhecem.

Magnusson e Mouro

TABELA 1. UM GUIA PARA PLANEJAR SEU ESTUDO.


Voc est preparado para comear a coletar os dados de sua pesquisa? Se voc
responder "sim" para todas as perguntas abaixo, ento no precisa ler este livro
1.

Voc decidiu qual o objeto de seu estudo? (varivel dependente).

2.

Sua varivel dependente pode ser medida objetivamente e voc perguntou


a outros pesquisadores se eles consideram sua medida "objetiva"?
3. Voc consultou os outros membros de sua equipe de pesquisa para se
certificar que todos tm os mesmos propsitos?
4. Voc esboou um diagrama de fluxo que mostra quais variveis influenciam
a varivel dependente e as relaes entre as variveis independentes?
5. Todos os membros de sua equipe esto coletando dados na mesma escala
e nos mesmos lugares, de forma que seja possvel integrar os dados ao
final do estudo?
6. Voc decidiu qual o seu universo de interesse e todos os membros da
equipe concordam com isso?
7. Voc desenhou um mapa ou um diagrama conceitual que mostra
onde/quando suas amostras sero feitas em relao ao seu universo de
interesse?
8. Voc desenhou grficos de pontos hipotticos, mostrando o nmero de
observaes independentes, a variabilidade nos dados e a magnitude dos
efeitos que voc espera encontrar?
9. Voc otimizou o tamanho, forma, orientao e distribuio de suas
unidades amostrais de tal forma que a variabilidade na varivel dependente
seja principalmente devida s variveis independentes que voc est
estudando?
10. Sua amostragem est na mesma escala que sua(s) questo(es)?
11. Voc decidiu se est interessado em efeitos diretos, indiretos ou em efeitos
gerais?
12. Voc decidiu se seus resultados sero usados para determinar se existe um
efeito, para determinar a magnitude do efeito nas condies presentes, ou
se para predizer o que acontecer se as condies mudarem?
13. Voc se sente confiante de que sua formao em estatstica suficiente
para torn-lo capaz de realizar todas as operaes mencionadas acima?
14. Voc se sente confiante de que sua formao estatstica preparou voc
para escolher a anlise apropriada para responder sua questo, antes que
voc comece a sua coleta de dados?
15. Se voc respondeu sim para a questo 14, voc consultou um estatstico,
mostrando a ele os resultados de todas as operaes mencionadas acima,
para se certificar que voc no est apenas enganando a si prprio?
16. O uso das estatsticas e anlises que voc escolheu o ajudar a se
comunicar com sua audincia?
6

Mais perigosos ainda, so os que acreditam que a matemtica pode suprir a falta
de conhecimento dos conceitos referidos na tabela 1. Se o pesquisador no compreendeu
bem estes conceitos, nenhuma quantidade de frmulas tediosas resolvidas mo, ou em
miraculosos programas de computadores, nem mesmo um monte de teoremas
matemticos pode tornar o seu trabalho til. Este livro no pode torn-lo competente em
todos os aspectos abordados na tabela 1. Na verdade, poderamos escrever um livro
inteiro a respeito de cada um. Concordamos inteiramente com Harris (1975), quando diz
que ainda no encontrou algum que tenha adquirido domnio em qualquer rea da
estatstica sem ter realizado muitas anlises com dados reais preferivelmente dados
realmente importantes para esta pessoa. Contudo, podemos passar para os leitores uma
introduo aos conceitos.
Um dos problemas com os livros de estatstica que eles foram escritos por
estatsticos. Um estatstico aquele tipo de pessoa que enxerga o mundo em termos de
abstraes matemticas e que se sente confortvel com conceitos que no tm
contrapartida no mundo real (Guttman 1985). Os estatsticos descobriram h muito tempo
que o domnio da estatstica s vem aps uma base em amostragem e inspeo dos dados
brutos (p.ex. Deming 1975, Tukey 1980).
Nosso curso basicamente segue as recomendaes da "American Statistical
Association/Mathematical Association of America joint curriculum committee" (veja Moore
1997: Fig. 1). A maior diferena que ns ensinamos os conceitos usando grficos
simples e, quando necessrio, analogias. Enquanto os cursos regulares de estatstica
gastam um dia explicando os conceitos e 9 dias afogando os estudantes em matemtica,
nosso curso emprega 10 dias na explorao de conceitos em relao s tcnicas e anlises
mais freqentes na literatura ecolgica, e deixa a matemtica para cursos subseqentes
ou estudo individual. Esta abordagem funciona bem tanto para estudantes que nunca
tiveram um curso de estatstica, quanto para estudantes e profissionais que j tiveram
cursos avanados. Alguns dos nossos alunos mais entusiastas so responsveis por
ministrar cursos de estatstica para estudantes universitrios. A maioria manifestou
vontade de aprofundar seu conhecimento de matemtica e muitos disseram que
gostariam de repetir os cursos de estatstica que fizeram anteriormente. Este efeito
muito diferente do que o provocado pela maioria dos cursos tradicionais de estatstica,
que tendem justamente a aumentar a fobia matemtica, geralmente presente nos
bilogos. Em defesa dos bilogos, lembramos que h muitas formas de inteligncia e a
proficincia em matemtica apenas uma delas (Goleman 1995).
Enfatizamos bastante a comunicao. Um dos nossos problemas com tcnicas
estatsticas que cada disciplina tem suas escalas de amostragem e tipos de anlises
caractersticas. As agncias financiadoras de pesquisa vm pressionando cada vez mais os
pesquisadores a submeter projetos integrados, que so usualmente chamados de
interdisciplinares ou multidisciplinares. Nestes projetos, o lder precisa reunir as
contribuies de diferentes pesquisadores, preocupando-se em organiz-las de modo que
a proposta final tenha, ou pelo menos aparente ter, coerncia e unidade. Usualmente, o
lder no tem experincia nos diferentes campos de estudo do projeto integrado, e
aceita os desenhos amostrais apresentados por seus colegas. Isto faz com que as equipes
de pesquisa trabalhem no mesmo local, freqentemente lado a lado e com alguma sorte
at comunicando-se uns com os outros, o que no implica, necessariamente, em uma
anlise integrada dos dados. Algumas vezes, a criao de bancos de dados, ao invs da
interpretao deles, passa a ser o objetivo principal dos projetos (Hale 1999). Em
conseqncia, a maioria dos estudos publicada independentemente em revistas
especializadas e os resultados integrados, que as agncias financiadoras esperavam, no
7

Magnusson e Mouro

aparecem.
Muitos cientistas so pessoas com dificuldades no trato social, que no gostam de
ser vistos por seus pares como sendo diferentes. Neste caso, pares significam outros
cientistas que militam na mesma disciplina e no os colegas do grupo integrado. Eles
vem a estatstica como um trofu cultural ao invs de um meio de comunicao de
informaes objetivas. Salsburg (1985) vai a ponto de se referir estatstica como uma
religio. O lder do grupo freqentemente se depara com a difcil tarefa de convencer os
membros da equipe a ajustar seus esquemas de amostragem em funo da questo
global que est sendo estudada e no s padronizaes de suas disciplinas. provvel
que o lder do grupo seja competente poltica e socialmente, mas com pouco preparo em
matemtica ou estatstica. Provavelmente, ele/ela tem apenas uma vaga idia de como
integrar os diversos protocolos de amostragem e menos idia ainda das conseqncias
matemticas de no integr-los.
Uma soluo simples seria o lder do grupo fazer cursos avanados de matemtica
e estatstica e simultaneamente, manter seus contatos polticos e postergar o incio do
projeto at quando se sentisse matematicamente competente. Isto seria o mesmo que
exigir que um operrio industrial ganhe a vida pescando: pode funcionar na teoria, mas
no vai parecer certo quando a famlia comear a passar fome. Este livro foi elaborado
para fornecer aos lderes de projetos integrados, informaes suficientes para que eles
entendam a necessidade e as limitaes de protocolos de amostragens efetivos, sem
tentar transform-los em matemticos profissionais. Todos os conceitos so apresentados
com o mnimo de matemtica: s fornecemos o necessrio para que o pesquisador seja
capaz de se comunicar com um estatstico, quando julgar oportuno o aconselhamento
especializado e para entender o jargo que outros membros da equipe tenham
memorizado.
Assumimos que os leitores podem interpretar grficos simples como o da figura 1,
que descreve algumas medidas de altura de um grupo de homens e mulheres. Vamos
tentar mostrar que os teste estatsticos mais teis produzem resultados que podem ser
interpretados em termos de grficos simples como este. Delineamento amostral e clculos
estatsticos no so necessrios se as informaes originais puderem ser diretamente
expressas em grficos bidimensionais. No entanto, acreditamos que os conceitos por
detrs de muitas das anlises estatsticas e os resultados que elas produzem, podem ser
ensinados graficamente e escrevemos este livro para tentar convenc-los disto.

Figura 1

ALTURA (cm)

190
185
180
175
170
S

EN
M
O

ES
R
E

LH 8
U
M

O que delineamento amostral?


Delinear uma amostragem coletar os dados de forma que voc tenha uma boa
chance de tomar uma boa deciso. Em grande parte, depende apenas do bom senso, mas
ainda assim, nos captulos seguintes, vamos mostrar alguns exemplos de como modelos
simples podem ajudar a revelar padres que, a princpio, estavam escondidos.
O delineamento amostral pode ser to crtico, que pequenas diferenas nos
procedimentos de amostragem fazem com que ele seja apropriado ou no para responder
determinada questo. O pior que muitas vezes no nos damos conta disto. Considere,
por exemplo, a estria a seguir. Uma espcie de primata ocorre apenas em uma reserva e
acredita-se que sua populao est em declnio. Algumas pessoas sugeriram que a espcie
ocorre em maior densidade nas partes da reserva com maior densidade de rvores e isto
tem implicaes em termos das aes de manejo necessrias para a conservao da
espcie em questo. As autoridades responsveis pela proteo da vida silvestre
encomendam um estudo de 2 anos para determinar o quanto as densidades do primata
esto associadas com as densidades de rvores e se a populao do tal primata est
realmente em declnio. O bilogo A contratado e decide fazer uma contagem dos
primatas e das rvores seguindo transeces que atravessam a rea em estudo. Ele faz
uma contagem no primeiro ano e uma segunda no ano seguinte, para comparar a
densidade de primatas entre anos. Os diagramas da figura 2 mostram os dados crus
obtidos pelo bilogo A em seus levantamentos e os grficos da figura 3 mostram como ele
apresentou seus dados s autoridades. Os smbolos "x" representam macacos e os
smbolos "o" representam rvores.

Figura 2
ANO 1

ANO 2

Na figura 3a no vemos nenhuma diferena convincente nas densidades do primata


entre os anos de estudo. Contudo, na figura 3b podemos observar uma forte tendncia
das densidades do animal serem maiores onde h mais rvores.

Magnusson e Mouro

Figura 3
PRIMATAS

40

30
20
10
0
0

1
2
ANOS

10
20
RVORES

30

Vamos imaginar que uma organizao conservacionista suspeitasse das intenes


do governo e contratasse a biloga B para fazer um estudo independente endereado em
responder as mesmas questes. Ela usa um desenho amostral quase idntico, exceto que
alinha seus transeces numa direo perpendicular em relao aos transeces do
bilogo A (figura 4).

Figura 4
ANO 1

ANO 2

Seus resultados, apresentados na figura 5, indicam uma diferena convincente nas


densidades do animal entre os anos (figura 5a), mas uma relao fraca ou inexistente
entre as densidades do animal e das plantas (figura 5b).

10

Figura 5
PRIMATAS

40

30
20
10
0
0

1
2
ANOS

10
15
RVORES

20

Os dois bilogos chegam a concluses completamente opostas. Contudo, a


diferena no desenho amostral foi apenas a direo dos transeces. Na verdade, os dois
bilogos estudaram os mesmos dados. Criamos este exemplo sobrepondo transeces
sobre o mesmo diagrama, mostrado na figura 6, sendo a direo dos transeces a nica
diferena que atribumos entre os desenhos amostrais dos dois bilogos.

Figura 6
ANO 1

ANO 2

Nenhum dos bilogos esteve mais correto do que o outro. O delineamento do


bilogo A foi superior para detectar a relao entre plantas e animais do que o usado pela
biloga B, mas um esquema diferente de amostragem, baseado em parcelas quadradas
ou circulares poderia ser igualmente efetivo. O delineamento usado pela biloga B foi
superior para detectar diferenas entre anos e o uso de parcelas no seria adequado para
responder esta questo.
Em situaes como esta, onde h um forte gradiente nas densidades atravs da
rea a ser amostrada, a orientao, forma e tamanho das unidades amostrais iro
determinar as questes que podem ser respondidas. Caughley e Sinclair (1994: Captulo
11

Magnusson e Mouro

12) fornecem exemplos para vertebrados, Stern (1998), para plantas, e Johnson et al.
(1999) discutem como amostrar caractersticas de habitats. Krebs (1998) oferece uma
discusso sobre aspectos gerais de forma e tamanho das unidades amostrais.
Mesmo quando no h gradientes fortes, como no nosso exemplo, sempre h uma
escala em que os organismos esto agrupados. No podemos nos estender muito em
como selecionar as unidades amostrais neste livro. Entretanto, a menos que a forma e o
tamanho das unidades amostrais seja apropriada para uma determinada questo,
nenhuma das tcnicas estatsticas, nem as mais sofisticadas, que discutiremos nos
prximos captulos, tero utilidade para revelar padres da natureza ou comunicar
resultados de pesquisa. Tukey (1980) enfatizou que "Encontrar a pergunta certa
freqentemente mais importante do que encontrar a resposta certa". No podemos ajudar
muito os leitores neste aspecto crucial, j que formular questes realmente interessantes
envolve insight, experincia e curiosidade. Mas no basta que as perguntas sejam
interessantes. Elas precisam ser "respondveis", no sentido de que devem dar origem a
hipteses que possam ser refutadas (veja captulo 5). Perguntas do tipo "existe vida
depois da morte?" so evidentemente interessantssimas, mas desafiam a mente humana
a derivar hipteses refutveis. Perguntas como estas se situam alm da cincia e da fsica
atual, so metafsicas e a biologia repleta de questes metafsicas. Formular perguntas
interessantes e respondveis arte. Mesmo assim recomendamos a leitura de Tukey
(1980) e Guttman (1985), para aqueles que desejam uma orientao adicional neste
tpico.
O delineamento amostral diz respeito compreenso de conceitos que so
importantes a cada passo no processo, desde o planejamento, execuo, anlise e
publicao. Este livro no como os livros regulares de estatstica, embora no traga nada
que no possa ser encontrado nos livros regulares, se souberem onde procurar. Tambm
no um manual de um programa de computador (veja Dytham 1999 para uma
introduo computao estatstica). Este livro cobre apenas os princpios mais gerais que
os pesquisadores precisam entender para usar as estatsticas convencionais de forma
inteligente. No tentamos ser completos. Na verdade, acreditamos que este livro ser
tanto mais til quanto mais assuntos deixarmos de fora dele. Ns sofremos cada vez que
decidimos excluir um ponto importante ou detalhes interessantes, mas nossa experincia
indica que muita informao retarda o aprendizado e a compreenso de conceitos. Uma
vez armado destes conceitos, o pesquisador pode rapidamente descobrir os detalhes. No
cobrimos os tpicos que a maioria dos pesquisadores parecem entender. Escolhemos
aqueles que os pesquisadores e estudantes tm dificuldade em entender em seus cursos
regulares de estatstica, e que causam a maioria dos problemas de comunicao entre
pesquisadores. Alm disso, fornecemos o mnimo de referncias possvel, j que a maior
parte do que veremos aparece em qualquer bom livro-texto de estatstica, embora quase
sempre to escondido que a maioria dos leitores simplesmente no pode encontrar.
Muitos de vocs podem simplesmente ignorar a maioria das citaes, j que elas podem
distrair a ateno dos conceitos mais importantes. Contudo, os professores esto
convidados a se referir literatura original, ao invs de nossos sumrios necessariamente
breves e incompletos. A literatura que citamos fortemente enviesada em direo s
abordagens conceituais e filosficas, ao invs de em tcnicas matemticas, exceto talvez,
na seo sobre estatstica multivariada, devido complexidade especial deste tpico.

12

O que esperamos que voc obtenha deste livro


H conceitos importantes que constituem a base da maior parte da comunicao
cientfica. Para comunicar estes conceitos preferimos usar exemplos mas, ocasionalmente,
tivemos de usar alguns clculos. Recomendamos que os leitores no se acanhem diante
deles, porque esto sendo usados para passar conceitos importantes. A ordem em que
apresentamos os captulos neste livro ligeiramente diferente da ordem em que os
apresentamos em nosso curso, j que em sala de aula, a presena do professor, com todo
seu carisma, permite uma organizao menos metdica da matria a ser apresentada.
Talvez aqueles leitores que tambm sejam professores de cursos de estatstica, ou de
delineamento amostral, queiram comear com o captulo 13 "Dicas para professores".
Captulo 2: "Fluxogramas e questes cientficas". Atravs de todo o livro
iremos nos referir a diagramas de fluxo (fluxogramas) que descrevem hipteses
ecolgicas. Nenhum teste estatstico pode ser interpretado sem que esteja relacionado a
um fluxograma, embora talvez os leitores no possam entender isto at o final do captulo
10. Neste estgio, fluxogramas so importantes para for-lo a ser explcito a respeito de
seus objetivos e ajud-lo a comear a compreender a diferena entre as variveis que
causam efeito (variveis independentes) e variveis que so afetadas (variveis
dependentes). Ainda no captulo 10 h, tambm, uma breve discusso da importncia da
escala em ecologia, o que relacionado a problemas discutidos j no captulo 2.
Captulo 3: "Descrevendo a natureza". Este o captulo mais parecido com
livros convencionais de estatstica. Entretanto, no se preocupe muito com as frmulas. O
importante que voc compreenda que alguns conceitos, como "desvio padro," podem
ser visualizados em grficos enquanto outros, como "varincia", no so fceis de se
visualizar. Ns exploramos o "erro padro" para ensinar alguns outros conceitos em nosso
curso (veja "Dicas para professores"). De qualquer forma, no h necessidade de se
memorizar frmulas e as tcnicas que envolvam conceitos difceis de serem visualizadas
em grficos sero explicadas por analogias nos captulos subseqentes. O captulo 3
mais importante como uma introduo ao conceito de "desvio" e como uma base que
permita ao leitor interpretar a literatura. Esperamos poder convenc-los de que a maioria
da estatstica "descritiva" obscurece os dados mais do que os revelam, e esperamos
apresentar (reapresentar) a vocs a ferramenta de comunicao cientfica mais
importante, o grfico de disperso (grfico de pontos ou "scatterplot").
Captulo 4: "Quanta evidncia necessria?" Este captulo apresenta a
relao entre a fora da inferncia e o nmero de pontos em um grfico de disperso.
Discute tambm sobre informaes que no aumentam a fora de nossas inferncias, o
que ficou conhecido entre os eclogos como "pseudo-repetio" (no Ingls
"pseudoreplication"). Aqueles que freqentam a literatura cientfica precisam aprender a
reconhecer, ou pelo menos a suspeitar de pseudo-repeties espaciais, temporais,
filogenticas e tcnicas. Precisam entender que nenhuma observao intrinsecamente
vlida ou uma pseudo-repetio. Isto depende inteiramente da questo que est sendo
formulada.
Captulo 5: "Quando improvvel significa bem possvel". Aqui apresentamos
a filosofia popperiana, que est por trs da maioria das correntes de pensamento
predominantes na estatstica. No possvel entender a estrutura da maioria dos testes
estatsticos, a menos que se entenda os conceitos sob uma perspectiva popperiana. Ela
tambm a base para "dendrogramas de decises" e outros procedimentos cientficos que
sequer envolvem clculos matemticos. Cincia sem filosofia uma coisa perigosa.
Captulo 6: "Evitando riscos em comparaes simples", introduz a anlise de
13

Magnusson e Mouro

varincia simples (ANOVA) para fatores categricos. Aqui, pela primeira vez neste livro,
discutiremos explicitamente erros do tipo II, que, embora freqentemente sejam mais
importantes do que erros do tipo I, raramente so considerados nos testes estatsticos.
Nossa discusso sobre erros do tipo II breve, assim, se voc no gostar das implicaes
de se cometer estes erros, recomendamos a leitura de alguns dos trabalhos que citamos
neste captulo. Embora a ANOVA de um fator seja apresentada como uma forma de evitar
a acumulao de riscos, o conceito mais importante a ser assimilado simplesmente a
possibilidade de repartir a variabilidade entre o fator atuante e o resduo. Os leitores
precisam compreender este conceito, ou no sero capazes de entender quaisquer
tcnicas estatsticas usual. Por este motivo, procuramos apresent-lo em grficos simples,
e rogamos que se detenham sobre estes grficos o tempo necessrio para absorver o
conceito completamente.
Captulo 7: "Anlises para um mundo com todas as sua tonalidades trata
de uma "ANOVA" com fatores contnuos, que geralmente chamada de regresso. Neste
captulo vocs devero aprender que o mundo consiste de variveis contnuas e que
converter variveis contnuas em categorias quase sempre contra-produtivo e
freqentemente, enganador. Entretanto, aprendero que o conceito de uma nica partio
da variabilidade nos dados em suas fontes de variao, se aplica tanto para as variveis
categricas quanto para as contnuas.
Na verdade, a ANOVA de fatores categricos, que referida nos livros de estatstica
como "Anlise de varincia", nada mais do que um caso especial de regresso. H
outras maneiras de se atacar questes de apenas um fator, mas, para no quebrar a
seqncia lgica, a deixaremos para o captulo 11. Isto no seria necessrio dentro de
sala de aula (veja "Dicas para professores").
Captulo 8: "Problemas do mundo real: mais do que um fator." Este ttulo
uma pequena pretenso de nossa parte. Na verdade, este ainda no o "mundo real" e o
ttulo apenas mostra que modelos mais complexos usualmente so requeridos para
comear a responder questes ecolgicas. Infelizmente, muitos pesquisadores acreditam
que estas anlises modelam situaes do mundo real. As anlises aqui empregadas ainda
so baseadas em modelos lineares simples e aditivos, que permitem uma partio nica
de efeitos entre os fatores. No passe para os captulos seguintes enquanto no estiver
confiante de que compreendeu o conceito de alocao das varincias entre diferentes
fatores, e o conceito de interao entre fatores.
Captulo 9: "Quais variveis analisar?" Provavelmente no respondemos esta
questo neste captulo. A engenhosidade e a experincia necessria para a seleo tima
das variveis so parte da arte do naturalista e no podem ser ensinadas nos livros.
Contudo, usamos os conceitos aprendidos nos captulos e exemplos anteriores para
mostrar aos leitores o que no devem fazer para selecionar variveis.
Captulo 10: "Amarrando as coisas", continua a utilizar modelos lineares
aditivos para representar o mundo. Porm, aqui mostramos que, exceto em situaes
extremamente simples e freqentemente triviais, no existe uma variabilidade nica que
pode ser atribuda a cada fator. Este captulo deve comunicar, sem sombra de dvida, a
importncia dos diagramas que foram descritos no captulo 2. O leitor deve compreender
as diferenas entre efeitos diretos, indiretos e gerais, e porque nenhum teste estatstico
pode ser interpretado sem que esteja relacionado com um fluxograma.
Captulo 11: "Endireitando o mundo: transformaes e outros truques."
Pela lgica, este tpico deveria vir em seguida ao captulo 7, como fazemos em sala de
aula. Entretanto, em um livro isto poderia distrair o leitor da discusso sobre as tcnicas
de alocao de varincias, que a base de cerca de 90% da estatstica encontrada na
literatura ecolgica. As tcnicas descritas neste captulo usam uma variedade de mtodos
14

para estimar os parmetros que descrevem nossos modelos matematicamente, e eles


freqentemente podem lidar com curvas complexas. Porm, elas tm sido pouco usadas,
porque geralmente no permitem a alocao da varincia entre as fontes e no podem ser
usadas para se determinar a importncia relativa de cada fator, a no ser que lancemos
mo de simulaes complicadas em computadores, ou nos contentemos em dividir os
fatores em categorias de "significantes" e "no significantes".
Talvez, depois de compreender todas as limitaes das tcnicas de alocao de
varincias, os pesquisadores mais avanados comecem a considerar seriamente o
emprego de tcnicas de simulaes para refinar seus modelos.
Captulo 12: "Anlise multivariada." Diz-se que "os tolos correm por caminhos
aonde os prudentes vo passo-a-passo". Infelizmente, os inexperientes tambm correm
para a estatstica multivariada. Muitos estudantes (e seus orientadores) pensam que a
estatstica multivariada um remdio para todos os males. Freqentemente, estudantes
podem gerar enormes matrizes de dados que impressionam a maioria das pessoas, mas
que em muitos casos no tm repeties suficientes nem para o exame de um nico fator.
Entretanto, se um estudante intui um padro na relao de diferentes variveis, atravs
do exame de grficos ou tabelas, e busca este padro usando tcnicas multivariadas,
possvel que os resultados no sejam apenas artefato estatstico.
Mesmo que os estudantes no pretendam utilizar tcnicas multivariadas, precisam
compreender seus princpios gerais, para serem capazes de entender a literatura.
Tentamos mostrar os princpios gerais sem revisar a matemtica envolvida, e apontar as
dificuldades mais comuns. Os leitores devero ser capazes de, pelo menos, conceituar a
relao entre dimenses "fantasmas" e gradientes reais, antes de terminar com esta
sesso.
Captulo 13: "Dicas para professores", apresenta a seqncia de aulas que
funcionou melhor em nossa experincia, e fornecemos exemplos que podem ser usados
nos exerccios em classe.

15

Captulo 2:
Fluxogramas e questes cientficas.
Cincia uma arte, e arte diz respeito comunicao. Um pintor v uma paisagem
e determina o que ele quer retratar (p. ex. harmonia, quietude, grandiosidade) e
representa esta qualidade essencial em duas dimenses, usando cor, textura e forma.
Dependendo da escola a que o artista pertena, ele pode querer transmitir algo a respeito
da paisagem ou de si mesmo, ou ambos. Um cientista faz quase a mesma coisa. O
eclogo, olhando para a paisagem, pode pensar em reduzi-la a uma qualidade essencial
(p. ex. competio, mutualismo, restries fsicas, metabolismo) e representa esta
qualidade em duas dimenses, usando palavras, grficos e frmulas matemticas. Muitas
vezes o cientista acredita que sua representao da realidade "objetiva" e a nica que
uma pessoa racional poderia fazer. Contudo, cedo ou tarde ele aprende, atravs de sua
experincia pessoal ou pelo estudo da histria da cincia, que sua representao apenas
parcial e que est distorcida pelos filtros de sua cultura e de sua poca. Assim, ele
considera alternativas e tenta calcular a probabilidade de estar errado. Este processo
formalizado na matemtica da estatstica inferencial. Em cincia, espera-se que o autor
esteja comunicando mais sobre a paisagem do que a respeito de si mesmo.
A principal contribuio do lder de um grupo integrado de pesquisa a elaborao
de um diagrama bi-dimensional do sistema que est sendo investigado. Vamos chamar
este desenho de "fluxograma". Contudo, um engenheiro chamaria isto de "anlise de
sistemas", enquanto um psiclogo falaria em "modelos causais". Eclogos freqentemente
fazem "anlises de caminhos" (Path Analyses). Os detalhes desses mtodos no importam
no momento. O importante entender que diferentes pessoas enfrentando problemas
complexos fazem uso de tcnicas similares e essas tcnicas no so propriedades de uma
ou outra disciplina. preciso arte para fazer fluxogramas e algumas regras bsicas, mas
apenas a prtica leva competncia. Ns descobrimos que dos modelos complicados, os
fluxogramas so os mais fceis de serem entendidos pelos estudantes e, portanto, um
bom lugar para se comear a tratar da complexidade da natureza. Alguns estudantes mais
avanados e professores de cursos de bioestatstica podem querer procurar em Higashi e
Burns (1991) outras maneiras de conectar elementos dos ecossistemas.
Comece por decidir o que voc est estudando. Isto precisa ser alguma coisa
mensurvel. Conceitos complexos como "qualidade ambiental", "estado de conservao" e
"justia social" no tm dimenses, ou pelo menos no tm dimenses que podem ser
reconhecidas pela maioria das pessoas e por isso no sero teis. O que que realmente
se deseja medir? Qualidade ambiental poderia significar condies que propiciem longas
expectativas de vida para seres humanos, condies que propiciem a seres humanos uma
ampla variedade de atividades ao ar livre, condies que permitam a perpetuao de
comunidades de animais ou plantas que existiam no local quando as populaes humanas
eram pequenas, ou qualquer outra de uma multido de condies que qualquer pessoa
considere indicativa de "qualidade".
prefervel envolver toda a equipe no processo de deciso sobre quais so as
questes do estudo, mesmo quando aparentemente as questes tenham sido
determinadas pela agncia financiadora. Esta parte do estudo usualmente a mais difcil
e, por essa razo, evitada na maioria das propostas. No h questes implcitas ou
bvias em um projeto de pesquisa. Se a questo no foi explicitamente colocada, significa
que o lder do projeto est confuso, ou incompetente, ou pior ainda, desonesto. So
palavras duras, mas a conseqncia de questes vagas o desperdcio de tempo, dinheiro
16

e credibilidade dos cientistas. Hobbs, (1988) apresenta um fluxograma engraado, mas ao


mesmo tempo trgico, que representa a contribuio de pesquisas ecolgicas na tomada
de decises. Cada dlar desperdiado em uma pesquisa ruim, poderia ser usado para
salvar vidas de crianas carentes. Temos trabalhado em pases e regies pobres e
admitimos que nos tornamos intolerantes com esforos de pesquisa desperdiados. H
muitos textos sobre processos de deciso disponveis nas livrarias e no vamos nos
alongar neste assunto. Uma boa introduo a esta discusso pode ser encontrada em
Tukey (1960, 1980) e no captulo 1 de Caughley e Sinclair (1994). Uma discusso mais
"estatstica" dos problemas na seleo das questes e medidas em estudos integrados
pode ser encontrada em Osenberg et al. (1999). Vamos assumir que a questo ou a
varivel a ser investigada j foi determinada e focalizar o problema de decidir o que pode
afetar esta varivel e de que maneira.

Construindo a hiptese inicial


Voc pode comear com a premissa de que qualquer coisa conectada com tudo o
mais e tentar colocar tudo em seu modelo. Isto anlogo a um escultor querer colocar
uma montanha inteira sobre o seu pedestal - uma perda de tempo. Por outro lado, voc
pode montar um sistema to simples que ele no tenha mais semelhana com o mundo
real e, novamente, desperdiar esforos. Nosso modelo deve ser simples o suficiente para
ser manejvel, mas complexo o suficiente para capturar a idia central do problema. Esta
a arte do cientista. Uma boa discusso sobre construo de modelos pode ser
encontrada em Starfield e Bleloch (1991). Os leitores que se sentem confortveis com
uma matemtica um pouco mais complexa podem consultar Burnham e Anderson (1998).
Contudo, estamos interessados em um nvel muito mais geral do que estes autores e a
construo de modelos uma arte que vem com a experincia. No se envergonhe se
seus primeiros modelos no parecerem bons. Mesmo um modelo ruim til, nem que seja
para mostrar as limitaes do pesquisador ou de seus dados.
Neste captulo, e no resto deste livro, iremos tratar de modelos e suas premissas.
Por vezes, a construo de modelos aparenta ser um processo tcnico. Entretanto,
modelos envolvem conceitos filosficos mais complexos do que a matemtica.
Apresentamos duas citaes de Allen (1998), que refletem tambm o nosso ponto de vista
filosfico. "Modelos, que no passam de rplicas do sistema reais, no podem ser a
representao fiel dos sistemas em todas as situaes. Portanto, todos os modelos so
errneos, no sentido de diferirem das observaes. Obviamente, a noo de certo e
errado no serve para nada em modelagem, e dizer que um modelo, que tenha sido
construdo com lgica e consistncia, acertado ou errneo, no vem ao caso . . . Todas
as premissas so falsas em algum nvel, portanto, a correo das premissas est fora das
possibilidades, e tambm no vem ao caso". A cincia no diz respeito obteno de
respostas para tudo; refere-se a encontrar situaes onde se possa ir adiante com uma
premissa e ainda conseguir que o modelo tenha alguma utilidade. Se voc espera
respostas absolutamente certas para todas as questes, sugerimos que abandone este
livro e procure suas respostas na teologia.
Vamos comear com um exemplo simples, relacionado com uma questo ecolgica
(figura 7). A mesma lgica pode ser aplicada a estudos em outras escalas, como em
experimentos laboratoriais sobre fisiologia ou questes sobre padres biogeogrficos em
escalas continentais.
Este fluxograma , obviamente, uma simplificao to grande, que no permite a
anlise na presente forma. Mas, ainda assim, vamos us-lo para discutir os mecanismos
17

de construo de um diagrama. Este fluxograma preliminar importante porque ilustra a


hiptese inicial e as premissas. Voc obviamente est interessado na densidade de uma
espcie de lagostim, presumivelmente porque ele tem importncia comercial ou por estar
sendo considerado como ameaado de extino, ou alguma outra razo que justifique os
gastos. Caso se descubra que os membros da equipe no esto de acordo com a questo
geral, voc deveria repensar o problema antes de submeter proposta.
Examinando o fluxograma mostrado na figura 7, descobrimos que a equipe acredita
que os fatores mais importantes que esto afetando a densidade do lagostim so peixes
predadores, fitoplncton poluio do corpo de gua. Espera-se que experincia,
informao da literatura e bom senso sejam usados para decidir quais os fatores mais
importantes a serem estudados. Milhares de outras coisas que potencialmente podem ser
importantes, como predao por pssaros, tipo de substrato e doenas no foram
includas. Esta uma deciso subjetiva e os pesquisadores podem estar errados.
Entretanto, eles corajosamente mostraram quais fatores eles acreditam ser prioritrios
para a pesquisa, e os leitores podem facilmente ver quais fatores foram deixados de fora.
Eles sero criticados por muitos bilogos de escritrio, que exortaro a necessidade de
incluso de inmeras outras variveis que poderiam ter algum efeito sobre o lagostim.
Este o preo da honestidade e integridade. Alm disso, alguns dos revisores podem at
tecer crticas realmente construtivas.

A primeira coisa a notar no fluxograma, que as setas indicam a direo do efeito.


Uma seta com pontas nas duas extremidades indica que cada uma das variveis influencia
a outra. Se no h pontas de flecha no trao que une duas variveis, indica que elas
variam conjuntamente, mas nenhuma afeta diretamente a outra. Embora teoricamente
possvel, nenhuma destas duas situaes til para modelagem e o leitor deveria procurar
uma terceira varivel que explique a relao.
A figura 8 mostra uma correlao, que pode ser substituda pela figura 9. Se duas
variveis tm uma relao causal, como aparece na figura 10, deveramos ser capazes de
incluir um ou mais fatores que explicassem esta causalidade, da forma exemplificada na
figura 11.

18

Figura 8

EDUCAO
CAPACIDADE
PROFISSIONAL
SADE

Figura 9

EDUCAO
CAPACIDADE
PROFISSIONAL

RENDA
SADE

19

Figura 10

EDUCAO
CAPACIDADE
PROFISSIONAL
SADE

Figura 11

EDUCAO

ESCOLARIDADE

HIGIENE

CAPACIDADE
PROFISSIONAL

SADE

Este exerccio resultou em fluxogramas que mostram os fatores que julgamos


importantes para o processo em estudo e o que afeta o qu. claro que todos os modelos
apresentados at agora demandam ainda muito trabalho e pode ser difcil admitir que eles
so vitais como ponto de partida de estudos cientficos. Eles no so "sofisticados" no
sentido original da palavra, que era "desnecessariamente complexos", e no contm
aqueles hierglifos que usualmente associamos com textos cientficos, como "P<" ou "2=
. . .".
Surpreendentemente, contudo, estes diagramas so necessrios para interpretar a
maioria das anlises estatsticas. Os estudos cientficos investigam uma, ou algumas vezes
muitas, das flechas de um fluxograma. Raramente ocorre de os pesquisadores
investigarem todas as setas de seus modelos, mas sem o diagrama difcil enxergar onde
o estudo se encaixa dentro de todo o esquema. Veremos, tambm, que s podemos
determinar a validade da maioria das anlises estatsticas se soubermos onde elas se
encaixam no fluxograma.
Retornando ao exemplo do lagostim, vemos que sua densidade presumivelmente
20

depende de muitas outras variveis. Isto justifica sua designao de "varivel dependente"
no jargo estatstico. Entretanto, podemos notar que algumas das outras variveis em
nosso modelo (chamadas de "variveis independentes") so, de fato, dependentes umas
das outras. Isto pode complicar nossas anlises. Alm disso, algumas das variveis que
afetam diretamente a densidade dos lagostins produzem tambm efeitos indiretos, porque
elas influenciam outras variveis que afetam a densidade do lagostim. Por exemplo, o
desmatamento afeta diretamente a densidade do lagostim, mas tambm afeta
indiretamente, porque o desmatamento afeta a poluio do riacho, que afeta a densidade
do lagostim. Existem tcnicas estatsticas para lidar com efeitos indiretos e variveis
independentes quando elas no so realmente independentes umas das outras, como as
descritas no captulo 10, mas, por favor, no pule para este captulo ainda. Raramente
poderemos satisfazer as premissas destas anlises e a maioria dos pesquisadores de sua
equipe estar focalizada em partes limitadas do seu diagrama. Antes, precisamos
considerar os diferentes modos dos pesquisadores estudarem as setas que lhes cabem do
diagrama, porque a maioria destes modos no contribui para gerar os dados necessrios
para a anlise estatstica do fluxograma global.

Trs tipos de estudo


1. Isto real?
A questo bsica, e freqentemente a nica questo de muitos estudos, verificar
se um efeito existe. Isto equivale a perguntar se ns deveramos mesmo incluir esta seta
em nosso diagrama. Pode parecer simples provar que um efeito existe, mas nada to
simples assim. Alguns poucos cientistas calculam a probabilidade de que a seta exista,
lanando mo da estatstica Bayesiana, e sem dvida os cientistas adeptos da estatstica
Bayesiana tm facilidade de se comunicar com polticos e com o pblico em geral. Albert
(1997) nos d uma explanao fcil de ser digerida de como a estatstica Bayesiana pode
ser usada para responder questes simples. Entretanto, a estatstica Bayesiana no fcil
de se entender ou calcular (Moore 1997), e Guttman (1985) refere-se a ela como "uma
cura pior do que a doena". A maioria dos testes estatsticos, dos textos de estatstica e
dos programas estatsticos para computadores so baseados em tcnicas freqentistas e
calculam a probabilidade de a seta no existir em nossos fluxogramas. Isto est longe do
que o senso comum indicaria como o procedimento lgico e no o tipo de probabilidade
com que a maioria das pessoas se sente vontade. No entanto, a maioria dos testes
estatsticos que os membros de sua equipe iro usar ser baseada em tcnicas
freqentistas (i.e. na filosofia Popperiana). Portanto, se o leitor no familiarizado com a
filosofia Popperiana, deveria ler o captulo 5.
importante entender que os testes estatsticos mais poderosos usualmente
empregados no respondem questo O efeito normalmente existe?, mas sim
questo Se todas as outras variveis forem mantidas constantes, a mudana desta
varivel produz algum efeito?. Estes testes consideram apenas os efeitos diretos,
tornando os efeitos indiretos impossveis de ser acessados, porque constrangem as outras
variveis tratando-as como constantes. Esta diferena no trivial. Alguns fatores que no
tm efeitos diretos nas variveis-resposta podem ser muito importantes no mundo real, e
algumas variveis que normalmente tm um pequeno efeito direto, difcil de ser detectado
em campo, podem ter grande potencial para a medicina ou agricultura, se seus nveis
puderem ser manipulados artificialmente.
A maneira mais convincente de mostrar que efeitos diretos esto atuando atravs
de um experimento que manipule o sistema, de forma que apenas as variveis estudadas
21

possam influenciar o resultado. Diz-se que os resultados destes experimentos permitem


uma inferncia forte (sensu Platt 1964), j que as variveis que poderiam estar
confundindo os resultados foram eliminadas. Contudo, os resultados obtidos podem no
ter muita relevncia para o mundo real (p. ex. Carpenter, 1999) e os eclogos sero
sempre capazes de sugerir um ou mais fatores provveis de desempenhar algum efeito
(Tukey 1991, Johnson 1999), mesmo que estes efeitos no tenham muita importncia nos
sistemas no manipulados. O lder precisa se assegurar que as questes formuladas por
cada um dos pesquisadores da equipe sejam relevantes para a questo geral.
2. Qual a forma e magnitude do efeito?
Descobrir que um efeito ou no diferente de zero freqentemente no muito
til (p. ex. Rosenthal e Rubin 1994). A segunda fase da pesquisa freqentemente levanta
questes a respeito da forma da relao existente ou que se presume existir. A maioria
dos modelos construda sobre relaes lineares simples ou linearizadas e nosso
fluxograma reflete isto. Poderamos achar que, para cada peixe predador acrescentado ao
sistema, reduzimos a densidade do lagostim em trs indivduos por metro de riacho. Mas,
um resultado simples como este improvvel. Muitos estudos ecolgicos tm mostrado
que o efeito de predadores sobre as densidades das presas no simplesmente uma
funo linear de suas densidades. Caughley e Sinclair (1994: Captulo 11) fornecem
muitos exemplos. Lagostins em pequenas densidades podem no ser suficientes para
manter populaes de peixes. Em altas densidades de lagostins, a populao de peixes
pode no ser limitada pela disponibilidade de alimento, mas por outros fatores, como, por
exemplo, a densidade de seus prprios predadores.
Muitas variveis que afetam processos biolgicos se comportam desta forma, no
produzindo efeitos em baixos nveis, efeitos positivos em nveis intermedirios e efeitos
negativos em nveis elevados. A figura 12 mostra a relao entre a temperatura e a
proporo da populao em atividade de um inseto hipottico. Pensem quantas relaes
em seu campo de estudo reagem desta forma.
importante conhecer a forma da relao entre as variveis, medida que vamos
incorporando-as em nosso modelo, mudar as unidades de medida das variveis (ou seja,
transform-las), ou decidir investigar somente uma gama limitada de condies, antes que
possamos aplicar a maioria dos testes estatsticos ou tcnicas de modelagem. Na verdade,
bvio que precisamos de informao sobre a forma da relao antes de testar se um
efeito existe. Se compararmos os nveis de atividade do inseto a 5C e a 20C
concluiremos que a temperatura tem pouco ou nenhum efeito, ao passo que se
compararmos a atividade entre 5 e 15C, concluiremos que a temperatura tem um efeito
muito forte. Este problema freqente quando so aplicados testes para verificar a
existncia de fenmenos com premissas incorretas quanto ao formato da relao ou
quando os pesquisadores no investigaram todos os nveis possveis do fenmeno. Vamos
considerar mais sobre estas questes nos captulos 7 e 9.

22

Figura 12

% ATIVIDADE

75
60
45
30
15
0
0

10
15
TEMPERATURA (C)

20

25

3. O que acontecer se as condies mudarem?


Muitos pesquisadores gostariam de responder questo Quanto efeito uma
varivel tem sobre a outra e este o terceiro nvel do estudo. Infelizmente, com
frequncia, a resposta depende. Para responder a esta questo, devemos investigar os
nveis em que esta varivel normalmente ocorre no sistema, nas freqncias em que estes
nveis ocorrem. Ento, normalmente as manipulaes experimentais recomendadas para a
inferncia forte no so apropriadas para responder a esta questo. Alm disso, quando
o efeito de uma varivel depende dos nveis de outras variveis independentes, como
ocorre no mundo real, no h uma nica resposta correta (i.e. a resposta depende).
Usualmente, as pessoas que se dedicam modelagem de sistemas no tentam fazer
previses precisas e no esto interessadas em experimentos de inferncia forte. Elas
tentam simular como os sistemas funcionam, usando um computador e relaes
matemticas simples. Elas modificam o nvel e/ou a variabilidade de cada fator e rodam o
modelo centenas ou milhares de vezes para tentar determinar quais as variveis mais
importantes do sistema. Se voc tem um modelador em sua equipe, vocs deveriam
discutir logo as necessidades dele, porque geralmente os modeladores no podem fazer
uso do tipo de dados que a maioria dos pesquisadores coletam. Osenberg e colaboradores
(1999) fornecem uma boa discusso sobre as dificuldades enfrentadas em estudos
integrados, mesmo quando todos os pesquisadores esto ostensivamente estudando a
mesma questo simples. Se a complexidade das estatsticas que os pesquisadores de seu
time empregam o atordoam, considere delinear o estudo para permitir anlises mais
simples, ao invs de ficar tentando reparar os erros amostrais por meio do emprego
intensivo de matemtica.
Vimos que os pesquisadores podem ter questes muito diferentes, mesmo quando
esto aparentemente estudando o mesmo fenmeno. Alguns cientistas tentam encontrar
uma situao intermediria, coletando dados de uma maneira que permita fazer algumas
inferncias sobre a probabilidade de um efeito ocorrer e assim eles obtm os dados
necessrios para os modeladores de sistemas. Provavelmente eles sero criticados por
todo mundo. No h uma resposta correta, mas a cincia tem avanado espetacularmente
com pesquisadores diferentes trabalhando com diferentes abordagens. Entretanto, em
estudos integrados o lder deve conhecer que tipo de coleta e anlise de dados cada
membro pretende fazer e precisa decidir o quanto esses dados sero teis para os outros
23

membros da equipe. Delineamentos amostrais integrados so freqentemente os mais


eficientes e ns vamos discutir alguns daqui a pouco, mas antes, vamos considerar a
escala da questo.

Qual o tamanho do problema?


Muitas das controvrsias na literatura cientfica ocorreram porque pesquisadores
trabalharam sobre o mesmo problema em escalas diferentes. A densidade de uma espcie
de planta pode no ser relacionada com caractersticas do solo em uma escala de dezenas
de metros, embora as caractersticas do solo expliquem grande parte da variao na
densidade de plantas entre regies. Mas em uma escala mais ampla ainda, por exemplo,
em uma escala continental, pode no haver relao entre a ocorrncia de espcies e os
tipos de solos. A resposta para a questo de se o solo afeta a distribuio de espcies
no, sim, no. Se tivssemos examinado outras escalas, poderamos ter obtido outras
combinaes de sim e no. Portanto, no surpreendente que os leitores de revistas
cientficas fiquem confusos com os avanos da cincia e o pblico geral ainda mais. Allen
e Starr (1982) apresentam uma srie de fotografias de um jogo de futebol que mostra
como a escala na qual se observa um sistema determina o que podemos descobrir.
Quando visto de um avio, no possvel tirar concluses a respeito do jogo, embora
possamos ver todo o estdio e ter uma boa idia do comparecimento do pblico. De mais
perto, podemos ver os jogadores, mas ao fundo, a imagem do pblico nas arquibancadas
se mistura dos jogadores. Na aproximao seguinte, possvel observar a ao de
jogadores individuais e o jogo em progresso. Numa escala ainda mais prxima, em um
ponto de vista no interior da bola, a fotografia completamente negra. Os pesquisadores
pensam bastante nestes aspectos quando vo assistir a jogos de futebol, mas,
surpreendentemente costumam dar pouca ateno a eles quando planejam seus estudos
cientficos.
claro que no h uma escala correta para os estudos cientficos. Muitos artigos
recentes tm discutido a importncia da escala (p. ex. Peterson e Parker 1998, Lawton
1999, Pascual e Levin 1999, Petersen et al. 1999). Alguns dos avanos cientficos mais
importantes vm de estudos em escalas diminutas e outros em escalas muito grandes.
Entretanto, em um estudo integrado, especialmente um desenhado para subsidiar os
polticos na tomada de decises, haver um leque limitado de escalas apropriadas para
atender a necessidade geral do estudo, e estas escalas so, usualmente, grandes
(Bradshaw 1998, Ormerod et al. 1999). Para decidir em que escala trabalhar, voc deveria
primeiro
considerar
qual
rea/populao/perodo
de
tempo/situaes
fsicas/qumicas/sociais que voc deseja que os resultados se apliquem. Isto chamado de
seu universo de interesse. Potencialmente, todos os membros da equipe podem trabalhar
em escalas similares, mas os cientistas tendem a copiar seus desenhos amostrais de
publicaes recentes na literatura especializada de sua rea. Pode ser difcil convencer um
membro da equipe que ele deveria usar uma determinada escala de amostragem, se um
famoso cientista acabou de publicar na revista de maior prestgio da rea, um estudo a
respeito do mesmo organismo (ou processo), usando uma escala de amostragem
completamente diferente. Embora muito seja feito para inovar em cincia, a maioria dos
cientistas acredita que sero criticados por seus colegas se desafiarem os dogmas
estabelecidos, inclusive no que tange escala de amostragem e eles esto certos. Nos
casos mais extremos, o lder da equipe deve decidir o quanto de prestgio pessoal ele est
disposto a sacrificar pelo bem do projeto.
24

Para onde ir?


Em geral, os pesquisadores decidem qual mtodo de anlise iro usar copiando um
disponvel na literatura, e no consideram a especificidade de suas questes. Por causa
disso, as anlises tendem a definir as questes, ao invs de vice-versa (Yoccoz, N. G.
1991). Portanto, importante que o lder da equipe tenha algum conhecimento sobre os
conceitos que embasam os tipos de anlises mais comumente empregadas pelos
cientistas. Afortunadamente, as anlises estatsticas mais usadas so baseadas em poucos
conceitos bsicos. Para us-los, precisaremos ser capazes de construir fluxogramas,
interpretar grficos simples e entender a filosofia que est por trs dos testes de
hipteses. Os fluxogramas que construmos mostram onde pensamos estar. Eles nos
sugerem experimentos crticos ou observaes que precisamos fazer. Platt (1964) disse
que deveramos "devotar de 30 a 60 minutos por dia para reflexo e anlise, anotando
explicitamente, em um caderno de notas permanente, as alternativas lgicas referentes
aos nossos experimentos crticos". Infelizmente, estas habilidades no so ensinadas na
maioria dos cursos de estatstica para bilogos. Tentaremos considerar alguns dos
aspectos bsicos destas habilidades nos prximos captulos.

25

Captulo 3:
Descrevendo a natureza - algumas convenes
"cientficas" e algumas tcnicas teis.
Neste captulo vamos discutir algumas estatsticas simples, que so usadas para
descrever dados ou as populaes de medidas das quais eles foram obtidos. Tcnicas
estatsticas podem ajudar a elucidar padres ocultos nos dados, se o modelo representado
pelo nosso fluxograma for complexo, como veremos nos captulos 8 e 10. Entretanto, a
maioria das estatsticas encontradas na literatura cientfica relaciona-se com situaes
extremamente simples, e mais escondem do que revelam os padres. Ser til para os
leitores conhecer os termos, assim podero ler a literatura cientfica e conversar com seus
pares. Mas, na verdade, apenas poucos conceitos sero importantes para os prximos
captulos, e estes so conceitos facilmente visualizados em grficos bidimensionais.
Vamos considerar como um pesquisador poderia descrever seus dados sobre
densidades de lagostins em riachos. O pesquisador amostrou 5 riachos e apresenta os
dados como o nmero de lagostins por 100 m de riacho. Os dados poderiam ser
apresentados como uma lista de densidades (1, 3, 4, 5, 7 lagostins/100 m). Contudo,
estes dados so freqentemente apresentados juntamente com outros dados para
comparao (veja captulos 5 e 6). Portanto, vamos refletir sobre como eles podem ser
apresentados da forma mais proveitosa. A forma mais simples seria coloc-los em um
grfico (figura 13).

Figura 13
8

NMERO POR 100m

7
6
5
4
3
2
1
0

LAGOSTINS

O grfico ocupa muito espao no papel, mas possibilita-nos avaliar


instantaneamente o valor geral dos dados (mdia) e a variabilidade em torno da mdia. A
maioria dos pesquisadores sabe instintivamente o que a mdia representa, mas no o que
vrias estatsticas descritoras da variabilidade significam. A maioria dos iniciantes usaria a
amplitude (a diferena entre o maior e o menor valor) para descrever a variabilidade, mas
isto tem a desvantagem de usar apenas informao de dois dos cinco pontos. Uma
alternativa somente um pouco mais complexa, mas ainda intuitiva, seria usar o desvio
26

mdio absoluto, ou seja, a mdia das distncias de cada ponto at a mdia. A figura 14
mostra estas distncias, exceto para a distncia do valor "4", que est distncia zero da
mdia. Poderamos resumir os dados expressando a mdia=4 e o desvio mdio
absoluto=1,6. Usamos o desvio absoluto (mdulo do desvio) porque a soma dos desvios
simples ser sempre zero, j que os desvios dos pontos situados abaixo da mdia sempre
so negativos.

Figura 14
8

NMERO POR 100m

7
6
5

+3

4
3

-1

2
1
0

} +1

-3

LAGOSTINS

Com um pouco de prtica, a maioria dos pesquisadores pode olhar para um grfico
e rapidamente estimar qual a regio do grfico compreendida entre a mdia menos um
desvio absoluto e a mdia mais um desvio absoluto. O desvio absoluto to intuitivo que
se poderia esperar que fosse a estatstica mais usada para descrever a variabilidade dos
dados. No entanto, ele raramente usado, e uma outra estatstica, o desvio padro, ou
alguma derivao dele, o descritor de variabilidade mais freqentemente empregado. O
desvio padro tem vantagens relacionadas com algumas anlises mais complexas, que
sero consideradas em captulos posteriores. Entretanto, ele est longe de ser intuitivo.
Entre uma a trs vezes por ano, nos ltimos 10 anos, temos solicitado a nossos alunos de
ps-graduao, que indiquem onde deve passar a linha que corresponde ao desvio padro
de cada lado da mdia em grficos simples como o da figura 13. Poucos puderam
aproximar a posio correta, e destes, quase nenhum soube explicar porque escolheram
aquela posio. Muitos destes estudantes j haviam publicado trabalhos nos quais usaram
o desvio padro para descrever seus dados. preocupante constatar que eles no sabiam
o que estavam descrevendo e que no fossem capazes de interpretar os resultados de
outros autores que usaram o mesmo descritor.
O desvio padro e as estatsticas relacionadas so usados to freqentemente que
vale a pena despender um pouco de tempo para visualizar o que ele representa.
Entretanto, lembrem-se que h inmeros outros descritores de disperso que podem ser
mais apropriados em muitas situaes (Iglewicz 1983). Assim como o desvio absoluto, o
desvio padro baseado nas diferenas do valor de cada observao em relao mdia,
27

s que, no caso do desvio padro as diferenas so elevadas ao quadrado. Se somarmos


os desvios quadrados, teremos uma quantidade chamada soma de quadrados. Isto no
muito til para descrever a variabilidade, porque, sendo uma soma, esta quantidade
aumenta com cada observao extra. Contudo, se tomarmos a mdia dos desvios
quadrados, teremos um descritor que independente do tamanho da amostra. Isto
chamado de varincia. Ao contrrio da mdia absoluta, o desvio quadrado mdio
(varincia) no til para descrever a variabilidade, porque est em uma potncia
diferente da dos dados originais e provavelmente nem ir caber em nossos grficos. Por
exemplo, difcil de se visualizar lagostins com comprimento mdio de cinco centmetros
quatro centmetros quadrados! Para trazer a medida de variao de volta escala
original em que as medidas foram tomadas, podemos extrair a raiz quadrada. A raiz
quadrada da mdia dos desvios quadrados chamada de desvio padro. Isto parece uma
rota sinuosa para se chegar a um valor que diferente, mas no muito diferente, do
desvio mdio absoluto.
Os valores de um desvio mdio absoluto (mostrados como estrelas na figura 15) e
de um desvio padro de cada lado da mdia (pentgonos) so quase idnticos. Ambos os
desvios foram calculados para a populao ao invs de para a amostra, mas no vamos
explanar sobre as diferenas aqui. Para a interpretao grfica a diferena trivial, exceto
para amostras extremamente pequenas. Vamos discutir sobre os usos do desvio padro
posteriormente. Por agora, basta interiorizar que o valor do desvio padro usualmente no
muito diferente da mdia dos desvios absolutos e, portanto, podemos imaginar, em um
grfico, a posio aproximada de um desvio padro em cada lado da mdia. Isto dever
ajud-los a entender as descries que outros pesquisadores fazem de seus dados.

Figura 15
8

NMERO POR 100m

7
6
5
4
3
2
1
0

LAGOSTINS

Temos discutido a respeito de descritores de dados. Como os dados usualmente


so amostras tiradas de populaes muito maiores, estamos descrevendo apenas as
28

amostras. Estes descritores, chamados "estatsticas", so freqentemente usados como


estimativas dos descritores reais das populaes estatsticas, estes ltimos chamados de
"parmetros". Alguns autores usam terminologia um pouco diferente mas, em geral,
parmetros so caractersticas das populaes e estatsticas so estimativas dos
parmetros, baseadas em amostras. Note que, quando falamos "populaes estatsticas"
estamos nos referindo a populaes de nmeros, que podem ou no estar relacionadas
com populaes biolgicas. A populao de alturas de homens possui uma mdia muito
maior do que a mdia da populao de mulheres, mas quando falamos da populao
humana, estamos nos referindo a uma populao que consiste aproximadamente a
metade de homens e metade de mulheres. Por outro lado, a altura mdia de uma espcie
de antlope pode ser igual altura mdia de homens, mas isto no significa que homens e
antlopes pertenam mesma populao biolgica.
O desvio padro um parmetro til para descrever a variabilidade em uma
populao de medidas, se a populao de medidas tem uma distribuio de freqncias
que conforma a distribuio terica chamada de "normal". Neste caso, cerca de 68% da
populao est compreendido no intervalo de um desvio padro em torno da mdia e
cerca de 95% da populao est compreendido no intervalo de dois desvios-padres em
torno da mdia. Se a distribuio no normal, o desvio padro no tem utilidade para
descrever a variabilidade da populao (Mosteller e Tukey 1968), um fato que parece ter
sido esquecido pela maioria dos pesquisadores.
Podemos tambm calcular o desvio padro de parmetros, que chamado de "erro
padro" (EP). Em geral, quando os autores tratam de erro padro, sem especificar de qual
parmetro, esto se referindo ao erro padro da mdia. Para ilustrar isto, usamos um
gerador de nmeros aleatrios para produzir 300 medidas de uma distribuio com mdia
e desvio padro iguais ao dos dados que aparecem na figura 15. Ento, tiramos 60
amostras de cinco elementos, obtendo 60 mdias, uma para cada amostra. A primeira
amostra encontra-se ao lado das 60 mdias na figura 16 e a mdia que corresponde a
esta amostra est assinalada como um crculo cheio entre os crculos vazios que
simbolizam as outras mdias.

29

Figura 16
7
6

NMERO

5
4
3
2
1
0
1

AS
DI

_
RA
T
S

O
AM

A amostra tem uma mdia que bastante diferente da mdia real (4) das 300
medidas. Entretanto, a mdia das 60 mdias (3,8) foi mais prxima. Obviamente, a mdia
de 60 amostras traz muito mais informao do que uma nica amostra de cinco
elementos. Com 60 mdias, podemos tambm estimar o desvio padro das mdias (erro
padro) com razovel acurcia. O desvio padro das 60 mdias foi 0,77. Portanto,
esperamos que cerca de 68% das mdias tiradas desta populao estejam compreendidas
entre 4 + 0,77 e 4 - 0,77. A distribuio das mdias tende normalidade, mesmo se a
distribuio das medidas originais no fosse normal. Isto conseqncia de um teorema
chamado de "Teorema do Limite Central" e o que justifica o uso de testes estatsticos
baseados na distribuio normal quando a populao de medidas originais no segue esta
distribuio.
Se todas estas mdias de mdias e parmetros de parmetros os deixam confusos,
no se preocupem. No vamos usar muito estes conceitos, a no ser para examinar como
alguns pesquisadores apresentam seus dados, e como eles poderiam apresent-los de
forma mais simples e efetiva. Ningum usa 60 amostras para calcular um erro padro,
porque os estatsticos nos dizem que podemos estimar o erro padro a partir de uma
nica amostra. H um erro padro diferente para cada tamanho de amostra que
desejarmos tirar. Entretanto, com uma nica amostra de cinco elementos, podemos,
teoricamente, estimar o desvio padro das mdias vlido para um grande nmero de
amostras de cinco elementos.
A frmula "mgica" apenas dividir a estimativa do desvio padro da populao,
baseado na amostra, pela raiz quadrada do nmero de observaes da amostra. Em nosso
caso, sabemos que o erro padro das mdias das amostras de cinco elementos est
prximo de 0,77. A figura 17 apresenta a distribuio das 60 estimativas de erro padro,
baseadas em nossas 60 amostras. Ns acrescentamos nesta figura o erro padro baseado
no desvio padro das 60 mdias, chamando-o de "real", porque ele deve ser muito
30

prximo do valor real do erro padro, que desconhecido.

Figura 17
1.5

NMERO

1.0

0.5

0.0

EP "REAL"

ESTIMADOS

Obviamente, as estimativas dos erros padres baseadas em amostras de cinco


elementos so imprecisas. Muitas estimativas esto muito distantes da melhor estimativa.
Quanto maior o tamanho da amostra, melhor as estimativas obtidas pela frmula mgica.
Entretanto, raramente elas podem ser melhor interpretadas por um estatstico do que um
grfico com os dados brutos, e a maioria dos pesquisadores (os leitores de seus trabalhos)
tm apenas uma vaga idia do que eles representam. possvel inferir intervalos de
confiana baseados na estimativa do erro padro e no tamanho da amostra. Os
estudantes interpretam um intervalo de confiana de 95% em torno da mdia como se
houvesse 95% de chance de que o parmetro real estivesse neste intervalo. Do ponto de
vista da estatstica clssica, esta explicao no tem sentido. Ou a mdia cai no intervalo
ou no. A interpretao correta do intervalo de confiana de Neyman (Neyman 1937)
que, se um experimento for repetido muitas vezes, com o mesmo tamanho amostral, e o
intervalo de confiana for calculado para cada um deles, aproximadamente 95% dos
intervalos calculados iro incluir a mdia real (Bard 1974). Entretanto, estes intervalos de
confiana s funcionam se forem aplicados em todos os casos. Se intervalos de confiana
forem aplicados apenas aps algum teste estatstico ter tido resultado significativo, como
a prtica corrente, ento os intervalos de confiana apresentados nos livros de texto so
pequenos demais (Meeks e DAgostino 1983). Poucos pesquisadores entendem estes
conceitos. De qualquer modo, a maioria dos erros padres apresentada em grficos sem
qualquer informao do tamanho da amostra na legenda (Magnusson, 2000a).
Freqentemente, h diferentes tamanhos de amostras em diferentes partes do grfico.
Isto demonstra cultura "cientfica", mas no comunica muito mais do que isto.
Nesta seo, ilustraremos diferentes mtodos de apresentar dados em grficos e
deixar que os leitores decidam quais os melhores para comunicar informaes sobre os
dados obtidos. Primeiro, vamos considerar um grfico mostrando dados com uma amostra
pequena (figura 18).
31

Figura 18

NMERO POR 100 m

25

20
15
10
5
0

LAGOSTINS

IC95

DP

EP

A figura 18a mostra os dados de densidades de lagostins em diferentes riachos. A


figura 18b mostra algumas estatsticas freqentemente usadas para sumariar dados em
grficos, e que foram baseadas nos dados da figura 18a. O desvio padro (DP) bem
diferente do erro padro (EP), mas no muito do intervalo de confiana de 95% (IC95).
Se, quando forem escrever, no estiverem seguros que seus leitores entendero as
implicaes das trs estatsticas sumrias, ento deveriam apresentar os dados da mesma
forma que os apresentados na figura 18a. Grficos como o da figura 18a so chamados de
"grficos de disperso" e podem apresentar uma quantidade surpreendente de
informao.
A figura 19a mostra um grfico de disperso do nmero de lagostins onde
aparecem os dados de um pesquisador que amostrou 40 riachos com peixes e 40 riachos
sem peixes. Este grfico um pouco difcil de interpretar, porque alguns pontos podem se
sobrepor e obscurecer outros. Na figura 19b, separamos os pontos. Este ltimo grfico
tecnicamente um histograma de pontos mas, em termos de comunicao, pode ser
considerado um grfico de disperso com os pontos separados, de modo que nenhum
ponto obscurea os demais.

32

Figura 19
12

LAGOSTINS

10

8
6
4
2
0
M
CO

ES
IX

S
XE
EI
P
_
S

ES
IX

E
_P
EM

E
_P

M
CO

S
XE

EI
_P
M
E
S

Note que este grfico mostra quase todos os detalhes a respeito dos dados, mas
muitos cientistas no os consideram "cientficos". Afinal, qualquer pessoa, at um nocientista, pode avali-los. Os membros da equipe de pesquisa provavelmente iro preferir
grficos que demonstrem sua cultura cientfica, mesmo que estes grficos distoram a
informao. A figura 20a ilustra um grfico de barras representando os mesmos dados da
figura 19, incluindo barras de erros para os erros padres. Este tipo de grfico
efetivamente esconde toda a informao a respeito da quantidade de dados que
coletamos. Os estatsticos diro que se pode interpretar as barras de erros, porque suas
premissas a respeito do mundo real esto sempre corretas e qualquer bilogo competente
tem um sentimento intuitivo do que um erro padro representa e deve ser capaz de
reconstituir o grfico original em sua cabea. Contudo, temos ministrado cursos de
estatstica para estudantes de graduao e ps-graduao e temos sido consultados por
pesquisadores experientes durante um perodo de mais de duas dcadas, e podemos
assegur-los de que nenhuma destas duas afirmaes verdadeira. Se voc deseja
esconder seus dados, coloque-os em grficos de barras. O "box plot" da figura 20b um
pouco melhor. Entretanto, poucos pesquisadores sabem como interpret-los e ainda
perdemos a informao a respeito de quantos dados utilizamos para produzir o grfico.
"Box plots" so uma boa alternativa quando voc tem tantos dados que no podem ser
apresentados em um grfico de disperso (Tukey 1972), mas ao contrrio deste, no tem
utilidade para se planejar a amostragem (captulo 4). Use-os como ltima alternativa,
nunca como o mtodo padro de apresentar os resultados, sejam dados hipotticos ou
no.

33

Figura 20
12

LAGOSTINS

10

8
6
4
2
0
ES

X
EI
_P

M
CO

ES

S
S
XE
XE
EI
EI
P
P
_
_
M
M
SE
CO

X
EI
_P
M
E
S

Descritores sem sentido


importante lembrar que algumas medidas de variabilidade podem no ser aquelas
nas quais voc est interessado. H mtodos para o clculo de erros padres baseados
em transeces de linha (p. ex. Krebs 1998). Entretanto, lembre-se que os erros padres
baseados em mtodos de distncia referem-se aos erros padres daquele transeco. Ele
estima a variabilidade esperada se voc repetir o mesmo transeco, mas no informa
nada a respeito do erro padro esperado caso voc replicasse os transeces na rea de
interesse. Isto precisa ser estimado por outros mtodos (Caughley e Sinclair 1994).
Primatlogos freqentemente apresentam erros padres de densidades de macacos em
reservas, baseados em um ou dois transeces. Isto no faz sentido. Eles confundem a
variabilidade da amostragem repetida daquele transeco com a variabilidade entre
transeces. O mtodo poderia ser aproximadamente vlido se o transeco fosse to
comprido que amostrasse quase toda a reserva. Entretanto, este seria um desenho
amostral muito ineficiente. Quando apresentamos uma medida de variabilidade,
precisamos estar certos de que ela se refere ao nosso universo de interesse.
Um problema relacionado a estimativa do erro padro associado estimativa do
tamanho da populao em estudos de marcao e recaptura (Abuabara e Petrere 1997,
Krebs 1998). Mtodos de marca-recaptura estimam o nmero de indivduos na populao
que so suscetveis de serem capturados. Converter isto em uma estimativa de densidade
complicado, a no ser que a populao ocupe uma rea restrita e todos os animais na
populao sejam suscetveis de serem capturados (Anderson et al. 1983). Animais
freqentemente variam sua rea de vida sazonalmente ou em perodos interanuais, devido
variao nos recursos. A estimativa do tamanho da populao e seus erros padres
podem estar estatisticamente corretas, mas a maioria dos eclogos est interessada na
estimativa da densidade, no do tamanho da populao que pode ser capturada em
armadilhas.
Neste captulo, estivemos preocupados com as estatsticas usadas para resumir
dados. Vamos usar alguns dos termos discutidos aqui nos captulos posteriores, onde a
34

variao ser freqentemente expressa como soma de quadrados, ou varincia.


Entretanto, o leitor no precisa ser capaz de visualizar a soma de quadrados ou a
varincia para us-las. As outras estatsticas que sumarizam dados raramente so teis,
exceto para mostrar cultura acadmica, e no deveriam ser usadas, a no ser quando
tabelas ou grficos de disperso no sejam alternativas viveis. No se preocupe se no
puder visualiz-las. Elas so como as roupas do rei, somente os verdadeiramente honestos
vo admitir que no podem v-las.

35

Captulo 4:
Quanta evidncia necessria?
Nosso artista pintando a paisagem no usa uma tela maior que a parede da sala.
Ele tambm no tentar contar a estria de 10 maneiras diferentes na mesma tela. Se ele
deseja se comunicar e no morrer de fome antes de completar seu trabalho, ter que
decidir o quanto suficiente. Decidir o quanto adequado, sem desperdcios, tambm a
arte do cientista. Vamos comear considerando uma questo simples e um grfico
simples.
Nosso cientista, estudando o lagostim, decide testar o quanto locais sem peixes
tm mais lagostins do que locais com peixes predadores. Ele conta o nmero de lagostins
em sees de riachos com e sem peixes predadores, mas est inseguro sobre quantas
sees deve amostrar. Obviamente, uma seo de cada tipo no vai nos dizer muito (fig.
21a). Ento ele aumenta o nmero para trs sees de cada tipo, mas ainda permanece a
dvida (fig.21b). Entretanto, com cinco sees de riachos de cada categoria, j no resta
muita dvida (fig. 21c).

Figura 21
10

LAGOSTINS

6
4
2
0
ES
IX

CO

PE

M
SE

IX
PE

S
XE

ES
M

CO

I
PE

SE

IX
PE

S
XE

ES
M

CO

I
PE

SE

IX
PE

ES

Este processo, que Dytham (1999) chamou de "coleta de dados substitutos"


("collecting dummy data") parece ser trivial, mas uma das maneiras mais poderosas de
se planejar a pesquisa. Connolly et al. (2001) chamam este processo de experimento de
pensamento (thought experiment). H muitas frmulas matemticas elegantes para
decidir quantas observaes so necessrias para se detectar um efeito de uma dada
magnitude (p. ex. Krebs 1989), entretanto todas requerem amostras preliminares e a
maioria somente pode ser aplicada em situaes triviais. Em geral, solicitar a um
pesquisador experiente que esboce grficos mostrando a variabilidade esperada para
aqueles dados quase to bom quanto qualquer um dos mtodos que empregam
computaes matemticas. Apenas v aumentando o nmero de pontos no grfico, at
que o padro parea convincente. H algumas dicas que podem ser usadas, se voc no
conseguir extrair dos membros de sua equipe informao til em relao s questes na
escala proposta para o projeto. Dados ecolgicos usualmente mostram variabilidade
semelhante quela da figura 21. Assim, para comparaes entre categorias, deveria haver
pelo menos quatro observaes por categoria ou preferivelmente mais. Entretanto,
geralmente no h vantagem em ter mais que dez observaes por categoria, a no ser
36

que os dados sejam fceis de ser coletados e a um baixo custo, ou exista alguma razo
especial para se desejar detectar diferenas muito pequenas entre as categorias. Vamos
oferecer outras dicas de como decidir o tamanho da amostra nos prximos captulos, mas
quatro observaes por categoria vo funcionar bem para a maioria dos casos.

Qual a qualidade da informao?


Para responder questo Quanta informao suficiente? precisamos primeiro
responder a questo Qual a qualidade da informao?. Esta uma questo importante,
porque nossas questes estatsticas devem refletir nossas questes biolgicas. No incio da
dcada de 80, o bioestatstico Stuart Hurlbert alertou o mundo a respeito de um tipo de
erro que vinha ocorrendo em grande parte das anlises ecolgicas, e que ele denominou
de "pseudo-repetio". Repeties so o que os estatsticos chamam de observaes
independentes. Geralmente, espera-se que a quantidade de informao disponvel
aumente com o nmero de observaes, mas nem sempre assim. Quando uma nova
observao fornece apenas a mesma informao que tnhamos em observaes
anteriores, ela no aumentou a quantidade total de conhecimento disponvel para ns, e
pode nos confundir e nos fazer acreditar que dispomos de mais informao do que
realmente temos. Porque esta observao no uma repetio real, no sentido de
fornecer mais informao, Hurlbert denominou-a pseudo-repetio, que significa falsa
repetio. Hurlbert (1984) forneceu muitos exemplos bons, mas vamos continuar com
nosso exemplo do lagostim. Lembre-se que a questo biolgica era determinar se a
presena de peixes predadores influencia na densidade dos lagostins. O que aconteceria
se nosso bilogo amostrasse cinco sees de um riacho sem peixes e cinco sees de um
riacho com peixes predadores? Todas as sees do primeiro riacho poderiam ter menos
lagostins porque este riacho era menos produtivo, ou porque fora poludo ou por causa de
uma epidemia no passado recente ou qualquer um de uma multido de fatores possveis
de afetarem lagostins. Para a nossa questo, uma observao na densidade de lagostim
em um riacho obviamente no independente de outras observaes no mesmo riacho.
Portanto, as cinco observaes no carregam mais informaes do que uma nica
observao.
Este erro simples permeia a literatura cientfica. Kruskal (1988) fornece vrios
exemplos de falta de independncia em situaes que no tm nada a ver com cincia.
Cada coisa est conectada com tudo o mais e extremamente difcil determinar quando
as observaes so realmente independentes. A engenhosidade dos cientistas revela-se
em sua capacidade de coletar observaes realmente independentes em relao a suas
questes, mas uma qualidade rara. Portanto, o lder do grupo integrado precisa se
certificar que as observaes que esto sendo feitas pelos membros da equipe no so
pseudo-repeties em relao questo global. Isto uma tarefa difcil, porque nenhuma
observao inerentemente vlida ou invlida. Uma pseudo-repetio para uma questo
pode ser uma repetio vlida para outra. Por exemplo, se o nosso bilogo estivesse
interessado em diferenas nas densidades do lagostim entre os dois riachos (e apenas
entre os dois), as 5 observaes em cada corpo dgua poderiam ser repeties
perfeitamente vlidas, cada uma trazendo mais informao a respeito da densidade do
lagostim em cada riacho.
As pseudo-repeties podem ser espaciais, temporais, filogenticas ou tcnicas.
Ns discutimos um exemplo de pseudo-repetio espacial e Hurlbert (1984) forneceu
inmeros outros. Este o tipo de pseudo-repetio mais comum, mas tambm a que
pode ser evitada com maior facilidade. Os membros da equipe vo atribuir suas pseudo37

repeties espaciais a dificuldades logsticas, mas o tempo e dinheiro gastos em


transporte usualmente so mais do que compensados pela solidez das concluses que
podem ser tiradas de evidncias de alta qualidade, coletadas em uma ampla escala
espacial.
Pseudo-repeties temporais so mais difceis de se detectar e evitar. Ocorrem
porque o estado de um sistema no pode mudar instantaneamente. Se uma rvore est
produzindo frutos em um ms chuvoso, provavelmente ainda estar produzindo frutos no
ms seguinte, e a precipitao neste ms provavelmente ainda ser alta. Parece haver
uma grande associao entre alta precipitao e produo mensal de frutos, embora o
evento que determinou o incio do processo de frutificao tenha ocorrido muitos meses
antes, ainda durante a estao seca. Por esta razo, as causas de sazonalidade no
podem ser demonstradas em um nico lugar em apenas um ciclo. Dcadas de trabalho
em um nico lugar ou estudos em muitos lugares com diferentes padres climticos so
necessrios para se determinar as causas da sazonalidade. A despeito disso, muitos
membros da equipe vo querer estudar sazonalidade, porque eles acreditam que os
efeitos da sazonalidade so to bvios que eles certamente conseguiro resultados
significativos. Variaes temporais so extremamente difceis de se estudar (p. ex.
Powell & Steele 1995, von Ende 1993) e os lderes de equipe deveriam procurar o
aconselhamento de estatsticos especializados, antes de inclurem variao temporal nos
objetivos gerais de seus estudos.
Pseudo-repetio filogentica um tpico complexo e, na maioria das vezes, est
associada a estudos onde espcies so as unidades amostrais. Os leitores mais
interessados podem consultar Garland et al. (1992), um bom ponto de partida para este
tpico. Estudos com sementes, girinos e larvas de insetos freqentemente sofrem de
pseudo-repetio filogentica, porque os organismos usados nos experimentos tm
estreito parentesco. Sementes de uma nica rvore, girinos de uma mesma desova ou
larvas de insetos encontradas em um local em particular so freqentemente muito
similares, por causa do material gentico ou efeito do aprovisionamento materno e
usualmente no apresentam todo o espectro de respostas exibido por populaes
maiores. Em vez de tentar fazer correes para excluir efeitos filogenticos, usualmente
prefervel tentar coletar indivduos no relacionados entre si para os experimentos. Se a
escala de amostragem for apropriada para a questo, isto dever acontecer quase
naturalmente.
Pseudo-repetio tcnica ocorre quando diferentes observadores ou instrumentos
so usados em diferentes partes do experimento. Quando no detectada, ela reca no
que Hurlbert chama de intruso demonaca, mas h poucas desculpas para este tipo de
erro na maioria dos estudos bem planejados. Ocasionalmente, h falhas de equipamento
ou doenas que podem alterar os resultados. Nestes casos, admitir honestamente a
possibilidade de pseudo-repetio a nica opo.
Retornando ao nosso grfico, o efeito de pseudo-repetio reduzir o nmero de
observaes realmente independentes, que podem ser representadas por pontos no
grfico. Se apenas dois riachos foram amostrados, todos os pontos mostrados na figura
22a ficam reduzidos aos dois pontos da figura 22b. Poucos bilogos, menos estatsticos, e
nenhum computador, sero capazes de perceber que a maior parte da informao
mostrada na figura 22a no pode ser interpretada em relao questo inicial. Dados
somente so teis se fornecem informaes. Se nossos grficos so enganadores, nossas
anlises tambm o sero e no teremos feito uma apreciao honesta das evidncias. H
algumas tcnicas estatsticas que podemos usar para levar em considerao o fato de que
nem todas as observaes foram independentes (p. ex. anlise de varincia hierrquica),
mas elas s sero teis se os pesquisadores puderem reconhecer a falta de independncia
38

e informar este fato ao estatstico ou ao computador. Nenhuma destas tcnicas so to


boas quanto reconhecer que o desenho proposto leva a pseudo-repeties e re-delinear o
sistema de amostragem para evit-las.

Figura 22
10

LAGOSTINS

6
4
2
0
S
S
XE
XE
EI
EI
P
P
_
_
M
M
SE
CO

ES

X
EI
_P
M
O
C

X
EI
_P
EM

ES

Para decidir quanta evidncia suficiente, temos de pensar em quantos pontos


teremos que colocar em cada grfico e nos assegurarmos de que estes pontos so de alta
qualidade, i.e. carregam informao independente em relao nossa questo. No
preciso ser um estatstico ou um bilogo para fazer isto, e o processo notadamente
simples. Entretanto, pela falta deste primeiro passo, a maioria dos resultados publicados
em trabalhos cientficos , na melhor das hipteses, no interpretvel e na pior, enganosa.
Vamos dar um passo adiante e fazer consideraes sobre um teste do qual quase todos j
ouviram falar, o teste do qui-quadrado em tabelas de contingncia. Anlises de tabelas de
contingncia quase nunca so apropriadas para questes estatsticas (Hulbert 1984,
Magnusson 1999), e isto se relaciona com o que uma observao independente em
relao a uma questo. Um bilogo estudando a dieta de uma espcie de peixe formula a
pergunta se a dieta dos adultos diferente da dos alevinos, e produz a tabela 2, que
contrasta o nmero de coppodos e algas encontrados nos estmagos de alevinos e
peixes adultos.
TABELA 2
ALEVINOS
ADULTOS

COPPODOS
3217
23

ALGAS
18
2936

O bilogo sabe que ser praticamente impossvel publicar os resultados sem um


teste estatstico e ento aplica um teste de tabela de contingncia, que resulta nos
seguintes hierglifos: 21=6030, P<<0.001. No se preocupe se voc no sabe o que eles
significam. A maioria dos leitores vai rever o que eles achavam que isto significava, aps
lerem mais alguns captulos. O importante aqui que a maioria dos eclogos iria
interpretar este resultado como indicativo de que muito improvvel que peixes adultos e
alevinos tenham a mesma dieta. Contudo, esta impresso muda quando vemos o caderno
de anotaes do bilogo (tabela 3).

39

Tabela 3
ALEVINO 1

COPPODOS
0

ALGAS
6

ALEVINO 2

3211

ALEVINO 3

ADULTO 1

2906

ADULTO 2

ADULTO 3

29

Agora, ningum acredita que exista uma diferena geral na dieta de adultos e
alevinos. Por acaso, um adulto encontrou um grupo de coppodos e um alevino fez um
banquete em um aglomerado de algas. Por qu o teste nos deu uma resposta falsa?
Porque a anlise assumiu que o registro de cada coppodo ou alga foi independente dos
outros. Os dados no refletem contingncia. Ns poderamos levar a cabo um teste de
contingncia vlido, se selecionssemos ao acaso apenas um item por cada estmago de
peixe, e descartssemos todo o resto da amostra. Isto iria requerer 6194 indivduos de
peixes, cada um coletado em um cardume diferente. Obviamente, esta seria uma maneira
muito ineficiente de atacar a questo. justamente o fato de as tabelas de contingncia
requererem observaes independentes e somente acumularem informao na forma de
presena/ausncia que as fazem to ineficientes para a maioria das questes ecolgicas.
Quando o leitor encontrar uma anlise de tabela de contingncia, pode estar
razoavelmente seguro de suspeitar que o pesquisador cometeu pseudo-repetio e que as
inferncias estatsticas so desprovidas de sentido. H uma pequena chance de a anlise
estar correta e, neste caso, o desenho amostral provavelmente foi muito ineficiente.
Entretanto, h uma chance muito, muito pequena, de a anlise de contingncia estar
correta e ser eficiente para responder a questo. Agora o leitor pode ver porque cursos de
estatstica bsica freqentemente examinam apenas probabilidades referentes a se retirar
bolas pretas e brancas de um barril. Barris no reproduzem, no nadam em cardumes e
no mudam muito com o tempo. Por isso eles so fceis de ser modelados
matematicamente. Entretanto, eles podem no ter muita relevncia para a maioria dos
eclogos.
A melhor maneira de evitar pseudo-repeties desenhar um mapa conceitual da
distribuio dos objetos de interesse em seu estudo. Cada ponto no seu diagrama deve
representar uma unidade de amostragem em potencial. A unidade de amostragem pode
ter diferentes nomes, dependendo da disciplina. Pode ser chamada de transeco,
parcela, grupo focal, gro, pixel ou outros nomes. Unidades de amostragem so
freqentemente relacionadas com a rea, mas pode ser uma espcie, um intervalo de
tempo, unidades experimentais ou outros objetos. Elas so sempre a menor unidade que
se pode medir, que ainda faz sentido em relao questo investigada.
O diagrama deve cobrir todo o universo de interesse. Este pode ser chamado de
universo de inferncia, escala de inferncia, escopo, extenso, imagem e outros nomes.
Estes diagramas no precisam ser acurados ou artsticos; servem apenas para
proporcionar uma impresso geral.
Dois exemplos reais podem ilustrar a tcnica. Uma estudante quer comparar o
40

comportamento de pssaros nos cerrados amaznicos e do Brasil central. Ela estuda


muitos indivduos, mas quando mapeia os cerrados de interesse (a figura 23a uma
representao conceitual do mapa), ela descobre que seu universo amostral no o
mesmo que o universo de interesse, e ela muda sua questo. Note que este mapa
conceitual simples, com formas ovais representando reas de cerrado, uma linha reta
representando a borda entre os dois biomas e trs manchas pretas representando reas
amostrais suficiente para mostrar que o universo de amostragem no corresponde ao
universo de interesse da questo original.
A figura 23b mostra o universo de interesse de um estudante que trabalha com
pssaros migratrios e deseja fazer inferncias sobre migraes de longas distncias.
Embora ele tenha informaes sobre um grande nmero de pssaros, amostrou apenas
uma das espcies que fazem aquela migrao (representados por pontos pretos na
figura). Um diagrama simples como o da figura 23b, com espcies de interesse
representadas por uma linha de crculos foi suficiente para mostrar o quanto o universo de
amostragem do estudante era limitado em relao ao seu universo de interesse.
Conseqentemente, ele compreendeu que, antes de fazer inferncias fortes ele deveria
restringir sua questo a apenas uma espcie ou aumentar o nmero de espcies
amostradas. Mapas conceituais quase sempre iro dar uma boa idia de se o pesquisador
est usando os dados apenas como uma vaga pista (sem repeties verdadeiras), como
uma inferncia forte (inmeras evidncias independentes), ou algum meio termo. O que
parece ser mapear as unidades amostrais, na verdade um processo de decidir qual a
questo que ser atacada.

Na maioria dos captulos seguintes, vamos discutir como a maioria das anlises
estatsticas mais comuns pode ser vista como mtodos de se reduzir problemas complexos
a duas dimenses, de forma que podem ser apresentados em simples grficos de
disperso. Se os lderes de equipes no puderem representar os resultados esperados de
suas anlises em forma de grficos simples, eles no compreendem as anlises e no
deveriam us-las. Entretanto, quando confrontados com sua incapacidade de produzir
grficos bidimensionais que representem seus resultados, os lderes de equipe iro clamar
que o objetivo de um estudo cientfico no produzir grficos simples, que podem ser
entendidos por qualquer pessoa. Eles diro que o objetivo dos estudos cientficos
estimar probabilidades. Nos prximos captulos vamos considerar a estranha definio de
probabilidade usada pela maioria dos cientistas.

41

Captulo 5:
Quando improvvel significa bem possvel.
Os estatsticos vm usando, por muito tempo, uma definio sui generis de
probabilidade, que vai contra a nossa intuio (Platt 1964). Entretanto, a aceitao geral
desta definio remonta a Sir Karl Popper, nas primeiras dcadas do sculo XX. Popper era
um austraco e, por isso, foi surpreendente que ele tenha sido agraciado com o ttulo de
Cavalheiro pela Rainha da Inglaterra. Sua filosofia teve larga aplicao nos ramos da
poltica, cincias sociais e estudo do aprendizado. Contudo, muitos cientistas no se do
conta disto e usam a filosofia Popperiana apenas como um rbitro imparcial para
determinar um mundo objetivo.
O fundamento da teoria Popperiana que no se pode provar nada, apenas
desprovar. Para realmente entender isto, preciso ler muito mais do que poderamos
apresentar aqui. Aqueles interessados em um tour a respeito de Popper e suas idias,
em uma prosa colorida, embora prolxa, devem ler a sua Unended Quest: an Intellectual
Autobiography. (Popper 1976). Aqueles que no tiverem tanto tempo podem consultar
Popper de Magee (1982). No campo poltico, Popper desmantelou a justificativa
cientfica nazista para o genocdio de judeus e, por isso, foi agraciado por Sua
Majestade. Suas idias sobre o processo de aprendizado humano abriram, de muitas
maneiras, caminhos para a moderna sociobiologia. A filosofia Popperiana a base para a
abordagem de chaves dicotmicas de deciso em estudos de planejamento, que tem sido
reconhecida como uma das abordagens mais poderosas na cincia (Platt 1964). Sua
filosofia o eixo central de quase toda a literatura moderna sobre estatstica, e este o
aspecto que vamos considerar neste volume. Entretanto, a filosofia Popperiana, e
especialmente a abordagem "freqentista", no o nico ou necessariamente o melhor
mtodo cientfico. Pichett e colaboradores (1994) fornecem uma boa introduo sobre
outras maneiras de se olhar o mundo.
Hilborn e Mangel (1997) escreveram um grande livro chamado "The Ecological
Detective", no qual oferecerem uma viso geral de diferentes meios de se abordar
fenmenos ecolgicos e contrastaram algumas abordagens de investigao. Ao invs de
considerarmos diferentes agendas de pesquisa como abordagens diferentes, podemos
interpret-las apenas como diferenas nas nfases. Embora Hilborn e Mangel (1997)
foram avessos a chamar seus modelos de "hipteses" e ministraram o paradigma
Bayesiano, eles iniciaram sua discusso com a premissa de que os leitores j conheciam
tudo de que tratamos neste livro. Recomendamos que os professores de estatstica leiam
o livro de Hilborn e Mangel antes de ministrarem seus cursos e que os alunos leiam-no
aps a completa leitura deste livro.
Popper ensina que s aprendemos quando erramos. Considere uma criana recmnascida. Ela est programada para esperar alguma coisa do mundo. Se ela no tivesse
nenhum programa em seu crebro, seria como um computador sem um sistema
operacional totalmente morto. Vamos imaginar que a criana programada para
acreditar que o mundo macio (isto hipottico, j que os autores admitem que no tm
lembranas to antigas). Os pais da criana fazem o possvel para que tudo o que toque a
criana seja macio em seus primeiros dias de vida e, portanto, ela no tem razes para
rejeitar sua preconcepo de que o mundo todo macio. Entretanto, note que no
importa quantos objetos macios ela tenha tocado, isto nunca provar que o mundo
macio. Basta tocar um nico objeto rgido, talvez um brinquedo de cor azul, para rejeitar
toda sua conjectura sobre um mundo macio. A criana descobre que estava errada e
42

aprende. Ela criar uma nova conjectura, talvez que apenas objetos azuis sejam rgidos, e
somente ir adiante quando houver alguma razo para refutar esta nova conjectura.
Este exemplo ilustra o fato de que muito fcil obter evidncia para rejeitar
alguma coisa. Freqentemente uma nica observao que contrarie as expectativas ser
suficiente. Entretanto, nenhuma quantidade de corroborao provar que aquela
conjectura seja correta. Durante milhares de anos, todas as observaes corroboravam a
afirmativa de Aristtoles de que um corpo permanece parado na ausncia de foras, at
que Newton finalmente a tenha refutado. Segundo Newton, a acelerao, e no o
movimento, demandava foras, e a acelerao de um corpo era diretamente dependente
da fora exercida sobre ele, e inversamente dependente de sua massa. Bastou alguns
sculos para que Eistein refutasse Newton, demonstrando que essa relao no vlida
para todos os casos (i.e. para escalas muito grandes ou muito pequenas). Hoje, os fsicos
se esforam para refutar Einstein e empurrar a cincia adiante.
A estatstica Popperiana se baseia nesta linha de raciocnio, de que mais fcil
refutar do que provar alguma assertiva, embora o embasamento da maioria dos livros
convencionais de estatstica seja muito mais restritivo do que a teoria geral de Popper,
uma linha que tem sido chamada de "freqentista". Os adeptos da estatstica convencional
(freqentista) no perguntam qual a probabilidade de estarem certos, mas a
probabilidade de estarem errados. Para fazer isto, eles comeam estabelecendo uma
hiptese nula. Uma hiptese nula uma assertiva de como o mundo deveria ser, se nossa
suposio estivesse errada. Fizemos a conjectura de que a presena de peixes afetava a
densidade de lagostim e o nosso grfico foi consistente com nossa conjectura. Nossa
hiptese nula era que no havia diferenas entre as densidades de lagostins entre os
riachos com e sem peixes. A figura 24a ilustra nosso grfico inicial, construdo sob a
hiptese de que os peixes afetam as densidades do lagostim. A figura 24b ilustra como
imaginamos que o grfico deveria parecer se a hiptese nula (no h diferena nas
densidades de lagostins em riachos com e sem peixes) fosse correta.
A arte do cientista ser capaz de visualizar grficos que representem a hiptese
nula e comparar esta idealizao com o grfico obtido com dados reais. Entretanto, h
muitos grficos que podem representar a hiptese nula. Poderamos ter amostrado outros
10 riachos e o resultado seria ligeiramente diferente. A estatstica inferencial diz respeito a
lidar com muitas possibilidades diferentes sob a hiptese nula.

Figura 24
OBSERVADO

LAGOSTINS

12

HIPTESE NULA
12

0
M
SE

S
XE
EI
_P

S
XE
EI
_P

S
S
XE
XE
EI
EI
_P
_P
M
M
SE
CO

M
CO

43

Obviamente no podemos ajustar muitos grficos em uma nica pgina, portanto,


iremos olhar para apenas uma coisa em cada grfico para fazer a comparao. Esta
medida de cada grfico chamada de uma estatstica. Agora, precisaremos fazer algumas
operaes, mas sero contas simples. Para os dados mostrados na figura 24a, calculamos
a mdia das densidades nos riachos sem peixes (7,7) e nos riachos com peixes (3,8), e a
diferena entre as mdias, que chamaremos de "DIF" foi igual a 3,9. Para os dados
hipotticos mostrados na figura 24b, a diferena entre a mdia da densidade de lagostins
nos riachos sem peixes (7,0) e com peixes (7,7) foi igual a - 0,7 (i.e. DIF=-0,7).
intuitivo: quando peixes afetam as densidades de lagostins, esperamos maiores diferenas
absolutas entre as mdias das densidades em riachos com e sem peixes do que quando os
peixes no afetam as densidades de lagostins. Entretanto, um ctico poderia dizer que a
associao entre a densidade de lagostins e a presena de peixes foi acidental. Ao
amostrarmos apenas cinco riachos de cada tipo, poderamos ter selecionado
inadvertidamente cinco riachos com peixes que, por acaso, tinham menos lagostins do
que os riachos sem peixes. Devemos reconhecer que o ctico tem sua razo. Se apenas
um riacho no tivesse lagostins, e por puro acaso fosse justamente um dos riachos da
categoria dos "com peixes", poderia ser suficiente para abaixar a mdia geral das
densidades de lagostins em riachos com peixes.
Para avaliar este argumento, vamos criar uma hiptese mais especfica a respeito
de nossas observaes. Poderemos dizer que esperamos uma diferena nas densidades
dos lagostins, entre riachos com e sem peixes, maior que a esperada para uma
associao ao acaso entre a presena ou ausncia de peixes. A hiptese nula estabelece
que ainda esperamos alguma diferena entre as mdias das densidades de lagostins nas
duas categorias de riachos, mas que esta diferena no maior que a esperada para uma
associao aleatria entre as densidades de lagostins e a presena de peixes. A questo
agora : de que tamanho deve ser DIF para que ns rejeitemos a hiptese nula e
continuemos a acreditar em nossa hiptese alternativa?
Para responder isto, precisamos calcular DIF quando a hiptese nula "verdadeira"
(os Popperianos ortodoxos diriam: quando a hiptese nula no falsa). Para isto, vamos
usar uma moeda e atribuir aleatoriamente a qualidade de "peixes presentes" (cara) e de
"peixes ausentes" (coroa) aos valores medidos de densidades de lagostins, constantes da
tabela 4. Criamos as variveis PEIXE1, PEIXE2 e PEIXE3 da tabela 4 por este sorteio, com
a restrio de que somente cinco riachos de cada tipo (PEIXE + ou PEIXE -) foram
admitidos, para que, como na amostra original, houvesse sempre o mesmo nmero de
riachos com e sem peixes.
TABELA 4
RIACHO
1

PEIXE
+

LAGOSTINS
1

PEIXE1
+

PEIXE2
+

PEIXE3
+

44

10

9.5

As colunas 2 e 3 mostram os dados usados para construir a figura 24a. As colunas


PEIXE1, PEIXE2 e PEIXE3 foram o resultado do sorteio e so alocaes ao acaso da
presena ou ausncia de peixes. Podemos parear cada uma destas colunas com a coluna
das densidades "observadas" de lagostins (LAGOSTINS) para construir grficos dos
resultados esperados quando a hiptese nula verdadeira (figuras 25a, b, c).

Figura 25
10

LAGOSTINS

10

10

0
S
XE
EI

_P

SE

ES
IX
PE

S
XE
EI

XE
EI

_P

_P

SE

CO

CO

SE

EI
_P

S
XE

XE
EI

_P

CO

Agora, podemos calcular DIF para cada um destes grficos. O primeiro tem uma
DIF=1,1, o segundo tem uma DIF=1,7 e o terceiro uma DIF=-0,7. Se tivssemos feito
mais desses grficos de resultados esperados quando a hiptese nula verdadeira, qual
seria a probabilidade de encontrarmos uma diferena to grande ou maior que a calculada
para os dados "observados" (DIF= -3,9)? Para responder a isto, precisaramos de mais um
grande nmero de grficos e de lanar a moeda muitas e muitas vezes: uma maneira
ineficiente de alocar a caracterstica de presena ou ausncia de peixes para os riachos.
Felizmente, um computador pode eficientemente simular este processo que acabamos de
descrever, ento pedimos a ele para calcular 100 DIFS baseadas na alocao aleatria da
presena ou ausncia de peixes em riachos. A tabela 5 traz as primeiras 20 DIFs
calculadas pelo computador.
TABELA 5
GRFICO
1
2
3
4
5
6
7
8

DIF
2,7
1,9
-0,09
2,5
-2,7
1,7
0,5
0,1

GRFICO
11
12
13
14
15
16
17
18
45

DIF
2,1
2,7
-3,1
1,5
-1,1
-0,1
1,3
-0,5

9
10

1,5
3,1

19
20

-0,7
-0,3

Todos os primeiros 20 resultados tiveram um valor absoluto menor do que o valor


da DIF observada de -3,9, mas ainda restaram muitas combinaes possveis entre as
densidades de lagostins observadas e o atributo de presena ou ausncia de peixes nos
riachos. Quando comparamos a DIF observada com as 100 DIFs calculadas sob a hiptese
nula (figura 26), encontramos dois casos que tiveram uma diferena absoluta to grande
ou maior do que o valor observado.

DIF

Figura 26
4
3
2
1
0
-1
-2
-3
-4
-5
OB

SE

A
RV

DO
SI

D
LA
U
M

Portanto, conclumos que h somente em torno de duas chances em 100 de se


obter um valor absoluto de DIF to grande ou maior que 3,9, quando no h associao
entre a presena de peixes e a densidade de lagostins em riachos. Consideramos os
valores absolutos dos resultados porque fizemos a pergunta geral se peixes afetam ou no
a densidade de lagostins. Este um teste de duas caudas. Se tivssemos perguntado se a
presena de peixes faz diminuir a densidade de lagostins, poderamos fazer um teste mais
sensvel, de apenas uma cauda, contando somente quantos resultados simulados eram
iguais ou menores a -3,9. Entretanto, o princpio geral o mesmo e no queremos nos
alongar em detalhes.
Vamos rever nossos passos at aqui, porque o processo geral para todos os
testes inferenciais. Processos similares so advogados por muitos autores (p. ex. Hulbert
1987).
Passo 1. Visualize o resultado esperado quando a hiptese que voc est testando for a
correta.
Passo 2. Visualize o resultado esperado quando a hiptese que voc esta testando no for
a correta. Este resultado deve ser a anttese do anterior, ou seja as hipteses
devem ser opostas e excludentes. Ele chamado de hiptese nula e este o
processo de criao da hiptese nula.
Passo 3. Crie a medida que reflita a diferena que voc espera entre a situao em que a
hiptese nula seja a correta e quando a sua hiptese (hiptese alternativa) seja a
46

correta. Esta medida chamada de uma "estatstica".


Passo 4. Obtenha muitos valores de sua estatstica, usando um processo no qual a
hiptese nula seja verdadeira (i.e. sua hiptese seja falsa).
Passo 5. Compare o valor da estatstica para os dados observados com os valores da
estatstica calculados quando a hiptese nula verdadeira (valores nulos). Ento
use a proporo de valores nulos iguais ou maiores que o valor observado como
uma indicao da probabilidade de se obter um valor to grande ou maior do que o
observado, quando a hiptese nula verdadeira.
Passo 6. Decida se a probabilidade suficientemente pequena para que voc rejeite a
hiptese nula e continue acreditando em sua hiptese (note que voc nunca prova
que sua hiptese est correta, apenas que a hiptese nula provavelmente est
errada).
Se est parecendo complicado, retorne figura 26. Deve ser suficiente para
clarificar. Ser uma boa idia anotar este processo, j que o usaremos em todo o decorrer
deste livro. Tnhamos uma questo complexa, que envolvia uma centena de grficos.
Usamos alguma matemtica simples para calcular uma medida na qual estvamos
interessados (neste caso, uma diferena) e usamos os valores resultantes para construir
um nico grfico simples, que nos possibilita fazer uma deciso. Mesmo a lgica intrincada
da filosofia Popperiana pode ser representada em um simples grfico!
Deve estar claro, agora, porque os cientistas procuram por probabilidades
pequenas. Eles esto se perguntando se a cincia conhecida, ou o senso comum, esto
errados, e vo inventando explicaes novas de como o mundo funciona. Basicamente,
eles aceitam que podem estar certos em suas novas explicaes, quando a probabilidade
das explicaes tradicionais estarem certas for muito pequena. Para mostrar que as
explicaes tradicionais esto erradas, eles precisam criar um processo (hiptese nula)
que represente a maneira como a cincia conhecida ou o senso comum espera que o
mundo funcione. Grande parte das polmicas na literatura cientfica se deve a desavenas
sobre qual a hiptese nula, como medi-la e o quanto as evidncias disponveis so
suficientes para rejeit-la (Gotelli 2001). Um bom desenho amostral usualmente tem uma
nica interpretao lgica. Desenhos amostrais inadequados levam a muitas
interpretaes alternativas e poucas concluses podem ser tiradas com confiana.

Como os livros de texto contam a estria?


A estria que contamos simples, uma vez que voc passe a usar a lgica
Popperiana. Entretanto, os livros de estatstica fazem parecer que algo muito complexo foi
feito. Parte do problema histrico, e parte devido a inverso desnecessria de grficos.
Voc no precisa se preocupar com a prxima seo deste captulo, a menos que j tenha
tido algum contato com a estatstica e deseje entender como nossos grficos se
relacionam com os que so usualmente mostrados nos livros.
Para compreender as diferenas, vamos considerar a anlise mais usada para se
determinar quando duas amostradas so diferentes, o teste t de Student. O nome real de
Student foi William S. Gosset e ele trabalhou em uma cervejaria. Sua hiptese nula era
um pouco diferente da que usamos, quando fizemos o teste sorteando a moeda. A
pergunta de Gosset foi "Qual a probabilidade de que as duas amostras foram tiradas ao
acaso da mesma populao de medidas?" A lgica desta questo bvia. Duas amostras
tiradas ao acaso de uma mesma populao s podem ser diferentes por acaso. Gosset
questionou-se "Com que freqncia esperaramos amostras com mdias to ou mais
47

diferentes do que a de nossas amostras se elas realmente vieram da mesma populao de


medidas?". A hiptese nula de Gosset similar a nossa, ao perguntar se algum outro
processo, alm do acaso, foi provavelmente o responsvel pelo resultado de uma
diferena entre as mdias to grande ou maior que a dos valores observados. Entretanto,
Gosset percebeu que a diferena entre as mdias depende da escala na qual medimos as
variveis. Medies em milmetro resultam em diferenas numricas 10 vezes maiores que
medidas em centmetros. Portanto, um conjunto diferente de DIFs esperadas sob a
hiptese nula precisaria ser calculado para cada escala de medidas, e seria complicado a
um tempo comparar coisas pequenas como camundongos e coisas grandes como antas.
Para resolver o problema da escala de medidas, Gosset padronizou as diferenas,
dividindo-as pelo seu desvio padro (reveja o captulo 3 se voc esqueceu o que um
desvio padro), para deixar os resultados em uma mesma escala. Sua nova frmula ficou
como DIF/DPDIF. Por agora, no se preocupe a respeito do desvio padro da diferena
(DPDIF), basta que compreenda que foi um truque matemtico para resolver o problema
da escala. A frmula de Gosset DIF/DPDIF ficou mais tarde conhecida como estatstica "t"
[veja Mosteller e Tukey (1968) para outras implicaes histricas do teste de Gosset].
A vida no era fcil no incio do sculo XIX. Lembre-se que usamos um computador
para calcular para ns as 100 DIFs, porque o processo de lanar moedas e calcular uma
nova DIF para cada amostra de hiptese nula era muito demorado. Gosset no tinha
acesso a um computador veloz, e precisou simular o processo escrevendo 3000 nmeros
em pedaos de cartolina, embaralh-los e retirar 750 amostras de quatro unidades
(Student 1908). Isto foi adequado para ilustrar a distribuio geral de sua estatstica.
Entretanto, ele considerou que seu grfico no estava satisfatrio, porque arredondara os
nmeros quando os escreveu nos pedaos de cartolina. A idia de reescrever outros 3000
nmeros com muitas casas decimais no agradou muito Gosset e, rapidamente,
compreendeu que coletar fisicamente amostras sob a hiptese nula era muito complicado,
para ser usado em muitas situaes. A partir da ele embarcou numa viagem de "e se"
que s um matemtico poderia vislumbrar. Se conhecermos alguma coisa a respeito da
distribuio de medidas em nossa populao nula hipottica, e se a distribuio destas
medidas tiver uma forma que permita que a teoria matemtica trabalhe com ela,
poderamos saber qual a distribuio que a estatstica t deveria ter quando a hiptese nula
estivesse correta. Ele usou os dados coletados para estimar algumas caractersticas da
populao nula hipottica. Caractersticas de populaes so chamadas de parmetros.
Por isso, este tipo de teste foi chamado de paramtrico.
Como ele no teve facilidades de computao para gerar muitas distribuies de
valores de t quando a hiptese nula era correta, usou a teoria matemtica para estimar a
proporo de ts hipotticos to grandes ou maiores que o t observado. O brilhantismo de
Gosset revelado pelo fato de que, quando suas premissas a respeito da distribuio da
populao hipottica so satisfeitas, seu mtodo leva a um resultado extremamente
prximo aos resultados gerados pelos mtodos de computao intensiva, similares ao que
usamos.

Como os estatsticos contam observaes


independentes
Quando a hiptese nula est correta, uma populao diferente de ts existe para
cada combinao de nmero de observaes em cada amostra. Ns, comparamos cinco
riachos com peixes e cinco riachos sem peixes. Entretanto, se comparssemos sete
riachos com peixes e cinco sem peixes, teramos encontrado diferentes populaes de
48

DIFs e de ts. Isto no muda muita coisa em nosso mtodo de computao intensiva,
talvez um milionsimo de segundo a mais para fazer as computaes adicionais.
Entretanto, sem a ajuda de computadores velozes, o processo proibitivo em termos do
tempo gasto e os estatsticos do incio do sculo XIX precisaram inventar o conceito de
valores crticos para as estatsticas. Agora eles podiam dizer: "Se voc tem 5 observaes
na primeira amostra e 7 na segunda, todos os valores de t maiores do que 1,81 tero
menos do que 10% de chance de serem observados, quando a hiptese nula estiver
correta. Valores de t maiores do que 2,95 tero menos do que 1% de chance".
Os valores crticos foram usados para se construir as tabelas de valores crticos
usualmente encontradas no final dos livros de estatstica. A maioria dos programas de
computadores, especializados em estatstica, podem calcular a probabilidade exata da
hiptese nula ser verdadeira, e as tabelas estatsticas quase no so mais usadas.
Contudo, este exemplo introduz o conceito de graus de liberdade usados nos testes
estatsticos. Para encontrar a probabilidade associada com qualquer valor em particular de
uma estatstica, precisamos conhecer quantas observaes independentes foram usadas
para calcul-la. Usualmente se diz que os graus de liberdade dos testes estatsticos so o
nmero de observaes independentes menos o nmero de parmetros estimados. Em
nosso exemplo, tnhamos 10 riachos e estimamos a mdia e o desvio padro, para
construir a distribuio de resultados esperados quando a hiptese nula era verdadeira.
Portanto, o grau de liberdade para a estatstica t em nosso exemplo foi 10-2=8.
Para interpretar corretamente as tabelas estatsticas, precisamos na verdade de
dois nmeros, um que se refere ao nmero de parmetros estimados e outro ao nmero
de observaes independentes. Ser mais consistente com outros testes se considerarmos
os graus de liberdade de nosso exemplo como sendo 1 e 8. No caso de nossa comparao
de duas amostras, no precisamos nos preocupar em apresentar o primeiro nmero,
porque o teste t sempre estima apenas 2 parmetros. No preciso preocupar-se com os
detalhes. Por enquanto, basta notar que os graus de liberdade so associados com o
nmero de observaes independentes. Se suas observaes no forem independentes
(i.e. voc cometeu pseudorepetio), voc entrar na tabela no ponto errado e a
probabilidade que estimar ser uma pseudoprobabilidade, que no pode ser relacionada
com a hiptese nula em questo. Infelizmente, muitas (seno a maioria) das
probabilidades apresentadas na literatura so pseudoprobabilidades, que s servem para
indicar que o autor pertence cultura cientfica, e no transmitem qualquer informao
objetiva sobre o mundo real.
No se preocupe se achou esta ltima seo de difcil leitura. O importante aqui
entender que estatsticos como Gosset seguiram o mesmo processo do nosso teste de
cara-ou-coroa.
Passo 1. Ele visualizou o resultado esperado quando sua hiptese de como o mundo
deveria funcionar era correta.
Passo 2. Visualizou o resultado esperado quando sua hiptese no era correta (i.e. como a
cincia tradicional e/ou o senso comum acreditavam que o mundo deveria funcionar).
Passo 3. Ele criou uma medida que refletia a diferena esperada entre a situao quando
a hiptese nula era a correta e quando sua hiptese era a correta. Esta medida agora
conhecida como a estatstica t.
Passo 4. Ele usou a teoria matemtica para obter muitos valores da estatstica usando um
processo no qual a hiptese nula era "verdadeira" (i.e. quando sua hiptese era falsa).
Passo 5. Ele usou a matemtica para comparar o valor da estatstica estimada para os
dados observados com a estatstica esperada quando a hiptese nula era "verdadeira"
(valores nulos). Ento, usou a proporo dos valores nulos esperados iguais ou maiores
que o valor observado como um indicador da probabilidade de se obter um valor to
49

grande ou maior quando a hiptese nula for "verdadeira".


Passo 6. Ele decidiu se essa probabilidade era to pequena que ele deveria rejeitar a
hiptese nula e acreditar em sua hiptese.

mais fcil compreender o mundo se no o colocar


de cabea para baixo.
Se o leitor leu alguns livros de estatstica e se lembra de coisas a respeito da
distribuio normal e outras distribuies, ser tentado a pular diretamente para a
prxima seo. Mas, por favor, no faa isto, porque o mundo ficar desnecessariamente
complexo se nos afastarmos de nossos grficos simples de disperso. Uma razo pela qual
os estudantes ficam confusos com as distribuies estatsticas e com valores de dados
que a distribuio de valores de uma medida ou uma estatstica sempre apresentada na
horizontal nos livros de estatstica. Para entender isto, vamos inverter alguns grficos.
Considere a distribuio dos dados de pontos na figura 27a. Relacionamos os valores de
densidades de lagostins com categorias de riachos. Porque consideramos as densidades
de lagostins como sendo dependentes das categorias de riachos, e no o contrrio,
colocamos as densidades de lagostins no eixo vertical (eixo y), seguindo a conveno de
que a varivel dependente representada no eixo y. Entretanto, se tivssemos apenas
uma categoria de riachos, como nas hipteses nulas de testes paramtricos, a nica coisa
que poderia variar seria a freqncia de cada densidade dos lagostins. Por causa disto, as
distribuies so convencionalmente apresentadas com a varivel dependente no eixo
horizontal (eixo x). Neste caso, os dados da figura 27a passariam a ser apresentados
como na figura 27b.

Figura 27
12

LAGOSTINS

10

COM_PEIXES

6
4

SEM_PEIXES

2
0
ES
IX
E
_P

M
SE

ES
IX
E
_P

4
6
8
LAGOSTINS

10

12

M
CO

Entretanto, os matemticos no vem pontos individuais e, assumindo uma


distribuio em particular chamada de "distribuio normal", usam os dados para estimar
as caractersticas desta distribuio (figura 28a) e descartam os dados, ficando apenas
com a curva terica (figura 28b).
50

Figura 28
a

COM_PEIXES

SEM_PEIXES

4
6
8
LAGOSTINS

10

12

4
6
8
LAGOSTINS

10

12

Podemos ver que a distribuio normal nem sempre parece ser uma aproximao
muito boa dos dados dos riachos com peixes, mas geralmente isto no afeta a validade
dos testes estatsticos comumente usados. A distribuio de dados esperados quando a
hiptese nula verdadeira , na verdade, uma nica curva hbrida que um tipo de mdia
matemtica das duas curvas da figura 28b. Usamos esta curva para estimar a diferena
nas mdias para as amostras de um determinado tamanho, quando a hiptese nula est
"correta".
O tipo de distribuio esperado similar ao da nossa DIF (figura 26). Para
comparar nossos valores observados de DIFs com a distribuio esperada de DIFs quando
a hiptese nula "verdadeira" (figura 29a - a mesma da figura 26), poderamos inverter
os eixos, apagar os pontos e comparar apenas a posio da bolinha preta com a
distribuio terica de DIF ao longo do eixo x (figura 29b).

4
3
2
1
0
-1
-2
-3
-4
-5

FREQNCIA RELATIVA

DIF

Figura 29
20

0
-5

O
O
AD
AD
UL
RV
E
M
S
SI
OB

-2

DIF

Isto o que a maioria dos livros de estatstica nos ensina a fazer. Entretanto, isto
no ajuda muito na compreenso do processo. Os matemticos no amostram fisicamente
51

suas populaes nulas, mas se imaginarmos que eles fazem esta amostragem e se
tentarmos imaginar as distribuies das estatsticas no eixo vertical, ficar mais fcil
relacionar o processo com os nossos prprios dados. Quase todas as anlises que vamos
considerar destinam-se a examinar a variao dos valores expressos nos eixos verticais de
nossos grficos (variveis dependentes). Portanto, ns apenas complicaramos mais as
coisas se insistssemos em inverter a orientao dos grficos.
Tudo isto est ficando um pouco complicado, portanto, vamos retornar aos
exemplos do mundo real. No prximo captulo, vamos considerar como podemos testar
eficientemente diferenas entre vrias categorias.

52

Captulo 6:
Como evitar acumular o risco em comparaes
simples
Com que tipo de risco estamos preocupados?
O fato de constatarmos que um determinado resultado no freqente quando a
hiptese nula est correta no quer dizer que nunca o observaremos quando ela estiver
correta. Lidamos com probabilidades e coisas improvveis acontecem. A probabilidade de
sua sogra morrer atropelada, hoje mesmo, muito pequena. Entretanto, milhares de
sogras morrero atropeladas esta noite.
O fato das probabilidades com que os estatsticos usualmente trabalham serem
muito diferentes daquelas com que as pessoas se preocupam no dia-a-dia, sempre
causam dificuldades aos estudantes. Isto acontece, principalmente, porque os cientistas
tentam evitar decidir que um fenmeno existe, quando ele no existe. Isto faz sentido,
porque a cincia avana sobre o conhecimento anteriormente acumulado. Se este
conhecimento falso, tudo o mais que for baseado nele estar errado. Se decidssemos
que peixes afetam a densidade de lagostins, quando na verdade no afetam, vamos
deixar de ver a causa real que limita as densidades de lagostins e tomaramos medidas
erradas para aumentar a densidade de lagostins (caso fosse desejvel aumentar sua
densidade). Tradicionalmente, os cientistas da rea biolgica tm considerado que um
fenmeno existe se h menos do que uma chance em 20 (0,05) de que ele no exista.
Esta probabilidade que funciona como um critrio para se determinar se o fenmeno
existe ou no (neste caso 0,05), chamada pelos estatsticos de "nvel de significncia"
Vemos que os cientistas no abraam novas explicaes
facilmente. Rejeitar erroneamente a hiptese nula e decidir que um fenmeno existe,
quando ele no existe, chamado de erro do tipo I. A estatstica convencional
construda para se resguardar deste tipo de erro.
Entretanto, erros do tipo I nem sempre so os mais custosos. Isto mais
facilmente compreendido com um exemplo pessoal. Imagine que voc se apaixone por
um(a) estatstico(a), e desejem ter filhos. Imagine que ele ou ela tenha justamente
retornado de uma conferncia onde tenha se envolvido em relacionamentos promscuos.
Entretanto, seu(sua) parceiro(a) argumenta: "No se preocupe, eu fiz todos os clculos e
a chance de eu no ter contrado alguma doena sexualmente transmissvel de 6%, e a
probabilidade de 0,06 no suficiente para rejeitar a hiptese nula de que eu no tenha
sido contagiado(a)". Foi uma concluso vlida do ponto de vista estatstico e cientfico.
Contudo, provavelmente voc no se importar muito em cometer o erro do tipo I, porque
a probabilidade de aceitar a hiptese nula quando ela falsa muito mais custosa, neste
caso.
Aceitar a hiptese nula, quando ela falsa, chamado de erro do tipo II e a
los estatsticos.
Mesmo que haja apenas uns 20% de chance de seu parceiro ser portador de uma doena
contagiosa e potencialmente fatal, ainda no ser suficiente para que voc continue seu
relacionamento sem uso de preventivos e, possivelmente, at probabilidades muito
menores no sero suficientes para que voc leve adiante a idia de filhos, sem exigir
previamente dele(a) uma bateria de exames laboratoriais.
53

Para uma amostra de determinado tamanho, a probabilidade de se cometer o erro


do tipo II inversamente proporcional probabilidade de se cometer o erro do tipo I. Por
isso, muitos cientistas usam nveis de significncia muito maiores do que 0,05 quando o
erro do tipo II envolve um custo alto. Isto ocorre comumente em estudos que tratam de
sade humana, extino de espcies, e quando a rejeio prematura da hiptese levar
ao abandono de uma linha de pesquisa potencialmente muito importante. Poucos
cientistas aceitariam o nvel de significncia arbitrrio de 0,05 para planejar sua vida
pessoal. Entretanto muitos deles esto prontos para aceit-lo em suas atividades
profissionais, refletindo a falta de seriedade que devotam cincia. A capacidade de se
detectar uma diferena quando ela realmente existe (isto , de no se cometer um erro do
tipo II) chamado de "poder" do teste.
Neste volume, no teremos tempo para enfatizar a importncia de erros do tipo II
e para a maioria das discusses que se seguiro assumiremos que estamos lidando com
situaes nas quais o erro do tipo I o mais custoso. Isto facilitar o aprendizado dos
conceitos gerais. Entretanto, esperamos que os leitores no se esqueam de avaliar a
importncia de erros tipo II em sua pesquisa. Referindo-se especificamente a uma anlise,
Koele (1982) declarou que "Uma avaliao adequada dos resultados experimentais sob
estes modelos simplesmente impossvel sem o conhecimento a respeito do poder dos
testes que usam a estatstica F". Diramos que este comentrio se aplica a todos os
modelos e a todos os testes estatsticos e no apenas queles que usam a estatstica F.
Referncias teis sobre este tpico incluem Koele (1982), Huberty (1987) e Green (1989).
Informando-se alguns dados preliminares, alguns programas de computador podem
calcular o tamanho amostral necessrio para se detectar efeitos de magnitude e
probabilidades especificados (p.ex. SIMSTAT, Pladeau, 1966). Entretanto, sempre haver
alguns "truques" matemticos envolvidos nestas operaes e geralmente ser melhor o
leitor estar certo de ter alguns grficos hipotticos convincentes.

Usando a variabilidade para reconhecer uma


diferena
No captulo anterior, consideramos um exemplo no qual comparamos uma amostra
com outra e avaliamos a probabilidade de declarar erroneamente que alguma coisa alm
do acaso causou a diferena entre elas, construindo uma hiptese nula. No faz diferena
se realizamos uma permutao fsica (nosso teste das DIFs) ou usamos uma matemtica
complicada (teste t de Student) para gerar os resultados esperados quando a hiptese
nula estivesse correta. Os princpios so os mesmos. Entretanto, nossa hiptese nula se
relacionou somente comparao de dois grupos. Vamos considerar agora o que
acontece quando comparamos mais do que dois grupos. Talvez nosso bilogo esteja
interessado nas densidades de lagostins em riachos sem peixes (RSP), riachos com apenas
peixes herbvoros (RCPH) e riachos com peixes carnvoros (RCPC). Seus resultados so
mostrados na figura 30.

54

Figura 30
LAGOSTINS

12
8
4
0

RCPC RSP RCPH

Poderamos usar nosso teste de cara-coroa ou o teste t de Student para comparar


RSP com RCPH, RSP com RCPC, e RCPH com RCPC. Entretanto, cada vez que
executarmos o teste corremos o risco de cometermos um erro. Por enquanto, vamos
seguir a conveno e assumir que s devemos rejeitar a hiptese nula, de que no h
diferenas entre as categorias de riachos, se houver apenas uma chance em 20, ou
menos, disso acontecer ao acaso. Se nada alm da sorte estiver causando as diferenas
nas mdias, somente rejeitaremos a hiptese nula quando 5% (0,05) ou menos das DIFs
simuladas (ou ts calculados) forem menores do que a DIF (ou t) dos dados observados.
Portanto, a chance de cometermos o erro do tipo I quando comparamos RSP com RCPH
cerca de uma em 20. Entretanto, se formos comparar RSP com RCPC, novamente teremos
uma chance em 20 de encontrarmos uma diferena, quando ela no existe. A
probabilidade geral de, por puro azar, encontrarmos uma diferena que no existe, agora
de duas em 20. Com trs testes ser aproximadamente trs em 20 e continua
aumentando, embora no linearmente, com o nmero de testes.
Esta taxa cumulativa de erro nos familiar em nosso dia-a-dia, embora, quando
jovens, sejamos inclinados a crer que nunca acontecer conosco. A maioria dos pais ficam
receosos quando seus filhos pegam o carro emprestado e dirigem em alta velocidade, ou
praticam esportes radicais como vo livre, ou simplesmente no tm o bom senso de
praticar sexo seguro. Toda vez que uma criana vai contra as orientaes de seus pais, se
torna mais e mais convencida de que imune aos perigos. Entretanto, os pais sabem que
se um comportamento de risco repetido um nmero suficiente de vezes, uma pequena
chance de perigo se torna quase uma certeza. Os cientistas tambm tendem a encolher os
ombros e no dar ateno para o problema de testes repetidos, porque eles esto
convencidos de que suas hipteses esto corretas. Geralmente so necessrias algumas
experincias desagradveis at que eles se convenam de que as leis da probabilidade se
aplicam a todas as pessoas, inclusive cientistas! Tukey (1991) apresenta uma discusso
iluminada sobre a filosofia de mltiplas comparaes, que se relaciona com questes do
mundo real.
Bonferroni sugeriu, h muito tempo, que quando fazemos mais de um teste para a
mesma hiptese, podemos corrigir a probabilidade de rejeitar a hiptese nula geral, de
ausncia de diferenas entre as amostras, multiplicando a probabilidade de cada teste
pelo nmero de testes realizados. Se qualquer das probabilidades multiplicadas for
pequena o suficiente para rejeitar a hiptese nula, ento a hiptese nula geral rejeitada.
Em nosso caso, decidimos s rejeitar a hiptese nula se houver no mximo uma chance
em 20 de ela estar correta. Portanto, rejeitaremos a hiptese nula se qualquer das
probabilidades calculadas nos testes, aps serem multiplicada por trs, for menor do que
55

o nvel de significncia escolhido de 0,05.


A correo de Bonferroni simples, fcil de fazer, e to boa quanto qualquer outro
mtodo quando poucos testes estiverem sendo feitos. Entretanto, no caso de muitos
testes, o procedimento de Bonferroni tende a aceitar a hiptese nula mais do que deveria
(erro do tipo II). Modificaes neste procedimento podem incrementar seu poder (Rice
1989, Benjamini e Hochberg 1995), mas algumas vezes tambm mudam a questo que
est sendo respondida (Benjamini e Hochberg 1995). Ronald Fisher desenvolveu um
mtodo superior para comparar muitas categorias. O problema de usarmos DIF ou t que
um grfico simples como o da figura 30 tem muitos DIFs ou ts. Fisher raciocinou que seria
mais eficiente se o grfico pudesse dar origem a apenas uma estatstica que refletisse a
diferena geral entre as categorias. Fisher foi um matemtico e podia raciocinar em
termos de diferenas dos quadrados. Reveja o captulo 3 se achar que precisa saber mais
alguma coisa sobre diferenas dos quadrados, mas provavelmente isto no ser
necessrio. Podemos examinar a lgica de Fisher usando a amplitude em lugar das
diferenas dos quadrados, uma vez que a amplitude facilmente reconhecvel em grficos
(figura 31).

Figura 31
DADOS OBSERVADOS

4
0

} }
}
v2

v1

RCPC

RSP

v3

12

vT

LAGOSTINS

LAGOSTINS

12

HIPTESE NULA

} } } }
v1

4
0

RCPH TOTAL

RCPC

RSP

v2

v3

vT

RCPH TOTAL

Inclumos uma outra categoria, combinando os dados de todos os tipos de riachos


e a chamamos de variabilidade total (VT). Se a variabilidade dentro de cada categoria for a
mesma e a mdia for diferente, ento a variabilidade total ser muito maior que a de cada
categoria. Embora tenhamos usado a amplitude (V) para representar a variabilidade das
categorias, a mesma lgica se aplica com qualquer outra medida de variabilidade,
incluindo a varincia, que foi a medida usada por Fisher. Em termos matemticos, quando
a hiptese nula no verdadeira, como na figura 31a, essa relao pode ser representada
pela equao a seguir.
V1 = V2 = V3 < VT
Esta mesma equao pode ser escrita como i < VT, lembrando que a barra sobre o Vi
significa que se trata de uma mdia e que o ndice subscrito " i" est substituindo, de
forma genrica, os ndices que representam as categorias 1 a 3. Se equaes lhe do
arrepios, recorra aos grficos para apreciar a mesma informao.
A figura 31b mostra um resultado esperado quando a hiptese nula est correta.
No h diferena entre as mdias e, neste caso, podemos ver que a variabilidade dentro
da categoria "variabilidade total" igual a variabilidade dentro de cada categoria.
Podemos expressar isto matematicamente pela equao a seguir:
V1=V2=V3=VT
56

que tambm poderia ser expresso como i = VT. Esperamos que possam ver isto no
grfico, embora o grfico para este exemplo parea um pouco forado (figura 31b). Nele,
a variabilidade em cada categoria foi quase igual das demais e as mdias foram
exatamente iguais. claro que a chance disto ocorrer com amostras reais desprezvel.
Entretanto, no esperamos diferenas muito grandes quando a hiptese nula
"verdadeira" e, neste sentido, o grfico preenche nossas expectativas.
A comparao dos dois grficos mostra que, quando a hiptese nula "verdadeira",
esperamos que a variao mdia dentro de cada categoria seja aproximadamente igual
variao total. Uma estatstica simples que reflete isto a variao total dividida pela
variao mdia dentro das categorias (i.e.VT/i ). Vamos chamar nossa estatstica
conceitual de "RV" (razo da variao). Quando a hiptese nula for "verdadeira", V T =Vi e
RV=1. Quando a hiptese nula falsa, VT >i e RV>>1. A idia essa. No entanto,
assim como Student no usou a estatstica DIF, Fisher no usou RV. Ele usou a razo de
duas varincias (se precisa realmente saber o que varincia, reveja o captulo 3).
Fisher chamou sua estatstica de razo de varincias, mas em sua homenagem ela
foi chamada de estatstica F. A estatstica F de Fisher construda de uma forma um
pouco diferente de nossa RV, como veremos na seo de partilha da variabilidade, mas
assim como em nossa RV, o valor esperado para F quando a hiptese nula "verdadeira"
sempre 1. Como sempre, se as equaes deixaram-no confuso, retorne figura 31 e
certifique-se que pode enxergar a diferena entre as situaes quando a hiptese nula no
verdadeira (figura 31a) e quando ela "verdadeira" (figura 31b). As equaes e as
estatsticas apenas refletem a diferena mostrada no grfico.
Para gerar amostras de F quando a hiptese nula era "verdadeira", Fisher teve de
lanar mo de uma matemtica pesada. Da mesma forma que Student, teve que assumir
que a distribuio de valores na populao nula hipottica seguia a distribuio normal,
embora os resultados de seu teste no tenham sido muito sensveis a desvios moderados
desta premissa. Se o leitor estiver especialmente preocupado com a forma da distribuio
da populao da qual seus dados foram tomados, sempre poder usar testes de
permutao como o nosso usando DIF. Manly (1997) apresenta muitos exemplos de
testes de permutao e outros assemelhados, que no requerem todas as premissas dos
testes paramtricos.

Uma premissa importante


As lgicas dos testes de Fisher e de Student so muito parecidas. De fato, para
comparao entre duas amostras, F=t2. J dissemos que eles so relativamente robustos
em relao premissa de "normalidade" da populao da qual os dados so tirados.
Entretanto, h uma outra premissa que no pode ser deixada de lado. Grandes valores de
F podem indicar ou que as mdias so muito diferentes entre as "categorias" (nveis do
fator), ou que a variabilidade dentro das categorias difere entre as categorias. Se
desejamos testar as diferenas entre mdias, precisamos assumir que a variabilidade
dentro das categorias aproximadamente igual. Tanto a estatstica F quanto a t so
calculadas dividindo-se a variabilidade entre as mdias das categorias pela variabilidade
dentro das categorias. A lgica que, se as amostras foram tomadas de uma nica
populao com uma determinada variao mdia (hiptese nula), esperamos encontrar
diferenas entre as mdias na mesma proporo prevista nas tabelas estatsticas ou pelos
computadores. Entretanto, a figura 32 mostra um exemplo onde a variabilidade diferiu
entre as categorias (presena ou ausncia de peixes).
57

O computador no enxerga a variabilidade de cada categoria (V1 e V2) e cria a


distribuio nula baseada na variabilidade mdia (i). Se as amostras representadas na
figura 32 representam a variabilidade do universo de cada categoria de riachos, ento
podemos perceber que seria muito mais fcil encontrar valores extremos para mdias de
amostras tiradas da distribuio representada pela categoria de riachos sem peixes (com
grande variabilidade) do que para a distribuio representada pela mdia de V i. Portanto,
a distribuio nula no est correta e as probabilidades tendero a ser pequenas,
indicando diferenas nas mdias onde elas no existem. Se aplicarmos o teste de Fisher
(chamado de anlise de varincia ou ANOVA, a sigla em Ingls para "Analysis of
Variance"), para testar por diferenas nas mdias entre os nveis do fator, provavelmente
descobriramos uma diferena significativa, mas esta diferena seria devida a
subestimativa da variabilidade na hiptese nula. Isto nos levaria a cometer um erro do
tipo I, i.e. estaramos rejeitando a hiptese nula de ausncia de diferena entre as mdias
quando a hiptese nula era verdadeira.
Embora a maioria dos livros de estatstica se preocupe com a homogeneidade das
varincias (ou seja, se as varincias so aproximadamente iguais), o teste pode ser mais
sensvel no que diz respeito simetria. A anlise de varincia e muitos testes anlogos de
aleatorizao so muito sensveis a pontos muito extremos, chamados pelos estatsticos
de "outliers". Assim, muito importante inspecionar o grfico antes de aplicar qualquer
avaliao estatstica.

Figura 32

LAGOSTINS

30

20

V1

10

{} }
Vi

V2

MDIA

V
TOTAL

0
ES
IX
E
_P

CO

XE
EI
_P

M
SE

L
TA
TO

Erros do tipo II so comumente encontrados em testes para determinar se as


premissas de uma anlise esto sendo cumpridas. O teste de Levene, por exemplo,
usado para determinar se as varincias dentro dos nveis do fator no so suficientemente
homogneas o que resultaria em valores improvveis de F. O uso de baixos valores
crticos para P geralmente tido como "seguro" ou "conservador". Entretanto, para teste
de premissas, o erro do tipo I no o mais custoso. Se voc erroneamente deixar de
identificar que a premissa est incorreta, atribuir um efeito significativo onde ele no
existe. Os autores de livros de estatstica freqentemente recomendam um valor crtico de
P=0,05 para estes testes (p. ex. Dytam 1999). Se a probabilidade calculada foi de 0,07
isto equivale a escrever que "h 7% de chance de que minha concluso no seja
completamente sem sentido". Isto parece "seguro" para voc?
Por alguma razo os bilogos tm fixao em comparar mdias. Entretanto,
freqentemente, diferenas na variabilidade so mais importantes (p. ex. Callaghan e
Holloway 1999). Daqui para diante, iremos sempre discutir a variabilidade, embora
58

algumas vezes usaremos a variabilidade para fazer inferncias sobre mdias ou outras
caractersticas (parmetros) de populaes.
A anlise de varincia nos diz que h uma diferena entre as mdias, porm no
nos diz quais mdias so diferentes. Para determinar isto, preciso olhar o grfico ou usar
um teste mais fraco, como o teste de Tukey, para localizar a diferena (p. ex. Day e Quinn
1989). No vamos nos preocupar com estes testes agora, j que se o leitor compreender
os conceitos por detrs de testes mltiplos e ANOVA, ser capaz de entender as
comparaes entre tratamentos aps uma ANOVA.

Partio das varincias


Antes de terminarmos com o modelo de anlise de varincia de Fisher, vamos
considerar alguma terminologia, que ser til quando tratarmos de exemplos mais
complexos. Vamos considerar os dados mostrados na figura 33, no qual a variabilidade
dentro das categorias similar entre as categorias de riachos com peixes (RCP) e riachos
sem peixes (RSP). Temos a variabilidade dentro das categorias (V1 e V2), as mdias das
categorias (cada uma assinalada por um asterisco) e a variabilidade total (V T).
Conceitualmente, podemos dizer que a variabilidade entre as categorias (VPEIXES) decorreu
da presena de peixes e que a presena ou ausncia de peixes o "tratamento" ou "fator"
que potencialmente est afetando a densidade de lagostins. A diferena entre a
variabilidade total e a VPEIXES devida a variabilidade residual, que no pode ser atribuda
a uma causa em particular. A variabilidade residual algumas vezes chamada de "erro",
mas isto implica que esta variabilidade no faz parte do mundo real, o que no verdade.

Figura 33

LAGOSTINS

12

v2

8
4
0

v1

RCP

RSP

PEIXE

vT

MDIAS TOTAL

Se fizermos um processo anlogo, mas usando a varincia ao invs da amplitude


para representar a variabilidade, estaremos fazendo o que os estatsticos chamam de
"partio das varincias". Os clculos ficam um pouco mais complicados, mas o princpio
o mesmo. Este o processo usado pela maioria das anlises complexas que estaremos
examinando no resto deste volume. Portanto, se o leitor ainda tem dificuldades com o
processo de partio da variabilidade em grficos, por favor, reveja esta seo. Vamos
continuar nos referindo partio da variabilidade como mostrada na figura 33 e os
leitores s sero capazes de acompanhar nossa linha de raciocnio se visualizarem este
processo em termos de dados exibidos em grficos. Experimentem para ver se so
capazes de visualizar a seguinte equao simples nas figuras 33 e 34.
59

VFATOR + VRESDUO = VTOTAL


A figura 34 basicamente igual figura 33. Mas a fim de deix-la um pouco mais
universal, em relao aos conceitos que desejamos transmitir, introduzimos pequenas
modificaes. Para facilitar a representao da variao residual (VRESDUO) que no
aparece explicitada na figura 33, ns alinhamos V1 e V2 e abstramos os pontos. Na figura
33 a variao devido ao fator "presena de peixes" aparece como V PEIXE, enquanto na
figura 34 a variao devido ao fator aparece como VFATOR.
Figura 34

LAGOSTINS

12
8

} } }

v1 = v2 = vRESDUO

vFATOR

vTOTAL

Fisher trabalhou com uma quantidade que ficou conhecida como "soma dos
quadrados" (SQ) e tomou decises baseadas nas "mdias dos quadrados" (MQ), mas no
preciso saber calcular estas coisas para entender os princpios por detrs da anlise. Ao
invs de comparar a variao residual com a variao total, a estatstica F de Fisher a
razo entre a mdia dos quadrados do fator (tratamento) e a mdia dos quadrados dos
resduos. Na ANOVA, a mdia dos quadrados do fator no representa apenas a
variabilidade entre as mdias. Ela uma estimativa da variabilidade entre as mdias mais
a variabilidade dentro dos nveis do fator ou tratamento (i.e. variao residual).
As mdias dos quadrados so calculadas como a soma dos quadrados dividida
pelos graus de liberdade. Portanto, elas so anlogas s varincias que calculamos no
captulo 3. Entretanto, elas so varincias compostas. A mdia dos quadrados do fator
uma estimativa da varincia devido ao fator mais a varincia residual, e a mdia dos
quadrados do resduo uma segunda estimativa da varincia do resduo.
Conceitualmente, e esquecendo umas poucas constantes, temos a seguinte equao:

F = (S2Fator + S2Resduos)/S2Resduos
onde S2 significa a varincia. Quando a varincia devido ao fator for zero (a hiptese nula
est "correta"), F = 1. Como foram baseadas em varincias compostas, as razes F
podem se tornar complicadas, como veremos no captulo 8. Entretanto, o conceito de que
a variabilidade pode ser repartida em uma frao devido ao fator e outra devido
variao residual simples.
Os estudantes sempre perguntam como os programas de ANOVA podem calcular F
< 1, se a equao do pargrafo anterior for correta. Isto acontece porque uma mesma
quantidade conceitual, a varincia do resduo, estimada de formas diferentes no
numerador e no denominador da equao. Devido s incertezas da amostragem e porque
o valor esperado pelos estatsticos diferente do valor que ns, simples mortais,
esperamos encontrar, ocorre do resultado das estimativas serem algumas vezes
diferentes. Na verdade, a maioria dos Fs so menores do que um, quando a hiptese nula
60

est "correta".
O valor esperado para um estatstico o valor que se poderia esperar se
repetssemos o exerccio um grande nmero de vezes e usssemos a mdia. Para uma
distribuio enviesada para a direita (quer dizer, que tm a cauda mais espichada para o
lado direito), como a dos valores de F, um valor ocasional muito elevado pode resultar em
um F prximo ou igual a um, embora a maioria dos valores seja menor do que um. Para
os estatsticos, valores esperados sem vieses relacionam-se com o valor mdio esperado
em uma infinidade de tentativas. J o eclogo usualmente est tentando tomar uma
deciso baseado em um nico experimento.
As tabelas de F levam em conta o desvio para a direita e fornecem as
probabilidades corretas. Entretanto, se o leitor estiver construindo seus prprios testes,
compreenda que alguns valores "esperados" podem no estar to prximos daqueles que
voc espera encontrar freqentemente. Caughley and Sinclair (1994:210) apresentam um
exemplo para a estimativa de Petersen de tamanho populacional que mostra como os
valores esperados daquela estimativa so muito maiores que a maioria dos valores
calculados.
Muitos cursos de estatstica comeam com exemplos de tabelas de contingncia
como a maneira mais simples de se analisar categorias. Entretanto, estas anlises s so
simples dentro de salas de aula e so virtualmente sem utilidade em estudos ecolgicos
(veja o exemplo do captulo 4, Hulbert 1984, ou Magnusson 2000b).

61

Captulo 7:
Anlises para um mundo com todas as
tonalidades
Passamos bastante tempo fazendo consideraes de como testar as diferenas
entre categorias. Em nossa vida cotidiana somos cautelosos em relao a pessoas que
insistem em colocar tudo em categorias. Chamamos estas pessoas de sexistas, racistas,
xenfobas ou outros termos que, quase sempre, carregam um tom de nossa censura ou
desconfiana em relao ao seu modo de pensar. Usualmente, essas pessoas no so
socialmente muito competentes (embora Hitler seja freqentemente considerado como a
figura poltica mais importante do sculo XX). Estudos cientficos usualmente comeam
com categorizaes, mas tendem a estagnar-se at que algum comece a estudar os
processos ao invs de apenas os padres.
Para entender algo sobre as cores preciso entender que o olho e o crebro
humano interpretam uma estonteante diversidade de cores a partir de apenas trs tipos
diferentes de receptores de cores em suas retinas. Os engenheiros de equipamentos de
computao usam esta informao para projetar impressoras coloridas que reproduzem
milhes de cores usando combinaes de pigmentos vermelho, verde, azul e preto. De
qualquer maneira, em ltima anlise, a nica coisa que realmente muda de uma cor para
outra o comprimento da onda eletromagntica, uma varivel contnua.
Em nosso cotidiano, reconhecemos diferenas sexuais "fixas", mas esta
categorizao grosseira para muitos propsitos, inclusive na medicina. A maioria das
drogas no interage diretamente com o sexo do organismo, mas com nveis de hormnio,
contedo de gordura do corpo, taxa metablica, densidade dos ossos, e uma multido de
fatores que s de longe podem ser relacionados com a aparncia da genitlia. Mesmo no
contexto social, a categoria sexo no funciona muito bem. Muitas pessoas homossexuais,
com todo direito, recusam-se a ter sua sexualidade definida com base apenas em alguns
detalhes anatmicos. Se as categorias so uma base fraca para nossas relaes sociais,
por qu deveriam ter uma posio to exaltada na cincia?

Encaixotando o mundo
Vamos considerar o que acontece quando categorizamos um fenmeno contnuo e
depois investigar formas mais diretas de se atacar o problema. A figura 35 mostra dados
sobre a atividade de um inseto em relao temperatura do ar. Suponha que dois
bilogos, Joo e Maria, decidiram fazer experimentos para investigar a atividade deste
inseto em funo da temperatura, e delinearam seus experimentos de forma a amostrar a
temperatura em dois nveis: baixa (=1) e alta (=2). Entretanto, cada um decidiu usar
nveis diferentes para representar "alto" e "baixo" e estes nveis esto mostrados na figura
35a e b. Notem que eles no tiveram informao sobre a atividade dos insetos fora dos
nveis de temperatura que escolheram. Depois de coletarem seus dados, cada um
produziu um grfico para mostrar os resultados (figura 36).

62

Figura 35
Joo

% ATIVIDADE

30
24

30

24
18

12

12

30
24

16

22

28

34

0
10

40

30

24
18

12

12

6
16

22
28
TEMPERATURA (C)

34

16

0
10

40

18

0
10

18

0
10

% ATIVIDADE

Maria

22

28

16

22
28
TEMPERATURA (C)

34

40

34

40

Figura 36
Joo

% ATIVIDADE

25

Maria
20

23

17

21

14

19

11

17

15

BAIXA
ALTA
TEMPERATURA

BAIXA
ALTA
TEMPERATURA

J que Joo e Maria leram o captulo anterior deste livro, decidiram testar se as
diferenas entre as mdias das amostras em temperatura "alta" e "baixa" deveriam ser
atribudas ao acaso. Eles poderiam ter usado nosso teste de DIF, mas decidiram usar o
teste t de Student, com uma correo para as diferenas entre as varincias dentro de
cada categoria. O leitor no precisa se preocupar com este refinamento, introduzido para
garantir que a premissa de homogeneidade das varincias do teste t no fosse violada,
porque, no fim das contas, este teste vai dar resultados similares ao de simulaes de
DIF. O teste de Joo estimou uma probabilidade de 0,78 de que a hiptese nula fosse
correta. Conseqentemente, Joo rejeitou sua hiptese de que a temperatura afeta a
atividade do inseto. O teste de Maria estimou uma probabilidade de 0,035 de que a
hiptese nula estivesse correta, portanto rejeitou a hiptese nula como improvvel e
63

passou a aceitar que a temperatura afeta a atividade do inseto. A maioria das pessoas
tendero a chegar s mesmas concluses, apenas examinando os grficos da figura 36,
dispensando o uso de qualquer estatstica extravagante ou lgica Popperiana.
A obteno destes resultados contraditrios compreensvel em termos de um
modelo de anlise de varincia. Diramos que toda a variabilidade devido amostragem
est na variabilidade residual. Este modelo conceitual poderia ser escrito como:
VRESDUO + VFATOR = VTOTAL
Entretanto, no caso da amostragem de Joo e de Maria, h uma outra fonte de variao
que afeta a variao total: a variao devido ao fato de terem amostrado apenas alguns
dos nveis possveis do fator e o modelo conceitual deve incorporar um termo para esta
variabilidade. Podemos chamar este termo de VNVEIS. Ento, o modelo conceitual passa a
ser:
VRESDUO + VFATOR + VNVEIS = VTOTAL
Quando amostramos todos os nveis de um fator, dizemos que este um fator "fixo". Se
amostramos apenas uma pequena proporo dos possveis nveis do fator, ele chamado
de "randmico". Entretanto, nenhum destes termos muito apropriado. Quase sempre, os
nveis de um fator randmico so amostrados de uma forma no aleatria, e nem todos os
possveis nveis tm igual probabilidade de serem amostrados. Este desenho inadequado
pode afetar muito o resultado. Vamos discutir isto depois, porque agora nos
concentraremos em outros efeitos resultantes de se categorizar variveis contnuas, que
tornam a interpretao dos resultados ainda mais difcil.
Voltando parte de baixo da figura 35 (figuras 35c e 35d), vamos supor que Joo e
Maria poderiam ter escolhido nveis de temperatura "alta" e "baixa" que apresentassem as
mesmas mdias que as apresentadas nas figuras 35a e 35b, mas com intervalos mais
largos para cada nvel. Se fizermos os grficos de seus resultados, exatamente como os
grficos com nveis estreitos mostrados na figura 36, nossas concluses sero opostas
(figura 37). Usando o mesmo teste estatstico, Joo agora rejeita a hiptese nula como
sendo improvvel (P=0,013) e Maria "aceita" a hiptese nula (P=0,22).

Figura 37

Joo

% ATIVIDADE

30

Maria
30

24

24

18

18

12

12

BAIXA ALTA
TEMPERATURA
64

BAIXA ALTA
TEMPERATURA

A tabela 6 compara as concluses de Joo e Maria quando usam intervalos estreitos


ou largos para definir suas categorias.
TABELA 6
INTERVALOS

JOO

MARIA

Amplos

Significante

No significante

Estreitos

No significante

Significante

Nosso modelo conceitual agora indica que a variao total no apenas depende dos
nveis amostrados, mas tambm da amplitude dos intervalos escolhidos para representar a
categoria.
VRESDUO + VFATOR + VNVEIS + VAMPLITUDE = VTOTAL
Existem algumas tcnicas estatsticas para lidar com a variao devida aos nveis do fator
(VNVEIS) e vamos tecer consideraes sobre eles no prximo captulo. Entretanto, no h
um mtodo objetivo de lidar com a variao devida escolha da amplitude destes nveis
(VAMPLITUDE).
Neste ponto, esperamos que os leitores estejam se questionando porque os
pesquisadores despendem energia para categorizar variveis contnuas. Parte da resposta
que os seres humanos se sentem confortveis com categorias aparentemente simples.
Como dissemos anteriormente, este o motivo pelo qual tendemos a ser racistas, sexistas
e xenfobos. Uma outra razo que experimentos de "inferncia forte" usualmente s so
possveis quando se usa categorias. Quando existe um nmero infinito de intervalos, no
possvel assegurar que todos os nveis de cada categoria sejam medidos em todos os
nveis de outro fator que tambm esteja sendo estudado. Alm disso, pode haver uma
grande informao na ordem em que as "categorias" ocorrem na natureza, com a qual a
anlise de varincia de categorias padro simplesmente no consegue lidar (Gaines e Rice
1990).
No se preocupem se no compreendem toda esta terminologia aqui, iremos
retornar a ela posteriormente. Basicamente, quando um pesquisador categoriza uma
varivel contnua em nome do desenho experimental, est trocando uma inferncia fraca
a respeito de uma categoria forte (h apenas uma categoria) por uma inferncia forte a
respeito de categorias subjetivas, e portanto, fracas. Isto est relacionado com nossas
discusses sobre escalas nos captulos anteriores. Hierarquias baseadas na escala
(quantidades mensurveis) podem ter uma base objetiva. Hierarquias baseadas em
"nveis" sempre sero subjetivas e podem impedir o avano da cincia (Allen 1998).

Descrevendo um mundo retilneo


Para entender como computadores e testes estatsticos lidam com variveis
contnuas, precisamos comear com o tipo de relao contnua mais simples: uma linha
reta. A figura 38 mostra um mapa de rvores (representadas pelo smbolo "o") em 6
reservas de tamanhos diferentes.

65

Figura 38

3 ha
o

6 ha

1 ha o o

o
o

5 ha
o

o
o

o
o

oo

o
o

4 ha

2 ha

Vamos construir um modelo simples deste sistema. Podemos esperar uma relao
direta entre a rea da reserva e o nmero de rvores em cada reserva, se no houver
outros fatores atuando. O modelo est representado pela linha na figura 39. Os pontos
representam o nmero de rvores contados em cada reserva.

Figura 39
7
6

RVORES

5
4
3
2
1
0
0

3
4
RESERVAS

Nosso modelo terico parece ser bastante bom, julgando-se pelo fato de que em
geral os pontos esto perto da linha. O modelo terico pode ser representado por uma
equao, da seguinte forma:

66

NMERO DE RVORES=A+B*REA DA RESERVA


Os livros especializados usariam letras gregas para "A" e "B", porque elas so
tericas e no foram estimadas a partir dos dados. Em nosso exemplo, A=0 e B=1.
Substituindo na equao, veremos que a equao diz que quando no h reserva
(rea=0), no h rvores. A equao diz tambm que para cada hectare extra, teremos,
em mdia, uma rvore a mais. Esta equao geral pode ser usada para descrever uma
linha reta. O "A" a elevao, ou o valor da varivel dependente quando a varivel
independente igual a zero. O "B" a inclinao, ou a quantidade que a varivel
dependente aumenta com um incremento de uma unidade na varivel independente. J
que a maioria das anlises freqentes em ecologia baseada em variaes desta
equao, vale a pena empregar algum tempo e estar certo de que podem visualizar esta
equao no grfico.
Entretanto, na maioria das vezes, no estamos tratando com equaes tericas e
tentaremos determinar a posio da linha a partir dos dados coletados. A figura 40 mostra
uma relao entre a atividade de um inseto e a temperatura, na faixa entre 26 e 36 C.
No conhecemos a verdadeira relao entre a atividade do inseto e a temperatura, mas
esboamos no grfico a linha que achamos que provavelmente representa esta relao,
baseados apenas na distribuio dos pontos.

Figura 40

% ATIVIDADE

25
21
17
13
9
5
26

28 30 32 34
TEMPERATURA

36

Quando ns, ou outras pessoas, ou programas de computadores colocam linhas


retas em grficos, fazemos isto minimizando a distncia mdia da linha aos pontos. Isto
parece uma ao simples e direta, mas na verdade h muitas maneiras diferentes pelas
quais as distncias podem ser minimizadas. A figura 41 mostra uma parte de nosso
grfico, e apresenta trs maneiras de como as distncias podem ser minimizadas.

67

A figura 41a mostra uma forma lgica de minimizar a distncia de dois pontos at a
reta. A operao de minimizar as distncias perpendiculares reta at os pontos, como
mostrado na figura 41a, feita pelo mtodo chamado de regresso do maior eixo. J a
regresso do "maior eixo reduzido" encontra a posio da reta que resulta na menor rea
dos tringulos formados pelas linhas horizontais e verticais do ponto at a reta (figura
41b). Estes dois mtodos so lgicos e provavelmente os mais intuitivos para a maioria
das pessoas. Minimizar apenas a distncia vertical (linha contnua na figura 41c) no
parece muito lgico. Minimizar a soma dos quadrados das distncias verticais dos pontos
at a reta (a rea contida nos quadrados na figura 41c), parece ainda mais ilgico.
Entretanto, este o processo por trs do mtodo estatstico mais empregado. Cada um
destes mtodos de minimizar as distncias tem vantagens e desvantagens. No vamos
nos ater neste ponto e se os leitores desejarem uma discusso a respeito, podem
consultar Ricker (1973).
A minimizao dos quadrados das distncias verticais at a linha permitiu o
desenvolvimento de uma grande variedade de anlises complexas e geralmente as mais
teis em termos de previso. Por razes bvias (veja figura 41c), ela chamada de
"regresso dos mnimos quadrados". Ela matemtica e logicamente equivalente anlise
de varincia de Fisher, para variveis categricas independentes. As principais variaes
das anlises estatsticas mais comuns se resumem a minimizar diferentes distncias.
Vamos fazer consideraes sobre isto no captulo 11. Estas distncias so resduos, da
mesma forma que a variao dentro das categorias na anlise de varincias.

O quanto o modelo se ajusta?


A variao em torno da linha a variao resdual no explicada pelo modelo (a
linha) e ilustrada na figura 42. Quando a variabilidade medida pela soma de quadrados
(veja captulo 3), a proporo da variabilidade que pode ser atribuda varivel
independente (neste caso a temperatura) chamada de coeficiente de regresso e
simbolizada como r2 ou, se h mais de uma varivel independente, R2 (captulo 8).
Embora provavelmente a maioria dos leitores ter dificuldade em visualizar a soma de
quadrados (imagine a soma das reas dos quadradinhos pontilhados da figura 41c),
certifique-se de que possa visualizar o tipo de variao representado na figura 42 como
VFATOR/VTOTAL. Para anlises que envolvem categorias, temos que assumir que a variao
dentro das categorias constante. Para regresses, precisamos assumir que a variao ao
68

redor da linha constante ao longo de toda a linha. Embora o r 2 seja uma das estatsticas
mais usadas, no uma boa medida da magnitude do efeito em anlises categricas
(Rosenthal and Rubin 1982).
Figura 42

% ATIVIDADE

25

}v

21

RESDUO

17

vFATOR

13
9
5
20

21 22 23 24
TEMPERATURA

vTOTAL

25

Quando estimamos a posio da linha a partir dos dados, usamos letras minsculas
para representar a elevao e a inclinao na equao descritiva Y = a + b*X, onde Y
qualquer varivel dependente (em nosso caso "% atividade"), e X qualquer varivel
independente (no caso, "temperatura"). As letras "a" e "b" representam estimativas de
parmetros, porque descrevem a populao de pontos nos quais a regresso foi baseada.
A hiptese nula pode ser representada na situao mostrada na figura 43.
Figura 43

% ATIVIDADE

25
21
17
13
9
5
20

} }
vRESDUO

21 22 23 24
TEMPERATURA

vTOTAL

25

Da mesma forma que nas anlises categricas, quando a variao residual to


grande quanto a variao total, assumimos que no h efeito daquela varivel
independente sobre a nossa varivel dependente, ou VFATOR=0. Na verdade, o modelo de
anlise de varincia geral e a maioria dos programas de computadores executam a
anlise de varincia de dados categricos e regresso exatamente da mesma forma.
Portanto, tanto para regresso quanto para anlise de varincia, nosso modelo conceitual
comea exatamente pela mesma simples equao:
VFATOR + VRESDUO = VTOTAL
Na regresso, no precisamos nos preocupar com seleo de categorias, porque
temos apenas uma categoria. Entretanto, precisamos nos preocupar com a amplitude do
intervalo da categoria. Se a relao for realmente linear, a probabilidade de se detectar
69

uma relao aumenta com o aumento da amplitude do intervalo. A figura 44 mostra como
a relao forte mostrada na figura 42 desaparece quando diminumos pela metade a
amplitude da temperatura em nosso grfico. bvio que o que fizemos foi diminuir a
variao devida ao fator ao mesmo tempo que mantivemos inalterada a variao residual.
Figura 44

% ATIVIDADE

23.0

20.6
18.2

} vFATOR

15.8
13.4
11.0
22

vRESDUO

23
24
TEMPERATURA

vTOTAL

25

Portanto, nosso modelo conceitual precisa considerar a variabilidade devida a amplitude


do intervalo, mesmo quando a relao linear.
VRESDUO + VFATOR + VINTERVALO = VTOTAL
Afortunadamente, se a relao linear, o aumento da amplitude do intervalo no
qual tomamos os dados s pode aumentar nossas chances de detectar um efeito. Por
outro lado, o aumento do intervalo diminua a chance de se detectar um efeito, quando
variveis no-lineares contnuas so categorizadas, como fizeram Joo e Maria com seu
estudo sobre atividade do inseto, no exemplo anterior.
Precisamos nos preocupar em no nos perdermos em detalhes. Tudo o que fizemos
neste captulo foi aplicar a anlise de varincia para dados categricos s relaes
lineares, para constatarmos que o conceito geral. Aprendemos que relaes lineares
podem ser descritas por dois parmetros, a elevao (a) e a inclinao (b), e que se
estimarmos estes parmetros corretamente, podemos descrever a relao por equaes
que seguem a forma:
Y = a + b*X + e
O e apenas indica que qualquer valor observado de Y est desviado da linha por
uma quantidade que pode ser atribuda ao efeito de fatores aleatrios ou no estudados.
Poucas pessoas tm problema com esta matemtica simples, mas se este o caso do
leitor, revise o captulo antes de passar ao prximo. A habilidade para interpretar as
estatsticas no to importante quanto a habilidade de interpretar grficos. Veja
Anscombe (1973) para um exemplo de cinco grficos que tm exatamente as mesmas
estatsticas descritivas, mas que levam a interpretaes biolgicas totalmente diferentes.
H mtodos de linearizar relaes no-lineares pela transformao de variveis e podemos
obter modelos mais "corretos", minimizando resduos que no so o quadrado das
distncias verticais (veja captulo 11). Entretanto, o leitor obter uma melhor
compreenso dos conceitos se passar diretamente para o prximo captulo.

70

Captulo 8:
Problemas do mundo real - mais de um fator
Embora os exemplos de testes estatsticos apresentados nos captulos anteriores
tenham sido teis para ilustrar alguns princpios, importante compreender que estes
testes univariados (com apenas uma varivel independente) so usualmente redundantes.
Eles podem ser substitudos, com vantagens, por simples grficos de disperso.
Pesquisadores inexperientes podem se deixar enganar por iluses estatsticas (Anscombe
1973). Se a anlise estatstica sugere uma concluso diferente do padro que aparece no
grfico, no acredite em nenhum dos dois. Muitos tratamentos estatsticos so triviais e
no servem a outro propsito que expressar identidade cultural (Yoccoz, N. G. 1991;
Cherry 1999, Johnson 1999), ou seja, comunicar que a pessoa que est apresentando
aquele resultado um cientista.
Considere o fluxograma da figura 45. Se a varivel independente (rvores)
categrica e tem mais do que dois nveis, a seta pode representar apenas o sentido da
influncia. Ela no pode representar que tipo de efeito a varivel sofrer. Por exemplo, se
"rvores" est representando "espcies de rvores", podemos imaginar que o aumento de
algumas espcies ser bom para os macacos, mas o aumento de outras pode ser ruim ou
ainda os macacos podem ser indiferentes ao nmero de muitas espcies de rvores.
Teremos, tambm, o mesmo problema se a relao contnua, mas no linear, ou pelo
menos, monotnica. Um aumento em uma varivel contnua, como densidade de rvores,
pode causar aumento do nmero de macacos quando as rvores so esparsas, mas um
aumento semelhante pode determinar o decrscimo do nmero de macacos, quando a
cobertura arbrea for muito densa. A figura 12 (captulo 2) que apresenta a variao da
atividade de um inseto em funo da temperatura, ilustra este tipo de relao, muito
freqente na biologia. Vamos comear com um modelo mais simples, que no ocorre com
freqncia na natureza, mas que muito comum em modelos estatsticos. Vamos assumir
que h uma relao linear entre rvores e macacos.
Figura 45

Fatores simultneos
O grfico que ilustra a relao entre macacos e rvores (figura 46a) parece ser
linear e mostra um aumento na densidade de macacos com a densidade de rvores. Esta
relao parece lgica, porque macacos se refugiam de predadores terrestres em rvores.
Se coletarmos dados sobre a densidade de uma espcie de arbusto que os macacos usam
como alimento, tambm encontraremos uma relao linear positiva (figura 46b). Estes
dois grficos sugerem o fluxograma apresentado na figura 47.

71

Figura 46

NMERO DE MACACOS

NMERO DE MACACOS

4
3

B
C

1
0
0

2
3
4
5
NMERO DE RVORES

0
0

1
6

A
1

2
3
4
5
6
NMERO DE ARBUSTOS

Figura 47

RVORES

+
+

MACACOS

ARBUSTOS
Baseados nestes grficos, os estudantes usualmente sugerem que plantar rvores e
arbustos deve ser um bom mtodo de aumentar o nmero de macacos. No entanto,
considerando os dados disponveis, esta medida imprpria para o objetivo proposto. Se
analisarmos os dados pela tcnica de regresso de mnimos quadrados, podemos produzir
grficos de disperso que ilustram os efeitos parciais de arbustos independente de rvores
e de rvres independente de arbustos. Para saber como isto feito, primeiro temos de
dar uma olhada nos quatro grficos intermedirios (figura 48).

72

Figura 48
NMERO DE RVORES

D E

5
4

2
1
0
0

A
1 2 3 4 5 6
NMERO DE ARBUSTOS

8
NMERO DE MACACOS

4
3

B
C

2
1
0
0

A
1 2 3 4 5 6
NMERO DE RVORES

F
C

3
2

A
B

1 2 3 4 5 6
NMERO DE ARBUSTOS

E
D

3
2
1

0
0

0
0

NMERO DE ARBUSTOS

NMERO DE MACACOS

B
A
1 2 3 4 5 6
NMERO DE RVORES

As letras maisculas junto aos pontos indicam a reserva de onde vieram aqueles
dados. As linhas verticais indicam o desvio de cada ponto em relao reta, ou seja, a
variabilidade no explicada pelo modelo linear. Na figura 48a, a variabilidade de macacos
explicada por arbustos representada pela reta e os desvios indicam a variabilidade de
macacos no associada a arbustos. Da mesma forma, podemos obter a variabilidade de
rvores no associadas com arbustos na figura 48b. As distncias dos pontos at a linha,
que chamamos desvios ou resduos, refletem as mudanas no nmero de rvores ou
macacos devido a outros fatores que no os arbustos.
Se esboarmos o grfico destes resduos contra o nmero de arbustos, veremos
que eles no indicam qualquer relao com os arbustos. Alguns autores diriam que eles
descrevem a variabilidade esperada se arbustos fosse mantido constante. Se construirmos
o grfico dos resduos da figura 48a contra os resduos da figura 48b, pareando cada
ponto pela reserva que o originou, teremos a relao entre macacos e rvores esperada
se removssemos o efeito de arbustos, ou, de forma equivalente, a relao esperada se o
nmero de arbusto fosse constante entre as reservas (figura 49a). A figura 49a a
"regresso parcial" de macacos com rvores. Ela chamada regresso parcial porque
mostra apenas a parte da variabilidade nos dados que no est associada com arbustos.
Podemos generalizar este processo e usar os resduos das figuras 48c e 48d para
produzir o grfico da regresso parcial de macacos e arbustos, independentes de rvores
(figura 49b). De fato, o mtodo de regresso mltipla usa o mesmo processo para isolar
os efeitos provveis de cada fator independente dos efeitos de todos os outros fatores que
aparecerem no modelo.
73

MACACOS (PARCIAL)

Figura 49
1

1
0

-1

-1
-2

-2
-2

-1
0
1
RVORES (PARCIAL)

-3
-2
-1
0
1
ARBUSTOS (PARCIAL)

Adicionando variabilidades repartidas


Este processo de partilha da variao entre muitos fatores parece complicado no
incio, mas no uma complicao imposta apenas por razes culturais. Ele nos ajuda a
ver mais claramente. A relao simples entre macacos e rvores (figura 46a) positiva,
levando a maioria dos pesquisadores a acreditar que as rvores provavelmente eram boas
para estes macacos. Entretanto, a regresso parcial (figura 49a) indica um efeito negativo
de rvores sobre os macacos, quando estatisticamente mantivemos constante o efeito de
arbustos. Na ausncia de outras informaes, certamente no deveramos embarcar em
um programa de plantio destas rvores, se nosso objetivo for de conservar ou aumentar o
nmero de macacos. De fato, se a hiptese sugerida na figura 49a for corroborada, talvez
devssemos comear a cortar rvores como medida para aumentar o nmero de macacos.
O processo apresentado neste exemplo geral e ilustra a forma pela qual a anlise de
varincias ou outras tcnicas de modelagem podem ser usadas para revelar padres, que
no estavam bvios nos grficos simples de disperso originais. O processo implica na
produo de outros grficos de disperso. Matematicamente, reduzimos o modelo
descritivo da forma Y=a+b1*X1+b2*X2+e para dois modelos da forma
YPARCIAL=a+b*XPARCIAL+e.
Notem que estes grficos parciais so o verdadeiro resultado da anlise, e no o
sumrio estatstico ou valores de probabilidade que os pacotes estatsticos jogam nas telas
dos computadores. As estatsticas podem ser usadas como uma informao acessria aos
grficos parciais, mas nunca podero substitu-los. O leitor pode ter achado nosso
exemplo trivial. Entretanto, muitos problemas complexos do mundo real tm sido
enfrentados com sucesso por modelos de partilha de varincias.
A equao para a regresso mltipla e regresses parciais nos contam a mesma
estria. A equao geral para o nosso exemplo :
macacos=0,33-0,667*rvores+1,667*arbustos.
As regresses parciais so:
macacos(parcial)=0-0,667*rvores(parcial)
macacos(parcial)=0+1,667*arbustos(parcial).
74

A regresso geral tem as mesmas inclinaes (valores de b) das regresses


parciais. De fato, ela foi construda pela soma das regresses parciais. A elevao no a
mesma, porque um nico valor no poderia substituir as inclinaes individuais de cada
regresso parcial, que em nosso exemplo foram iguais (ambas as regresses passaram
pela origem dos eixos i.e. a=0), mas que poderiam ser diferentes. De qualquer modo, a
similaridade da regresso geral com as regresses parciais ilustra sua natureza comum. A
regresso geral no passa da soma de efeitos lineares estimados pelas regresses
parciais. Este um modelo simples, mas que provou ser til em muitas situaes.

Checando premissas com grficos de parciais


Pesquisadores freqentemente calculam a probabilidade do efeito de uma varivel
independente (valor de b) ser igual a zero (ou algum outro valor), estabelecendo assim
sua hiptese nula. No entraremos em detalhes aqui, mas os princpios de testar uma
hiptese nula de b=0 so similares a testar a hiptese nula de DIF=0. Estas
probabilidades podem ser calculadas por testes de randomizao ou testes paramtricos,
como o teste t. Entretanto, importante fazer o teste paramtrico sobre a regresso
mltipla geral, e no diretamente sobre as parciais. O motivo disto se deve ao fato do
computador no saber quantos outros fatores, e portanto, parmetros, foram usados para
calcular cada regresso parcial. J que o nmero de graus de liberdade calculado pelo
nmero de observaes independentes menos o nmero de parmetros estimados, o
computador usar o nmero errado de graus de liberdade em suas contas, caso no seja
adequadamente informado sobre o nmero de parmetros que foram estimados.
De qualquer maneira, nunca tente interpretar as probabilidades de regresses
mltiplas e suas parciais, sem dar uma olhada nos grficos parciais. Em nossa experincia,
a fonte mais comum de valores significantes de P em regresses mltiplas a incluso de
um nico ponto que foi registrado na escala errada, talvez milmetros ao invs de
centmetros, ou a simples erros de digitao. Freqentemente, estes pontos no se
sobressaem em regresses simples, mas ficam bvios em grficos de parciais. Veja
Anscombe (1973) para exemplos que se aplicam igualmente a regresses simples e
grficos de parciais.
Grficos de parciais so tambm usados para verificar outras premissas da
regresso mltipla, como a de que as relaes so lineares e a de que a variabilidade
constante ao longo da linha. Se a inspeo dos grficos de parciais indicar que alguma
coisa est errada e for preciso transformar os dados (veja captulo 11), ou corrigir ou
deletar alguma observao, toda a anlise precisar ser refeita, inclusive o exame dos
grficos de parciais. J que a tcnica baseada na anlise dos resduos em torno de
relaes, a mudana de uma relao provocar mudanas em todas as outras da anlise.
Se as variveis so autocorrelacionadas (isto , as observaes no so
independentes), a anlise identificar muito mais variveis significantes do que realmente
existe (Lennon 2000). Portanto, nenhuma das averiguaes abaixo ter qualquer utilidade,
a menos que os dados tenham sido coletados segundo um desenho amostral adequado.
As anlises de variveis categricas obedecem aos mesmos princpios, embora
muitos livros de estatstica tenham sees para variveis contnuas (regresso mltipla),
variveis categricas (anlise de varincia - ANOVA) e mistura de variveis contnuas e
categricas (anlise de covarincia - ANCOVA). Todos estes mtodos poderiam ser
chamados de anlise de varincia, mas a maioria dos livros no enfatizam as
similaridades.
75

Interaes
Assumimos, neste captulo, que as variaes devidas a inmeras variveis
independentes podem ser adicionadas para se obter a variao global. Entretanto, nem
sempre isto verdade. A figura 50 ilustra uma situao onde os efeitos de duas variveis
independentes cancelam uma a outra.
Neste exemplo, no h um efeito simples de espcies, porque as alturas mdias
das duas espcies, sem considerarmos o sexo, so as mesmos. Da mesma forma, as
alturas mdias dos sexos, sem considerarmos espcies, so iguais. Entretanto, dentro de
espcies, h um efeito bvio de sexo, e dentro de cada sexo h um efeito forte de
espcies.

Figura 50

ALTURA (cm)

28
23
18
13
8

SP1
SP2
ESPCIES

Se adicionarmos os efeitos simples de sexo e espcie (ambos so aproximadamente


zero) variabilidade dentro de cada sexo por nvel de espcie (o resduo), no teremos a
variabilidade total, que muito maior. Matematicamente, isto pode ser representado pela
seguinte inequao:
VFATOR1 + VFATOR2 + VRESDUO VTOTAL
Podemos inventar um fator "fantasma", chamado termo de interao, para equilibrar a
equao:
VFATOR1 + VFATOR2 + VRESDUO + VINTERAO = VTOTAL
Uma interao indica que o efeito de um (ou mais) fatores depende dos nveis de
outros fatores. Interaes podem ocorrer tanto em variveis categricas quanto em
variveis contnuas e entre variveis contnuas e categricas. Elas so mais
freqentemente estudadas com variveis categricas, porque a maioria dos programas
estatsticos para computadores automaticamente sempre levam em conta todas as
76

interaes possveis para um dado modelo de ANOVA. Entretanto, isto nem sempre
adequado e iremos discutir a seleo de variveis no prximo captulo. Em termos de
nosso fluxograma conceitual, a presena de interao indica que deixamos de fora uma ou
mais variveis importantes. Em geral, descobrir interaes no um exerccio interessante
por si prprio. Entretanto, interaes so sinais importantes de que precisamos repensar
nosso fluxograma de forma que possamos entender por que as interaes ocorrem.
Lembrem-se que o clculo das razes de F, necessrias para se estimar as
probabilidades em ANOVA e regresso, envolve mdias quadradas, que so varincias
compostas (captulo 6). Para se determinar quais varincias esto includas em cada mdia
quadrada, temos que levar em conta se os fatores so fixos ou randmicos. Alguns
programas de computadores perguntaro se os fatores so fixos ou randmicos, e
calcularo as razes F corretas. Outros requerem que o usurio ativamente fornea esta
informao e outros s so capazes de calcular razes de F para um tipo de fator (em
geral, fixo). Portanto, se o leitor fizer os clculos manualmente, ou usar um programa que
no solicita informao sobre se os fatores so fixos ou randmicos, dever consultar um
livro de estatstica apropriado. Os leitores com facilidade em matemtica podem consultar
Winer et al. (1991) para aprender como construir as razes de F corretas. Zar (1996) traz
um apndice que apresenta como fazer isto sem entrar em detalhes do processo
envolvido.
Muitas concluses na literatura ecolgica foram baseadas em anlises incorretas,
porque os pesquisadores analisaram os dados como se todos os fatores fossem fixos
(Bennington et al. 1994, Newman et al. 1997). Revisem o captulo 7 para ver como este
modelo muito restritivo. No vamos nos ater nestes pontos estatsticos porque, se os
dados foram coletados segundo um delineamento adequado, qualquer estatstico pode
ajudar em sua anlise. Entretanto, importante compreender que modelos mistos de
ANOVA sero muito fracos, a no ser que haja um nmero grande de rplicas e de nveis
dos fatores randmicos, de modo que as estimativas de varincia devido aos nveis
amostrados possam ser adequadamente analisadas. Koele (1982) disse: "Experimentos
que tenham fatores randmicos com apenas dois ou trs nveis devem ser considerados
to absurdos como testes t entre amostras com duas ou trs observaes".

77

Captulo 9:
Quais variveis analisar?
Esta uma das perguntas mais comuns de estudantes para orientadores, e uma
pergunta que os pesquisadores experientes deveriam se fazer com maior freqncia. A
resposta mais simples incluir todos os fatores que apareceram em seu fluxograma.
Entretanto, somente deveriam aparecer nos fluxogramas os fatores cuja incluso seja
altamente justificada pela teoria ecolgica, pelo bom senso ou por informao da histria
natural. No queremos incluir muitos, especialmente se eles no contribuem com
informaes a respeito da varivel dependente. Lembrem-se de que perdemos um grau de
liberdade para cada parmetro estimado (veja captulo 5). Para ilustrar um dos perigos de
se incluir variveis desnecessrias em nossas anlises, vamos acompanhar o exemplo
seguinte. Calculamos a relao entre densidade de lagostins e um ndice de poluio em
12 locais. Uma anlise de regresso indicou que a hiptese nula, que era a ausncia de
relao entre a densidade de lagostins e a poluio era muito improvvel (P=0,014). Isto
uma evidncia forte de que a poluio afeta os lagostins. A seguir, sorteamos nmeros
ao acaso para construir 6 variveis completamente aleatrias e as inclumos uma a uma
na anlise. A figura 51 mostra o efeito de se adicionar estas variveis esprias na
proporo da variao explicada (linha contnua) e a probabilidade de o modelo estar de
acordo com a hiptese nula (linha tracejada), ambas expressas em porcentagens.

Figura 51

PORCENTAGEM

70
60
50 R2
40

30
20
10
0
0 1 2 3 4 5 6 7 8
VARIVEIS

Depois da adio de trs variveis aleatrias, a regresso no pode ser mais


considerada significante 0,05 (5%). As variveis adicionais aumentam a proporo da
varincia aparentemente explicada pela regresso, mas este resultado esprio, j que os
"fatores" acrescentados foram variveis sorteadas por um gerador de nmeros aleatrios.
Este o padro geral esperado quando o nmero de variveis no modelo alto em
relao ao nmero de observaes independentes (em nosso exemplo, diferentes corpos
dgua).
78

Captulo 9

Entretanto, algum leitor pode ser sortudo, e a incluso de uma varivel aleatria
pode aumentar a "significncia" de sua regresso. Isto representaria embasar sua
interpretao de dados biolgicos nos azares da matemtica. Em geral, a adio de
variveis irrelevantes somente ir comprometer as interpretaes biolgicas. Uma boa
regra decidir quantas repeties sero coletadas, dividi-las por dez e tentar restringir seu
modelo para que no inclua mais do que este nmero de fatores. De qualquer modo, evite
desenhos de experimentos que resultem em menos de dez graus de liberdade no resduo
(Green 1989).
Harris (1975) sugeriu que a anlise de regresso mltipla no robusta a violaes
de sua premissa sobre a distribuio normal de suas variveis, a no ser no caso de
haver pelo menos mais de 50 observaes a mais do que o nmero de variveis
independentes. A filosofia de selecionar variveis tem muito em comum com a filosofia de
comparaes mltiplas e um artigo de Tukey (1991) um bom lugar para se comear a
entender os tipos diferentes de questes que podem ser formuladas a respeito do mundo
real.

Inteligncia artificial
Quando temos inmeros tipos de medidas, os mtodos estatsticos no so
eficientes em escolher quais delas so relacionadas com as outras. Para entender isto,
vamos considerar o tipo de resultados produzidos por alguns esquemas automatizados de
seleo de variveis. Para os prximos exemplos, usaremos apenas dados produzidos por
computadores atravs de um gerador de nmeros aleatrios . Portanto, no h relao
causal entre as variveis e as relaes entre elas so apenas (e exatamente) aquelas
esperadas pelos azares da probabilidade.
Um dos esquemas mais comuns de seleo de variveis a regresso "step-wise".
Existe um grande nmero de variaes neste procedimento, incluindo aquelas
denominadas "step-up" (passo acima), "step-down" (passo abaixo) e "best-subsets
regression" (regresso dos melhores subconjuntos). Os praticantes defendem uma ou
outra como sendo "melhor" do que as demais, embora na verdade isto faa pouca
diferena (Berk 1978). Entretanto, nosso ponto que as probabilidades associadas com os
resultados de qualquer uma delas no podem ser relacionados com nenhuma hiptese
nula conhecida (p. ex. Freedman 1983, James and McCulloch 1990, Anderson et al. 2001).
Elas so pseudoprobabilidades e no devem ser apresentadas como se fossem qualquer
coisa alm disto. Se a tcnica for usada apenas para gerar hipteses, no h razo para
apresentar pseudoprobabilidades, que no tm interpretao lgica. Podemos garantir aos
leitores que perguntar a um bilogo competente uma maneira muito melhor de decidir
quais variveis deveriam ser estudadas. A razo disto porque deveramos conhecer
alguma coisa a respeito do relacionamento das variveis independentes antes de inclu-las
na anlise (veja captulo 10). Apenas como ilustrao, vamos imaginar que os leitores tm
um conhecimento detalhado das relaes entre as variveis independentes, mas no
podem gerar uma hiptese sobre quais so provveis de afetar a varivel dependente.
A tabela 7 foi gerada por nosso computador usando o pacote estatstico SYSTAT 8.
Nela se v os resultados de uma anlise de regresso mltipla convencional, relacionando
a densidade de lagostins com 10 potenciais varivies independentes. Atribumos a elas
nomes realsticos, mas lembrem-se que foram criadas em um gerador de nmeros
aleatrios.

79

Tabela 7
Dep Var: LAGOSTIN N: 14 Multiple R: 0.928 Squared multiple R: 0.860
Adjusted squared multiple R: 0.395 Standard error of estimate: 0.235
Effect

Coefficient

Std Error

Std Coef Tolerance t

P(2 Tail)

CONSTANT

0.941

0.627

0.000

1.500

0.231

VELOCIDADE -0.131

0.520

-0.108

0.256

-0.253 0.817

TEMPERATU
RA
PROFUNDID
ADE
LARGURA

-0.122

0.401

-0.109

0.361

-0.304 0.781

0.320

0.345

0.289

0.477

0.926

-0.428

0.328

-0.421

0.448

-1.305 0.283

COBERTURA

0.140

0.482

0.134

0.221

0.291

GALHOS_
SUBMERSOS
ROCHAS

-0.645

0.308

-0.732

0.380

-2.092 0.128

0.069

0.378

0.071

0.311

0.184

GARAS

-0.057

0.454

-0.056

0.236

-0.126 0.907

PEIXES_
-0.212
CARNIVORO
S
PEIXES_
0.359
HERBVOROS
Analysis of Variance

0.438

-0.177

0.347

-0.484 0.661

0.263

0.368

0.640

1.363

Source

Sum-of-Squares

Regression 1.024

10

MeanSquare
0.102

Residual

0.055

0.166

df

0.423

0.790

0.866

0.266

F-ratio

1.848

0.335

No se preocupe se ainda no entende a maior parte da tabela. A ltima coluna


fornece a probabilidade de cada varivel (primeira coluna) estar de acordo com a hiptese
nula. Nenhuma delas foi significante ao nvel de 0,05. Isto esperado, j que a anlise foi
baseada em variveis aleatrias. Entretanto, no teramos nos surpreendido se uma ou
duas das dez probabilidades tivessem sido menor que 0,05, porque, a este nvel de
significncia, esperamos que cerca de um em vinte resultados aparea como significante.
A tabela de anlise de varincia no final de nossa tabela indica que a probabilidade geral
de nosso modelo estar de acordo com a hiptese nula 0,335. Isto reconfortante,
porque sabemos que os dados se conformam exatamente com a hiptese nula.
Usamos a opo "stepwise" para selecionar as "melhores" variveis a partir do
mesmo arquivo de dados e o algortmo "stepwise" selecionou trs variveis. Alguns
80

Captulo 9

programas como SYSTAT, apresentam as pseudoprobabilidades entre aspas, e no


fornecem uma "probabilidade" geral para a regresso. Entretanto, muitos programas no
so to cuidadosos e iro apresentar as probabilidades de regresses "stepwise". Neste
caso, para o nosso exemplo, teramos o resultado apresentado na tabela 8 em que as trs
variveis selecionadas aparecem como altamente "significantes". Na verdade, a
pseudoprobabilidade indica apenas duas chances em 1000 de que "galhos_submersos" se
conforme com a hiptese nula e a da regresso geral foi de apenas trs em 1000. Pela
forma que criamos os dados, sabemos, desde o incio, que eles se conformam hiptese
nula convencional (nenhuma relao entre as variveis independentes e a varivel
dependente). Portanto, no temos nenhuma idia de com qual hiptese nula estas
pseudorepeties se relacionam.
Tabela 8
Dep Var: LAGOSTIN N: 14 Multiple R: 0.856 Squared multiple R: 0.733
Adjusted squared multiple R: 0.653 Standard error of estimate: 0.178
Effect

Coefficie Std Error


nt
CONSTANT 0.951
0.135

Std Coef

P(2 Tail)

0.000

Toleranc t
e
.
7.045

LARGURA

0.000

-0.448

0.166

-0.440

0.996

-2.690

0.023

GALHOS_
-0.592
SUBMERSO
S
PEIXES_
0.406
HERBVOR
OS

0.145

-0.672

0.989

-4.095

0.002

0.160

0.416

0.993

2.536

0.030

F-ratio

9.165

0.003

Analysis of Variance
Source

Sum-of-Squares

Df

Regression

0.873

MeanSquare
0.291

Residual

0.317

10

0.032

No h razo para apresentar os resultados de regresses "stepwise" em


publicaes. As hipteses baseadas na opinio de especialistas sero, em regra, mais
teis, alm do que poucos de seus leitores entendero que as pseudoprobabilidades
apresentadas no so probabilidades em qualquer senso convencional. Note que as
estatsticas apresentadas na tabela 8 no se relacionam de uma maneira inteligvel com os
resultados da tabela 7 e que, alm disso, o algortmo "stepwise" pode encontrar outra
combinao de variveis que descreva os dados igualmente "bem". Por exemplo, a tabela
9 mostra outro "melhor" modelo obtido por regresso "stepwise", quando ajustamos
apenas uma das opes da anlise, alterando-a ligeiramente. Em tudo a mesma anlise,
exceto que mudamos o valor de P para entrada ou remoo de variveis no modelo. Na
anlise da tabela 8 este valor foi de 0,15, o valor "default" de SYSTAT. Na tabela 9,
usamos P=0,20, o valor "default" de alguns outros programas.
81

Tabela 9
Dep Var: LAGOSTINS N: 14 Multiple R: 0.888 Squared multiple R: 0.789
Adjusted squared multiple R: 0.695 Standard error of estimate: 0.167
Effect
CONSTANT
LARGURA

Coefficien
t
1.122
-0.349

Std
Error
0.168

Std Coef
0.000

Toleranc
e
.

0.169

-0.343

0.853

GALHOS_
-0.628
0.138
SUBMERSOS
PEIXES_
-0.339
0.221
CARNVORO
S
PEIXES_
0.294
0.167
HERBVORO
S
Analysis of Variance
Source
Sum-of-Squares

-0.713

0.962

-0.284

0.689

0.301

0.804

df

Regression

0.939

MeanSquare
0.235

Residual

0.251

0.028

P(2 Tail)
0.000

6.659
-2.07
1
-1.53
7
-1.53
7
1764

0.068
0.001
0.159
0.111

F-ratio

8.402

0.004

O modelo agora incluiu outra varivel e as pseudoprobabilidades mudaram


drasticamente. Mudanas em outras opes ou procedimentos podem mudar o "melhor"
modelo ainda mais dramaticamente. O leitor que desejar deixar o computador pensar por
si, deve esperar at reunir dados para testar as hiptese do computador, antes de publiclas.
Deve ter ficado claro que incluir variveis esprias na anlise pode ser to danoso
quanto deixar de fora variveis importantes. Medir tudo e deixar "os dados falarem por si
mesmos" no uma maneira eficiente de descobrir coisas. Por esta razo, a maioria das
revistas cientficas exigem que os pesquisadores testem suas hipteses. Se cada
pesquisador publicasse cada hiptese que gerasse sem ter que test-las, o volume das
publicaes aumentaria milhares de vezes, enquanto a comunicao diminuiria na mesma
proporo (veja Platt 1964). Hipteses no testadas s deveriam ser publicadas quando
prometem a mudana de paradgmas (Kuhn 1970). Harris (1975) opinou que "A estatstica
uma forma de controle social sobre o comportamento profissional dos pesquisadores. A
justificativa final de qualquer procedimento estatstico reside no tipo de comportamento
que ele encoraja ou desencoraja nos pesquisadores". Deste ponto de vista, os
procedimentos "stepwise" geralmente encorajam comportamentos antissociais.

82

Captulo 9

Variveis fantasmas geradas por computadores


Programas de computadores podem nos enganar fazendo-nos pensar que no
precisamos usar de bom senso quando estivermos decidindo sobre quais variveis
devemos estudar. Alm disso, eles podem criar variveis esprias. Os modelos que
consideramos at agora no investigam interaes (veja o captulo anterior se esqueceu o
que uma interao). Entretanto, muitos programas que executam anlise de varincia
podem gerar automaticamente, todas as possveis interaes, quer o pesquisador queira
ou no. Considere os resultados de um pesquisador que executou um experimento
controlado para testar o efeito de cinco fatores sobre a densidade de lagostins, usando
dois nveis por fator. O pesquisador, um estudante de ps-graduao, fica chocado ao
descobrir que nenhum dos fatores sugeridos por seu orientador foi significante (tabela
10).
Tabela 10
Dep Var: LAGOSTIN N: 96 Multiple R: 0.196 Squared multiple R: 0.038
Analysis of Variance
Source

Mean-Square F-ratio

0.130

1.596

0.210

GALHOS_SUBMERS 0.120
OS
VELOCIDADE
0.010

0.120

1.468

0.229

0.010

0.119

0.731

PEIXES_HERBVOR 0.032
OS
PEIXES_CARNVOR 0.000
OS
ERROR
7.354

0.032

0.396

0.531

0.000

0.001

0.974

90

0.082

PROFUNDIDADE

Sum-ofSquares
0.130

df

Ento, ele decide testar todas as interaes possveis (tabela 11). Tabelas de
ANOVA so interpretadas de baixo para cima. Se o fator est envolvido em uma interao
significante, ento todos os termos acima, nos quais o fator est envolvido, so
presumivelmente significantes. No entanto, os pesquisadores algumas vezes concluem que
o efeito simples de um fator envolvido em uma interao no significante. Isto ilgico.
Se o fator est envolvido em uma interao, ento no existe resposta simples. O efeito
do fator depende do nvel do outro fator ou fatores envolvidos na interao. Baseado na
tabela 11, o estudante concluiu que h uma interao significante (P=0,001) entre
galhos_submersos e peixes_herbvoros, e portanto, que galhos_submersos e
peixes_herbvoros afetam a densidade de lagostins.
H muitas explicaes biolgicas possveis para uma interao entre
galhos_submersos e peixes_herbvoros e isto permite uma seo extensa na discusso da
tese dedicada a este ponto. O estudante considera ainda que a probabilidade asociada
com a hiptese nula (ausncia de interao entre profundidade, velocidade e
83

peixes_herbvoros) to baixa (P=0,075) que indica uma tendncia que vale a pena ser
discutida. O estudante e seu orientador ficam contentes, porque agora h uma "tese"
volumosa para ser defendida, mas a cincia ter avanado? Este exemplo tambm foi
baseado em dados sorteados ao acaso. H 25 possveis termos de interao em uma
ANOVA com cinco fatores. Portanto, esperamos em mdia um resultado "significante" ao
nvel de 0,05 para dados ao acaso. Entretanto, as interaes envolvem mais do que um
fator, e em conseqncia esperamos que mais de um fator aparea como "significante". O
estudante tinha quase garantia de encontrar resultados "significantes", mesmo que suas
variveis no tivessem nenhuma relao entre s, como nos dados randmicos do
exemplo.
Muitos autores parecem no enxergar que muitos programas de ANOVA no
controlam a taxa de erro geral (e.g. Fowler 1990). Muitos tipos de tabelas estatsticas
apresentam grande nmero de testes e tambm no controlam a taxa de erro geral (Rice
1989). Harris (1975), salienta que muitos programas de regresso mltipla usualmente
apresentam um teste de significncia da regresso geral, mas que programas de ANOVA
para dados categricos no fazem isso. Isto estranho, j que a ocorrncia de um
resultado geral no significante coexistindo com efeitos parciais significativos um bom
indicador de que inclumos variveis demais em nosso modelo e que a "significncia"
estatstica das parciais podem no passar de artefatos, seja em regresso ou em ANOVA.
importante identificar interaes quando elas ocorrem em nossos modelos,
principalmente porque indicam que deveramos estar incluindo outros fatores, ou
reconsiderando as escalas nas quais as variveis foram medidas. Entretanto, se
permitirmos que o computador gere todas as possveis interaes, sem refletirmos quais
devem ser as mais apropriadas, estaremos apenas gerando muitas relaes esprias e
muita confuso. Alguns pesquisadores, com mais habilidade em matemtica, podero
us-las para ajudar a decidir entre diferentes candidatos de modelos (p. ex. Burnham and
Anderson 1998). Entretanto, o pesquisador nunca pode abrir mo da responsabilidade de
usar a lgica para decidir quais variveis devem ser includas. Fazer isto bem feito a arte
do cientista.
Tabela 11
Dep Var: LAGOSTIN N: 96 Multiple R: 0.629 Squared multiple R: 0.395
Analysis of Variance
Source

MeanSquare
0.130

F-ratio

PROFUNDIDADE

Sum-of- df
Squares
0.130
1

1.804

0.184

GALHOS_SUBMERSOS

0.120

0.120

1.659

0.202

VELOCIDADE

0.010

0.010

0.135

0.715

PEIXES_HERBVOROS

0.032

0.032

0.448

0.506

PEIXES_CARNVOROS

0.000

0.000

0.001

0.973

PROFUNDIDADE*GALHOS_SUBME
RSOS
PROFUNDIDADE*VELOCIDADE

0.067

0.067

0.923

0.340

0.092

0.092

1.267

0.265

PROFUNDIDADE*PEIXE_HERBVO
ROS

0.231

0.231

3.199

0.078

84

Captulo 9

PROFUNDIDADE*PEIXE_CARNVO
ROS
GALHOS_SUBMERSOS*VELOCIDA
DE
GALHOS_SUBMERSOS*PEIXES_HE
RBVOROS
GALHOS_SUBMERSOS*PEIXES_CA
RNVOROS
VELOCIDADE*PEIXES_HERBVOR
OS
VELOCIDADE*PEIXES_CARNVOR
OS
PEIXES
HERBVOROS*P.CARNVOROS
PROFUNDIDADE*GALHOS_SUBME
RSOS*
VELOCIDADE
PROFUNDIDADE*GALHOS_SUBME
RSOS*
P.HERBVOROS
PROFUNDIDADE*GALHOS_SUBME
RSOS*
P.CARNVOROS
PROFUNDIDADE*VELOC.*P.HERB
VOROS
PROFUNDIDADE*VELOC.*P.CARN
VOROS
PROFUNDIDADE*P.HERBVOROS*
P.CARNVOROS
GALHOS_SUBMERSOS*VELOCIDA
DE* P.HERBVOROS
GALHOS_SUBMERSOS*VELOCIDA
DE* P.CARNVOROS
GALHOS_SUBMERSOS*P.HERBVO
ROS* P.CARNVOROS
VELOC.*P.HERBVOROS*P.CARNV
OROS
PROFUNDIDADE*GALHOS_SUBME
RSOS*
VELOCIDADE*P.HERBVOROS
PROFUNDIDADE*GALHOS_SUBME
RSOS*
VELOCIDADE*P.CARNVOROS
PROFUNDIDADE*GALHOS_SUBME
RSOS*
P.HERBVOROS*P.CARNVOROS
PROFUNDIDADE*VELOCIDADE*
P.HERBVOROS*P.CARNVOROS

0.025

0.025

0.341

0.561

0.001

0.001

0.015

0.903

0.956

0.956

13.223

0.001

0.046

0.046

0.643

0.426

0.023

0.023

0.321

0.573

0.036

0.036

0.503

0.481

0.017

0.017

0.240

0.626

0.087

0.087

1.202

0.277

0.022

0.022

0.309

0.580

0.123

0.123

1.700

0.197

0.231

0.231

3.194

0.075

0.129

0.129

1.785

0.186

0.003

0.003

0.040

0.843

0.051

0.051

0.710

0.403

0.103

0.103

1.424

0.237

0.007

0.007

0.093

0.761

0.099

0.099

1.366

0.247

0.006

0.006

0.088

0.768

0.000

0.000

0.000

0.984

0.113

0.113

1.557

0.217

0.014

0.014

0.187

0.667

85

GALHOS_SUBMERSOS*VELOCIDA 0.115
DE*
P.HERBVOROS*P.CARNVOROS
PROFUNDIDADE*GALHOS_SUBME 0.131
RSOS*
VELOC.*P.HERBVOROS*P.CARNV
OROS

0.115

1.597

0.211

0.131

1.817

0.200

Algumas vezes desejamos coletar dados para construir hipteses e dados para
testar hipteses ao mesmo tempo. Neste caso, precisamos de grande nmero de dados
para poder dividi-los em um sub-grupo de dados exploratrios e outro de dados de
validao. Os dados exploratrios usualmente resultam em estatsticas superotimistas em
relao capacidade de previso do modelo (Picard and Cook 1984). Se o sub-grupo de
dados de validao representativo da amostra exploratria, e se ambos forem
representativos da populao de interesse, este processo pode economizar tempo e
dinheiro. A cincia trabalha basicamente testando o quanto os resultados podem ser
repetidos. Sub-grupos de validao no so evidncia to boa quanto uma repetio mais
substancial (Guttman 1985), feita por outro pesquisador, em outro local e tempo. Ainda
assim, muitas vezes o melhor que podemos fazer.
O problema geral em no publicar resultados no significativos se extende a
comparaes entre estudos, interpretao da literatura, revises e tcnicas de metaanlise (Palmer 1999, Thornhill et al 1999). Em todos estes nveis, o pesquisador deve se
perguntar o que foi testado mas no relatado. Entretanto, no vamos nos ater mais nesta
questo aqui.

86

Captulo 10:
Modelos complexos
At agora temos considerado como analisar situaes muito simples, nas quais as
variveis independentes podem afetar a varivel dependente, mas no podem afetar
umas s outras. claro que isto no muito realista. Neste captulo, vamos continuar a
lidar com relaes lineares simples, mas vamos permitir que as variveis independentes se
afetem mutuamente. Vamos analisar o exemplo dado no captulo 2. O fluxograma
apresentado na figura 52 mostra a direo da influncia, mas no especificamos o que flui
ao longo das setas.

Figura 52

PEIXES

POLUIO

LAGOSTINS

FITOPLNCTON
Na tabela 12, apresentamos os dados referentes a 30 lagoas onde as quatro
variveis foram medidas simultaneamente. "Poluio" representa a concentrao de metal
pesado em partes por bilho, "peixes" medido como o nmero mdio de peixes
capturados por hora por rede de espera, "fitoplncton" a concentrao de clorofila
relativa a um padro e "lagostins" o nmero de lagostins capturados por armadilha por
hora. Quando tratamos de relaes simples, diferenas nas escalas de medidas no
importavam muito. Poderamos dizer coisas como "o aumento de uma unidade de poluio
levar diminuio de tantas unidades de lagostins". Entretanto, se os efeitos de poluio
em fitoplncton so medidos como unidades de metal pesado, e os efeitos de fitoplncton
em lagostins so medidos em termos de clorofila, o mesmo efeito no pode fluir ao longo
de ambas as setas de nosso fluxograma.
Para colocar todas as variveis na mesma escala, podemos dividir o valor de cada
varivel pelo desvio padro desta varivel, como Student fez para remover os problemas
de escala de sua estatstica t. Os dados originais e os desvios padres tm a mesma
dimenso,
portanto, quando dividimos uma pela outra, temos uma quantidade aparentemente
adimensional (as unidades do numerador e do denominador se cancelam). No se
importem se no entenderem a lgebra. Efetivamente, ao dividirmos pelo desvio padro,
estamos colocando todas as medidas em unidades de desvio padro. Agora, podemos
dizer coisas como "Um aumento de um desvio padro em poluio levar ao decrscimo
de tantos desvios padres no nmero de lagostins".

87

Tabela 12
POLUIO

PEIXES

FITOPLNCTON

LAGOSTINS

9,5

9,0

12,5

2,4

8,5

9,9

11,6

5,0

9,2

9,1

15,3

5,8

10,3

8,0

13,9

6,2

9,6

9,1

14,4

3,6

10,9

5,6

14,2

5,2

10,7

4,3

15,1

8,1

8,9

6,2

12,0

3,4

10,5

6,2

14,2

4,4

9,0

7,9

14,3

4,0

9,8

8,0

15,4

4,7

8,0

8,0

11,1

3,4

9,0

8,7

12,7

4,0

9,8

5,4

12,9

6,9

10,8

6,1

15,8

6,4

9,2

8,0

13,3

3,4

10,4

7,5

14,2

4,0

9,4

7,5

16,0

9,1

8,6

10,2

14,2

6,8

9,8

6,8

13,3

6,5

8,7

8,3

12,0

5,8

8,8

7,9

12,5

4,4

9,8

7,8

15,3

6,1

8,2

9,5

13,0

3,5

9,9

6,6

15,7

9,3

8,7

7,0

14,3

5,1

8,9

7,7

13,0

3,0

10,0

8,3

15,1

4,8

8,1

9,8

14,4

3,0

10,2

7,3

15,7

6,3

Quando calculamos estatsticas baseadas em dados padronizados, elas so


chamadas estimativas padronizadas de parmetros. Muitos programas de computadores
88

fornecem as estimativas de parmetros padronizadas mas, em geral, elas so de pouco


uso, a menos que estejamos interessados em ver como os efeitos se propagam atravs
dos fluxogramas.
O uso de coeficientes padronizados para avaliar cadeias de efeitos chamado de
"Anlise de Caminhos" ("Path Analysis") ou "Modelagem de Equao Estrutural". Vamos
mostrar como fazer isto de uma forma simples (e no completamente correta), de forma
que possam entender os conceitos e remeter-se literatura, onde podero encontrar
detalhes sobre os mtodos mais aceitos e empregados. Antes que se envolvam em
demasia com os aspectos matemticos do mtodo, gostaramos que entendessem alguns
conceitos relacionados com efeitos diretos, indiretos e efeitos gerais, sem o que,
impossvel desenhar esquemas amostrais efetivos.

Estimando efeitos diretos


Primeiramente, vamos analisar os dados da tabela 12 usando uma regresso
mltipla padro, mas utilizando os coeficientes padronizados da regresso. Como vimos,
eles so adimensionais e podemos us-los para avaliar a contribuio relativa das variveis
independentes, para a variao observada na varivel dependente. A equao resultante
foi:
Lagostins = 0,0 0,16 * Poluio 0,39 * Peixe + 0,55 * Fitoplncton
Podemos representar isto no fluxograma, atribuindo valores para os coeficientes
padronizados para representar a fora de cada relao (figura 53). Neste contexto, estes
valores so chamados de coeficientes de "caminhos" ("path").

Figura 53

PEIXES

-0,39
-0,16

LAGOSTINS

POLUIO

+0,55

FITOPLNCTON
Baseado na regresso mltipla, o efeito da poluio negativo e sua magnitude
(0,16) menor do que a do efeito dos peixes (0,39) e do fitoplncton (0,55).
Estatisticamente, no parece haver um efeito significante de poluio, j que a regresso
mltipla estimou uma probabilidade alta (P = 0,53) para esta parcial, mas h alguma
evidncia de um efeito de peixes (P = 0,07) e uma forte indicao de um efeito de
fitoplncton (P = 0,01). Isto vai contra a intuio, porque geralmente h mais lagostins
em lagoas mais poludas e uma regresso simples indicou um efeito positivo significante
(P = 0,03) de poluio sobre os lagostins, com uma magnitude de 0,41. Regresses
simples podem ser enganosas (captulo 8).
Entretanto, podemos ver que o fluxograma representado pela regresso mltipla
(figura 53) no representa o sistema como acreditamos que ele funcione (figura 52). A
89

figura 53 tem a forma de uma estrela, com todas as setas dirigindo-se para a varivel
dependente, em todos os ngulos. As direes das setas so arbitrrias, porque as
variveis independentes no afetam umas s outras. Sistemas que podem ser
representados por um fluxograma em forma de estrela so muito raros em ecologia, mas
a maioria dos procedimentos estatsticos comumente empregados assumem este formato.
por este motivo que devemos construir um fluxograma que represente a maneira como
acreditamos que o sistema em estudo funcione, antes de escolher a anlise.
A regresso mltipla est nos dizendo que se peixes e fitoplncton forem mantidos
constantes, o efeito da poluio sobre os lagostins ser negativo e, possivelmente, no
significante. O problema que, no mundo real, no possvel manter as densidades de
peixes e fitoplncton constantes, quando este tipo de poluio varia. Talvez, se
extingussemos todos os peixes e fitoplncton dos lagos poderamos ver o efeito previsto
pela regresso mltipla, mas espero que concordem que isto seria eticamente
questionvel, alm de difcil execuo tcnica. O conhecimento de efeitos diretos pode ser
til em campos como o da medicina ou agricultura, onde podemos manipular alguns
fatores alm dos nveis que eles ocorrem naturalmente e eliminar ou controlar outros
quase totalmente. Em situaes em que no possumos este controle, ser muito mais til
conhecer os efeitos reais de um fator, e no seus efeitos hipotticos, se tudo o mais fosse
mantido constante.

Estimando efeitos indiretos


Podemos usar a anlise de caminhos para investigar tanto os efeitos diretos quanto
os indiretos. Os coeficientes de regresso padronizados nos revelam os efeitos diretos
hipotticos das variveis que tem setas diretamente ligadas aos lagostins (figura 54).
Notem que os efeitos diretos das variveis que afetam diretamente os lagostins so os
mesmos da figura 53. Mas agora aparecem tambm os efeitos diretos da poluio sobre
os peixes e da poluio sobre o fitoplncton. Podemos obter as regresses padronizadas
para estas conexes por regresses simples. Para calcular os efeitos indiretos,
multiplicamos os coeficientes de "caminhos" ao longo de cada fluxo. Para obter o efeito
geral de uma varivel sobre outra, somamos os efeitos diretos e indiretos.

Figura 54

PEIXES
0,67

0,39
0,16

POLUIO

LAGOSTINS

+ 0,56

+ 0,55

FITOPLNCTON
Para poluio, temos
correspondentes:

os

seguintes

fluxos

Poluio Lagostins

0,16
90

seus

coeficientes

de

"caminhos"

Poluio Peixes Lagostins


Poluio Fitoplncton Lagostins

+0,26
+0,31

O efeito geral (a soma dos efeitos diretos e indiretos) da poluio 0,41, que
coincide com o resultado que obtivemos pela regresso simples de lagostins e poluio.
Embora a regresso simples tenha fornecido uma resposta numrica correta, ela indicou
um efeito direto positivo de poluio sobre lagostins que no existe. A regresso mltipla
forneceu a resposta correta em relao aos efeitos diretos, mas isto uma resposta a
respeito de um mundo que no acreditamos existir. Em nosso modelo, poluio est
dirigindo o sistema, embora s tenha um pequeno efeito direto sobre lagostins. Um
aspecto perturbador das anlises convencionais que elas tendem a desconsiderar os
efeitos finais dos fatores, focalizando-se nas causas prximas, que na verdade so apenas
o resultado das variveis mais importantes da poro mais a esquerda do modelo.
Experimentos manipulativos, onde o pesquisador mantm algumas variveis constantes ou
produzem combinaes de nveis de fatores que no existem na natureza, tm a mesma
limitao. Eles esto se reportando aos efeitos diretos esperados em um mundo
imaginrio. A anlise de caminhos permite-nos interpretar um mundo carregado de
sentido biolgico. Geralmente, na ausncia de fluxogramas, as anlises estatsticas no
podem ser interpretadas.

Alguns problemas com a anlise de caminhos


Fizemos a anlise de caminhos parecer muito atraente. Entretanto, ela tem
algumas limitaes srias (Petraitis et al. 1996, Shipley 1999). Usamos esta anlise apenas
para ilustrar o primeiro passo em direo a lidar com modelos ecolgicos mais realistas. As
anlises de "caminhos" (na verdade, h mais de um tipo) geralmente assumem relaes
lineares, sem retroalimentao nos fluxos, e so baseadas em desvios padres. Portanto,
se no amostrarmos a variabilidade real de cada varivel do sistema, os coeficientes de
"caminhos" no vo fornecer os efeitos esperados. Por esta razo, difcil interpretar a
anlise de caminhos quando os pesquisadores experimentalmente manipularam algumas
variveis (Petraitis et al. 1996). Alm disso, o uso de coeficientes padronizados de
regresses simples no correto, a no ser que a anlise inclua todos os fluxos possveis.
Por exemplo, no inclumos o fluxo de peixes para fitoplncton em nosso exemplo, porque
no tnhamos evidncia de uma relao causal. Se no incluirmos todos os fluxos
possveis, temos que "enganar" o computador modificando a matriz que ele usa para
calcular as regresses mltiplas, ou ento usar um programa de verossimilhana mxima
desenhado especificamente para modelagem de equaes estruturais (Petraitis et al.
1996 ). Variveis categricas s podem ser colocadas no modelo se elas tiverem apenas
dois nveis, ou se pelo menos forem ordinais. Entretanto, a interpretao de uma varivel
cuja distribuio no pode ser descrita por seu desvio padro difcil. Algumas vezes, a
anlise de caminhos pode no ser boa para revelar padres que podem ser mostrados por
outros mtodos, embora algumas formas de anlise de caminhos provavelmente sero
sempre necessrias ao se analisar sistemas com escalas mltiplas (ONeill e King 1998,
trazem um bom apanhado sobre problemas de escalas). Portanto, embora sugerimos que
todas as anlises estatsticas requerem o exame prvio de um fluxograma, o leitor s
deveria considerar aplicar modelos de equaes estruturais quando estiver lidando com
sistemas relativamente simples. Precisar tambm dispor de um bom programa estatstico
e de um estatstico para livr-lo da confuso matemtica em que quase certamente
mergulhar.
91

Neste livro, como na maioria dos livros, nos concentramos em tcnicas de anlise
de varincias, porque este um ponto de partida e os conceitos so simples. Entretanto,
Guttman (1985) comentou a este respeito "No diferente de dar um martelo de
brinquedo a uma criana: ela vai us-lo em tudo que ver". A dificuldade de se estimar
parmetros relacionada classe geral de problemas chamada "problemas inversos"
(Wood 1997). Se decidirmos analisar o fluxograma matematicamente, temos de
considerar a possibilidade de usar simulaes intensivas em computadores (p. ex. Starfield
e Bleloch 1991) ou outras tcnicas matemticas complexas (p. ex. Link 1999, Spitz e Leks
1999, Wardle 1999, Burnham e Anderson 1998). Todas estas tcnicas esto muito alm
do escopo desta introduo e requerem a ajuda de um estatstico competente. Esperamos
que tenhamos ao menos dado uma idia de porque alguns pesquisadores esto lanando
mo de tcnicas muito diferentes das tcnicas estatsticas padres, que se tornaram o
"emblema" de eclogos iniciados. No captulo 12, descreveremos alguns aspectos de
anlises multivariadas, que a primeira vista so um pesadelo para bilogos e um paraso
para matemticos, e tentaremos trat-las sob a mesma abordagem que adotamos no
resto deste livro. Entretanto, no prximo captulo retornaremos aos mtodos lineares de
mnimos quadrados e anlise de relaes simples, embora os mtodos envolvidos nem
sempre sejam to simples.

92

Captulo 11:
Endireitando o mundo com transformaes e
outros truques
At agora, nossas anlises basearam-se em modelos lineares nos quais temos
minimizado os desvios quadrados para estimar parmetros. Estes mtodos algbricos de
mnimos quadrados so teoricamente apropriados somente sob um conjunto de condies
muito restritivas. Eles assumem que as relaes so lineares, que os efeitos dos fatores
so aditivos, que os resduos dos modelos tenham distribuio normal, que no h erro
estocstico na medida das variveis independentes, que a variao da varivel
dependente homogeneamente distribuda ao longo dos nveis da varivel independente
e ainda outras condies improvveis. Quando estas condies no so satisfeitas, algum
outro modelo ser um melhor estimador. Entretanto, algumas vezes possvel
transformar os dados e faz-los se conformarem s premissas dos mnimos quadrados.
Neste captulo, vamos primeiro considerar sobre maneiras de operar estas transformaes
e depois examinaremos modelos alternativos. Nossos modelos sero muito simples e no
nos ateremos em detalhes. Procuraremos esclarecer os aspectos conceituais mais
importantes, de forma que eles possam ser usados para esclarecer e no para obscurecer
os padres da natureza.
Nosso exemplo diz respeito a pessoas tentanto estimar massa ou volume a partir
de medidas lineares, digamos, um eclogo interessado em estimar a biomassa de uma
grande rea de floresta. Se preferirem um problema aplicado, imaginem um engenheiro
florestal empenhado em estimar o volume de madeira. Bilogos de pesca usam tcnicas
similares para estimar o peso a partir de medidas de comprimento de peixes, e fisilogos
tm problemas similares quando a massa corprea afeta as variveis em que esto
interessados. Na realidade, este tipo de relao esperado em muitos sistemas biolgicos
(Carlson e Doyle 1999). relativamente simples tomar medidas do dimetro de rvores,
enquanto a medio da biomassa tarefa rdua e destrutiva. Portanto, nosso eclogo
decide determinar a relao entre o dimetro e a biomassa de 30 rvores e usar esta
relao para predizer a biomassa florestal a partir de medidas do dimetro de rvores
tomadas sobre toda a rea de interesse. Os dados para as 30 rvores esto mostrados na
figura 55.

93

Figura 55

BIOMASSA (kg)

3000

2000

1000

0
0

10
15
20
25
DIMETRO (cm)

30

35

A relao no linear e a variabilidade em biomassa aumenta a medida que o dimetro


aumenta. No possvel produzir uma equao preditiva usando a lgebra de mnimos
quadrados diretamente com estes dados. Entretanto, provavelmente a relao conforma
uma funo potncia da seguinte forma:
Biomassa=a*Dimetrob +e1
onde "a" e "b" so coeficientes que descrevem o formato e a posio da curva, enquanto
e1 representa a variao aleatria ou explicada por fatores que no entraram no modelo e
chamado de "erro". Logaritmizando os dois lados da equao (desconsiderando o
"erro"), obtemos um equao linear em uma forma que pode ser tratada pela lgebra
convencional de mnimos quadrados.
log(Biomassa)=log(a) + b*log(Dimetro) +e2
Portanto, o bilogo decide transformar seus dados, colocando ambos os eixos em escalas
logartmicas de base 10 (Figura 56).

94

Figura 56

Log10 (BIOMASSA)

1000

100

10

0
Log 10

10
(DIMETRO)

20 30

A relao agora linear e a variabilidade da biomassa similar atravs de toda a


amplitude de valores de dimetros. Isto facilita a matemtica e permite ao bilogo usar a
lgebra de mnimos quadrados. Vamos deixar o problema de como lidar com o termo
"erro" da equao original para os estatsticos.
A reta da figura 56 pode ser descrita pela equao:
log10(biomassa)=-0,775+2,778*log10(dimetro)
Esta equao preditiva pode ser usada para estimar a biomassa de rvores para as quais
apenas o dimetro foi medido. Tudo parece bem, porque o r2 (um indicativo grosseiro da
capacidade de predio da equao) alto (0,96) e agora podemos estimar o coeficiente
"b", e o logartmo do coeficiente "a" e re-escrever a equao original como:
Biomassa=0,461*Dimetro2,778
A figura 57 mostra a posio estimada da curva em relao aos dados originais. Podemos
ver que aquele r2 no faz sentido em termos dos dados originais. A linha no explica cerca
de 96% da variao nos dados e a variabilidade muda ao longo da linha. A equao
muito boa para estimar a biomassa de rvores pequenas, mas rvores grandes, na faixa
de 25-30 centmetros de dimetro, poderiam ter biomassa variando de menos de 1000kg
at mais de 2000kg. Os pesquisadores as vezes apresentam o grfico dos dados
transformados, mas o ajuste do modelo s pode ser avaliado em relao aos dados
originais, no transformados.

95

Figura 57

BIOMASSA (kg)

3000

2000

1000

0
0

10 15 20 25
DIMETRO (cm)

30

35

Estimativas por tentativa e erro sem transformao


A grande variabilidade na biomassa das rvores maiores real e nenhum modelo
pode faz-la desaparecer. Entretanto, a transformao logartmica reduziu a variabilidade
das rvores grandes quando a posio da linha foi estimada. Isto deu tanto peso para
rvores pequenas quanto para rvores grandes, no momento da estimativa da posio da
linha. Isto no era o que o bilogo esperava. Pequenos erros na estimativa da biomassa
de rvores pequenas tero pequeno efeito na estimativa da biomassa de toda a floresta.
Entretanto, mesmo uma mudana diminuta na posio da linha pode mudar a estimativa
de biomassa de uma nica rvore grande em centenas de quilogramas. Por causa disto,
nosso bilogo procura agora por um mtodo que possa preservar a grande variabilidade
das rvores grandes e assim dar maior peso a elas na anlise. Modelos lineares no so
apropriados, portanto ele usa um computador para aplicar uma tcnica intensiva de
estimativa no-linear.
"Modelos no-lineares" so parcialmente tentativa-e-erro e parcialmente
matemticos. O programa comea com estimativas arbitrrias dos parmetros, aplica o
modelo (o que equivalente a desenhar a linha no grfico) e calcula os desvios dos pontos
at a linha. Ento ele tenta novamente, com valores um pouco diferentes e assim
sucessivamente, at conseguir um modelo que resulte nos menores desvios dos pontos
observados at a linha. A matemtica est envolvida porque o pesquisador precisa
informar a forma geral da equao para o computador, e porque o programa usa
algortmos matemticos para se assegurar que est mudando as estimativas na direo
que vai resultar nos menores desvios. Estes mtodos so muito efetivos. O computador
fez 16 tentativas (chamadas iteraes) para estimar a seguinte equao:
Biomassa=1,139*Dimetro2,178
Os valores so ligeiramente diferentes daqueles estimados por transformao dos dados,
mas a linha resultante ocupa uma posio similar (figura 58).
96

Figura 58

BIOMASSA (kg)

3000

2000

1000

0
0

10 15 20 25
DIMETRO (cm)

30

35

Outros mtodos atpicos


Modelos no-lineares tambm so teis para estimar parmetros quando no
queremos usar mnimos quadrados. As tcnicas padres de mnimos quadrados
geralmente so as melhores para predio, mas podem no ser as melhores para
descrever as relaes de maneira acurada. Considere a relao entre comprimento e
altura do corpo para uma espcie de peixe. Para dados morfomtricos, a regresso do
maior eixo reduzido (mdia geomtrica) pode ser o modelo mais apropriado (p. ex. Ricker
1973).
fcil de se estimar esta regresso, instruindo-se o programa a usar uma outra
equao (chamada funo de perda ou "loss function") para minimizar a rea dos
tringulos formados entre os pontos e a linha do grfico (veja captulo 7), ao invs de
reduzir a rea dos quadrados, como no caso das anlises regulares de mnimos
quadrados. A figura 59 mostra a posio da linha quando minimizamos os desvios
quadrados (linha contnua) e desvios segundo o modelo do maior eixo reduzido (linha
tracejada).
A diferena no foi muito grande neste caso, embora possa ser importante em
alguns casos, especialmente se o pesquisador estiver analisando os dados em sees, ao
invs de com toda a amplitude de variao da varivel independente (Ricker 1973). O
ponto que qualquer resduo pode ser minimizado por iterao, mesmo se no houver
uma frmula matemtica simples para faz-lo.

97

Figura 59
50

ALTURA (cm)

40
30
20
10
0
0

10
20
30
COMPRIMENTO (cm)

40

Modelos gerais lineares


Em alguns casos, as premissas das tcnicas de mnimos quadrados so seriamente
violadas. O caso mais comum quando a varivel dependente medida em uma escala
binria, do tipo 0 ou 1 (ou presena/ausncia, efeito/no efeito, morte/sobrevivncia,
etc.). Neste caso, os pesquisadores usam regresso logstica para analisar os dados. A
maioria dos mtodos que discutimos neste captulo se enquadra dentro da tcnica geral
chamada de modelos gerais lineares. Um modelo especificado e, se necessrio, os dados
so transformados de modo a serem linearizados. Na modelagem geral linear, o modelo,
no qual as transformaes se baseiam, chamado "funo de ligao". Para linearizar a
funo potncia, aplicamos a mesma transformao nos dois lados da equao, de modo
a manter a igualdade. Entretanto, nem todas as transformaes para se obter a funo
de ligao tero esta propriedade e a escolha de que tipo de transformao empregar e
de qual desvio ser minimizado (veja figura 41, captulo 7 para exemplos de distncias
que podem ser minimizadas) depende da forma esperada do resduo e de como os dados
foram coletados. Em alguns casos, pode ser possvel fazer isto algebricamente, como em
mnimos quadrados, mas geralmente uma tcnica iterativa usada. Mesmo quando as
relaes no podem ser linearizadas, estimativas razoveis dos parmetros podem ser
obtidas por tcnicas de tentativa e erro (iterao).
Verossimilhana mxima
As tcnicas no-lineares, como a de verossimilhana mxima, no precisam
minimizar resduos. Esta tcnica estima os parmetros escolhendo os valores que
maximizam a probabilidade de se encontrar justamente os valores observados. Sokal e
Rohlf (1995) opinaram que "a abordagem da verossimilhana mxima para ajustar uma
linha de regresso para dados bivariados ou multivariados o mtodo mais geral e
98

correto". Entretanto, para amostras pequenas, o mtodo de verossimilhana mxima no


resistente a erros sistemticos (vises) e nem eficiente. Para uma distribuio normal,
com covarincia conhecida, a verossimilhana mxima se reduz a mnimos quadrados
ponderados, sendo os pesos dados pelo inverso da matriz de covarincia (Bard 1974). Os
leitores com mentes matemticas podem ler Neyman (1937) para compreender como esta
e outras tcnicas se relacionam com a teoria da probabilidade. Desvios moderados das
premissas no resultam em grandes diferenas entre as tcnicas de mnimos quadrados e
verossimilhana mxima. Esta a razo pela qual poucos pesquisadores se preocupam em
us-las. No sabemos o formato real da distribuio dos resduos dos valores de biomassa
usados para construir a figura 55. Entretanto, assumindo uma distribuio de Poisson, as
estimativas por verossimilhana mxima dos parmetros resultaram na posio da linha
mostrada na figura 60.

Figura 60

BIOMASSA (kg)

3000

2000

1000

0
0

10
15
20
25
DIMETRO (cm)

30

35

Os mtodos de verossimilhana mxima minimizam a funo de verossimilhana.


Entretanto, esta funo s pode ser determinada conhecendo-se a distribuio dos
resduos (Hilborn e Mangel 1997). As estimativas por verossimilhana mxima podem ser
calculadas usando-se programas no-lineares (iterativos), minimizando o negativo do
logaritmo da funo de verossimilhana. Entretanto, h diferentes abordagens para a
estimao por verossimilhana mxima (Bard 1974), e os resultados apresentam
diferentes propriedades. Friendly (1995) apresenta algumas analogias fsicas com a
estimativa por verossimilhana mxima. Uma vez que o modelo comea a ficar
moderadamente complexo, no h um estimador de verossimilhana mxima simples e
procedimentos muito complexos precisam ser programados no computador.
virtualmente impossvel determinar a forma da distribuio estudada pela inspeo dos
dados. Portanto, os mtodos de verossimilhana mxima so os mais apropriados quando
h fortes razes tericas para se adotar um modelo em particular (Guttman 1999), e
quando se tem grandes amostras. No opte por usar estas tcnicas, a no ser em
colaborao com um estatstico muito competente. Quando se deparar com um modelo de
99

verossimilhana mxima em suas leituras, deve interpret-lo como faria com um modelo
de mnimos quadrados, torcendo que o autor tenha programado a funo correta de
verossimilhana. Muitos adeptos relatam que usaram verossimilhana mxima sem
fornecer detalhes do mtodo e suas premissas, de modo que freqentemente difcil,
mesmo para estatsticos experientes, avaliar os resultados.

Problemas e armadilhas da estimativa no-linear


Todas as tcnicas no-lineares (iterativas) apresentam uma fraqueza quando usada
em modelos complexos. Os elementos de modelos simples podem ser descritos por uma
reta ou por uma curva crescendo ou diminuindo monotonicamente. Entretanto, modelos
complexos representam superfcies complexas, com ondulaes. As tcnicas iterativas
geralmente aproximam a soluo tima, representada pelo ponto mais "baixo" na
superfcie, executando uma srie de "pulos". Os pulos usualmente ficam menores a cada
tentativa (iterao) para assegurar que o programa chegue a uma soluo. Entretanto,
este procedimento pode levar o programa a cair em algum local particular da superfcie
que apresente uma irregularidade chamada "mnimo local", ao invs de cair na poro
realmente mais baixa de toda a superfcie, o "mnimo global" (figura 61). Para evitar isto,
o pesquisador pode iniciar o processo repetidas vezes e escolher os valores iniciais para as
estimativas, fazendo com que elas estejam prximas dos valores mais provveis (i.e.
fazendo com que o programa v para a rea onde provavelmente se encontra o mnimo
global). Isto introduz um elemento de subjetividade no processo que alguns pesquisadores
desaprovam. Entretanto, toda modelagem, inclusive a modelagem de rejeio de
hipteses nulas da estatstica convencional, envolve um alto grau de subjetividade. difcil
lidar com modelos complexos, independentemente de com qual mtodo se trabalhe.

Os conceitos apresentados neste captulo foram complexos e no temos espao


para explor-los em detalhes. Entretanto, eles so conceitos puramente estatsticos, e no
so to importantes quanto os conceitos gerais que exploramos nos captulos anteriores.
No captulo 10, lidamos com modelos lineares para descobrir como podemos construir
modelos mais realistas com dependncias entre variveis independentes. Muitos
programas de computadores usam mtodos de verossimilhana mxima para estimar os
100

parmetros de equaes lineares nestes modelos. Modelos complexos podem tambm ser
atacados por tcnicas no-lineares, mas usualmente, esta alternativa no mais
satisfatria do que os mtodos convencionais.

101

Captulo 12:
Anlise multivariada - cortando as rvores
para enxergar melhor a floresta.
No sem motivo, a estatstica multivariada tem sido comparada caixa de Pandora
(James e McCulloch 1990). Ela um campo pantanoso onde at mesmo estatsticos
experientes se movem cuidadosamente. Muitas das tcnicas multivariadas e univariadas,
incluindo as que discutimos at agora, podem ser vistas como casos especiais da anlise
de correlao cannica (Harris 1975). Entretanto, vamos nos concentrar em mtodos que
demandam menos matemtica e tentaremos relacionar os padres observveis nos
grficos com aquilo que as tcnicas esto tentando revelar. Nas sees anteriores, lidamos
com relaes que podiam ser tratadas matemtica ou conceitualmente segundo a
equao:
Y = a + b*X(possivelmente parcial)
A maioria das tcnicas multivariadas usadas em ecologia podem ser representadas pela
seguinte equao conceitual:
Y1,Y2,Y3,...Yi = a + b*X(possivelmente parcial)
Entretanto, algumas vezes no h variveis independentes. O objetivo da anlise
usualmente reduzir o problema a alguma coisa como a seguinte equao:
Y = a + b*X(possivelmente parcial)
onde Y uma ou mais variveis conceituais compostas, destinadas a capturar a
"essncia" das mltiplas variveis dependentes. O resultado pode ser representado em
grficos uni, bi ou tridimensionais.
Vamos comear com tcnicas de ordenao, porque elas lidam com variveis
contnuas e so teis para introduzir os conceitos que esto por trs da maioria das outras
tcnicas. A forma mais simples a ordenao direta das variveis dependentes por uma
nica varivel independente. A tabela 13 mostra os dados para um estudo hipottico da
distribuio de seis espcies de plantas (spi) em relao precipitao mdia mensal de
cada local. Os valores para cada espcie representam sua densidade (nmero por 100 m2)
em cada local. As espcies A e E so gramneas (herbceas), C e D so arbustos e B e F
so rvores.
Tabela 13
LOCAL

spA

SpB

spC

spD

spE

spF

Precipitao (mm)

270

315

200

255

102

190

290

150

125

230

10

290

11

240

12

10

100

Grficos de gradientes
A figura 62a um grfico composto, mostrando a distribuio de cada espcie
contra a precipitao pluviomtrica. Notem que as diferentes espcies no tm uma
distribuio similar ao longo do gradiente de precipitao. Algumas tm densidades
maiores em locais com pouca chuva, outras apresentam densidades maiores com chuva
intermediria e algumas tm densidades mximas (embora no muito grandes) em locais
com muita chuva. A chuva parece estar influenciando as espcies, mas as relaes de
cada espcie com a chuva no so lineares. Entretanto, o padro seria mais claro se
tivssemos apresentado os grficos em uma ordem diferente, colocando os grficos das
espcies que tiveram as maiores densidades em reas com grande precipitao acima e os
grficos das espcies com maiores densidades em locais menos chuvosos abaixo (figura
62b).

103

Figura 62
5

10

sp B

sp F

10

sp F

sp C

sp D

sp D

0
10

5
0
10

sp E

0
10

sp B

5
0
10

0
10

5
0
10

sp A

0
10

sp A

0
10

0
10

sp C

Densidade

sp E

0
10

5
0

5
0

100

150

200
250
PRECIPITAO

300

350

100

150

200
250
PRECIPITAO

300

350

Agora ficou claro que a precipitao ordena as espcies. As maiores densidades


formam uma diagonal ao longo do grfico composto. Isto chamado de "anlise direta de
gradiente", porque arranjamos as espcies em relao a um gradiente que espervamos
que fosse importante. Baseados na figura 62b, poderamos dizer que cada espcie e a
comunidade como um todo so organizadas ao longo da dimenso "precipitao".
Se no tivssemos sido capazes de produzir um grfico com as maiores densidades
formando uma diagonal, concluiramos que a chuva no era um fator determinante da
estrutura desta comunidade. Diferentes tipos de estrutura iro refletir-se em diferentes
padres nos grficos. Portanto, no devemos acreditar em uma estrutura (padro), a
menos que possamos visualiz-la em grficos simples como a figura 62b.
Parece estranho haver menos plantas nas reas de maior precipitao, at
levarmos em conta as diferentes formas de vida. Simplesmente no possvel empacotar
tantas rvores na pequena rea de um quadrado amostral como se pode fazer com
gramneas.
Medimos a composio da comunidade em termos do nmero de indivduos, mas
isto no reflete a biomassa, que provavelmente ser muito maior nas rvores. Uma
maneira de resolver este problema seria padronizar a densidade das espcies. Se
dividirmos o nmero de indivduos de cada espcie encontrado em cada rea amostral,
pelo nmero total de indivduos daquela espcie, todas as espcies estaro em uma escala
adimensional equivalente, que varia de 0 a 1 (figura 63a).
104

Figura 63
sp B

0.5

0.2

0.2

sp C

-0.1
0.5

0.2

-0.1
0.5

sp D

Densidade

sp F

-0.1
0.5

0.2

sp E

-0.1
0.5

0.2

sp A

-0.1
0.5

0.2

-0.1
100

150

200
250
PRECIPITAO

300

350

100

150

200
250
PRECIPITAO

300

350

O Padro agora ficou mais claro, com as rvores tendo tanto efeito quanto as
gramneas em nossa anlise visual. Entretanto, nem sempre este ser o caso. Algumas
espcies podem ser raras simplesmente devido aos azares da amostragem, e atribuir um
peso indevido para estas espcies, atravs desta padronizao, pode obscurecer os
padres, ao invs de revel-los. Outra alternativa seria transformar os locais para ter as
mesmas densidades de indivduos, independente de espcies. Neste ltimo caso, a anlise
visual no se preocupa com a densidade absoluta, mas enfatiza a densidade relativa
(figura 63b). Portanto, sejam cuidadosos ao usar propores ou outras transformaes
que limitem a amplitude dos dados, j que estes procedimentos podem criar padres
esprios em algumas anlises (Jackson 1997).
As transformaes dos dados alteram as interpretaes biolgicas (Noy-Meir et al.
1975, Pielou, 1984, Johnson e Field 1993). Em nosso exemplo, o padro geral
permaneceu o mesmo, mas os detalhes de cada espcie mudaram. Na verdade, os
grficos 62b, 63a e 63b respondem questes diferentes. importante compreender isto,
antes de passarmos para a prxima seo. Muitas das tcnicas de anlise multivariada
mais empregadas realizam internamente transformaes de dados e o pesquisador deve
estar certo de que estas transformaes so apropriadas para a questo em pauta.

105

Gradientes hipotticos
At agora nossas anlises se referiram a um gradiente ecolgico que sabemos
existir. Nossa questo era se existe um padro associado com o gradiente que
conhecemos. Entretanto, pode haver outros padres, talvez at mais fortes, que estamos
deixando de lado porque nos concentramos no gradiente de precipitao pluviomtrica.
Uma outra maneira de abordar a questo perguntar se h padres nos dados,
independente de quaisquer padres conhecidos. Isto chamado de "anlise indireta de
gradiente". H muitos tipos de anlise indireta de gradiente, mas comearemos com uma
que no requer muita matemtica para ser compreendida. A esta altura do livro,
esperamos que no se assustem mais com os nomes esdrxulos pelos quais os estatsticos
chamam suas anlises. A que vamos tratar agora chamada de "anlise no-mtrica de
escalas multidimensionais" e representada pela sigla NMDS. Considerando nosso
exemplo, o objetivo da anlise descrever o padro apresentado pelas seis espcies, em
menos dimenses do que as apresentadas na tabela 13. Observe que aqui cada espcie
representa uma dimenso, alm claro, da dimenso representada pela precipitao.
Uma das vantagens de NMDS que podemos escolher para quantas dimenses queremos
reduzir o nosso problema. Como sabemos que existe um gradiente de chuva e analisamos
os dados em relao a esta dimenso nos grficos anteriores, vamos fazer uma ordenao
unidimensional dos "objetos", que em nossa anlise so os locais, em relao aos
"atributos", que em nossa anlise so as espcies.
Ordenar os locais requer um passo intermedirio. No temos informao sobre os
locais em relao a um gradiente externo. Temos apenas dados sobre o relacionamento
entre os locais, baseados na distribuio de espcies. Ento, perguntaremos o quanto os
locais diferem considerando as espcies. Entretanto, esta questo nos leva a outra
pergunta: qual ser nossa medida de diferena? Diferenas em qual espcie? A medida
mais simples de diferena (ou "distncia") ser apenas somar as diferenas entre os locais
para cada espcie. Por exemplo, no local #1 contamos nove indivduos da spA enquanto
no local #2 no houve indivduos desta espcie. Portanto estes locais diferiram por nove
nesta varivel. Ambos tiveram um indivduo da spB, portanto a diferena foi zero, para
esta espcie. A diferena mdia por espcies entre o local #1 e o local #2, somando todas
as espcies foi 10/6 = 1,7. Se conduzirmos o mesmo procedimento para cada par de
locais, obteremos o resultado mostrado na tabela 14, que chamada de "matriz de
associao".
Tabela 14
#1
#2

#3

#4

#5

#6

#7

#1
#2

0
1,7

#3

2,7

1,3

#4

2,2

0,5

1,8

#5

2,7

2,7

1,3

3,2

#6

1,5

0,2

1,2

0,7

2,5

#7

1,8

3,2

1,8

3,7

1,2

3,0

#8

1,2

1,8

1,5

2,3

1,5

1,7

1,3

106

#8

#9

#10

#11 #12
.

#9

3,7

2,7

2,0

2,8

2,0

2,8

3,2

2,5

#10

2,0

0,3

1,7

0,2

3,0

0,5

3,5

2,2

2,7

#11

2,8

1,5

1,2

1,7

2,5

1,3

3,0

2,3

2,2

1,5

#12

0,5

2,2

2,5

2,7

2,5

2,0

1,7

1,0

3,5

2,5

2,7

Matrizes de associao podem ter medidas de similaridade ou de dissimilaridade e


h muitas opes diferentes para medidas. Por exemplo, poderamos ter calculado a
correlao entre as contagens de espcies para cada par de locais. Isto teria resultado em
uma matriz de similaridade dos locais. Mas, notem que o coeficiente de correlao teria
implicado em uma transformao resultante da padronizao por locais. Isto equivaleria a
transformar os valores dentro de cada local para terem uma mdia igual a zero e o desvio
padro igual a um. A "distncia" que usamos, chamada de distncia "Manhattan" ou "cityblock" no a medida de associao mais usada e no a que recomendaramos para
este tipo de dados. Entretanto, muitas das melhores medidas de associao so variaes
dela e ela til para ilustrar distncias, porque intuitiva e fcil de calcular.
Os valores na diagonal da tabela 14 so todos zeros, porque a distncia entre um
local e ele mesmo zero. No preenchemos a poro superior direita da tabela porque ela
seria o espelho da imagem inferior. Na tabela temos todas as informaes a respeito de
quo distante cada local est dos outros em relao composio de espcies.
Entretanto, isto ainda no simplificou nosso problema. Na verdade, esta tabela contm
mais clulas que a original. Vamos usar a anlise NMDS para ordenar os locais ao longo de
um nico eixo, de tal forma que, tanto quanto possvel, as distncias entre os locais ao
longo do eixo sejam proporcionais s distncias na tabela 14. O computador vai usar uma
matemtica complicada para reordenar (em nosso exemplo, em uma dimenso) os locais
e verificar o quanto as distncias entre eles ficaram proporcionais s da tabela 14. Em
seguida, ele vai rearranjar ligeiramente os pontos e verificar se o resultado melhorou, at
que no possa chegar mais perto das propores originais. O leitor poderia fazer isto
mo, mas certamente ser mais demorado do que o computador. Borg e Groenen (1997)
fornecem um texto razoavelmente digervel sobre como o computador pode ser
programado para fazer isto. Entretanto, iremos apenas comparar a ordem do computador
com nossa anlise direta de gradiente, j que estamos na situao pouco usual de
conhecer com antecedncia o gradiente ecolgico "real". A figura 64a apresenta os locais
ao longo do novo eixo criado pela anlise NMDS, e que chamamos de MDS1.

107

Figura 64
sp B

0.5

0.2

0.2

sp C

-0.1
0.5

0.2

-0.1
0.5

sp D

Densidade

sp F

-0.1
0.5

0.2

sp E

-0.1
0.5

0.2

sp A

-0.1
0.5

0.2

-0.1
-2

-1

0
MDS1

-2

-1

0
MDS1

Notamos que na figura 64a h um padro diagonal que corre na direo oposta
da figura 63. A direo do novo eixo completamente arbitrria, porque o eixo foi
desenhado somente para manter as distncias relativas entre os pontos. Portanto,
podemos reverter o eixo MDS1 (figura 64b).
O padro similar ao obtido com a anlise direta de precipitao, mas a anlise
MDS no foi capaz de reproduzir o padro original completamente. Ainda assim, MDS1
representou a precipitao razoavelmente bem, embora nenhuma observao direta de
chuva tenha sido usada na ordenao. A anlise fez isso usando somente as similaridades
(mais corretamente, as dissimilaridades) entre os locais em termos de contagens de
plantas. Se colocarmos em um grfico o gradiente verdadeiro (precipitao) contra o
gradiente predito pela anlise NMDS, veremos que o eixo hipottico predisse cerca de
50% (r2=0.53) da variao da precipitao pluviomtrica (figura 65).

108

PRECIPITAO PLUVIOMTRICA (mm)

Figura 65
400

300

200

100

0
-2

-1

0
MDS1

Isto foi bem razovel, considerando que nenhuma das distribuies de espcies ao
longo do gradiente de chuva (figura 62b) formava uma curva muito suave e que a
associao das variveis originais com a precipitao no foi mais forte do que a esperada
para dados ecolgicos.
Ordenaes indiretas sempre seguem os mesmos passos, embora isto nem sempre
seja bvio a partir dos programas. Primeiro os dados podem ser transformados e o tipo de
transformao deveria ser dependente da questo formulada. A seguir, uma matriz de
associao das distncias (ou das similaridades) entre os objetos construda. A matriz de
associao baseada em uma medida obtida a partir da mdia de todos os atributos.
Portanto, h apenas uma distncia entre cada par de objetos analisados, independente de
quantas variveis (atributos) sejam medidos. O programa ento arranja os objetos ao
longo de um ou mais eixos (usualmente dois eixos ou dimenses) que melhor refletem os
padres encontrados nos dados. Com sorte, estes eixos refletiro as variveis ecolgicas
que causaram os padres nos dados. Na melhor das hipteses, esperamos somente uma
aproximao grosseira das dimenses reais que determinaram os padres e se
escolhemos uma transformao imprpria, ou uma medida de associao ou tcnica de
ordenao inadequada, pode no haver correspondncia entre os eixos derivados e os
gradientes ecolgicos reais (procurem Kenckel e Orloci 1986 para exemplos). Algumas
vezes, o pesquisador est interessado em uma ordenao dos atributos ao invs dos
objetos e alguns mtodos podem fazer ordenaes simultneas de objetos e atributos.
Entretanto, a lgica da anlise permanece a mesma.

Mais do que uma dimenso


Poderamos ter pedido ao programa de NMDS para arranjar os locais em duas
dimenses. Sabemos que, na verdade, h apenas um gradiente nestes dados, porque ns
os criamos. Entretanto, ainda assim podemos ver o padro em duas dimenses. Fazendo
o smbolo dos locais ser proporcional chuva (figura 66a) ou nomeando os locais com
chuva abaixo da mdia como "B" (baixa precipitao) e acima da mdia como "A" (alta
precipitao), podemos ver a associao entre precipitao e locais em termos de
109

composio de espcies.

Figura 66
2

MDS2

A
AA AA

B
B

B
B

-1
B

-2
-2

-1

0
MDS1

-2

-1

0
MDS1

Se tivssemos includo muitos eixos, degradaramos o padro. H uma grande


discusso na literatura sobre a seleo do nmero de eixos que devem ser includos,
especialmente para anlises de vetores de "eigen" (p. ex. Jackson 1993), das quais
trataremos logo adiante. Entretanto, muito raro que um padro possa ser discernvel em
mais do que duas dimenses e permanecer com muitas dimenses contraria o propsito
primrio da anlise, que reduzir a dimensionalidade (Gauch 1982a, James e McCulloch
1990). Freqentemente, os eixos no so "significantes" nos critrios internos da anlise,
mas ainda assim podem ser carregados de significado em termos dos gradientes externos
(Gauch 1982b, kland, 1999).
H muitas maneiras de executarmos a anlise de escala multidimensional (MDS),
que podem ser mtricas, no-mtricas ou um hbrido dos dois (p. ex. Borg and Groenen
1997, Faith, Minchin and Belbin 1987). Freqentemente se diz que os eixos resultantes de
MDS no tm interpretao lgica. verdade que podemos girar os eixos para qualquer
posio no plano dos dados, sem mudar as distncias relativas entre os pontos. O
programa que usamos girou os eixos para obter a maior correlao entre as variveis
originais e o primeiro eixo MDS. Entretanto, isto no faz necessariamente sentido, j que
as distncias entre os pontos no so derivadas de correlaes. O gradiente de
precipitao parece correr como uma diagonal atravs do espao bidimensional
determinado pelos eixos MDS. H uma outra classe de tcnica de ordenao, baseada na
anlise de "eigen", cujos eixos resultantes podem ser matematicamente relacionados com
os valores originais.

Anlises de vetores de "eigen"


Estabelecendo-se algumas premissas importantes, e usualmente improvveis,
possvel determinar a posio dos eixos no espao multidimensional usando-se a lgebra
de matrizes, ao invs do mtodo de "tentativa e erro" das tcnicas de iterao. As anlises
baseadas neste princpio so chamadas de "anlises de vetores de eigen" pelos
estatsticos.
A primeira tcnica de ordenao baseada em vetores de "eigen" a ser amplamente
usada foi a anlise de componentes principais (PCA), que geralmente usa o coeficiente de
110

correlao de Pearson como medida de associao (Pearson 1901). As outras tcnicas so


variaes desta. Por exemplo, a anlise de correspondncia (CA) pode ser calculada da
mesma maneira que a PCA, depois de se substituir a distncia do coeficiente de correlao
pelo Qui-quadrado e padronizando os objetos pela amplitude. Se alguma outra distncia
usada, e a matriz de associao for transformada para possuir propriedades mtricas, a
anlise chamada de anlise das coordenadas principais (PCoA). PCA e CA so populares,
porque so fceis de serem calculadas, os eixos resultantes podem ser matematicamente
relacionados com as medidas originais e possvel projetar tanto os objetos quanto os
atributos no mesmo espao de coordenadas.
Algumas das vantagens de analises eigen so ilusrias. PCA assume relaes
lineares entre as variveis, o que pode no existir. Se os objetos so padronizados pela
amplitude antes de se executar a anlise, os eixos da PCA sero artefatos (Jackson 1977).
Para gradientes longos, nos quais a maioria dos atributos vo possuir alguns
valores negativos, as anlises de eigen tendem a distorcer as relaes entre os objetos e
vo indicar formas de ferradura para gradientes lineares. Uma variao da CA, que
poderia ser traduzida como "anlise de correspondncia no-tendenciosa" (Detrended
Correspondence Analysis - DCA) foi proposta para corrigir estes efeitos de "ferradura",
mas provavelmente transforma em retas tambm as relaes que so verdadeiramente
curvilneas no espao ecolgico (p. ex. Wartenberg et al. 1987). Kenckel e Orlocci (1986)
fornecem exemplos do que DCA pode fazer com gradientes conhecidos. Alm disso,
DECORANA, o programa de computador que tornou CA e DCA to popular, e que foi
usado pela maioria dos autores que publicaram usando estas tcnicas, tinha um erro
(Oksanen e Minchin 1997). Isto preocupante e ilustra porque importante analisar
criticamente os resultados de anlises multivariadas em relao aos dados originais, antes
de depositar muita f neles.
Para anlises em um nico plano (duas dimenses), DeAth (1999) mostrou que
usar anlises de curvas principais (Principal Curves Analysis) para suavizar os resultados
obtidos por outras tcnicas de ordenao, pode recuperar melhor os gradientes
ecolgicos. Entretanto, isto vai muito alm do escopo deste livro introdutrio.
A relao aparente entre as variveis originais e os eixos derivados raramente
simples, para quaisquer das anlises. As aparentes relaes geomtricas s so reais se
uma medida geomtrica foi usada, como a distncia euclidiana, se as variveis no foram
transformadas e se todas as variveis so realmente mensurveis na mesma escala. Se
variveis ambientais como pH, temperatura, condutividade, velocidade da gua e
granulometria do sedimento foram usadas, ridculo inferir que todos estes atributos
podem ser combinados geometricamente em qualquer sentido. Mesmo densidades de
plantas no so comparveis, a no ser entre espcies de forma de vida e tamanhos
similares. Combinar nmeros de gramneas, arbustos e rvores to esotrico quanto
combinar temperatura e velocidade da gua.
A despeito das diferenas metodolgicas e bases conceituais, o padro capturado
pela ordenao MDS (figura 66) e os dois primeiros eixos da PCA (figura 67) foram
similares.

111

Figura 67

COMPONENTE 2

b
B

1
B

B
B
B

-1
-2
-2

-1
0
1
COMPONENTE 1

-2

-1
0
1
COMPONENTE 1

Se o padro nos dados for muito forte e causado por poucos gradientes, todos os
mtodos comumente usados fornecero resultados semelhantes. Entretanto, as diferenas
podem ser importantes. No recomendaramos as anlises apresentadas acima para os
dados da tabela 13. Sabemos que outras medidas de associao e/ou transformaes
sero mais apropriados para a maioria dos estudos ecolgicos. Ns apresentamos estes
mtodos apenas por motivos didticos, como uma introduo simplificada das tcnicas. A
nica maneira de se escolher o melhor mtodo para uma determinada situao
considerar o provvel padro que o gradiente ecolgico ir impingir aos dados (p.ex.
Kenckel e Orloci 1986). Se o leitor no for capaz de desenhar um grfico hipottico ou
tabela que ilustre os padres que podem estar nos dados, no deve proceder o prximo
passo e procurar por padres. Gauch publicou um livro de grande lucidez sobre tcnicas
multivariadas, em 1982. A maioria de sua discusso sobre a tcnica de ordenao
apropriada est ultrapassada e suas recomendaes diferem de muitas que fizemos aqui.
Entretanto, sua discusso dos usos das tcnicas multivariadas e dos padres em tabelas
de dados so to atuais quanto eram vinte anos atrs. Seu captulo introdutrio ainda
um dos melhores apanhados das tcnicas multivariadas na ecologia e deve nortear
qualquer curso de tcnicas multivariadas para eclogos.
Nenhuma tcnica adequada para todos os propsitos. Por exemplo, AzevedoRamos et al. (1999) usaram MDS e a associao Bray-Curtis para ordenar uma
comunidade de girinos. No mesmo trabalho, usaram MDS com a medida de associao de
Gower para ordenar a comunidade de predadores de girinos e PCA para ordenar as
variveis ambientais. Cada uma foi escolhida para refletir um tipo diferente de padro.
Entretanto, no podemos entrar em detalhes agora sem perder de vista os conceitos
gerais que vamos precisar para considerar outros mtodos multivariados.

A fora da cultura: testes de significncia


Agora que j tm alguma idia de o que as "dimenses" so em relao aos seus
dados (talvez "eixos fantasmas" seja um termo mais descritivo), podemos retornar a
algumas tcnicas de ordenao diretas, que usualmente so usadas apenas para avaliar a
"significncia" de gradientes conhecidos. A mais geral a "anlise de correlao
cannica". Considere a seguinte equao:
112

Y1,Y2,Y3,...Yi = a + b1*X1+ b2*X2+..... bi*Xi


A anlise pergunta se h uma combinao linear de variveis do lado esquerdo da
igualdade que pode ser explicada por uma combinao linear das variveis do lado direito.
Notem nossa nfase em linear. Se a estrutura dos dados do lado esquerdo no pode ser
capturada por PCA, no deveramos usar a tcnica de anlise de correlao cannica. H
muitos testes estatsticos multivariados e cada qual tem diferentes premissas. Em todo o
caso, a interpretao de um resultado "significativo" no to fcil, porque ele pode ter
aparecido devido a uma nica varivel ou a uma combinao de variveis. Mesmo que
encontremos algo "significativo", ainda ser necessrio muita explorao de dados para
descobrir o que aconteceu. Provavelmente, por isso que to raro encontrar correlao
cannica sendo usada na literatura ecolgica.
Quanto aos nossos dados, onde temos apenas uma varivel explanatria, as trs
est
-Lawley
Trace) rejeitam a hiptese nula de ausncia de efeito de precipitao a P=0,070.
Havamos perguntado o quanto a precipitao explicou a variao das variveis
dependentes. Entretanto, uma questo diferente, mas igualmente vlida, seria "a
precipitao explica o padro mais forte nas variveis dependentes"? Sabemos que h
apenas um gradiente direcionando estes dados, mas os leitores no sabero isto com seus
dados de campo. Assumindo que os dois eixos MDS so a melhor representao do
padro mais forte nas variveis dependentes, podemos fazer uma anlise de correlao
cannica sobre as duas variveis MDS. Isto rejeita a hiptese nula de ausncia de efeito
de chuva a P=0,023.
Ambas as questes foram vlidas, mas a diferena importante. A segunda
questo, que perguntou apenas sobre o efeito de chuva sobre o padro mais marcante foi
mais poderosa. Geralmente isto acontece. Por se usar uma ordenao indireta para
reduzir a dimensionalidade, pudemos nos focar no padro ao invs de na variabilidade
total e fomos mais capazes de identificar um efeito. Isto no aconteceu devido ao MDS ser
mais hbil em manipular relaes no-lineares do que as anlises de "eigen". Se
aplicarmos a correlao cannica sobre os dois primeiros eixos da PCA, rejeitaramos a
hiptese nula a P=0,027. Gauch (1982a,b) chamou este processo de "reduo de rudo
por ordenao de vetores de eigen", mas nossa ordenao MDS (que no usa vetores de
"eigen") tambm foi efetiva. Lembrem-se que muito da variabilidade no explicada pode
ser devido tentativa de ajustar um modelo imprprio, ao invs de apenas resultado de
"rudo" aleatrio (kland 1999).
Ns sinceramente esperamos que os leitores estejam se perguntando porque
categorizamos uma varivel contnua nas figuras 66b e 67b. Com certeza no
recomendamos que se faa isto com freqncia, embora em alguns casos possa ser til
para revelar rapidamente padres em grficos tridimensionais, como os das figuras 66 e
67, especialmente quando seus leitores no dispuserem de muito tempo, como no caso de
apresentaes em seminrios. Apenas para prpositos de ilustrao, vamos assumir que
os nveis de precipitao baixa e alta sejam realmente categricos e aplicar uma anlise
multivariada anloga ANOVA, usando estes nveis. Todas as precaues exigidas para a
ANOVA se aplicam para a "anlise de varincia multivariada" (MANOVA). Na verdade, ela
apenas um caso especial da anlise de correlao cannica, que usa variveis substitutas
(dummy variables) para codificar as categorias.
H muitas estatsticas que podem ser usadas para avaliar a significncia de
MANOVA, mas simulaes indicam que uma delas denominada "Pillai trace" a mais
robusta a violaes das premissas (Olson 1976, Johnson e Field 1993). Um teste noparamtrico anlogo a MANOVA, que usa aleatorizao para gerar valores de
113

probabilidade (Anderson 2001) pode ser o mais apropriado em muitas situaes.


Aplicando MANOVA em nosso exemplo, rejeitamos a hiptese nula de ausncia de efeito
dos nveis alto e baixo sobre combinaes lineares das variveis dependentes a P=0,021.
De novo, se perguntssemos apenas a respeito dos maiores padres e usssemos a
MANOVA para testar o efeito dos dois nveis de precipitao sobre os eixos MDS (Johnson
e Field 1993), teramos um teste mais poderoso e rejeitaramos a hiptese nula a
P=0,002.
H vrios testes para examinar os efeitos de variveis contnuas e categricas que
operam diretamente sobre a matriz de associao (lembrem-se que nossa matriz de
associao encontra-se na tabela 14). Estes testes so derivados do teste de Mantel
(Mantel e Varland 1970), que um teste de permutao similar em seus princpios ao
nosso teste de DIF (captulo 5). Eles usam mais informao do que existe nos eixos de
ordenao, e quando h apenas um gradiente sendo testado, podem ser mais poderosos
para detectar os gradientes conhecidos. Em nosso exemplo, testes de permutao para
um efeito de precipitao como uma varivel contnua ou como varivel categrica com
dois nveis, rejeitam a hiptese nula a P<0,001 e P=0,006, respectivamente. Entretanto,
quando a varivel categrica apresenta mais de dois nveis (p. ex. Luo e Fox 1996), ou h
mais que uma varivel independente (Anderson e Legendre 1999) eles, algumas vezes,
tm menos poder do que as anlises dos padres derivados por ordenao indireta.
Observem que a tcnica recomendada por Smouse et al. (1986) provavelmente tem um
erro do tipo I inaceitavelmente alto (Anderson e Legendre 1999).
Peres-Neto and Jackson (2001) descrreverem uma teste baseada em sobreposio
de Procrustes que potentialmente usa todas as distncias originais, e que mais poderosa
que o teste do Mantel. No entanto, Peres-Neto e Jackson (2001) usaram a tcnica depois
de reduzir a dimensionalidade por ordenao. Neste caso, somente os padres maiores
seriam investigados e a tcnica produziria resultados semelhantes os de algumas das
tcnicas que so descritas a seguir.
Como em outras anlises de gradientes diretos, os testes de permutao
perguntam se h alguma associao, e no se os fatores contribuem para os maiores
padres. Eles tambm tm a deficincia de s testar por padres nos dados que esto
associados com a(s) varivel(eis) dependente(s) e no descrevem o padro. Entretanto,
extenses do conceito para detectar padres espaciais podem ser muito teis (p. ex.
Fortin e Gurevitch 1993, Legendre 1993, Sawada 1999). Como em outras tcnicas
estatsticas, estes testes tm uso limitado para refinar nossos modelos biolgicos, se os
usarmos apenas para gerar valores de probabilidade. Eles testam as hipteses, mas no
fornecem uma indicao real do porqu elas so rejeitadas ou no.
Um mtodo aparentemente atraente de anlise de gradientes diretos a Anlise de
Correspondncia Cannica (CCA), que coloca os objetos, atributos e as variveis preditivas
todos em um mesmo grfico (ter Braak 1986). Ela parece fazer tudo que desejamos.
Entretanto, h duas maneiras diferentes de se usar esta anlise (MacCune 1997). Se o
leitor us-la como uma anlise direta de gradiente, ela ignorar os principais padres que
no estiverem associados com gradientes esperados, que poderiam ser encontrados por
anlises indiretas de gradiente (kland, 1996). Se a usarmos em sua forma original, na
verdade ser apenas uma anlise indireta de gradiente seguida de um teste de associao
das variveis independentes ("ambientais") com os gradientes derivados (MacCune 1997).
No pense em usar esta tcnica, a no ser que seja um estatstico muito competente. De
qualquer forma, certifique-se de que esteja usando uma verso corrigida do programa
(Oksanen e Minchin 1997).
Uma tcnica estreitamente relacionada ao CCA a "Anlise de Redundncia" (RA)
(Legendre e Legendre 1998). Legendre e Anderson (1999) transformaram distncias no114

mtricas para faz-las mtricas e empregaram anlise de redundncia em um desenho


fatorial, para relacionar variveis independentes ao eixos PCoA. A anlise de redundncia
um mtodo de atribuir uma varincia nica que similar ao princpio de alocao de
varincias que consideramos nos captulos anteriores. Em seguida, eles avaliaram a
significncia das estatsticas com testes de permutao. Esta abordagem permite testes
para interaes em uma situao experimental e em princpio similar ao uso de PCA
para produzir variveis lineares aditivas para anlise de regresso (p. ex. Short et al.
1983), exceto que a ordenao da varivel dependente constrangida pelas variveis
independentes.
Embora a anlise produza um eixo PCoA a menos do que o nmero de objetos,
independentemente do nmero de atributos, ela no usada primariamente para reduzir
o nmero de dimenses. Ao contrrio, ela pode ser considerada uma transformao para
produzir variveis que preenchem as premissas da anlise de alocao de varincias.
Legendre e Anderson (1999) fornecem exemplos que ilustram como a tcnica permite
interpretaes das interaes bem como dos principais efeitos que so observados em
uma anlise indireta de gradiente (MDS).
Legendre and Gallagher (2001) mostraram como transformaes dos dados
originais permitem muitas medidas de distncias a serem representadas por distncias
euclideanas, aumentando consideravelmente as possibilidades para analises baseadas em
PCA ou Redundncia.
Mot et al. (1998) lanaram mo de matemtica ainda mais complicada para
repartir variao espacial e ambiental. Entretanto, preciso extremo cuidado quando
variveis fantasmas vo substituir variveis reais (Johnson e Field 1993). Pode ser muito
difcil determinar o que realmente mudou. Lembrem-se que outro conjunto de dados
coletado do mesmo sistema poder gerar eixos diferentes, no importa qual tcnica seja
usada. Se o leitor tiver a sorte de dispor de muitas observaes independentes, pode
decidir dividir seus dados em um subconjunto de explorao e outro de validao (p. ex.
Hallgren et al. 1999).
Recentemente, alguns pesquisadores vm propondo alocar varincias partir da
matriz de distncias, sem correes ou anlises de eigen (McArdle and Anderson 2001),
ou aloc-las diretamente do espao multidimensional das variveis originais (Anderson
2001), mas estas tcnicas so muito complexas para serem tratadas aqui.
Ao fazer inferncias sobre as variveis produzidas a partir de tcnicas multivariadas,
o pesquisador que no for cauteloso estar apenas substituindo inferncias fracas sobre
variveis fortes por inferncias fortes sobre variveis fracas. A interpretao destas
anlises uma arte. Portanto, se o leitor no estiver se sentindo especialmente artstico
aps ler os pargrafos anteriores, no use estas tcnicas.

Discriminando entre grupos


Uma outra tcnica para testar gradientes diretos a "Anlise de Funo
Discriminante" (DFA). Este mtodo estreitamente relacionado MANOVA, e tenta
determinar a combinao linear de variveis que melhor discriminam entre dois ou mais
grupos. Ela tem todas as premissas usuais (Williams 1983), e a maioria dos estudos
ecolgicos publicados com esta anlise tiveram tamanhos amostrais inadequados
(Williams e Titus 1988). DFA pode ser usada para produzir grficos que se assemelham
aos obtidos por ordenao indireta. Entretanto, estes grficos tm uma interpretao
muito diferente (Manly 1997). Vamos ilustrar isto com nossos dados da tabela 13,
estabelecendo 3 grupos em relao precipitao; baixa (B) quando for menor ou igual a
115

190mm; mdia (M), quando estiver compreendida ente 191 e 260 mm; e alta (A), quando
a precipitao for maior ou igual a 261mm . Agora vamos aplicar a anlise discriminante e
ver se ela consegue discriminar os objetos (locais) em funo de seus atributos
(vegetao) (figura 68a).

Figura 68
4

ESCORE(2)

B
B

2
1
0
-1
-2

A
A
A
A

B
M
M
M
M

B
A

M
M
M

B
B

-3
-5 -4 -3 -2 -1 0 1 2 3
ESCORE(1)

-5 -4 -3 -2 -1 0 1 2 3
ESCORE(1)

A separao em baixa, mdia e alta precipitao parece razovel e o programa


informa que classificou corretamente todos os locais e fornece as equaes que alocam os
objetos nas categorias, baseado em seus atributos. Entretanto, observe que o grfico da
figura 68a no equivalente s ordenaes indiretas nas quais a varivel independente
no foi usada para posicionar os locais. A figura 68b mostra a mesma anlise com os
dados de espcies substitudos por dados produzidos por um gerador de nmeros
aleatrios. A separao parece at melhor e o programa classificou corretamente todos os
locais com relao s categorias de "precipitao". A anlise sempre encontra
combinaes lineares das variveis para separar as categorias, especialmente se o nmero
de observaes pequeno, o que tpico de experimentos ecolgicos (Williams e Titus
1988). No deposite confiana em equaes para separar categorias que foram geradas
por DFA, a menos que elas tenham sido validadas por um conjunto independente de
dados, ou pelo menos por um procedimento Jackknife (Manel et al. 1999).

Categorias que crescem em rvores


Algumas vezes, a associao entre objetos melhor apreciada como distncias ao
longo de ramos de uma rvore. O exemplo mais comum o de relacionamentos
filogenticos. A maioria das hipteses modernas sobre filogenia so baseadas em anlises
cladistas e estas esto longe de serem simples. Os atributos so ordenados lgica ou
estatisticamente, de forma que as distncias entre as taxa so baseadas apenas no que se
acredita serem caractersticas derivadas compartilhadas (sinapomorfismos). Se acharam
os conceitos de matrizes de associao e vrias medidas potenciais de distncias
ecolgicas complicadas, ento se preparem para o que vem com as anlises cladsticas.
Este um campo enorme e complexo, e no cabe em nosso texto resumido. Entretanto,
os leitores podem ser forados a fazer uso da literatura desta rea, especialmente se
116

tiverem problemas com pseudorepeties filogenticas (captulo 5). Aqui vamos considerar
apenas diagramas (dendogramas) que so baseados em simples distncias ecolgicas,
como as usadas em anlises de ordenao.
rvores podem ser construdas em forma de chaves dicotmicas e existem alguns
programas de computador para automatizar este processo (p. ex. TWINSPAN). Entretanto,
a maioria das anlises usa uma matriz de associao como a da tabela 14 para determinar
as distncias entre os objetos e entre as bifurcaes (ns) das rvores. O processo pode
ser aglomerativo, adicionando-se objetos um por vez para formar grupos, ou divisivo,
separando as espcies hierarquicamente em subgrupos, at que cada subgrupo se
constitua de apenas uma espcie ou objeto. Os membros do grupo podem ser definidos
pela distncia ao centro do grupo, a distncia ao membro mais prximo, a distncia ao
ltimo membro, e ainda de outras maneiras. Novamente, estamos procurando por
padres na matriz de dados, e no faz sentido procurar por estes padres a no ser que
possamos imaginar como eles deveriam aparecer em uma matriz de dados hipotticos.
A escolha da tcnica de agrupamento provavelmente mais difcil do que a escolha
entre as tcnicas de ordenao, e s pode ser feita baseando-se na estrutura esperada
dos dados. A opo de tentativa e erro inaceitvel. Se usarmos todas as combinaes
possveis de medidas de distncias e tcnicas de agrupamento, quase garantido que
poderemos produzir um "cluster" que se conforme a qualquer hiptese ecolgica que
formulemos. Portanto, ficar pescando entre as diferentes tcnicas usar a estatstica de
um modo inadequado.
Alguns pesquisadores recomendam que as tcnicas de agrupamento sejam usadas
junto com tcnicas de ordenao para uma anlise preliminar dos dados (p. ex.Gauch
1982a, Belbin 1992). Isto apropriado se o leitor pretende permitir que o computador
gere hipteses por si, mas isto raramente eficiente. As rvores geradas por anlises de
agrupamento (cluster analysis) parecem ser em duas dimenses, mas isto ilusrio. Eles
representam mbiles, que podem ser girados em qualquer ngulo em cada n. Eles tm
um grande apelo sobre ns, porque parecem categorizar o mundo, e geralmente nos
sentimos mais confortveis com categorias do que com variveis contnuas mais realistas
(captulo7). As anlises de ordenao podem revelar agrupamentos (clusters) porque
estes so formados por gradientes abruptos. Entretanto, as anlises de agrupamento so
freqentemente ineficientes em revelar gradientes suaves.
As analises de agrupamento s percebem agrupamentos de certos formatos no
espao multivariado. Vamos ilustrar isto com dados de medidas biomtricas dos
estudantes de nosso curso de estatstica. As variveis medidas foram os dimetros da
cabea, pescoo, peito, cintura, quadril e comprimento da perna. As anlises de
agrupamento so anlises indiretas, mas s podemos avali-las se usarmos dados com
gradientes conhecidos. A experincia nos ensina que as categorias "homem" (H) e
"mulher" (M) diferem em forma, portanto vamos usar anlises de ordenao e
agrupamento para verificar o quanto podemos identificar esta diferena. A anlise de
agrupamento misturou as cinco mulheres com os homens (figura 69). As mulheres
tenderam a ser consideradas muito diferentes umas das outras (distncias longas ao longo
dos "galhos" do dendograma) e ocorreram em todos os cinco principais agrupamentos
diferentes (ns acima de 0,10). Baseado nesta anlise, provavelmente descartaramos a
hiptese de que o sexo afeta a forma das pessoas.

117

Figura 69
M
M
F
M
M
M
M
M
M
M
F
M
F
F
F

0.00

0.05 0.10 0.15


Distncias

Antes do agrupamento, fizemos uma transformao para padronizar os dados,


dividindo o valor de cada medida (atributo) pela soma de todas as medidas para cada
estudante, porque estvamos interessados em descobrir o quanto a anlise poderia
detectar as diferenas na forma devido ao sexo. Se no tivssemos padronizado, a anlise
poderia ter capturado diferenas simplesmente devido ao tamanho dos objetos
(estudantes), j que nesta anlise, como em todas as outras anlises multivariadas, as
transformaes de dados mudam a questo que est sendo respondida. Usando a mesma
transformao e a mesma medida de distncia, uma anlise MDS bidimensional produziu
um padro que claramente diferenciou homens de mulheres em relao forma, muito
embora alguns indivduos estejam mais perto do sexo oposto do que do prprio sexo
(figura 70).
A anlise de gradiente (variveis contnuas) pode detectar melhor o padro do que
a anlise que tentou criar categorias, ainda que o padro que estivssemos procurando
pudesse ser descrito por categorias. Todas as distncias comumente empregadas e as
tcnicas de agrupamento e de ordenao fornecem resultados qualitativamente similares
para este exemplo. O fato de a varivel categrica "sexo" no poder explicar em detalhes
as diferenas entre nossos objetos (estudantes) poderia nos levar a procurar por variveis
contnuas, como nvel de hormnios ou idade, que poderiam ser melhores preditores das
diferenas entre os estudantes.
Se o leitor desejar determinar o nmero de agrupamentos apropriados para um
conjunto de dados, precisar conhecer muito sobre a estrutura dos dados (Milligan e
Cooper 1985, Dale 1988). Se decidir que pode prever a forma de seus agrupamentos a
priori, e portanto selecionar um algortmo de agrupamento apropriado, pode usar tcnicas
de "bootstrap" para ajudar a identificar o nmero de agrupamentos naturais (Pillar 1999).
Se quiser decidir simultaneamente o melhor nmero de agrupamentos e estimar os
parmetros que descrevem estes agrupamentos, considere o uso do "agrupamento de
mensagem de menor comprimento" (minimum message length clustering), uma tcnica
emprestada da teoria de informao (alguns diriam Bayesiana) que parece ser promissora
(Wallace e Dowe 2000).

118

Figura 70

DIMENSO 2

1.5

0.5

MM
M

M
F

-0.5

F
F
F

-1.5
-1.5

-0.5
0.5
DIMENSO 1

1.5

Selecionando variveis
As anlises multivariadas compartilham com as anlises mais simples a dificuldade
na seleo de variveis. Os estudantes freqentemente usam os mesmos critrios
sugeridos para a seleo de variveis em regresso mltipla. Normalmente eles excluem
as variveis que so altamente correlacionadas com as outras, o que ilgico para
anlises multivariadas. Lembrem-se que estas anlises esto buscando por associaes
que se repetem entre variveis e que Gauch (1982a) chamou de "associaes de variao
coordenada". Variveis que carregam a mesma informao so, em algum sentido,
redundantes e da vem o termo "anlise de redundncia" empregado para denominar
algumas tcnicas multivariadas. So essas associaes que formam o padro nos dados.
Se selecionarmos as variveis de modo a reduzir as associaes, os principais
padres ficaro fora de nossos dados, e as anlises s podero captar padres
secundrios. Por outro lado, freqentemente algumas variveis representam a mesma
coisa medida de formas diferentes. Este problema chamado "aliasing" (Mac Nally 1994)
e dependendo de sua associao, os "aliases" podem mascarar ou realar padres.
Considere a questo a respeito dos principais padres nas caractersticas de riachos. Se
incluirmos concentrao de clcio, pH, condutividade eltrica e profundidade, o maior
padro, e portanto a dimenso mais importante (ou "eixo", ou "varivel fantasma") seria
associado com a qumica das guas. Se incluirmos um grande nmero de variveis que
representam as dimenses fsicas do riacho, como largura, rea da seo transversal,
descarga, distncia do mar e rea do espelho livre de vegetao, poderamos mudar o
maior eixo para um que representasse variveis fsicas. Em outras palavras, o leitor pode
criar qualquer padro que queira, pela escolha minuciosa das variveis. A seleo de
variveis dependentes deve ser feita segundo critrios que sejam independentes de
qualquer varivel externa (independente) que ser examinada, ou as inferncias obtidas
no tero significado.
Muitos ndices ecolgicos podem ser matematicamente tratados como se fossem
univariados. Entretanto, eles so essencialmente multivariados (compostos de muitas
variveis dependentes) e sua interpretao complexa, da mesma forma que qualquer
119

estatstica multivariada. Os exemplos incluem biomassa, riqueza de espcies, diversidade e


produtividade. Todos estes so gerados por um nmero de outras variveis e considerlas como unidades pode levar-nos a concluses ilgicas. Por exemplo, dois locais podem
ter riquezas de mamferos idnticas. Um possui apenas espcies de roedores murdeos,
enquanto outro possui roedores, ungulados, carnvoros e primatas. Poucas pessoas
considerariam-nas como sendo igualmente diversas.
Alternativamente, o objetivo de um estudo poderia ser o aumento da diversidade
de mamferos em uma reserva. Na reserva ocorrem 100 antas, 100 queixadas, 50
capivaras, 50 pacas, 50 cutias e duas onas pintadas. As onas reduzem mais as
densidades de cutias, pacas e capivaras do que de presas mais difceis como antas e
queixadas. Sem as onas, poderia haver 60 capivaras, 60 pacas e 60 cutias, e as
densidades de antas e queixadas se reduziriam para 85 cada, tanto em termos absolutos
(via competio) ou estatisticamente (porque suas densidades relativas cairam, devido ao
aumento da densidade de outras presas, um efeito que seria percebido, mesmo que o
nmero absoluto de antas e queixadas permanecesse constante). Portanto, fica claro que
a maneira mais econmica de aumentar a diversidade de mamferos na reserva caar as
onas. A reserva originalmente possui uma diversidade medida pelo ndice "H" de
Shannon igual a 1,58. Com a perda de uma espcie e dois indivduos, o ndice passa para
H=1,59, marginalmente maior. A perda de uma espcie compensada pelo aumento da
equitabilidade das espcies remanescentes. claro que isto no o que passa na cabea
da maioria das pessoas quando esto falando em aumentar a diversidade biolgica.
Estejam alertas quanto a interpretao simples de estatsticas multivariadas,
mesmo quando vm mascaradas como se fossem medidas univariadas. Assim como para
outras estatsticas multivariadas, precisamos estar certos do que elas representam em
termos das variveis originais, para podermos us-las com sabedoria.

Saber o que queremos antes de comear


Isto termina nosso passeio breve e superficial nas tcnicas multivariadas. Os
grficos, diagramas e valores de probabilidade associados com anlises multivariadas so
fceis de ser gerados nos modernos programas de computadores. Entretanto, esperamos
que este breve apanhado tenha mostrado que a interpretao destes resultados difcil e
dependente de decises feitas durante o exame de grficos ou tabelas dos dados
originais. Algumas vezes, podemos responder questes apenas olhando as tabelas, se elas
foram organizadas de forma apropriada (Ehrenberg 1981).
Decidir se queremos saber se variveis externas causam algum padro ou causam
os principais padres nos dados muito importante (kland, 1996). Os pesquisadores
parecem entender isto para as questes univariadas. Por exemplo, qualquer um reconhece
a diferena entre as seguintes afirmativas: (1) os predadores so a causa dos padres
cclicos observados em determinadas populaes de roedores. Isto estabelece que os
predadores causam o maior padro. (2) Os predadores tm algum efeito sobre o padro
de flutuao em nmero da populao dos roedores. Isto estabelece que os predadores
causam algum padro, mas no necessariamente o mais conspcuo. Entretanto, poucos
pesquisadores parecem entender esta diferena em anlises multivariadas.
No uma questo de gerar hipteses em oposio a testar hipteses. Se um
pesquisador precisa de um computador para gerar hipteses por si, no deveria estar
fazendo cincia. Uma classe de questes requer anlise de gradientes indiretos para
detectar os principais padres antes de se testar qualquer coisa. Isto pode ser considerado
como uma suavizao multivariada dos dados (DeAth 1999). Uma outra classe de
120

questes envolve anlise de gradientes indiretos e no se preocupa se os padres que


emergirem so ou no os principais naquele sistema biolgico (kland, 1996).
Muitas questes multivariadas podem ser respondidas simplesmente por uma
matriz de grficos de disperso (cada varivel exibida contra as demais) (Basford e Tukey
1999). Antes de aplicar estatsticas mais complicadas, certifique-se de que pode criar seus
prprios gradientes hipotticos. Comece com programas como COMPAS (Minchin 1987)
para ter certeza de que compreendeu os fatores bsicos que criam (ou escondem)
padres nos dados.
Inferncias carregadas de significado freqentemente podem ser feitas sem o uso
de tcnicas complicadas, simplesmente rearranjando a ordem dos atributos e objetos nas
tabelas (Braun-Blanquet 1932, Gauch 1982). Exercite as tcnicas em dados simulados
para se certificar que elas detectam os padres nos quais est interessado. Se achar que
construir gradientes uma tarefa difcil, provavelmente ainda no est preparado para
encontr-los. Neste caso, deveria incluir um pesquisador experiente nesta rea em seu
grupo integrado de pesquisa, desde o momento da elaborao dos desenhos amostrais .

121

Captulo 13:
Dicas para professores
Embora sejamos cticos de que muitos leitores usaro este livro sem ter feito
nossos cursos, ns o escrevemos para que fosse suficiente por si s. Isto significou abrir
mo dos exerccios prticos que submetemos aos nossos estudantes e realizar uma ligeira
mudana na ordem em que apresentamos o contedo. Entretanto, os estudantes
aprendem pouco com as coisas corretas que so ditas a eles, mas aprendem muito com
seus prprios erros. Nosso curso funciona porque quase todo o tempo gasto em induzir
os estudantes a cometerem erros. No se trata de "fazer a coisa certa". Trata-se
justamente de fazer errado, de modo que quando os estudantes estiverem l fora,
sabero que podem aprender com seus prprios erros. Ns aprendemos com nossos erros
e isto levou uns 20 anos. Este curso condensa 20 anos de desacertos em um curso de 2
semanas. Portanto, os estudantes faro muito melhor se revelarem os equvocos de seu
prprio trabalho neste curto espao de tempo. Eles precisam desenvolver uma intuio a
respeito dos procedimentos amostrais e estatsticos, ao invs de apenas memorizar
frmulas e mtodos. Muita repetio faz qualquer texto ficar entediante. Entretanto, a
repetio dos mesmos conceitos, sob diferentes situaes e exemplos diferentes, vital
em sala de aula. Na primeira aula, os estudantes no absorvem conceitos novos, no
importa quo simples eles sejam. Portanto, essencial que cada nvel novo de
complexidade seja construdo sobre os conceitos desenvolvidos na lio anterior.
No recomendamos que este livro seja entregue aos estudantes no comeo do
curso. Preferivelmente, cada captulo deveria ser fornecido aps a lio, ou o livro poderia
ser dado ao final do curso, de forma que os estudantes pudessem fazer uma reviso dos
conceitos. Se o livro for dado no comeo do curso, os estudantes podero ler adiante e
no se concentrarem nos exerccios, porque acreditaro que j conhecem os conceitos.
No suficiente que eles conheam os conceitos. Este curso, para ser efetivo, precisa
fazer com que os estudantes sintam os conceitos no estmago (Magnussson 1977).
Apenas a tabela 15 deveria ser distribuda precocemente, de modo que os estudantes
pudessem acompanhar seu progresso atravs dos conceitos. O professor tambm pode
usar estes conceitos para exames relmpagos no incio de cada lio. Neste captulo,
mostraremos como o livro se encaixa no esquema do curso e vamos fornecer detalhes de
alguns exerccios que descobrimos ser teis para ensinar conceitos. Cada aula deve durar
cerca de trs horas e o curso requer em torno de 20 aulas.
Acreditamos que um curso de estatstica deve ensinar tanto tcnicas exploratrias
quanto de testes de hipteses (Tukey 1980). Os cursos deveriam tambm ensinar aos
alunos tirar concluses ao invs de apenas decises (Tukey 1960). Principalmente em
cursos para a graduao, que no tm o carter remediador dos cursos de ps-graduao,
seria proveitoso ensinar as tcnicas mais importantes sem usar nenhuma matemtica
(Magnusson 1997). Lembrem-se que h muitas formas de inteligncia e a facilidade com a
matemtica apenas uma delas, e ainda que o desenvolvimento de uma forma de
inteligncia no indicao da capacidade de um indivduo ser bem sucedido (Goleman
1995). Wilkinson (1999) sumarizou as opinies de um grupo de psiclogos e estatsticos
emritos sobre quais os conceitos mais importantes que se aplicam a todas as anlises
estatsticas. Estes conceitos poderiam formar a base para um curso de estatstica nvel
de graduao ou de ps-graduao. Nosso curso repetitivo. Os conceitos no mudam.
Eles apenas se expandem ou tornam-se mais claros. O curso tem apenas dois objetivos
principais. O primeiro mostrar o que os valores de P (probabilidade) to espalhados pela
122

literatura cientfica significam. O segundo mostrar que os seres humanos geralmente s


podem visualizar informaes em duas dimenses (marginalmente trs, quando pelo
menos uma das dimenses for categrica), e que a funo primria das anlises
estatsticas aparentemente mais complexas reduzir a dimensionalidade, de modo que as
questes formuladas em muitas dimenses possam ser respondidas por grficos em duas
dimenses. Isto , a estatstica deve simplificar, e no complicar, a interpretao
biolgica.
A taxa de apresentao da matria muito importante. Como Tukey (1960) frisou
"devemos educar o cliente em uma velocidade apropriada, nem muito rpida, nem muito
vagarosamente". Se sentir que esgotou a matria em uma aula de trs horas em quinze
minutos, tem duas escolhas. Pode dar aos estudantes duas horas e quarenta e cinco
minutos de prticas, nas quais eles devero exercitar os conceitos que acabaram de ser
ministrados, ou pode abandonar o curso e mandar seus alunos lerem o livro. A experincia
nos sugere que o aumento na taxa de aprendizado exponencial e que os estudantes so
capazes de incorporar novas informaes numa taxa fenomenal no final do curso.
Entretanto, qualquer tentativa de aumentar o ritmo no incio do curso vai resultar em
estudantes decorando, mas no internalizando os conceitos. Por internalizar, entendemos
desenvolver uma sensao em relao aos conceitos que no requer palavras e no
obscurecida por elas.
No fique tentado a incluir muita informao ou discutir todas as premissas a
respeito das anlises. Este um curso bsico. Antes dos estudantes usarem as tcnicas,
eles precisaro (a) ler a literatura, (b) ler alguns textos de estatstica, (c) ler o manual do
programa de computador, (d) brincar com alguns de seus dados e, mais importante (e)
fazer um monte de grficos. Esta a forma como os pesquisadores aprendem uma
tcnica nova. Pode distribuir a seus alunos muitas referncias onde eles possam descobrir
os detalhes quando, e apenas quando, precisarem deles. Uma boa introduo dos
conceitos matemticos das tcnicas convencionais, escrita em portugus, pode ser
encontrada no captulo 1 de Abuabara e Petrere (1997). Os nicos conceitos que eles
precisam ter incorporado ao final do curso esto listados na tabela 15 (Magnusson 1977).
No regurgite os exemplos usados no livro. Substita-os por exemplos usando as
variveis nas quais seus alunos esto interessados. Nossa experincia indica que eles
aprendem estatstica mais prontamente quando os professores fazem freqentes
incurses em suas experincias e na biologia em geral. Isto ajuda-os a se manterem
focados no porque esto usando aquelas anlises. Se no consegue pensar exemplos em
alguns dos principais campos da ecologia, provavelmente porque tem mais experincia
em estatstica do que em ecologia e deveria considerar uma interao mais efetiva com
bilogos de campo, antes de se aventurar a ministrar cursos de desenho experimental
focados em ecologia. Os conceitos fundamentais da relevncia das questes e
independncia das observaes so biolgicos e no podem ser apresentados por algum
que tenha uma cabea exclusivamente matemtica. So estes conceitos que levam os
bilogos enxergarem o potencial e a limitao da estatstica para a biologia. Se voc um
estatstico e est sendo coagido a ministrar um curso de estatstica para estudantes de
ecologia, recuse-se a faz-lo, at que tenha suficiente experincia em trabalhar com
pesquisadores deste campo, para saber as limitaes dos dados que podem ser coletados.
Esta recomendao no para diminuir o potencial de contribuio de estatsticos e
matemticos. Um dos grandes objetivos deste curso trazer os estudantes at um ponto
onde eles consigam entender a necessidade do aconselhamento de um estatstico.

123

Tabela 15
Conceitos que o estudante deve entender ao final do curso
e antes de comear a coletar seus prprios dados.
(1) No possivel provar nada, apenas "desprovar".
(2) No se pode testar uma hiptese com os mesmos dados que foram usados
para formul-la.
(3) As observaes usadas nos testes estatsticos devem ser independentes em
relao questo e coletadas na mesma escala da questo.
(4) As fontes de pseudorepetio (observaes que no so independentes em
relao questo) podem ser espaciais, temporais, filogenticas e tcnicas.
(5) A maioria das categorias ecolgicas so arbitrrias; a cincia avana mais
rpido quando os pesquisadores estudam variveis contnuas (ou pelos menos
ordinais).
(6) Se um grande nmero de variveis independentes ou dependentes forem
medidas e testes estatsticos independentes forem aplicados, isto resultar em
muitas "probabilidades" (na verdade, pseudoprobabilidades) baixas. Isto
confirma a teoria estatstica, mas no diz nada sobre ecologia.
(7) A premissa lgica de uma anlise estatstica com somente uma varivel
independente (de que nenhum outro fator afeta muito a varivel dependente)
mais restritiva do que as premissas das anlises com muitas variveis
independentes.
(8) Anlises estatsticas com apenas uma varivel independente so
normalmente triviais e podem ser substitudas por grficos de disperso.
(9) A determinao do nmero de amostras necessrias e como elas devem
estar distribudas uma questo biolgica, e o melhor mtodo de se avaliar o
nmero necessrio de observaes independentes avaliar grficos de disperso
hipotticos, construdos pelo pesquisador, com experincia na variabildade do
sistema.
(10) Se no h disponibilidade de informao a respeito da variabilidade nas
variveis a serem medidas, as seguintes regras usualmente funcionam para
dados ecolgicos: Para estimar o nmero de observaes independentes
necessrias quando todas as variveis forem contnuas (regresso mltipla ou
um GLM anlogo), multiplique o nmero de variveis independentes por 10.
Quando todas as variveis forem categricas e fixas, (ANOVA sensu strictu)
multiplique o nmero de nveis nos fatores e multiplique este nmero por quatro.
Para ANOVA com variveis aleatrias, use pelo menos 10 nveis diferentes para
cada varivel aleatria. Se houver uma mistura de variveis contnuas e
categricas (ANCOVA), some o nmero de nveis nas variveis categricas e
multiplique este nmero por 10.
(11) Variveis ecolgicas raramente exercem efeitos diretos. Freqentemente, os
efeitos indiretos so mais importantes do que os diretos e nesses casos, as
anlises de efeitos diretos (ANOVA, ANCOVA, regresso) podem ser engandoras.
Por isso, a definio de questes deve ser feita com relao a um fluxograma,
mesmo que nenhuma anlise formal do fluxograma seja usado no estudo.
importante que os estudantes no confundam computao (ou estatstica) com
delineamento amostral. Entretanto, a maioria dos exerccios requer o uso de um programa
124

de computador, empregado como uma ferramenta didtica, para o ensino de desenho


experimental e estatstica e no como um fim em si mesmo. Entretanto, a experincia nos
mostrou que um curso prvio de dois a trs dias no uso do programa evita que os alunos
confundam os problemas de computao com estatstica. Temos usado o pacote SYSTAT
e SPSS, mas outros pacotes como SAS podem ser efetivos. No caso dos alunos no serem
familiares com o pacote estatstico e no houver oportunidade para um curso
preparatrio, melhor dispor de notas detalhadas, fornecendo todos os comandos para
cada exerccio.
Aula 1, introduz o conceito de cincia como uma cultura, a importncia da
definio da questo e mostra como o delineamento amostral define a questo que pode
ser formulada. Esta aula precisa ser muito interativa. Se no evitar que os estudantes
assumam uma atitude passiva de apenas tomar notas agora, vai perd-los por completo.
Deixe-os um pouco inseguros, nervosos, enraivecidos faa-os sentir qualquer coisa,
desde que sintam alguma coisa. Hall (1959) apresentou exemplos de como nossa cultura
afeta nossas aes, muitas vezes inadvertidamente, e como a identidade cultural quase
onipresente em todas as nossas formas de comunicao, seja escrita, falada ou gestual.
Para trazer a tona que os estudantes absorveram algum jargo cultural, mas no
compreendem os conceitos, apresentamos um grfico como o da figura 13 e pedimos os
estudantes para marcar um desvio padro acima e abaixo da mdia. Antes do exerccio, a
maioria dir que j usaram, ou pelo menos compreendem o que um desvio padro.
Entretanto, poucos estudantes indicam a regio correta do grfico e quase nenhum saber
explicar porque marcaram aquele lugar. Usem bastante ironia aqui, para que eles
comecem a se sentir desconfortveis em aceitar um jargo cultural que no
compreendem. O exemplo do captulo 1 pode ser dado para que os estudantes resolvam a
mo, sem auxlio de computadores. Vai ajudar se dividir a classe em dois grupos, cada
grupo seguindo os transeces em uma direo. Se escolher grupos que competem
naturalmente, como homens e mulheres, ou graduandos e ps-graduandos, etc., ajudar
a deixar os estudantes convencidos de que a resposta de seu grupo a correta. Muito
tempo pode ser gasto em mostrar que os grficos de barra que a maioria dos estudantes
iro produzir escondem a maioria da informao (repeties) e as barras de "erros" que
alguns usaro no so interpretveis para a maioria dos colegas. Outro erro muito
freqente ser os estudantes colocarem "transeces" no eixo x, embora transeco no
seja uma varivel e simplesmente representa a unidade amostral. Finalmente, mostre
como um detalhe como a direo do transeco muda completamente a questo que pode
ser respondida.
Aula 2 lida com a filosofia Popperiana e pseudorepetio. baseada nas primeiras
pginas do captulo 5 (filosofia Popperiana) e captulo 4, nesta ordem. A finalidade desta
lio deslocar-nos do pessoal para o cientfico. Os exemplos devem ser to do dia-a-dia
quanto possvel. No apresente muitos exemplos de pseudorepetio espaciais, temporais,
filogenticas e tcnicas. Se o tempo permitir, pea aos estudantes para apresentar
exemplos de pseudorepeties em seu prprio trabalho. Mantenha a discusso em um
nvel simples. Lembre-se que eles ainda no tiveram o resto do curso e que no se
beneficiaro de sua cultura cientfica. Solicite que apresentem grficos conceituais
similares aos mostrados na figura 23, no captulo 4. Finalmente pea-os para ler Hurlbert
(1984) e Platt (1964).
Aula 3 sumarizada no captulo 3 e introduz os conceitos de populaes,
parmetros e estatsticas descritivas. Os estudantes devem ficar familiares com o conceito
de desvios para descreve variabilidade. O professor deve aprensentar vagarosamente os
conceitos em grficos como a figura 14, mostrando como cada distncia pode ser
125

representada por uma simples frmula matemtica. Se os estudantes no estiverem


dizendo coisas como "mas ento isto que um desvio padro (varincia, erro padro,
etc.)!", significa que est fazendo alguma coisa errada. Sempre pea aos alunos para
definir um termo, antes de dar sua definio. Isto muito importante para convenc-los
do quanto no sabem e despertar o interesse deles. Use estas questes para confrontar
comunicao de identidade cultural com comunicao de informao objetiva.
A maioria da aula 4 devotada a um "exerccio de campo". Pea aos estudantes
para descreverem o comprimento de folhas de espcies de plantas que ocorram no
campus, cada estudante investigando uma espcie diferente. Entretanto, pea para que
coletem 30 amostras de 5 folhas, ao invs de apenas uma amostra. Se ensinar aos alunos
como coletar uma amostra sem erros sistemticos, antes deles fazerem o exerccio, eles
no aprendero nada a respeito de delineamento amostral. Quando eles retornarem,
podem usar o computador para calcular 30 mdias e o desvio padro das mdias (= erro
padro). Este erro padro, baseado em 30 amostras, pode ser visto como muito prximo
do erro padro "verdadeiro" (o parme
desvio padro de todas as mdias baseadas em amostras de cinco elementos, que
possvel tirar desta populao. Os estudantes ento usam o computador para calcular 30
estimativas do erro padro pela aplicao da frmula "mgica" dos estatsticos (captulo
3), baseados em cada amostra de cinco. Em quase todos os casos, o erro padro
"verdadeiro"ser muito maior do que a mdia das 30 estimativas pela "frmula mgica", e
em alguns casos, maior do que todas elas. Isto acontece porque os estudantes no
tomam amostras aleatrias das folhas. Cada amostra tomada de um galho, ou as folhas
so coletadas sequencialmente atravs de um canteiro, ou alguma outra forma de
pseudorepetio. Ns gostamos de esfregar na cara deles este erro, comparando-o com
uma tentativa de mentira deslavada, j que, depois da lio 2 eles j deveriam estar
prevenidos para no cometer este tipo de erro, mas talvez outros professores nos acharo
muito rigorosos. Depois disso, pode mostrar a eles que se permutarem aleatoriamente os
comprimentos das folhas entre as amostras, e refizerem os clculos, a frmula mgica se
mostrar um estimador no to enviesado do erro padro. Este exerccio serve para
mostrar que arriscado fazer inferncias em amostras pequenas, porque mesmo
estimativas sem vises no so necessariamente precisas e, mais importante, demonstram
que nenhum procedimento estatstico produz resultados vlidos, se a amostragem no foi
executada de forma correta.
A aula 5 introduz o conceito de o que uma estatstica, uma hiptese nula,
distribuio de resultados esperados quando a hiptese nula "verdadeira" e regies de
rejeio. Isto sumarizado na segunda metade do captulo 5. A primeira parte do captulo
5, filosofia Popperiana, j ter sido apresentada na lio 2. O exemplo apresentado no
captulo 5 pode ser usado como exercco de classe. Medidas biomtricas de estudantes
so dados melhores do que em outros organismos, porque cada estudante vai ter
espectativas e vai estar olhando para os dados e para o smbolo no grfico que o
representa. Eles podem usar uma moeda ou um baralho para sortear 20 valores de DIF
esperados quando a hiptese nula for "correta". Isto permite que construam um
histograma e reflitam a respeito de rejeio.
Aula 6 lana mo do programa RT (Manly 1977) para gerar 1000 valores de DIF,
quando a hiptese nula "verdadeira". Use estes para ver como a curva fica mais suave,
com mais simulaes e como a preciso da probabilidade aumenta. Ns costumvamos
programar isto em SYSTAT e certamente isto pode ser programado em qualquer dos
melhores pacotes estatsticos, mas o program de Manly to inexpensivo, to fcil de
usar e poder ser de tanta utilidade em sua pesquisa, que recomendamos seu emprego.
Deixe bastante tempo para discusses a respeito de valores crticos, regies de rejeio,
126

tipos de erros e etc. Estes conceitos so essenciais para a compreenso de futuras lies.
As aulas 5 e 6 so usualmente dadas em alta velocidade, porque os professores pensam
que estes conceitos so bvios. Eles no so. Se pensar que sua aula vai terminar muito
cedo, prepare mais exemplos e passe mais exerccios.
A aula 7 apresenta novamente estatsticas, distribuies nulas, valores crticos e
probabilidade. Tambm trata de testes de uma e duas caudas, aproximaes paramtricas
de testes de randomizaes, graus de liberdade e tipos de erros. Ela baseada na ltima
parte do captulo 5, na seo "Como os livros de texto contam a estria?". Os estudantes
usam o computador para fazer testes t para comparar amostras de seus dados de
comprimentos de folhas, comparando as amostras 1 com a 2, 2 com 3, 3 com 4 e assim
por diante, obtendo 29 testes. Eles deveriam obter apenas poucos (<3) testes
tado amostras vlidas. Entretanto,
usualmente o teste t detecta suas pseudorepeties originando maior nmero de
resultados aparentemente significativos, reforando a importncia de se amostrar
corretamente. A repetio dos exerccios nos dados randomizados deve resultar em
apenas cerca de 5% de resultados "significativos". Continue reforando os conceitos de
tipos de erros e pseudorepetio. Este exerccio tambm mostra que testar repetidamente
uma maneira quase garantida de se obter resultados "significantes" para algumas
comparaes. O procedimento de Bonferroni pode ser introduzido como o meio mais
simples de corrigir esta distoro. Um procedimento melhor para muitas comparaes ser
introduzido na prxima sesso.
A aula 8 trata de ANOVA de um fator, e amplamente embasada no captulo 6. O
conceito importante a ser entendido, o de partio de varincia. Lies futuras
retomaro este conceito, mas os estudantes precisam ter uma boa introduo aqui.
Lembre-se de gastar algum tempo na interpretao de tabelas produzidas por programas
de computadores. Os conceitos de varincias compostas e mdias quadradas devem ser
introduzidos. Se os estudantes no entenderem porque o valor esperado das razes F em
ANOVA, quando a hiptese nula "verdadeira", um, no entendero nenhuma das
anlises mais complicadas das lies que se seguiro. Os estudantes podem analisar
tambm outros exemplos, mas devem reanalisar seus dados de folhas para ver se a
ANOVA considera o fator "amostra" significante e, portanto, reconhece a pseudorepetio.
No gaste muito tempo com comparaes mltiplas, mas faa uma pequena introduo ao
assunto, usando Tukey (1991) como base filosfica. Se os estudantes compreenderem o
princpio de ANOVA podero aplic-lo em problemas mais interessantes do que os que
podem ser resolvidos com ANOVA de um fator. Dados apropriados para ANOVA de um
fator geralmente podem ser melhor avaliados em um grfico de disperso.
A aula 9, sobre anlise de regresso, segue geralmente o captulo 7. importante
que os estudantes extraiam dados de um mapa esquemtico (por exemplo, como os das
figuras 2 e 4), ao invs de receberem-nos diretamente em uma tabela. A generalidade do
conceito de ANOVA possivelmente a lio mais importante desta seo, embora a
habilidade de reconhecer parmetros que definam modelos seja importante para as
prximas lies. Os estudantes precisam entender que os modelos mais usados
relacionam apenas relaes lineares. Embora seja importante apresentar tabelas de
resultados emitidas por computadores, certifique-se de interpretar as diferentes
estatsticas apenas nos termos dos conceitos das lies anteriores. O quanto explicar
depende do nvel da classe. Entretanto, a exerincia nos ensina que quanto menos
explicar, mais eles entendero. Anscombe (1973) fornece uma boa srie de grficos que
podem ser usados como exerccios de classe, com os estudantes "descobrindo" que
grficos totalmente diferentes apresentam o mesmo sumrio estatstico.
A aula 10 dada no captulo 11 do livro. Mudamos a ordem de modo a no perder
127

a fio da meada durante a explicao da lgica relacionada com a partio da varincia. Em


sala de aula, o professor poder ter mais controle e lembrar os estudantes dos princpios
bsicos da partio de varincias. Embora as tcnicas no-lineares no sejam geralmente
teis para alocar varincias, podem ser eficazes para ilustrar os diferentes tipos de
resduos que podem ser minimizados para parametrizar um modelo. Em sala de aula,
prefervel terminar com todas as anlises envolvendo uma varivel independente, antes de
passar para desenhos multifatoriais.
A aula 11 usa regresso mltipla para introduzir o conceito de alocao de
varincia com mais do que uma varivel independente. Um dos aspectos mais importantes
desta lio, que segue a primeira parte do captulo 8, mostrar que anlises univariadas
podem ser enganosas. preciso uma sesso inteira para que os estudantes assimilem o
conceito do uso dos resduos na partio nica da varincia, e no se deve apressar esta
parte. Se puder pensar em exemplos nos quais os estudantes coletem seus prprios
dados, melhor. Ns usamos, em sala de aula, uma variao do exemplo apresentado no
captulo 7 (figura 38), que agora aparece com trs variveis:"tamanho da reserva"
(expresso em hectares ao lado das "reservas"), "rvores" (o) e "primatas" (x) (figura 71).
O modelo preliminar pode ser explicado aos alunos geometricamente. Neste exemplo o
tamanho da reserva a varivel que obscurece o efeito de rvores sobre os primatas.

Figura 71

3 ha

o
oxx
ox

5 ha
xo
x
ox

4 ha x ox

6 ha

1 ha ox o

o
x

x
ox

o x
o o
xo
x
o x ox
x

oo

x
xo

x
x

2 ha

A aula 12 completa a discusso das tcnicas de alocao de varincias,


principalmente atravs de uma explicao das tabelas produzidas por uma pacote
estatstico. Conceitos importantes a serem apresentados incluem interaes, as razes
corretas de F para modelos mistos e seleo de variveis. Isto pode ser encontrado na
segunda parte do captulo 8 e no captulo 9. Os exerccios consistem em os estudantes
gerarem seus prprios dados aleatrios e ver qual proporo dos fatores so
"significantes", com os procedimentos padres de regresso mltipla e usando "stepwise".
Os alunos calculam tambm uma ANOVA com cinco fatores fixos e todas as interaes.
importante que os estudantes atribuam nomes para suas variveis que sejam relevantes
para sua pesquisa. engraado ver suas expresses atnitas quando os modelos
selecionados incluem variveis como "densidade de predadores" e outras variveis que
128

fariam sentido biolgico, mas que foram geradas de forma completamente ao acaso, por
eles prprios.
A aula 13 fornece uma breve introduo s tcnicas multivariadas. Esta lio deve
ser ainda mais superficial do que as anteriores e no deve cobrir toda a matria do
captulo 12. Entretanto, os estudantes devem ser capazes de reconhecer padres nos
dados e entender que estes padres podem ser representados como gradientes. Embora
os estudantes tenham apenas uma vaga idia de como a tcnica trabalha, eles podem ver
que os conceitos que desenvolveram nas aulas anteriores ainda se aplicam. O ponto mais
importante que os estudantes possam ver os padres dos dados originais em grficos
e/ou tabelas. Os captulos introdutrios de Gauch (1982a) so uma boa base para a maior
parte desta lio. Com alguma idia dos gradientes (variveis fantasmas), os estudantes
sero capazes de acessar a literatura, mesmo que carreguem uma dose saudvel de
ceticismo.
A aula 14 nos leva a anlise de caminhos (Path analysis), que mostra o valor de se
considerar efeitos diretos e indiretos. Todos os princpios das lies anteriores sero
usados nesta apresentao, que segue o contedo do captulo 10. O propsito desta lio
no promover a anlise de caminhos, mas mostrar que nenhum teste de estatstica que
no seja absolutamente trivial, pode ser interpretado sem se referir a um fluxograma.
Os trs dias remanescentes (aulas 15-20) so dedicados a apresentaes dos
estudantes e discusso de seus desenhos amostrais. Os estudantes devem aprender que,
apesar de serem capazes de criticar os desenhos de outros, ainda tm dificuldades em
avaliar o prprio trabalho. Eles iro continuamente tentar se esconder atrs do jargo, de
grficos de barra sem sentido e outras ferramentas da cultura acadmica. Embora o
professor deva fazer recomendaes de como os estudantes devem fazer para comunicar
melhor (significando mais informao objetiva e menos identificao cultural), preciso
que o conjunto dos estudantes tenha participao ativa neste processo. Uma boa idia
no avaliar os estudantes pela sua capacidade de comunicar seu trabalho, mas pela sua
participao enquanto audincia, pela qualidade e quantidade de intervenes e
questionamentos construtivos. O professor deve enfatizar a necessidade de reviso
independente e o valor da crtica construtiva na cincia.
Esperamos que este livro contribua para tornar mais efetivos seus esforos em
ensinar estatstica para estudantes de ecologia. Na pior das hipteses, acreditamos que
qualquer esforo no sentido de aumentar a capacidade dos estudantes alinharem suas
questes suas anlises e comunicarem seus resultados de pesquisa atravs de grficos
simples, no ter sido em vo.

129

Referncias
Abuabara, M. A. P. & M. Petrere. 1997. Estimativas da Abundncia de Populaes Animais.
EDUEM, Maring.
Allen, T. F. H. 1998. The landscape level is dead: persuading the family to take it off the
respirator. Pp. 35-54 In Peterson, D. L. & Parker, V. T. (eds) Ecological Scale.
Colombia University Press, New York.
Allen, T. F. H.& T. B. Starr, 1982. Hierarchy: perspectives for ecological complexity.
University of Chicago Press, Chicago.
Albert, J. 1997. Teaching Bayes rule: a data oriented approach. American Statistician
51:247-253.
Anderson, D. R., K. P. Burnham, G. C. White, & D. L. Otis. 1983. Density estimation of
small-mammal populations using a trapping web & distance sampling methods.
Ecology 64:674-680.
Anderson, D. R.; Burnham, K. P.; Thompson, W. L. 2000. Null hypothesis testing:
problems, prevalence, and an alternative. Journal of Wildlife Management 64(4):912923.
Anderson, D. R., K. P. Burnham, W. R. Gould and S. Cherry. 2001. Concerns about finding
effects that are actually spurious. Wildlife Society Bulletin 29(1):311-316.
Anderson, M. J. 2001. A new method for non-parametric multivariate analysis of variance.
Austral Ecology 26:32-46.
Anderson, M. & P. Legendre. 1999. An empirical comparison of permutation methods for
tests of partial regression coefficients in a linear model. Journal of Statistical and
Computer Simulation 62:271-303.
Anscombe, F. J. 1973. Graphs in statistical analysis. American Statistician 27:17-21.
Azevedo-Ramos, C., W. E. Magnusson & P. Bayliss. 1999. Predation as a key factor
structuring tadpole assemblages in a savanna area in central Amazonia. Copeia
1999:22-33.
Bard, Y. Nonlinear Parameter Estimation. Academic Press, New York.
Basford, K. E. & J. W. Tukey. 1999. Graphical analysis of multiresponse data illustrated
with a plant breeding trial: interdisciplinary statistics. Chapman & Hall, Boca Raton.
Belbin, L. 1992. PATN Pattern Analysis Package Technical Reference. CSIRO, Canberra.
Benjamini, Y. & Y. Hochberg. 1995. Controlling the false discovery rate: a practical and
powerful approach to multiple testing. Journal of the Royal Statistical Society 57
(Series B): 289-300.
Bennington, C. C. & W. V. Thayne. 1994. Use and misuse of mixed model analysis of
variance in ecological studies. Ecology 75:717-722.
Berk, K. N. 1978. Comparing subset selection procedures. Technometrics 20:1-6.
Bradshaw, G. A. 1998. Defining ecologically relevant change in the process of scaling up:
implications for monitoring at the landscape level. Pp. 227-249 In Peterson, D. L. &
Parker, V. T. (eds) Ecological Scale. Colombia University Press, New York.
Braun-Blanquet, J. 1932. Plant Sociology: The Study of Plant Communities. Hafner,
London.
Burnham, K. P.; Anderson, D. R. 1998. Model selection and inference: a practical
information-theoretic approach. Springer-Verlag, New York.
Cade, B. S., J. W. Terrell & R. L. Schroeder. 1999. Estimating regression effects of limiting
factors with regression quantiles. Ecology 80(1):311-323.
Callaghan, A. & G. J. Holloway. 1999. The relationship between environmental stress and
130

variance. Ecological Applications 9(2):456-462.


Carlson, J. M. & J. Doyle. 1999. Highly optimized tolerance: a mechanism for power laws
in designed systems. Physical Review E 60:1412-1427.
Carpenter, S. R. 1999. Microcosm experiments have limited relevance for community and
ecosystem ecology: a reply. Ecology 80:1085-1088.
Caughley, G. & A. R. E. Sinclair. 1994. Wildlife Ecology and Management. Blackwell
Scientific Publications, Oxford.
Cherry, S. 1999. Statistical tests in publications of The Wildlife Society. Wildlife Society
Bulletin 26: 947-953.
Connolly, J., P. Wayne & F. A. Bazzaz. 2001. Interspecific competition in plants: how well
do current methods answer fundamental questions. American Naturalist 157:107125.
Dale, M. B. 1988. Knowing when to stop: cluster concept concept cluster. Coenoses
3:11-32.
Day, R.. W. & G. P. Quinn. 1989. Comparisons of treatments after an analysis of variance
in ecology. Ecological Monographs 59:433-463.
DeAth, G. 1999. Principal curves: a new technique for indirect and direct gradient
analysis. Ecology 80:2237-2253.
Deming, W. E. 1975. On probability as a basis for action. American Statistician 29:146152.
Dytham, C. 1999. Choosing and using statisitics: a biologists guide. Blackwell Science,
Oxford.
Ehrenberg, A. S. C. 1981. The problem of numeracy. American Statistician 35:67-71.
Ellison, A. M. 1993. Exploratory data analysis and graphic display. Pp 14-45 In Scheiner, S.
M. & J. Gurevitch (eds) Design and Analysis of Ecological Experiments. Chapman &
Hall, New York.
Faith, D. P., P. R. Minchin & L. Belbin 1987. Compositional dissimilarity as a robust
measure of ecological distance: a theoretical model and computer simulations.
Vegetatio 69:57-68.
Fortin, M. J. & J. Gurevitch 1993. Mantel tests: spatial structure in field experiments. Pp
342-352 In Scheiner, S. M. & J. Gurevitch (eds) Design and Analysis of Ecological
Experiments. Chapman & Hall, New york.
Freedman, D. A. 1983. A note on screening regression equations. American Statistician
37:152-155.
Friendly, M. 1995. Conceptual and visual models for categorical data. American Statistician
49:153-160.
Gaines, S. D. & W. R. Rice. 1990. Analysis of biological data when there are ordered
expectations. American Naturalist 135:310-317.
Garland, T., P. H. Harvey & A. R. Ives. 1992. Procedures for the analysis of comparative
data using phylogenetically independent contrasts. Systematic Biology 41:18-32.
Gauch, H. G. 1982a. Multivariate analysis in community ecology. Cambridge University
Press, Cambridge.
Gauch, H. G. 1982b. Noise reduction by eigenvector ordinations. Ecology 63:1643-1649.
Goleman, D. 1995. Emotional Intelligence. Bloomsbury Publishing, London.
Gotelli, N. J. 2001. Research frontiers in null model analysis. Global Ecology and
Biogeography 10:337-343.
Green, R. H. 1989. Power analysis and statistical strategies for environmental monitoring.
Environmental Research 50:195-205.
Guttman, L. 1985. The illogic of statistical inference for cumulative science. Applied
stochastic models and data analysis 1:3-10.
131

Hairston, N. G. 1989. Hard choices in ecological experimentation. Herpetologica 45:119122.


Hale, S. S. 1999. How to manage data badly (part 1). Bulletin of the Ecological Society of
America 80:265-268.
Hall, E. T. 1959. The silent Language. Doubleday & Company, New York.
Hallgren, E., M. W. Palmer & P. Milberg. 1999. Data diving with cross-validation: an
investigation of broad-scale gradients in Swedish weed communities. Journal of
Ecology 87:1037-1051.
Harris, R. J. 1975. A primer for multivariate statistics. Academic Press, New York.
Higashi, M. & T. P. Burns. 1991. Theoretical Studies of Ecosystems: The Network
Perspective. Cambridge University Press, Cambridge.
Hilborn, R. & M. Mangel. 1997. The Ecological Detective. Princeton University Press,
Princeton.
Hobbs, R. J. 1998. Managing ecological systems and processes. Pp. 459-484 In D. L.
Peterson & V. T. Parker (eds) Ecological Scale. Colombia University Press, New York.
Huberty, C. J. 1987. On statistical testing. Educational Researcher 16:4-9.
Hurlbert, S. H. 1984. Pseudoreplication and the design of ecological field experiments.
Ecological Monographs 54: 187-211.
Iglewicz, B. 1983. Robust scale estimators and confidence intervals for location. Pp 404431 In D. C. Hoaglin, F. Mosteller & J. W. Tukey (eds). Understanding robust and
exploratory data analysis. John Wiley & Sons, New York.
Jackson, D. A. 1993. Stopping rules in principal components analysis: a comparison of
heuristical and statistical approaches. Ecology 74:2204-2214.
Jackson, D. A. 1997. Compositional data in community ecology: the paradigm or peril of
proportions. Ecology 78(3):929-940.
James, F. C. & C. E. McCulloch. 1990. Multivariate analysis in ecology and systematics:
Panacea or Pandoras box? Annual Review of Ecology and systematics 21:129-166.
Johnson, C. R.; Field, C. A. 1993. Using fixed-effects model multivariate analysis of
variance in marine biology and ecology. Oceanography and Marine Biology Annual
Review 31:177-221.
Johnson, D. H. 1999. The insignificance of statistical significance testing. J. Wildl. Manage.
63: 763-772.
Kenckel, N. C. & L. Orloci. 1986. Applying metric and nonmetric multidimensional scaling
to ecological studies: some new results. Ecology 67:919-928.
Koele, P. 1982. Calculating power in analysis of variance. Psychological Bulletin 92:513516.
Krebs, C. J. 1998. Ecological Methodology. Harper & Row, New York.
Kruskal, W. 1988. Miracles and statistics: the casual assumption of independence. Journal
of the American Statistical Association 83:929-940.
Kuhn, T. S. 1970. The structure of scientific revolutions. 2nd ed. University of Chicago
Press, Chicago.
Lawton, J. 1999a. Size matters. Oikos 85: 19-21.
Legendre, P. 1993. Spatial autocorrelation: trouble or a new paradigm? Ecology 74:16591673.
Legendre, P., & M. J. Anderson. 1999. Distance-based redundancy analysis: testing
multispecies responses in multifactorial ecological experiments. Ecological
Monographs 69:1-28.
Legendre, P. & L. Legendre. 1998. Numerical Ecology: Second English Edition. Elsevier,
Amsterdam.
Legendre, P., and E. D. Gallagher. 2001. Ecologically meaningful transformations for
132

ordination of species data. Oecologia 129:271-280.


Lennon, J. L. 2000. Red-shifts and red herrings in geographical ecology. Ecography
23:101-113.
Link, W. A. 1999. Modeling patterns in collections of parameters. Journal of Wildlife
Management 63: 1017-1027.
Luo, J. & B. J. Fox. 1996. A review of the Mantel test in dietary studies: effect of sample
size and inequality of sample sizes. Wildlife Research 23:267-288.
MacCune, B. 1997. Influence of noisy environmental data on canonical correspondence
analysis. Ecology 78:2617-2623.
Mac Nally, R. C. 1994. On characterizing foraging versatility, illustrated by using birds.
Oikos 69:95-106.
Magee, B. 1976. Popper. Fontana, London.
Magnusson, W. E. 1997. Teaching experimental design, or how to do statistics without a
bikini. Bulletin of the Ecological Society of America 78:205-209.
Magnusson, W. E. 1999. Spatial independence: the importance of the question. Wildlife
Society Bulletin 27:1112-1113.
Magnusson, W. E. 2000a. Error bars: are they the kings clothes? Bulletin of the Ecological
Society of America 81:147-150.
Magnusson, W. E. 2000b. Statistical iatrogenesis: cure it or prevent it? Bulletin of the
Ecological Society of America 81:198-201.
Manel, S., J. M. Dias, S. T. Buxton & S. J. Ormerod. 1999. Alternative methods for
predicting species distribution: an illustration with Himalayan river birds. Journal of
Applied Ecology 36:734-747.
Manly, B. F. J. 1997. Randomization, Bootstrap and Monte Carlo Methods in Biology.
Chapman & Hall, London.
Mantel, N. A. & R.. S. Valand. 1970. A technique for nonparametric multivariate analysis.
Biometrics 26:547-558.
McArdle, B. H. & M. J. Anderson. 2001. Fitting multivariate models to community data: a
comment on distance-based redundancy analysis. Ecology 82:290-297.
Meeks, S. L. & R. B. DAgostino. 1983. A note on the use of confidence limits following
rejection of a null hypothesis. American Statistician 37:134-136.
Meot, A. , P. Legendre & D. Borcard. 1998. Partialling out the spatial component of
ecological variation: questions and propositions in the linear modelling framework.
Environmental and Ecological Statistics 5:1-27.
Milligan, G. W. & M. C. Cooper. 1985. An examination of procedures for determining the
number of clusters in a data set. Psychometrika 50:159-179.
Minchin, P. R. 1987. Simulation of multidimensional community patterns: toward a
comprehensive model. Vegetatio 71:145-156.
Moore, D. S. 1997. Bayes for beginners? Some reasons to hesitate. American Statistician
51: 254-261.
Mosteller, F. & J. W. Tukey. 1968. Data analysis, including statistics. Pp 80-203 In Lindzey,
G. and E. Aronson (eds). Handbook of Social Psychology (2nd edition), Volume 2.
Addison-Wesley, Reading Massachusetts.
Neyman, J. !937. Outline of a theory of statistical estimation based on the classical theory
of probability. Philosophical Transactions of the Royal Society of London Ser. A,
231:333-380.
Newman, J. A., J. Bergelson & A. Grafen. 1997. Blocking factors and hypothesis tests in
ecology: is your statistics text wrong? Ecology 78:1312-1320.
Noy-Meir, I., D. Walker & W. T. Williams. 1975. Data transformations in ecological
ordination. II. On the meaning of data standardization. Journal of Ecology 63:779133

800.
kland, R. H. 1996. Are ordination and constrained ordination alternative or
complementary strategies in general ecological studies? Journal of Vegetation
Science 7:289-292.
kland, R. H. 1999. On the variation explained by ordination and constrained ordination
axes. Journal of Vegetation Science 10:131-136.
Oksanen, J. and P. R. Minchin. 1997. Instability of ordination results under changes in
input data order: explanations and remedies. Journal of Vegetation Science 8:447454.
Olson, C. L. 1976. On choosing a test statistic in multivariate analysis of variance.
Psychological Bulletin 83:579-586.
ONeill, R. V. & A. W. King. 1998. Homage to St Michael; or why are there so many books
on scale? . Pp. 3-15 In Peterson, D. L. & Parker, V. T. (eds) Ecological Scale.
Colombia University Press, New York.
Ormerod, S. J., M. W. Pienkowsky & A. R. Watkinson. 1999. Communicating the value of
ecology. Journal of applied Ecology 36:847-855.
Osenberg, C. W., O. Sarnelle, S. D. Cooper & R. D. Holt. 1999. Resolving ecological
questions through meta-analysis: goals, metrics, and models. Ecology. 80(4):11051117.
Palmer, A. R. 1999. Detecting publication bias in meta-analyses: a case study of
fluctuating asymmetry and sexual selection. 154:220-233.
Pascual, M. & S. A. Levin. 1999. From individuals to population densities: searching for the
intermediate scale of nontrivial determinism. Ecology 80:2225-2236.
Pearson, K. 1901. On lines and planes of closest fit to systems of points in space.
Philosophical Magazine 6:559-572.
Peladeau, N. 1966. Simstat for Windows. 5000 Adam Street, Montreal, QC, Canada, H1V
1W5.
Peres-Neto, P. R., and D. A. Jackson. 2001. How well do multivariate data sets match?
The advantages of a Procrustean superimposition approach over the Mantel test.
Oecologia 129:169-178.
Petersen, J. E., Cornwell, J. C. & Kemp, W. M. 1999. Implicit scaling in the design of
experimental aquatic ecosystems. Oikos 85:3-18.
Peterson, D. L. & Parker, V. T. (eds) 1998. Ecological Scale. Colombia University Press,
New York.
Petraitis, P. S., A. E. Dunham & P. H. Niewiarski. 1996. Inferring multiple causality and the
limitations of path analysis. Functional Ecology 10:421-431.
Pickett, S. T. A., J. Kolasa & C. G. Jones. 1994. Ecological Understanding. Academic Press.
San Diego.
Pielou, E. C. 1984. The interpretation of ecological data. Wiley, New York.
Pillar, V. D. 1999. How sharp are classifications? Ecology 80(8):2508-2516.
Platt, J. R. 1964. Strong inference. Science 146:347-353.
Popper, K. R. 1976. Unended Quest: An Intellectual Autobiography. Fontana, London.
Powell, T. M. & J. H. Steele. 1995. Ecological Time Series. Chapman & Hall, New York.
Rice, W. R. 1989. Analyzing tables of statistical tests. Evolution 43:223-225.
Ricker, W. E. 1973. Linear regressions in fishery research. Journal of the Fish Research
Board of Canada. 30:409-434.
Rosenthal, R. & D. B. Rubin. 1982. A simple general purpose display of magnitude of
experimental effect. Journal of Educational Psychology 74:166-169.
Rosenthal, R. & D. B. Rubin. 1994. The counternull value of an effect size: a new statistic.
Psychological Science 5:329-334.
134

Salsburg, D. S. 1985. The religion of statistics as practiced in medical journals. American


Statistician 39:220-223.
Sawada, M. 1999. Rookcase: an excel 97/2000 visual basic (VB) add-in for exploring
global and local spatial autocorrelation. Bulletin of the Ecological Society of America
80:231-234.
Shipley, B. 1999. Testing causal explanations in organismal biology: causation, correlation
and structural equation modelling. Oikos 86:374-382.
Short, J., G. Caughley, D. Grice & B. Brown. 1983. The distribution and abundance of
kangaroos in relation to environment in Western Australia. Australian Wildlife
Research 10:435-451.
Smouse, P. E., J. C. Long & R. R. Sokal 1986. Multiple regression and correlation
extensions of the Mantel test of matrix correspondence. Systematic Zoology 35:627632.
Sokal, R. R. & F. J. Rohlf 1995. Biometry, 3rd Edition. W. H. Freeman & Company, New
York.
Spitz, F. & S. Leks. 1999. Environmental impact prediction using neural network modelling.
An example in wildlife damage. Journal of Applied Ecology. 36: 317-326.
Starfield, A. M. & A. L. Bleloch. 1991. Building Models for Conservation and Wildlife
Management. Bellwether Press, Edina, Minnesota.
Stern, M. J. 1998. Field comparisons of two rapid vegetation assessment techniques with
permanent plot inventory data in Amazonian Peru. Pp. 269-283 In F. Dallmeier and J.
A. Comiskey, (eds). Forest Biodiversity Research, Monitoring and Modeling. UNESCO
& Parthenon Publishing, Paris.
ter Braak, C. J. F. 1986. Canonical correspondence analysis: a new eigenvector technique
for multivariate direct gradient analysis. Ecology 86:1167-1179.
Tukey, J. W. 1972. Some graphic and semigraphic displays. Pp 293-316 In T. A. Bancroft
(ed) Statistical Papers in Honour of George W. Snedecor. Iowa State University,
Ames.
Tukey, J. W. 1980. We need both exploratory and confirmatory. American Statistician
34:23-25.
Tukey, J. W. 1991. The philosophy of multiple comparisons. Statistical Science 6:100-116.
Thornhill, R., A. P. Moller & S. W. Gangestad. 1999. The biological significance of
fluctuating asymmetry and sexual selection: a reply to Palmer. American Naturalist
154:234-241.
von Ende, C. N. 1993. Repeated measures analysis: growth and other time-dependent
measures. Pp 113-137 In Scheiner, S. M. & J. Gurevitch (eds) Design and Analysis of
Ecological Experiments. Chapman & Hall, New York.
Wardle, G. M. 1998. A graph theory approach to demographic loop analysis. Ecology
79:2539-2549.
Wallace, C. S. & D. L. Dowe. 2000. MML clustering of multistate, Poisson, von Mises
circular and Gaussian distributions. Statistics and Computing 10:73-83.
Wartenberg, D., S. Ferson & F. J. Rohlf. 1987. Putting things in order: a critique of
detrended correspondence analysis. American Naturalist 129:434-448.
Wilkinson, L. 1999. Statistical methods in psychology journals: guidelines and
explanations. American Psychologist 54:594-604.
Williams, B. K. 1983. Some observations on the use of discriminant analysis in ecology.
Ecology 64:1283-1291.
Williams, B. K. & K. Titus 1988. Assessment of sampling stability in ecological applications
of discriminant analysis. Ecology 69:1275-1291.
Winer, B. J., D. R. Brown & K. M. Michaels. 1991. Statistical Principles in Experimental
135

Design. McGraw-Hill, New York.


Wood, S. N. 1997. Inverse problems & structured-population dynamics. Pp 555-586 In
Tuljapurkar, S.& H. Caswell (eds) Structured-Population Models in Marine, Terrestrial,
and Freshwater Systems. Chapman & Hall, New York.
Yoccoz, N. G. 1991. Use, overuse, and misuse of significance tests in evolutionary biology
and ecology. Bulletin of the Ecological Society of America 72:106-111.
Zar, J. H. 1996. Biostatistical Analysis. 4th ed. Prentice-Hall , London.

136