Вы находитесь на странице: 1из 26

Anlise de Vrinci

Projeto Final UC Estatstica I Carla Noronha aluna n 1002152 MBB- Mestrado em Bioestatstica e Biometria
Este documento apenas um breve resumo do que a Anlise de varincia e as suas aplicaes nas diferentes reas das cincias, exatas e no exatas. Tentmos mostrar alguns exemplos e expor alguns dos seus modelos e pressupostos. Embora limitados pelo nmero de pginas, abordmos aquilo que considermos ser o essencial desta temtica. Dados adicionais foram colocados no powerpoint anexo.

17-06-2012

INDICE pgina 1.Breve histria da Anlise de Varincia 2 2.O que ento nlise de vrinci? 5 2.1.Pressupostos da Anova .. 6 2.1.1. Independnci dos erros 6 2.1.2. Normlidde dos erros 6 2.1.3. Homogeneidde d vrinci .. 7 3.Anlise de varincia a um fator e efeitos fixos 7 3.1 Modelo 7 3.2. Pressupostos.. 8 3.3. Hipteses testr 8 3.4. Represento . 8 3.5. Tomd de deciso 9 4. Anlise de Varincia a um fator e efeitos letrios . 9 4.1. Modelo .. 9 4.2. Pressupostos... 9 4.3. Hipteses testr... 10 4.4. Represento.. 10 4.5. Tomd de deciso 11 5. Anlise de Vrinci dois fctores. 11 5.1. Modelo de efeitos fixos um observo por clul .. 11 5.1.1. Modelo 11 5.1.2. Pressupostos. 11 6. Teste de Comparao Mltipla (testes post-hoc). 11 6.1. Breve histria dos testes post-hoc .. 12 6.2. As distribuies por detrs dos testes post-hoc . 12 6.3. Noo de contrste 13 6.4. Teste de Neumn Keuls.. 14 6.5. Teste de Tukey Honestly Significant Difference (HSD ou Tukey) 14 6.6. Teste LSD de Fisher . 15 6.7. Teste de Dunnett 16 6.8. Teste de Scheff... 16 6.9. Teste de Benferroni.. 17 7. res de Aplico d Anlise de vrinci .. 17 7.1. Anov e gricultur . 17 7.2. Anov e Psicologi 18 7.3. Anov e Ecologi 18 7.4. Outrs 18 7.5. Exemplos de plico d Anlise de Vrinci . 18 8. Concluso 24 9. Bibliogrfi e Webgrfi.. 25
1

1.Uma breve histria da Anlise de Varincia A Anlise de Varincia (Anova) , provavelmente ,o mtodo estatstico de maior repercusso na pesquisa cientfica, especialmente na experimentao agrcola, de onde surgiu como uma das muitas provas do gnio de Fisher. Tratando-se de uma exposio histrica, natural que a anlise de varincia e os planeamentos experimentais, vistos por ele como dois aspectos do mesmo todo, sejam tratados conjuntamente. O seu desenvolvimento e muitas das suas aplicaes originaram-se no perodo em que Fisher trabalhou na Estao Experimental de Rothamsted, de 1919 a 1933, a maior e mais antiga das instituies britnicas de pesquisa agrcola onde eram conduzidos ensaios com fertilizantes qumicos desde sua fundao, em 1843. A terminologia por ele criada bem reflete essa influncia. As suas ideias sobre esse assunto encontram-se em suas duas obras: Statistical Methods for Research Workers, (1925) e The Design of Experiments, (1935), as quais so consideradas as suas maiores contribuies Estatstica. Embora destinadas aos pesquisadores das reas biolgica e agrnoma, no so de fcil leitura. Entretanto, graas sua disseminao foram devidamente interpretadas, especialmente por George Waddel Snedecor (1881 1974), autor do livro (Snedecor, 1937), que j vai para a stima edio, tendo W. G. Cochran como co-autor. A novidade introduzida por Fisher foi o princpio da casualizao, uma brilhante inspirao, inteiramente sua, segundo Yates (1964b). Segundo ele, a casualizao garantiria a validez da estimativa do erro e possibilitaria a aplicao dos testes de significncia para se verificar o efeito dos tratamentos. Para ele, pela casualizao (por um mecanismo objetivo de sorteio) nenhum tratamento seria continuamente favorecido ou desfavorecido nas sucessivas repeties por alguma fonte estranha de variao. Ela era necessria para que as variaes que contribuem para o erro experimental fossem convertidas em variveis aleatrias. Ainda de acordo com Fisher, a anlise de varincia pode ser considerada um mtodo estatstico, mas no um teorema matemtico, sendo nada mais que um modo conveniente de arranging the arithmetic, segundo sus plvrs. Nturlmente, como outrs invenes lgicas, baseada em teoremas matemticos, previamente demonstrados. Um tratamento matemtico elementar encontra-se em Irwin (1931), e uma prova formal mais completa foi dada por Cochran (1934). A ttulo de rigor histrico, deve ser mencionado que a ideia de comparar a variao entre grupos com a variao dentro de grupos como teste de homogeneidade foi primeiramente estudada por Wilhelm Lexis (1837 1914) na Alemanha, no final do sculo XIX, com relao amostragem de atributos homgrados. Para isso, Lexis criou um critrio de disperso (o termo varincia no era conhecido na poca), tambm chamado razo de Lexis, L., ligdo o 2 pela relao 2 / = L2, onde o nmero de grus de liberdde. Contudo, somente grs os trblhos de Fisher, essas ideias tiveram maior avano e pleno desenvolvimento. O termo varincia foi cunhado por Fisher, em 1918, num artigo , no qual mostra que as correlaes encontradas entre parentes podem ser explicadas pelo mecanismo da herana mendeliana. Neste trabalho foi apresentada uma decomposio percentual da varincia total em suas respectivas causas, mas no pode ser considerada uma anlise de varincia como essa veio a ser conhecida. O primeiro artigo sobre esse tpico apareceu num artigo de Fisher, com sua assistente Miss Winifred A. Mackenzie (Fisher & Mackenzie, 1923). Trata-se da anlise estatstica de uma experincia realizada em Rothamsted em 1922, utilizando um planeamento do tipo split plot. De acordo com Cochran (1980), no seu artigo pstumo Fisher and the Analysis of Variance, Fisher ainda no havia dominado completamente as normas da anlise de varincia. Na verdade, sua anlise denominada Analysis of Variation e no variance, continha erros, pois foi usada apenas uma nica estimativa do erro experimental para todas as comparaes. interessante observar que Fisher empregou primeiramente o modelo multiplicativo como mais apropriado. Nesse mesmo artigo, usou tambm o
2

modelo aditivo, que continuou a preferir em trabalhos posteriores, provavelmente pela maior facilidade de manipulao. Entretanto, 2 anos depois, em 1925, ao publicar Statistical Methods for Research Workers, Fisher havia percebido seu erro e apresentou ento uma anlise estatstica correta no pargrafo 42, Ex. 41. Naquela poca, ele tinha completo domnio sobre o assunto. Esse exemplo serve para comprovar, mais uma vez, que, na abertura de novos caminhos, os primeiros passos so oscilantes. As ideias nunca surgem de modo pronto e definitivo, obedecendo antes a um processo de desenvolvimento que se aperfeioa com tentativas e com hesitaes, pois que o processo criativo formado de conjecturas da imaginao e no uma deduo lgica dos conhecimentos anteriores. Cabe, qui, frse do escritor Arthur Koestler The history of ideas is filled with barren truths and fertile errors. (A histria das ideias est cheia de verdades estreis e erros frteis). Deve ser dito, que o prprio Student, ao envolver-se na experimentao de campo, principalmente na competio de variedades de cevada em larga escala, por motivos de trabalho na Cervejaria Guinness, deu preferncia aos arranjos equilibrados sistemticos, argumentando que a casualizao causa um aumento da variabilidade. Isso constituiu ponto de discrdia entre Student e Fisher, embora no tenha causado qualquer inimizade entre ambos, que permaneceram amigos at a morte de Student, em 1937. Independentemente de Fisher, ele chegara estimativa do erro para a comparao de variedades, utilizando, como sempre, sua originalidade que Fisher mostrou ser algebricamente equivalente anlise de varincia. Em 1923, na sua correspondncia com Gosset, Fisher mostrou, tambm, a derivao do procedimento usado na anlise de varincia em blocos casualizados por meio do ajustamento de constantes para blocos e para tratamentos pelo mtodo clssico dos mnimos quadrados. Embora essa tenha sido a primeira abordagem da anlise de varincia, Fisher deu preferncia apresentao da anlise aritmtica da decomposio da soma dos quadrados, cuja simplicidade tornou-a acessvel aos pesquisadores menos versados em teoria estatstica. Isso representou um ganho prtico enorme, desde que no fosse elevado a um ritual cego, nas palavras de Maurice Stevenson Bartlett (1910 2002), conhecido por seu teste de homogeneidade de varincias (Bartlett, 1965). Entretanto, essa simplicidade de clculos depende do facto de a experincia ter sido delineada para ser ortogonal, i.e., permitir que os efeitos sejam capazes de uma estimao direta e separada, pois, em caso contrrio, tornar-se- necessrio usar o princpio clssico dos mnimos quadrados para se estimarem os parmetros. As tcnicas de estimao de parcelas perdidas (missing plot), iniciadas com Allan & Wishart (1930), nada mais so que recursos para restaurar a ortogonalidade, tornando assim possvel a anlise de varincia, segundo padro simples. O primeiro reconhecimento ostensivo de que um modelo linear analisado pelo mtodo dos mnimos quadrados era mais fundamental do que uma anlise intuitiva baseada no desdobramento da soma dos quadrados deve-se a Yates (1933). Naquela poca, Yates ainda no tinha conhecimento da correspondncia entre Fisher e Gosset, acima referida. No demorou para que esse mtodo fosse utilizado em planeamentos no equilibrados e estendido a problemas de regresso mltipla. pena que a Anova seja estudada atualmente apenas dentro da teoria dos modelos lineares, pela seduo de sua elegncia, completamente desligada de sua origem histrica. Durante quase 90 anos antes da chegada de Fisher, a Estao experimental de Rothamsted vinha a experimentar diferentes tipos de fertilizantes, usando um nico fertilizante no campo agrcola durante um ano inteiro e fazendo medies com alteraes das outras variveis, como a chuva e a temperatura, estudando a colheita desse ano. O que Fisher fez foi revolucionar a forma como as experincias eram realizadas, pois comparava os efeitos de mais do que um fertilizante num nico ano, usando todos os tipos de fertilizante disponveis simultaneamente em vrias parcelas de terreno vizinhas. As ideias de Fisher foram finalmente vitoriosas e, a partir de 1925, a casualizao foi usada como rotina em todos os planos experimentais realizados em Rothamsted. A anlise de varincia, com
3

a anlise de covarincia, tambm por ele desenvolvida, passaram a constituir o instrumental bsico para a interpretao dos resultados das experincias controladas. No seu artigo, Fisher (1926), considerado o precursor de seu livro The Design of Experiments, declara, peremptoriamente, que no se deve levar em conta o aforismo de se perguntar natureza apenas uma questo de cada vez, pois muitas vezes ela se recusa a responder at que outro fator seja acrescentado, advogando, assim, o uso de experincias fatoriais e suas vantagens. Contudo, ele percebeu as dificuldades prticas para um grande nmero de fatores, tendo mostrado que essas dificuldades poderiam ser evitadas incluindo-se num bloco apenas uma parte de todas as combinaes possveis. Assim, cada bloco no seria mais uma repetio completa, sacrificando-se deliberadamente a informao de certas interaes, consideradas pouco importantes, confundindo-as com as diferenas entre blocos. Esse artifcio tcnico foi denominado confundimento (confouding), que pode ser total ou parcial, conforme as interaes estejam completamente confundidas ou apenas em parte, permitindo, assim, a recuperao da informao sobre as interaes confundidas. No supracitado artigo, Fisher mostra, pela primeira vez, sua preferncia por um nvel de significncia de 5% revelando que talvez outros preferissem um nvel mais rigoroso, como 2% ou 1%. As experincias fatoriais e as tcnicas de confundimento foram posteriormente desenvolvidos por Frank Yates (1902 1994) e esto expostos em sua monografia The Design and Analysis of Factorial Experiments (1937), qual deve ser acrescentada sua extensa lista de trabalhos sobre blocos incompletos, em geral. Em 1931, Yates foi para Rothamsted, em substituio a John Wishart (1898 1956), assistente de Fisher desde 1928, que sara naquele ano para lecionar na Universidade de Cambridge, onde foi responsvel pela formao acadmica de mais de uma gerao de ilustres estatsticos. Um exemplo de sua cooperao com Fisher, naquele perodo, a publicao de Fisher & Wishart (1930), que mostra a preocupao de ambos em divulgar os novos mtodos ao alcance dos pesquisadores. Uma vez estendida a experincias mais complexas, alm de fornecer as estimativas dos erros e os testes de significncia dos vrios efeitos, a Anova permitiu estimar as componentes de varincia atribudas s diferentes classes de efeito. Alis, em Statistical Methods for Research Workers, o leitor introduzido Anlise de Varincia nesse contexto, como alternativa correlao intra-classe e que, segundo o autor, esse mtodo constitua grande simplificao. Fisher achou que a distribuio do coeficiente de correlao intra-classe era essencialmente equivalente da razo de varincias. Ele nunca se preocupou de tratar a correlao intra-classe separadamente da anlise de varincia, nas sucessivas edies de seu livro. Certamente, a forma da anlise de varincia apropriada correlao intra-classe ou a qualquer classificao hierrquica requer ampliao para ser usada nas classificaes cruzadas da anlise de experincias. A Anova difundiu-se rapidamente entre os pesquisadores. Para muitos deles, a estimao das componentes de varincia era irrelevante, mas em muitos casos essas estimativas tornavam-se necessrias. Tudo isso era bem conhecido at o fim da 2 Guerra Mundial. Entretanto, depois desse perodo surgiu novo conceito introduzido por Churchill Eisenhart (1913 1994) num artigo sobre pressuposies em que se baseia a anlise de varincia, Eisenhart (1947). Nesse artigo, ele distingue o Modelo I ou de efeitos fixos, e o Modelo II ou de efeitos aleatrios, tendo sido depois acrescentado o modelo misto, em que alguns efeitos so fixos e outros aleatrios. A anlise estatstica a mesma nos diferentes modelos, mas os testes de significncia diferem, de acordo com a expectncia dos quadrados mdios. Na prtica, um modelo de efeitos fixos, se os tratamentos so deliberadamente escolhidos, ou de efeitos aleatrios (tambm chamado de componentes de varincia) se feita uma seleo aleatria dos tratamentos, mas o interesse do pesquisador no se restringe apenas a eles. Este ltimo a forma original da anlise de varincia. Realce-se que, no s Fisher inventou um procedimento experimental poderoso, elegante e relativamente simples, como tambm produziu a tcnica estatstica para analisar os dados obtidos, Esta tcnica a ANOVA (anlise de varincia) e
4

tambm a ANCOVA (anlise de covarincia)! Fisher estabeleceu estas tcnicas analticas que se tornaram a base de todos os currculos dos cursos com investigao nas cincias sociais e comportamentais. 2.O que ento a Anlise de Varincia? Em atividades anteriores neste MBB j tivemos a oportunidade de estudar a forma de comparar duas mdias populacionais atravs da utilizao da inferncia estatstica. Mas podemos ter necessidade de comparar mais do que um par de mdias. A ttulo de exemplo consideremos a situao em que queremos testar a eficcia de um novo medicamento no tratamento de determinada patologia atravs da administrao de 5 tratamentos diferentes : o novo medicamento, 3 outros j existentes no mercado e um placebo. Como faz-lo? Hiptese nmero um : constituir pares com os vrios medicamentos obteremos ento 5C2= 10 pares que poderemos ento analisar usando testes paramtricos. Hiptese nmero dois: conduzir uma anlise de varincia (ANOVA) na qual intervm todos os medicamentos em simultneo. Desta forma ser possvel comparar a eficcia dos 5 medicamentos de uma s vez e, caso se identifiquem diferenas entre as mesmas, essas podero ser detectadas com maior rigor recorrendo aos testes de comparao mltipla. Ento, o que a Anova, essa tcnica fantstica que nos permite efectuar tal estudo e poupar tempo na comparao de scores de dados? A ANOVA uma tcnica estatstica que foi desenvolvida por Fisher (tal como referido no capitulo anterior) e que permite ento a comparao simultnea de k mdias com recurso distribuio F de Fisher. Pensando ainda no nosso exemplo, poderei eu afirmar que o novo medicamento mais eficaz dos que os demais existentes j no mercado? A anlise de varincia procura dar resposta a esta pergunta atravs da comparao efectuada pela disperso presente no conjunto de dados da o nome Anlise de Varincia. Neste nosso exemplo, as observaes registadas so provenientes de grupos classificados atravs apenas de um fator a doena neste caso, falamos em Anlise de varincia a um fator (One way Anova). Evidentemente s far sentido considerar tal fator se se puder garantir a homogeneidade das populaes em relao a todos os outros factores que poderiam ser relevantes para a explicao do fenmeno (iremos alargar-nos sobre as condies de aplicabilidade da Anova adiante). Em muitas situaes h mais do que um fator a influenciar os resultados das observaes - neste caso, falamos em Anova a 2 fatores (Two way Anova). Se existirem mais do que dois fatores a condicionar os resultados tambm podemos falar em Anova a 3 fatores (Three way Anova) ou multifatorial. Por outro lado dizemos que a anlise de varincia tem tantos nveis ou efeitos quantos grupos distintos se considerem.Por vezes usamos a expresso tratamento em vez de grupo Na maior parte dos casos, os grupos so determinados partida dizemos ento que estamos perante uma Anova com efeitos fixos. Em alternativa, os grupos podem ser retirados aleatoriamente de entre um conjunto alargado de possibilidades. Neste caso estamos perante uma anlise de varincia com efeitos aleatrios.
5

2.1.Pressupostos da Anova Antes de conduzir uma anlise de varincia (Anova) , os investigadores devem assegurar-se que se verificam os pressupostos inerentes a este tipo de estudo, que so, a saber: 1. as componentes do erro associadas varivel dependente so independentes 2. os erros distribuem-se normalmente 3. as varincias nos vrios nveis dos grupos da varivel independente so iguais Embora possamos discutir cada um destes pressupostos em separado, na prtica eles esto interligados de tal forma que a violao de qualquer um deles afeta os outros. 2.1.1.Independncia dos erros A primeira assumpo por detrs da Anova que o resduo da componente Yi ( a diferena entre as observaes e a mdia do grupo) aleatria e independente nas observaes individuais. A dependncia pode ocorrer quando um Yi contem informao acerca de outro. Este fato seria indicativo de uma relao entre os erros e as observaes. Que formas de dependncia podem ocorrer e devidas a que tipo de factores? Pois bem, uma importante fonte de dependncia pode surgir se os participantes num tratamento forem testados em pequenos grupos ou entrarem num tratamento com afiliaes prvias que afetam a forma como se faro as medies da varivel dependente. Uma segunda fonte de ocorrncia de dependncia pode ocorrer se os participantes num estudo puderem comunicar entre si sobre a tarefa que iro executar e, por fim, um terceiro tipo de situao de dependncia ocorre quando a componente de erro de cada observao cai num padro cclico tipicamente devido aos participantes, porque os dados que esto a ser recolhidos demasiado prximos uns dos outros no tempo. Esta proximidade dos casos uns aos outros no tempo, por vezes referida como autocorrelao, pode produzir componentes de erro residual que no so independentes uns dos outros. 2.1.2.Normalidade dos erros A curva normal conhecida pela sua tradicional curva em sino que mostra distribuies simtricas e que produz o mesmo valor de mdia, moda e mediana.

Figura 1 curva Normal

A Anova assume que o erro residual associado aos registos de Yi distribuem-se normalmente. Contudo, na prtica, muitas vezes encontramos variveis dependentes que no so perfeitas na sua forma. Os outliers so casos em que surgem valores extremos de uma determinada varivel, possivelmente indicando uma descoberta casual, mas o mais provvel ser indicativo de erro experimental (por exemplo, codificao de erro, insuficincia do participante em seguir as instrues, as crianas que no cooperam ou ratos, fadiga).Os Outliers devem ser eliminados, a menos que o
6

pesquisador os considere para ser verdadeiramente uma pequena parte da populao em estudo.Ora, consequncia desta falta de normalidade a perda da robustez da Anova , robustez essa que parte fundamental do teorema do limite central. Ainda assim, a violao deste principio no constitui razo para o investigador abandonar os seus dados. Uma das formas de corrigir esta situao a eliminao dos outliers ou dos ltimos 5% e os primeiros 5% da distribuio. 2.1.3.Homogeneidade da varincia necessrio garantir a homocedasticidade. A distribuio dos erros de cada grupo tem que ter varincias iguais. A violao deste principio tem pelo menos 3 causas (Keppel & Wickens,2004). Primeiro, as variveis independentes de classificao, como gnero ou etnia podem ter variaes nicas associadas com as observaes da varivel dependente. Em segundo lugar, uma manipulao experimental de uma varivel independente pode incentivar os participantes a comportarem-se de forma mais semelhante ou diferente do que a condio de controlo, produzindo assim diferenas de desvios do grupo, o que constitui a motivao para participar no estudo. Terceiro, a variabilidade de algumas variveis dependentes pode estar relacionada com o tamanho do grupo. A heterogeneidade pode tornar-se um problema srio com amostras de tamanhos desiguais. Existem fundamentalmente duas formas de corrigir a heterogeneidade da varincia. A primeira passa pela reduo do nvel do coeficiente alfa, habitualmente para 0.025 . Desta forma o erro tipo I vai manter-se abaixo dos 5%. E a segunda consiste em transformar os dados iniciais, utilizando por exemplo a a raiz quadrada ou o logaritmo; por vezes, tal consegue-se usando a funo arcoseno e atinge-se assim a normalidade e reduz-se a heterogeneidade. 3.ANLISE DE VARINCIA A UM FATOR E EFEITOS FIXOS Em experincias com um fator os dados consistem em k grupos/tratamentos independentes de amostras e em cada grupo so feitas ni medies. Se todas as amostras tiverem o mesmo nmero de medies (a mesma dimenso) dizemos que se trata de um caso equilibrado Ao longo deste trabalho iremos adotar a seguinte notao : Yij Resposta observada para cada tratamento, com i= 1,2,3,k ; j=1,2,3ni N total de observaes , com N= k.ni 3.1.Modelo Yij = i + ij = + i + ij Em que i - representa a mdia de cada grupo - representa a mdia de todos os grupo (mdia global) ij representa o erro aleatrio de cada observao, sendo estes erros independentes entre si i - representa o parmetro nico para o tratamento i (efeito do i-simo tratamento)

Pressupe-se que ij N(0,2) , pelo que Yij N(i,2) Isto significa que cada grupo provm de uma populao Normal com uma certa mdia i, mas todos com a mesma varincia.
3.2.Pressupostos 1. Temos k grupos/tratamentos de observaes independentes, sendo os grupos independentes entre si 2. Cada grupo de observaes deve provir de uma distribuio Normal 3. A varincia das populaes deve ser a mesma (homocedastecidade) 3.3.Hipteses a testar

H0 : 1= 2= = k =
3.4.Representao

vs H1 : i j para pelo menos um par (i,j)

Yio som totl ds observes do i-simo tratamento Yimdi ds observes do i-simo tratamento ymdi globl ds observes Assim, temos que Yio= Yoo= , Yi = , i=1,2,,k , y = , n=

A Soma de Quadrados Total , SQT , mede a variabilidade global dos dados. Assim, temos que SQT=

A variabilidade total pode ser expressa como uma partio:

SQT Em que

SQA

SQE

SQT representa a soma de quadrados total SQA representa a soma de quadrados entre amostras (devido aos tratamentos) SQE representa a soma de quadrados no erro/resduo

Para podermos efectuar o estudo da Anova com maior facilidade habitual representarmos todos os dados numa tabela Anova como a que se segue:

Origem de variao Entre tratamentos Entre erros total

Graus de Liberdade k-1 n-k n-1

Soma de Quadrados SQA SQE SQT

Quadrados Mdios QMA= QME=

Razo de Varincia

3.4.Tomada da deciso: Ao calcularmos a razo de varincias , F0=


, esta ter distribuio F de Fisher-

Snedecor, com k-1, n-k graus de liberdade. A regra da deciso que devemos adotar Rejeitar a hiptese nula ao nvel de significncia , se F0 > Fk-1,n-k (%)

4.ANLISE DE VARINCIA A UM FATOR E EFEITOS ALEATRIOS J percebemos como se realiza a Anova One-way de efeitos fixos. Mas pode haver necessidade de realizar experincias em que esto envolvidos um grande nmero de nveis ou tratamentos. Nesse caso, torna-se impossvel para o investigador estud-los todos, pelo que dever proceder a uma seleco aleatria de alguns. Este o modelo de efeitos aleatrios. Como a seleco feita aleatoriamente, possvel extrapolar as concluses para a populao. 4.1.Modelo Yij = + i + ij , i= 1,2,t ; j= 1,2,, r , em que t o nmero letrio de nveis/tratamentos e r a dimenso das amostras Yij Respost observd pr cd trtmento, com i= 1,2,3,k ; j=1,2,3ni - representa a mdia de todos os grupo (mdia global) ij representa o erro aleatrio de cada observao, sendo estes erros independentes entre si i - representa o parmetro nico para o tratamento i (efeito do i-simo tratamento) Se representarmos por vrinci de i e se i for independente de ij , ento a varincia de qualquer observao pode ser expressa por : V(yij)= em que denominada componente e varincia.

4.2.Pressupostos
9

i Normal e identicamente distribudos, independentes e com mdia 0 e varincia

ij - Norml e identicmente distribudos, independentes e com mdi 0 e vrinci 2


i e ij so independentes

4.3.Hipteses a testar H0 :

= 0 (no h variabilidade entre tratamentos) (h variabilidade entre tratamentos)

vs

H1 :

4.4.Representao Yio som totl ds observes do i-simo tratamento Yimdi ds observes do i-simo tratamento ymdi globl ds observes Assim, temos que Yio= Yoo= , Yi = , i=1,2,,k , y = , n=

A Soma de Quadrados Total , SQT , mede a variabilidade global dos dados. Assim, temos que SQT=

A variabilidade total pode ser expressa como uma partio:

SQT

SQA

SQE F 0=

Neste caso, a razo de varincias pode ser definida por , modelo desta forma:
Origem de variao Entre tratamentos Entre erros total Graus de Liberdade t-1 n-t n-1 Soma de Quadrados SQA SQE SQT

e o quadro resumo deste

Quadrados Mdios QMA= QME=

Razo de Varincia

10

4.5.Tomada da deciso: A regra da deciso que devemos adotar Rejeitar a hiptese nula ao nvel de significncia , se F0 > Fk-1,n-k (%)

Se observarmos com ateno, podemos constatar que os procedimentos da Anova de efeitos fixos e aleatrios so bastante semelhantes. No entanto, realamos a importncia das interpretaes dos resultados neste segundo caso, uma vez que, os resultados que aqui obtivermos sero extrapolados para toda uma populao. 5.ANLISE DE VARINCIA A DOIS FATORES No so raras as vezes em que as diferenas existentes entre tratamentos se devem no unicamente a um fator mas a vrios outros. Pode ser de interesse do investigador estudar a influncia dos mesmos nas diferenas possivelmente encontradas. Nestes casos, estaremos na presena de um estudo de anlise da varincia a dois(ou mais) fatores.
5.1.MODELO DE EFEITOS FIXOS UMA OBSERVAO POR CLULA 5.1.1.Modelo Yij = + i + j + ij , i= 1,2,r ; j= 1,2,, k

Yij observao do i-simo nvel do fator L e j-simo nvel do fator C - representa a mdia de todos os grupo (mdia global) ij representa o erro aleatrio de cada observao, sendo estes erros independentes entre si i - constantes desconhecidas representativas do efeito principal do i-simo nvel do fator L (linha i) j constantes desconhecidas representativas do efeito principal do j-simo nvel do fator C (coluna j) 5.1.2.Pressupostos Os mesmos que os assumidos para o modelo de anlise a um fator Neste modelo evidente que de interesse do investigdor comprr no s s mdis de como tmbm de , procurndo diferens ssinlveis entre coluns e tmbm entre linhs. Desta forma teremos a disposio habitual das observaes conforme a figura Fator C 1 Y11 Y21 2 Y12 k Y1k yrk

1 2 r

6.Testes de Comparao Mltipla (testes post-hoc)


11

Fator L

Quando o resultado do teste de F da Anlise de Varincia significativo, existem evidncias para a no aceitao de H0 como verddeir, o nvel % de probbilidde, isto , ceit-se a existncia de efeitos diferenciados para, pelo menos dois tratamentos. O prximo passo ser a identificao das diferenas existentes entre os tratamentos. Este estudo ser feito atravs das mdias dos tratamentos obtidas nas experincias. Os estudos sobre as mdias dos tratamentos levam em conta o tipo de fator que est a ser estudado: se o fator em estudo uma varivel qualitativa (variedades, tipos de adubos, diferentes dietas alimentares) o procedimento apropriado o das comparaes entre as mdias dos tratamentos atravs de testes de comparaes mltiplas. Sendo uma varivel quantitativa (doses de adubo, espaamentos, nveis de irrigao, pocas de amostragem), utiliza-se a anlise de regresso para o estudo do efeito dos tratamentos na varivel resposta. 6.1.Breve histria dos testes post-hoc Em 1995, Kirk estimou que existem cerca de 30 testes de comparao mltipla apresentados em literatura profissional. Independentemente desse fato, a verdade que respeitados estatsticos e educadores manifestam preferncias por dois ou trs sobre todos os outros. Alguns destes testes so datados dos anos 30 quando a Anova ficou popularizada. A segunda onda do seu desenvolvimento ocorreu por volta dos anos de 1950. As primeiras comparaes mltiplas surgem quando a LSD foi proposta por Fisher (1935). A proposta seguinte foi a SNK de Newman em 1939. Depois, os testes de comparao mltipla permaneceram adormecidos at 1950, quando ocorreu a verdadeira exploso de ideias: o procedimento de Duncan (1955), o HSD de Tuckey, o teste de contrastes de Scheff (1953), o mtodo de Dunnett (1955) e uma outra proposta de SNK (Keuls, em 1952). E uma vez mais, o ritmo de conceo de novos testes abrandou, at que, em 1960 surgem os procedimentos REGW e que se estendem no tempo at aos anos 70 (Ryan, 1960; Einot e Gabriel , 1975; Welsh,1977) 6.2.As Distribuies por detrs dos testes Post-Hoc Uma forma de categorizar as diferenas entre os testes de comparao mltipla atentar s distribuies por detrs deles (Kirk, 1995). Deste modo, podemos ento definir 4 categorias: a distribuio t-Student, distribuio gama Student, coeficiente de distribuio Student mximo e distribuio F. a) a distribuio t-Student de fato possvel usar um t-test para efectuar uma comparao entre duas mdias. Num contexto de teste post-hoc, este teste sera aplicado a um par de mdias. Ainda assim, a ser necessrio, se tivssemos que o fazer entre 5 mdias, isso conduzir-nos-a a 10 t-testes. O teste LSD (Least Significance Difference) de Fisher (1935) utiliz estes testes sem correco pr . Muitos autores defendem que, sem este tipo de proteco para o erro Tipo I, o teste LSD s deve ser aplicado para poucas comparaes, sob pena do teste devolver um falso positivo para a deciso. b) distribuio gama Student

12

Tem a sua origem nos trabalhos de Gosset, no entanto teve tambm a contribuio de outros estatsticos. De forma simplificada, podemos dizer que possvel determinar quanto da diferena das mdias necessita ser atingida para alcanar significncia estatstica para um dado alfa. A chave para esta determinao reside em obter uma estatstica intermdia denominada q que poder ento ser utilizada para alcanar a diferena de mdias pretendida. O valor de q tem uma frmula associada proposta por Hayes(1981) : Em que se utiliza a maior e a menor mdia a comparar e QMA obtido a partir da prpria tabela Anova. Esta abordagem originou algumas variaes : o teste HSD(Honestly Significance Difference) de Tuckey, por exemplo, aplica a distncia critica a todos os parese de mdias e, o SNK( StudentNewman-Keuls) apenas aos pares de mdias que diferem mais entre si.

c) coeficiente de distribuio Student mximo Baseado nas pesquisas de Sidk (1967) e na estatstica gama Student e corresponde a trabalhos em variaes do t-test. Apesar da gama Student assumir a presuno que as amostras tm o mesmo tamanho, o coeficiente de distribuio Student mximo aplicvel a grupos de tamanho diferente. d) Estatistica F De fato, realmente possvel utilizar a estatstica F para comparar mdias. Kirk (1995) diz-nos que, em grupos com o mesmo tamanho, t,q e F esto relacionados da seguinte forma:

6.3.Noo de contraste

Uma comparao entre mdias de tratamentos denominada contraste quando puder ser expressa por uma funo linear destas mdias: Y1 = c1y1 + c2y2 + + cIyI em que sendo ri o nmero de repeties do tratamento i. Se os tratamentos tm o mesmo nmero de repeties J, a condio So vrios os testes de comparao mltipla que podem ser utilizados aps a no aceitao de H 0 como verdadeira : Student Neuman Keuls (SNK)
13

Tukey Honestly Significant Difference (HSD ou Tukey) Fisher Protected Least Significant Difference (LSD) Duncan Multiple Range Test (Duncan) Teste de Ryan Teste de Peritz Teste de Scheff Teste de Dunnett Correco de Bonferroni sequencial Teste T3 de Dunnet (rank based) Teste C de Dunnet (rank based) Teste de Games Howell (rank based) Estes testes diferem entre si no rigor, no poder e tambm na sua aplicao. Deste modo, tentaremos aqui evidenciar os testes mais utilizados e as circunstncias da sua utilizao. poder
t DUNCAN SNK SCOTT-KNOTT TUKEY BONFERRONI SCHEFF

rigor

Figura 4 comparao entre os testes

Mesmo correndo o risco de alguns dos testes ficarem excludos , fazemos aqui uma pequena incurso nos seus prs e contras. 6.4.Teste de Neuman Keuls Por que se recomenda que no se use o teste de comparao mltipla de Newman-Keuls? O teste de Newman-Keuls (tambm chamado de Student-Newman-Keuls) compara todos os pares de mdias, seguindo-se a uma ANOVA. Tem mais poder do que o teste de Tukey. Por vezes, podemos achar que a diferena entre os dois grupos "estatisticamente significativa" em alguns casos onde o teste de Tukey iria concluir que a diferena "no estatisticamente significativa". Mas esta energia extra tem um preo. Sugere-se que se evite este teste porque, embora seja premissa dos testes de comparao mltipla manter a possibilidade de um erro do Tipo I em qualquer comparao, por forma a no exceder os 5%, de facto o teste de Newman-Keuls no o faz. Em alguns casos, a possibilidade de um erro deste tipo pode ser maior do que 5%. (O teste de Newman-Keuls funciona bem com trs grupos;. O aumento de erro de Tipo I ocorre apenas com quatro ou mais grupos). Porque o teste de Newman-Keuls funciona de uma forma sequencial, no pode produzir intervalos de confiana de 95% para cada diferena. difcil articular exatamente qual a hiptese nula do teste de Newman-Keuls; na verdade, os testes so to complexos, que se torna difcil de interpretar seus resultados. 6.5.Teste de Tukey Honestly Significant Difference (HSD ou Tukey) Uma tcnica de comparao fcil e frequentemente usada em pares de mdias foi desenvolvida por Tukey sob a designao de HSD (diferena honestamente significativa, em portugus). A principal ideia calcular a diferena entre duas mdias usando a distribuio de Student, que devolve a maior
14

diferena entre um conjunto de mdias provenientes da mesma populao. Todas as diferenas so avaliadas por meio de uma distribuio de amostragem, o que torna este mtodo bastante conservador. | Erro Padro =( )( | )

)(

Deciso : aceita-se H0 quando HSDcritico > HSDentre grupos 6.6.Teste LSD de Fisher O mtodo de Fisher para comparar todos pares de mdias controla a taxa de erro ao nvel de significnci pr cd compro dois dois, ms no control tx de erro d experinci. Esse procedimento usa a estatstica para testar H0 : i =j em que
( )

O procedimento de Fisher consiste em realizar testes t mltiplos, cada um ao nvel de significncia ,somente se o teste F preliminar for significnte o nvel . Este pode ser visto como um procedimento de duas etapas em que a hiptese nula H0 testada no primeiro passo por um teste F de nvel . Se o teste F no significativo, o procedimento termina sem precisar fazer inferncias detalhadas nas diferenas dos pares das mdias; caso contrrio, cada diferena de par testada por um teste t com nvel de significncia. Esse procedimento chamado de teste da diferena mnima significativa (least significant difference (LSD) test). O LSD controla a taxa de erro da experincia ao nvel sobre H0 devido a "proteo" fornecida para essa hiptese pelo teste F preliminar. No entanto, em outras configuraes (hipteses) de mdias verdadeiras, a taxa de erro da experincia pode ser mior que . Para tamanhos de amostras iguais (dados equilibrados), o teste de Fisher considera duas mdias significativamente diferentes se o valor absoluto de suas diferenas amostrais ultrapassar e para tamanhos de amostras diferentes (dados no equilibrados) ( )

em que t um valor tabelado (ver tabela Teste Fisher) que depende do nmero de graus de liberdade dos erros (N-k).
15

Por outras palavras, rejeitamos a igualdade entre as mdias dos dois nveis se | 6.7.Teste de Dunnett

Este um teste em que se comparam mdias com um controle ou com um valor referncia Dunnett (1955) foi pioneiro no conceito de que, quando um controle est presente, as comparaes de interesse preliminar podem ser as comparaes de cada novo tratamento com o controle. Por exemplo, o controle pode ser um placebo, um tratamento "padro", ou qualquer outro tratamento especfico (como uma nova droga). Suponhamos que 1,...,j-1 so as mdias dos novos tratamentos e j a mdia do controle. Quando realizamos comparaes mltiplas com um controle, os parmetros de interesse primrios so i-j pr i=1,2,,j-1, a diferena entre cada nova mdia de tratamento i e a mdia do controle j, ou seja, queremos testar as hipteses H0 : i = j H1 : i j O mtodo de Dunnett uma modificao do teste t usual. A menor diferena significativa neste caso dada por para dados equilibrados ( ) para dados no equilibrados

em que um valor tabelado proposto por Dunnet (ver Tabela do Teste de Dunnett), que depende do nmero de nveis (k) e dos graus de liberdade dos erros (N-k). Se tomarmos o nvel j como controle, rejeitamos a igualdade entre a mdia do nvel i e a mdia do nvel j se | | Em alguns estudos, a natureza dos tratamentos permite a composio de grupos de tratamentos similares e o interesse maior poder estar na comparao entre estes grupos. 6.8.Teste de Scheff O teste de Scheff pode ser empregue para testar qualquer tipo de contraste no sendo, no entanto, recomendado para testar contraste de duas mdias por ser muito pouco conservador. A estatstica para o teste de Scheff dada por:
| ( | )

Em que sendo F(k-1,n-k) () o vlor tbeldo d distribuio F com (k-1,n-k) grus de liberdde e nvel de significnci () As hipteses nulas
16

Ho :

so rejeitadas quando TS >

6.9.Teste de Bonferroni Outro dos mtodos de comparao mltipla proposto por Fisher e usualmente chamado de teste ou procedimento de Bonferroni, consiste na realizao de um teste t para cada par de mdias a uma taxa de erro por comparao (TPC) de . Usando esse teste, o nvel de significncia da famlia no
( )

mximo , para qualquer configurao (formao) das mdias da populao. Dessa forma, temos que o teste de Bonferroni protege a taxa de erro da famlia dos testes. Isso ilustra a taxa de erro conhecida como taxa de erro por famlia. O teste de Bonferroni pode ser usado para quaisquer que sejam os dados equilibrados ou no. No um teste exato, sendo baseado em uma aproximao conhecida como primeira desigualdade de Bonferroni. Em algumas situaes, o teste de Bonferroni mostra ser bastante "conservativo" (fraco), isto , a taxa de erro da famlia de testes (FWER) muito menor do que o nvel de significncia estabelecido. Para a famlia de todas as comparaes duas a duas, ir produzir intervalos de confiana maiores que o teste de Tukey ou Tukey-Kramer.Para tamanhos de amostras iguais (dados equilibrados), o teste de Bonferroni considera duas mdias significativamente diferentes se o valor absoluto de suas diferenas amostrais ultrapassar e para tamanhos de amostras diferentes (dados no equilibrados) ( )

em que

e c o nmero de comparaes duas a duas (ou tambm podemos dizer que o

nmero de intervalos em estudo). O quantil da distribuio de probabilidade t-Student com parmetro N-K ver Tabela do Teste de Bonferroni . Temos assim que a margem de erro da equao anterior depende do nmero de comparaes. 7. reas de aplicao da Anlise de Varincia A Anova um procedimento estatstico com mltiplas aplicaes em diferentes reas, sendo que, muitas delas so do mbito do nosso MBB. De seguida apresento alguns exemplos de estudos que foram realizados em diferentes campos cientficos, com recurso Anlise de Varincia 7.1.Anova e Agricultura
http://www.afsjournal.org/index.php?option=com_article&access=standard&Itemid=129&url=/articles/forest/abs/1999/05/AFS_00034312_1999_56_5_ART0008/AFS_0003-4312_1999_56_5_ART0008.html

7.2. Anova e Psicologia


17

http://www.scielo.br/pdf/ptp/v25n2/a11v25n2.pdf

7.3.Anova e Ecologia
http://www.melloleitao.locaweb.com.br/boletim/arquivos/15/Boletim_15_Artigo02.pdf

7.4.Outros Evidentemente, seria impossvel apresentar um estudo para cada rea de aplicao da Anova, mas estes que aqui referencio, so apenas alguns que posso exemplificar. Esta tcnica estatstica transversal a quase todas as reas das cincias, exatas ou no, desde a antropologia, medicina e cincias da sade, meteorologia, psicologia, ecologia, matemticas e afins, etc. 7.5.Exemplos de aplicao da Anlise de Varincia Conforme nos pedido neste trabalho, tentei realizar um estudo de Anlise de Varincia sobre um tema relacionado com o meu trabalho habitual, recorrendo ao software R. Eis o que me pareceu um exemplo engraado: eu dou explicaes de 8 disciplinas a alunos da Universidade Catlica Portuguesa; os 3 alunos que escolhi para realizar este estudo, so de 3 cursos de engenharia diferentes: Informtica, Mecnica e Biomdica. Dado que os 3 frequentam a mesma universidade, tm explicaes com a mesma pessoa, tm aulas com os mesmos professores e nas mesmas condies, pareceu-me ser extremamente interessante avaliar os seus resultados recorrendo a uma Anova realizada com o auxilio do R. Desta forma, apresento de seguida os dados de que disponho:
AM1 Aluno1 Aluno2 Aluno3 13 15 14 AM2 16 16 14 AM3 15 13 12 AM4 16 11 11 AN 12 10 15 FIS1 16 13 18 FIS2 17 17 16 PE 18 15 14

Ento, o que pretendo saber? A questo que se coloca se os 3 alunos apresentam um comportamento distinto em relao aos resultados obtidos nas 8 disciplinas. A resposta mais adequada a esta questo passa por efectuar uma anlise de varincia com um fator (aluno) e efeitos fixos. Recorrendo ento ao R, permiti o acesso do programa aos dados via importao de um ficheiro formato .txt que tinha colocado no meu desktop: > valores=read.table('C:/Users/Carlinha/Desktop/alunos.txt',header=T) > valores
18

a1 a2 a3 1 2 3 4 13 15 14 16 16 14 15 13 12 16 11 11

5 12 10 15 6 16 13 18 7 17 17 16 8 18 15 14

> attach(valores) > colMeans(valores) # calculo as mdias dos 3 alunos #


a1 a2 a3

15.375 13.750 14.250

> sapply(valores,sd) # e as suas varincias #


a1 a2 a3

1.995531 2.434866 2.187628

> boxplot(valores,xlab='ALUNOS',ylab='disciplinas',col=c("blue","yellow","pink")) # o traar de boxplots paralelos ir auxiliar-me para perceber se, primeira vista, existem diferenas entre os resultados dos 3 alunos #

disciplinas

10

12

14

16

18

a1

a2 ALUNOS

a3

> amostra=stack(valores) > amostra


values ind 1 2 3 4 5 6 13 a1 16 a1 15 a1 16 a1 12 a1 16 a1 7 8 9 10 11 12 17 a1 18 a1 15 a2 16 a2 13 a2 11 a2 13 14 15 16 17 18 10 a2 13 a2 17 a2 15 a2 14 a3 14 a3 19 20 21 22 23 24 12 a3 11 a3 15 a3 18 a3 16 a3 14 a3 19

> exemplo=lm(values~ind,data=amostra) agora necessrio averiguar se cada uma das amostras pose ser considerada proveniente de uma amostra normal. O teste adequado o de Shapiro-Wilk (a dimenso das amostras <20) > shapiro.test(resid(exemplo))
Shapiro-Wilk normality test data: resid(exemplo) W = 0.9623, p-value = 0.4856

O p-value que o teste devolve 0.4856 o que nos permite, ao nvel de significncia de 0.05 aceitar a hiptese de que as amostras so provenientes de uma populao aproximadamente Normal. De seguida necessrio averiguar a homogeneidade das varincias das amostras e decidi faz-lo recorrendo ao teste de Bartlett: > bartlett.test(values~ind,data=amostra)
Bartlett test of homogeneity of variances data: values by ind Bartlett's K-squared = 0.2616, df = 2, p-value = 0.8774

O valor devolvido permite-nos concluir que sim, existe homogeneidade das varincias (p-value > 0.05) Por fim a realizao da Anova a um fator, aps a formulao das hipteses: H0: os alunos apresentam comportamentos idnticos quanto aos resultados nas disciplinas H1: pelo menos um dos alunos apresenta comportamento distinto quanto aos resultados em relao aos restantes > anova(exemplo)
Analysis of Variance Table Response: values Df ind Residuals 2 21 Sum Sq 11.083 102.875 Mean Sq 5.5417 4.8988 F value 1.1312 Pr(>F) 0.3415

A observao do output da tabela Anova permite-nos concluir que os resultados dos alunos so idnticos ao nvel de significncia de 5%.Ora este exemplo que utilizei no permitiu o uso de testes de comparao mltipla, uma vez que tais s so necessrios quando realizamos uma Anova e rejeitamos a hiptese nula (as mdias so iguais), o que no aconteceu. Como tal, decidi procurar um outro exemplo, com aplicabilidade na rea de competncias do MBB e no qual se necessitasse recorrer aos ditos testes de comparao mltipla. Eis o exemplo que descobri:
20

Uma experincia foi realizada para se estudar a Diabetes Gestacional. Desejava-se avaliar o comportamento da Hemoglobina (HbA) em gestantes normais (N), com tolerncia diminuda (TD) e diabticas(D). Escolheram-se 10 gestantes de cada tipo e mediram-se os seus nveis HbA; os resultados encontramse na tabela em anexo:
N 7.86 6.38 6.90 7.78 8.17 6.26 6.30 7.86 7.42 8.63 TD 6.20 7.82 8.50 6.50 8.09 6.90 7.82 7.45 7.75 7.43 D 9.67 8.08 9.25 8.20 8.64 9.67 9.23 10.43 9.97 9.59

> valores=read.table('C:/Users/Carlinha/Desktop/Livro1.txt',header=T) # permitir o acesso ao ficheiro de


dados #

> valores
N TD D 6 6.26 6.90 9.67 7 6.30 7.82 9.23 8 7.86 7.45 10.43 9 7.42 7.75 9.97 10 8.63 7.43 9.59

1 7.86 6.20 9.67 2 6.38 7.82 8.08 3 6.90 8.50 9.25 4 7.78 6.50 8.20 5 8.17 8.09 8.64

> attach (valores)

> colMeans(valores) # clculo da mdia #


N TD D

7.356 7.446 9.273

> sapply(valores,sd) # clculo da varincia #


N TD D

0.8468530 0.7183036 0.7614175

> boxplot(valores,xlab='gestantes',ylab='HbA',col=c("cyan","deeppink","aquamarine1"))
21

HbA 7 8

10

TD gestantes

> amostra=stack(valores) > amostra


values ind 1 7.86 N 2 6.38 N 3 6.90 N 4 7.78 N 5 8.17 N 6 6.26 N 7 6.30 N 8 7.86 N 9 7.42 N 10 8.63 N 11 6.20 TD 12 7.82 TD 13 8.50 TD 14 6.50 TD 15 8.09 TD 16 6.90 TD 17 7.82 TD 18 7.45 TD 19 7.75 TD 20 7.43 TD 21 9.67 D 22 8.08 D 23 9.25 D 24 8.20 D 25 8.64 D 26 9.67 D 27 9.23 D 28 10.43 D 29 9.97 D 30 9.59 D

> exemplo=lm(values~ind,data=amostra) > shapiro.test(resid(exemplo))


Shapiro-Wilk normality test data: resid(exemplo) W = 0.9317, p-value = 0.05438

O p-value que o teste devolve 0.05438 o que nos permite, ao nvel de significncia de 0.05 aceitar a hiptese de que as amostras so provenientes de uma populao aproximadamente Normal. De seguida necessrio averiguar a homogeneidade das varincias das amostras e decidi faz-lo recorrendo ao teste de Bartlett: > bartlett.test(values~ind,data=amostra)
Bartlett test of homogeneity of variances 22

data: values by ind Bartlett's K-squared = 0.2422, df = 2, p-value = 0.886

O valor devolvido permite-nos concluir que sim, existe homogeneidade das varincias (p-value > 0.05) Por fim a realizao da Anova a um fator, aps a formulao das hipteses: H0: as gestantes apresentam comportamentos idnticos quanto aos valores de HbA H1: pelo menos um dos tipos de gestante apresenta comportamento distinto quanto ao nvel de HbA em relao aos restantes > anova(exemplo)
Analysis of Variance Table Response: values Df ind Residuals --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 2 27 Sum Sq 23.403 16.316 Mean Sq 11.7015 0.6043 F value 19.364 Pr(>F) 6.078e-06 ***

A observao do output da tabela Anova permite-nos concluir que os nveis de HbA no so idnticos ao nvel de significncia de 5%. (p-vlue <0.05 rejeitr H0 ). Tal como era expectvel, os nveis de HbA diferem nos 3 tipos de gestante, pelo que ser conveniente proceder a um teste de comparao mltipla para tentar perceber onde se encontram as principais diferenas. > hb.aov<-aov(exemplo) > TukeyHSD(hb.aov,ordered=TRUE)
Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered Fit: aov(formula = exemplo) $ind diff TD-N 0.090 D-N 1.917 lwr -0.7719621 1.0550379 upr 0.9519621 2.7789621 p adj 0.9637780 0.0000223 23

D-TD 1.827

0.9650379

2.6889621

0.0000445

> plot(TukeyHSD(hb.aov,ordered=TRUE))
95% family-wise confidence level
TD-N D-TD D-N

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

Differences in mean levels of ind

Tanto o grfico como a tabela mostram onde se registam as maiores diferenas: os pares com diferenas mais significativas so aqueles que apresentam limites inferiores (lwr) positivos. Neste caso, podemos afirmar que os pares D-N e D-TD apresentam diferenas significativas ao nvel de 5% (p-value <0.05) 8. Concluso Tentmos no decorrer deste trabalho explicar de forma sucinta o que a Anlise de Varincia, quais as suas aplicaes e pressupostos. Expusemos alguns dos seus modelos apesar de no ser possvel explic-los todos, dada a sua extenso. Ainda assim, pde perceber-se que a aplicabilidade da Anova imensa e a sua utilizao transversal a quase todas as cincias. Fizmos tambm um breve resumos dos testes de comparao mltipla, explicando de forma sucinta alguns deles, mas muitos ficaram por mencionar. Efetumos em R dois estudos com a aplicao da Anova e num deles recorremos tambm s comparaes mltiplas. Um dos exemplos foi de aplicao numa das principais reas do meu trabalho, conforme solicitado. Da realizao deste trabalho, retivemos algumas ideias principais: A Anlise de varincia uma tcnica estatstica que visa comparar vrias mdias de diferentes amostras sem que se tenha que recorrer comparao parwise, que tornaria o nosso trabalho muito mais extenso. O software R realmente muito potente e fivel. Permite-nos analisar cada questo at exausto, assim seja o limite que nos impomos a ns mesmos. Muito ficou por dizer neste trabalho quem sabe, numa tese de Mestrado, ou de Doutormentoum di!

24

9. Bibliografia [1] Oliveira, Teresa Paula C., Estatstica Aplicada, Universidade Aberta, 2002 [2] Montgomery, Douglas, Design and Analysis of Experiments, 5th Edition, 1997 [3] Gamst, Glenn, Meyers, Lawrence, Guarino, AJ, Analysis of Variance Designs, Cambridge, 2008 [4] Dean, Angela, Voss, Daniel, Design and Analysis of experiments,1999 [5] Correia, Helga, Anova na Educao, Tese de Mestrado, Universidade Aberta, 2010-2011 [6] Ross, Sheldon, Simulation, 2006 [7] Ferreira, Daniel Furtado, Estatstica Computacional usando R, Brasil, 2008 [8] Landeiro, Victor Lemes, Introduo ao uso do programa R, Brasil, 2011 [9] Provete, Diogo Borges, Silva, Fernando Rodrigues, Estatstica aplicada ecologia usando o R,2011 Webgrafia [10] http://rtutorialseries.blogspot.pt/2011/03/r-tutorial-series-anova-pairwise.html (28maio 2102) [11] http://www.youtube.com/watch?v=g7yvBYzAIho (30 maio 2012) [12] http://www.portalaction.com.br (02 junho 2012) [13] http://ecologia.ib.usp.br/bie5782/doku.php?id=start (10 junho 2012) [14] http://www.math.mcmaster.ca/peter/s2ma3/s2ma3_0102/classnotes/notes20020328.html (10 junho 2012)

25