Академический Документы
Профессиональный Документы
Культура Документы
TESTES NO PARAMTRICOS
ndice
1 2
Introduo................................................................................................................. 2 Testes de Aleatoriedade............................................................................................ 3 2.1 Teste das sequncias (runs) .............................................................................. 3 3 Testes de localizao ................................................................................................ 7 3.1 Teste do sinal (sign).......................................................................................... 8 3.2 Teste de Wilcoxon (Wilcoxon signed rank) ................................................... 12 3.3 Teste de Wilcoxon para duas amostras emparelhadas.................................... 17 3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras................................. 19 3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio normal 22 4 Anlise de varincia ............................................................................................... 25 4.1 Teste de Kruskal-Wallis ................................................................................. 26 A estatstica de teste : ........................................................................................... 27 4.2 Teste de Friedman .......................................................................................... 33 5 Coeficiente de correlao de Spearman.................................................................. 36
TESTES NO PARAMTRICOS
1 Introduo
Os testes de hiptese recebem a designao de testes paramtricos se satisfazem simultaneamente as seguintes duas condies: Os testes incidem explicitamente sobre um parmetro de uma ou mais populaes (por exemplo, sobre a mdia ou valor esperado, ou sobre a varincia); A distribuio de probabilidades da estatstica de teste pressupe uma forma particular das distribuies populacionais de onde as amostras foram recolhidas. Por exemplo, a distribuio da estatstica de teste do teste t-Student para comparar as mdias de duas amostras pressupe que as amostras foram retiradas de uma populao que se distribui segundo uma funo de probabilidades Normal, e alm disso pressupe tambm que as varincias das duas amostras so homogneas1. Os erros ou resduos i (tal que xi = + i ) tm distribuio normal; Os erros ou resduos i tm varincia finita e constante 2 ; Os erros ou resduos i so independentes.
Assim, se algum destes pressupostos violado, ento os testes tradicionais vistos anteriormente no tm rigor estatstico, e devero ser evitados, e em sua substituio dever-se-o utilizar testes que no exigem o cumprimento de tais pressupostos. Estes testes designam-se por testes no paramtricos. Os testes no paramtricos no esto condicionados por qualquer distribuio de probabilidades dos dados em anlise, sendo tambm designados por distribution-free tests. Tal como no estatisticamente rigorosa a utilizao de testes paramtricos quando no se cumprem os pressupostos necessrios, tambm dever ser evitada a utilizao dos testes no paramtricos em situaes em que prevalecem as condies de utilizao dos testes paramtricos, pois estes (paramtricos) so mais potentes que os testes no paramtricos. Trate-se de um teste paramtrico ou no paramtrico, para l dos pressupostos acima referidos, qualquer teste de hipteses s tem validade estatstica se as amostras sobre as que esto a ser aplicados forem aleatrias. Assim, dentro dos testes no paramtricos, veremos alguns que se aplicam para verificar a aleatoriedade das amostras.
A frmula de Welsh para calcular os graus de liberdade do teste de comparao de duas amostras cujas varincias no so homogneas resulta se a violao deste pressuposto no muito acentuada. Se as varincias so muito diferentes, prefervel usar um teste no paramtrico.
Para verificar a forma de distribuio das populaes, a fim de se decidir pela utilizao de um teste paramtrico ou por um teste no paramtrico, podem usar-se os testes de bondade ou qualidade de ajustamento das amostras a funes de distribuio de probabilidades, tais como o teste do qui-quadrado, o teste de Kolmogorov-Smirnov, teste de Shapiro-Wilk. A maioria dos programas estatsticos tm estes testes implementados.
2 Testes de Aleatoriedade
Imagine-se que em vinte lanamentos de uma moeda ao ar, se observa a seguinte sequncia alternada da face sada: cara-coroa-cara-coroa-cara-coroa-cara-coroa-etc, sempre com a mesma regularidade. Facilmente se percebe que este resultado no aleatrio. O que inslito neste resultado no o facto de se terem registado 10 caras e 10 coroas, mas sim o facto de as faces terem sado sempre de modo alternado. Em geral, a no aleatoriedade pode ocorrer de muitas formas: misturas de populaes com diferentes mdias ou diferentes varincias, correlao positiva ou negativa entre observaes sucessivas, periodicidade, etc. Nos grficos seguintes esquematizam-se algumas situaes de no aleatoriedade.
Dis tribui o aleatria Obs erva es c orrelac ionadas pos itivam ente
usar-se o teste das sequncias para testar se as observaes se distribuem aleatoriamente abaixo (codificado com 0) ou acima (codificado com 1) de um valor mdio ou de um valor mediano. Define-se por sequncia um conjunto de observaes idnticas (por exemplo, 1,1,1,...) que precedido ou sucedido por um conjunto de observaes de outro tipo (por exemplo, 0,0,...). Cada um destes conjuntos pode conter uma s observao. Por exemplo, o conjunto de observaes 0,1,1,0,1,0,1,1 contm 8 observaes e 6 sequncias ou runs. Em geral, uma amostra de dimenso N (com N 0 observaes codificadas com o valor 0 e N1 observaes codificadas com o valor 1), apresentar r N sequncias. O teste de hipteses : H 0 : A amostra aleatria
H1 : A amostra no aleatria
A estatstica do teste baseia-se no nmero de sequncias contidas na amostra (geralmente designado por R). Geralmente o teste bilateral: rejeita-se a hiptese nula quando h poucas sequncias diferentes (esta situao levada a extrema, conduziria a uma nica sequncia, ou a duas sequncias, que equivaleria mistura de duas populaes); tambm se rejeita a hiptese nula quando h muitas sequncias diferentes: na situao extrema haveria tantas sequncias quantas as observaes, o que significa que a seguir a uma observao codificada com 0, viria obrigatoriamente uma observao codificada com 1. Por exemplo, se na amostra 10, 10, 10, 15, 15, 15 codificarmos as observaes da seguinte forma: 0, para observaes abaixo da mediana; 1 para observaes acima da mediana; conclui-se que existem apenas 2 sequncias, o que eventualmente um sinal de no aleatoriedade. Existem tabelas para a distribuio do nmero de sequncias, em funo do nmero de observaes em cada uma das duas categorias em que amostra clasificada. Admitindo que a hiptese nula verdadeira (amostra aleatria), a distribuio de R pode ser aproximada pela distribuio Normal com parmetros:
R =
2.N A .N B +1 N
R =
2.N A .N B . ( 2.N A .N B N ) N 2 . ( N 1)
Z= Exemplo 1:
R R
~ N ( 0,1)
Em N = 25 lanamentos sucessivos de uma moeda ao ar registaram-se os seguintes resultados (em que E representa a sada de Cara e C a sada de Coroa): E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C Pretende-se verificar se a amostra aleatria. H 0 : A amostra aleatria N E = 14 N C = 11 R = 16 Na tabela de distribuio do nmero de sequncias, para NC = 11 e N E = 14 , e para = 5% , os nmeros crticos de sequncias so 8 e 19, isto , a regio crtica para R < 8 R > 19 e a regio de aceitao para 8 R 19 . Como R = 16 , conclui-se que se deve aceitar a hiptese nula.
Fazendo a aproximao normal, teramos:
H1 : A amostra no aleatria
R =
2.N A .N B 2 14 11 +1 = + 1 = 13.32 N 25
2.N A .N B . ( 2.N A .N B N ) 2 14 11 ( 2 14 11 25 ) = = 2.4106 2 N . ( N 1) 252 24
R =
Deciso: Fixando um nvel de significncia, por exemplo = 5% , e admitindo que o teste de natureza bilateral (o que corresponde a que R pode afastar-se de R em ambos os sentidos), o valor crtico Z 0.05 = 1.96 ; como Z = 1.1118 < Z 0.05 = 1.96 , conclui-se que no se deve rejeitar a hiptese de que a amostra aleatria. A mesma deciso pode ser tomada estimando o valor de probabilidade limite:
Exemplo 2:
Na tabela seguinte apresentam-se o peso nascena (PN) e o peso aos 45 dias (P45) de um lote de 30 borregos; a varivel RESIDUOS contm os resduos da equao de regresso P 45 = 2.79 + 2.54 PN :
PN 1.2 1.2 1.4 1.6 2.0 2.0 2.0 2.2 2.2 2.4 2.4 2.4 2.6 2.6 2.8 3.0 3.0 3.0 3.2 3.2 3.2 3.2 3.4 3.4 3.6 3.6 3.8 3.8 4.0 4.2 P45 9.62 4.20 6.74 7.69 6.20 8.63 7.46 7.21 8.39 7.11 8.00 8.49 9.35 10.71 9.69 10.42 10.71 11.40 13.67 12.64 6.91 7.70 11.33 12.00 11.12 10.91 14.18 13.50 14.00 13.64 RESIDUOS 3.782 -1.638 0.394 0.836 -1.670 0.760 -0.410 -1.168 0.012 -1.776 -0.886 -0.396 -0.044 1.316 -0.212 0.010 0.300 0.990 2.752 1.722 -4.008 -3.218 -0.096 0.574 -0.814 -1.024 1.738 1.058 1.050 0.182 GRUPO 1 0 1 1 0 1 0 0 1 0 0 0 0 1 0 1 1 1 1 1 0 0 0 1 0 0 1 1 1 1
Pretende-se verificar se os resduos se distribuem aleatoriamente em torno do valor zero (que um dos pressupostos da regresso linear). Isto : H0 : H1 : Os resduos distribuem-se aleatoriamente em torno de 0 Os resduos no se distribuem aleatoriamente em torno de 0
Para efectuar o teste das sequncias, temos de classificar cada um dos resduos numa varivel dicotmica: 0, se o resduo inferior a zero; 1, caso contrrio (coluna GRUPO). Note-se que a amostra est ordenada em termos da varivel PN.
A partir do quadro anterior, calcula-se: N 0 = 14 N1 = 16 R = 15 Na tabela de distribuio do nmero de sequncias, para N 0 = 14 e N1 = 16 , e para = 5% , os nmeros crticos de sequncias so 10 e 22, isto , a regio crtica para R < 10 R > 22 e a regio de aceitao para 10 R 22 . Como R = 15 , conclui-se que se deve aceitar a hiptese nula. Fazendo a aproximao normal, teramos:
R =
2.N A .N B 2 14 16 +1 = + 1 = 15.9333 N 30
2.N A .N B . ( 2.N A .N B N ) N . ( N 1)
2
R =
2 14 16 ( 2 14 16 30 ) 302 29
= 2.6786
Deciso: Fixando um nvel de significncia, por exemplo = 5% , e admitindo que o teste de natureza bilateral (o que corresponde a que R pode afastar-se de R em ambos os sentidos), o valor crtico Z 0.05 = 1.96 ; como Z = 0.3484 < Z 0.05 = 1.96 , conclui-se que no se deve rejeitar a hiptese de que a amostra aleatria. A probabilidade limite p value = 0.7275 , pelo que se dever aceitar a hiptese nula com um nvel de significncia de 0.7275.
3 Testes de localizao
O valor esperado, esperana matemtica ou mdia o parmetro de localizao mais frequentemente utilizado em inferncia estatstica. No entanto, a mediana populacional (vamos represent-la por ), que corresponde tambm a um valor central das distribuies, pode constituir uma alternativa mdia, uma vez que: menos influenciada por valores extremos (consideremos a seguinte amostra, com 5 observaes: 2, 13, 13, 14, 15; a mdia 11.4, enquanto que a mediana
~
13; o valor extremo 2, muito afastado do contexto das restantes, afecta bastante a mdia, causando um enviezamento deste parmetro; a mediana no afectada); Quando as distribuies so assimtrica, a mediana situa-se numa posio mais prxima do valor mais observado, podendo por isso ter mais sentido como medida da tendncia central; Quando as distribuies so simtricas, a mediana populacional e a mdia ou valor esperado coincidem, possuindo assim o mesmo mrito como medida de tendncia central.
Alguns testes no paramtricos acerca de um parmetro de localizao utilizam a mediana como esse parmetro. Estes testes constituem uma alternativa aos testes paramtricos acerca da mdia.
H1 : 0
~ ~ ~ ~
(note-se que a hiptese alternativa pode ser unilateral, > 0 ou < 0 ). A estatstica de teste Y = nmero de observaes abaixo (ou acima) de 0 . Se a hiptese nula for verdadeira e a amostra for aleatria, o nmero de observaes com valor inferior (ou superior) a 0 uma varivel aleatria binomial com parmetro p = 0.5 . Ento, o teste de hiptese equivalente a testar: H 0 : p = 0.5 H1 : p 0.5
~ ~
(tratando-se de um teste unilateral, a hiptese alternativa ser H1 : p < 0.5 ou H1 : p > 0.5 ). Os valores crticos para estabelecer a regio de aceitao e a regio crtica so obtidos pelo clculo das probabilidades de funo binomial. Se o teste bilateral, pretende-se estabelecer a regio crtica: Pr Y Yci Y Ycs p = 0.5 = Bi ( N ; p ) +
k =0
Yci
k =Yks
Bi ( N ; p )
em que Yci e Ycs so respectivamente os valores de Y = nmero de observaes abaixo (ou acima) de 0 correspondentes a uma probabilidade (nvel de significncia), e
k =Yks
~
Bi ( N ; p )
na cauda
superior da distribuio). Note-se que Yci e Ycs so simtricos em relao a 0 . O nome do teste (sinal ou sign) provm de, ao fazer os clculos, se registavam tradicionalmente por ou por + as observaes inferiores ou superiores a 0 . Este teste tem a vantagem de poder aplicar-se a dados de tipo dicotmico que no podem registar-se numa escala numrica, mas que podem representar mediante respostas negativas ou positivas. Por exemplo, pode ser usada em ensaios em que se registam resultados qualitativos do tipo fracasso ou xito.
~
Exemplo:
Admita-se que a produo mediana de leite (em ordenha, aps retirar borregos) de um determinado rebanho de ovelhas Merino da Beira Baixa de 60 litros/animal e ano. Numa amostra de 12 ovelhas retiradas desse rebanho obtiveram-se as seguintes produes por animal e ano: 44.0; 46.6; 48.2; 51.8; 60.3; 61.7; 63.6; 72.7; 77.4; 82.4; 96.1; 105.6 Pretende-se verificar:
H 0 : = 60
~
H1 : 60
A hiptese nula estabelece que a produo mediana de 60 litros; se esta hiptese verdadeira, 50% do rebanho ter uma produo inferior (e 50% ter uma produo superior a 60 l); isto , o anterior teste pode escrever-se como: H 0 : p = 0.5 H1 : p 0.5
Nestas condies, se o tamanho da populao for muito grande em relao amostra, o nmero de animais com produo inferior a 60 l numa amostra de 12 animais, segue uma distribuio binomial (12;0.5 ) . No exemplo, Y=4 (nmero de animais com produo inferior a 60). No grfico seguinte apresentam-se as probabilidades de acontecerem 0, 1, 2, ..., 12 sucessos numa prova de Bernoulli com p = 0.5 (cada uma destas probabilidades dada pela expresso: Pr k B ( N ; p ) = CkN p k (1 p )
N k
).
Assim, para um nvel de significncia = 5% , e sendo o teste bilateral, a hiptese nula seria rejeitada se na amostra ocorrerem menos de 3 ou mais de 9 animais com produo inferior a 60 l.
0.1934
0.2256
0.1208
0.1934 0.1208
0.0537
0.0537
10
Este valor (ou quantil da distribuio binomial) pode ser calculado com a funo CRIT .BINOM ( N ; p; ) :
(como se trata de um teste bilateral, o quantil que define o limite superior da regio de aceitao calcula-se colocando-o mesma distncia que separa o quantil inferior e a mdia). A deciso do teste tambm se pode efectuar, calculando a probabilidade limite (que geralmente todos os programas estatsticos apresentam nos testes de hiptese). Na folha de clculo Excel, a funo DISTRBINOM ( k ; N ; p; cumulativo ) calcula a funo de distribuio cumulativa de probabilidades binomial, at a k sucessos:
10
Tratando-se de um teste bilateral, a probabilidade limite ser dupla desta (isto , p value = 2 0.19385 = 0.3877 ). Se o tamanho da amostra muito grande, o clculo das probabilidades da funo binomial pode ser aproximado pela funo de distribuio normal estandardizada, sendo:
= N. p
= N . p. (1 p )
e estatstica de teste :
Z=
( k + 0.5) 0.5.N N . p. (1 p )
Para = 5% , os quantis da distribuio normal que estabelecem as regies de aceitao e de rejeio da hiptese nula so Z 0.05 = 1.96 , donde se conclui que se deve aceitar H 0 . O valor da probabilidade limite, pela aproximao normal p value = 0.3865 , valor muito aproximado ao estimado com a funo binomial.
11
H0 : = 0
H1 : 0
~ ~ ~ ~
(note-se que a hiptese alternativa pode ser unilateral, > 0 ou < 0 ). Se a populao for contnua e simtrica, a amostra for aleatria e H 0 for verdadeira, ento as diferenas:
di = xi 0
~
devero distribuir-se de forma simtrica em torno de 0. Ou seja, observar-se-o diferenas positivas e negativas com valores absolutos da mesma ordem de grandeza, e em nmero aproximadamente igual. A avaliao relativa da magnitude das diferenas di pode ser efectuada ordenando de forma crescente, de 1 a N, os seus valores absolutos di e atribuindo a cada um destes o respectivo nmero de ordem (em ingls esta ordenao designa-se por rank, de onde vem o nome do teste), com o sinal negativo ou positivo, consoante di sejam negativo ou positivo. Se a populao for simtrica em torno de 0 e H 0 for verdadeira, a soma dos nmeros de ordem referentes s diferenas di negativas dever ser aproximadamente igual soma dos nmeros de ordem referentes s diferenas di positivas. Uma situao contrria a esta beneficia uma das hipteses alternativas. Por exemplo, se a soma dos nmeros de ordem relativos s diferenas positivas for muito maior do que a soma dos nmeros de ordem das diferenas negativas, ento a hiptese alternativa H1 : > 0 tornar-se- plausvel. A estatstica de teste de Wilcoxon baseada, justamente, na propriedade que acaba de ser enunciada.
~ ~ ~
12
Os passos para o clculo da estatstica de teste de Wilcoxon so: Calculam-se as diferenas di = xi 0 ; Ordenam-se as diferenas di por ordem crescente dos respectivos valores absolutos di ; Atribui-se um nmero de ordem sequencialmente a cada di ; os nmeros de ordem referentes a di so precedidos do sinal +; os nmeros de ordem referentes a di negativos so precedidos do sinal -; Quando o valor absoluto de duas ou mais diferenas o mesmo (isto , quando existem empates ou ties), o nmero de ordem atribudo a cada uma dessas diferenas com o mesmo valor absoluto d i a mdia aritmtica dos nmeros de ordem que tais observaes receberiam se no estivessem empatadas. Sejam por exemplo as diferenas ordenadas a sequncia 1, 3, -3, 5, 7, -7, -7, 8; os respectivos nmeros de ordem seriam 1, 2.5, 2.5, 4, 6, 6, 6, 8. Quando existem zeros, isto , quando di = 0 , estes valores devem ignorar-se, e consequentemente, reduzir o tamanho da amostra em tantas unidades, tantos os zeros que existam. Calcula-se a estatstica de teste, geralmente designada por T, e que resulta da soma dos nmeros de ordem positivos (caso em que a estatstica de teste se representa por T+ ) ou dos nmeros de ordem negativos (a estatstica de teste representada por T ).
~
Note-se que a estatstica de teste toma sempre um valor no negativo, e para uma amostra de tamanho N a soma de todos os nmeros de ordem : T+ + T = N . ( N + 1) 2
Se a hiptese nula verdadeira, as distribuies de T+ e T so simtricas em torno do valor esperado: N . ( N + 1) 4 de modo que seria indiferente usar de T+ ou T como estatstica de teste. Contudo, por comodidade, em cada uma das seguintes situaes de hiptese alternativa, usual considerar: Hiptese nula
~ ~
Hiptese alternativa
< 0 = 0 0
~ ~ ~ ~
> 0
13
Existem tabelas com os valores crticos de T+ ou T para decidir acerca da significncia do teste. Para amostras com N 15 demonstra-se que a distribuio amostral de T+ (ou T ) se aproxima da distribuio normal de parmetros: Mdia:
T =
+
N . ( N + 1) 4 N . ( N + 1)( 2.N + 1) 24
Varincia:
2 T =
+
Se existem empates a varincia deve ser corrigida, sendo neste caso a expresso para clculo da varincia: Varincia:
2 T+
em que ui representa o nmero de empates no i-simo grupo de observaes iguais. Quando se faz a aproximao funo de distribuio normal, a estatstica de teste :
T+ T+ N . ( N + 1) 4 ~ N ( 0,1) N . ( N + 1)( 2.N + 1) 24 T+
Z=
Exemplo 1: Os seguintes dados referem-se aos pesos ao nascimento de uma amostra de 9 borregos: 1.9, 2.0, 2.2, 2.8, 3.1, 3.1, 3.3, 3.4, 3.7 Pretende-se averiguar se podemos considerar que o peso mediano dos borregos nascena neste rebanho de 3.3 kg. O teste de hipteses :
H 0 : = 3.3
~
H1 : 3.3
No seguinte quadro apresenta-se o clculo da estatstica de teste T+ e T , conforme atrs descrito. Chama-se a ateno para a existncia de dois empates e um zero; o zero deve ser ignorado, considerando N = 8 ; as diferenas das observaes para a mediana 0 = 3.3 correspondentes aos empates seriam a 2 e 3 diferenas, se no houvesse empate; assim, ambas tero nmero de ordem 2.5.
14
xi
3.3 3.4 3.1 3.1 3.7 2.8 2.2 2 1.9
di = xi 0
0 0.1 -0.2 -0.2 0.4 -0.5 -1.1 -1.3 -1.4
di
0 0.1 0.2 0.2 0.4 0.5 1.1 1.3 1.4
T+ = 5
T = 31
Para amostras at 15 observaes existem tabelas dos valores crticos da distribuio das estatsticas T+ e T , isto , os valores das probabilidades tais que Pr (T+ < te ) e
Pr (T > td ) . Na tabela em anexo, para um tamanho de amostra N = 8 , verifica-se que Pr (T+ < 5 ) = Pr (T > 31) = 0.039 , ou seja, p value = 0.078 Assim, a hiptese nula no
Caso no se disponha da tabela, ou se opte por fazer a aproximao funo de distribuio normal, devem calcular-se os parmetros desta: Mdia:
T =
+
N . ( N + 1) 8 9 = = 18 4 4
Varincia (note-se que existem duas diferenas empatadas, pelo que se deve fazer a correco da varincia):
2 T+
Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica Z = 1.8226 tambm se pode calcular a probabilidade limite: p value = 0.0684 , sendo a deciso a mesma que anteriormente.
15
Exemplo 2: Os dados seguintes referem-se ao peso vivo aos 45 dias de um lote de borregos: 4.2 6.2 7.2 7.2 7.2 7.7 8 8.5 8.5 8.6 9.5 10.4 10.7 11.1 11.3 12.6 13.6 13.7 14 14.1
Pretende-se verificar se o peso mediano aos 45 dias de idade dos borregos deste rebanho de 10 kg. O teste de hipteses pretendido :
H 0 : = 10
~
H1 : 10
No seguinte quadro apresenta-se o clculo da estatstica de teste T+ e T , conforme atrs descrito. Chama-se a ateno para a existncia de alguns empates; devido a estes empates, os nmeros de ordem das diferenas so 7.5 para os dois pesos 8.5 (pois seriam a 7 e 8 observaes, e em caso de empate, recebem a mdia dos nmeros de ordem que receberiam se no houvesse empate), e 13 para os trs pesos 7.2 kg (se no houvesse empate, seriam os nmeros de ordem 12, 13 e 14, cuja mdia 13).
xi
10.4 9.5 10.7 11.1 11.3 8.6 8.5 8.5 8 7.7 12.6 7.2 7.2 7.2 13.6 13.7 6.2 14 14.1 4.2
di = xi 0
0.4 -0.5 0.7 1.1 1.3 -1.4 -1.5 -1.5 -2 -2.3 2.6 -2.8 -2.8 -2.8 3.6 3.7 -3.8 4 4.1 -5.8
di
0.4 0.5 0.7 1.1 1.3 1.4 1.5 1.5 2 2.3 2.6 2.8 2.8 2.8 3.6 3.7 3.8 4 4.1 5.8
T+ = 92
T = 118
16
O valor esperado de T : N . ( N + 1) 20 21 = = 105 4 4 Note-se que T+ = 92 e T = 118 so simtricos em torno do valor esperado(105). A fim de calcular a estatstica de teste para proceder deciso do teste, temos em primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros so: Mdia:
T =
+
N . ( N + 1) 20 21 = = 105 4 4
Varincia (note-se que existem dois grupos de observaes iguais, respectivamente com 2 e com 3 observaes):
3 3 N . ( N + 1)( 2.N + 1) ui3 ui 20 21 41 ( 2 + 3 ) ( 2 + 3) = = 716.875 24 48 24 48
2 T =
+
Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica Z = 0.4855 tambm se pode calcular a probabilidade limite: p value = 0.6273 , sendo a deciso a mesma que anteriormente.
17
H1 : d 0
A estatstica de teste min (T+ ; T ) , isto , o valor mnimo da soma dos nmeros de ordem associados aos valores positivos ou negativos de di 0 . Exemplo: Existem diversos mtodos de estimao do volume de madeira produzido pelas rvores, nomeadamente modelos de estimao baseados no dimetro basal e modelos de estimao baseados no dimetro altura do peito (dap). Pretende-se comparar um mtodo de estimao baseado no dimetro basal com outro mtodo baseado no dap. Para tal, os volumes (m3) de madeira dos mesmas 15 pinheiros foram estimados pelos dois mtodos: Basal 1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88 Dap 1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02 Como exposto, pretendendo testar se as estimativas pelos dois mtodos so idnticas, ento a mdia das diferenas entre as observaes ser nula, e o teste de hipteses : H 0 : d = 0 H1 : d 0
em que d a mdia das diferenas di = Vbasali Vdapi . No quadro seguinte apresentam-se os clculo do teste:
Vbasali
1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88
Vdapi
1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02
di = Vbasali Vdapi
-0.06 0.11 -0.03 -0.09 0.16 -0.13 -0.07 0.05 -0.12 -0.15 0.09 -0.05 0.18 0.15 -0.14
di
0.06 0.11 0.03 0.09 0.16 0.13 0.07 0.05 0.12 0.15 0.09 0.05 0.18 0.15 0.14
Ordem (+) Ordem (-) 4 8 1 6.5 14 10 5 2.5 9 12.5 6.5 2.5 15 12.5 11
T+ = 58.5 T = 61.5
18
A fim de calcular a estatstica de teste para proceder deciso do teste, temos em primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros desta aproximao so:
Mdia:
T =
+
N . ( N + 1) 15 16 = = 60 4 4
Varincia (note-se que existem trs grupos de observaes iguais, cada um com 2 observaes):
2 T+
Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica Z = 0.0853 tambm se pode calcular a probabilidade limite: p value = 0.932 , sendo a deciso a mesma que anteriormente.
19
H 0 : 1 = 2
H1 : 1 2
As observaes das duas amostras so combinadas numa nica varivel de tamanho N1 + N 2 , sendo identificadas as respectivas provenincias. O conjunto de observaes assim constitudo pela juno das duas amostras ordenado por ordem crescente, atribuindo o nmero de ordem 1 observao menor e o nmero de ordem N1 + N 2 observao maior. Caso haja empates ou ties, a cada uma das observaes empatadas atribudo o nmero de ordem mdio que essas observaes teriam se no estivessem empatadas. De seguida, calculam-se as somas dos nmeros de ordem das observaes de cada amostra:
W1 : W2 :
soma dos nmeros de ordem das observaes da amostra 1; soma dos nmeros de ordem das observaes da amostra 2;
Calculam-se as quantidades:
U1 = N1.N 2 +
N 2 . ( N 2 + 1) W2 2 N1. ( N1 + 1) W1 2
U 2 = N1.N 2 +
A estatstica de teste :
U = min (U1 ,U 2 )
A hiptese nula estabelece que as duas amostras tm a mesma distribuio, e se tal acontecer, as mdias (e tambm as medianas) das duas amostras so iguais. Suponhamos que, na realidade, as duas amostras tm distribuio diferente, e consideremos uma situao extrema em que tal acontece, que seria numa situao em que todas as observaes de uma das amostras so inferiores menor observao da outra amostra, tal como se ilustra no grfico seguinte:
Numa situao destas, provavelmente estaremos na disposio de aceitar a hiptese alternativa como verdadeira, ou seja, deveremos rejeitar a hiptese nula. 20
Consideremos as duas amostras acima representadas graficamente; a partir deste grfico possvel estabelecer os nmeros de ordem (no interessam os valores xi , mas sim a ordem ou lugar que cada observao ocupa) de cada uma das amostras (cada ponto representa uma observao): Amostra 1 Amostra 2 1 11 3 3 3 5.5 5.5 7 8.5 8.5 10 12.5 12.5 14.5 14.5 16.5 16.5 18.5 18.5 20
W1 = 55 W2 = 155
U1 = N1.N 2 +
U 2 = N1.N 2 +
A estatstica de teste ento U = min (U1 ,U 2 ) = min ( 0,100 ) = 0 Se, pelo contrrio, tivssemos duas amostras cujas observaes fossem iguais aos pares (a primeira observao da amostra A igual primeira observao da amostra B; etc), as distribuies das duas amostras seriam exactamente iguais, sendo iguais os nmeros de ordem das observaes em ambas as amostras, situao em que se deveria aceitar a hiptese nula:
A partir deste grfico possvel estabelecer os nmeros de ordem de cada uma das amostras: Amostra A Amostra B 1.5 1.5 3.5 3.5 5.5 5.5 9.5 9.5 9.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 WA = 105 13.5 16.5 16.5 19.5 WB = 105
U A = N A .N B +
N B . ( N B + 1) 10 11 WB = 10 10 + 105 = 50 2 2 N A . ( N A + 1) 10 11 WA = 10 10 + 105 = 50 2 2
U B = N A .N B +
A estatstica de teste ento U = min (U A ,U B ) = min ( 50,50 ) = 50 Isto , valores grandes da estatstica U so favorveis aceitao da hiptese nula, e valores pequenos de U so favorveis no aceitao da hiptese nula 21
Existem tabelas dos quantis da distribuio U de Mann-Whitney-Wilcoxon. Contudo, chama-se a ateno para que se deve ter o cuidado de verificar qual a estatstica U a que se refere a tabela. Esta chamada de ateno prende-se com o facto de que alguns autores consideram a estatstica U como sendo a estatstica atrs apresentada ( U = min (U1 ,U 2 ) ); outros autores consideram como sendo o valor W1 (ou W2 ) atrs calculados; outros ainda consideram a estatstica U = N1.N 2 U1 ou U = N1.N 2 U 2 (por exemplo, Zar, 1999) O programa SPSS utiliza a estatstica U = min (U1 ,U 2 ) aqui descrita. O programa MINITAB considera a estatstica U = W1 . Em anexo apresenta-se a tabela dos valores crticos da estatstica U = min (U1 ,U 2 ) , atrs descrita, e apresentada por Johnson e Kuby (1999).
Valor esperado:
U =
2 U =
N1.N 2 2 N1.N 2 . ( N1 + N 2 + 1) 12
Varincia:
Se existem empates ou ties nos nmeros de ordem, deve fazer-se uma correco no clculo da varincia; sendo ui os nmeros de nmeros de ordem empatados, a expresso para clculo da varincia deve ser:
Varincia:
2 U =
3 3 N1.N 2 N N ( ui ui ) N2 N 12
Z=
U U
2 U
~ N ( 0,1)
Exemplo:
Num ensaio delineado com o objectivo de estimar os efeitos da inalao prolongada de xido de cdmio, 15 cobaias foram sujeitas em laboratrio a um ambiente contaminado 22
com este xido, e 10 cobaias estiveram num ambiente normal sem essa contaminao (grupo de controlo). A varivel de interesse a concentrao de hemoglobina aps o ensaio: Animais expostos 14.4 14.2 13.8 16.5 14.1 16.6 15.9 15.6 14.1 15.3 15.7 16.7 13.7 15.3 14.0 Grupo de controlo 17.4 16.2 17.1 17.5 15.0 16.0 16.9 15.0 16.3 16.8
Pretende-se averiguar se a inalao prolongada de xido de cdmio altera o nvel de hemoglobina. O teste de hipteses pode expressar-se pela comparao de medianas:
H 0 : 1 = 2
~ ~
H1 : 1 2
23
18 19 20 21 22 23 24 25
Wcadmio = 145
Wcontrolo = 180
A estatstica de teste U = min (U cad ,U ctr ) = 25 Para um nvel de significncia = 5% , e N1 = 15 e N 2 = 10 , o quantil crtico da distribuio U de Mann-Whitney-Wilcoxon U ( 0.05;15;10) = 45 , e como a estatstica de teste U = 25 inferior a este valor crtico2, deve rejeitar-se a hiptese nula de que as duas amostras tm a mesma mediana, ou seja, deve concluir-se que a exposio ao xido de crmio afecta o nvel de hemoglobina nas cobaias. Usando a aproximao distribuio normal, temos:
Valor esperado:
U =
2 U =
Varincia:
Note-se que existem 3 grupos de nmeros de ordem empatados, cada um com 2 empates; so nomeadamente os nmeros de ordem 4.5, 8.5 e 10.5. Assim, a varincia deve ser calculada em funo de um factor de correco devida existncia destes empates. A varincia a considerar deve ser a de seguida calculada, e no a anterior:
Varincia:
3 3 N1.N 2 N N ( ui ui ) = N2 N 12 3 3 3 3 15 10 25 25 ( 2 2 ) + ( 2 2 ) + ( 2 2 ) = 2 12 25 25 = 324.625 2 U
Como atrs se referiu, a rejeio da hiptese nula para valores pequenos da estatstica de teste U .
24
Note-se que os valores da varincia e da varincia corrigida so muito prximos; s numa situao de existirem muitos nmeros de ordem empatados que estes dois valores diferem apreciavelmente. A estatstica de teste ento:
Z=
U U
2 U
25 75 = 2.7751 324.625
Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que se deve rejeitar a hiptese nula. A partir da estatstica Z = 2.7751 tambm se pode calcular a probabilidade limite: p value = 0.0055 , sendo a deciso a mesma que anteriormente.
4 Anlise de varincia
A anlise de varincia (ANOVA) uma metodologia estatstica cujo objectivo comparar k > 2 amostras ou tratamentos, a fim de verificar se h diferenas significativas entre as mdias dos tratamentos que sejam resultado dos efeitos dos tratamentos. O modelo linear subjacente a uma anlise de varincia : xij = + i + ij em que xij cada uma das j = 1,..., N i observaes do tratamento i , com i = 1,..., k , a mdia global de todas as N observaes, i o efeito do tratamento i , isto , a parte da variabilidade que pode ser imputada ao facto de cada uma das amostras ter sido objecto de um tratamento diferente, e ij a variabilidade residual ou erro experimental, isto , a parte da variabilidade que no pode ser imputada aos tratamentos. Recordemo-nos que os pressupostos subjacentes ao teste paramtrico t-Student para comparar as mdias de duas amostras, H 0 : 1 = 2 , so: i) ii) iii) cada uma das duas amostras provm de uma populao normal; 2 as varincias so homogneas, 12 = 2 . Os resduos so independentes, com distribuio normal e com varincia finita e constante.
Se estes pressupostos so violados, deve usar-se um teste no paramtrico. De modo similar, quando se pretendem comparar k > 2 mdias amostrais, H 0 : 1 = 2 = ... = k , pela metodologia de anlise de varincia, os pressupostos so uma extenso dos anteriores:
25
cada uma das k amostras provm de uma populao normal; 2 as varincias das k amostras so homogneas, 12 = 2 = ... = k2 e constantes; Os erros ou resduos ij (tal que xij = + i + ij , sendo i o efeito do tratamento)
tm distribuio normal; Os erros ou resduos ij tm varincia finita e constante 2 (esta propriedade denomina-se por homoscedasticidade); Os erros ou resduos ij so independentes.
Est provado que a ANOVA uma metodologia estatstica bastante robusta, relativamente a pressupostos das distribuies das populaes e da homogeneidade das varincias das amostras ou tratamentos. Se os tamanhos N i de cada uma das amostras (isto , o nmero de repeties) so iguais para todas as amostras, a ANOVA robusta no que se refere homogeneidade das varincias. Se os tamanhos N i so bastante diferentes, ento a probabilidade de cometer erro do tipo I afasta-se do nvel de significncia , sendo este afastamento dependente da heterogeneidade das varincias: se as varincias maiores esto associadas s amostras com maior nmero de repeties, a probabilidade de erro tipo I ser menor que ; se as maiores varincias esto associadas s amostras de menor dimenso, ento a probabilidade de erro tipo I maior que . A validade da ANOVA apenas ligeiramente afectada pela violao do pressuposto da normalidade (simetria e achatamento), especialmente se N i so grandes. Se as populaes subjacentes so muito achatadas (platicrticas) e N i so pequenos, a potncia da ANOVA diminuir. Se as populaes so pouco achatadas (muito elevadas no centro da distribuio ou leptocrticas) e os tamanhos N i so pequenos, a potncia do teste aumenta. Assim, a validade do teste da ANOVA prevalece vlido a no ser que as violaes dos pressupostos sejam muito graves, situao em que se dever usar um teste de anlise de varincia no paramtrico que no exige tais pressupostos.
total de observaes. Pretende-se verificar se as k amostras (ou tratamentos, como geralmente so designados) tm distribuies idnticas. O teste de hipteses :
H0 : H1 :
(note-se que, semelhana dos demais testes no paramtricos, a formulao do teste de hipteses no deve usar os parmetros populacionais). A estatstica de teste :
H=
k 12 Ri2 3. ( N + 1) N . ( N + 1) i =1 N i
onde Ri a soma dos nmeros de ordem das N i observaes do grupo ou tratamento i (note-se que a soma de todos os nmeros de ordem de todos os tratamentos deve ser igual a N . ( N + 1) 2 ). Se existem nmeros de ordem empatados, a estatstica de teste deve ser corrigida para esta situao. Para tal, calcula-se o factor de correco:
C = 1
(u
m i =1
3 i
u)
N3 N
onde ui o nmero de empates em cada grupo, e m o nmero de grupos de nmeros de ordem empatados. Note-se que H c ser pouco diferente de H , quando os ui so pequenos comparativamente a N . Para atribuir os nmeros de ordem s observaes, procede-se tal como no teste de Mann-Whitney-Wilcoxon, isto , juntam-se as observaes de todos os tratamentos, e ordenam-se todas as observaes. Quando existem observaes iguais (empates ou ties), o nmero de ordem a atribuir a cada uma das observaes empatadas o nmero de ordem mdio dos nmeros de ordem que essas observaes teriam se no estivessem empatadas.
27
A estatstica H (ou H c ) avalia em que medida as k amostras ou tratamentos diferem, relativamente aos respectivos nmeros de ordem. Esta ideia pode mais facilmente percebe-se se dermos expresso de clculo de H uma forma equivalente:
H=
k 12 ni . Ri R N . ( N + 1) i =1
em que R i a mdia dos nmeros de ordem da i.sima amostra e R a mdia de todos os nmeros de ordem (isto , R = ( n + 1) 2 . Como facilmente se percebe, a estatstica H nula quando todas as mdias dos nmeros de ordem so iguais, e aumenta medida que as mdias dos nmeros de ordem das amostras diferem. Isto , para valores grandes de H deve rejeitar-se a hiptese nula. Assim, a regio de rejeio est toda localizada na cauda superior da distribuio de H . Os valores crticos da distribuio da estatstica de teste H (ou H c ) apresentam-se na tabela em anexo, para k 5 tratamentos. Para grandes amostras, ou k > 5 tratamentos, a estatstica de teste H (ou H c ) aproxima-se a uma distribuio 2 (qui-quadrado) com k 1 graus de liberdade. Como atrs se referiu a propsito da regio de rejeio, esta est localizada na cauda superior da distribuio.
Exemplo 1:
28
No quadro seguinte apresentam-se os nmeros de ordem atribudos a cada uma das observaes, aps ter juntado e ordenado todas as observaes dos trs tratamentos:
x 8 9 9 10 10 10 11 11 12 12 12 12 13 13 13 14 15 15 16 16 18 Tratamento B A A A A C A B B B B C A B C A B C C C C Ordem 1 2.5 2.5 5 5 5 7.5 7.5 10.5 10.5 10.5 10.5 14 14 14 16 17.5 17.5 19.5 19.5 21
Aps ter atribudo os nmeros de ordem, conveniente separar de novo as observaes por tratamento, a fim de prosseguir com os clculos:
Tratamento A Ordem x 9 2.5 9 2.5 10 5 10 5 11 7.5 13 14 14 16 Tratamento B Ordem x 8 1 11 7.5 12 10.5 12 10.5 12 10.5 13 14 15 17.5 Tratamento C Ordem 10 5 12 10.5 13 14 15 17.5 16 19.5 16 19.5 18 21
R1 = 52.5
R2 = 71.5
R3 = 107
Como existem m = 7 grupos de observaes empatadas, respectivamente com 2, 3, 2, 4, 3, 2 e 2 observaes, deve fazer-se a correco da estatstica de teste; o factor de correco :
29
C = 1
(u
m i =1
3 i
u)
N3 N = 0.9857
(2 = 1
2 ) + ( 33 3) + ( 23 2 ) + ( 43 4 ) + ( 33 3) + ( 23 2 ) + ( 23 2 ) 213 21
Para um nvel de significncia = 5% , e para trs tratamentos, cada um com 7 repeties, o valor crtico da distribuio da estatstica H H ( 0.05;7;7;7 ) = 5.819 ; como a estatstica de teste H c = 5.7614 < H ( 0.05;7;7;7 ) = 5.819 , conclui-se que no h evidncia estatstica para rejeitar a hiptese nula. Procedendo aproximao distribuio 2 , para um nvel de significncia = 5% e para = k 1 = 3 1 = 2 graus de liberdade, o valor crtico (20.05;2) = 5.9915 ; como
H c = 5.7614 < (20.05;2) = 5.9915 , conclui-se que no se deve rejeitar a hiptese nula. O
Exemplo 2:
Num estudo de limnologia mediu-se o pH de oito amostras de gua de cada uma de quatro barragens. Os valores so os seguintes: Barragem 1 7.68 7.69 7.70 7.70 7.72 7.73 7.73 7.76 Barragem 2 7.71 7.73 7.74 7.74 7.78 7.78 7.80 7.81 Barragem 3 7.74 7.75 7.77 7.78 7.80 7.81 7.84 7.86 Barragem 4 7.71 7.71 7.74 7.79 7.81 7.85 7.87 7.91
Pretende-se averiguar se as guas das quatro origens tm o mesmo valor de pH, isto :
H0 : H1 :
O valor do pH da gua o mesmo nas 4 barragens; O valor do pH da gua no o mesmo nas 4 barragens.
Cada um dos quatro tratamentos (barragens) tem N i = 8 (i=1,2,3,4) observaes, sendo N = 32 . No quadro seguinte apresentam-se os clculos dos nmeros de ordem de cada observao, aps ter juntado num nico vector todas as 32 observaes : 30
pH 7.68 7.69 7.70 7.70 7.71 7.71 7.71 7.72 7.73 7.73 7.73 7.74 7.74 7.74 7.74 7.75 7.76 7.77 7.78 7.78 7.78 7.79 7.80 7.80 7.81 7.81 7.81 7.84 7.85 7.86 7.87 7.91
Barragem 1 1 1 1 2 4 4 1 1 1 2 2 2 3 4 3 1 3 2 2 3 4 2 3 2 3 4 3 4 3 4 4
Nmero de ordem 1 2 3.5 3.5 6 6 6 8 10 10 10 13.5 13.5 13.5 13.5 16 17 18 20 20 20 22 23.5 23.5 26 26 26 28 29 30 31 32
Aps ter ordenado por ordem crescente todas as observaes, e atribudo os respectivos nmeros de ordem, conveniente dispor novamente as observaes isoladas por tratamento, a fim de facilitar os clculos subsequentes:
PH 7.68 7.69 7.70 7.70 7.72 7.73 7.73 7.76 Ordem 1 2 3.5 3.5 8 10 10 17 pH 7.71 7.73 7.74 7.74 7.78 7.78 7.80 7.81 Ordem 6 10 13.5 13.5 20 20 23.5 26 pH 7.74 7.75 7.77 7.78 7.80 7.81 7.84 7.86 Ordem 13.5 16 18 20 23.5 26 28 30 pH 7.71 7.71 7.74 7.79 7.81 7.85 7.87 7.91 Ordem 6 6 13.5 22 26 29 31 32
R1 = 55
R2 = 132.5
R3 = 175
R4 = 165.5
31
= 12.6428 Como existem m = 7 grupos de observaes empatadas, respectivamente com 2, 3, 3, 4, 3, 2 e 3 observaes, deve fazer-se a correco da estatstica de teste; o factor de correco :
C = 1
(u
m i =1
3 i
u)
N3 N = 0.9949
(2 = 1
2 ) + ( 33 3) + ( 33 3) + ( 43 4 ) + ( 33 3) + ( 23 2 ) + ( 33 3) 323 32
Para um nvel de significncia = 5% e para = k 1 = 4 1 = 3 graus de liberdade, e fazendo a aproximao distribuio 2 , o valor crtico (20.05;3) = 7.815 ; como H c = 12.7076 > (20.05;3) = 7.815 , deve rejeitar-se a hiptese nula. O valor crtico da distribuio 2 est tabelado (tabela em anexo), ou pode usar-se a funo INV .CHI ( ; ) da folha de clculo EXCEL:
A probabilidade limite pode calcular-se para o valor da estatstica de teste, com a funo DIST .CHI ( H c ; ) da folha de clculo:
32
Seja um delineamento em blocos casualizados, com k tratamentos e b blocos. Dentro de cada um dos b blocos, as observaes so ordenadas por ordem crescente, e atribudos nmeros de ordem. De seguida, somam-se os nmeros de ordem (atribudos por bloco) dentro de cada um dos tratamentos ( Ri ). A estatstica de teste (aqui designada por 2 ) calculada pela expresso: 2 =
k 12 Ri2 3.b.( k + 1) b.k . ( k + 1) i =1
Para k = 2 , o teste Fr de Friedman equivalente ao teste de Wilcoxon. Se b = 2 , deve usar-se o coeficiente de correlao no paramtrico de Spearman..
33
em que Ri a mdia dos nmeros de ordem do i.simo tratamento e R a mdia global dos nmeros de ordem. A estatstica 2 vale zero quando todos os tratamentos tm a mesma mdia dos nmeros de ordem, e aumenta medida que as mdias dos nmeros de ordem dos diferentes tratamentos diferem. Os valores crticos da distribuio da estatstica 2 encontram-se tabelados (tabela em anexo) para at 6 tratamentos e 10 blocos. Para valores de k e de b superiores, a estatstica 2 deve ser aproximada pela distribuio 2 , com k 1 graus de liberdade. Os programas SPSS e MINITAB consideram esta estatstica de teste. Porm, est demostrado que esta aproximao distribuio 2 demasiado conservadora, isto , com muita propenso para causar erro do tipo II, ou seja, pouco potente. A aproximao:
( b 1) . 2 Fr = b. ( k 1) 2
com distribuio F de Fisher, com
( k 1)
( k 1)( b 1)
graus de liberdade
geralmente superior. Contudo, a maioria dos programas estatsticos continua a usar a aproximao distribuio 2 .
Exemplo:
Num ensaio de alimentao de porcos, pretende-se avaliar o efeito de 4 dietas alimentares. Cada animal em teste mantido isolado numa jaula. As jaulas so agrupadas em grupos de 4, tendo-se constitudo 5 grupos (blocos) de 4 jaulas. Cada bloco ou grupo de jaulas so mantidas em condies que podem ser consideradas idnticas em termos ambientais (luz, temperatura, rudo, etc). Em cada um dos blocos, atribudo de modo completamente aleatrio uma das quatro dietas a cada um dos animais do bloco de jaulas, de modo que em cada bloco de jaulas h um animal com cada uma das quatro dietas. A varivel resposta o ganho de peso de cada um dos animais (unidade experimental): Dieta 1 7.0 9.9 8.5 5.1 10.3 Dieta 2 5.3 5.7 4.7 3.5 7.7 Dieta 3 4.9 7.6 5.5 2.8 8.4 Dieta 4 8.8 8.9 8.1 3.3 9.1
34
O teste de hipteses : H 0 : Os ganhos de peso so iguais para as quatro dietas; H1 : Os ganhos de peso no so iguais para as quatro dietas. Tal como atrs exposto, ordenam-se as observaes e so atribudos nmeros de ordem dentro de cada bloco. Na tabela seguinte, apresentam-se, entre parntesis, os nmeros de ordem atribudos a cada uma das observaes, dentro de cada um dos blocos. De seguida, somam-se os nmeros de ordem por tratamento ou dieta ( Ri ): Dieta 1 7.0 (3) 9.9 (4) 8.5 (4) 5.1 (4) 10.3 (4) R1 = 19 Dieta 2 5.3 (2) 5.7 (1) 4.7 (1) 3.5 (3) 7.7 (1) R2 = 8 Dieta 3 4.9 (1) 7.6 (2) 5.5 (2) 2.8 (1) 8.4 (2) R3 = 8 Dieta 4 8.8 (4) 8.9 (3) 8.1 (3) 3.3 (2) 9.1 (3) R4 = 15
Bloco 1 Nmero de ordem Bloco 2 Nmero de ordem Bloco 3 Nmero de ordem Bloco 4 Nmero de ordem Bloco 5 Nmero de ordem Ri
Para um nvel de significncia = 5% , o valor crtico da distribuio 2 (20.05;3) = 7.8147 ; como 2 = 10.68 > (20.05;3) = 7.8147 , deve rejeitar-se a hiptese nula. Chegar-se- mesma concluso de rejeio da hiptese nula se calcularmos a probabilidade limite: p value = 0.0136 . Caso se pretenda usar a aproximao distribuio F , calcula-se a estatstica:
( b 1) . 2 Fr = b. ( k 1) 2
Como Fr = 9.8889 > F( 0.05;3;12) = 3.49 (o valor crtico da distribuio F pode calcular-se com a funo INVF ( 0.05;3;12 ) da folha de clculo), rejeita-se a hiptese nula. A probabilidade limite para a estatstica Fr = 9.8889 p value = 0.0254 (pode calcularse com a funo DISTF ( 9.8889;3;12 ) da folha de clculo).
35
r=
x y
i =1 i i
xi yi
i =1 i =1
N N xi x 2 i =1 i N i =1
2 N N yi y 2 i =1 i N i =1
O coeficiente de correlao adimensional e situa-se no intervalo 1 r 1 . A validade estatstica do coeficiente de correlao linear pressupe que as duas variveis so aleatrias e provm de uma populao normal bivariada. Caso este pressuposto seja gravemente violado, aconselhado quantificar o grau de associao ou correlao entre as variveis X e Y usando um coeficiente no paramtrico, baseado nos nmeros de ordem (rank) dos pares (X,Y) das observaes em cada uma das variveis. O coeficiente de correlao de Spearman, ou rank correlacion calculado pela seguinte expresso: 6 di2
i =1 N
rs = 1
N3 N
onde di a diferena entre os nmeros de ordem das observaes xi e yi , isto , di = n ordem de xi n ordem de yi . O coeficiente de correlao rs adimensional e situa-se no intervalo 1 r 1 . Se existem observaes empatadas, o valor do coeficiente de correlao corrigido :
N3 N N 2 di u x u y 6 i =1 N3 N N3 N 2 u x 2 u y 6 6
( rs )c =
em que:
36
ux =
(u
m i =1
3 xi
u xi
)
a soma do nmero de observaes com nmeros de ordem das observaes X empatadas;
12
yx =
(u
m i =1
3 yi
u yi
)
a soma do nmero de observaes com nmeros de ordem das observaes Y empatadas.
12
Existem tabelas de significncia do coeficiente de correlao de Spearman (em anexo). Contudo, a significncia do coeficiente de regresso, isto , o teste de hipteses:
H 0 : X e Y no esto correlacionadas; H1 : X e Y esto correlacionadas.
equivalente a:
H 0 : rs = 0 H1 : rs 0
pode mais rigorosamente ser decidido pela aproximao da distribuio do coeficiente rs funo de distribuio normal, pela expresso:
Z= N 3 1+ r ln ~ N ( 0,1) 2 1 r
Exemplo 1:
As variveis X e Y so respectivamente as classificaes (em percentagem) em Matemtica e em Biologia de uma turma de 10 alunos. Para calcular o coeficiente rs , foram atribudos os nmeros de ordem a cada valor xi e yi : Aluno 1 2 3 4 5 6 7 8 9 10 Mat. ( xi ) 57 45 72 78 53 63 86 98 59 71 Ordem xi 3 1 7 8 2 5 9 10 4 6 Biol. ( yi ) 83 37 41 84 56 85 77 87 70 59 Ordem yi 7 1 2 8 3 9 6 10 5 4
di di2 16 0 25 0 1 16 9 0 1 4
-4 0 5 0 -1 -4 3 0 -1 2
Como se verifica, em nenhuma das variveis existem empates. Aplicando a expresso de clculo, temos:
37
rs = 1
6 di2
i =1
N N
3
= 1
6 72 = 0.5636 103 10
Consultando a tabela de significncia dos coeficientes de correlao de Spearman em anexo, para uma amostra de N = 10 observaes e para um nvel de significncia = 5% , rs significativo, isto , existe correlao ou associao entre X e Y, para valores rs > 0.648 . Assim, devemos concluir que no existe, no exemplo apresentado, correlao significativa entre as classificaes obtidas em Matemtica e em Biologia. Procedendo aproximao distribuio normal, tem-se:
Z= N 3 7 1+ r 1 + 0.5636 ln ln = = 1.6882 2 1 r 2 1 0.5636
Exemplo 2:
Em estudos de ornitologia considera-se haver uma associao entre a envergadura das asas e o comprimento da cauda das aves. Os seguintes dados referem-se envergadura de asas (X, em cm) e o comprimento da cauda (Y, em cm) de uma espcie de tordos: X Y 10.4 7.4 10.8 7.6 11.1 7.9 10.2 7.2 10.3 7.4 10.2 7.1 10.7 7.4 10.5 7.2 10.8 7.8 11.2 7.7 10.6 7.8 11.4 8.3
Em ambas as variveis existem observaes empatadas; na varivel X existem 2 grupos, cada um com 2 observaes; na varivel Y existem 3 grupos, havendo dois grupos com 2 observaes e um com 3 observaes. Para calcular o coeficiente rs , foram atribudos os nmeros de ordem a cada valor xi e yi : Tordo 1 2 3 4 5 6 7 8 9 10 11 12 Asa ( xi ) 10.4 10.8 11.1 10.2 10.3 10.2 10.7 10.5 10.8 11.2 10.6 11.4 Ordem xi 4 8.5 10 1.5 3 1.5 7 5 8.5 11 6 12 Cauda ( yi ) Ordem yi 7.4 7.6 7.9 7.2 7.4 7.1 7.4 7.2 7.8 7.7 7.8 8.3 5 7 11 2.5 5 1 5 2.5 9.5 8 9.5 12 -1 1.5 -1 -1 -2 0.5 2 2.5 -1 3 -3.5 0
di di2
38
(u
m i =1 m
3 xi
u xi
12
) (2 =
2 ) + ( 23 2 )
12
3
=1
(u
i =1
3 yi
u yi
12
) (2 =
2 ) + ( 33 3) + ( 23 2 )
12
=3
( rs )c
(valor crtico
tabelado); ou, pela aproximao normal, chaga-se mesma concluso: Z= N 3 9 1+ r 1 + 0.8511 ln ln = = 3.7804 2 1 r 2 1 0.8511
39
Bibliografia
Daniel, Wayne W. (1995) Bioestadstica. Base para el anlisis de las ciencias de la salud. Editorial Limusa, Mxico. Devore, Jay L. (2000) Probability and Statistics for engineering and the sciences. Duxbury, Australia. Guimares, Rui Campos; Cabral, Jos A. Sarsfield (1997) Estatstica. McGraw-Hill, Portugal. Hicks, Charles R. e Turner Jr., Kenneth V. (1999) Fundamental concepts in the design of experiments. Fifth edition. Oxford University Press, USA. Johnson, Robert e Kuby, Patricia (1999) Elementary statistics. Eighth edition. Duxbury, USA. McClave, James T. e Sincich, Terry (2000) Statistics. Eighth Edition. Prentice Hall, USA. Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition. John Wiley and Sons, USA. Montgomery, Douglas C. e Runger, George C. (1999) Applied statistics and probability for engineers. Second edition. John Wiley and Sons, USA. Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh edition. Iowa State University Press, USA. Walpone, Ronald E. (1999) Probabilidad y Estadstica para ingenieros. Sexta edicin. Prentice Hall, Mxico. Zar, Jerrold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.
40