Testes Hipo

Testes de Hipteses
Paulo J Azevedo
DI - Universidade do Minho
2009
Reviso anlise de significncia estatstica
1
Testes de Hipteses
Testes de Significncia
Determinar o grau de confiana com que se pode concluir que os factos

observados reflectem mais do que simples coincidncia do acaso.
Em Data Mining/Machine Learning so tipicamente usados para avaliar se
a amostra que estamos a estudar (factos observados) fruto do acaso (se
ou no significativa).
Neste contexto so muitas vezes usados para detectar falsas descobertas.
Permitem tambm avaliar se tem cabimento esperar que os padres
extrados dos dados de treino (amostra) ocorram em dados futuros.
Todos os testes envolvem duas componentes:

Um valor observado (obtido da amostra),
O valor esperado se nada mais do que variabilidade aleatria (acaso) operar
nesta situao.
Vrios testes disponveis dependendo do tipo de situao:.

Testes de Hipteses
Testes de Significncia (2)

Quando executamos um teste de significncia estatstica
assumimos duas teses:
A hiptese especifica que a nossa investigao pretende averiguar (Hiptese
alternativa H1),
A anttese da hiptese a investigar (Hiptese nula H 0)
Exemplo com um ensaio mdico: Avaliar se os resultados de um ensaio com um

novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400
resultados positivos significativo:
H0 - o novo medicamento no tem efeito significativo
H1 o medicamento tem algum grau de eficcia na preveno de AVCs
Em termos estatsticos:
H0 o nmero de resultados positivos no significativamente diferente do
valor esperado por variabilidade aleatria MCE (mean chance expectation)
H1 o valor observado significativamente diferente do valor esperado.
3
Testes de Hipteses
Direccionalidade da Hiptese Alternativa

Dependendo do tipo de questo que queremos
enderear com a nossa hiptese alternativa,
esta pode ser direccional ou no-direccional.
No direccional, se no considerar em que sentido os
valores observados se afastam do valor esperado
(MCE). Assim temos:
H0: valor observado = MCE
H1: valor observado MCE
Direccional, se considera em que sentido os valores
observados se afastam do valor esperado (MCE).
Ho: valor observado = MCE
H1: valor observado > MCE,
H1: valor observado < MCE.
Testes de Hipteses
ou em alternativa
4
Exemplo
Lanar 100 vezes uma moeda ao ar. Verificar se o nmero de caras

obtido (59) significativo (se a moeda equilibrada o valor esperado
50% do nmero de testes).
One-sided ou
Usando a Binomial, com N=100,k=59,p=0.5,q=0.5.
One-tailed test
H1: n caras > MCE.

(Hiptese direccional)
Este valor denominado

por p-value.
Notar que h mais 9 caras do que o esperado!

De todos os possveis cenrios com 100 lanamentos, apenas 4.46%
tm no mnimo 59 caras. O resultado dos nossos lanamentos
5
significativo (probabilidade 0.05)
Testes de Hipteses
Exemplo
Agora para uma hiptese alternativa no direccional.

No nosso caso, H1: n de caras MCE.
Ou seja, responder pergunta: Em 100 lanamentos, qual a probabilidade
de obter um excesso de caras ou coroas (>50) to grande ou igual ao valor
obtido (59).
Neste teste, o valor observado no significativo (0.0892 > 0.05)
H1: n caras MCE.

(Hiptese direccional)
Two-sided ou Twotailed test
Valor da estatstica das

observaes.
z = ((k - ) 0.5) /
A pergunta do teste anterior era: Em 100 lanamentos, qual a probabilidade

de obter um excesso de caras (>50) to grande ou igual ao valor obtido (59)
6
Testes de Hipteses
Algumas Definies
p-value: a probabilidade de obter (de forma aleatria) um resultado
to ou mais extremo do que o que foi observado, assumindo que a
hiptese nula verdadeira.
Isto P(Obs MCE |
H0)
Interpretao alternativa, p-value o grau de contradio da
hiptese nula pelas observaes na amostra estudada. Quanto
menor, maior o grau de contradio.
o grau de significncia. O valor tradicional 5%, mas pode
tambm ser de 1% ou outros valores entre [0,1].
grau de confiana (1 - ).
tambm define a regio critica i.e. regio onde a hiptese nula
rejeitada. est relacionado com o erro Tipo I.
Erro tipo I, rejeitar H0 quando ela verdadeira ().
Erro tipo II, no rejeitar H0 quando ela falsa ().
Fora do teste (power of the test): probabilidade de correctamente
rejeitar H0. quando esta falsa e no rejeit-la quando ela
verdadeira. , respectivamente, (1 - ) e (1 ).
Testes de Hipteses
Intervalos de Confiana
Em alternativa aos p-values, podemos usar intervalos de confiana.

Usa-se para estimar parmetros da populao usando a amostra
e.g. estimar mdia () de uma populao usando mdia da amostra
(x).
O grau de confiana C = 1- determina a probabilidade de o
intervalo produzido pelo mtodo usado incluir o verdadeiro valor do
parmetro a estimar. Trabalha sempre com a estatstica do teste.
Para C =0.95, z*=1.96, ento IC = [x-1.96+/n , x+1.96+ /n]
8
Testes de Hipteses
Teste Binomial
Testa a significncia do desvio de uma amostra
representando um conjunto de experincias de Bernoulli
em relao distribuio terica esperada dessas
observaes i.e as variveis so dicotmicas
sucesso/insucesso.
um teste exacto !
Um teste de significncia exacto um teste onde todas as
condies assumidas para a derivao da distribuio onde o
teste estatstico baseado so satisfeitas. Consequentemente,
leva tambm obteno de um p-value exacto (e no
aproximado).
Um teste aproximado um teste onde a aproximao pode ser
feita o mais precisa possvel custa da obteno de uma
amostra suficientemente grande.
Testes de Hipteses
Teste Binomial (2)

Parmetros:
n, tamanho da amostra.
k, nmero de observaes com sucessos em n.
p, probabilidade esperada para sucesso
Clculo computacionalmente
q, probabilidade esperado para insucesso.
pesado! Por vezes faz-se uma
aproximao Gaussiana
p=1q
(categorias dicotmicas!)
(Normal)
n!
prob (n, k , p, q)
p k q nk
k!(n k )!
Para one-sided test (H1: observaes > MCE):
p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + +
prob(n,n,p,q).
10
Testes de Hipteses
Testes Paramtricos
Esto relacionados com um ou mais parmetros da
populao (distribuio assumida) e.g. mdia, desvio
padro.
Tipicamente assumida a Gaussiana.
Testes de localizao: relacionados com o valor
esperado da populao (mdia), onde o centro da
populao est localizado.
Vrios tipos:
Uma amostra: dada uma amostra e um valor esperado de uma populao,
testar se a amostra foi tirada da populao com o valor esperado dado.
Duas amostras independentes: dadas duas amostras independentes,

testar se as amostra so originadas de populaes com o mesmo valor
esperado.
Duas amostras dependentes: dadas duas amostras dependentes
(paired), testar se as amostra so tiradas de uma populao com o mesmo valor

esperado (tipicamente 0 para verificar significncia da diferena).
11
Testes de Hipteses
Student t-test
Assume uma distribuio Gaussiana (Normal)
Ideal para aplicar a amostra com N<30, para N30 devemos usar o
z-teste.
um teste de mdias.
H0: = 0 (0 o valor esperado da populao)
H1: 0, < 0, > 0 (dependendo de ser two-sided ou one-sided)
Estatstica do teste:
TS
X 0
S/ N
onde N o tamanho da amostra, X mdia na amostra, S desvio

padro na amostra.
Quando H0 verdadeira a TS segue uma distribuio tN-1 (N - 1 graus
12
de liberdade i.e. n de parmetros que podem ser variados independentemente ).
Testes de Hipteses
Student t-test
(one sample)
Para um dado fazemos o seguinte teste (sendo TS definida como):
TS
X 0
S/ N
Para
H1: 0, TS -tN-1(/2) ou TS tN-1(/2)
H1: < 0, TS < tN-1()
H1: > 0, TS > tN-1()
Rejeitar H0 se o teste for positivo.

Os valores crticos de tN-1 podem ser obtidos de uma
tabela
13
Testes de Hipteses
Graus de
liberdade
Distribuio t-student
Valor crtico
Valor da
t-estatstica
Upper critical values of Student's t distribution with

degrees of freedom
Probability of exceeding the critical value
14
Testes de Hipteses
Student t-test
(amostras independentes)
Usado para verificar se as amostras provm de populaes com

diferentes mdias.
Trs situaes possveis (e respectivas def. de TS):
1.
2.
3.
Amostras de tamanhos e varincia diferente,

Amostras de tamanhos diferentes mas varincia igual,
Amostras de tamanhos e varincia igual.
Se H0 for verdadeira TS segue uma distribuio tDF:
0 a diferena
entre valores
esperados das
populaes
15
Testes de Hipteses
Student t-test (2)

(amostras independentes)
Trs situaes possveis para testar H0
H0: A - B = 0
Para um dado valor de , rejeitar H0 se as condies

forem satisfeitas:
H1: A - B 0 , se TS -tGL(/2) ou TS tGL(/2)
H1: A - B < 0 , se TS < tGL()
H1: A - B > 0 , se TS > tGL()
Os valores crticos de tGL so os mesmo da tabela

apresentada anteriormente.
16
Testes de Hipteses
Student t-test
(paired test)
o t-test que nos vais ser mais til.

Assume amostra emparelhadas (por exemplo referente a observaes no
mesmo local ou tempo, etc).
Determina se as amostras diferem de uma forma significativa, considerando as
condies de que as diferenas entre pares so independentes e que seguem
uma distribuio Normal.
Hipteses:
H 0 : = 0
H1: 0 , < 0 ou > 0
Onde
= XA XB a diferena emparelhada entre as duas amostras,
o valor esperado da diferena das populaes.
TS
S / N
Onde a mdia das diferenas nas amostras, N o tamanho das amostras

17
e S o desvio padro das diferenas nas amostras.
Testes de Hipteses
Student t-test (2)

(paired test)
Quando H0 verdadeira TS segue uma distribuio tN - 1

Para um dado fazemos os seguintes testes:
H1: 0 , se TS -tN - 1(/2) ou TS tN - 1(/2)
H1: < 0 , se TS < tN - 1()
H1: > 0 , se TS > tN - 1()
rejeitando H0 quando eles so verdadeiros. Os valores crticos de
1 so os mesmo da tabela anterior.
Notar que este teste acaba por ser one-sample (as diferenas entre
pares formam uma s amostra)!
Testes alternativos
Z-test quando N>30,
Mann-Whitney para amostras independentes de populaes no
Normais.
Binomial, Wilcoxon para amostras emparelhadas de populaes no
Normais.
Testes de Hipteses
tN
18
Teste de Mann-Whitney-Wilcoxon
Teste no paramtrico de localizao. Avalia se duas amostras tem

origem na mesma populao. Uma alternativa ao paired t-test.
Assume que as observaes so independentes e contnuas ou

ordinais i.e. possvel estabelecer uma ordem sobre as
observaes.
Testa (em vez de comparar mdias) se as populaes so
idnticas. um teste de ranks sinalizados (signed rank).
Determina se h uma tendncia em seriar mais alto uma amostra
(observao) em relao outra e.g. valores mdicos antes e
depois de tratamento. Hiptese nula assume que no h tendncia.
Hipteses:
H0:A = B (n de valores positivos n de negativos
H1:A B , A > B ou A < B
i.e. no h tendncia)
19
Testes de Hipteses
rank das diferenas

em valor absoluto
Gerao de ranks (com ties)

Rank das diferenas
com sinal
Diferenas nulas
so ignoradas
Tratamento de empates (ties): se duas ou

mais diferenas tm o mesmo valor ento
todos passam a ter o valor mdio desses
ranks. e.g. 3,4 e 5 d rank 4 para todos.
W a soma dos ranks

(sem valores nulos)
Amostra A
Amostra B
Diferena entre
amostras
Valor absoluto da
diferena
Testes de Hipteses
20
Teste de Mann-Whitney-Wilcoxon
Procedimento:
Calcular XA XB, ignorar casos com valor zero,
Calcular |XA XB|, rank deste valor e o rank sinalizado:
+ se XA XB > 0
- se XA XB < 0
(soma de um rank = N(N-1)/2, sendo N o n de observaes)

Calcular W = soma dos signed ranks
Calcular W
N ( N 1)(2 N 1)
onde N o n de signed ranksW

considerados
os nulos).
valores crticos de
0.5 (semConsultar
z numa tabela prpria. Com
Estatstica do teste : z
N > 20 aproxima Normal.
Testes de Hipteses
21
Teste de Associao
Testes no paramtricos que medem o grau de
dependncia entre duas variveis aleatrias.
No assumem nenhum tipo de distribuio.
Assume observaes de frequncia de variveis
categricas. As variveis da amostra esto divididas
em categorias.
As observaes das duas variveis so agrupadas em
classes independentes (disjuntas).
Tipicamente, os dados do teste esto representados em
tabelas de contingncia 2 x 2. No entanto podemos ter
mais do que 2 dimenses.
Testes a estudar
Teste do 2 (chi quadrado)
Teste exacto de Fisher,
Testes de Hipteses
22
Teste do 2
Hipteses:
H0 : as variveis so independentes
H1 : as variveis no so independentes
Sendo X e Y as nossas variveis estas podem ser agrupadas em I

(i=1,..I) e J (j=1,..,J) categorias numa tabela de contingncia:
Onde Nij a frequncia observada da var X com a categoria i

conjuntamente com a var Y com a categoria j.
N i
ij
j 1
23
Testes de Hipteses
Teste do 2 (2)
Estatstica do teste:
TS
( N ij eij )
i 1
j 1
eij
eij a frequncia esperada para a clula (i,j):
eij
N i N j
N
Se H0 for verdadeira, a TS segue a distribuio 2(I-1)(J-1).

N de graus de liberdade = (I-1) x (J-1)
Para um dado , rejeitamos a hiptese nula se:
TS > 2(I-1)(J-1)()
Testes de Hipteses
24
Exemplo com tabela 2 x 2
SEXO
Homens Mulheres Total

TB
TB no SR
3534
1319
4853
Outras TB
270
252
522
Total
3804
1571
5375
H0 : tipo de tuberculose que causa a morte a estes indivduos independente

do seu sexo.
Valor obtido da
e11 = (4853 x 3804) / 5375 = 3434.6
2 = (3534 3434.6)2 / 3434.6 + (1319 1418.4)2 / 1418.4 + ..
+ (252 152.6)2 / 152.6 = 101.35
tabela de
distribuio do 2.
Para =0.05 temos 2(1)(1)(0.05) =3.84. Rejeitamos H0 se 2 > 3.84 o que o caso.
Concluso: a proporo de homens que morre de tuberculose tipo SR diferente
da proporo de mulheres. Isto , h evidncias de uma associao entre tipo de
TB e sexo.
25
Testes de Hipteses
Caractersticas do teste do 2
um teste no direccional. sempre two-sided.
um teste aproximado. O p-value obtido por
aproximao. No problema anterior p-value < 0.00001.
Para observaes pequenas um teste pouco fivel.
Para valores esperado pequenos (eij < 5) no deve ser
usado.
No caso especfico de tabelas 2 x 2 devemos usar a
Correco de Yates para continuidade.
'
TS
( N ij eij ) 0.5
i 1
j 1
eij
Para o problema anterior, Yates 2 = 100.39.

Testes de Hipteses
26
Teste Exacto de Fisher

O teste ideal para aplicar com tabelas de contingncia
de dados pequenos esparsos e no balanceados.
No sofre dos mesmos problemas do teste 2
Embora seja aplicvel noutras situaes, vamos sempre
usar em tabelas 2 x 2 e com hipteses alternativas
direccionais (one-sided) i.e. afasta-se de H0 numa
direco especfica!
um teste exacto, portanto um p-value exacto.
A ideia geral considerando a tabela de observaes,
gerar as tabelas com as mesmas margens, que so
mais extremas que a observada, na mesma direco da
nossa observao e.g. que a proporo TB do tipo SR
nas mulheres menor que proporo TB tipo SR nos
homens.
27
Testes de Hipteses
Teste Exacto de Fisher (2)

Considerando a tabela de contingncia 2 x 2 geral, temos:
Y1
Y2
Total
X1
a+b
X2
c+d
Total
a+c
b+d
As margens
esto a azul
n = a+b+c+d
A probabilidade de obter (de forma aleatria) as observaes desta

tabela :
(a b)!(c d )!( a c)!(b d )!

p
n!a!b!c!d !
O p-value = p das tabelas to ou mais extremas do que a
observada. (tipicamente p: p < pobservada)
Para o exemplo anterior p-value = 2.959442371307591e-22
Testes de Hipteses
28
Goodness-of-fit
(testes para a qualidade do ajuste)
No nosso caso, vai servir para verificar se duas
amostras foram retiradas de uma mesma populao.
Tradicionalmente so utilizados para verificar a
qualidade da adequao (fit) de uma distribuio terica
em relao a um conjunto de observaes (amostra)
e.g. testar a Normalidade de uma amostra.
Testes no paramtricos:
Para amostras de valores contnuos
Kolgomorov-Smirnov
Para amostras de valores categricos

Pearsons goodness-of-fit (2)
Testes de Hipteses
29
Goodness-of-fit
Verifica se duas amostras tm origem em populaes idnticas.

H0 : populaes A e B so idnticas
H1: populaes A e B so diferentes
As observaes NA e NB so agrupadas em K (K > 2) categorias

(disjuntas).
Em cada amostra contada a frequncia absoluta de cada diferente
ki categoria, com kiK.
As frequncias esperadas so calculadas da seguinte forma:
Nk
ekA N A
N
ekB N k ekA
com Nk = NkA + NkB , N = NA + NB sendo ekA= NA e ekB= NB

Testes de Hipteses
30
Goodness-of-fit (2)
A estatstica do teste :
( N kA ekA ) 2
TS
ekA
k 1
K
( N kB ekB ) 2
ekB
k 1
K
H0 verdadeira se TS segue uma distribuio 2K-1

Para um dado , rejeitamos H0 se:
TS > 2K-1()
31
Testes de Hipteses
Teste de Kolgomorov-Smirnov
(duas amostras)
um teste exacto (2 aproximado) para amostras de valores

contnuos.
Assume distribuies contnuas onde a forma e os parmetros da
funo densidade de probabilidade so conhecidos
O teste compara a proximidade entre as funes de densidade
acumulada (CDF) de cada amostra (tambm conhecidas por funes
de distribuio empirica).
Encontra a mxima discrepncia entre as duas CDFs e verifica se
esta estatisticamente significativa.
CDF das amostras so definidas como (N = xi):
FA ( x) : xi S ( xi )
xj
N :x
xi
32
Testes de Hipteses
Teste de Kolgomorov-Smirnov (2)

(duas amostras)
H0 : FA(x) = FB(x)
H1 : FA(x) FB(x)
A estatstica do teste :
TS D' max S A ( x) S B ( x)
x
Para um dado , rejeitamos H0 se o seguinte teste for verdadeiro:
N ANB
D ' D' ( )
N A NB
Os valores crticos de [(NANB )/(NA + NB )]D() podem ser

consultados na tabela da distribuio de Kolgomorov. 33
Testes de Hipteses
Teste de Kolgomorov-Smirnov (3)

(execuo)
TS D' max S A ( x) S B ( x)
x
34
Testes de Hipteses
Mltiplas Hipteses
Controle da capitalizao do acaso.
Exemplo de situao tpica:
Teste Binomial com:

n=14, k=11, p=0.5, q=0.5,
e H1: obs > MCE
Queremos contratar um corrector para investir na bolsa. A

funo deste corrector emitir previses sobre a subida/descida
do indicador PSI20 ao fim de cada dia. Queremos ter a garantia
que no contratamos um charlato (algum cujas previses no
so melhores do que o acaso). Para avaliar esta possibilidade
usamos um teste de 14 dias de bolsa. Se o consultar acertar em
11 ou mais dias ento aceitamo-lo como fivel.
So 11 em 14 dias porque h 50% de hipteses de acertar em
cada dia, logo h s 2.87% de acertar ao acaso em 11 ou mais
dias.
Assim, se um corrector for contratado porque passou o teste
dos 11 dias, temos uma probabilidade 0.0287 de contratar
um charlato.
35
Testes de Hipteses
Mltiplas Hipteses
Nova situao:
Vamos imaginar agora que aceitamos 10 candidatos para esta
funo, onde vamos seleccionar o corrector com maior preciso.
Para n candidatos, n > 1, cada charlato tem 2.87% de passar o
teste.
Em geral, a probabilidade de seleccionar um charlato
1 - (1 0.0287)n.
No caso de n=10, esta probabilidade 25.3%
Concluso: Se no ajustarmos o nosso limite , que define
quando um corrector passa a ser considerado um charlato,

aumentamos a probabilidade de ocorrer um erro do tipo I.
Com um n suficientemente grande de charlates entre os
candidatos, iremos quase de certeza ter pelo menos um deles
com um desempenho que passa qualquer limite (sem a
garantia de ele no ser um charlato).
Testes de Hipteses
36
Mltiplas Hipteses (2)

Problema das Multiplas Comparaes. Risco de erro tipo I
no mais do que .
Probabilidade de ocorrer um erro de tipo I aumenta com o
nmero de testes.
Para n testes real = 1 - (1 - )n
Usar Ajustamento de Bonferroni:
(corrigir para n testes como sendo = /n)
tendncia a ser um crivo demasiado fino!
Usar Ajustamento de Holm (k em vez de ).
Requer ordenao crescente dos p-values e ter disponveis todos
estes valores antes de determinar valor de ajustamento (k).
Para n testes,
k max( pi : 1 j i p j
Testes de Hipteses
n j 1
37
Ajustamento de Bonferroni
(utilizao tpica em Data Mining)
Usar Ajustamento de Bonferroni (corrigir para n
testes como sendo = /n).
Usar layered critical values,
Em vezes de um cutoff global que corrige o
inicial, obter vrios L para cada nvel L.
'L
( Lmax S L )
Onde SL o n de padres possveis de gerar com tamanho L.

Lmax o tamanho mximo de um padro.
Temos a garantia que:
Lmax
'
L 1 L S L
Testes de Hipteses
38
Resumo
Testes de significncia,
Inferncia estatstica e controle de fenmenos
fruto do acaso,
Tipos de erro,
Testes paramtricos e no paramtricos,
Direccionalidade, poder do teste, regio crtica,
p-value e intervalos de confiana,
Testes de localizao, associao e goodnessof-fit,
Mltiplas hipteses e controle de erro,
Ajustamento do valor de significncia ().
39
Testes de Hipteses

Testes Hipo

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Testes Hipo

Загружено:

Авторское право:

Доступные форматы

Testes de Hipteses

Reviso anlise de significncia estatstica

Determinar o grau de confiana com que se pode concluir que os factos

Todos os testes envolvem duas componentes:

Vrios testes disponveis dependendo do tipo de situao:.

Testes de Significncia (2)

Exemplo com um ensaio mdico: Avaliar se os resultados de um ensaio com um

Direccionalidade da Hiptese Alternativa

Lanar 100 vezes uma moeda ao ar. Verificar se o nmero de caras

H1: n caras > MCE.

Este valor denominado

Notar que h mais 9 caras do que o esperado!

Agora para uma hiptese alternativa no direccional.

H1: n caras MCE.

Two-sided ou Twotailed test

Valor da estatstica das

A pergunta do teste anterior era: Em 100 lanamentos, qual a probabilidade

Em alternativa aos p-values, podemos usar intervalos de confiana.

Teste Binomial (2)

Duas amostras independentes: dadas duas amostras independentes,

Duas amostras dependentes: dadas duas amostras dependentes

(paired), testar se as amostra so tiradas de uma populao com o mesmo valor

onde N o tamanho da amostra, X mdia na amostra, S desvio

Para um dado fazemos o seguinte teste (sendo TS definida como):

Rejeitar H0 se o teste for positivo.

Upper critical values of Student's t distribution with

Usado para verificar se as amostras provm de populaes com

Amostras de tamanhos e varincia diferente,

Se H0 for verdadeira TS segue uma distribuio tDF:

Student t-test (2)

Para um dado valor de , rejeitar H0 se as condies

Os valores crticos de tGL so os mesmo da tabela

o t-test que nos vais ser mais til.

Onde a mdia das diferenas nas amostras, N o tamanho das amostras

Student t-test (2)

Quando H0 verdadeira TS segue uma distribuio tN - 1

Teste no paramtrico de localizao. Avalia se duas amostras tem

Assume que as observaes so independentes e contnuas ou

rank das diferenas

Gerao de ranks (com ties)

Tratamento de empates (ties): se duas ou

W a soma dos ranks

(soma de um rank = N(N-1)/2, sendo N o n de observaes)

onde N o n de signed ranksW

Sendo X e Y as nossas variveis estas podem ser agrupadas em I

Onde Nij a frequncia observada da var X com a categoria i

eij a frequncia esperada para a clula (i,j):

Se H0 for verdadeira, a TS segue a distribuio 2(I-1)(J-1).

Exemplo com tabela 2 x 2

Homens Mulheres Total

H0 : tipo de tuberculose que causa a morte a estes indivduos independente

Para o problema anterior, Yates 2 = 100.39.

Teste Exacto de Fisher

Teste Exacto de Fisher (2)

A probabilidade de obter (de forma aleatria) as observaes desta

(a b)!(c d )!( a c)!(b d )!

Para amostras de valores categricos

Verifica se duas amostras tm origem em populaes idnticas.

H1: populaes A e B so diferentes

As observaes NA e NB so agrupadas em K (K > 2) categorias

As frequncias esperadas so calculadas da seguinte forma:

com Nk = NkA + NkB , N = NA + NB sendo ekA= NA e ekB= NB

H0 verdadeira se TS segue uma distribuio 2K-1

um teste exacto (2 aproximado) para amostras de valores