Вы находитесь на странице: 1из 39

Testes de Hipteses

Paulo J Azevedo
DI - Universidade do Minho
2009

Reviso anlise de significncia estatstica

1
Testes de Hipteses

Testes de Significncia

Determinar o grau de confiana com que se pode concluir que os factos


observados reflectem mais do que simples coincidncia do acaso.
Em Data Mining/Machine Learning so tipicamente usados para avaliar se
a amostra que estamos a estudar (factos observados) fruto do acaso (se
ou no significativa).
Neste contexto so muitas vezes usados para detectar falsas descobertas.
Permitem tambm avaliar se tem cabimento esperar que os padres
extrados dos dados de treino (amostra) ocorram em dados futuros.

Todos os testes envolvem duas componentes:


Um valor observado (obtido da amostra),
O valor esperado se nada mais do que variabilidade aleatria (acaso) operar
nesta situao.

Vrios testes disponveis dependendo do tipo de situao:.


Testes de Hipteses

Testes de Significncia (2)


Quando executamos um teste de significncia estatstica
assumimos duas teses:
A hiptese especifica que a nossa investigao pretende averiguar (Hiptese
alternativa H1),
A anttese da hiptese a investigar (Hiptese nula H 0)

Exemplo com um ensaio mdico: Avaliar se os resultados de um ensaio com um


novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400
resultados positivos significativo:
H0 - o novo medicamento no tem efeito significativo
H1 o medicamento tem algum grau de eficcia na preveno de AVCs

Em termos estatsticos:
H0 o nmero de resultados positivos no significativamente diferente do
valor esperado por variabilidade aleatria MCE (mean chance expectation)
H1 o valor observado significativamente diferente do valor esperado.
3
Testes de Hipteses

Direccionalidade da Hiptese Alternativa


Dependendo do tipo de questo que queremos
enderear com a nossa hiptese alternativa,
esta pode ser direccional ou no-direccional.
No direccional, se no considerar em que sentido os
valores observados se afastam do valor esperado
(MCE). Assim temos:
H0: valor observado = MCE
H1: valor observado MCE
Direccional, se considera em que sentido os valores
observados se afastam do valor esperado (MCE).
Ho: valor observado = MCE
H1: valor observado > MCE,
H1: valor observado < MCE.
Testes de Hipteses

ou em alternativa
4

Exemplo

Lanar 100 vezes uma moeda ao ar. Verificar se o nmero de caras


obtido (59) significativo (se a moeda equilibrada o valor esperado
50% do nmero de testes).
One-sided ou
Usando a Binomial, com N=100,k=59,p=0.5,q=0.5.

One-tailed test

H1: n caras > MCE.


(Hiptese direccional)

Este valor denominado


por p-value.

Notar que h mais 9 caras do que o esperado!


De todos os possveis cenrios com 100 lanamentos, apenas 4.46%
tm no mnimo 59 caras. O resultado dos nossos lanamentos
5
significativo (probabilidade 0.05)
Testes de Hipteses

Exemplo

Agora para uma hiptese alternativa no direccional.


No nosso caso, H1: n de caras MCE.
Ou seja, responder pergunta: Em 100 lanamentos, qual a probabilidade
de obter um excesso de caras ou coroas (>50) to grande ou igual ao valor
obtido (59).
Neste teste, o valor observado no significativo (0.0892 > 0.05)

H1: n caras MCE.


(Hiptese direccional)

Two-sided ou Twotailed test

Valor da estatstica das


observaes.
z = ((k - ) 0.5) /

A pergunta do teste anterior era: Em 100 lanamentos, qual a probabilidade


de obter um excesso de caras (>50) to grande ou igual ao valor obtido (59)
6
Testes de Hipteses

Algumas Definies
p-value: a probabilidade de obter (de forma aleatria) um resultado
to ou mais extremo do que o que foi observado, assumindo que a
hiptese nula verdadeira.
Isto P(Obs MCE |
H0)
Interpretao alternativa, p-value o grau de contradio da
hiptese nula pelas observaes na amostra estudada. Quanto
menor, maior o grau de contradio.
o grau de significncia. O valor tradicional 5%, mas pode
tambm ser de 1% ou outros valores entre [0,1].
grau de confiana (1 - ).
tambm define a regio critica i.e. regio onde a hiptese nula
rejeitada. est relacionado com o erro Tipo I.
Erro tipo I, rejeitar H0 quando ela verdadeira ().
Erro tipo II, no rejeitar H0 quando ela falsa ().
Fora do teste (power of the test): probabilidade de correctamente
rejeitar H0. quando esta falsa e no rejeit-la quando ela
verdadeira. , respectivamente, (1 - ) e (1 ).
Testes de Hipteses

Intervalos de Confiana

Em alternativa aos p-values, podemos usar intervalos de confiana.


Usa-se para estimar parmetros da populao usando a amostra
e.g. estimar mdia () de uma populao usando mdia da amostra
(x).
O grau de confiana C = 1- determina a probabilidade de o
intervalo produzido pelo mtodo usado incluir o verdadeiro valor do
parmetro a estimar. Trabalha sempre com a estatstica do teste.
Para C =0.95, z*=1.96, ento IC = [x-1.96+/n , x+1.96+ /n]

8
Testes de Hipteses

Teste Binomial
Testa a significncia do desvio de uma amostra
representando um conjunto de experincias de Bernoulli
em relao distribuio terica esperada dessas
observaes i.e as variveis so dicotmicas
sucesso/insucesso.
um teste exacto !
Um teste de significncia exacto um teste onde todas as
condies assumidas para a derivao da distribuio onde o
teste estatstico baseado so satisfeitas. Consequentemente,
leva tambm obteno de um p-value exacto (e no
aproximado).
Um teste aproximado um teste onde a aproximao pode ser
feita o mais precisa possvel custa da obteno de uma
amostra suficientemente grande.
Testes de Hipteses

Teste Binomial (2)


Parmetros:

n, tamanho da amostra.
k, nmero de observaes com sucessos em n.
p, probabilidade esperada para sucesso
Clculo computacionalmente
q, probabilidade esperado para insucesso.
pesado! Por vezes faz-se uma
aproximao Gaussiana
p=1q
(categorias dicotmicas!)
(Normal)

n!
prob (n, k , p, q)
p k q nk
k!(n k )!
Para one-sided test (H1: observaes > MCE):
p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + +
prob(n,n,p,q).
10
Testes de Hipteses

Testes Paramtricos
Esto relacionados com um ou mais parmetros da
populao (distribuio assumida) e.g. mdia, desvio
padro.
Tipicamente assumida a Gaussiana.
Testes de localizao: relacionados com o valor
esperado da populao (mdia), onde o centro da
populao est localizado.
Vrios tipos:
Uma amostra: dada uma amostra e um valor esperado de uma populao,
testar se a amostra foi tirada da populao com o valor esperado dado.

Duas amostras independentes: dadas duas amostras independentes,


testar se as amostra so originadas de populaes com o mesmo valor
esperado.

Duas amostras dependentes: dadas duas amostras dependentes

(paired), testar se as amostra so tiradas de uma populao com o mesmo valor


esperado (tipicamente 0 para verificar significncia da diferena).
11
Testes de Hipteses

Student t-test
Assume uma distribuio Gaussiana (Normal)
Ideal para aplicar a amostra com N<30, para N30 devemos usar o
z-teste.
um teste de mdias.
H0: = 0 (0 o valor esperado da populao)
H1: 0, < 0, > 0 (dependendo de ser two-sided ou one-sided)
Estatstica do teste:

TS

X 0

S/ N

onde N o tamanho da amostra, X mdia na amostra, S desvio


padro na amostra.
Quando H0 verdadeira a TS segue uma distribuio tN-1 (N - 1 graus
12
de liberdade i.e. n de parmetros que podem ser variados independentemente ).
Testes de Hipteses

Student t-test
(one sample)

Para um dado fazemos o seguinte teste (sendo TS definida como):

TS

X 0
S/ N

Para
H1: 0, TS -tN-1(/2) ou TS tN-1(/2)
H1: < 0, TS < tN-1()
H1: > 0, TS > tN-1()

Rejeitar H0 se o teste for positivo.


Os valores crticos de tN-1 podem ser obtidos de uma
tabela
13
Testes de Hipteses

Graus de
liberdade

Distribuio t-student

Valor crtico
Valor da
t-estatstica

Upper critical values of Student's t distribution with


degrees of freedom
Probability of exceeding the critical value

14
Testes de Hipteses

Student t-test
(amostras independentes)

Usado para verificar se as amostras provm de populaes com


diferentes mdias.
Trs situaes possveis (e respectivas def. de TS):
1.
2.
3.

Amostras de tamanhos e varincia diferente,


Amostras de tamanhos diferentes mas varincia igual,
Amostras de tamanhos e varincia igual.

Se H0 for verdadeira TS segue uma distribuio tDF:

0 a diferena
entre valores
esperados das
populaes

15
Testes de Hipteses

Student t-test (2)


(amostras independentes)
Trs situaes possveis para testar H0
H0: A - B = 0

Para um dado valor de , rejeitar H0 se as condies


forem satisfeitas:
H1: A - B 0 , se TS -tGL(/2) ou TS tGL(/2)
H1: A - B < 0 , se TS < tGL()
H1: A - B > 0 , se TS > tGL()

Os valores crticos de tGL so os mesmo da tabela


apresentada anteriormente.
16
Testes de Hipteses

Student t-test
(paired test)

o t-test que nos vais ser mais til.


Assume amostra emparelhadas (por exemplo referente a observaes no
mesmo local ou tempo, etc).
Determina se as amostras diferem de uma forma significativa, considerando as
condies de que as diferenas entre pares so independentes e que seguem
uma distribuio Normal.
Hipteses:
H 0 : = 0
H1: 0 , < 0 ou > 0
Onde
= XA XB a diferena emparelhada entre as duas amostras,
o valor esperado da diferena das populaes.

TS

S / N

Onde a mdia das diferenas nas amostras, N o tamanho das amostras


17
e S o desvio padro das diferenas nas amostras.
Testes de Hipteses

Student t-test (2)


(paired test)

Quando H0 verdadeira TS segue uma distribuio tN - 1


Para um dado fazemos os seguintes testes:
H1: 0 , se TS -tN - 1(/2) ou TS tN - 1(/2)
H1: < 0 , se TS < tN - 1()
H1: > 0 , se TS > tN - 1()
rejeitando H0 quando eles so verdadeiros. Os valores crticos de
1 so os mesmo da tabela anterior.

Notar que este teste acaba por ser one-sample (as diferenas entre
pares formam uma s amostra)!

Testes alternativos
Z-test quando N>30,
Mann-Whitney para amostras independentes de populaes no
Normais.
Binomial, Wilcoxon para amostras emparelhadas de populaes no
Normais.
Testes de Hipteses

tN

18

Teste de Mann-Whitney-Wilcoxon

Teste no paramtrico de localizao. Avalia se duas amostras tem


origem na mesma populao. Uma alternativa ao paired t-test.

Assume que as observaes so independentes e contnuas ou


ordinais i.e. possvel estabelecer uma ordem sobre as
observaes.
Testa (em vez de comparar mdias) se as populaes so
idnticas. um teste de ranks sinalizados (signed rank).
Determina se h uma tendncia em seriar mais alto uma amostra
(observao) em relao outra e.g. valores mdicos antes e
depois de tratamento. Hiptese nula assume que no h tendncia.

Hipteses:
H0:A = B (n de valores positivos n de negativos
H1:A B , A > B ou A < B

i.e. no h tendncia)

19
Testes de Hipteses

rank das diferenas


em valor absoluto

Gerao de ranks (com ties)


Rank das diferenas
com sinal

Diferenas nulas
so ignoradas

Tratamento de empates (ties): se duas ou


mais diferenas tm o mesmo valor ento
todos passam a ter o valor mdio desses
ranks. e.g. 3,4 e 5 d rank 4 para todos.

W a soma dos ranks


(sem valores nulos)

Amostra A
Amostra B

Diferena entre
amostras

Valor absoluto da
diferena
Testes de Hipteses

20

Teste de Mann-Whitney-Wilcoxon
Procedimento:
Calcular XA XB, ignorar casos com valor zero,
Calcular |XA XB|, rank deste valor e o rank sinalizado:
+ se XA XB > 0
- se XA XB < 0

(soma de um rank = N(N-1)/2, sendo N o n de observaes)


Calcular W = soma dos signed ranks
Calcular W
N ( N 1)(2 N 1)

onde N o n de signed ranksW


considerados
os nulos).
valores crticos de
0.5 (semConsultar
z numa tabela prpria. Com
Estatstica do teste : z
N > 20 aproxima Normal.

Testes de Hipteses

21

Teste de Associao
Testes no paramtricos que medem o grau de
dependncia entre duas variveis aleatrias.
No assumem nenhum tipo de distribuio.
Assume observaes de frequncia de variveis
categricas. As variveis da amostra esto divididas
em categorias.
As observaes das duas variveis so agrupadas em
classes independentes (disjuntas).
Tipicamente, os dados do teste esto representados em
tabelas de contingncia 2 x 2. No entanto podemos ter
mais do que 2 dimenses.
Testes a estudar
Teste do 2 (chi quadrado)
Teste exacto de Fisher,
Testes de Hipteses

22

Teste do 2

Hipteses:
H0 : as variveis so independentes
H1 : as variveis no so independentes

Sendo X e Y as nossas variveis estas podem ser agrupadas em I


(i=1,..I) e J (j=1,..,J) categorias numa tabela de contingncia:

Onde Nij a frequncia observada da var X com a categoria i


conjuntamente com a var Y com a categoria j.

N i

ij

j 1

23
Testes de Hipteses

Teste do 2 (2)
Estatstica do teste:

TS

( N ij eij )

i 1

j 1

eij

eij a frequncia esperada para a clula (i,j):

eij

N i N j
N

Se H0 for verdadeira, a TS segue a distribuio 2(I-1)(J-1).


N de graus de liberdade = (I-1) x (J-1)
Para um dado , rejeitamos a hiptese nula se:

TS > 2(I-1)(J-1)()
Testes de Hipteses

24

Exemplo com tabela 2 x 2

SEXO

Homens Mulheres Total


TB

TB no SR

3534

1319

4853

Outras TB

270

252

522

Total

3804

1571

5375

H0 : tipo de tuberculose que causa a morte a estes indivduos independente


do seu sexo.
Valor obtido da
e11 = (4853 x 3804) / 5375 = 3434.6
2 = (3534 3434.6)2 / 3434.6 + (1319 1418.4)2 / 1418.4 + ..
+ (252 152.6)2 / 152.6 = 101.35

tabela de
distribuio do 2.

Para =0.05 temos 2(1)(1)(0.05) =3.84. Rejeitamos H0 se 2 > 3.84 o que o caso.
Concluso: a proporo de homens que morre de tuberculose tipo SR diferente
da proporo de mulheres. Isto , h evidncias de uma associao entre tipo de
TB e sexo.
25
Testes de Hipteses

Caractersticas do teste do 2
um teste no direccional. sempre two-sided.
um teste aproximado. O p-value obtido por
aproximao. No problema anterior p-value < 0.00001.
Para observaes pequenas um teste pouco fivel.
Para valores esperado pequenos (eij < 5) no deve ser
usado.
No caso especfico de tabelas 2 x 2 devemos usar a
Correco de Yates para continuidade.
'

TS

( N ij eij ) 0.5

i 1

j 1

eij

Para o problema anterior, Yates 2 = 100.39.


Testes de Hipteses

26

Teste Exacto de Fisher


O teste ideal para aplicar com tabelas de contingncia
de dados pequenos esparsos e no balanceados.
No sofre dos mesmos problemas do teste 2
Embora seja aplicvel noutras situaes, vamos sempre
usar em tabelas 2 x 2 e com hipteses alternativas
direccionais (one-sided) i.e. afasta-se de H0 numa
direco especfica!
um teste exacto, portanto um p-value exacto.
A ideia geral considerando a tabela de observaes,
gerar as tabelas com as mesmas margens, que so
mais extremas que a observada, na mesma direco da
nossa observao e.g. que a proporo TB do tipo SR
nas mulheres menor que proporo TB tipo SR nos
homens.
27
Testes de Hipteses

Teste Exacto de Fisher (2)


Considerando a tabela de contingncia 2 x 2 geral, temos:

Y1

Y2

Total

X1

a+b

X2

c+d

Total

a+c

b+d

As margens
esto a azul

n = a+b+c+d

A probabilidade de obter (de forma aleatria) as observaes desta


tabela :

(a b)!(c d )!( a c)!(b d )!


p
n!a!b!c!d !
O p-value = p das tabelas to ou mais extremas do que a
observada. (tipicamente p: p < pobservada)
Para o exemplo anterior p-value = 2.959442371307591e-22
Testes de Hipteses

28

Goodness-of-fit
(testes para a qualidade do ajuste)
No nosso caso, vai servir para verificar se duas
amostras foram retiradas de uma mesma populao.
Tradicionalmente so utilizados para verificar a
qualidade da adequao (fit) de uma distribuio terica
em relao a um conjunto de observaes (amostra)
e.g. testar a Normalidade de uma amostra.

Testes no paramtricos:
Para amostras de valores contnuos
Kolgomorov-Smirnov

Para amostras de valores categricos


Pearsons goodness-of-fit (2)
Testes de Hipteses

29

Goodness-of-fit

Verifica se duas amostras tm origem em populaes idnticas.


H0 : populaes A e B so idnticas

H1: populaes A e B so diferentes

As observaes NA e NB so agrupadas em K (K > 2) categorias


(disjuntas).
Em cada amostra contada a frequncia absoluta de cada diferente
ki categoria, com kiK.

As frequncias esperadas so calculadas da seguinte forma:

Nk
ekA N A
N

ekB N k ekA

com Nk = NkA + NkB , N = NA + NB sendo ekA= NA e ekB= NB


Testes de Hipteses

30

Goodness-of-fit (2)
A estatstica do teste :

( N kA ekA ) 2
TS

ekA
k 1
K

( N kB ekB ) 2
ekB
k 1
K

H0 verdadeira se TS segue uma distribuio 2K-1


Para um dado , rejeitamos H0 se:

TS > 2K-1()
31
Testes de Hipteses

Teste de Kolgomorov-Smirnov
(duas amostras)

um teste exacto (2 aproximado) para amostras de valores


contnuos.
Assume distribuies contnuas onde a forma e os parmetros da
funo densidade de probabilidade so conhecidos
O teste compara a proximidade entre as funes de densidade
acumulada (CDF) de cada amostra (tambm conhecidas por funes
de distribuio empirica).
Encontra a mxima discrepncia entre as duas CDFs e verifica se
esta estatisticamente significativa.
CDF das amostras so definidas como (N = xi):

FA ( x) : xi S ( xi )

xj

N :x

xi
32

Testes de Hipteses

Teste de Kolgomorov-Smirnov (2)


(duas amostras)

H0 : FA(x) = FB(x)

H1 : FA(x) FB(x)

A estatstica do teste :

TS D' max S A ( x) S B ( x)
x

Para um dado , rejeitamos H0 se o seguinte teste for verdadeiro:

N ANB
D ' D' ( )
N A NB

Os valores crticos de [(NANB )/(NA + NB )]D() podem ser


consultados na tabela da distribuio de Kolgomorov. 33
Testes de Hipteses

Teste de Kolgomorov-Smirnov (3)


(execuo)
TS D' max S A ( x) S B ( x)
x

34
Testes de Hipteses

Mltiplas Hipteses
Controle da capitalizao do acaso.
Exemplo de situao tpica:

Teste Binomial com:


n=14, k=11, p=0.5, q=0.5,
e H1: obs > MCE

Queremos contratar um corrector para investir na bolsa. A


funo deste corrector emitir previses sobre a subida/descida
do indicador PSI20 ao fim de cada dia. Queremos ter a garantia
que no contratamos um charlato (algum cujas previses no
so melhores do que o acaso). Para avaliar esta possibilidade
usamos um teste de 14 dias de bolsa. Se o consultar acertar em
11 ou mais dias ento aceitamo-lo como fivel.
So 11 em 14 dias porque h 50% de hipteses de acertar em
cada dia, logo h s 2.87% de acertar ao acaso em 11 ou mais
dias.
Assim, se um corrector for contratado porque passou o teste
dos 11 dias, temos uma probabilidade 0.0287 de contratar
um charlato.
35
Testes de Hipteses

Mltiplas Hipteses
Nova situao:
Vamos imaginar agora que aceitamos 10 candidatos para esta
funo, onde vamos seleccionar o corrector com maior preciso.
Para n candidatos, n > 1, cada charlato tem 2.87% de passar o
teste.
Em geral, a probabilidade de seleccionar um charlato
1 - (1 0.0287)n.
No caso de n=10, esta probabilidade 25.3%

Concluso: Se no ajustarmos o nosso limite , que define

quando um corrector passa a ser considerado um charlato,


aumentamos a probabilidade de ocorrer um erro do tipo I.
Com um n suficientemente grande de charlates entre os
candidatos, iremos quase de certeza ter pelo menos um deles
com um desempenho que passa qualquer limite (sem a
garantia de ele no ser um charlato).
Testes de Hipteses

36

Mltiplas Hipteses (2)


Problema das Multiplas Comparaes. Risco de erro tipo I
no mais do que .
Probabilidade de ocorrer um erro de tipo I aumenta com o
nmero de testes.
Para n testes real = 1 - (1 - )n
Usar Ajustamento de Bonferroni:
(corrigir para n testes como sendo = /n)
tendncia a ser um crivo demasiado fino!
Usar Ajustamento de Holm (k em vez de ).
Requer ordenao crescente dos p-values e ter disponveis todos
estes valores antes de determinar valor de ajustamento (k).

Para n testes,

k max( pi : 1 j i p j

Testes de Hipteses

n j 1

37

Ajustamento de Bonferroni
(utilizao tpica em Data Mining)
Usar Ajustamento de Bonferroni (corrigir para n
testes como sendo = /n).
Usar layered critical values,
Em vezes de um cutoff global que corrige o
inicial, obter vrios L para cada nvel L.

'L

( Lmax S L )

Onde SL o n de padres possveis de gerar com tamanho L.


Lmax o tamanho mximo de um padro.
Temos a garantia que:
Lmax
'

L 1 L S L

Testes de Hipteses

38

Resumo
Testes de significncia,
Inferncia estatstica e controle de fenmenos
fruto do acaso,
Tipos de erro,
Testes paramtricos e no paramtricos,
Direccionalidade, poder do teste, regio crtica,
p-value e intervalos de confiana,
Testes de localizao, associao e goodnessof-fit,
Mltiplas hipteses e controle de erro,
Ajustamento do valor de significncia ().
39
Testes de Hipteses

Вам также может понравиться