Вы находитесь на странице: 1из 70

APONTAMENTOS DE

B I O E S T A T S T I C A




Brbara Oliveiros, 2008

BioEstatstica
3
1. INTRODUO BIOESTATSTICA

A estatstica uma rea do conhecimento que utiliza teorias probabilsticas para explicao
de eventos, estudos e experimentos. Tem por objectivo obter, organizar e analisar dados,
determinar as relaes que estes apresentam, e avaliar as consequncias para descrio e
explicao do que passou, e/ou para a previso e organizao do futuro.
A estatstica tambm uma cincia e prtica de desenvolvimento de conhecimento humano
atravs do uso de dados empricos. Baseia-se na teoria estatstica, um ramo da matemtica
aplicada. Na teoria estatstica, a aleatoriedade e incerteza so modeladas pela teoria da
probabilidade. Algumas prticas estatsticas incluem, por exemplo, o planeamento, a
descrio e a interpretao de observaes. Porque o objectivo da estatstica a produo da
"melhor" informao possvel a partir dos dados disponveis, alguns autores sugerem que a
estatstica um ramo da teoria da deciso.

Origem
O termo estatstica surge da expresso em Latim statisticum collegium, palestra sobre os
assuntos do Estado, de onde surgiu a palavra em lngua italiana statista, que significa "homem
de estado", ou poltico, e a palavra alem Statistik, designando a anlise de dados sobre o
Estado. A palavra foi proposta pela primeira vez no sculo XVII, em latim, por Schmeitzel na
Universidade de Lena e adoptada pelo acadmico alemo Godofredo Achenwall. Aparece
como vocabulrio na Enciclopdia Britnica em 1797, e adquiriu um significado de colecta e
classificao de dados, no incio do sculo XIX.
Actualmente, um ramo do conhecimento cientfico que tem por objectivo no s a
observao, classificao e anlise dos fenmenos colectivos, mas tambm o estudo de
possibilidade de inferncia indutiva a partir de dados observados.

A base da estatstica e sua definio
A Estatstica uma ferramenta matemtica que nos informa sobre o erro que as nossas
observaes apresentam sobre a realidade pesquisada. A estatstica baseia-se na medio do
erro que existe entre a estimativa de quanto uma amostra representa adequadamente a
populao da qual foi extrada. Assim o conhecimento de teoria de conjuntos, teoria de
probabilidades, anlise combinatria e clculo so indispensveis para compreender como o
Engenharia Biomdica

4
erro se comporta e a magnitude do mesmo. o erro (erro amostral) que define a qualidade da
observao e do delineamento experimental.

A probabilidade de um evento frequentemente definida como um nmero entre zero e um.
Na realidade, porm, nunca h situaes que tenham probabilidades 0 ou 1. Pode dizer-se que
o sol ir certamente nascer na manh seguinte, mas e se acontecer um evento extremamente
difcil de ocorrer que o destrua? E se ocorrer uma guerra nuclear e o cu ficar coberto de
cinzas e fumo?

Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque
elas so to provveis ou improvveis de ocorrer, que fcil de reconhec-las como
probabilidade de um ou zero.
Entretanto, isto normalmente leva a desentendimentos e comportamentos perigosos, porque as
pessoas no conseguem distinguir entre, uma probabilidade de 10
-4
e uma probabilidade de
10
-9
. Na prtica, h uma grande diferena: imagine que vai atravessar a estrada numa
passadeira cerca de 10
5
ou 10
6
vezes na sua vida. Considerando que o risco de atropelamento
10
-9
, pode ficar seguro para o resto da sua vida; considerando que o risco de atropelamento
de 10
-4
, bastante provvel que venha a ser atropelado, mesmo com o sentimento intuitivo
que 0,01% um risco muito baixo.


Bioestatstica a estatstica aplicada ao estudo das caractersticas biolgicas das
populaes (humanas) ou, de forma genrica, s cincias da vida.
A Bioestatstica cada vez mais uma rea independente da estatstica, ainda que as suas bases
assentem na teoria de probabilidades, tal como a prpria Estatstica.
Inicialmente, considerou-se a Bioestatstica como a Estatstica aplicada Biologia Humana e
Medicina. Uma definio mais actual, e mais abrangente, passou a ser a cincia que foca o
desenvolvimento e utilizao de mtodos estatsticos para resolver problemas e questes que
surgem nas reas da Biologia Humana e Medicina.
Contudo, comea a considerar-se que, na Bioestatstica, podero caber temas to diversos
como a avaliao de recursos faunsticos e florais, estudos da teoria de aprendizagem e
comportamento animal, questes de ecologia e, sobretudo, Planeamento de Experincias.
BioEstatstica
5
Assim, a Bioestatstica tem de ser uma rea interdisciplinar, onde o raciocnio dedutivo e
indutivo devem estar integrados de forma a considerar que:
a incerteza fonte de conhecimento, quando a Probabilidade nos permite delimit-la
caracterizando os seus padres;
a informao obtida por acaso pode ser enganadora, enquanto que a informao obtida
ao acaso tem uma variabilidade til;
mais importante do que a informao, a transformao desta em conhecimento;
a amostragem boa mas o Planeamento Experimental ainda melhor, por ser um
investimento na obteno de dados de qualidade, que importam analisar;
os problemas ticos no podem ser escamoteados na investigao experimental;
o problema do passado (e actual, no caso das doenas raras) era a escassez de dados e,
actualmente, o problema , frequentemente, a proliferao de dados, muitas vezes de m
qualidade.

Estatstica

Descritiva Inferencial
Descrever dados atravs de Tomada de deciso baseada
indicadores (estatsticas)
nos elementos observados No conhecimento que o
Estimadores dos reais ou experimentados (intervalos de investigador tem sobre
Indicadores da populao confiana e/ou testes estatsticos) o problema em causa



Engenharia Biomdica

6

Sumariar dados Estatstica descritiva

Conhecimento da populao
Extrapolar para a populao as concluses obtidas na amostra
Estimao de parmetros
Inferncia estatstica Clculo de Probabilidades
(estatstica assenta na Testes de Hipteses
teoria de probabilidades) Origem nos jogos de azar


Fenmeno aleatrio influenciado pelo acaso

Experincia aleatria h possibilidade de ser repetida em condies idnticas
- conhecido o conjunto de todos os resultados possveis, embora no
se saiba, priori, qual ser o resultado
- existe regularidade estatstica na repetio da experincia

Experincia determinstica o resultado conhecido antes da sua realizao (ex: temperatura
de congelao ou ebulio da gua)


BioEstatstica
7
2. RECOLHA DE DADOS E AMOSTRAGEM
Primrios levantados especialmente para determinada investigao
Dados
Secundrios- se se utilizam dados j existentes

Censo informao relativa a todos os elementos da populao
Recolha de dados
Amostragem analisa-se um subconjunto da populao

Impossvel a recolha de todos os elementos da populao em
Populaes infinitas
Com elevado n de elementos
Quando o estudo das caractersticas de cada elemento conduz sua destruio
O estudo cuidadoso de uma amostra conduz a resultados mais fidedignos do que o estudo
sumrio de toda a populao
Menor custo e obteno de resultados em tempo oportuno
Problemas de ordem tica devem ser tidos em considerao
Estudo de novos medicamentos
Novas tcnicas cirrgicas
Tcnicas invasivas

Amostra representativa da populao
No pode ser enviezada definio correcta da populao a inquirir e da tcnica de
amostragem
Deve existir um controlo na obteno de no respostas ou casos perdidos, o que pode
diminuir drasticamente a dimenso da amostra
Deve ter dimenso suficiente para que as concluses a obter tenham um determinado grau
de confiana e nvel de preciso

Amostras de convenincia so, muitas vezes, as nicas possveis de obter, principalmente
quando se trata de populaes raras, mal conhecidas, geograficamente mal determinadas

Perigo de tendenciosidade, logo inadequadas para produzir inferncia
Dimenso mnima da amostra?
vantagens
Engenharia Biomdica

8
Amostragem aleatria, casual ou probabilstica a que garante melhor representatividade
necessrio possuir uma listagem de todos os elementos da populao de modo a que a
probabilidade de qualquer elemento da populao ser seleccionado seja conhecida priori
(0.)

Extremamente difcil obter-se tal amostragem possvel obter uma aproximao

Amostragem aleatria
Simples todos os elementos tm igual probabilidade de serem seleccionados (1/N) por
sorteio (bolas numeradas num saco, tabela de n
os
aleatrios
1
). Este mtodo no muito
usado dado que difcil obter populaes rplica

Estratificada quando se conhece a estrutura da populao. Conduz a amostras
representativas de menor dimenso. A populao dividida em estratos, grupos
homogneos relativamente a uma caracterstica (ex: sexo), e dentro de cada estrato
seleccionam-se os elementos duma forma aleatria simples, de acordo com a proporo de
cada grupo na populao.

Sistemtica ou quase aleatria Apenas o 1 elemento da amostra escolhido
aleatoriamente, e os restantes so determinados de modo sistemtico pela razo N/n (N
dimenso da populao; n dimenso da amostra). O 1 elemento pode ser obtido por
uma tabela de n
os
aleatrios no intervalo [1, N/n], e os restantes por adio de N/n (valores
arredondados ao menor inteiro).



1
Geradas por processos matemticos que constituem um conjunto de nmeros que no obedecem a nenhum
plano prvio (amostras sem reposio)
BioEstatstica
9
3. VARIVEIS, PROBLEMAS DE INVESTIGAO E QUESTES

3.1 Variveis
Os elementos chave de uma investigao so as variveis caractersticas dos participantes
ou da situao de um determinado estudo, que pode tomar diferentes valores. Uma varivel
tem de ter a capacidade de variar, ou tomar diferentes valores. Se um conceito apenas toma
um valor num estudo, ento no uma varivel (por exemplo, o gnero no uma varivel se
todos os indivduos do estudo forem mulheres).
Na investigao quantitativa, as variveis podem ser definidas como:


3.1.1 Varivel Independente
Activa a varivel ou a situao em que esta avaliada pode ser manipulada. A varivel de
interesse dada ao participante (ex: terapia nova/terapia tradicional, substncia
activa/placebo). A existncia deste tipo de variveis independentes necessria mas no
suficiente para tirar concluses de causa-efeito, ou seja, fazer inferncia. Os Estudos
Experimentais (randomizados ou no) exigem a existncia deste tipo de variveis.
Atributo a varivel independente medida, no pode ser manipulada, embora seja um foco
importante do estudo (os valores da varivel independente so atributos pr-existentes, que
no se alteram sistematicamente com o desenrolar do estudo. Ex: gnero feminino/masculino,
escalo etrio). Estudos que apenas tm variveis independentes do tipo atributo so no
experimentais.

3.1.2 Varivel Dependente mede ou avalia o efeito da varivel independente; assumida
como o resultado.
Varivel
Independente Dependente

Estranha
Activa
*
Atributo
**

Engenharia Biomdica

10


3.1.3 Varivel Estranha no so de interesse em determinado estudo, mas podem
influenciar a varivel dependente. Factores ambientais e caractersticas do experimentador so
variveis estranhas que devem ser controladas

.
3.2 Amostras independentes versus amostras emparelhadas
Independentes se no existe nenhum tipo de relao ou factor unificador entre os
elementos das amostras: a probabilidade de um sujeito pertencer a ambas nula (ex: uma
varivel avaliada para cada um dos gneros sexuais)

Emparelhadas as amostras so constitudas usando os mesmos sujeitos experimentais,
ou homlogos (ex: a mesma varivel medida antes e depois de um determinado
tratamento). A excepo quando se utilizam Gmeos ou animais da mesma ninhada

A distino entre amostras independentes e emparelhadas particularmente importante para a
inferncia estatstica: a relao, ou ausncia de relao, existente entre os elementos de uma
ou mais amostras.





BioEstatstica
11
3.3 Questes, Hipteses e Objectivos de Investigao
A nica diferena entre as questes e as hipteses de investigao est no formato de
apresentao das ideias a investigar (pergunta/frase). A partir do momento em que esto
definidas as questes ou as hipteses de investigao, estas podem ser objectivadas num
captulo: objectivos de investigao ou do estudo.


Exemplos:
Questes Hipteses Objectivos
Ser que este novo tratamento
eficaz em comparao com o
placebo?
Pretende-se investigar a hiptese do
novo tratamento ser mais eficaz
que o placebo.
Comparar a eficcia do novo
tratamento versus a eficcia do
placebo.
Ser que este novo tratamento to
seguro como o tratamento
standard?
Pretende-se investigar a hiptese
que o novo tratamento to seguro
como o tratamento standard.
Comparar a segurana do novo
tratamento versus a segurana do
tratamento standard.
Ser que os expostos a
determinados factores de risco tm
efectivamente mais risco de doena
que os no expostos?
Pretende-se investigar a hiptese
que os expostos a determinados
factores de risco tm efectivamente
mais risco de doena que os no
expostos.
Comparar as incidncias da doena
entre os expostos a factores de risco
e os no expostos.
Ser que quem fez a terapia A tem
10 vezes menos risco de recidiva
que quem no fez?
Pretende-se investigar a hiptese
que quem fez a terapia A tem 10
vezes menos risco de recidiva que
quem no fez.
Comparar as taxas de recidiva entre
um grupo que faz a terapia A e um
grupo que no faz qualquer
tratamento.
Ser que os casos de doena
estiveram mais expostos a deter-
minados factores de risco que os
controlos?
Pretende-se investigar a hiptese
que os casos de doena estiveram
mais expostos a determinados
factores de risco que os controlos.
Comparar casos com controlos
relativamente exposio prvia a
factores de risco.

Ser que esta doena apresenta um
prevalncia ao nvel nacional que
justifique que a mesma seja
considerada um problema de sade
pblica?
Pretende-se investigar a hiptese
desta doena apresentar uma
prevalncia ao nvel nacional que
no justifica que a mesma seja
considerada um problema de sade
pblica.
Determinar a taxa de prevalncia
da doena a nvel nacional.
Ser que os acidentes de viao
apresentam um incidncia anual
que justifique ser considerado um
problema de sade pblica?
Pretende-se investigar a hiptese
dos acidentes de viao
apresentarem uma incidncia anual
que realmente justifica ser
considerado um problema de sade
pblica.
Determinar a taxa de incidncia
anual mdia dos acidentes de
viao nos prximos 5 anos.



Engenharia Biomdica

12
3.3.1 Relao entre variveis e Questes/hipteses e objectivos da Investigao
As variveis tm de ser observadas para se poderem analisar os objectivos da investigao. De
acordo com os exemplos anteriores, poder-se-ia ter:



3.4 Nveis de mensurao das variveis
Existem variveis Qualitativas e Quantitativas.
As primeiras, embora categorias, podem ser ordenveis ou no, ainda que, por vezes, se
considere que as variveis dicotmicas so sempre ordenveis. As variveis quantitativas
podem ser discretas (se tomam valores num conjunto finito ou infinito numervel) ou
contnuas (se tomam valores no conjunto n
os
reais).
Dado que as variveis medem qualidades ou quantidades, podem ser classificadas quanto ao
seu nvel de mensurao, sendo que a escolha do tratamento estatstico adequado exige a
identificao da escala e nveis de medida das variveis.

Nveis de Mensurao
Nominal =,
Ex: sexo, raa, religio, estado civil, n na camisola do jogador de futebol
Os valores so atributos ou categorias; os meros apenas servem para identificar
categorias
Variveis qualitativas classificao dos indivduos de acordo com as suas categorias
Nominal Dicotmica tem alguns privilgios
BioEstatstica
13
Ordinal =, , <, >
Ex: nvel scio-econmico, ordem de preferncias, faixas etrias, grau de escolaridade
Podem ser distinguidos diferentes graus de um atributo ou categoria, existindo entre eles
uma relao de ordem; categorias que podem ser ordenadas de forma
ascendente/descendente; os cdigos numricos atribudos a estas categorias devem
obedecer a essa ordem

Intervalar =, , <, >, valor das diferenas
Ex: temperatura, escala QI, medidas de atitudes e personalidade
Variveis quantitativas quanto valem as diferenas entre os valores: Entre 10C e 30C
existe uma diferena idntica encontrada ente 70C e 90C. mas 90C no 3 vezes
mais quente do que 30C! O zero arbitrrio e no ausncia da caracterstica!

Racional Todas as operaes aritmticas
Ex: peso, altura, idade, velocidade, nveis de glicmia
O valor mnimo o zero absoluto, que representa ausncia da caracterstica medida.

possvel passar de um nvel de mensurao para outro inferior Perda de informao


3.5. Plano de Operacionalizao das variveis
Desde o momento que esto definidas diferentes variveis para um estudo, de todo o
interesse definir um plano de operacionalizao (ou informatizao) de variveis. Neste
plano deve constar qual a notao computacional da varivel, assim como os seus possveis
valores ou cdigos, o tipo de varivel e a sua importncia na investigao. Por exemplo:
Engenharia Biomdica

14



3.6 Codificao das variveis
3.6.1 Regras
- Todos os dados devem ser numricos;
- Cada indivduo ou participante corresponde a uma linha da base de dados;
- Cada varivel de cada caso corresponde a uma coluna, na mesma linha, da base de dados;
- Os cdigos de uma varivel devem ser mutuamente exclusivos;
- Cada varivel deve ser codificada de forma a que se obtenha o mximo de informao;
- Cada indivduo deve estar codificado com um identificador nico
- Os cdigos devem ser consistentemente aplicados a todos os casos da base de dados

3.6.2 Controlo da Base de dados
conveniente que se criem regras (escritas) para lidar com alguns problemas como: respostas
duplas, incompletas, em branco, no muito claras, etc.

No respostas DEVEM ser clulas em branco, e no ZERO! Eventualmente, atribui-se um
valor superior ao mximo possvel para aquela varivel como, por exemplo, 99, 999, ...



BioEstatstica
15
As no respostas podem
Resultar de erros de introduo ou de recolha de dados devem ser eliminadas
Fazer parte da natureza intrnseca do fenmeno devem ser retidas

Caso estas atinjam ou ultrapassem 20% dos dados, devem ser analisadas com ateno pois, se
no tiverem um comportamento aleatrio, iro enviezar os resultados do estudo, podendo
caracterizar o segmento da populao que se negou a responder.




Engenharia Biomdica

16
4. REPRESENTAO DAS VARIVEIS
4.1 Indicadores numricos
As estatsticas apropriadas dependem do nvel de mensurao da varivel.
Nvel de mensurao
Medidas de Nominal Ordinal Intervalar/Ratio
Tendncia central Moda
Moda
Mediana
Mdia aritmtica
Moda
Mediana
Localizao -
Quantis:
Quartis/decis/percentis...
Quantis:
Quartis/decis/percentis...
Disperso - Amplitude inter-quartis Erro/Desvio-padro
Indicadores da
distribuio
- -
Coeficiente de
Assimetria/Achatamento

Distribuio
Simtrica
- coef. assimetria = 0
- mdia=mediana=moda
Assimetria no confirmada
- 96 . 1
.

padro erro
assimetria coef

- moda mediana mdia
assimtrica
- 96 . 1
.
>
padro erro
assimetria coef

- assimtrica positiva ou direita: x Md Mo < <
- assimtrica negativa ou esquerda: Mo Md x < <


4.2 Representao grfica
Grfico de barras, Grficos Circulares, Histograma de frequncias ou de frequncias
acumuladas, Polgono de frequncias e ogiva de Galton so grficos j conhecidos do aluno.

Diagrama de extremos e quartis ou caixa de bigodes - Outliers
A representao grfica permite visualizar o comportamento da varivel e identificar as
observaes aberrantes ou outliers, que tendem a distorcer a mdia (aumentando-a ou
BioEstatstica
17
diminuindo-a) e o desvio-padro (aumentando-o). Nestes casos, Assim, estes devem ser
expressamente referidos e analisados aquando da interpretao dos resultados, analisando
ainda o efeito daqueles na distribuio atravs da comparao das estatsticas resultantes da
anlise com e sem observaes aberrantes.
Quando os outliers afectam significativamente os resultados, no se deve utilizar o desvio-
padro como medida de disperso, mas sim aplicar estatsticas mais robustas, como por
exemplo a amplitude inter-quartil ou a MAD (mediana dos desvios absolutos em relao
mediana); alternativamente, podem transformar-se os dados de forma a obter a simetria.


Grficos de Caule e Folhas renem a informao dos
histogramas, mantendo o valor em cada observao.
Actualmente no so muito utilizados.


Diagrama de barras de erro: desvio-padro, erro-padro e
intervalo de confiana muito teis quando se pretende
comparar uma varivel dependente intervalar/ratio em pelo
menos dois grupos independentes. Ilustram no s o valor da
mdia, mas tambm a disperso observada ou o valor esperado
na populao, para cada grupo.

Diagramas de Disperso Ilustram a relao, casustica ou de
mera associao, entre 2 variveis; particularmente teis para
verificar se a relao entre variveis do tipo linear.
Testemunha Controlo Estudo
Grupo
2.00
3.00
4.00
V
E
M
S

(
S
)

2
0
0
M
L
]
]
]
Engenharia Biomdica

18
4.3 Representao Tabular
Tabela de distribuio de frequncias 1 varivel


Tabela de contingncia - Representao simultnea de 2 variveis



BioEstatstica
19
Exemplo: Pretende-se avaliar uma possvel relao entre a existncia de cries dentrias e o
sexo e o ndice de massa corporal dos jovens portugueses. Pensa-se aidna que o IMC poder
estar relacionado com a regio de residncia dos indivduos.
1. Como planearia este estudo? Descreva sucintamente.
2. Suponha agora que j tinha colhido os dados referentes ao Sexo, Altura e existncia de
cries dentrias. Abra um livro do Microsoft Excel.
2.1. Na folha 1, crie um Plano de Operacionalizao de Variveis para os seguintes dados:
Id Sexo Altura Cries Id Sexo Altura Cries Id Sexo Altura Cries
1 M 1.717 Sim 15 F 1.552 Sim 29 F 1.557 Sim
2 M 1.574 Sim 16 M 1.627 No 30 F 1.535 No
3 M 1.618 Sim 17 M 1.516 Sim 31 F 1.535 No
4 F 1.402 No 18 M 1.718 Sim 32 M 1.520 No
5 F 1.427 No 19 F 1.475 No 33 1.577 No
6 M 1.558 No 20 F 1.505 No 34 M 1.554 Sim
7 F 1.462 Sim 21 F 1.408 Sim 35 M 1.533 Sim
8 1.504 Sim 22 M 2.522 Sim 36 M 1.562 Sim
9 M 1.754 No 23 M 1.527 No 37 F 1.458 Sim
10 M 1.626 No 24 M 1.622 No 38 M 1.649 Sim
11 F 1.529 No 25 F 1.481 Sim 39 M 1.629 Sim
12 F 1.521 No 26 M 1.704 No 40 M 1.533
13 M 1.711 Sim 27 F 1.449 No 41 F 1.592 No
14 M 1.623 Sim 28 F 1.595 42 F 1.494 No

2.2. Na folha 2, introduza os dados
3. Abra o SPSS
3.1. Importe os dados do Microsoft Excel
3.2. Altere as propriedades das variveis: Label, Values, Measure
4. Determine a mdia, desvio-padro e amplitude de variao das variveis altura, peso, e
IMC.
4.1. Detecta algum erro de introduo? Em caso afirmativo, corrija esse valor para 1.522,
e determine novamente os valores pedidos em 4.
4.2. Determine os quartis e amplitude inter-quartil destas variveis, segundo o sexo.
4.2.1. Existem outliers? Justifique.
5. Qual a percentagem de indivduos, na amostra, que:
5.1. so do sexo masculino?
5.2. tm dentes cariados?
5.3. so do sexo feminino e tm dentes cariados.
5.4. so do sexo feminino, sabendo que tm dentes cariados.
5.5. tm dentes cariados, sabendo que so do sexo masculino.
Engenharia Biomdica

20
6. Por lapso, no tinham sido registados os valores de peso, para cada indivduo, nem a
regio de residncia. Acrescente estas variveis ao plano de operacionalizao das
variveis, e na base de dados em SPSS introduza a varivel peso logo aps a varivel
altura, e a varivel regiao no final, alterando as suas propriedades adequadamente.
Id Peso Regiao Id Peso Regiao Id Peso Regiao
1 92.2 N 15 47.2 S 29 65.7 N
2 75.5 S 16 84.3 S 30 49.4 S
3 73.0 N 17 48.0 N 31 47.7 N
4 41.1 N 18 68.1 N 32 65.8 S
5 53.9 S 19 46.2 S 33 68.4 N
6 67.7 N 20 47.9 S 34 79.3 N
7 42.3 S 21 40.6 N 35 63.8 S
8 52.4 S 22 78.4 S 36 67.6 S
9 102.1 S 23 63.2 N 37 52.3 S
10 65.0 N 24 71.1 N 38 58.5 S
11 46.4 N 25 51.3 S 39 69.8 N
12 53.0 S 26 98.2 S 40 67.2 S
13 76.6 S 27 57.6 S 41 47.8 N
14 60.9 N 28 51.4 N 42 41.2 S

7. Crie a varivel ndice de Massa Corporal (IMC), que ser automticamente calculada
como
2
altura peso .
7.1. Descreva sucintamente esta varivel, em termos estatsticos.
8. Crie a varivel IMC_cl, que representa o IMC em classes, de acordo com a seguinte
classificao:
1 IMC < 18 Magreza
2 18 < IMC < 25 Normal
3 25 < IMC < 30 Excesso de Peso
4 30 < IMC < 35 Obesidade I
5 35 < IMC < 40 Obesidade II
6 40 < IMC < 45 Obesidade III
9. Recodifique esta varivel (IMC_cl) em 4 clases, aglutinando as classes 4, 5 e 6 numa s.
(no se esquea de acrescentar estas variveis ao Plano de Operacionalizao de Variveis).
9.1. Descreva esta varivel, em termos estatsticos
9.2. Qual a taxa de indivduos com excesso de peso e obesidade?
9.3. Qual a taxa de indivduos obesos, com crie dentria.
9.4. Qual a taxa de indivduo normais, com crie dentria.
9.5. Qual a taxa de indivduos com e sem cries dentrias, entre os indivduos:
9.5.1. obesos.
BioEstatstica
21
9.5.2. normais
9.5.3. Parece-lhe ser vivel o objectivo definido?
9.6. Parece-lhe que a ocorrncia de cries mais frequente no sexo masculino?
9.7. Para cada regio, determine
9.7.1. Em que regio mais frequente haver cries dentrias?
9.7.2. O IMC mdio em cada regio.
9.7.3. Far sentido estudar o objectivo do estudo, em cada regio?

Engenharia Biomdica

22
5. DISTRIBUIES DE PROBABILIDADES
Funo densidade de probabilidade funo que determina a probabilidade do valor de cada
observao da amostra na populao: f(x)
A partir do conhecimento desta funo, e dum nmero infinito de amostras com a mesma
dimenso da amostra em estudo pode estimar-se a distribuio amostral, ou seja, na prtica,
possvel testar se as observaes da amostra em estudo se ajustam a uma distribuio terica.

Funo de distribuio Funo real de varivel real: F(x)= P(X < x)
1. 0 < F(x) < 1
2. F no decrescente
3. Para qualquer funo de distribuio F tem-se que
a. 0 ) ( lim =

x F
x
; 1 ) ( lim =
+
x F
x

b. ) ( ) ( ) ( , : , a F b F b X a P b a b a = < <
c. F contnua direita

5.1 Algumas distribuies de variveis aleatrias contnuas
Distribuio Uniforme ) , ( b a U
Esta a mais simples das distribuies contnuas, mas uma das mais importantes. utilizada
para representar quantidades que variam aleatoriamente no intervalo [a,b], e cuja
probabilidade de tomar valores num qualquer subintervalo de [a,b] proporcional ao seu
comprimento, logo constante nesse subintervalo.

Distribuio normal ou de Gauss
2
) , (
2
N
Fenmenos fsicos, medidas biolgicas, erros de medio, etc.
Polgonos de frequncias regulares com grau de simetria e achatamento prximos dos de uma
distribuio normal
Quando se passa da distribuio de frequncias para a distribuio de probabilidades obtm-se

2
Descrita pela primeira vez por De Moivre em 1733; Gauss, sc. XVIII-XIX teve um papel decisivo no seu
desenvolvimento.
BioEstatstica
23

Caractersticas:
A varivel aleatria X pode tomar um qualquer valor dentro do intervalo de variao
A curva representativa da distribuio tem a forma de sino e simtrica relativamente
mdia
Os valores da mdia, mediana e moda so iguais
Devido simetria, 5 . 0 ) ( ) ( = > = < X P X P

As curvas em forma de sino diferem apenas pelos valores de , centro da distribuio, e de
, variabilidade dos valores de X relativamente mdia.

Geometricamente, a probabilidade da varivel aleatria X, de mdia 0 e varincia 1, assumir
valores no intervalo ]-1,96; 1,96[ dada pela regio a
sombreado na figura:
Para esta varivel, existe uma tabela que fornece os valores
de probabilidade em intervalos sucessivos e de amplitude
suficientemente pequena de modo a que a aproximao a
efectuar no encontro da rea apropriada bastante boa.

MASh uma infinidade de curvas, consoante e . Nos restantes casos utiliza-se
e
x
b X a P
b
a
|

\
|
= < <


2
2
1
2
1
) (
Engenharia Biomdica

24
Necessidade de padronizar:


=
X
Z : Z N(0,1)

A mdia amostral uma das estatsticas mais importantes quer para a teoria da estimao quer
da deciso. Outra caracterstica importante da distribuio de probabilidades que, medida
que a dimenso das amostras utilizadas para calcular a distribuio amostral da mdia
aumenta, a distribuio da mdia amostral tende para a distribuio normal,
independentemente do tipo de distribuio da varivel em estudo teorema do limite central.

Ex.: Distribuio da mdia das classificaes a uma cadeira de estatstica em 100 amostras
aleatrias de dimenso n

Inicialmente, a distribuio era claramente assimtrica direita, mas medida que a dimenso
das amostras aumenta, o histograma das frequncias de X vai assumindo a forma de sino
tpica da distribuio normal.



BioEstatstica
25
Distribuio do Chi-quadrado
2
(n)
Uma varivel aleatria X (

=
=
n
i
i Z
X
1
2
) obtida pela soma dos quadrados de n variveis
aleatrias ) 1 , 0 ( ~ N Z
i
diz-se ter uma distribuio do tipo

2
com n graus de liberdade
A representao grfica da funo densidade de
probabilidade a seguinte, para 2, 4, 8 e 22 graus de
liberdade. Note-se que, medida que o nmero de graus
de liberdade aumenta, a curva vai-se tornando mais
parecida com a curva normal.

Distribuio t-Sudent t(n)
Dadas ) 1 , 0 ( ~ N Z e Y~
2
(n) tais que Z e Y so
independentes, a varivel
n
Y
Z
X = diz-se ter uma
distribuio t-Student com n graus de liberdade.
A representao grfica da funo densidade de
probabilidade dada de seguida, para 3 e 6 graus de
liberdade.


Distribuio F-Snedecor F(n
1
,n
2
)
Sejam Y
1
,
2
(n
1
) e Y
2
,
2
(n
2
) duas variveis aleatrias e
2
2
1
1
n
Y
n
Y
X = . X diz-se ter uma distribuio F-Snedecor com
n
1
e n
2
graus de liberdade. Na imagem seguinte
encontram-se representadas duas variveis com (5,5)
graus de liberdade e (15,15) graus de liberdade.



Engenharia Biomdica

26
Distribuio Exponencial )
1
(

E
Esta distribuio est associada a um processo de Poisson
3
, ou seja, a ocorrncia de eventos
independentes a uma taxa constante, num intervalo de tempo ou numa regio dos espao, e
tem uma larga aplicao no estudo das filas de espera e da fiabilidade de sistemas complexos,
usando-se para representar o intervalo de tempo entre dois eventos. Tem-se:


5.2 Algumas distribuies de variveis aleatrias discretas
Distribuio Discreta Uniforme ) , ( j i DU
a mais simples de todas as distribuies discretas. Caracteriza-se por:
todos os valores possveis so equiprovveis:

Aplicam-se, assim, ocorrncia de fenmenos aleatrios igualmente provveis, ou como
primeiro modelo para quantidades que variam entre i e j, mas acerca da qual pouco sabido.

Distribuio Binomial ) , ( p n
Sequncia de experincias com as seguintes caractersticas:
cada prova tem como resultado um de dois acontecimentos mutuamente exclusivos
(sucesso/insucesso)
a probabilidade de sucesso p permanece constante nas vrias provas e a probabilidade de
insucesso q = 1-p
as provas so independentes, ou seja, o resultado de cada uma no afecta o resultado das
restantes


3
Ver distribuio de Poisson (discreta)
BioEstatstica
27
semelhana da distribuio
2
(n) e da t-Student, o teorema do limite central assegura
tambm que a distribuio binomial se aproxima da distribuio normal para valores elevados
de n e valores de p que produzam uma distribuio simtrica.
Na prtica, consideramos uma aproximao correcta para

>
>
< <
5
5
9 . 0 1 . 0
nq
np
p

A padronizao da varivel X, B(n,p), para a varivel Z, N(0,1) obtm-se atravs da seguinte
transformao, aplicando a correco de continuidade:
npq
np X
Z

=
) 5 . 0 (
, dado que

=
=
npq
np
2




Distribuio de Poisson ) ( P
Associada a processos de contagens de um determinado nmero de eventos independentes, ao
longo do tempo ou numa regio do espao:
o nmero de eventos que ocorrem em dois intervalos disjuntos so independentes
a probabilidade de ocorrer exactamente um evento em qualquer intervalo de amplitude t
arbitrariamente pequena aproximadamente t
a probabilidade de ocorrerem dois ou mais eventos em qualquer intervalo de amplitude t
arbitrariamente pequena aproximadamente igual a zero.
Tambm a distribuio de Poisson
pode ser aproximada a uma
distribuio normal, uma vez
que = =
2
, considerando que a
aproximao correcta
quando

> <
5
9 . 0 1 . 0

p p

A padronizao da varivel X, ) ( P ,
para a varivel Z, N(0,1) obtm-se
atravs da seguinte transformao:


=
) 5 . 0 ( X
Z
Engenharia Biomdica

28

5.3 Relao entre as Distribuies Contnuas




5.4 Relao entre as Distribuies Discretas






BioEstatstica
29
6. INTERVALOS DE CONFIANA E TESTES ESTATSTICOS EM POPULAES NORMAIS

6.1 Teoria da Estimao
A teoria da estimao tem como objectivo estimar parmetros de uma populao terica a
partir de estatsticas obtidas numa amostra representativa dessa populao.
Assim, se se extrarem n amostras de uma populao cuja funo densidade depende de um
parmetro (por exemplo, a mdia) do qual se desconhece o verdadeiro valor, necessrio
estim-lo, com um determinado grau de
Preciso - estimao por pontos
Confiana - estimao por intervalos
Fixada a dimenso da amostra, quanto mais precisa for a resposta, menor ser a confiana
nela depositada.

Estimao por pontos:
x o melhor estimador de
s
n
n
s

=
1
^
o melhor estimador de

Estimativa Estimador
Estimador ( ) uma varivel aleatria, funo da amostra casual
Estimativa (
^
) o valor concreto do estimador para uma amostra em particular
Uma estimativa pontual de um parmetro da populao est fortemente dependente da
estimativa amostral. Se se extrarem n amostras da mesma populao, altamente improvvel
obter amostras que tenham a mesma mdia amostral, ou seja, teria n estimativas diferentes da
mdia populacional. Dado que o valor da mdia populacional nico, uma estimativa pontual
pode ou no ser coincidente com o parmetro populacional. Assim, este tipo de estimativa no
possui nenhum grau de certeza (ou incerteza) associado estimativa obtida. A alternativa
utilizar a estimao por intervalos.

Estimao por intervalos:
H situaes em que prefervel a estimao por intervalos. Esta pode obter-se associando
um determinado grau de confiana ao estimador pontual, uma vez conhecida a distribuio
amostral. Assim, em vez de propor uma estimativa isolada para um determinado parmetro,
Engenharia Biomdica

30
faz-se acompanhar esta de um determinado intervalo (a, b) para significar que o verdadeiro
valor do parmetro est, muito provavelmente, entre a e b. Ao associar um intervalo
estimativa proposta, atribui-se ao mesmo intervalo um grau de confiana. Este intervalo pode
ser considerado uma medida da preciso ou do erro inerente estimativa.
Normalmente, o que se pretende estimar (mdia da populao),
2
(varincia da
populao) ou (proporo da populao).

Tendo uma amostra particular, a partir da qual se determina a estimativa para um parmetro
(ex: a mdia), o intervalo de confiana a (1- )100% para , dado por (a, b), traduz o grau
de confiana que se tem em que uma particular amostra d origem a um intervalo (a,b).
Incorrecto dizer que (1-) a probabilidade de ) , ( b a dado que os extremos do intervalo, a
e b, no so aleatrios.





6.2 Teoria da Deciso
A teoria da deciso, atravs dos testes de hipteses, uma outra forma de inferir sobre o
parmetro da populao, associando a este processo um determinado nvel de significncia
(). Contrariamente aos intervalos de confiana, o teste de hipteses tem como objectivo
refutar (ou no) uma determinada hiptese acerca de um ou mais parmetros da populao, a
partir de uma ou mais estimativas obtidas nas amostras.
Ex: Testar se, por hiptese, a mdia populacional igual a um determinado valor, ou se a
mdia de uma populao superior de outra, se a varincia de 5 populaes so iguais, etc.

BioEstatstica
31
Considere-se uma populao com uma determinada funo de distribuio (F). Uma hiptese
estatstica qualquer conjectura sobre aspectos desconhecidos de F. Quando a forma da
funo de distribuio ou da funo densidade (funo probabilidade) conhecida, e a
conjectura diz respeito apenas ao parmetro, tem-se uma hiptese paramtrica.
Ex: A conjectura X uma varivel aleatria com distribuio normal uma hiptese
estatstica no paramtrica. Caso se saiba que X segue uma distribuio normal, a conjectura
1 , 3
2
= = corresponde a uma hiptese paramtrica.

Estas questes so formuladas sob a forma de hipteses referentes ao(s) valor(es) do(s)
parmetro(s) e referentes a alternativa caso se rejeite aquela hiptese. Assim, a hiptese
inicial, mais restritiva, designa-se por hiptese nula e representa-se por H
0
, representando-se
a hiptese alternativa por H
1
ou H
a
. A hiptese nula s deve ser rejeitada caso exista
evidncia suficiente, a um nvel significativo, que de facto H
0
no vlida, ou seja, deve ser
defendida at a evidncia mostrar o contrrio, enquanto que a hiptese alternativa apenas
adoptada se a hiptese nula for rejeitada.

Ex: A mdia dos efeitos de um determinado medicamento nula
Teste bilateral

=
0 :
0 :
1
0

H
H

Teste unilateral esquerda

<
=
0 :
0 :
1
0

H
H

Teste unilateral direita

>
=
0 :
0 :
1
0

H
H


Assim, considerando-se uma amostra casual da populao, (X
1
,X
2
,,X
n
), com determinada
funo densidade (probabilidade), o espao-amostra o conjunto de todas as amostras
particulares (x
1
,x
2
,,x
n
). Um teste de hipteses deve basear-se no comportamento
probabilstico de (X
1
,X
2
,,X
n
), no espao-amostra, e estabelecer um critrio para determinar
quais as amostras concretas (x
1
,x
2
,,x
n
) que levam rejeio da hiptese nula (e,
consequentemente, aceitao da alternativa). Assim, um teste de hipteses uma regra que
permite especificar um subconjunto R do espao-amostra tal que

Engenharia Biomdica

32
se ( )
0 2 1
Re ,..., , H se jeita R x x x
n

( )
0 2 1
,..., , H se Aceita R x x x
n

A este conjunto R chama-se regio crtica ou regio de rejeio de H
0
.
A definio desta regio depende do tipo de teste escolhido. No caso de um teste bilateral,
tem-se

Por outro lado, se o teste unilateral esquerda, a regio crtica definida esquerda da
mdia, enquanto que num teste unilateral direita define-se a regio de rejeio direita da
mdia:


Ao proceder ao teste de H
0
contra H
1
podem ser cometidos dois tipos de erros:
O erro de 1 espcie ou erro tipo I que consiste em rejeitar H
0
quando esta verdadeira
O erro de 2 espcie ou erro tipo II que consiste em aceitar H
0
quando esta falsa
Deciso tomada H
0
verdadeira H
0
falsa
Rejeitar H
0

Erro tipo I
) / (
0 0
verdadeira H rejeitarH P =
Potncia do teste
) / ( 1
0 0
falsa H rejeitarH P =
Aceitar H
0

Nvel de confiana
1-
Erro tipo II
) / (
0 0
falsa H aceitarH P =
BioEstatstica
33
Por exemplo, seja H0: Inocente; H1: Culpado
Ento =P(enviar um inocente para a cadeia) e =P(no prender um culpado)
e esto inversamente relacionados. S aumentando n se reduz simultaneamente
ambos.

Quando se emprega o teste de nvel de significncia , associado regio crtica R, e se
observa a amostra concreta (x
1
,x
2
,,x
n
), pode ocorrer uma das duas situaes seguintes:
( ) R x x x
n
,..., ,
2 1
e no h motivo para rejeitar H
0
ao nvel de 100%
( ) R x x x
n
,..., ,
2 1
e deve rejeitar-se H
0
ao nvel de 100%

Passos de um teste estatstico
Identificao do tipo de distribuio amostral
Formulao das hipteses a testar
Definio do nvel de significncia
Definio da regio crtica ou regio de rejeio de H
0

Calculo da estatstica do teste (VC), sob H
0

Deciso estatstica

Ao menor valor de a partir do qual se rejeita H
0
chama-se probabilidade de significncia
ou, mais simplesmente, valor-p. O teste de hipteses permite obter a probabilidade de, em
qualquer experincia, ser encontrado o valor observado nesta amostra ou outro valor mais
extremo, sendo a hiptese nula verdadeira. Designando esta probabilidade por p:

p = prob(|valor| valor observado | H
0
)

Este valor representa uma medida complementar do grau de certeza a partir do qual
assumimos como real o resultado da estatstica amostral dado que a probabilidade de obter
este ou outro valor mais desfavorvel para a hiptese nula, admitindo que esta hiptese
verdadeira. Assim, o valor-p uma medida da evidncia que os dados fornecem a favor de H
0
.
Normalmente, situa-se o valor-p relativamente aos nveis de significncia mais habituais
(0.05, 0.01), fixados previamente ao estudo, donde deve rejeitar-se a hiptese nula sempre que
se tem p< . Por exemplo, se 0.01 < p < 0.05 a evidncia contra H
0
no significativa ao
nvel de 0.01 (1%) mas j o ao nvel de 0.05 (5%), ou deve rejeitar-se H
0
ao nvel de 5%
Engenharia Biomdica

34
mas no de 1%, ou seja, quanto menor for p menor a consistncia dos dados com a hiptese
a testar (H
0
). Abaixo de determinados valores ou limiares de significncia (0,05 ou 0,01)
dizemos que existe forte evidncia contra esta hiptese (H
0
) que por isso deve ser rejeitada.

Passos de um teste estatstico com recurso a uma aplicao estatstica (ex: SPSS)
Identificao do tipo de distribuio amostral
Formulao das hipteses a testar
Definio do nvel de significncia
Clculo do valor-p, sob H
0

Deciso estatstica


O problema que agora se coloca saber a que nvel de significncia deve ser rejeitada H
0
.
Suponha que com determinada amostra encontrado o valor p=0,03. Deve ou no rejeitar H
0
?
Estando este valor p compreendido entre os limiares de significncia (ou nveis de
significncia habitualmente considerados) 0,01 e 0,05 h autores que diriam ser de rejeitar ao
nvel de significncia de 5% mas no ao de 1%.
Outros autores consideram apenas a comparao do valor p observado com o nvel de
significncia estabelecido antes do estudo, dependente do critrio do investigador. Se, por
exemplo, o nvel fixado foi de 5%, dir-se-ia apenas que sendo p<0,05 rejeita-se H
0
ao nvel de
significncia de 5%. Se o nvel fixado foi de 1%, dir-se-ia que sendo p>0,01 no pode
rejeitar-se H
0
ao nvel de significncia de 1%.


6.3 Intervalos de Confiana versus Testes de Hipteses
Ambos so mtodos de inferncia estatstica que tm associado uma determinada
probabilidade de erro;
Pode utilizar-se um intervalo de confiana a (1-)100% para concluir acerca da rejeio
ou no de H
0
num teste de hipteses bilateral para um nvel de significncia .

Qual dos mtodos usar?
Depende dos objectivos do estudo em ensaios clnicos, pretende-se geralmente demonstrar
a eficcia (ou no) de um determinado tratamento ou medicamento. Se o tratamento tiver um
BioEstatstica
35
efeito significativo, ento a mdia das variaes da varivel sob estudo ser
significativamente diferente de 0, isto , pretendemos rejeitar 0 :
0
= H em favor de
0 :
1
H , independentemente da magnitude de , sendo este tipo de inferncia requerido
para publicao do estudo em revista cientfica.

Contudo, para o gestor do produto (medicamento), o intervalo de confiana para a mdia das
variaes tem mais interesse, pois o gestor poder concluir acerca da dimenso e credibilidade
do efeito do medicamento, o que ser de maior peso em decises administrativas do que o
facto do efeito mdio ser (ou no) diferente de zero.

Pense no seguinte exemplo:
Uma companhia produtora de baterias para pacemakers garante que a vida mdia de cada
bateria de, pelo menos, 3 anos. Se a data de operao cirrgica, para substituio da bateria,
se basear na garantia do fabricante:
Como explicaria ao gestor da companhia as consequncias do erro tipo I e erro tipo II?
Preferia utilizar um teste estatstico para averiguar se a vida mdia de cada bateria , de
facto, 3 anos, ou utilizaria um Intervalo de Confiana? Porqu?


Engenharia Biomdica

36
7. POPULAES NORMAIS
7.1 Intervalo de Confiana e teste t de Student
Normalmente, quando se est a fazer um teste mdia (

=
0 :
0 :
:
1
0

H
H
bilateral teste ) ou a
determinar um intervalo de confiana para a mdia populacional ( ), no se conhece a
varincia da populao (
2
). Assim, utiliza-se
2
2
^
1
s
n
n
s

= como estimador de
2
, donde
a varivel aleatria Z ( ) 1 , 0 ( ~ N
n
X
Z


= ) deixa de poder ser utilizada uma vez que, para
alm , se desconhece (parmetro perturbador).
A varivel que passa a ter condies para ser utilizada na determinao do intervalo de
confiana para ou na realizao do teste estatstico ) 1 ( ~
^

= n t
n s
X
T

.

O intervalo de confiana dado por
) ; (
^
2
^
2
n
s
t x
n
s
t x

+ , com
2
t a verificar P(T>
2
)
2

= t
Dado que esta varivel aleatria (T) tem, tambm, uma distribuio simtrica relativamente
origem, tem-se que a amplitude do intervalo varia de amostra para amostra, j que depende de
^
s e da dimenso da amostra.

Pense nos seguintes casos:
O que acontece ao intervalo de confiana quando aumenta o nvel de confiana?
Se a varincia da amostra aumentar para o dobro, o que acontece amplitude do intervalo
de confiana?
Se a amostra passar a ter mais 100 casos, com valores iguais mdia amostra, o que
acontece ao intervalo de confiana?
O que pode fazer se quiser reduzir para metade a amplitude de um intervalo de confiana?




BioEstatstica
37
7.1.1 Duas Amostras emparelhadas
Neste caso, o intervalo de confiana pode ser determinado, baseando-nos na mdia das
diferenas de cada uma das variveis. Constri-se a varivel Diferena, e determina-se o
Intervalo de Confiana para a nova varivel. Para a realizao do teste estatstico, procede-se
da mesma forma. Contudo, as aplicaes estatsticas fazem-no automaticamente.

=
Depois Antes
Depois Antes
Depois Antes
Depois Antes
Dif
Dif
H
H
H
H
H
H
bilateral teste



:
:
0 :
0 :
0 :
0 :
:
1
0
1
0
1
0


Exemplo 1: Deseja-se saber se um programa de reabilitao aps enfarte de miocrdio
diminui a frequncia cardaca de esforo. Para tal, 10 doentes com enfarte do miocrdio foram
submetidos a uma prova de esforo antes e depois do programa. Os resultados, expressos em
batimentos por minuto, esto no quadro seguinte. Indique se o programa de reabilitao foi
eficaz.
Doente 1 2 3 4 5 6 7 8 9 10
x
s
n s
Antes 147 122 127 141 150 132 157 147 157 155 143.5 12.63 4.00
Depois 132 117 142 125 116 130 122 118 135 117 125.4 8.99 2.84
Dif. 15 5 -15 16 34 2 35 29 18 38 18.1 17.03 5.38
Depois Antes
160
150
140
130
120
110
9
5
%

C
I
Mdia das diferenas: frequncia cardaca
40,00
30,00
20,00
10,00
0,00
9
5
%

C
I

f
c


Exemplo 2: Foi estudado o grau de satisfao (medido por questionrio) de vrios utentes de
uma clnica dentria antes e depois de lhes ser aplicada uma nova prtese total removvel. Os
resultados, expressos em score de satisfao, foram os apresentados de seguida. Supondo que
os scores seguem uma distribuio normal, indique se aplicao da nova prtese influenciou o
grau de satisfao dos utentes.
Doente 1 2 3 4 5 6 7 8
x
s
n s
Antes 4 10 8 13 7 3 15 7 8.38 4.14 1.46
Depois 4 16 11 17 17 4 18 11 12.25 5.75 2.03
Dif. 0 -6 -3 -4 -10 -1 -3 -4 -3,88 3,09 1.09
Engenharia Biomdica

38
Depois Antes
17,5
15,0
12,5
10,0
7,5
5,0
9
5
%

C
I
Mdia das diferenas: Satisfao Prtese
0,00
-2,00
-4,00
-6,00
-8,00
9
5
%

C
I

p


7.1.2 Duas Amostras independentes
Neste caso, no possvel construir o intervalo de confiana fazendo a mdia das diferenas,
uma vez que cada indivduo no tem um par de observaes (tem-se a diferena de mdias). O
mesmo se passa com o teste estatstico. Eventualmente, podero existir grupos de dimenses
diferentes


=
B A
B A
B A
B A
H
H
H
H
bilateral teste




:
:
0 :
0 :
:
1
0
1
0


Por outro lado, o que acontece se a variabilidade de cada grupo diferente? Sero as mdias
de dois grupos com variabilidade diferente comparveis?

O teste de Levene (1960) um dos testes mais potentes para testar a homogeneidade das
varincias e automaticamente efectuado pelo SPSS quando se efectua um teste t para
amostras independentes, sendo o intervalo de confiana determinado com base no resultado
daquele. As hipteses estatsticas so as seguintes:

=
2 2
1
2 2
0
:
:
B A
B A
H
H




No caso de se desconhecer a varincia populacional, a varivel T tem condies para se
definir como varivel fulcral, ficando o Intervalo de Confiana definido por
) ) ( ; ) ((
*
2
*
2
s t x x s t x x B A B A

+ , e P(T>
2
)
2

= t
com
*
s dado computacionalmente por uma qualquer aplicao estatstica (SPSS).
BioEstatstica
39
20-22 17-19
Escalo etrio
30,00
25,00
20,00
15,00
9
5
%

C
I

I
M
C
Exemplo 1: Foi efectuado um estudo sobre o ndice de massa corporal consoante o escalo
etrio, em 16 estudantes do ensino superior, tendo-se obtido os seguintes dados:
Idade IMC
x
s
17-19 20,8 19,6 39 30,3 29,1 15,4 30,7 27 26.49 7.55
20-22 21,1 15,1 8,7 17,7 13,3 18,2 20,6 15,7 16.30 4.06

Observe agora os resultados obtidos no SPSS. O que conclui?
Levene's Test t-test for Equality of Means
95% Confidence Interval
of the Difference


F Sig. T df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
Lower Upper
IMC
Equal variances
assumed
2,82 ,115 3,36 14 ,005 10,18750 3,03053 3,68767 16,68733

Equal variances
not assumed


3,36 10,7 ,007 10,18750 3,03053 3,49811 16,87689

Pelo teste de Levene pode-se assumir a
igualdade de varincias.
A leitura do teste t de Student para amostras
independentes e do Intervalo de confiana
para a diferena de mdias feita, assim, na 1
linha da tabela de resultados, ou pelo grfico
seguinte:


Exemplo 2: Verificou-se ter havido um erro na introduo dos dados (IMC=8,7), pelo que
esse indivduo ser eliminado da amostra.
Suponha ainda que os critrios de incluso/excluso do estudo exigiam que os sujeitos
tivessem IMC entre 15 e 30, pelo que se excluam 3 sujeitos no escalo dos 17-19 anos, e 2 do
outro grupo. Os resultados seriam os seguintes:
Levene's Test t-test for Equality of Means
95% Confidence Interval
of the Difference


F Sig. T df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
Lower Upper
IMC
Equal variances
assumed
5,49 ,044 1,71 9 ,121 4,31333 2,51796 -1,38269 10,00936

Equal variances
not assumed
1,59 5,28 ,168 4,31333 2,69781 -2,51350 11,14016
Engenharia Biomdica

40
Neste caso, no h homogeneidade de varincia pelo que os resultados do teste t de Student
para amostras independentes tm de ser lidos na segunda linha, ou visualizados no grfico que
se segue:
20-22 17-19
Escalo etrio
30,00
28,00
26,00
24,00
22,00
20,00
18,00
16,00
9
5
%

C
I

I
M
C

1
5
-
3
0



7.2 K Populaes Normais e Independentes (k>2): ANOVA
Uma das aplicaes da Anlise de Varincia (ANOVA) a comparao entre mdias de m
populaes normais, ou seja, testar a hiptese
{ }


= = =
j i
m
j i m j i H
H


: , ,..., 2 , 1 , :
... :
1
2 1 0


A primeira hiptese que provavelmente colocaria seria comparar as mdias duas a duas
atravs de um teste t-Student Este procedimento, ainda que possvel, no vlido, dado que
a estatstica e o valor crtico deste teste s so vlidos para comparar mdias de 2, e apenas 2
populaes, a partir das quais se extraram duas amostras aleatrias.
De facto, enquanto que no teste a duas populaes o erro tipo I no ser superior a % 100 ,
utilizando esse mesmo teste para comparar mais m populaes, duas a duas, ter-se-ia um erro
tipo I aproximadamente de % 100 ) 1 ( 1
m
. Por exemplo, em 3 populaes, para
05 . 0 = , a probabilidade de um erro tipo I, ou seja, de concluir erradamente que existe
diferena entre as 3 populaes de 14.3%.
Assim, necessrio avaliar a forma como as m populaes so definidas, com base num ou
mais critrios (ou factores) e a variabilidade patenteada pelas amostras de cada uma das
populaes.
BioEstatstica
41
Por exemplo, suponha que queria testar a igualdade da mdia em 3 populaes (A, B e C), e
considerem-se as duas situaes apresentadas na imagem seguinte, onde se podem observar 5
observaes amostrais de cada uma das 3 populaes:

Note-se que as mdias amostrais relativas s vrias populaes so iguais nas duas situaes.
Contudo, intuitivamente os grficos sugerem concluses diferentes; enquanto que no primeiro
caso se tende a rejeitar quase de imediato a hiptese de igualdade de mdias, no segundo caso
a tendncia para aceitar, com alguma facilidade, a hiptese de igualdade de mdias.

Assim, a variabilidade dos dados relativos a cada populao um aspecto fundamental a ter
em conta no teste de hipteses de igualdade de mdias.
Se a variabilidade em torno de cada uma das mdias amostrais grande,
comparativamente com a variabilidade entre as mdias amostrais (2 caso), tende-se a
no rejeitar a hiptese nula;
Assim, parece aceitvel fundamentar o teste de hipteses na comparao entre estas
variabilidades Anlise de Varincia (ANalysis Of VAriance).



Engenharia Biomdica

42
A ANOVA relativamente robusta a desvios normalidade desde que o nmero de
elementos em cada grupo seja relativamente grande, sendo que a no normalidade tem
consequncia mnimas na interpretao dos resultados quando a distribuio no muito
enviezada.
A distribuio F, na qual se baseia a ANOVA, tambm robusta a violaes da
homocedasticidade (homogeneidade de varincias entre os grupos) desde que o nmero de
observaes em cada grupo seja aproximadamente igual, considerando-se que os grupos so
de dimenso semelhante quando o quociente entre a dimenso do maior grupo e do menor for
inferior a 1,5.

7.2.1 ANOVA a 1 factor
A definio das m populaes feita com base num critrio ou factor (por exemplo, definem-
se 3 populaes segundo os escales etrios [20, 30[, [30, 40[, [40, 50[).
Caso se rejeite a hiptese H
0
de igualdade de mdias, conclui-se, para um determinado nvel
de significncia , que as m populaes no apresentam comportamento idntico perante o
critrio ou factor que serviu para efectuar a classificao. Contudo, s legtimo considerar
este factor a causa das diferenas entre as mdias das populaes se se puder garantir a
homogeneidade das populaes relativamente a todos os outros factores que podiam ser
relevantes para a explicao do fenmeno.
Sejam m i X X X
i
in i i
,..., 2 , 1 , ,..., ,
2 1
= m amostras causais independentes com distribuio
normal de mdia desconhecida e varincia comum desconhecida, isto ,
m i n j N X
i i ij
,..., 2 , 1 , ,..., 2 , 1 ), , ( ~
2
= =

Assim, ) , 0 ( ~ ,
2
N X
ij ij i ij
+ + = , o que implica que
i i
+ =
Valor Observado = Mdia Geral + Efeito do nvel i do factor + Varivel Residual

Baseado no modelo terico da ANOVA para a populao, possvel escrever o modelo a
partir das observaes amostrais:
( ) ) ( i
ij
i
ij
x x x x x x + + =



Observao ij
Mdia amostral (estimativa de )
Efeito do nvel i do factor Resduos
BioEstatstica
43
O clculo da estatstica teste para a ANOVA requer o conhecimento das estimativas da
variabilidade dentro dos grupos (isto , a variao residual ou dos erros de medida), estimada
a partir de ) ( i
ij
x x e da variabilidade entre as amostras (variao factorial, devida ao factor)
que pode ser estimada a partir de ( ) x xi . Em ambos os casos, determinam-se as somas dos
quadrados:
( ) ( )

= = =
= =
m
i
i
i
m
i
n
j
i
ij
s n X X SQD
i
1
2
^
1 1
2
1
( )

=
=
m
i
i
i
X X n SQE
1
2

Sendo assim, possvel obter uma estimativa da variabilidade total, dada por

Soma Quadrados Total = Soma Quadrados Dentro Amostras + Soma Quadrados Entre Amostras

A estatstica teste da ANOVA dada pela razo entre a varincia do factor (ou entre as
amostras, estimada a partir de
1 m
SQE
), e a varincia dos erros (ou dentro das amostras,
estimada a partir de
m n
SQD

), ou seja, a partir da varivel ) , 1 ( ~


) (
) 1 (
m n m F
m n
SQD
m
SQE
F

= .
Fonte de Variao
Soma dos
Quadrados
Graus de
Liberdade
Mdias Quadrticas F
Entre Amostras SQE m-1 ) 1 ( = m SQE MQE
Dentro das
amostras
SQD n-m ) ( m n SQD MQD =
MQD MQE F =
Total SQT n-1

Este procedimento permite testar a existncia de diferenas estatisticamente significativas
entre as mdias das m populaes.

Quando se conclui que tais diferenas existem interessante qualific-las, atravs:
Engenharia Biomdica

44
Do clculo do intervalo de confiana para a mdia de cada populao, usando a
distribuio t-Student com n-m graus de liberdade:
|
|

\
|
+
i
i
i
i
n
MQD
t x
n
MQD
t x
2 /
0
2 /
0 ,


No SPSS, efectuam-se comparaes mltiplas das mdias usando as comparaes Post-
Hoc atravs dos testes de Tuckey, Fisher-LSD, Scheff ou Bonferroni, entre outros.
O teste de Tuckey um dos mais robustos a desvios normalidade e homogeneidade de
varincias para amostras grandes, enquanto que em amostras pequenas, o teste de
Bonferroni um dos mais potentes.
Quando se compara um nmero reduzido de grupos, muitas vezes opta-se por testes mais
simples, como os de Fisher-LSD ou de Scheff.
possvel, ainda que pouco provvel, que a ANOVA e os testes de comparaes
mltiplas cheguem a concluses diferentes, isto , pode rejeitar-se H
0
na ANOVA, sem
que um teste para comparaes mltiplas detecte a diferena entre pares de mdias Tal
deve-se ao facto de a ANOVA ser um teste mais potente (ou seja, onde a probabilidade de
rejeitar H
0
correctamente mais elevada), enquanto que os testes para comparaes
mltiplas tm associado maiores probabilidades de erro tipo II) repetio do estudo
com amostras de maior dimenso de modo a reduzir a probabilidade de erro tipo II.
Outra hiptese realizar comparaes priori, ou seja, comparaes planeadas,
usando contrastes. Estas comparaes so mais potentes do que testes post-hoc, uma vez
que, de facto, sero testes t de Student que sero efectuados, mas exigem que a deciso
acerca das condies de interesse a testar sejam tomada priori, da serem menos
utilizados.
Os coeficientes do contraste so nmeros positivos ou negativos (eventualmente nulos)
que definem as hipteses a serem testadas, testando relaes especficas entre grupos
atravs de uma combinao linear das mdias cuja soma dos coeficientes se anula.
Por exemplo, se houver 5 grupos e pretender comparar os grupos 1 e 3 com o grupo 4,
basta definir os coeficientes do contraste como, por exemplo, 1, 0, 1, -2, 0; se quiser
comparar os grupos 1, 2 e 3 com o grupo 4 e 5 utiliza-se, por exemplo, 1, 1, 1, -1.5, -1.5.





BioEstatstica
45
Exemplo 1: ANOVA a 1 factor ordinal.
Neste caso (factor ordinal), possvel fazer uma anlise de
tendncia. Suponha que as notas de Bioestatstica da
Licenciatura de Medinina Dentria da UC, no ano lectivo de
2006/2007, foram as apresentadas no quadro seguinte,
consoante as condies motivacionais dos alunos.

Ser a motivao um factor de diferenciao das notas nesta
disciplina?
Em caso afirmativo, quais os grupos com diferena
significativa?
Apresente um grfico que lhe permita avaliar alguma
tendncia.

Exemplo 2: ANOVA a 1 factor nominal
No quadro seguinte apresentam-se o nmero de acidentes segundo o tipo de bebida alcolica
consumido pelo condutor, nas duas horas anteriores ao acidente.
Bebida Acidentes Bebida Acidentes Bebida Acidentes Bebida Acidentes
1 5 2 6 3 2 4 2
1 4 2 5 3 2 4 1
1 4 2 3 3 3 4 2
1 5 2 5 3 3 4 1
1 5 2 4 3 1 4 2
1 6 2 4 3 2 4 2
1 6 2 4 3 2 4 3
1 4 2 4 3 4 4 2
1 4 2 4 3 3 4 3
1 5 2 2 3 2 4 4
Bebidas: 1 = Aguardente; 2 = Vinho; 3 = Cerveja; 4 = No bebe

Verifique se existe diferena estatisticamente significativa no nmero de acidentes, consoante
o tipo de bebida ingerida. Em caso afirmativo, identifique as diferenas atravs do teste de
Tuckey.
Indique ainda o que significam os contrastes seguintes, efectue-os e conclua:
a) 1/3 aguardente + 1/3 vinho + 1/3 cerveja 1 No bebem
b) 0,5 aguardente + 0,5 vinho 0,5 cerveja 0,5 no bebem


Baixa Mdia Alta
14 12 17
15 11 16
9 14 16
15 13 18
15 16 16
10 15 17
11 13 14
11 14 15
10 13 16
14 12 12
16 13 18
11 14 13
15 13 18
12 15 14
12 16 16
14 14 17
13 13 15
10 13 17
Engenharia Biomdica

46
7.2.2 Exemplos de outras Anlises de Varincia
ANOVA a mais do que 1 factor - 2 factores fixos
Amostra aleatria de 30 mes, tendo-se seleccionado aleatoriamente 5 por cada categoria de
parto e por continente de origem. Avaliar o efeito da origem (asitica, europeia, africana) e do
tipo de parto (eutcico, distcico) no peso dos recm-nascidos.
Asitica Europeia Africana
2.9 3.5 2.1
3.3 3.4 2.2
2.7 3.3 2.3
2.8 3.4 2.4
E
u
t

c
i
c
o

3.2 3.3 2.3
2.9 3.9 2
3.3 4.1 2.3
3.1 4 2.2
3 4 2.1
D
i
s
t

c
i
c
o

3.2 3.9 2

ANOVA a mais do que 1 factor - modelo aleatrio: factores aleatrios no tinha escolhido o
continente onde seriam seleccionadas as mes, nem tipo de parto, mas tinha seleccionado
aleatoriamente
ANOVA a mais do que 1 factor - efeitos mistos: inclui factores fixos, aleatrios, e variveis
concomitantes

ANCOVA ANalysis OF COVAriance
Avaliar a relao entre o tipo de acompanhamento que as crianas tiveram at aos 5 anos de
idade (infncia) e as notas de matemtica.
lgico que crianas com maior QI tendam a originar melhores notas a matemtica
- factor infncia tem 3 nveis: 1 = jardim-infncia; 2 = casa; 3 = ama
QI varivel concomitante
Infncia QI Notas Infncia QI Notas Infncia QI Notas
1 105.7 15.526 2 100.3 14.78 3 94 9
1 100.3 14.826 2 86.5 9.18 3 112 14
1 94.3 13.44 2 96.1 12.966 3 112 14
1 108.7 15.645 2 101.2 12.82 3 100 9
1 93.1 11.586 2 97.6 8.734 3 103 14
1 96.7 11.53 2 96.4 10.08 3 112 14
1 106.9 16.66 2 109.6 16.868 3 112 14



BioEstatstica
47
MANOVA (Multiple ANalysis OF Variance) e MANCOVA (Multiple ANalysis OF COVariance)
A anlise de varincia multivariada (MANOVA) um teste mais potente do que a realizao
de vrias anlises de varincia, quando se tm vrias variveis dependentes relacionadas. A
realizao de vrias ANOVSs assenta no pressuposto que as vrias variveis dependentes
eram ortogonais, ou seja, independentes. De facto, em muitos casos, a MANOVA detecta
diferenas que no seriam detectadas por mltiplas ANOVAs, assim como a ANOVA pode
detectar diferenas no detectveis pelos testes post-hoc.
Para ilustrar este facto, pode observar-se a figura seguinte, onde visvel a diferena existente
entre os dois grupos de pontos (escuros e claros), mas quando as funes densidade so
projectadas em cada um dos eixos, ou seja, em cada uma das variveis, as diferenas j no
so aparentes:

Na MANOVA, as variveis dependentes so consideradas em simultneo, organizadas de
forma composta e com os efeitos associados a cada varivel ponderados pela correlao
existente entre ambas, de forma a que o erro tipo I permanea igual a , uma vez que o erro
tipo I atravs de ANOVAs sucessivas em k amostras igual a k.
Engenharia Biomdica

48
7.3 Correlao linear
Quando se pretende estudar a relao ou associao entre 2 variveis quantitativas aleatrias
X e Y, e sendo ambas provenientes de populaes normais, determina-se o coeficiente de
correlao r de Pearson, coeficiente este que varia entre -1...0...1 e dado por
( ) ( ) [ ]
( ) ( )
2 2
cov

=
y y x x
y y x x
s s
r
i i
i i
y x
xy

O coeficiente de correlao r mede a fora da associao entre as variveis e o teste que lhe
est associado ( ) 2 ( ~ 2
1
2

= n t n
r
r
t
o
) tem como hipteses:

=
) 0 ( :
) 0 ( :
1
0
r as relacionad e linearment esto Y e X H
r Y e X entre linear relao existe No H


Sempre que existe uma correlao estatisticamente significativa, interessante avaliar o sinal
de r, dado que este indica o sentido da relao (Note-se que a significncia estatstica de r=0.7
ou r=-0.7 a mesma, o que muda o sentido da relao). Graficamente, atravs de um
diagrama de disperso, pode observar-se uma tendncia crescente ou decrescente consoante o
valor do coeficiente de correlao positivo ou negativo.
400.00 200.00 0.00
Dose
1.00
0.80
0.60
0.40
0.20
0.00
F
r
a
c

o
d
e
S
o
b
r
e
v
iv

n
c
ia

r > 0 r < 0

Normalmente h vantagem em ser efectuada uma anlise de regresso em vez da correlao
simples, sendo necessrio ter uma varivel dependente e outra independente. Em termos
laboratoriais podemos dizer que uma das variveis manipulada pelo investigador enquanto
na outra so medidos os valores obtidos.


BioEstatstica
49
7.4 Anlise de Regresso Linear Simples
A regresso linear simples um mtodo para estudar a relao entre 2 variveis quantitativas,
normalmente distribudas, com o objectivo de estimar uma varivel Y em funo da outra X,
ou seja, de estudar como modificaes numa varivel independente produzem modificaes
noutra varivel dependente.
equao que traduz a funo y de x d-se o nome de curva de regresso de y sobre x. Se
for uma regresso linear, tem-se uma recta: y* = a + bx
O coeficiente a designado por interseco ou ordenada na origem, e o coeficiente b por
inclinao ou declive da recta de regresso de y sobre x.
Contudo, nem todos os pontos do diagrama de disperso
4
ficam sobre a recta
5
, ou seja, nem
sempre y coincide com y*. Isto significa que nem toda a variabilidade de y explicada pela
regresso; parte da variabilidade de y no explicada pela regresso - a variabilidade
residual devida a outros factores ou ao erro ou resduo: =y*-y.
Se esta variabilidade residual for devida a erros casuais no tem uma magnitude significativa
relativamente variabilidade devida regresso (tem-se, normalmente, 0 = ).
O objectivo encontrar os valores de a e b que melhor traduzem a recta de regresso, ou seja,
que minimizam os erros cometidos entre o valor y* previsto pela recta e o seu valor
observado y, e de tal forma que ( ) y x, seja um ponto dessa recta.

7.4.1 Determinao dos coeficientes da recta de regresso
Baseando-nos nos valores amostrais, determina-se o declive da recta (b), atravs de
( ) ( )
( )
2 2
cov cov

=
x x
y y x x
s s s
b
i
i i
x
xy
x x
xy
ou de
x
y
s
s
r b =
Conhecido o valor de b, o coeficiente a fica determinado se conhecermos um ponto da recta.
Ora, suposto que ( ) y x, pertena recta de regresso, donde x b y a =

7.4.2 Hipteses estatsticas para o declive da recta de regresso

=
) 0 ( :
) 0 ( :
1
0
b as relacionad e linearment esto Y e X H
b Y e X entre linear relao existe No H
, para um nvel de significncia

4
Pontos do diagrama de disperso: (x,y); y o valor observado na amostra
5
Pontos da recta de regresso: (x,y*); y* a estimativa de y, determinada pela recta de regresso
Engenharia Biomdica

50
400.00 200.00 0.00
Dose
1.00
0.80
0.60
0.40
0.20
0.00
F
r
a
c

o

d
e

S
o
b
r
e
v
i
v

n
c
i
a
Sempre que a recta de regresso est bem ajustada, necessrio calcular a fora ou magnitude
da associao para determinar se esta relevante, atravs do coeficiente de determinao r
2
:
[ ] 1 , 0
exp 2
=
total
licada
SQ
SQ
r
r
2
= 0 recta de regresso coincidente com a recta y (ausncia de associao)
r
2
reduzido: grande disperso de valores em torno da recta de regresso (associao fraca)
r
2
elevado: pequena disperso de valores em torno da recta de regresso (associao forte)
r
2
= 1 disperso nula em torno da recta y (associao mxima)

7.4.3 Estimativa de valores de y pela recta de regresso:
A predio de valores da varivel dependente pela equao de regresso s legtima dentro
dos limites de variao dos valores observados na varivel independente.
Trata-se de uma estimativa pontual... haveria necessidade de determinar o seu intervalo de
confiana a 1-% usando
|
|

\
|
+

* *
2 ,
2
1
*
2 ,
2
1
*
;
y
n
y
n
EP t y EP t y



Exemplo 1: Na seguinte janela do SPSS pode visualizar-se a
fraco de sobrevivncia f de um vrus sujeito a uma dose de
radiao d.
Usando um diagrama de disperso, parece existir uma relao
linear entre a dose de radiao e a fraco de sobrevivncia do
vrus:


De facto, parece que a fraco de
sobrevincia do vrus diminui com o
aumento da dose de radiao. Assim, a
existir correlao estatisticamente
significativa, esta ser negativa. Supondo
que a distribuio dos valores da dose de
radiao e racio de sobrevivncia seguem
BioEstatstica
51
distribuio normal, tem-se:
Correlao de Pearson Racio de Sobrevivncia
r -.980
p .000 Dose
n 9

Assim, o que parecia bvio no diagrama de disperso confirma-se: existe uma correlao
estatisticamente significativa entre a dose de radiao administrada e o racio de sobrevivncia
do vrus (p < 0.001), no sentido em que doses de radiao mais elevadas esto associadas a
racios de sobrevivncia menores (r = -0.98 < 0).

Neste caso, para alm da relao existente entre as duas variveis, parece ser interessante
avaliar em que sentido que a fraco de sobrevivncia do vrus poder depender da dose de
radiao administrada, ou seja, se existe uma relao de causa (dose) efeito (sobrevivncia),
o que se poder obter por regresso linear simples.

O quadro sumrio do modelo de regresso linear mostra que o r
2
de 0.96, ou seja, 96% da
variabilidade encontrada no racio de sobrevivncia devida variabilidade da dose
administrada, ou seja, a variabilidade conjunta de 96%. Note-se que r, neste quadro, de
0.98! O valor real da correlao deve ser avaliado atravs da matriz de correlao e no do
sumrio do modelo de regresso.


Model Summary
R R Square Adjusted R Square Std. Error of the Estimate
.980 .960 .954 .07932

O valor de r
2
pode ser obtido fazendo 0.980
2
= 0.96 ou usando SQ do modelo da ANOVA:
0.96=1.044/0.044.
No quadro da ANOVA pode ainda observar-se que esta recta se ajusta bem aos dados (p <
0.001), sendo que a variabilidade devida regresso cerca de 166 vezes superior
variabilidade residual.

ANOVA(b)
Sum of Squares df Mean Square F Sig.
Regression
1.044 1 1.044 165.989 .000(a)
Residual
.044 7 .006
Total
1.088 8
Engenharia Biomdica

52
No quadro seguinte podemos observar os valores determinados para a e b, coeficientes da
recta de regresso, assim como a confirmao de que existe uma relao linear entre a dose
adminsitrada e o racio de sobrevibvncia do vrus (p < 0.001).

Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients

b Std. Error Beta
t

Sig.

(Constant)
1.001 .049 20.522 .000
Dose
-.003 .000 -.980 -12.884 .000

Tem-se assim que Sobrevivncia*=1.001 0.003xDose:










Mais uma vez se pode confirmar a qualidade do ajustamento da recta de regresso ( 0 = ).

Podem assim prever-se valores para o racio de sobrevivncia, a partir da recta de regresso
obtida. Por exemplo, para uma dose de 210, obtm-se uma previso para o rcio
sobrevivncia = 1.001-0.003*210 = 0.371.


7.5 Modelo de Regresso Linear Mltipla
O modelo de regresso linear mltipla uma tcnica estatstica descritiva e inferencial que
permite analisar a relao entre uma varivel dependente (Y) e um conjunto de variveis
independentes (Xs).
Este modelo requer que as variveis sejam intervalares ou rcio, e que as relaes entre as
variveis sejam lineares e aditivas, embora estas restries no sejam absolutas.
Variveis nominais podem ser introduzidas no modelo com recurso a variveis dummy
(artificiais), e a transformao de equaes pode conduzir a relaes lineares. Muitas funes
Racio sobrevivnia Dose
(x) Observada (y) Prevista (y*) Erro (=y*-y)
.00 1.00 1.00051 .00
50.00 .96 .86858 -.09
100.00 .78 .73664 -.04
150.00 .57 .60471 .03
200.00 .38 .47278 .09
250.00 .25 .34084 .09
300.00 .16 .20891 .05
350.00 .10 .07698 -.02
400.00 .06 -.05496 -.11
N Min Max Mean SD
erro
9 -.11 .09 .0000 .0742
BioEstatstica
53
no lineares so linearizveis. Por exemplo, o seguinte modelo com duas variveis
independentes no linear e aditivo:
2 1
2 2 1 1 0
* *
k K
X c X c c Y =
Mas o modelo que se obtm fazendo ) * * ln( ) ln(
2 1
2 2 1 1 0
k K
X a X a a Y = conduz a
)) ln( ) (ln( )) ln( ) (ln( ) ln( ) ln(
2 2 2 1 1 1 0
X k c X k c c Y + + + + = , que transformvel e equivalente a
*
2 2
*
1 1 0
*
X t X t t Y + + = .

Por outro lado, no deve existir multicolinearidade, ou seja, as variveis independentes
devem ser independentes. Caso este pressuposto no se verifique, ento a lista de variveis
independentes deve ser analisada, pois existem, com certeza, variveis redundantes. Pode
recorrer-se correlao bivariada para observar quais as variveis com maior correlao entre
si, ou observar a Tolerncia ou a VIF de cada varivel, obtidas computacionalmente em
qualquer aplicao estatstica. A tolerncia mede o grau em que uma varivel X explicada
por todas as outras variveis independentes, ou seja, a proporo da sua varincia que no
explicada por todas as outras variveis independentes. Esta varia entre 0 e 1, e quanto mais
prxima estiver de 0 maior ser a multicolinearidade, considerando-se como limite inferior
para que no exista multicolinearidade o valor de 0.10. Todas as variveis com valores de
tolerncia < 0.1 devem ser excludas do modelo.
Define-se VIF (variance inflaction factor) como o inverso da tolerncia (1/Tol), pelo que no
existir multicolinearidade quando VIF < 10.

Mtodos de procura do melhor modelo
Um dos objectivos principais da regresso linear mltipla a previso da varivel dependente
a partir de um conjunto de variveis independentes.
Num problema de regresso linear mltipla, o investigador pode conhecer partida quais as
variveis independentes a incluir no modelo. Contudo, nas fases exploratrias da anlise de
regresso, o investigador desconhece quais as variveis que conduzem ao melhor modelo.
Existem vrios mtodos de procura do melhor modelo, e nenhum deles conduz ao modelo
ptimo. A anlise do coeficiente de determinao geralmente o nivelados da qualidade do
modelo.
No mtodo forward o modelo inicial apenas inclui a constante, sendo as variveis
independentes acrescentadas ao modelo de forma a que, em cada passo, includa a que maior
correlao apresenta com a varivel dependente. Assim, em cada passo, entra a varivel que
Engenharia Biomdica

54
maior alterao provoca no valor do F da ANOVA, ou, de modo semelhante, a varivel que
produza um maior aumento no valor de r
2
, enquanto esta alterao for significativa.
No mtodo backwards o modelo inicial a constante e todas as variveis seleccionadas pelo
investigador, sendo as variveis independentes retiradas do modelo, em cada passo, de acordo
com o menor valor de F associado a cada varivel (de forma inversa anterior).
O mtodo stepwise um hbrido dos anteriores, e o que , normalmente, utilizado.

Exemplo 1: Suponha que est a efectuar a previso da
sua nota de Bioestatstica (Y), a partir das variveis
nmero mdio de horas de estudo semanal (HORAS),
nmero de refeies dirias do aluno (REFEIO) e
do curso que o aluno frequenta (medicina ou dentria).
Esta ltima varivel ter de ser recodificada em duas
variveis artificiais: o aluno frequenta o curso de
Medicina (MED, sim/no) ou de Medicina dentria
(DENT, sim/no).

Model Summary
Change Statistics
Model R R
2

Adjusted
R
2

Std. Error
of the
Estimate
R Square
Change
F
Change
df1 df2
Sig. F
Change
1 ,823(a) ,677 ,670 1,3670 ,677 90,139 1 43 ,000
2 ,915(b) ,837 ,829 ,9828 ,160 41,186 1 42 ,000
3 ,941(c) ,885 ,876 ,8359 ,048 17,059 1 41 ,000
4 ,951(d) ,904 ,894 ,7736 ,019 7,871 1 40 ,008
a Predictors: (Constant), horas
b Predictors: (Constant), horas, refeio
c Predictors: (Constant), horas, refeio, med
d Predictors: (Constant), horas, refeio, med, dent

ANOVA(e)
Model SS df MS F Sig.
Regression 168,445 1 168,445 90,139 ,000(a)
Residual 80,355 43 1,869 1
Total 248,800 44

Regression 224,860 4 56,215 93,928 ,000(d)
Residual 23,940 40 ,598 4
Total 248,800 44
a Predictors: (Constant), horas
b Predictors: (Constant), horas, refeio
c Predictors: (Constant), horas, refeio, med
d Predictors: (Constant), horas, refeio, med, dent
e Dependent Variable: notas
BioEstatstica
55
Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients
T Sig. Collinearity Statistics
Model
B Std. Error Beta Tolerance VIF
(Constant) 10,294 ,447 23,050 ,000
1
horas 3,329 ,351 ,823 9,494 ,000 1,000 1,000

(Constant) 11,376 ,600 18,949 ,000
horas 1,464 ,348 ,362 4,203 ,000 ,325 3,080
refeio ,425 ,102 ,256 4,154 ,000 ,634 1,578
med -1,787 ,376 -,358 -4,755 ,000 ,423 2,361
4
dent 1,055 ,376 ,211 2,806 ,008 ,423 2,361
a Dependent Variable: notas


Nestes casos, pode-se comparar a varincia explicada por cada varivel, no modelo (r
2
), e
interessante observar os valores de e no de b, no quadro dos coeficientes de regresso. Os
coeficientes b reflectem a escala em que a varivel foi medida, enquanto que so os
coeficientes b padronizados. Assim, as variveis com peso na predio do modelo podem ser
comparadas e avaliadas. No quadro anterior pode observar-se que o peso relativo de cada
varivel na nota final, comparando os valores absolutos de .


7.6 Outros Modelos de Regresso
Em bioestatstica comum usar outros tipos de regresso, para alm dos modelos de regresso
linear mltipla. Entre eles destacam-se a estimativa de curvas e o modelo de regresso
logstica, utilizado frequentemente para identificar preditores de risco de determinadas
situaes.

Curve Estimation
The Curve Estimation procedure produces curve estimation regression statistics and related
plots for 11 different curve estimation regression models. A separate model is produced for
each dependent variable. You can also save predicted values, residuals, and prediction
intervals as new variables.
Example: An Internet service provider tracks the percentage of virus-infected e-mail traffic on
its networks over time. A scatterplot reveals that the relationship is nonlinear. You might fit a
quadratic or cubic model to the data and check the validity of assumptions and the goodness
of fit of the model.
Engenharia Biomdica

56
Logistic Regression
Logistic regression is useful for situations in which you want to be able to predict the
presence or absence of a characteristic or outcome based on values of a set of predictor
variables. It is similar to a linear regression model but is suited to models where the
dependent variable is dichotomous. Logistic regression coefficients can be used to estimate
odds ratios for each of the independent variables in the model. Logistic regression is
applicable to a broader range of research situations than discriminant analysis.

Example: What lifestyle characteristics are risk factors for coronary heart disease (CHD)?
Given a sample of patients measured on smoking status, diet, exercise, alcohol use, and CHD
status, you could build a model using the four lifestyle variables to predict the presence or
absence of CHD in a sample of patients. The model can then be used to derive estimates of
the odds ratios for each factor to tell you, for example, how much more likely smokers are to
develop CHD than nonsmokers.




BioEstatstica
57
8. TESTES NO PARAMTRICOS

A comparao de parmetros populacionais a partir de amostras aleatrias uma das
necessidades fulcrais em estatstica inferencial, principalmente quando se pretende testar a
significncia de tratamentos ou factores que so capazes de influenciar a resposta da varivel
medida e, em que se pretende testar se o tratamento teve ou no um efeito significativo.
Assim, existem basicamente duas metodologias para efectuar estes tipos de testes: os testes
paramtricos que exigem que a forma da distribuio amostral seja conhecida (sendo a
distribuio Normal a mais utilizada); os testes no paramtricos no exigem que seja
conhecida a distribuio amostral (embora possuam outras condies de aplicao), e devem
ser aplicados em alternativa aos testes no paramtricos.
Porque no utilizar, ento, sempre testes no paramtricos? Porque a potncia dos testes
paramtricos, ou seja, a probabilidade de rejeitar correctamente H
0
superior num teste
paramtrico
6
, devendo os testes no paramtricos ser, assim, utilizados, apenas quando no
existe alternativa, ou quando o nvel de mensurao da varivel dependente ordinal ou
nominal (situao em que apenas se podem utilizar testes no paramtricos).

8.1 Condies Gerais de aplicao dos testes paramtricos
A varivel dependente quantitativa e segue uma distribuio normal
As varincias populacionais so homogneas, caso estejamos a comparar 2 ou mais
populaes

8.1.1 Testes estatsticos mais utilizados para testar a
Normalidade da distribuio: Teste de Kolmogorov-Smirnov

normal o distribui segue no X H


N X H
:
) , ( ~ :
1
0



Em alternativa ao teste de Kolmogorov-Smirnov, o SPSS efectua tambm o teste de
Shapiro-Wilk quando n < 50 para testar se a varivel em estudo na amostra aleatria
possui ou no distribuio normal, sendo este teste particularmente apropriado e prefervel
ao teste de Kolmogorov-Smirnov sempre que n<30.



6
Embora, em amostras de pequena dimenso seja, muitas vezes, prefervel utilizar testes no paramtricos
Engenharia Biomdica

58
Homogeneidade de varincias: Teste de Levene
{ }


= = =
2 2
1
2 2
2
2
1 0
: , ,..., 2 , 1 , :
... :
j i
k
j i k j i H
H




8.1.2 Quadro de Deciso para variveis Intevalares/Racio
Variveis Intervalar/Rcio (Scale) Variveis Ordinais


Avaliar distribuio:
Teste de Kolmogorov-Smirnov


Aceitar H
0
Rejeitar H
0

H
0
: Distribuio = Normal H
1
: Distribuio Normal


Avaliar homogeneidade de varincias
se n grupos > 3: Teste de Levene


Aceitar H
0
Rejeitar H
0

H
0
: Varincias homogneas H
1
: Distribuio Normal


TESTES PARAMTRICOS TESTES NO PARAMTRICOS
Ser o IMC da populao de estudantes do ensino superior portugus = 20.5 kg/m
2
?
t 1 mdia Wilcoxon / Sinal (varivel constante)
H
0
: = 20.5 H
0
: md = 20.5
H
1
: 20.5 H
1
: md 20.5
H alterao significativa nos valores de TAS antes e depois de um tratamento?
t amostras emparelhadas Wilcoxon / Sinal
H
0
:
A
=
D
H
0
: md
A
= med
D

H
1
:
A

D
H
1
: md
A
med
D

O tratamento eficaz na reduo dos valores de TAS (relativamente ao placebo)?
t amostras independentes Mann-Whitney
H
0
:
SA
=
P
H
0
: md
SA
= md
P

H
1
:
SA

P
H
1
: md
SA
md
P

H diferena nos valores de glicmia relativamente aos escales de IMC?
ANOVA (1-factor) Kruskal-Wallis
H
0
:
1
=
2
= ... =
6
H
0
: md
1
= md
2
= ... = md
6

D
I
F
E
R
E
N

A

H
1
:
i

j
, i j H
1
: md
i
md
j
, i j
Haver relao entre os valores de TAS antes e depois de um tratamento?
Estaro os valores de TAD relacionados com o IMC? E com o IMC em escales?
Coeficiente de correlao
Pearson (r) Spearman ( ) / Kendall ( )
H
0
: r=0 H
0
: =0 / =0
R
E
L
A

O

H
1
: r0 H
1
: 0 / 0
BioEstatstica
59
Exemplos:
1. Suponha que se pretende avaliar se as condies de temperatura e humidade influenciam o
tempo demorado a adormecer dos recm-nascidos, assim como a durao da sesta. Assim,
observaram-se 3 amostras independentes de recm-nascidos, em 3 maternidades com
diferentes condies de temperatura e humidade nos quartos, sendo cada amostra
constituda por 10 elementos.
Qual o teste estatstico que utilizaria neste caso, para cada uma das variveis dependentes
estudadas, aps observar o seguinte quadro?
Kolmogorov-Smirnov(a) Shapiro-Wilk
Tests of
Normality
Maternidade
Statistic df Sig. Statistic df Sig.
MDM .214 10 .200(*) .938 10 .531
MBB .228 10 .152 .907 10 .262
Tempo a
adormecer
CSS .216 10 .200(*) .845 10 .051
MDM .196 10 .200(*) .872 10 .107
MBB .244 10 .092 .774 10 .007 Durao da sesta
CSS .247 10 .083 .928 10 .424
* This is a lower bound of the true significance.
a Lilliefors Significance Correction

Test of Homogeneity of Variance
Levene
Statistic
df1 df2 Sig.
Based on Mean .188 2 27 .830
Based on Median .171 2 27 .844
Based on Median and with adjusted df .171 2 24.650 .844
Tempo a
adormecer
Based on trimmed mean .186 2 27 .831
Based on Mean 1.569 2 27 .227
Based on Median .698 2 27 .506
Based on Median and with adjusted df .698 2 18.685 .510
Durao da
sesta
Based on trimmed mean 1.287 2 27 .292

Observe agora os resultados obtidos e comente-os:
Tempo a adormecer
95% Confidence Interval for Mean
N Mean
Std.
Deviation
Std.
Error
Lower Bound Upper Bound
Minimum Maximum
MDM 10 5.4000 1.83787 .58119 4.0853 6.7147 2.00 9.00
MBB 10 5.7000 1.56702 .49554 4.5790 6.8210 3.00 9.00
CSS 10 7.4000 1.77639 .56174 6.1292 8.6708 4.00 9.00
Total 30 6.1667 1.89525 .34602 5.4590 6.8744 2.00 9.00

Durao da sesta
95% Confidence Interval for Mean
N Mean
Std.
Deviation
Std.
Error
Lower Bound Upper Bound
Minimum Maximum
MDM 10 224.000 18.25133 5.7716 210.9438 237.0562 198.00 245.00
MBB 10 227.800 41.46431 13.112 198.1382 257.4618 123.00 265.00
CSS 10 222.100 34.07981 10.777 197.7208 246.4792 159.00 268.00
Total 30 224.63 31.6734 5.783 212.8063 236.4604 123.00 268.00
Engenharia Biomdica

60
CSS MBB MDM
Maternidade
7.50
7.00
6.50
6.00
5.50
5.00
M
e
a
n

o
f

T
e
m
p
o

a

a
d
o
r
m
e
c
e
r
CSS MBB MDM
Maternidade
228.00
227.00
226.00
225.00
224.00
223.00
222.00
M
e
a
n

o
f

D
u
r
a

o

d
a

s
e
s
t
a


Tempo a Adormecer
ANOVA: Tempo a adormecer








Multiple Comparisons: Dependent Variable: Tempo a adormecer; Tukey HSD
95% Confidence Interval (I)
Maternidade
(J)
Maternidade
Mean Difference
(I-J)
Std. Error Sig.
Lower Bound Upper Bound
MBB -.30000 .77412 .921 -2.2194 1.6194
MDM
CSS -2.00000(*) .77412 .040 -3.9194 -.0806
MBB MDM .30000 .77412 .921 -1.6194 2.2194
CSS -1.70000 .77412 .090 -3.6194 .2194
MDM 2.00000(*) .77412 .040 .0806 3.9194
CSS
MBB 1.70000 .77412 .090 -.2194 3.6194
* The mean difference is significant at the .05 level.

Durao da Sesta
Ranks
Maternidade N Mean Rank
MDM 10 13.85
MBB 10 17.70
CSS 10 14.95
Durao da sesta
Total 30

Test Statistics(a,b)

Durao da
sesta
Chi-Square 1.017
df 2
Asymp. Sig. .602
a Kruskal Wallis Test
b Grouping Variable: Maternidade


Sum of
Squares
df
Mean
Square
F Sig.
Between Groups 23.267 2 11.633 3.883 .033
Within Groups 80.900 27 2.996
Total 104.167 29
BioEstatstica
61
2. Suponha agora que se seleccionava a maternidade que demonstrava ter melhores
condies de temperatura e humidade nos quartos das parturientes, e que, nesta, se
estudava o tempo mdio demorado a adormecer e a durao da sesta de 30 recm-
nascidos. Estar o tempo mdio da sesta relacionado com o tempo demorado a
adormecer?
9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00
Tempo a adormecer
260.00
240.00
220.00
200.00
180.00
160.00
140.00
120.00
D
u
r
a

o

d
a

s
e
s
t
a

Observando os coeficientes de correlao de Pearson e de Spearman, para um nvel de
significncia de 0.05, conclumos que ... !!!
Tempo a Adormecer vs
Durao da Sesta
r (Pearson) rho (Spearman)
Correlation coefficient -.303 -.372
Sig. (2-tailed) .103 .043
N 30 30

Qual dos coeficientes de correlao devemos utilizar? As concluses a que se chega so
opostas, ainda que o coeficiente de correlao seja fraco. Com o coeficiente de correlao de
Pearson, conclui-se que no existe relao significativa entre a durao da sesta e o tempo
demorado a adormecer dos recm-nascidos (p = 0.103), enquanto que quando se utiliza um
coeficiente de correlao no paramtrico conclui-se que existe relao entre ambas (p =
0.043), no sentido em que sestas mais prolongadas esto relacionadas com menor tempo
demorado a adormecer (rho < 0).
Qual dos dois coeficientes deve ser utilizado?

Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk

Statistic df Sig. Statistic df Sig.
Tempo a adormecer .164 30 .038 .924 30 .034
Durao da sesta .167 30 .032 .885 30 .004
a Lilliefors Significance Correction
b Calculated from data

Engenharia Biomdica

62
3. Numa das outras maternidades, seleccionaram-se 30 recm-nascidos ao acaso, e foram
aleatoriamente divididos em dois grupos iguais: num grupo colocou-se no bero uma pea
da roupa da me, enquanto que no outro colocou-se uma pea de roupa de outro familiar.
Quais os testes estatsticos que poderia utilizar para avaliar a influncia do cheiro da me
no sono dos recm-nascidos?
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk

Pea de roupa
da me
Statistic df Sig. Statistic df Sig.
Sim .171 15 .200(*) .962 15 .725
Tempo a
adormecer
No .210 15 .073 .839 15 .012
Sim .128 15 .200(*) .961 15 .704
Durao da
sesta
No .189 15 .153 .921 15 .199
* This is a lower bound of the true significance.
a Lilliefors Significance Correction

Observe e comente os resultados:
Descriptive Statistics
Pea de roupa da me N Minimum Maximum Mean Std. Deviation
Tempo a adormecer 15 2.00 9.00 5.2667 1.70992
Sim
Durao da sesta 15 223.00 268.00 243.8000 12.36470
Tempo a adormecer 15 5.00 9.00 7.0667 1.66762
No
Durao da sesta 15 123.00 255.00 205.4667 33.73397

Tempo a Adormecer
Ranks
Pea de Roupa
da me
N
Mean
Rank
Sum of
Ranks
Sim 15 11.50 172.50
Tempo a
adormecer
No 15 19.50 292.50

Test Statistics(b)
Tempo a
adormecer
Mann-Whitney U 52.500
Exact Sig. [2*(1-tailed Sig.)] .011(a)
a Not corrected for ties.
b Grouping Variable: Pea de roupa da me

Durao da Sesta
Independent Samples Test
Levene's Test
for Equality of
Variances
t-test for Equality of Means
95% Confidence
Interval of the
Difference

F Sig. t df
Sig.
(2-tailed)
Mean
Differenc
Std. Error
Differenc
Lower Upper
Equal variances
assumed
4.132 28 .000 38.333 9.277 19.331 57.336
Durao
da sesta
Equal variances
not assumed
6.213 .019
4.132 17.695 .001 38.333 9.277 18.819 57.847
BioEstatstica
63
9. VARIVEIS QUALITATIVAS

9.1 Testes Qui-quadrado (Tabelas de Contingncia)
Cries

No Sim
Total
Normal
10 10 20
Excesso Peso
7 6 13
Classes
de IMC
Obesidade
3 4 7
Total
20 20 40


Teste Qui-Quadrado: testes de homogeneidade (diferena de propores); Testes de
independncia:
H
0
: As propores so iguais ou
No existe associao entre as variveis/As variveis so independentes
H1: As propores so diferentes/
Existe associao entre as variveis/As variveis no so independentes

O teste Chi
2
no pode ser utilizado em qualquer tabela de contingncia. necessrio que
cumpra as Regras de Cochran para aplicao do teste Chi
2


Tabelas de 2x2:
1. Se n 40 pode usar o teste do qui-quadrado, de preferncia corrigido; Os valores
esperados tm de ser 5;
2. Se 20 n 40 deve usar o teste do qui-quadrado corrigido; Os valores esperados tm de
ser 5; caso contrrio ter de usar o teste exacto de Fisher;
3. Se n < 20 no deve usar o teste do qui-quadrado mas o teste exacto de Fisher.

Tabelas LxC, com L>2 ou C>2:
1. Pelo menos 80% dos valores esperados tm de ser 5 e nenhum deve ser < 1
Se as condies impostas anteriormente no existirem, deve combinar-se linhas ou colunas
para aumentar os valores esperados; isto ter como resultado a diminuio dos graus de
liberdade.


Exemplo 1: Considere a seguinte tabela de contingncia relativa a 145 sujeitos classificados
Engenharia Biomdica

64
em dois grupos segundo os valores de tenso arterial (N: normal; HTA: hipertenso arterial) e
a existncia de patologia cardio-vascular (N: normal; DCV: doena cardiovascular).

Doena Cardiovascular * Hipertenso Crosstabulation
TA

HTA Normal
Total
Count 43 33
DCV
Expected Count 30,9 45,1
76
Count 16 53
Doena
Cardiovascular
Normal
Expected Count 28,1 40,9
69
Total Count 59 86 145

Se avaliarmos o resduo, ou seja, a diferena entre os valores observados e esperados, em cada
clula, observamos o seguinte:
TA
N HTA
N 12.1 -12.1 Doena
CV DCV -12.1 12.1

Assim, aparentemente, encontramos mais casos normais para as duas patologias do que
espervamos encontrar se as propores fossem todas iguais, assim como mais casos com
ambas as patologias do que espervamos encontrar, o que nos poder indicar que mais
frequente um sujeito normal para uma das patologias tambm o ser para a outra, e que quando
tm uma das doenas, muito provavelmente tambm ter a outra. Assim, este parece ser um
indicador da existncia de relao entre a hipertenso arterial e a doena cardiovascular.

Aplicando o teste Chi
2
, dado que se cumprem as regras de Cochran para tabelas 2x2...

Chi-Square Tests
Value df
Asymp. Sig.
(2-sided)
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Pearson Chi-Square 16,708 1 ,000
Continuity Correction(a) 15,353 1 ,000
Likelihood Ratio 17,184 1 ,000
Fisher's Exact Test ,000 ,000
Linear-by-Linear Association 16,593 1 ,000
N of Valid Cases 145
a Computed only for a 2x2 table
b 0 cells (,0%) have expected count less than 5. The minimum expected count is 28,08.

Verifica-se que parece existir uma associao significativa entre a ocorrncia de doena
cardio-vascular e a existncia de hipertenso (Chi
2
(1)=16.708; p<0.001).
9.2 Teste de McNemar 2 variveis qualitativas emparelhadas, tabelas 2x2
BioEstatstica
65
Este teste, tambm denominado de teste da mudana de opinio, baseia-se na comparao das
propores das respostas dicotomizadas de duas variveis (A e B), ou seja, classificando as
respostas em positivas ou sucessos, e em negativas ou insucessos.
A aplicao de A e B a n indivduos d origem a n pares de respostas agrupadas nas 4
combinaes seguintes:
B
- +
- a b
A
+ c d

As hipteses
7
a testar so, assim,

+ +
+ = +
) ( ) ( :
, ), ( ) ( :
1
0
B A
B A
p p H
B em sucessos de proporo igual A em sucessos de proporo a ie p p H


Muitas vezes, a varivel A significa Antes e a B Depois de um determinado acontecimento
8
.
Neste caso, a rejeio de H
0
pode ser uma indicao do efeito desse acontecimento.

Exemplo 1: Relao entre os valores de TAS iniciais e aps tratamento
Suponha agora que os todos os sujeitos hipertensos (positivos: 59) se submetiam a tratamento
para a tenso arterial e que, 6 meses aps a avaliao inicial, os 145 casos eram, de novo,
avaliados relativamente sua tenso arterial. Ser que houve alterao significativa na
proporo de casos inicialmente hipertensos, ou, ter o tratamento surtido efeito?
Esta anlise pode ser efectuada atravs de um teste de McNemar, desde que a principal fonte
de discrdia seja a passagem de hipertensos a normais, e no o contrrio.

Hipertenso * HTA aps tratamento Crosstabulation
TA aps tratamento

Normal HTA
Total
Normal Count 80 6 86
TA
HTA Count 31 28 59
Total Count 111 34 145



9.3 Teste Binomial

7
As clulas b e c so aquelas onde se opera a mudana de opinio de sucesso para insucesso ou vice-versa. Se
b+c>20, a estatstica deste teste um chi2; se b+c<20, a estatstica dos teste uma binomial.
8
No SPSS, a variveis devem ser codificadas da mesma forma, atribuindo-se o valor 0 ao insucesso e 1 ao
sucesso
Engenharia Biomdica

66
BINOMIAL tests whether the observed distribution of a dichotomous variable is the same as
what is expected from a specified binomial distribution. By default, each named variable is
assumed to have only two values, and the distribution of each named variable is compared to
a binomial distribution with p (the proportion of cases expected in the first category) equal to
0.5. The default output includes the number of valid cases in each group, the test proportion,
and the two-tailed probability of the observed proportion.

Exemplo 1: A proporo de indivduos que tem cries, na amostra, idntica que no tem
cries?
Binomial Test Category N
Observed
Prop. Test Prop.
Asymp. Sig.
(2-tailed)
Group 1
Sim 20 .50 .50 1.000(a)
Group 2
No 20 .50
Cries
Total
40 1.00
a Based on Z Approximation.

Exemplo 2: pode-se afirmar que existem 15% de obsesos na populao?
Binomial Test Category N
Observed
Prop. Test Prop.
Asymp. Sig.
(1-tailed)
Group 1
<= 3 35 .83 .85 .445(a,b)
Group 2
> 3 7 .17
Classes de IMC
Total
42 1.00
a Alternative hypothesis states that the proportion of cases in the first group < .85.
b Based on Z Approximation.


9.4 Teste de Cochran
COCHRAN calculates Cochrans Q, which tests whether the distribution of values is the same
for k related dichotomous variables. The output shows the frequency distribution for each
variable in the Cochran Frequencies table and the number of cases, Cochrans Q, degrees of
freedom, and probability in the Test Statistics table.






Exemplos:
BioEstatstica
67
1. Num estudo sobre a importncia do efeito placebo entraram 200 doentes. Foram
divididos em dois grupos: ao grupo P foi administrado placebo e ao grupo S uma substncia
activa suporfera. Os doentes foram inquiridos sobre o efeito do medicamento ao fim de 15
dias: 30 dos 150 doentes do grupo P sentiram efeito benfico e bem como 40 do grupo S.
Verifique as condies de aplicabilidade do teste Chi
2
e, em caso afirmativo, indique se a
substncia administrada est ou no relacionada com o efeito sentido pelos sujeitos.
Efeito
Substncia * Efeito Crosstabulation
Efeito
Benfico
Sem efeito
Total
Count 40 10 50
Expected Count 17.5 32.5 50.0 Subs. Activa
Residual 22.5 -22.5
Count 30 120 150
Expected Count 52.5 97.5 150.0
Substncia
Placebo
Residual -22.5 22.5
Count 70 130 200
Total
Expected Count 70.0 130.0 200.0

Dado no existirem frequncias esperadas inferiores a 5, e n= 200 > 40, permite aplicar o teste
Chi
2
. O facto de os resduos serem iguais na diagonal principal (simtricos na diagonal
secundria) poder indicar a existncia de uma associao entre as duas variveis.
Chi-Square Tests Value df
Asymp. Sig.
(2-sided)
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Pearson Chi-Square 59.341(b) 1 .000
Continuity Correction(a) 56.733 1 .000
Likelihood Ratio 58.818 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear Association 59.044 1 .000
N of Valid Cases 200
a Computed only for a 2x2 table
b 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.50.

De facto, existe uma associao significativa (Chi2(1)=59.241; p < 0.001 rejeita-se H
0
)
entre a substncia administrada e o efeito sentido.

Analisando as estimativas de risco, verifica-se que cerca de 16 vezes mais provvel que o
efeito sentido seja benfico quando se administra substncia activa do que quando se
administra placebo, sendo este valor significativamente diferente
9
de 1 (para = 0.05), e
superior, dado que o intervalo de confiana a 95% para o odds ratio (7.2; 36.6).

9
Um odds ratio de 1 indica ausncia de risco/associao
Engenharia Biomdica

68
95% Confidence Interval
Risk Estimate Value
Lower Upper
Odds Ratio for Substncia (Subs. Activa / Placebo) 16.000 7.188 35.614
For cohort Efeito = Efeito Benfico 4.000 2.822 5.669
For cohort Efeito = Sem efeito .250 .143 .438
N of Valid Cases 200

Poder, neste caso, ser interessante analisar as % within substncia, % within efeito e %
of total. Analise-as e estabelea relaes com o risco relativo apresentado no quadro anterior.
Efeito
Substncia * Efeito Crosstabulation
Efeito
Benfico
Sem efeito
Total
% within Substncia 80.0% 20.0% 100.0%
% within Efeito 57.1% 7.7% 25.0%
Subs.
Activa
% of Total 20.0% 5.0% 25.0%
% within Substncia 20.0% 80.0% 100.0%
% within Efeito 42.9% 92.3% 75.0%
Substncia
Placebo
% of Total 15.0% 60.0% 75.0%
% within Substncia 35.0% 65.0% 100.0%
% within Efeito 100.0% 100.0% 100.0% Total
% of Total 35.0% 65.0% 100.0%


BioEstatstica
69
Exemplo 2: Os dados que se seguem foram obtidos de um ensaio clnico de estreptomicina
para tratamento de tuberculose pulmonar em 107 sujeitos. Avalie as condies de
aplicabilidade do teste chi
2
a este conjunto de dados:
Substncia
Efeito * Substncia Crosstabulation
Estreptomicina Placebo
Total
Count 28 4 32
Muito melhor
Expected Count 16.4 15.6 32.0
Count 10 13 23
Melhor
Expected Count 11.8 11.2 23.0
Count 2 3 5
Sem alterao
Expected Count 2.6 2.4 5.0
Count 5 12 17
Ligeiramente pior
Expected Count 8.7 8.3 17.0
Count 6 6 12
Pior
Expected Count 6.2 5.8 12.0
Count 4 14 18
Efeito
Morte
Expected Count 9.3 8.7 18.0
Count 55 52 107
Total
Expected Count 55.0 52.0 107.0

Temos uma tabela de contingncia 2 6 logo, com 12 clulas. Entre estas, tem-se 5 <
ij
E em
2 clulas (16.7%), pelo que se pode aplicar o teste Chi
2
a este conjunto de dados.
Caso houvesse 3 clulas com 5 <
ij
E , no teramos pelo menos 80% das clulas com
5
ij
E pelo que seria necessrio proceder juno de linhas ou colunas. Neste caso, talvez
fizesse sentido juntar as categorias muito melhor com melhor, ou ligeiramente pior com
pior; contudo, as 5 <
ij
E aparecem na categoria sem alterao. No meu entender dever-
se-a juntar sem alterao com ligeiramente pior, dado que sem alterao indica que
no houve efeito benfico da estreptomicina.

Analise se o facto de a administrao de estreptomicina est associada a uma melhoria da
situao clnica de tuberculosae pulmonar - interprete os resultados obtidos:
Chi-Square Tests Value df Asymp. Sig. (2-sided)
Pearson Chi-Square 26.966(a) 5 .000
Likelihood Ratio 29.612 5 .000
Linear-by-Linear Association 17.761 1 .000
N of Valid Cases 107
a 2 cells (16.7%) have expected count less than 5. The minimum expected count is 2.43.



Engenharia Biomdica

70
Substncia
Efeito * Substncia Crosstabulation
Estreptomicina Placebo
Total
% within Efeito 87.5% 12.5% 100.0%
% within Substncia 50.9% 7.7% 29.9% Muito melhor
% of Total 26.2% 3.7% 29.9%
% within Efeito 43.5% 56.5% 100.0%
% within Substncia 18.2% 25.0% 21.5% Melhor
% of Total 9.3% 12.1% 21.5%
% within Efeito 40.0% 60.0% 100.0%
% within Substncia 3.6% 5.8% 4.7% Sem alterao
% of Total 1.9% 2.8% 4.7%
% within Efeito 29.4% 70.6% 100.0%
% within Substncia 9.1% 23.1% 15.9% Ligeiramente pior
% of Total 4.7% 11.2% 15.9%
% within Efeito 50.0% 50.0% 100.0%
% within Substncia 10.9% 11.5% 11.2% Pior
% of Total 5.6% 5.6% 11.2%
% within Efeito 22.2% 77.8% 100.0%
% within Substncia 7.3% 26.9% 16.8%
Efeito
Morte
% of Total 3.7% 13.1% 16.8%
% within Efeito 51.4% 48.6% 100.0%
% within Substncia 100.0% 100.0% 100.0% Total
% of Total 51.4% 48.6% 100.0%

Вам также может понравиться