Вы находитесь на странице: 1из 212

INTRODUO ANLISE DE DADOS

CATEGRICOS
SUELY RUIZ GIOLO
Departamento de Estatstica
Universidade Federal do Paran
giolo@ufpr.br
57
a
Reunio Anual da RBras
ESALQ/USP - Piracicaba/SP
05 a 09 de maio de 2012
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Contedo
1
Conceitos Introdutrios, Notao e Exemplos
2
Delineamentos Amostrais e Modelos Associados
3
Dados em Tabelas de Contingncia
Testes e Medidas de Associao
4
Alguns Modelos de Regresso
Resposta Binria ou Dicotmica
Resposta Politmica
Resposta Dicotmica em Dados Pareados
5
Diversas Ilustraes (Resultados - Software R)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Bibliograa Bsica
Agresti, A. (1995). Introduction to the Analysis of Categorical
Data. New York: Wiley.
Agresti, A. (2002). Categorical data analysis, 2nd ed. New York:
Wiley.
Everitt, B.S. (1977). The Analysis of Contingency Tables.
London: Chapman and Hall.
Hosmer, D.W.; Lemeshow, S. (2000). Applied Logistic
Regression. New York: John Wiley & Sons.
Freeman Jr, D.F. (1987). Applied Categorical Data Analysis.
New York: Marcel Dekker.
Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis of
Discrete Data. New York: Springer-Verlag.
Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical Data
Analysis using the SAS System. SAS. Inst Inc, Cary, NC. USA.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Bibliograa Complementar
Demtrio, C.G.B. (2001). Modelos Lineares Generalizados em
Experimentao Agronmica. Piracicaba: Minicurso 46
a
Rbras
e 9
o
SEAGRO.
Giolo, S.R. (2012). Introduo Anlise de Dados Categricos
com Aplicaes. Material Didtico, 190p.
Paula, G.A. (2010). Modelos de Regresso com Apoio
Computacional. URL: http://www.ime.usp.br/ giapaula/
Paulino, C.D.M.; Singer, J.M. (2006). Anlise de Dados
Categorizados. So Paulo: Blucher.
Poleto, F.Z. (2006). Anlise de Dados Categorizados com
Omisso. Dissertao de mestrado. So Paulo: Depto de
Estatstica, IME/USP.
Dentre outros ....
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Conceitos Introdutrios
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Introduo
Em diversos estudos comum o registro de variveis
qualitativas e quantitativas (contnuas ou discretas)
melhora do paciente (sim ou no)
desempenho do candidato (bom, regular ou pssimo)
local de moradia (norte, sul, leste, oeste)
horas de alvio de dor de cabea (0, 1, 2, 3 ou > 4)
idade (em anos)
Tais variveis so comumente classicadas de acordo
com suas respectivas escalas de mensurao
dicotmicas ou binrias
politmicas (ordinais ou nominais)
contagens discretas
contnuas
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Introduo
Por interesse do pesquisador, ou por convenincia,
variveis contnuas podem ser categorizadas.
idade: faixas etrias
resultado de um exame mdico: normal ou anormal
peso: obeso e no-obeso
peso: < 60, [60, 100), [100, 150) e 150kg.
Grupar categorias pode ser necessrio quando houver
categorias com frequncias muito pequenas ou nulas.
Em funo do delineamento amostral e dos objetivos, as
variveis podem ser, ainda, classicadas em:
variveis resposta
variveis explicativas.
Nem sempre tal classicao simples ou bvia.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Objetivos do Minicurso
Apresentar testes, medidas de associao e modelos de
regresso utilizados com frequncia em estudos em que:
varivel resposta: categrica
variveis explicativas: categricas e/ou contnuas.

Anlise de dados dessa natureza


anlise de dados categricos
anlise de dados discretos
Justicativa: distribuies discretas de probabilidade (binomial,
multinomial, poisson, binomial negativa etc.) so usualmente
associadas varivel resposta.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo sobre exposio ao lcool e cncer de esfago.
Cncer de Esfago
Consumo de lcool Sim No Totais
Sim 96 109 205
No 104 666 770
Totais 200 775 975
Fonte: Tuyns et al. (1977), Santner e Duffy (1989)
RELAO
CAUSA
. .
EFEITO
. .
consumo lcool cncer esfago

varivel explicativa varivel resposta

dicotmica dicotmica
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Avaliao de medicamentos no tratamento de pacientes com
diagnstico de infeco urinria.
Cura
Diagnstico da Infeco Medicamentos Sim No Totais
Complicada A 78 28 106
Complicada B 101 11 112
Complicada C 68 46 114
No complicada A 40 5 45
No complicada B 54 5 59
No complicada C 34 6 40
Fonte: Koch et al. (1985)
varivel resposta
_
Cura dicotmica
variveis explicativas
_
Diagnstico da Infeco dicotmica
Medicamentos politmica nominal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo multicentros para avaliaco de medicamentos no
tratamento de infeces respiratrias.
Efeito
Centros Medicamentos Favorvel No favorvel Totais
1 Novo 29 16 45
1 Padro 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padro 24 21 45
Totais 61 29 90
Fonte: Stokes et al. (2000)
varivel resposta
_
Efeito dicotmica
varivel explicativa
_
Medicamentos politmica nominal
varivel estraticadora
_
Centros
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo sobre medicamentos para dores de cabea.
Horas de alvio
Medicamentos 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padro 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Fonte: Stokes et al. (2000)
varivel resposta
_
Horas de Alvio contagem discreta

politmica ordinal
varivel explicativa
_
Medicamentos politmica nominal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Inuncia de aditivos na gua sobre a limpeza das roupas.
Limpeza
Tratamentos Baixa Mdia Alta Totais
gua 27 14 5 46
gua + dose nica trat padro 10 17 26 53
gua + dose dupla trat padro 5 12 50 67
Totais 42 43 81 166
Fonte: Stokes et al. (2000)
varivel resposta
_
Limpeza das Roupas politmica ordinal
varivel explicativa
_
Tratamentos politmica ordinal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo sobre preferncia de programa de aprendizado.
Preferncia de Aprendizado
Escola Perodo Individual Grupo Sala Aula Totais
1 Padro 10 17 26 53
1 Integral 5 12 50 67
2 Padro 21 17 26 64
2 Integral 16 12 36 64
3 Padro 15 15 16 46
3 Integral 12 12 20 44
Fonte: Stokes et al. (2000)
varivel resposta
_
Preferncia Aprendizado politmica nominal
variveis explicativas
_
Escola politmica nominal
Perodo Escolar politmica nominal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo crossover de dois perodos para avaliao de
tratamentos (A, B e P = Placebo) em jovens e adultos.
Sequncia Efeito
Idade Tratamentos FF FU UF UU Totais
Adultos A:B 12 12 6 20 50
Adultos B:P 8 5 6 31 50
Adultos P:A 5 3 22 20 50
Jovens B:A 19 3 25 3 50
Jovens A:P 25 6 6 13 50
Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = favorvel nos dois perodos; FU = favorvel no 1
o
perodo e no-favorvel no 2
o
;
UF = no favorvel no 1
o
perodo e favorvel no 2
o
, UU = no favorvel nos dois perodos.
Indivduo considerado como sendo seu prprio controle.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
A partir dos exemplos dados de estudos em que a
resposta e as variveis explicativas so categricas (ou
foram categorizadas) so, sempre que possvel, organi-
zados em Tabelas de Contingncia.
Nos casos em que se tem duas variveis, X e Y, com
ambas apresentando duas categorias cada.
Tabela de Contingncia 2 2.
Categorias da Categorias da resposta Y
varivel X j = 1 j = 2 Totais
i = 1 n
11
n
12
n
1+
i = 2 n
21
n
22
n
2+
Totais n
+1
n
+2
n
++
= n
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
Por convenincia, as categorias de X estaro dispostas
nas linhas da tabela, enquanto as de Y, nas colunas.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 n
11
n
12
n
1+
i = 2 n
21
n
22
n
2+
Totais n
+1
n
+2
n
Frequncias n
ij
indivduos na categoria i de X e
categoria j de Y, i, j = 1, 2.
Totais marginais-linha frequncias n
i+
(i = 1, 2).
Totais marginais-coluna frequncias n
+j
(j = 1, 2).
Total geral ou amostral n soma dos n
ij
, i, j = 1, 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 n
11
n
12
n
1+
i = 2 n
21
n
22
n
2+
Totais n
+1
n
+2
n
p
ij
= P(X = i, Y = j) probabilidades conjunta.
p
(i)j
= P(Y = j | X = i) probabilidades condicionais
p
i(j)
= P(X = i | Y = j) probabilidades condicionais
p
i+
= P(X = i) probabilidades marginais-linha
p
+j
= P(Y = j) probabilidades marginais-coluna
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
Nos casos mais gerais Y e X
1
, . . . , X
k
Tabelas de Contingncia s r
Categorias da varivel resposta
Subpopulaes 1 2 r Totais
1 n
11
n
12
n
1r
n
1+
2 n
21
n
22
n
2r
n
2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
s n
s1
n
s2
n
sr
n
s+
Totais n
+1
n
+2
n
+r
n
Subpopulaes = combinaes das categorias de X
1
, . . . , X
k
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Alguns Delineamentos Amostrais
e
Modelos Associados
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Delineamentos Amostrais
Um estudo pode ser planejado de diferentes formas.
A escolha por uma delas depende, dentre outros:
Objetivos do estudo
Custos e tempo envolvidos para obteno dos resultados
Disponibilidade de uma equipe para conduo do estudo
Disponibilidade das unidades amostrais
Viabilidade de acompanhamento das unidades amostrais
A seguir, so apresentados alguns delineamentos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Estudos de Coorte
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Assim, para esses estudos tem-se:
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) n
1+
i = 2 (E) n
2+
Totais
Desse modo, a probabilidade de um indivduo pertencer a
categoria j de Y, estando na categoria i de X, dada por:
p
(i)j
= P(Y = j | X = i)
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
1
i = 2 (E) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
p
(1)1
incidncia entre os expostos
p
(2)1
incidncia entre os no-expostos
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Sendo assim:
_
N
11
Bin(n
1+
, p
(1)1
)
N
21
Bin(n
2+
, p
(2)1
)
Modelo probabilstico: produto de binomias
P(N
1
= n
1
, N
2
= n
2
) =
2

i=1
P(N
i1
= n
i1
, N
i2
= n
i2
)
=
2

i=1
_
(n
i+
)!
2

j=1
(p
(i)j
)
n
ij
(n
ij
)!
_
com (N
i
= n
i
) = (N
i1
= n
i1
, N
i2
= n
i2
), i = 1, 2.
Probabilidades p
(i)j
estimadas por:
p
(i)j
=
n
ij
n
i+
i, j = 1, 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
1
i = 2 (E) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
_
H
0
: p
(1)1
= p
(2)1
(= p
+1
) hiptese de homogeneidade
H
A
: p
(1)1
= p
(2)1
Karl Pearson props
Q
p
=
2

i=1
2

j=1
(n
ij
e
ij
)
2
e
ij

2
(1)
_
_
_
Sob H
0
E(N
i1
) = n
i+
(p
+1
) e E(N
i2
) = n
i+
(p
+2
)
Estimativas e
ij
=
(n
i+
)(n
+j
)
n
i, j = 1, 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Duas outras estatsticas comumente utilizadas so:
1
Estatstica da Razo de Verossimilhanas
Q
L
=2
2

i=1
2

j=1
n
ij
log
_
e
ij
n
ij
_

2
(1)
2
Estatstica de Neyman
Q
N
=
2

i=1
2

j=1
(n
ij
e
ij
)
2
n
ij

2
(1)
Em certas situaes Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
= (1p
(1)1
) 1
i = 2 (E) p
(2)1
p
(2)2
= (1p
(2)1
) 1
Totais p
+1
p
+2
1
Note que H
0
: p
(1)1
= p
(2)1
pode tambm ser expressa por:
a) H
0
: p
(1)1
p
(2)1
. .
= 0
diferena entre incidncias risco atribuvel
b) H
0
:
p
(1)1
p
(2)1
..
= 1
razo de incidncias risco relativo
c) H
0
:
p
(1)1
/(1p
(1)1
)
p
(2)1
/(1p
(2)1
)
=
p
(1)1
/p
(1)2
p
(2)1
/p
(2)2
=
p
(1)1
p
(2)2
p
(1)2
p
(2)1
. .
= 1
razo dos produtos cruzados odds ratio ou razo de chances
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
odds ou chance =
probabilidade evento ocorrer
probabilidade evento no ocorrer
Status de Evento de Interesse
Exposio Sim (D) No (D) Totais
E 80 20 100
E 25 75 100
Totais 105 95 200
odds
E
=
p
(1)1
1p
(1)1


odds
E
= 0,8/0,2 = 4/1
odds
E
=
p
(2)1
1p
(2)1


odds
E
= 0,25/0,75 = 1/3
odds ratio
E|E
=
odds
E
odds
E


OR = 12
risco relativo
E|E
=
p
(1)1
p
(2)1


RR = 0,8/0,25 = 3,2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
1
i = 2 (E) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
OR
E|E
=
odds
E
odds
E
=
p
(1)1
/p
(1)2
p
(2)1
/p
(2)2
=
p
(1)1
p
(2)2
p
(1)2
p
(2)1

OR
E|E
=
n
11
n
22
n
12
n
21
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Se RR = 1, a probabilidade de resposta positiva no
difere entre os indivduos expostos e no-expostos.
Se RR > 1, a probabilidade de resposta positiva
maior entre os indivduos expostos.
Se RR < 1, a probabilidade de resposta positiva
maior entre os indivduos no-expostos.
Se OR = 1, a chance de resposta positiva no difere
entre os indivduos expostos e no-expostos.
Se OR > 1, a chance de resposta positiva maior
entre os indivduos expostos.
Se OR < 1, a chance de resposta positiva maior
entre os indivduos no-expostos.
Chance e probabilidade no tm o mesmo signicado!
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estimao por Intervalo - Medidas de Associao
Risco Relativo IC = exp
_

f z
/2
_

V(f )
_
_

_
f = ln(RR) = ln(p
(1)1
) ln(p
(2)1
)
V(f ) =
(1p
(1)1
)
(n
1+
)(p
(1)1
)
+
(1p
(2)1
)
(n
2+
)(p
(2)1
)
z
/2
= 100(1 /2) percentil da N(0,1)
Odds Ratio IC = exp
_

f z
/2
_

V(f )
_
_

_
f = ln(OR)
V(f ) =
_
1
n
11
+
1
n
12
+
1
n
21
+
1
n
22
_
z
/2
= 100(1 /2) percentil da N(0,1)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
Obs: instalar package epiR http://www.r-project.org/
> require(epiR)
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count",
conf.level=0.95, units=100, verbose=FALSE)
Disease + Disease - Total Inc risk Odds
Exposed + 80 20 100 80.0 4.000
Exposed - 25 75 100 25.0 0.333
Total 105 95 200 52.5 1.105
Point estimates and 95% CIs:
---------------------------------------------------------
Inc risk ratio 3.2 (2.25, 4.56)
Odds ratio 12 (6.16, 23.38)
---------------------------------------------------------
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count",
conf.level=0.95, units=100, verbose=TRUE)
$RR
est se lower upper
1 3.2 1.197550 2.247488 4.556197
$OR
est se lower upper
1 12 1.405430 6.158583 23.38200
$chisq
test.statistic df p.value
1 60.65163 1 6.77236e-15
-------------------------------------
# Testes de Pearson e Fisher
> dados<-matrix(c(80,25,20,75),nc=2)
> chisq.test(dados,correct=F)
> fisher.test(dados)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Ensaio Clnico Aleatorizado
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
X Y = Desfecho
Grupos j = 1 (Com) j = 2 (Sem) Totais
i = 1 (Tratado) p
(1)1
p
(1)2
1
i = 2 (Controle) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
Delineamento Similar ao dos Estudos de Coorte

Hipteses, Testes e Medidas so similares com as devidas


interpretaes no contexto do ensaio clnico realizado.
Estudos de Coorte Observacionais
Ensaios Clnicos Experimentais
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Estudos Caso-Controle
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
Nesses estudos, amostras de tamanhos n
+1
e n
+2
so
obtidas das subpopulaes de casos e controles.
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E)
i = 2 (E)
Totais n
+1
n
+2
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
_
N
11
Bin(n
+1
, p
1(1)
)
N
12
Bin(n
+2
, p
1(2)
)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
Modelo probabilstico: produto de binomiais tal que:
P(N
1
= n
1
, N
2
= n
2
) =
2

j=1
_
(n
+j
)!
2

i=1
(p
i(j)
)
n
ij
(n
ij
)!
_
com (N
j
= n
j
) = (N
1j
= n
1j
, N
2j
= n
2j
) e

2
i=1
p
i(j)
= 1, j = 1, 2.
Probabilidades p
i(j)
, i, j = 1, 2, estimadas por:
p
i(j)
=
n
ij
n
+j
Se a suposio de independncia entre casos e controles
no for razovel metodologias mais apropriadas.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
_
H
0
: p
1(1)
= p
1(2)
(= p
1+
) hiptese de homogeneidade
H
A
: p
1(1)
= p
1(2)
Q
p
=
2

i=1
2

j=1
(n
ij
e
ij
)
2
e
ij

2
(1)
_
_
_
Sob H
0
E(N
1j
) = n
+j
(p
1+
) e E(N
2j
) = n
+j
(p
2+
)
Estimativas e
ij
=
(n
i+
)(n
+j
)
n
i, j = 1, 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
Note que H
0
: p
1(1)
= p
1(2)
pode tambm ser expressa por:
H
0
:
p
1(1)
/(1p
1(1)
)
p
1(2)
/(1p
1(2)
)
=
p
1(1)
/p
2(1)
p
1(2)
/p
2(2)
=
p
1(1)
p
2(2)
p
2(1)
p
1(2)
. .
= 1
odds ratio ou razo de chances ou dos produtos cruzados
RR = P(D|E)/P(D|

E) no se aplica a esses estudos.


Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
odds ou chance =
probabilidade exposio ao fator
probabilidade no-exposio ao fator
Status de Grupos
Exposio Casos Controles Totais
E 60 20 80
E 40 80 120
Totais 100 100 200
odds
C
=
p
1(1)
1p
1(1)


odds
C
= 0,6/0,4 = 3/2
odds
C
=
p
1(2)
1p
1(2)


odds
E
= 0,20/0,80 = 1/4
odds ratio
C|C
=
odds
C
odds
C


OR = 6
Nesse exemplo, a chance de exposio ao fator sob estudo
foi maior entre os casos do que entre os controles.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
OR
C|C
=
odds
C
odds
C
=
p
1(1)
/p
2(1)
p
1(2)
/p
2(2)
=
p
1(1)
p
2(2)
p
1(2)
p
2(1)

OR
C|C
=
n
11
n
22
n
12
n
21
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> require(epiR)
> epi.2by2(a=60, b=20, c=40, d=80, method ="case.control",
conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0 ?
Exposed - 40 80 120 33.3 0.5 ?
Total 100 100 200 50.0 1.0 ?
> epi.2by2(a=60, b=40, c=20, d=80, method ="case.control",
conf.level = 0.95, units=100, verbose = FALSE)
Exposed + Exposed - Total Prevalence Odds
Disease + 60 40 100 60 1.500
Disease - 20 80 100 20 0.250
Total 80 120 200 40 0.667
Point estimates and 95% CIs:
---------------------------------------------------------
Odds ratio 6 (3.19, 11.29)
---------------------------------------------------------
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Relao entre odds ratio e risco relativo
Doenas raras Estudos de Coorte so inviveis.
Nesses casos Estudos Caso-Controle so usuais.
Resultado: Se doena rara RR OR
De fato,
D = doena, D = no doena, P(D) = 1P(D)
E = exposio e E = no-exposio
RR =
p
(1)1
p
(2)1
=
P(D|E)
P(D|E)
=
P(D)P(E|D)/[P(D)P(E|D) +P(D)P(E|D)]
P(D)P(E|D)/[P(D)P(E|D) +P(D)P(E|D)]
=
P(E|D){P(E|D) +P(D)[P(E|D) P(E|D)]}
P(E|D){P(E|D) +P(D)[P(E|D) P(E|D)]}
Se doena rara, P(D) 0
. .
RR
P(E|D)P(E|D)
P(E|D)P(E|D)
=
p
1(1)
p
2(2)
p
2(1)
p
1(2)
= OR
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Estudos Transversais ou Cross-Sectional
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Embora ambas as variveis sejam respostas, uma delas
usualmente classicada como varivel explicativa.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
i = 2
Totais n
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p
11
p
12
i = 2 p
21
p
22
Totais 1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p
11
p
12
i = 2 p
21
p
22
Totais 1
Categorias de X
i = 1 i = 2
Categorias de Y j = 1 j = 2 j = 1 j = 2 Total
p
11
p
12
p
21
p
22
1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Modelo probabilstico: Multinomial tal que:
P(N = n) = P(N
11
= n
11
, N
12
= n
12
, N
21
= n
21
, N
22
= n
22
)
= n!
2

i=1
2

j=1
(p
ij
)
n
ij
(n
ij
)!
em que n
ij
0,
2

i,j=1
n
ij
= n e
2

i,j=1
p
ij
= 1.
Probabilidades p
ij
(i, j = 1, 2) estimadas por:
p
ij
=
n
ij
n
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p
11
p
12
p
1+
i = 2 p
21
p
22
p
2+
Totais p
+1
p
+2
1
_
H
0
: p
ij
= (p
i+
)(p
+j
), para i, j = 1, 2
H
A
: p
ij
= (p
i+
)(p
+j
), para pelo menos um par (i, j),
H
0
usualmente denominada hiptese de independncia,
pois a ausncia de associao, em termos probabilsticos,
signica independncia mtua.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Considerando o modelo Multinomial a tais estudos

Frequncias esperadas: E(N


ij
) = n(p
ij
), i, j = 1, 2.
Desse modo, sob H
0
E(N
ij
) = n(p
i+
)(p
+j
), i, j = 1, 2.
Estimativas:
e
ij
= n
_
n
i+
n
__
n
+j
n
_
=
(n
i+
)(n
+j
)
n
i, j = 1, 2
Para testar H
0
Estatsticas de teste Q
P
, Q
L
e Q
N
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross Sectional
Das denies de risco relativo e odds ratio, pode-se notar
que ambas no so apropriadas aos estudos transversais.
Em epidemiologia, contudo, a prevalncia de doenas
uma medida de interesse nesses estudos.
prevalncia = proporo de indivduos que ESTO doentes em um
determinado tempo especco (poca da realizao do estudo).
incidncia = proporo de indivduos que TORNARAM-SE doentes no
decorrer de um perodo de tempo especco de acompanhamento.
Assim, se condicionarmos aos totais n
i+
e se for dada a
devida ateno s interpretaes, comum o uso da OR
e da razo de prevalncias (RP) nesses estudos.

OR =
n
11
n
22
n
12
n
21
e

RP =
n
11
/n
1+
n
21
/n
2+
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=60, b=20, c=40, d=80, method="cross.sectional",
conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0
Exposed - 40 80 120 33.3 0.5
Total 100 100 200 50.0 1.0
Point estimates and 95% CIs:
-----------------------------------------------------------
Prevalence ratio 2.25 (1.70, 2.99)
Odds ratio 6 (3.19, 11.29)
-----------------------------------------------------------
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Durante o planejamento e execuo dos estudos, nem
sempre possvel estabelecer o total de participantes.
Tempo de durao do estudo , ento, pr-estabelecido.
Sendo assim, N
ij
, i, j = 1,2, so contagens aleatrias, com
N
ij
, e tambm N, conhecidas somente aps o trmino da
coleta dos dados.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
i = 2
Totais
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Insetos coletados em armadilhas e sexados.
Sexo
Armadilha Machos Fmeas Totais
Alaranjada 246 17 263
Amarela 458 32 490
Totais 704 49 753
Fonte: Silveira Neto et al. (1976), Demtrio (2001)
Assumindo que certas suposies so vlidas/razoveis.
em um determinado intervalo de tempo, o n
o
de insetos independente do n
o
de insetos em qualquer outro intervalo disjunto,
a distribuio do nmero de insetos depende somente do comprimento do
intervalo de tempo considerado e no do seu instante inicial,
a probabilidade de um inseto passar em um intervalo de tempo sucientemente
pequeno proporcional ao comprimento do intervalo,
a probabilidade de que dois ou mais insetos passem simultaneamente em um
intervalo de tempo sucientemente pequeno desprezvel.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Ento, usual assumir
N
ij
Poisson (
ij
= t
ij
), i, j = 1, 2

ij
a taxa mdia por unidade de tempo
t a durao do experimento.
Considerando N
ij
independentes, i, j = 1, 2
Modelo Produto de Poisson independentes
P(N = n) =
2

i=1
2

j=1
P(N
ij
= n
ij
) =
2

i=1
2

j=1
e

ij
(
ij
)
n
ij
(n
ij
)!
,
ij
> 0
com (N = n) = (N
11
= n
11
, N
12
= n
12
, N
21
= n
21
, N
22
= n
22
).
Estimativas

ij
= n
ij
, i, j = 1, 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
11

12

1+
i = 2
21

22

2+
Totais
+1

+2

Sob este modelo, ausncia de associao entre X e Y
_
H
0
:

1j

1+
=

2j

2+
_
=

+j

_
, para j = 1,2.
H
A
:

1j

1+
=

2j

2+
_
H
0
:
ij
=
(
i+
) (
+j
)

, para i, j = 1,2.
H
A
:
ij
=
(
i+
) (
+j
)

, para ao menos um par ij.


Hiptese H
0
hiptese de multiplicatividade
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Para testar tais hipteses
Estatsticas Q
P
, Q
L
e Q
N
Como N
ij
Poisson(
ij
), i, j = 1, 2, segue que:
E(N
ij
) =
ij
Assim, sob H
0
, E(N
ij
) =
(
i+
)(
+j
)

Logo, e
ij
=
(n
i+
)(n
+j
)
n
, pois

i+
= n
i+
,

+j
= n
+j
e

= n.
Obs: estudos dessa natureza so frequentemente
analisados assumindo-se o modelo Multinomial.
Justicativa: a distribuio de probabilidades do vetor
(N
11
, . . . , N
22
), N
ij
Poisson independentes, condicional
soma N =

i,j
N
ij
, segue distribuio Multinomial (N, p),
com p = (p
11
, . . . , p
22
), em que p
ij
=

ij

i,j

ij
, para i, j = 1, 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Consideraes sobre os Delineamentos Amostrais
Os delineamentos amostrais apresentados esto dentre
os mais usuais. Como visto, seus respectivos modelos
probabilsticos so obtidos com base nos esquemas
amostrais adotados.
Naturalmente, em estudos com outros esquemas, haver
a necessidade de se considerar outros modelos.
As concluses estaro, contudo, condicionadas validade
das suposies distribucionais.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Alguns Estudos Descritos na Literatura
1
Framingham Heart Study
fatores associados doenas cardiovasculares.
2
Nurses Health Study
consequncias do uso de contraceptivos orais a longo prazo.
3
Life Span Study
expectativa de vida - efeito radiao bomba atmica Japo.
4
Pelotas Birth Cohort Study
sade infantil e materna.
5
Baependi Heart Study
fatores associados doenas cardiovasculares - populao miscigenada.
6
Medicine, Angioplasty, or Surgery Study (MASS-II).
comparao de tratamentos - pacientes c/ doena coronria multiarterial.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Extenses
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r ( > 2)
1. Variveis Y e X nominais
Estabelecidas as hipteses apropriadas:
Se n
i+
xos hiptese de homogeneidade
Se n xo hiptese de independncia
Se totais aleatrios hiptese de multiplicatividade
Q
P
=
s

i=1
r

j=1
(n
ij
e
ij
)
2
e
ij

2
(s1)(r1)
com e
ij
=
(n
i+
)(n
+j
)
n
, i = 1, . . . , s e j = 1, . . . , r.
Alternativamente Estatsticas Q
L
ou Q
N
.
Em algumas situaes Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplo: X e Y nominais e n xo (s e r > 2
Estudo transversal para avaliar a presena de associao
entre partido poltico e local de moradia.
Local de Moradia
Partido Poltico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 836 548 2570
Fonte: Stokes et al. (2000)
Modelo associado Multinomial
_
H
0
: p
ij
= (p
i+
) (p
+j
), para i = 1, 2, 3 e j = 1, 2, 3, 4
H
A
: p
ij
= (p
i+
) (p
+j
), para pelo menos um par (i, j).
Q
P
= 273,92 (p < 0,0001, g.l = 6) h evidncias de
associao entre partido poltico e local de moradia.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> dados<-matrix(c(221,200,208,160,291,106,360,160,316,
140,311,97),nc=4)
> dados
[,1] [,2] [,3] [,4]
[1,] 221 160 360 140
[2,] 200 291 160 311
[3,] 208 106 316 97
> chisq.test(dados,correct=F)
Pearsons Chi-squared test
data: dados
X-squared = 273.9188, df = 6, p-value < 2.2e-16
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r
2. Varivel Y ordinal e X nominal com totais n
i+
xos
Avaliao de tratamentos em pacientes com artrite reumatide.
Melhora do Paciente
Tratamentos Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Fonte: Stokes et al. (2000)
Nesses casos, a estatstica Q
P
pode ser utilizada para
testar H
0
: p
1
= p
2
= ... = p
r
(hptese de homogeneidade)
Modelo associado Produto de multinomiais.
Contudo, a natureza ordinal da varivel resposta no
estaria sendo levada em considerao.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Varivel Y ordinal e X nominal com totais n
i+
xos
Alternativa atribuir escores a = (a
1
, a
2
, . . . , a
r
) para as
categorias de Y e denir um escore mdio F
i
para cada
subpopulao tal que:
F
i
=
r

j=1
a
j
(p
(i)j
) i = 1, . . . , s.
Se s = 2, como no exemplo da artrite H
0
: F
1
= F
2
.
f
i
=

r
j=1
a
j
(p
(i)j
) =

r
j=1
a
j
_
n
ij
n
i+
_
, i = 1, 2
E(f
1
|H
0
) =

r
j=1
a
j
_
E(N
1j
)
n
1+
_
=

r
j=1
a
j
_
n
+j
n
_
=
a
V(f
1
|H
0
) =
(n n
1+
)
(n
1+
)(n1)
r

j=1
(a
j

a
)
2
_
n
+j
n
_
. .
=
(n n
1+
)
(n
1+
)(n1)

a
.

a
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Varivel Y ordinal e X nominal com totais n
i+
xos
Desse modo, para testar H
0
: F
1
= F
2
foi proposto:
Q
S
=
(f
1

a
)
2
(n n
1+
)
(n
1+
)(n1)

a
=
(n1)
(nn
1+
)
(n
1+
)(f
1

a
)
2
v
a
. .

2
1
estatstica escore mdio
Se s > 2 H
0
: F
1
= F
2
= . . . = F
s
.
Q
S
=
(n1)
n

s
i=1
(n
i+
)(f
i

a
)
2
v
a
. .

2
(s1)
estatstica escore mdio
Se H
0
for rejeitada comparaes dois a dois.

paralelo com anlise de varincia um-fator


Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> dados<-matrix(c(13,29,7,7,21,7),nc=3)
> escore<-c(0,1,2)
> fb1<-(sum(dados[1,]
*
escore))/sum(dados[1,])
> fb2<-(sum(dados[2,]
*
escore))/sum(dados[2,])
> cbind(fb1,fb2)
fb1 fb2
[1,] 1.195122 0.4883721
> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/
sum(dados)
> mua<-sum(escore
*
esp); va<-sum((escore-mua)^2
*
esp)
> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])
*
(sum(dados)-1)))
*
va
> QS = ((fb1-mua)^2)/vbf1; gl<-nrow(dados)-1
> p<-1-pchisq(QS,gl)
> cbind(QS, p)
QS p
[1,] 12.85902 0.0003358568
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Varivel Y ordinal e X nominal com totais n
i+
xos
Ensaio clnico aleatorizado realizado para avaliar um novo
medicamento utilizado para aliviar dores de cabea.
Horas de alvio
Medicamentos 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padro 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Fonte: Stokes et al. (2000)
Modelo associado Produto de Multinomiais.
Devido a natureza discreta das categorias de Y
Pode-se utilizar a estatstica escore mdio
H
0
: F
1
= F
2
= F
3
.
Q
S
= 13, 7346 (p = 0,001, g.l. = 2) h evidncias de que
pelo menos dois medicamentos diferem entre si.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Varivel Y ordinal e X nominal com totais n
i+
xos
Mas quais medicamentos diferem entre si?
Comparaes dois a dois, controlando erro do tipo I
(por ex., pelo mtodo de Bonferroni).
Estimativas: f
1
= 1, 36, f
2
= 2, 64 e f
3
= 2, 41
Considerando = 0, 05 0,05/3 = 0,017.
Placebo vs padro: Q
S
= 11, 66 (p = 0,0006, g.l. = 1)
Placebo vs novo: Q
S
= 8, 60 (p = 0,0034, g.l. = 1)
Padro vs novo: Q
S
= 0, 46 (p = 0,4950, g.l. = 1).
H evidncias de que placebo = novo e padro.
Note que existem frequncias esperadas < 5
inviabiliza uso de Q
P
, mas no o de Q
S
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r
3.1 Variveis Y e X ordinais e total n xo
Estudo transversal realizado para investigar associao
entre uso de tabaco e a conscincia do risco em us-lo.
Tabaco
Conscincia do risco No usa Usa Totais
Mnima 70 33 103
Moderada 202 40 242
Substancial 218 11 229
Totais 490 84 574
Fonte: Stokes et al. (2000)
Modelo associado: multinomial.
_
H
0
: p
ij
= (p
i+
) (p
+j
), para i = 1, 2, 3 e j = 1, 2
H
A
: p
ij
= (p
i+
) (p
+j
), para pelo menos um par (i, j).
Estatsticas Q
P
, Q
L
ou Q
N
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Variveis Y e X ordinais e total n xo
Porm, a varivel uso de tabaco dicotmica, enquanto
conscincia do risco em us-lo ordinal pode-se
pensar em considerar escores para ambas.
Por exemplo, c = (c
1
, c
2
, c
3
) = (1, 2, 3) para as categorias de
conscincia do risco de uso do tabaco e a = (a
1
, a
2
) = (0, 1)
para as categorias no usa e usa tabaco.
Desse modo, pode-se denir o escore mdio
F =
3

i=1
2

j=1
c
i
a
j
p
ij
Estimativa f =
3

i=1
2

j=1
c
i
a
j
p
ij
=
3

i=1
2

j=1
c
i
a
j
n
ij
n
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Variveis Y e X ordinais e total n xo
Sob H
0
segue que:
E(f ) =
3

i=1
2

j=1
c
i
a
j
n
E(N
ij
) =
3

i=1
c
i
_
n
i+
n
_ 2

j=1
a
j
_
n
+j
n
_
=
c

a
V(f ) =
_
3

i=1
(c
i

c
)
2
_
n
i+
n
_ 2

j=1
(a
j

a
)
2
(n
+j
/n)
(n1)
_
.
Para amostras grandes f Normal.
Q
CS
=
(f
c

a
)
2
V(f )
= . . . = (n 1)(r
ac
)
2
. .

2
1
estatstica da correlao
com r
ac
o coeciente de correlao de Pearson.
Dados de tabaco Q
CS
= 42, 94 (p < 0,0001)
H associao entre a conscincia do risco e o uso de tabaco.
Uso tabaco medida que conscincia do risco (r
ac
=0, 274).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> x<-c(rep(1,103),rep(2,242),rep(3,229))
> y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40),
rep(0,218),rep(1,11))
> rac<-cor(y,x)
> rac
[1] -0.2737401
> n<-length(x)
> QCS<-(n-1)
*
rac^2
> p<-1-pchisq(QCS,1)
> cbind(QCS,p)
QCS p
[1,] 42.93697 5.653222e-11
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Outra situao em que Y e X ordinais
3.2 Variveis Y e X ordinais e totais n
i+
xos
Inuncia de aditivos na gua sobre a limpeza das roupas.
Limpeza
Tratamentos Baixa Mdia Alta Totais
gua 27 14 5 46
gua + dose nica trat padro 10 17 26 53
gua + dose dupla trat padro 5 12 50 67
Totais 42 43 81 166
Fonte: Stokes et al. (2000)
Assumindo: a = (1, 2, 3) categorias de limpeza das roupas
c = (1, 2, 3) categorias de tratamento.
Q
CS
= 50,6 (p < 0,0001, g.l.=1), com r
ac
= 0,554.
H evidencias de associao entre X e Y.
Limpeza com o da dosagem pois r
ac
> 0.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Variveis Y e X ordinais e totais n
i+
xos)
Em contrapartida, como os n
i+
so xos
Q
S
= 52,77 (p < 0, 00001, g.l.= 2).
Comparaes dos tratamentos, dois a dois:
_
_
_
H
0
:

F
1
=

F
2
Q
S
= 21, 71 (p < 0, 0001, g.l. = 1)
H
0
:

F
1
=

F
3
Q
S
= 49, 06 (p < 0, 0001, g.l. = 1)
H
0
:

F
2
=

F
3
Q
S
= 8, 02 (p = 0, 0046, g.l. = 1).
Para = 0, 05 0,05/3 = 0,017.
Rejeita-se as trs hipteses nulas testadas.
Como

f
1
= 1,52 <

f
2
= 2,30 <

f
3
= 2,67
Limpeza das roupas com o da dosagem do aditivo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r
Assim, se as variveis Y e X forem ordinais e escores
puderem ser assumidos para as categorias de ambas

Se total n xo estatstica da correlao


Q
CS
= (n1)(r
ac
)
2

2
1
r
ac
= coeciente de correlao de Pearson.
Se n
i+
xos estatsticas escore e/ou da correlao
Q
S
e/ou Q
CS
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Anlise Estraticada
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Variveis de Confundimento ou Estraticadoras
Nos estudos em geral ateno deve ser dada s
variveis de confundimento ou estraticadoras.
Tais variveis podem confundir uma aparente relao causal.
Sendo assim, necessrio controlar ou minimizar o efeito das
mesmas para obteno de concluses mais conveis.
Anlises que consideram o efeito dessas varives so
usualmente denominadas anlises estraticadas.
Isto porque as anlises so realizadas com os dados
estraticados pelas categorias dessas variveis.
A estraticao pode ser resultado do delineamento adotado
ou sua necessidade pode aparecer aps a coleta dos dados.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplo de Varivel de Confundimento
Cncer de Pulmo
Fumo Passivo Fumo Voluntrio Sim No Totais
Sim Sim
Sim No
Totais
No Sim
No No
Totais
varivel resposta
_
Cncer de Pulmo
varivel explicativa
_
Fumo Voluntrio
varivel confundimento
_
Fumo Passivo
Obs: caso a inuncia do confundimento entre fumo voluntrio
e fumo passivo no seja considerada, associao entre tabaco
e cncer de pulmo pode at mesmo no ser detectada, ou sua
intensidade no ser bem avaliada.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplo de Varivel Estraticadora
Efeito
Centros Medicamentos Favorvel No favorvel Totais
1 Novo 29 16 45
1 Padro 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padro 24 21 45
Totais 61 29 90
varivel resposta
_
Efeito
varivel explicativa
_
Medicamentos
varivel estraticadora
_
Centros Mdicos
H diferenas entre os centros e entre os pacientes atendidos neles
razovel que seu efeito seja controlado na anlise.
Analogia com a anlise de delineamentos experimentais centros
mdicos tm o sentido de blocos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Mantel-Haenszel no Ensaio Clnico Multicentros
Em tais situaes Estatstica Mantel-Haenszel (1959).
No estudo multicentros tem-se:
conjunto de q = 2 tabelas de cont. 2 2 (h = 1, . . . , q)
Resposta
Tratamentos j = 1 j = 2 Totais
i = 1 n
h11
n
h12
n
h1+
i = 2 n
h21
n
h22
n
h2+
Totais n
h+1
n
h+2
n
h
totais marginais-linha n
hi+
xos nas q = 2 tabelas.
interesse em testar H
0
: p
h(1)1
= p
h(2)1
, h = 1, . . . , q
condicional a H
0
, N
h11
Hipergeomtrica tal que
e
h11
= E(N
h11
| n
h
, n
h1+
, n
h+1
) =
(n
h1+
)(n
h+1
)
n
h
v
h11
= V(N
h11
| n
h
, n
h1+
, n
h+1
) =
(n
h1+
)(n
h2+
)(n
h+1
)(n
h+2
)
(n
h
)
2
(n
h
1)
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estatstica de Mantel-Haenszel
Sob H
0
e para

q
h=1
n
h
sucientemente grande
Q
MH
=
_
q

h=1
n
h11

h=1
e
h11
_
2
q

h=1
v
h11

2
(1)
Q
MH
ecaz para avaliar associaes se a maioria das
diferenas (p
h(1)1
p
h(2)1
) apresentar o mesmo sinal.
Havendo homogeneidade das OR nas q tabelas 2 2

OR
MH
=
q

h=1
n
h11
n
h22
n
h
q

h=1
n
h12
n
h21
n
h
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resultados - Ensaio Clnico Multicentros
Q
MH
= 18, 41 (p < 0,0001), indicando associao entre as
variveis tratamento e resposta do paciente, controlando
pela varivel estraticadora centro mdico.
Tambm, o medicamento novo apresenta proporo de
resposta favorvel maior do que a do placebo, uma vez
que p
h(1)1
>p
h(2)1
, para h = 1, 2.

OR
1
= 4, 01 e

OR
2
= 4, 04 (homogneas)

OR
MH
= 4, 028 a odds de melhora dos
pacientes que receberam o novo tratamento
foi 4 vezes a dos que receberam placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))
> mantelhaen.test(tab, correct=F)
Mantel-Haenszel test without continuity correction
data: tab
X-squared = 18.4106, df = 1, p-value = 1.781e-05
alternative hypothesis: true common odds ratio
is not equal to 1
95 percent confidence interval:
2.105716 7.708353
sample estimates:
common odds ratio
4.028846
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Extenses da Estatstica de Mantel-Haenszel
Extenses na presena de uma varivel estraticadora
Y ordinal e X nominal com totais n
i+
xos Q
SMH
Y e X ordinais com totais n
i+
xos Q
SMH
ou Q
CSMH
Y e X ordinais com total n xo Q
CSMH
Q
SMH
Estatstica escore mdio estendida de M-H
Q
SMH
Estatstica da correlao estendida de M-H
Para mais detalhes Stokes et al. (2000).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelos para Dados com
Resposta Dicotmica
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Dados com Resposta Binria ou Dicotmica
Para estudar a existncia de associao entre um con-
junto de variveis X = (X
1
, X
2
, ..., X
k
) e uma resposta
dicotmica Y modelos de regresso so usuais.
X
1
X
2
... X
k
. .
Y
..
O modelo de regresso logstica um dos mais populares
nestas situaes.
Quanto s variveis X, estas podem ser um
misto de variveis categricas e contnuas.
As categricas so incorporadas aos modelos
por meio de variveis dummy.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
Para introduzir o modelo de regresso logstica, considere
os dados de um estudo sobre doena coronariana.
Doena coronria
Idade (X = x) Sim (Y = 1) No (Y = 0) Totais P(Y = 1 | x)
20-29 1 9 10 0,10
30-34 2 13 15 0,13
35-39 3 9 12 0,25
40-44 5 10 15 0,33
45-49 6 7 13 0,46
50-54 5 3 8 0,63
55-59 13 4 17 0,76
60-69 8 2 10 0,80
Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
E(Y | x)
. .
= 1 P(Y = 1 | x) + 0 P(Y = 0 | x) = P(Y = 1 | x)
. .
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
30 40 50 60
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
0
.
7
0
.
8
Idade(em anos)
E
[
Y
|
x
]
Note que medida que a x = idade cresce, E(Y | x) tambm cresce.
A mudana na E(Y | x) por unidade de mudana em x se torna
progressivamente menor quando E(Y | x) prxima de 0 ou 1.
Relao entre idade e E(Y | x) no , portanto, linear, mas sim
sigmoidal (forma de S).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
Similar regresso linear interesse em modelar E(Y | x).
Necessrio, contudo, considerar que:
E(Y | x) pertence ao intervalo [0, 1].
Relao entre X e E(Y | x) tem a forma de S.

Sugere distribuio acumulada de uma v.a.

Distribuio logstica se tornou popular por:


ser extremamente exvel e fcil de ser utilizada.
conduzir a interpretaes simples.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
E(Y | x) = P(Y = 1 | x)
. .
= (x) =
exp
_

0
+
p

k=1

k
x
k
_
1 +exp
_

0
+
p

k=1

k
x
k
_
1 (x) =
1
1 +exp
_

0
+
p

k=1

k
x
k
_
.
sendo x = (x
1
, x
2
, . . . , x
p
) = valores observados das variveis X,

0
= constante e
k
(k = 1, . . . , p) os p parmetros de regresso.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
(x) =
exp{

x}
1+exp{

x}
e 1(x) =
1
1+exp{

x}
ln
_
(x)
1(x)
_
=
0
+
p

k=1

k
x
k
=

x.
Esta transformao denominada logito.
A razo entre (x) e 1(x) denio de odds

odds =
(x)
1(x)
= exp
_

x
_
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estimao do vetor e das varincias-covarincias de

Estimao de Mtodo da Mxima Verossimilhana


L() =
n

=1
P(Y = y

| x

) =
n

=1
_
(x

)
_
y

_
1(x

)
_
1y

= 1, se indivduo l apresentou a resposta e y

= 0, c.c.
Valores de que maximizam lnL()

.
Distribuio assinttica de

Normal
Estimao da matriz de varincias-covarincias de

() = [I()]
1
= matriz de varincias-covarincias
I() = matriz contendo o negativo das derivadas
parciais de 2
a
ordem de lnL().
Estimadores so obtidos por avaliar () em

.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Signicncia dos Efeitos das Variveis
Testar hipteses relativas aos parmetros
k
(k = 1, . . . , p)
1. Teste da Razo de Verossimilhanas (TRV)
TRV =2ln
_
L
S
L
C
_
= 2ln(L
C
) 2ln(L
S
)
. .

2
(q)
diferena de deviances
L
S
: funo de verossimilhana associada ao modelo sem a(s)
varivel(is) sob investigao
L
C
: funo de verossimilhana associada ao modelo com a(s)
varivel(is) sob investigao
q = diferena de parmetros entre os dois modelos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Anlise de Deviances e Seleo de Modelos
Considere que modelos encaixados sejam ajustados aos
dados de um estudo em que Y binria e X
1
e X
2
so
categricas com duas categorias cada.
Tabela de Anlise de Deviances (ANODEV).
Modelos g.l. Deviances TRV = g.l.
Nulo gl
N
D
N
X
1
gl
N
1 D
1
D
N
D
1
1
X
2
| X
1
gl
N
2 D
2
D
1
D
2
1
X
1
X
2
| X
1
, X
2
gl
N
3 D
3
D
2
D
3
1
gl
N
= g.l. do modelo nulo = nmero de subpopulaes 1
Obs: na presena de dados faltantes, o tamanho amostral
nos modelos sequenciais depender das variveis X
k
que
os compem TRV apresentar problemas.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Signicncia dos Efeitos das Variveis
2. Teste de Wald (Wald, 1943)
i) Para testar hipteses relativas a um parmetro
H
0
:
k
= 0, k = 1, . . . , p
W =
(

j
)
2

Var(

j
)

2
1
ii) Para hipteses relativas a q 2 parmetros
H
0
:

= 0 (

= vetor q1)
W = (

)]
1
(

)
2
q
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Diagnstico do Modelo Ajustado
Sob a hiptese H
0
: modelo ajustado satisfatrio, faz-se
uso de estatisticas que resumem a concordncia entre os
valores observados e os preditos pelo modelo.
Q
P
=

i,j
_
n
ij
e
ij
_
2
e
ij

2
m
Q
L
= 2

i,j
n
ij
ln
_
n
ij
e
ij
_

2
m
e
ij
= n
i+

(x
i
), j = 1 e e
ij
= n
i+
(1

(x
i
)), j = 2.
n
i+
= sujeitos na i-sima subpopulao da tabela de dados s 2.

(x
i
) = probabilidade P(Y = 1 | x
i
) predita pelo modelo ajustado.
e
ij
= frequncias esperadas sob o modelo ajustado.
m = n
o
subpopulaes n
o
parmetros do modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Diagnstico do Modelo Ajustado
Na presena de variveis contnuas frequncias muito
pequenas para a grande maioria das s subpopulaes.

inviabiliza o uso de Q
L
e Q
P

Hosmer e Lemeshow (1989) propuseram uma estatstica


alternativa, Q
HL
, que obtida calculando-se a estatstica
qui-quadrado de Pearson a partir de uma tabela g2 de
frequncias observadas e preditas
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Diagnstico do Modelo Ajustado
Inicialmente, as n observaes so ordenadas em ordem
crescente das probabilidades (x) preditas pelo modelo.
Tais observaes so, ento, divididas em g grupos (g =
10, por exemplo). No 1
0
grupo cam as n
1
observaes
com probabilidades estimadas < 0,1 e, no ltimo, as n
g
observaes com probabilidades 0,9.
Q
HL
=
g

i=1
(o
i
n
i
(x
i
))
2
n
i
(x
i
)(1(x
i
))

2
(g2)
n
i
= frequncia de observaes no grupo i
o
i
= frequncia de resposta Y = 1 no grupo i
(x
i
) = probab. mdia estimada de resposta Y = 1 no grupo i.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> dados1<-read.table("chd4a.txt",h=T)
> attach(dados1)
> dados1
dc sexo ecg idade
1 0 0 0 28
2 0 0 0 34
3 0 0 0 38
4 1 0 0 41
...
76 1 1 2 58
77 1 1 2 59
78 1 1 2 60
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> ajust<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"),
data=dados1)
> summary(ajust)
> anova(ajust, test="Chisq")
> source("http://www.poleto.com/funcoes/gof.bino.txt")
> gof.bino(ajust, grupos=10)
$x2
[1] 5.754939
$df
[1] 8
$pvalue
[1] 0.6746605
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resduos de Pearson e Resduos Deviance
Limitao das estatsticas Q
p
e Q
L
nico valor utilizado
para resumir uma quantidade considervel de informao.
Pregibon (1981) estendeu os mtodos de diagnstico de
regresso linear para a regresso logstica, fazendo uso
dos componentes individuais das estatsticas Q
p
e Q
L
.
c
i
=
n
i1
(n
i+
)

(x
i
)
_
(n
i+
)

(x
i
)(1

(x
i
))
. .
, i = 1, , s.
resduos de Pearson
Componentes c
i
so denominados resduos de Pearson,
pois a soma deles ao quadrado resulta em Q
P
, i.e.,
Q
P
=
s

i=1
(c
i
)
2
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resduos deviance
Analogamente, os componentes d
i
so denominados
resduos deviance, pois a soma deles ao quadrado
resulta em Q
L
, isto ,
Q
L
=
s

i=1
(d
i
)
2
.
d
i
=
_
2n
i1
ln
_
n
i1
e
i1
_
+2(n
i+
n
i1
)ln
_
n
i+
n
i1
n
i+
e
i1
__
1/2
. .
resduos deviance
e
i1
= (n
i+
)

(x
i
), para i = 1, . . . , s.
sinal de d
i
denido a partir das diferenas (n
i1
e
i1
).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resduos deviance
Distribuio aproximada dos resduos c
i
e d
i
N(0, 1).
Resduos excedendo 2,5 pode indicar
possvel falta de ajuste do modelo
presena de outliers
padres sistemticos de variao.
1 2 3 4 5 6 7 8

0
.
4

0
.
2
0
.
0
0
.
2
0
.
4

R
e
s

d
u
o
s

d
e

P
e
a
r
s
o
n
1 2 3 4 5 6 7 8

0
.
4

0
.
2
0
.
0
0
.
2
0
.
4
i
R
e
s

d
u
o
s

d
e
v
i
a
n
c
e
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Sobre a Distribuio dos Resduos
Assumindo que os resduos d
i
seguem distribuio
aproximada normal construir normal Q-Q plot com
envelope simulado (Davison e Gigli, 1989).
2 1 0 1 2

1
0
1
2
Percentis
D
e
v
i
a
n
c
e
QQ Plot QQ Plot QQ Plot
Se os resduos estiverem dentro do envelope simulado
evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Sobre a Distribuio dos Resduos
Ben e Yohai (2004) argumentam, contudo, que para
alguns MLG, tal distribuio pode estar distante da
normalidade.
Assim, propuseram uma estimativa da distribuio dos
resduos d
i
, de modo que no Q-Q plot tais resduos so
gracado versus os quantis da distribuio estimada.
Ben MG, Yohai VJ (2004). Quantile-quantile plot for
deviance residuals in the generalized linear model.
J. of Comput. & Graphical Statistics, 13(1): 36-47.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Mtodos Auxiliares
Poder Preditivo do Modelo Ajustado
Para avaliar o poder preditivo do modelo necessrio
estabelecer um ponto de corte (0 < pc < 1), tal que:
a) Probabilidades preditas pelo modelo pc Y = 1
b) Probabilidades preditas pelo modelo < pc Y = 0.
Resposta Resposta Predita pelo Modelo
Observada Y = 1 (+) Y = 0 () Totais
Y = 1 (+) a b (a + b)
Y = 0 () c d (c + d)
Totais (a + c) (b + d) n
Sensibilidade =
a
a+b
= taxa de verdadeiros +
Especicidade =
d
c+d
= taxa de verdadeiros
Valor Preditivo =
a+d
n
= proporo geral de acertos
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Mtodos Auxiliares
Para diversos pontos de corte Curva ROC
Pares (x, y) = (1 especicidade, sensibilidade).
Modelo com discriminao perfeita (x, y) = (0,1).
Pontos de corte prximos ao canto superior esquerdo,
produziro os maiores % de acertos (V+ e V).
Quanto mais prxima de 1 for a rea abaixo da curva,
melhor o poder de predio do modelo.
1 especificidade
s
e
n
s
i
b
i
l
i
d
a
d
e
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Doena coronria
Idade (X = x) Sim (Y = 1) No (Y = 0) Totais E(Y | x)
20-29 1 9 10 0,10
30-34 2 13 15 0,13
35-39 3 9 12 0,25
40-44 5 10 15 0,33
45-49 6 7 13 0,46
50-54 5 3 8 0,63
55-59 13 4 17 0,76
60-69 8 2 10 0,80
Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)

0
= 5,123 (e.p. = 1,11) e

1
= 0,1058 (e.p. = 0,023).

(x) =
exp{5, 123 +0, 1058 x}
1 +exp{5, 123 +0, 1058 x}
ln
_

(x)
1

(x)
_
=5, 123 +0, 1058 x
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Tabela 1. Diferenas de deviances
Modelos g.l. Deviances Diferenas = g.l.
Nulo 7 28,7015
X: idade 6 0,5838 28,1177 1
Tabela 2. Anlise de Deviance (ANODEV)
Fonte de variao g.l. Deviances TRV valor p
Regresso 1 28,1177 28,1177 < 0,00001
Deviance residual 6 0,5838
Deviance total 7 28,7015
Evidncias de associao entre idade e doena coronria.
Ainda, teste de Wald W = 20, 49 (g.l. = 1, p < 0, 00001)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Q
p
= 0,59 (p = 0,9965) e Q
L
= 0,58 (p = 0,9967), g.l.= 6.
Resduos c
i
e d
i
entre 2,5 e 2,5.
1 2 3 4 5 6 7 8

1
0
1
2
Index
r
e
s

d
u
o
s

P
e
a
r
s
o
n
1 2 3 4 5 6 7 8

1
0
1
2
Index
r
e
s

d
u
o
s

d
e
v
i
a
n
c
e
1.5 1.0 0.5 0.0 0.5 1.0 1.5

1
0
1
2
3
Normal QQ Plot
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
io
Normal QQ Plot Normal QQ Plot Normal QQ Plot
rea abaixo da curva ROC: AUC = 0,7838.
Evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
30 40 50 60
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
idade
E
(
Y
|
x
)
A partir do modelo ajustado tem-se, por exemplo:
x
i

(x
i
) 1

(x
i
)

(x
i
)
1

(x
i
)
= exp{

0
+

1
x
i
}
26 0,0853 0,9147 exp{

0
+

1
26} = 0,093
27 0,0939 0,9061 exp{

0
+

1
27} = 0,103
65 0,8524 0,1476 exp{

0
+

1
65} = 5,774
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Relembrando que
(x
i
)
1(x
i
)
= odds, segue que:

OR =
odds
(27)
odds
(26)
= exp{

1
(2726)} = exp{

1
} 1, 11

OR =
odds
(65)
odds
(26)
= exp{

1
(6526)} = exp{

1
39} 62
A odds de doena coronria entre indivduos com 65 anos
de idade 62 vezes a dos indivduos com 26 anos.
Obs: OR nos modelos de regresso logstica so denominadas
OR ajustadas, uma vez que o efeito
k
associado covarivel k
estimado na presena dos demais no modelo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> resim<-c(1,2,3,5,6,5,13,8)
> resnao<-c(9,13,9,10,7,3,4,2)
> idade<-c(25,32,38,43,47,53,57,65)
> dados<-as.data.frame(cbind(resim,resnao,idade))
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,
family=binomial(link="logit"),data=dados)
> anova(ajust,test="Chisq")
> summary(ajust)
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=deviance)
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,6)
> cbind(QL,p1)
> plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch=16)
> abline(h=0, lty=3)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=pearson)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,6)
> cbind(QP,p2)
> plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pch=16)
> abline(h=0,lty=3)
> theta<-resim/(resim+resnao)
> plot(idade,theta,ylim=range(0,0.9),xlab="idade",
ylab="E(Y|x)",pch=16)
> idade<-20:70
> modajust<-(exp(-5.123+0.1058
*
idade))/(1+ exp(-5.123+
0.1058
*
idade))
> lines(idade,modajust)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ntot<-c(10,15,12,15,13,8,17,10)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> dados1<-read.table("coronaria.txt",h=T)
# dados 1 = arquivo com 1 indivduo por linha (100 x 2)
> attach(dados1)
> dados1[1:3,]
y idade
1 25
0 25
0 25
...
> require(Epi)
> ROC(form=y~idade,plot="ROC")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Ensaio Clinico aleatorizado em que trs tratamentos foram
avaliados em pacientes que no diagnstico apresentaram
infeco urinria complicada ou no de ser curada.
Cura
Diagnstico da Infeco Medicamentos Sim No Totais
Complicada A 78 28 106
Complicada B 101 11 112
Complicada C 68 46 114
No complicada A 40 5 45
No complicada B 54 5 59
No complicada C 34 6 40
Fonte: Koch et al. (1985)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Resposta dicotmica e duas covariveis em que:
x
i1
=
_
1 se infeco complicada
0 caso contrrio.
x
i2
=
_

_
(x
i21
, x
i22
) = (1, 0) se tratamento A
(x
i21
, x
i22
) = (0, 1) se tratamento B
(x
i21
, x
i22
) = (0, 0) se tratamento C refrencia.
Tabela 1. Diferenas de deviances.
Modelos g.l. deviances = deviances = g.l. valor p
Nulo 5 44,473
X
1
4 30,628 13,844 1 0,0002
X
2
| X
1
2 2,515 28,114 2 < 0,0001
X
1
X
2
| X
1
, X
2
0 0,000 2,515 2 0,2843
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Efeito da interao no signicativo (p = 0,2843).
Foram ento testados os efeitos principais
Efeito de X
1
signicativo (p = 0,0002).
Efeito de X
2
|X
1
signicativo (p < 0, 0001).
Tabela 2. Anlise de Deviance (ANODEV).
Fonte de variao g.l. deviances TRV valor p
Regresso 3 41,958 41,958 < 0,00001
Deviance residual 2 2,515
Deviance total 5 44,473
As variveis X
1
= diagnstico e X
2
= tratamento reduzem
substancialmente a deviance total.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Estatsticas de qualidade de ajuste do modelo
Q
L
= 2,515 (p = 0,2844) e Q
P
= 2,757 (p = 0,2519).
Valores observados e preditos pelo modelo e resduos
deviance e de Pearson.
(x
i
)

(x
i
) d
i
c
i
0,735 0,739 0,077 0,077
0,902 0,882 0,646 0,630
0,596 0,612 0,344 0,345
0,889 0,881 0,162 0,161
0,915 0,951 1,182 1,302
0,850 0,805 0,740 0,717
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Grco dos resduos deviance e Normal QQ-Plot
1 2 3 4 5 6

1
0
1
2
3
Index
r
s

d
u
o
s

d
e
v
i
a
n
c
e
1.0 0.5 0.0 0.5 1.0

1
0
1
2
3
Normal QQ Plot
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
Normal QQ Plot Normal QQ Plot Normal QQ Plot
rea abaixo da curva ROC AUC = 0,70.
Evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Tabela 3. Estimativas dos parmetros do modelo ajustado.
Parmetros Estimativas erro padro

0
: constante 1,4184 0,2986

1
: infeco complicada 0,9616 0,2997

2
: tratamento A 0,5847 0,2641

3
: tratamento B 1,5608 0,3158
ln
_

(x
i
)
1

(x
i
)
_
= 1, 41840, 9616 x
i1
+0, 5847 x
i21
+1, 5608 x
i22

(x
i
) =
exp{1, 41840, 9616 x
i1
+0, 5847 x
i21
+1, 5608 x
i22
}
1+exp{1, 41840, 9616 x
i1
+0, 5847 x
i21
+1, 5608 x
i22
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Infeco Tratamentos

(x
i
)
1

(x
i
)
= odds
Complicada A exp{

0
+

1
+

2
}
Complicada B exp{

0
+

1
+

3
}
Complicada C exp{

0
+

1
}
No complicada A exp{

0
+

2
}
No complicada B exp{

0
+

3
}
No complicada C exp{

0
}

OR
C|NC
= exp{

1
} = 0,38

OR
NC|C
= exp{

1
} = 2,6

OR
A|C
= exp{

2
} = 1,79

OR
B|C
= exp{

3
} = 4,76

OR
B|A
= exp{

2
} = 2,65
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> resim<-c(78,101,68,40,54,34)
> resnao<-c(28,11,46,5,5,6)
> diag<-c(1,1,1,0,0,0)
> trat<-c(2,3,1,2,3,1)
> dados<-as.data.frame(cbind(resim,resnao,diag,trat))
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+
factor(trat),family=binomial(link="logit"),data=dados)
> summary(ajust)
> anova(ajust,test="Chisq")
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=deviance)
> dev
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,2)
> cbind(QL,p1)
> plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos deviance")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=pearson)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,2)
> cbind(QP,p2)
> ntot<-c(106,112,114,45,59,40)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> dados1<-read.table("infec.txt", h=T)
> dados1 # arquivo com 1 indivduo por linha (476 x 3)
x1 x2 y # x1 = diag e x2 = trat
1 2 1
1 2 1
...
> attach(dados1)
> require(Epi)
> ROC(form=y~factor(x1)+factor(x2),plot="ROC")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Objetivo: estudar associao de bronquite com
smk = status de fumo (0 se no usa e 1 se usa),
ses = status scio-econmico (0 se alto e 1 se baixo)
idade = 0 se < 40 anos e 1 se 40 anos.
Bronquite
smk ses idade Sim No Totais
0 1 0 38 73 111
0 1 1 48 86 134
0 0 0 28 67 95
0 0 1 40 84 124
1 1 0 84 89 173
1 1 1 102 46 148
1 0 0 47 96 143
1 0 1 59 53 112
Fonte: Kleinbaum (1994)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Tabela 1. Diferenas de deviances - modelos sequenciais.
Modelos g.l. Dev. TRV = g.l. valor p
Nulo 7 72,798
X
1
6 40,336 32,462 1 < 0,0001
X
2
| X
1
5 27,511 12,825 1 0,0003
X
3
| X
1
, X
2
4 11,025 16,486 1 < 0,0001
X
1
X
2
| X
1
, X
2
, X
3
3 7,910 3,115 1 0,0775
X
1
X
3
| X
1
, X
2
, X
3
, X
1
X
2
2 0,032 7,879 1 0,0050
X
2
X
3
| X
1
, X
2
, X
3
, X
1
X
2
, X
1
X
3
1 0,031 0,001 1 0,9763
X
1
X
2
X
3
| X
1
, X
2
, X
3
+ duplas 0 0,000 0,031 1 0,8602
X
1
= smk, X
2
= ses e X
3
= idade
Modelo X
1
, X
2
, X
3
+X
1
X
3
+X
1
X
2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
(x
i
)

(x
i
)
0.3389166 0.3423423
0.3610467 0.3582090
0.2987395 0.2947368
0.3195141 0.3225806
0.4870962 0.4855491
0.6873808 0.6891892
0.3267997 0.3286713
0.5291753 0.5267857
1.5 1.0 0.5 0.0 0.5 1.0 1.5

1
0
1
2
Normal QQ Plot
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1 2 3 4 5 6 7 8

0
.
4

0
.
2
0
.
0
0
.
2
0
.
4
Index
R
e
s
i
d
u
o
s

d
e
v
i
a
n
c
e
Q
L
= Q
P
= 0,0318 (p = 0,999).
rea abaixo curva ROC = 0.64.
Evidncias a favor do modelo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Parmetros Estimativas Erro-padro

0
0,8533 0,1856

1
: x
1
= smk 0,1306 0,2408

2
: x
2
= ses 0,1852 0,1982

3
: x
3
= idade 0,0973 0,1991

4
: (x
1
x
2
) = smkses 0,4859 0,2637

5
: (x
1
x
3
) = smkidade 0,7422 0,2643
smk ses idade smkses smkidade odds =

(x
i
)
1

(x
i
)
0 1 0 0 0 exp{

0
+

2
}
0 1 1 0 0 exp{

0
+

2
+

3
}
0 0 0 0 0 exp{

0
}
0 0 1 0 0 exp{

0
+

3
}
1 1 0 1 0 exp{

0
+

1
+

2
+

4
}
1 1 1 1 1 exp{

0
+

1
+

2
+

3
+

4
+

5
}
1 0 0 0 0 exp{

0
+

1
}
1 0 1 0 1 exp{

0
+

1
+

3
+

5
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Na presena de interaes signicativas:

OR
smk(1|0)
=
_

_
exp{

1
} se ses = 0 e idade = 0
exp{

1
+

4
} se ses = 1 e idade = 0
exp{

1
+

5
} se ses = 0 e idade = 1
exp{

1
+

4
+

5
} se ses = 1 e idade = 1

OR
smk(1|0)
= exp{

1
+

4
ses+

5
idade}
Assim, para, por exemplo, pacientes com ses alto = 0 e idade
> 40 anos (idade = 1), a odds de bronquite entre os que fumam
exp{0, 1306 +0, 7422} = 2,4 vezes a dos que no fumam.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite

OR
ses(1| 0)
=
_
exp{

2
} se smk = 0
exp{

2
+

4
} se smk = 1

OR
ses(1| 0)
= exp{

2
+

4
smk}
Assim, para pacientes que fumam, a odds de bronquite entre os
com ses baixo (ses = 1) exp{0, 1852 +0, 4859} = 1,95 vezes a
dos com ses alto (ses = 0).
Para os que no fumam (smk = 0), tal odds exp{0, 1852} = 1,2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite

OR
idade(1| 0)
=
_
exp{

3
} se smk = 0
exp{

3
+

5
} se smk = 1

OR
idade(1| 0)
= exp{

3
+

5
smk}
Desse modo, para os que fumam, a odds de bronquite entre os
com idade 40 anos exp{0, 0973 +0, 7422} = 2,3 vezes a dos
com idade < 40 anos.
Para os que no fumam tal odds exp{0, 0973} = 1,1.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> brc<-read.table("bronquite.txt",h=T)
> attach(brc)
> brc
sim nao smk ses idade
38 73 0 1 0
48 86 0 1 1
28 67 0 0 0
40 84 0 0 1
84 89 1 1 0
102 46 1 1 1
47 96 1 0 0
59 53 1 0 1
> ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+
smk
*
ses+smk
*
idade,family=binomial,data=brc)
> anova(ajust,test="Chisq")
> summary(ajust)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=deviance)
> dev
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,6)
> cbind(QL,p1)
> rpears<-residuals(ajust,type=pearson)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,6)
> cbind(QP,p2)
> plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos deviance")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ntot<-c(111,134,95,124,173,148,143,112)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> brc1<-read.table("bronquite1.txt",h=T)
> attach(brc1)
# brc1 = arquivo com 1 indivduo por linha (1040 x 4)
> brc1
x1 x2 x3 y
0 1 0 1
0 1 0 1
...
1 0 1 0
> require(Epi)
> ROC(form=y~x1+x2+x3+x1
*
x2+x1
*
x3,plot="ROC")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Links Paramtricos Alternativos para Dados Binrios
Alguns links para dados com resposta binria.
(x) = F(

x) links paramtricos alternativos


exp{

x}
1+ exp{

x}
logito ln
_
(x)
1(x)
_
(

x) probito
1
((x))
1exp{exp{

x}} clog-log ln(ln(1(x)))


1
2
+
arctg(

x)

cauchy F
1
((x))
() denota a funo de distribuio da N(0,1), arctg = arco tangente
F()denota a funo de distribuio da Cauchy(0,1) t-Student
(1g.l.)
Simtricos: logstico, probito e cauchy
Assimtrico: complemento log-log.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Links Alternativos para Dados Binrios
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
t
h
e
t
a
(
x
)
logstico
probito
cloglog
cauchy
Procedimentos de estimao, qualidade e diagnstico so
anlogos aos do modelo logstico.
Interpretao dos parmetros difere da apresentada para
o modelo logstico.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
Bioensaio conduzido em laboratrio por Machado (2006).
Objetivo: concentrao ideal de uma suspenso viral.
Mortes
Diluies (CPI/ml) Sim No Totais
Testemunha 0 30 30
10
3
1 29 30
10
6
4 26 30
10
7
15 15 30
10
8
28 2 30
10
9
29 1 30
x
i
= logaritmo neperiano das diluies.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando Links Alternativos - Bioensaio
0 5 10 15 20 25
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
ln(diluio)
P
r
o
p
o
r

o

d
e

m
o
r
t
e
s
Logstico (x
i
) =
exp{
0
+
1
x
i
}
1+exp{
0
+
1
x
i
}
Probito (x
i
) = (
0
+
1
x
i
)
Clog-log (x
i
) = 1exp{exp{
0
+
1
x
i
}}
Cauchy (x
i
) =
1
2
+
arctan(
0
+
1
x
i
)

Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS


Minicurso - 57
a
Reunio Anual da RBras
Ilustrando Links Alternativos - Bioensaio
Estatstica deviance de qualidade de ajuste
Logito Probito Clog-log Cauchy
Q
L
6,59 10,99 6,18 1,72
p-valor 0,158 0,027 0,186 0,787
1.0 0.0 1.0

1
0
1
2
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1.0 0.0 1.0

1
0
1
2
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1.0 0.0 1.0

2
0
1
2
3
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1.0 0.0 1.0

2
0
2
4
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
a) logito b) probito c) clog-log d) Cauchy
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
Evidncias a favor do modelo Binomial com link cauchy.
Estimativas
links

0
(e.p.)

1
(e.p.)
Logito 12,863 (2,27) 0,708 (0,12)
Probito 6,244 (1,07) 0,347 (0,06)
Clog-log 8,143 (1,26) 0,422 (0,06)
Cauchy 26,678 (9,47) 1,451 (0,51)
Usual nos bioensaios: dose letal mediana LD
50
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
x
50
= ln(

LD
50
)

LD
50
Logito ln
_
0, 50
1 0, 50
_
=

0
+

1
x

1
18,17 (7, 7)
7
Probito
1
(0, 50) =

0
+

1
x

1
18,00 (6, 6)
7
Clog-log ln(ln(1 0, 50)) =

0
+

1
x
0,3665

1
18,43 (10)
7
Cauchy F
1
(0, 50) =

0
+

1
x

1
18,39 (9, 7)
7
Obs: para os modelos com links simtricos x
50
=

1
.
Estimao por ponto e intervalo da LD50: Finney (1971),
Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ...
Koenker, R. Parametric links for binary response. URL:
www.econ.uiuc.edu/roger/research/links/Rnews.pdf
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
0 5 10 15 20 25
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
ln(diluies)
p
r
o
p
o
r

o

d
e

m
o
r
t
e
s
logstico
probito
cloglog
cauchy
(18.386, 0.5)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Cauchy
Comandos R
> resim<-c(0,1,4,15,28,29)
> resnao<-c(30,29,26,15,2,1)
> lnd<-c(0,9.21,16.12,18.42,20.72,23.02)
> dados<-as.data.frame(cbind(resim,resnao,lnd))
> attach(dados)
> ajuste4<-glm(as.matrix(dados[,c(1,2)])~lnd,
family=binomial(link="cauchit"),data=dados)
> ajuste4
> anova(ajuste4,test="Chisq")
> summary(ajuste4)
# Obs: link="logit", "probit" e "cloglog"
para ajustar os demais modelos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Cauchy
Comandos R
> ntot<-c(30,30,30,30,30,30)
> fit.model<-ajuste4
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> x<-seq(0,25,0.1)
> m4<- pcauchy(-26.678+1.451
*
x)
> plot(lnd,resim/(resim+resnao),pch=16, ylab="proporo de
mortes",xlab="ln(diluies)",xlim=c(0,28),ylim=c(0,1.05))
> lines(x,m4,lty=1,lwd=2,col=1)
> legend(1,0.8,lty=c(1),col=c(1),lwd=2,c("cauchy"),bty="n")
> lines(c(18.386,18.386),c(0,0.50),lty=3)
> lines(c(0,18.386),c(0.50,0.50),lty=3)
> legend(17.7,0.55,c("(18.386, 0.5)"),bty="n",cex=0.8)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelos para Dados com
Resposta Politmica
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelos para Dados com Resposta Politmica
Considere, agora, que o interesse seja o de estudar a
existncia de associao entre um conjunto de variveis
X = (X
1
, X
2
, ..., X
k
) e uma resposta politmica Y, a qual
pode ser nominal ou ordinal.
X
1
X
2
... X
k
. .
Y
..

Modelos de regresso que


podem ser teis nesses casos
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situao 1 - Resposta Politmica Nominal
Resposta politmica nominal

Considere os dados a seguir em que se deseja avaliar se o


programa de aprendizado que as crianas preferem estaria
associado com a escola e o perodo escolar.
Programa de Aprendizado
Escola Perodo Individual Grupo Sala Aula Totais
1 Padro 10 17 26 53
1 Integral 5 12 50 67
2 Padro 21 17 26 64
2 Integral 16 12 36 64
3 Padro 15 15 16 46
3 Integral 12 12 20 44
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resposta politmica nominal
Denotando por
hik
a probabilidade de um aluno da escola h
(h = 1, 2, 3) e perodo escolar i (i = 1, 2) preferir o programa de
aprendizado k (k = 1, 2, 3), em que

3
k=1

hik
= 1, tem-se:

Programa de Aprendizado
Escola Perodo k
h i 1 2 3
1 1
111

112

113
1
1 2
121

122

123
1
2 1
211

212

213
1
2 2
221

222

223
1
3 1
311

312

313
1
3 2
321

322

323
1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Generalizados
Possvel modelo para anlise desses dados
Modelo de Logitos Generalizados
Esse modelo considera (r 1) logitos generalizados tq:
logit
hik
= ln
_

hik

hir
_
=
0k
+

k
x
hi
, k = 1, . . . , r 1
sendo r = n
o
de categorias da resposta.
Note que cada logito k (k = 1, . . . , r 1) denido a partir da
probabilidade associada ksima categoria de resposta
sobre a da ltima categoria (k = r).
Note, tambm, que h diferentes interceptos e diferentes
vetores de parmetros
k
associados aos r 1 logitos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Generalizados
Como mais de um logito est sendo denido para cada
subpopulao necessrio tamanho amostral grande
para acomodar o n
o
de logitos sendo modelados.
Quando no houver dados sucientes que justiquem a
anlise por meio de logitos generalizados pode haver
problemas quanto a estimao dos parmetros.
Nesses casos, uma alternativa seria simplicar a estrutura
da varivel resposta (grupar categorias) e utilizar, por
exemplo, o modelo de regresso logstica dicotmica.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
No estudo sobre preferncia de aprendizado r = 3. Ento:
logit
hi1
= ln
_

hi1

hi3
_
e logit
hi2
= ln
_

hi2

hi3
_

logit
hik
=
0k
+

k
x
hi
k = 1, 2, h = 1, 2, 3 e i = 1, 2.
X
1
= escolas e X
2
= perodos variveis dummy
x
11
=
_
0 escola 1
1 escola 2,
0 escola 3
x
12
=
_
0 escola 1
0 escola 2,
1 escola 3
x
2
=
_
1 padro
0 integral.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 1 - Diferenas de deviances.
Modelos g.l. deviances = deviances = g.l. valor p
Nulo 10 30,2480
X
1
6 12,8716 17,3764 4 0,0016
X
2
| X
1
4 1,7776 11,0940 2 0,0039
X
1
X
2
| X
1
, X
2
0 0,0000 1,7776 4 0,7766
g.l. = (r 1) g.l. esperados para um nico logito.

Modelo selecionado X
1
+X
2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 2 - Probabilidades observadas e preditas a partir do modelo.
Observadas Preditas
Escolas Perodos Pref. Probabilidade e.p. Probabilidade e.p ObsPred
1 pad indiv 0,1887 0,0537 0,1580 0,0403 0,0306
grupo 0,3208 0,0641 0,3049 0,0527 0,0159
aula 0,4906 0,0687 0,5371 0,0560 0,0470
1 int indiv 0,0746 0,0321 0,0989 0,0279 0,0240
grupo 0,1791 0,0468 0,1917 0,0393 0,0130
aula 0,7463 0,0532 0,7095 0,0459 0,0368
2 pad indiv 0,3281 0,0587 0,3409 0,0515 0,0130
grupo 0,2656 0,0552 0,2667 0,0469 0,0010
aula 0,4063 0,0614 0,3924 0,0509 0,0139
2 int indiv 0,2500 0,0541 0,2372 0,0444 0,0128
grupo 0,1875 0,0488 0,1864 0,0389 0,0011
aula 0,5625 0,0620 0,5764 0,0518 0,0140
3 pad indiv 0,3261 0,0691 0,3436 0,0587 0,0170
grupo 0,3261 0,0691 0,3429 0,0582 0,0170
aula 0,3478 0,0702 0,3136 0,0536 0,0343
3 int indiv 0,2727 0,0671 0,2545 0,0521 0,0183
grupo 0,2727 0,0671 0,2552 0,0517 0,0176
aula 0,4545 0,0751 0,4904 0,0608 0,0360
Probabilidades observadas e preditas esto prximas,
indicando evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 3 - Estimativas dos parmetros do modelo ajustado.
logito 1 logito 2
estimativas erro-padro estimativas erro-padro
Intercepto 1,9711 0,320 1,3088 0,259
Escola 2 1,0828 0,353 0,1801 0,317
Escola 3 1,3147 0,384 0,6556 0,339
Perodo padro 0,7474 0,282 0,7426 0,270
ln
_

hi1

hi3
_
=
01
+

1
x
hi
e ln
_

hi2

hi3
_
=
02
+

2
x
hi

hi1

hi3
= exp{
01
+

1
x
hi
} e

hi2

hi3
= exp{
02
+

2
x
hi
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 4 - Odds associadas aos logitos 1 e 2.
logito 1 logito 2
Escola Perodo odds =
hi1
/
hi3
odds =
hi2
/
hi3
1 Padro exp{
01
+
31
} exp{
02
+
32
}
1 Integral exp{
01
} exp{
02
}
2 Padro exp{
01
+
11
+
31
} exp{
02
+
12
+
32
}
2 Integral exp{
01
+
11
} exp{
02
+
12
}
3 Padro exp{
01
+
21
+
31
} exp{
02
+
22
+
32
}
3 Integral exp{
01
+
21
} exp{
02
+
22
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
logito 1 logito 2
entre perodos individual / sala de aula grupo / sala de aula

OR
P/I
e

31
= 2,11 e

32
= 2,10
Entre aprendizado individual ou em sala de aula
odds de preferncia pelo 1
o
entre alunos do perodo
padro o dobro da dos alunos do perodo integral,
Entre aprendizado em grupo ou em sala de aula
odds de preferncia pelo 1
o
entre alunos do perodo
padro o dobro da dos alunos do perodo integral.
Entre aprendizado individual ou em grupo
odds de preferncia entre esses dois mtodos de
aprendizado no diferiu entre os alunos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Generalizados
logito 1 logito 2
entre escolas individual / sala de aula grupo / sala de aula

OR
2/1
e

11
= 2,95 e

12
= 1,19

OR
3/1
e

21
= 3,72 e

22
= 1,93

OR
3/2
e

21

11
= 1,26 e

22

12
= 1,61
Entre aprendizado individual ou em sala de aula
odds de preferncia pelo 1
o
entre alunos da escola 2
de 3 vezes a dos alunos da escola 1. J entre os da
escola 3, tal odds de 4 vezes a daqueles na escola 1
e, entre os das escolas 3 e 2, de 1,3 vezes.
Por analogia tem-se as demais interpretaes.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando o Modelo de Logitos Generalizados
Comandos R
> require(VGAM)
> esc<-read.table("escolas.txt", h=T)
> attach(esc)
> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +
factor(periodo),multinomial,esc)
> summary(fit1)
> coef(fit1,matrix=TRUE)
> fitted(fit1)
> fit1@y - fitted(fit1)
> model.matrix(fit1)
> residuals(fit1)
Obs: A ltima categoria de resposta considerada no R
como a categoria de referncia. Para considerar
outra (por ex., grupo 2), use refLevel.
> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +
factor(periodo),multinomial(refLevel=2),esc)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situao 2 - Resposta Politmica Ordinal
Para abordar essa situao, considere os dados a seguir em
que se deseja avaliar se o grau de melhora de pacientes com
artrite estaria associado com genro e tratamento.
Grau de melhora
Sexo Tratamentos Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
As categorias de resposta esto ordenadas a
partir da situao mais favorvel para a menos
favorvel aos pacientes.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resposta politmica ordinal
Denotando por
hik
a probabilidade de um paciente do sexo h
(h = 1, 2) com tratamento i (i = 1, 2) apresentar grau de melhora
k (k = 1, 2, 3). Ento, segue que:
Grau de Melhora
Sexo Tratamento k Totais
h i 1 2 3
1 1
111

112

113
1
1 2
121

122

123
1
2 1
211

212

213
1
2 2
221

222

223
1
Considerando os totais n
hi+
xos multinomial associada a
cada subpopulao, de modo que

3
k=1

hik
= 1.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situao 2 - Resposta Politmica Ordinal
Considerando, ainda, as seguintes quantidades:

hi1
=
hi1
e
hi2
=
hi1
+
hi2

hi1
=probabilidade de melhora acentuada

hi2
=probabilidade de melhora acentuada ou alguma melhora

hik
, k = 1, . . . , r 1 probabilidades cumulativas

modelo sugerido na literatura


Modelo de Logitos Cumulativos
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Cumulativos (MLC)
Esse modelo considera (r 1) logitos cumulativos.
Assim, para r = 3, tem-se:
logit(
hi1
) = ln
_

hi1

hi2
+
hi3
_
e logit(
hi2
) = ln
_

hi1
+
hi2

hi3
_

logit(
hik
) =
0k
+

k
x
hi
, k = 1, . . . , r 1
sendo r = n
o
de categorias da resposta.
usual que as categorias de resposta mais favorveis
sejam avaliadas em relao s menos favorveis.
Neste modelo, os interceptos so distintos e existem =
vetores de parmetros de regresso para cada logito.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Odds Proporcionais (MOP)
Na realidade, o modelo de logitos cumulativos similar ao
modelo de logitos generalizados.
Contudo, se proporcionalidade das odds for vlida, o que
equivale a supor que
k
= para k = 1, . . . , r 1, ento,
logit(
hik
) =
0k
+

x
hi

hik
=
exp
_

0k
+

x
hi
_
1+exp
_

0k
+

x
hi
_

Modelo de Odds Proporcionais (MOP)


Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Odds Proporcionais (MOP)
Qual o signicado da suposio de odds
proporcionais ou de regresso paralela?
Grau de melhora
Tratamento Acentuada Alguma Nenhuma Totais
A 21 7 13 41
Placebo 7 7 29 43
Note que:

OR
ac/ac
= 1,

OR
al/ac
= 3 e

OR
ac/nenh
= 6.7.
crescimento aproximadamente linear das OR
Desse modo,

OR
ac/al+nenh
= 5.4

OR
ac+al/nenh
= 4.5
odds proporcionais
Se for vlido para todas as covariveis no modelo MOP.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Odds Proporcionais (MOP)
Para testar a suposio de odds proporcionais, isto ,
_
H
0
:
k
= , k MOP
H
a
:
k
= MLC
TRV =2ln
_
L
H
0
L
H
a
_

2
m
m = diferena de parmetros entre os modelos sob H
0
e H
a
.
As probabilidades
hij
so determinadas fazendo-se
subtraes dos
hik
. Assim, se r = 3,
_
_
_

hi1
=
hi1

hi2
=
hi2

hi1

hi3
= 1
hi2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Para os dados de artrite foram consideradas:
X
1
=
_
1 se feminino
0 se masculino
X
2
=
_
1 se tratamento A
0 se placebo
Como no foram encontradas evidncias contrrias a
suposio de odds proporcionais, i.e., H
0
:
k
= , k
TRV = 1,88 (p = 0,39, g.l.= 2)

Foi considerado o modelo de odds proporcionais (MOP)


Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 1 - Diferenas de deviances (X
1
= sexo, X
2
= tratamento).
Modelos g.l. deviances = deviances = g.l. valor p
Nulo 6 (82) 22,5986
X
1
5 (83) 18,7933 3,8053 1 0,0511
X
2
| X
1
4 (84) 2,7121 16,0812 1 < 0,0001
X
1
X
2
| X
1
, X
2
3 (85) 2,4037 0,3084 1 0,5786
g.l. = (s (r 1)) q, com s = n
o
de subpopulaes, r = n
o
de categorias da resposta
e q = n
o
de parmetros do modelo.
Modelo MOP com X
1
e X
2
Estatsticas Q
L
e Q
P

2
com ((r 1)(s 1) q) g.l.
Q
L
= 2,71 (p = 0,607, g.l.= 4)
Q
P
= 1,91 (p = 0,752, g.l.= 4).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Ainda, probabilidades observadas das preditas pelo modelo.
Observadas Preditas Observadas Preditas
0,59259 0,61036 0,01777
0,18518 0,17601 0,00917
0,22222 0,21361 0,00860
0,18750 0,20612 0,01862
0,21875 0,17281 0,04593
0,59375 0,62106 0,02731
0,35714 0,29527 0,06186
0,14285 0,20084 0,05799
0,50000 0,50387 0,00387
0,09090 0,06493 0,02597
0,00000 0,07536 0,07536
0,90909 0,85970 0,04939
Evidncias favorveis aos MOP ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 2 - Estimativas obtidas para o MOP ajustado.
Parmetros Estimativas Erro-padro

01
: intercepto 1 2,6672 0,5997

02
: intercepto 2 1,8128 0,5566

1
: sexo feminino 1,3187 0,5292

2
: tratamento A 1,7973 0,4728
Tabela 3 - Probabilidades

hik
e

hij
preditas pelo MOP.
Sexo Tratamentos

hi1

hi2

hi1

hi2

hi3
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 4 -Odds associadas ao MOP ajustado.
Sexo Tratamentos
hi1
/(
hi2
+
hi3
) (
hi1
+
hi2
)/
hi3
F A exp{
01
+
1
+
2
} exp{
02
+
1
+
2
}
F Placebo exp{
01
+
1
} exp{
02
+
1
}
M A exp{
01
+
2
} exp{
02
+
2
}
M Placebo exp{
01
} exp{
02
}
Melhora acentuada versus alguma ou nenhuma melhora
a odds de melhora acentuada entre as mulheres
exp{

1
} 4 vezes a dos homens.
a odds de melhora acentuada entre os pacientes sob
tratamento A exp{

2
} 6 vezes a daqueles sob placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Melhora acentuada ou alguma melhora versus nenhuma
Devido suposio de odds proporcionais, as estimativas
so as mesmas obtidas anteriormente. Logo,
a odds de melhora acentuada ou alguma melhora
entre as mulheres 4 vezes a dos homens.
a odds de melhora acentuada ou alguma melhora entre
os pacientes sob trat. A 6 vezes a daqueles sob placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
Obs: Instalar package VGAM (www.r-project.org)
> require(VGAM)
> data<-read.table("artrite.txt", h=T)
> data
ac alg nenh sexo trat
16 5 6 2 2
6 7 19 2 1
5 2 7 1 2
1 0 10 1 1
> fit <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(trat),
cumulative(parallel=TRUE),data) # MOP
> fit1 <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(trat),
cumulative(parallel=FALSE),data) # MLC
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
> TRV <- 2
*
(logLik(fit1)-logLik(fit))
> gl <- length(coef(fit1))-length(coef(fit))
> p <- 1-pchisq(TRV,gl)
> cbind(TRV, gl, p)
> summary(fit)
> coef(fit, matrix = TRUE)
> residuals(fit)
> fitted(fit)
> fit@y
> fit@y - fitted(fit)
> model.matrix(fit)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
Obs: Instalar package Design (www.r-project.org)
> data1<-read.table("artrite1.txt", h = T)
# artrite1 = arquivo com 1 indivduo por linha (84 x 3)
> data1[1:3,]
melhora sexo tratamento
1 3 2 2
2 3 2 2
3 3 2 2
...
> require(Design)
> mop<-lrm(melhora~sexo+tratamento, x=TRUE, y=TRUE)
> mop
> par(mfrow=c(1,2))
> residuals(mop, type="score.binary", pl=TRUE)
> residuals(mop, type="partial", pl=TRUE)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
melhora
s
e
x
o

0
.
1
5

0
.
0
5
0
.
0
5
0
.
1
5
alg nenh
melhora
s
e
x
o
melhora
t
r
a
t
a
m
e
n
t
o

0
.
1
5

0
.
0
5
0
.
0
5
0
.
1
5
alg nenh
melhora
t
r
a
t
a
m
e
n
t
o
1.0 1.2 1.4 1.6 1.8 2.0
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
sexo
P
a
r
t
i
a
l

R
e
s
i
d
u
a
l
y>=2
y>=3
1.0 1.2 1.4 1.6 1.8 2.0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
tratamento
P
a
r
t
i
a
l

R
e
s
i
d
u
a
l
y>=2
y>=3
Obs: Certo desvio da suposio de odds proporcionais para a
covarivel sexo. Se consider-lo srio, um modelo alternativo
seria:
Modelo de odds proporcionais parciais (MOPP)
Abreu et al. (2009). Rev Sade Pblica, 43(1): 183-194.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Dados Pareados com
Resposta Binria
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Introduo
Em algumas situaes, dados com resposta binria
podem apresentar informaes pareadas.
Estudos com gmeos fraternos
Estudos que avaliam lados direito e esquerdo do corpo
Estudos do tipo antes e aps um acontecimento
Estudos caso-controle com pareamento 1-1
Estudos crossover, dentre outros.

pares de observaes relacionadas

clusters de tamanho = 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situaes Simples - Teste de McNemar
Situaes simples ausncia de variveis explicativas
aps
antes Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
lado lado esquerdo
direito Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
controle
caso E = 1 E = 0 Totais
E = 1 n
11
n
12
n
1+
E = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
perodo 2
per. 1 Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
testar:
_
H
0
: p
1+
= p
+1
H
A
: p
1+
= p
+1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situaes Simples - Teste de McNemar
(1, 1)
. .
(1, 0)
. .
(0, 1)
. .
(0, 0)
. .
no-informativo informativo informativo no-informativo

Teste foi proposto por McNemar (1947)

se baseia nos pares informativos, ou seja,


nos elementos fora da diagonal principal
Estatstica de Teste
Q
Mc
=
(n
12
n
21
)
2
(n
12
+n
21
)

2
(1)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situaes Gerais - Outras Abordagens
Na presena de variveis explicativas, poder-se-ia pensar
no modelo de regresso logstica usual, em que o efeito
de par seria incorporado como xo ou aleatrio, isto ,
P(Y
ij
= 1) =
exp{
i
+

x
ij
}
1+exp{
i
+

x
ij
}
sendo
i
o efeito do i-simo par (i = 1, . . . , q) e o vetor de
parmetros associados s variveis explicativas X.
Obs: o efeito de par no aqui de interesse primrio,
mas sim o de estimar os demais efeitos de interesse
controlando (ou removendo) o efeito de par.

Analogia com variveis estraticadoras


Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situaes Gerais - Outras Abordagens
Se tal abordagem fosse considerada, o tamanho amostral
de cada cluster (n = 2) seria insuciente para estimar
i
sem vcio tal abordagem no seria apropriada.
Se, no entanto, for feito uso de argumentos condicionais
efeitos dos pares parmetros nuisance

tais efeitos sero removidos e os demais


estimados sem vcio.

Regresso Logstica Condicional


Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Para apresentar tal modelo considere um ensaio clnico
aleatorizado multicentros em que:
q centros mdicos foram escolhidos para sua realizao.
dois pacientes foram selecionados de cada centro tq:
um recebeu o tratamento A e, o outro, um placebo.
Y
ij
=
_
1 se melhora
0 se no melhora,
j = 1 indexa o tratamento A e j = 2 o placebo
i = 1, . . . , q indexa os q centros mdicos.
X
ij
=
_
1 se tratamento A
0 se placebo,
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Representao dos dados associados ao ensaio clnico descrito.
demais variveis
Centro Y
ij
= Melhora X
1ij
= Tratamento X
2ij
. . . X
mij
1 1 1
1 0 0
2 0 1
2 0 0
3 0 1
3 1 0
.
.
.
.
.
.
.
.
.
.
.
. . . .
.
.
.
q 1 1
q 1 0
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
(Y
i1
, Y
i2
)
. .
(1, 1)
. .
(1, 0)
. .
(0, 1)
. .
(0, 0)
. .
no-informativo informativo informativo no-informativo

P((Y
i1
=1, Y
i2
=0) | (Y
i1
=1, Y
i2
=0) ou (Y
i1
=0, Y
i2
=1))
=
P(Y
i1
= 1)P(Y
i2
= 0)
P(Y
i1
= 1)P(Y
i2
= 0) +P(Y
i1
= 0)P(Y
i2
= 1)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Como as probabilidades envolvidas so dadas por
P(Y
i1
= 1) =
exp{
i
+ +

x
i1
}
1+exp{
i
+ +

x
i1
}
P(Y
i1
= 0) =
1
1+exp{
i
+ +

x
i1
}
P(Y
i2
= 1) =
exp{
i
+

x
i2
}
1+exp{
i
+

x
i2
}
P(Y
i2
= 0) =
1
1+exp{
i
+

x
i2
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Segue que:
P(Y
i1
= 1)P(Y
i2
= 0)
P(Y
i1
= 1)P(Y
i2
= 0) +P(Y
i1
= 0)P(Y
i2
= 1)
=
exp{
i
+ +

x
i1
}
exp{
i
+ +

x
i1
}+exp{
i
+

x
i2
}
=
e por exp{
i


x
i2
} tem-se:
=
exp{ +

(x
i1
x
i2
)}
1+exp{ +

(x
i1
x
i2
)}
que no inclui os parmetros
i
(i = 1, , q).
Sob esta abordagemmodelo com um nmero reduzido
de parmetros que podem ser estimados sem vcio.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Funo de verossimilhana associada ao modelo condicional
L(, ) =
q

i=1
_
exp{ +

(x
i1
x
i2
)}
1+exp{ +

(x
i1
x
i2
)}
_
y
i1
(1y
i2
)

_
1
1+exp{ +

(x
i1
x
i2
)}
_
(1y
i1
)y
i2
Note que a contribuio para L(, ) dos pares com resposta
concordantes, i.e., (Y
i1
= 1, Y
i2
= 1) e (Y
i1
= 0, Y
i2
= 0) igual
a 1 pares concordantes so no-informativos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
A funo L(, ) , na realidade, a f de verossimilhana
do modelo de regresso logstica usual, em que:
Y
i
=
_
1 se (Y
i1
= 1, Y
i2
= 0)
0 se (Y
i1
= 0, Y
i2
= 1)
intercepto : efeito do tratamento
z
i
= (x
i1
x
i2
): = dos valores das variveis x dos pacientes
tratado e placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
demais variveis
Centro Y
ij
= Melhora X
1ij
= Tratamento X
2ij
. . . X
mij
1 1 1
1 0 0
2 0 1
2 0 0
3 0 1
3 1 0
.
.
.
.
.
.
.
.
.
.
.
. . . .
.
.
.
demais variveis
Centro Y
i
= Melhora Z
1i
= Tratamento Z
2i
. . . Z
mi
1 1 1 (x
2i1
x
2i2
) . . . (x
mi1
x
mi2
)
3 0 1 (x
2i1
x
2i2
) . . . (x
mi1
x
mi2
)
.
.
.
.
.
.
.
.
.
.
.
. . . .
.
.
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Note que na ausncia das covariveis X
2
, . . . , X
k
, os dados
podem ser representados em uma tabela de contingncia
22 em que as respostas para o tratamento so cruzadas
com as respostas para o placebo.
Placebo
Tratamento Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
Assim, testar H
0
:
1
= 0 equivalente ao teste de McNemar.
Ainda, exp{
1
} estimado por n
12
/n
21
, sendo n
12
e n
21
as
contagens fora da diagonal principal da tabela.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Para avaliar um novo tratamento para um problema de
pele 79 clnicas. Em cada uma, um paciente recebeu
o tratamento e, o outro, um placebo).
Resposta: melhora ou no do problema.
clinica trat idade melhora grauini
1 1 27 0 1
1 0 32 0 2
2 1 41 1 3
2 0 47 0 1
3 1 19 1 4
3 0 31 0 4
... ... ... ... ...
79 1 22 0 1
79 0 19 1 4
grau inicial do problema (1 a 4 para leve a severo).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Tabela 1. TRV obtidos nos dados sobre tratamento de pele.
Modelos ln(L(, )) TRV valor p
Nulo 37,4299
Tratamento 35,5942 3,67 0,055
Idade | Trat 34,5466 2,09 0,148
Grau inicial | Trat, Idade 25,7545 17,58 < 0,001
Tratamento + Grau Inicial
Interao dupla no signicativa
Modelo trat + grauini
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Tabela 2. Estimativas associadas ao modelo ajustado.
estimativas erros-padro Z valor p
Tratamento (
1
) 0,711 0,349 2,04 0,0410
Grau inicial (
1
) 1,077 0,321 3,35 0,0008
Anlise dos resduos evidncias a favor do modelo.
a) a odds de melhora dos pacientes sob tratamento
exp{0, 711} 2 vezes a daqueles recebendo placebo.
b) a odds de melhora tambm cresce exp{1.077} 3
vezes para cada unidade de acrscimo no grau inicial.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Comandos R
> require(survival)
> skin<-read.table("skin.txt",h=T)
> attach(skin)
> model1<-clogit(melhora~trat+idade+grauini+strata(clinica))
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(melhora~trat+grauini+strata(clinica))
> model2
> summary(model2)
> plot(model2$residuals,pch=16,ylab="residuos",xlab="i")
## Teste de Mcnemar ##
> dados<-matrix(c(20,10,5,10),nc=2)
> dados
> mcnemar.test(dados,correct=F)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Estudo crossover de 2 perodos para avaliao dos tratamentos
A, B e P = Placebo em pacientes estraticados de acordo com
dois grupos de idade: jovens e adultos.
A sequncia A:B signica que a droga A foi administrada
durante o 1
o
perodo e a B no 2
o
perodo. P indica placebo.
Grupos de Sequncia Efeito
Idade Tratamentos FF FU UF UU Totais
Adultos A:B 12 12 6 20 50
Adultos B:P 8 5 6 31 50
Adultos P:A 5 3 22 20 50
Jovens B:A 19 3 25 3 50
Jovens A:P 25 6 6 13 50
Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = (1,1) = favorvel nos dois perodos; FU = (1,0) = favorvel no 1
o
perodo e no-favorvel no 2
o
;
UF = (0,1) = no favorvel no 1
o
perodo e favorvel no 2
o
, UU = (0, 0) = no favorvel nos dois perodos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Efeitos de interesse nesse estudo
efeito dos perodos
efeito das drogas
efeito dos grupos de idade
efeitos residuais das drogas A e B que resultam
da passagem do perodo 1 para o perodo 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
obs resp periodo drogaA drogaB gpidade resA resB
1 1 1 1 0 1 0 0
1 1 0 0 1 0 1 0
2 1 1 1 0 1 0 0
2 1 0 0 1 0 1 0
3 1 1 1 0 1 0 0
3 1 0 0 1 0 1 0
...
12 1 1 1 0 1 0 0
12 1 0 0 1 0 1 0
13 1 1 1 0 1 0 0
13 0 0 0 1 0 1 0
...
24 1 1 1 0 1 0 0
24 0 0 0 1 0 1 0
25 0 1 1 0 1 0 0
25 1 0 0 1 0 1 0
...
300 1 1 0 0 0 0 0
300 1 0 0 1 0 0 0
Obs: gpidade foi representado por (1,0) se adulto e (0,0) se jovem.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Anlogo situao anterior tem-se:
(Y
i1
, Y
i2
)
. .
(F, F) (F, U) (U, F) (U, U)
(1, 1)
. .
(1, 0)
. .
(0, 1)
. .
(0, 0)
. .
no-informativo informativo informativo no-informativo

Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS


Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
P((Y
i1
=1, Y
i2
=0) | (Y
i1
=1, Y
i2
=0) ou (Y
i1
=0, Y
i2
=1))
=
P(Y
i1
= 1)P(Y
i2
= 0)
P(Y
i1
= 1)P(Y
i2
= 0) +P(Y
i1
= 0)P(Y
i2
= 1)
=
exp{ +

(x
i1
x
i2
)}
1+exp{ +

(x
i1
x
i2
)}
=
exp{ +

z
i
}
1+exp{ +

z
i
}
z
i
= diferenas entre os valores das covariveis droga A,
droga B, gpidade, res A e res B, registrados nos perodos
1 e 2.
= efeito de perodos

1
e
2
= efeito das drogas A e B, respectivamente

3
= efeito de grupos de idade

4
e
5
= efeito residual das drogas A e B, respectivamente.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Para adultos foram associados aos perodos 1 e 2 os valores 1
e 0, respectivamente. E, para jovens, 0 para ambos os perodos,
de modo que z
idade
= 1, se adulto e z
idade
= 0, se jovem.
obs resp periodo drogaA drogaB gpidade resA resB
1 1 1 1 0 1 0 0
1 1 0 0 1 0 1 0
2 1 1 1 0 1 0 0
2 1 0 0 1 0 1 0
...
300 1 1 0 0 0 0 0
300 1 0 0 1 0 0 0
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Estimativas de mxima verossimilhana - modelo inicial.
estimativas erros-padro Wald valor p
Perodo (p
1
) () 1,4370 0,703 4,183 0,041
Droga A (
1
) 1,2467 0,681 3,354 0,067
Droga B (
2
) 0,0019 0,641 0,000 0,997
Gpidade (adultos) (
3
) 0,6912 0,465 2,205 0,137
Residual droga A (
4
) 0,1903 1,112 0,029 0,864
Residual droga B (
5
) 0,5653 1,156 0,239 0,624
Estimativas de mxima verossimilhana - modelo nal.
Estimativas Erros-padro Wald valor p
Perodo (p
1
) () 0,845 0,231 13,45 0,00024
Droga A (
1
) 1,408 0,341 17,09 < 0,0001
Droga B (
2
) 0,296 0,316 0,87 0,35
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Anlise de resduos evidncias favorveis ao modelo.
Efeitos das drogas A e B H
0
:
1
=
2
versus H
A
:
1
=
2
W =
(

2
)
2

Var(

2
)
=
(

2
)
2

Var(

1
) +

Var(

2
) 2

Cov(

1
,

2
)
= 12, 41
valor p = 0,0004 (g.l.= 1) indicando efeitos diferentes.
Odds ratios podem ser obtidas e interpretadas de modo
similar a dos demais estudos analisados. Por exemplo,
A odds de resposta favorvel dos pacientes sob a droga A foi
exp{1, 408} 4 vezes a dos que usaram placebo e, ainda,
exp{1, 4080, 296} 3 vezes a dos que usaram a droga B.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Comandos R
> require(survival)
> match<-read.table("cross.txt",h=T)
> attach(cross)
> model3<-clogit(resp~periodo+drogaA+drogaB+strata(obs),
data=cross)
> model3
> summary(model3)
> model3$loglik
> plot(model3$residuals, pch=16)
## testando H_0: gamma_1 = gamma_2 ##
> model3$var
> vardif<-model3$var[2,2] + model3$var[3,3]
-2
*
(model3$var[2,3])
> teste<-((1.408-0.296)/sqrt(vardif))^2
> cbind(teste, 1-pchisq(teste,1))
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Estudo realizado nos anos 70 em uma comunidade de
aposentadas para estudar a associao entre o uso de
estrognio e o cncer do endomtrio.
Nesse estudo, cada caso foi pareado a um controle que:
estava no mesmo ano de idade do caso
tinha o mesmo status marital do caso
vivia na mesma comunidade do caso quando do diagnstico.
Pareamento 1:1 63 casos / 63 controles.
Algumas das informaes coletadas foram sobre:
hipertenso (1 se sim e 0 se no)
histrico de vescula biliar (1 se sim e 0 se no)
uso de estrognio (1 se sim e 0 se no).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Endomtrio membrana que reveste a parede do tero.
Cncer do endomtrio incidncia crescente nas ltimas
duas dcadas, sendo o 2
o
tumor plvico mais frequente
entre as brasileiras. A maioria dos casos ocorre entre 60 e
70 anos, mas alguns casos podem ocorrer antes dos 40.
Estudos em animais tm mostrado que altos
nveis de estrognio resultam em crescimento
endometrial excessivo e cncer.
Sugerem ateno com anticoncepcionais
e terapias de reposio hormonais com
altos nveis de estrognio.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
par caso-controle estrognio histrico vescula biliar hipertenso
cc est hvb hip
1 1 1 0 0
1 0 0 0 0
2 1 1 0 0
2 0 0 0 1
3 1 1 0 1
3 0 1 0 1
...
47 1 1 1 1
47 0 0 0 0
...
63 1 1 1 0
63 0 1 0 0
Fonte: Stokes et al. (2000).
Pares no-informativos nesses estudos so aqueles
em que x
i1
= x
i2
. Por exemplo, o par 3.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Funo de verossimilhana associada ao estudo.
L() =
q

i=1
_
exp{

(x
i1
x
i2
)}
1+exp{

(x
i1
x
i2
)}
_
(x
i1
x
i2
) = diferenas dos valores das covariveis
do i-simo par caso-controle (i = 1, , q).
Esta funo corresponde funo de verossimilhana de
um modelo de regresso logstica no-condicional sem o
intercepto, em que a resposta Y sempre 1 e os valores
das covariveis so iguais a (x
i1
x
i2
).
Note que a contribuio para L() dos pares em que
x
i1
= x
i2
constante (= 0,5).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Estimativas associadas ao modelo nal ajustado.
estimativas erros-padro Wald valor p
HVB (
1
) 1,66 0,798 2,07 0,0381
EST (
2
) 2,78 0,760 3,65 0,0003
Anlise dos resduos favorvel ao modelo.
A odds de cncer endometrial das aposentadas com
histrico de vescula biliar foi exp{1, 66} 5 vezes a
daquelas sem tal histrico.
A odds de cncer endometrial das aposentadas que
usaram estrognio foi exp{2, 78} 16 vezes a das que
no usaram.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Comandos R
> require(survival)
> match<-read.table("match.txt",h=T)
> attach(match)
> model<-clogit(cc~hvb+est+strata(par),data=match)
> model
> model$loglik
> summary(model)
> plot(model$residuals, pch=16)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Referncias Bibliogrcas
Abreu, MNS; Siqueira, AL; Caiaffa, WT (2009). Regresso logstica ordinal em
estudos epidemiolgicos. Rev Sade Pblica, 43(1): 183-194.
Davison, AC; Gigli, A (1989). Deviance residuals and normal scores plots.
Biometrika, 76(2): 211-221.
Ben, MG; Yohai, VJ (2004). Quantile-quantile plot for deviance residuals in the
generalized linear model. Journal of Computational & Graphical Statistics, 13(1):
36-47.
Finney, DJ (1971). Estimation of the Median Effective Dose. Probit Analysis.
Cambridge University Press: London, 3rd ed., 1971.
Hosmer, DW; Lemeshow, S (1989, 2nd ed. 2000). Applied Logistic Regression.
New York: John Wiley & Sons.
Kelly, GE (2001). The Median Lethal Dose-Design and Estimation. J. R. Stat.
Soc., Ser. D, 50:41-50.
Kelly, GE; Lindsey, JK (2002). Robust estimation of the median lethal dose.
Journal of Biopharmaceutical Statistics, 12(2):137-147.
Kleibaum, DG (1994) Logistic Regression: a self-learning text. New York:
Springer Verlag.
Koch, GG; Imrey, PB; Singer, JM; Atkinson SS; Stokes ME (1985). Analysis of
categorical data. Montral: Les Presses de l

Universit de Montral.
Mantel, N (1963). Chi-square tests with one degree of freedom: Extensions of
the Mantel-Haenszel procedure, JASA, 58:690-700.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Referncias Bibliogrcas
Machado, EB (2006) Controle de Condylorrhiza vestigialis, a mariposa do lamo,
com o uso de C. vestigialis multiplenucleopolyhedrovirus em condies de
laboratrio e Campo. Dissertao de Mestrado, Engenharia Florestal, UFPR.
Mantel, N; Haenszel, W (1959). Statistical Aspects of the analysis of data from
retrospective studies of disease, J. of the National Cancer Institute, 22:719-748.
Pregibon, D (1981). Logistic regression diagnostics, Annals of Statistics,
9:705-724.
Santner, TJ; Duffy, DE (1989). The statistical analysis of discrete data. New
York: Springer-Verlag.
Silveira Neto, S; Nakano, O; Barbin, D; Villa Nova, NA (1976). Manual de
Ecologia dos Insetos. So Paulo: Agronmica Ceres, 419p.
Stokes, ME; Davis, CS; Koch, GG (2000). Categorical Data Analysis using the
SAS System. SAS Institute Inc., Cary, NC. USA.
Tuyns, AJ; Pequinot, G; Jensen, OM (1977). Le cancer de loesophage en Ille et
Vilaine en fonction del niveaux de consommation dalcool et de tabac: des
risques que se multiplient. Bull Cancer, 64: 45-60.
Wald, A (1943). Tests of Statistical Hypotheses concerning Several Parameters
when the Number of Observations is Large. Trans Amer Math Soc., 54:426-482.
Williams, DH (1986). Interval estimation of the median lethal dose. Biometrics,
42:641-645.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS

Вам также может понравиться