Академический Документы
Профессиональный Документы
Культура Документы
CATEGRICOS
SUELY RUIZ GIOLO
Departamento de Estatstica
Universidade Federal do Paran
giolo@ufpr.br
57
a
Reunio Anual da RBras
ESALQ/USP - Piracicaba/SP
05 a 09 de maio de 2012
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Contedo
1
Conceitos Introdutrios, Notao e Exemplos
2
Delineamentos Amostrais e Modelos Associados
3
Dados em Tabelas de Contingncia
Testes e Medidas de Associao
4
Alguns Modelos de Regresso
Resposta Binria ou Dicotmica
Resposta Politmica
Resposta Dicotmica em Dados Pareados
5
Diversas Ilustraes (Resultados - Software R)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Bibliograa Bsica
Agresti, A. (1995). Introduction to the Analysis of Categorical
Data. New York: Wiley.
Agresti, A. (2002). Categorical data analysis, 2nd ed. New York:
Wiley.
Everitt, B.S. (1977). The Analysis of Contingency Tables.
London: Chapman and Hall.
Hosmer, D.W.; Lemeshow, S. (2000). Applied Logistic
Regression. New York: John Wiley & Sons.
Freeman Jr, D.F. (1987). Applied Categorical Data Analysis.
New York: Marcel Dekker.
Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis of
Discrete Data. New York: Springer-Verlag.
Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical Data
Analysis using the SAS System. SAS. Inst Inc, Cary, NC. USA.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Bibliograa Complementar
Demtrio, C.G.B. (2001). Modelos Lineares Generalizados em
Experimentao Agronmica. Piracicaba: Minicurso 46
a
Rbras
e 9
o
SEAGRO.
Giolo, S.R. (2012). Introduo Anlise de Dados Categricos
com Aplicaes. Material Didtico, 190p.
Paula, G.A. (2010). Modelos de Regresso com Apoio
Computacional. URL: http://www.ime.usp.br/ giapaula/
Paulino, C.D.M.; Singer, J.M. (2006). Anlise de Dados
Categorizados. So Paulo: Blucher.
Poleto, F.Z. (2006). Anlise de Dados Categorizados com
Omisso. Dissertao de mestrado. So Paulo: Depto de
Estatstica, IME/USP.
Dentre outros ....
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Conceitos Introdutrios
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Introduo
Em diversos estudos comum o registro de variveis
qualitativas e quantitativas (contnuas ou discretas)
melhora do paciente (sim ou no)
desempenho do candidato (bom, regular ou pssimo)
local de moradia (norte, sul, leste, oeste)
horas de alvio de dor de cabea (0, 1, 2, 3 ou > 4)
idade (em anos)
Tais variveis so comumente classicadas de acordo
com suas respectivas escalas de mensurao
dicotmicas ou binrias
politmicas (ordinais ou nominais)
contagens discretas
contnuas
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Introduo
Por interesse do pesquisador, ou por convenincia,
variveis contnuas podem ser categorizadas.
idade: faixas etrias
resultado de um exame mdico: normal ou anormal
peso: obeso e no-obeso
peso: < 60, [60, 100), [100, 150) e 150kg.
Grupar categorias pode ser necessrio quando houver
categorias com frequncias muito pequenas ou nulas.
Em funo do delineamento amostral e dos objetivos, as
variveis podem ser, ainda, classicadas em:
variveis resposta
variveis explicativas.
Nem sempre tal classicao simples ou bvia.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Objetivos do Minicurso
Apresentar testes, medidas de associao e modelos de
regresso utilizados com frequncia em estudos em que:
varivel resposta: categrica
variveis explicativas: categricas e/ou contnuas.
politmica ordinal
varivel explicativa
_
Medicamentos politmica nominal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Inuncia de aditivos na gua sobre a limpeza das roupas.
Limpeza
Tratamentos Baixa Mdia Alta Totais
gua 27 14 5 46
gua + dose nica trat padro 10 17 26 53
gua + dose dupla trat padro 5 12 50 67
Totais 42 43 81 166
Fonte: Stokes et al. (2000)
varivel resposta
_
Limpeza das Roupas politmica ordinal
varivel explicativa
_
Tratamentos politmica ordinal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo sobre preferncia de programa de aprendizado.
Preferncia de Aprendizado
Escola Perodo Individual Grupo Sala Aula Totais
1 Padro 10 17 26 53
1 Integral 5 12 50 67
2 Padro 21 17 26 64
2 Integral 16 12 36 64
3 Padro 15 15 16 46
3 Integral 12 12 20 44
Fonte: Stokes et al. (2000)
varivel resposta
_
Preferncia Aprendizado politmica nominal
variveis explicativas
_
Escola politmica nominal
Perodo Escolar politmica nominal
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplos de Dados Categricos
Estudo crossover de dois perodos para avaliao de
tratamentos (A, B e P = Placebo) em jovens e adultos.
Sequncia Efeito
Idade Tratamentos FF FU UF UU Totais
Adultos A:B 12 12 6 20 50
Adultos B:P 8 5 6 31 50
Adultos P:A 5 3 22 20 50
Jovens B:A 19 3 25 3 50
Jovens A:P 25 6 6 13 50
Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = favorvel nos dois perodos; FU = favorvel no 1
o
perodo e no-favorvel no 2
o
;
UF = no favorvel no 1
o
perodo e favorvel no 2
o
, UU = no favorvel nos dois perodos.
Indivduo considerado como sendo seu prprio controle.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
A partir dos exemplos dados de estudos em que a
resposta e as variveis explicativas so categricas (ou
foram categorizadas) so, sempre que possvel, organi-
zados em Tabelas de Contingncia.
Nos casos em que se tem duas variveis, X e Y, com
ambas apresentando duas categorias cada.
Tabela de Contingncia 2 2.
Categorias da Categorias da resposta Y
varivel X j = 1 j = 2 Totais
i = 1 n
11
n
12
n
1+
i = 2 n
21
n
22
n
2+
Totais n
+1
n
+2
n
++
= n
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
Por convenincia, as categorias de X estaro dispostas
nas linhas da tabela, enquanto as de Y, nas colunas.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 n
11
n
12
n
1+
i = 2 n
21
n
22
n
2+
Totais n
+1
n
+2
n
Frequncias n
ij
indivduos na categoria i de X e
categoria j de Y, i, j = 1, 2.
Totais marginais-linha frequncias n
i+
(i = 1, 2).
Totais marginais-coluna frequncias n
+j
(j = 1, 2).
Total geral ou amostral n soma dos n
ij
, i, j = 1, 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 n
11
n
12
n
1+
i = 2 n
21
n
22
n
2+
Totais n
+1
n
+2
n
p
ij
= P(X = i, Y = j) probabilidades conjunta.
p
(i)j
= P(Y = j | X = i) probabilidades condicionais
p
i(j)
= P(X = i | Y = j) probabilidades condicionais
p
i+
= P(X = i) probabilidades marginais-linha
p
+j
= P(Y = j) probabilidades marginais-coluna
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Terminologia e Notao
Nos casos mais gerais Y e X
1
, . . . , X
k
Tabelas de Contingncia s r
Categorias da varivel resposta
Subpopulaes 1 2 r Totais
1 n
11
n
12
n
1r
n
1+
2 n
21
n
22
n
2r
n
2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
s n
s1
n
s2
n
sr
n
s+
Totais n
+1
n
+2
n
+r
n
Subpopulaes = combinaes das categorias de X
1
, . . . , X
k
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Alguns Delineamentos Amostrais
e
Modelos Associados
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Delineamentos Amostrais
Um estudo pode ser planejado de diferentes formas.
A escolha por uma delas depende, dentre outros:
Objetivos do estudo
Custos e tempo envolvidos para obteno dos resultados
Disponibilidade de uma equipe para conduo do estudo
Disponibilidade das unidades amostrais
Viabilidade de acompanhamento das unidades amostrais
A seguir, so apresentados alguns delineamentos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Estudos de Coorte
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Assim, para esses estudos tem-se:
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) n
1+
i = 2 (E) n
2+
Totais
Desse modo, a probabilidade de um indivduo pertencer a
categoria j de Y, estando na categoria i de X, dada por:
p
(i)j
= P(Y = j | X = i)
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
1
i = 2 (E) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
p
(1)1
incidncia entre os expostos
p
(2)1
incidncia entre os no-expostos
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Sendo assim:
_
N
11
Bin(n
1+
, p
(1)1
)
N
21
Bin(n
2+
, p
(2)1
)
Modelo probabilstico: produto de binomias
P(N
1
= n
1
, N
2
= n
2
) =
2
i=1
P(N
i1
= n
i1
, N
i2
= n
i2
)
=
2
i=1
_
(n
i+
)!
2
j=1
(p
(i)j
)
n
ij
(n
ij
)!
_
com (N
i
= n
i
) = (N
i1
= n
i1
, N
i2
= n
i2
), i = 1, 2.
Probabilidades p
(i)j
estimadas por:
p
(i)j
=
n
ij
n
i+
i, j = 1, 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
1
i = 2 (E) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
_
H
0
: p
(1)1
= p
(2)1
(= p
+1
) hiptese de homogeneidade
H
A
: p
(1)1
= p
(2)1
Karl Pearson props
Q
p
=
2
i=1
2
j=1
(n
ij
e
ij
)
2
e
ij
2
(1)
_
_
_
Sob H
0
E(N
i1
) = n
i+
(p
+1
) e E(N
i2
) = n
i+
(p
+2
)
Estimativas e
ij
=
(n
i+
)(n
+j
)
n
i, j = 1, 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Duas outras estatsticas comumente utilizadas so:
1
Estatstica da Razo de Verossimilhanas
Q
L
=2
2
i=1
2
j=1
n
ij
log
_
e
ij
n
ij
_
2
(1)
2
Estatstica de Neyman
Q
N
=
2
i=1
2
j=1
(n
ij
e
ij
)
2
n
ij
2
(1)
Em certas situaes Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
= (1p
(1)1
) 1
i = 2 (E) p
(2)1
p
(2)2
= (1p
(2)1
) 1
Totais p
+1
p
+2
1
Note que H
0
: p
(1)1
= p
(2)1
pode tambm ser expressa por:
a) H
0
: p
(1)1
p
(2)1
. .
= 0
diferena entre incidncias risco atribuvel
b) H
0
:
p
(1)1
p
(2)1
..
= 1
razo de incidncias risco relativo
c) H
0
:
p
(1)1
/(1p
(1)1
)
p
(2)1
/(1p
(2)1
)
=
p
(1)1
/p
(1)2
p
(2)1
/p
(2)2
=
p
(1)1
p
(2)2
p
(1)2
p
(2)1
. .
= 1
razo dos produtos cruzados odds ratio ou razo de chances
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
odds ou chance =
probabilidade evento ocorrer
probabilidade evento no ocorrer
Status de Evento de Interesse
Exposio Sim (D) No (D) Totais
E 80 20 100
E 25 75 100
Totais 105 95 200
odds
E
=
p
(1)1
1p
(1)1
odds
E
= 0,8/0,2 = 4/1
odds
E
=
p
(2)1
1p
(2)1
odds
E
= 0,25/0,75 = 1/3
odds ratio
E|E
=
odds
E
odds
E
OR = 12
risco relativo
E|E
=
p
(1)1
p
(2)1
RR = 0,8/0,25 = 3,2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
(1)1
p
(1)2
1
i = 2 (E) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
OR
E|E
=
odds
E
odds
E
=
p
(1)1
/p
(1)2
p
(2)1
/p
(2)2
=
p
(1)1
p
(2)2
p
(1)2
p
(2)1
OR
E|E
=
n
11
n
22
n
12
n
21
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Se RR = 1, a probabilidade de resposta positiva no
difere entre os indivduos expostos e no-expostos.
Se RR > 1, a probabilidade de resposta positiva
maior entre os indivduos expostos.
Se RR < 1, a probabilidade de resposta positiva
maior entre os indivduos no-expostos.
Se OR = 1, a chance de resposta positiva no difere
entre os indivduos expostos e no-expostos.
Se OR > 1, a chance de resposta positiva maior
entre os indivduos expostos.
Se OR < 1, a chance de resposta positiva maior
entre os indivduos no-expostos.
Chance e probabilidade no tm o mesmo signicado!
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estimao por Intervalo - Medidas de Associao
Risco Relativo IC = exp
_
f z
/2
_
V(f )
_
_
_
f = ln(RR) = ln(p
(1)1
) ln(p
(2)1
)
V(f ) =
(1p
(1)1
)
(n
1+
)(p
(1)1
)
+
(1p
(2)1
)
(n
2+
)(p
(2)1
)
z
/2
= 100(1 /2) percentil da N(0,1)
Odds Ratio IC = exp
_
f z
/2
_
V(f )
_
_
_
f = ln(OR)
V(f ) =
_
1
n
11
+
1
n
12
+
1
n
21
+
1
n
22
_
z
/2
= 100(1 /2) percentil da N(0,1)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
Obs: instalar package epiR http://www.r-project.org/
> require(epiR)
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count",
conf.level=0.95, units=100, verbose=FALSE)
Disease + Disease - Total Inc risk Odds
Exposed + 80 20 100 80.0 4.000
Exposed - 25 75 100 25.0 0.333
Total 105 95 200 52.5 1.105
Point estimates and 95% CIs:
---------------------------------------------------------
Inc risk ratio 3.2 (2.25, 4.56)
Odds ratio 12 (6.16, 23.38)
---------------------------------------------------------
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count",
conf.level=0.95, units=100, verbose=TRUE)
$RR
est se lower upper
1 3.2 1.197550 2.247488 4.556197
$OR
est se lower upper
1 12 1.405430 6.158583 23.38200
$chisq
test.statistic df p.value
1 60.65163 1 6.77236e-15
-------------------------------------
# Testes de Pearson e Fisher
> dados<-matrix(c(80,25,20,75),nc=2)
> chisq.test(dados,correct=F)
> fisher.test(dados)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Ensaio Clnico Aleatorizado
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
X Y = Desfecho
Grupos j = 1 (Com) j = 2 (Sem) Totais
i = 1 (Tratado) p
(1)1
p
(1)2
1
i = 2 (Controle) p
(2)1
p
(2)2
1
Totais p
+1
p
+2
1
Delineamento Similar ao dos Estudos de Coorte
j=1
_
(n
+j
)!
2
i=1
(p
i(j)
)
n
ij
(n
ij
)!
_
com (N
j
= n
j
) = (N
1j
= n
1j
, N
2j
= n
2j
) e
2
i=1
p
i(j)
= 1, j = 1, 2.
Probabilidades p
i(j)
, i, j = 1, 2, estimadas por:
p
i(j)
=
n
ij
n
+j
Se a suposio de independncia entre casos e controles
no for razovel metodologias mais apropriadas.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
_
H
0
: p
1(1)
= p
1(2)
(= p
1+
) hiptese de homogeneidade
H
A
: p
1(1)
= p
1(2)
Q
p
=
2
i=1
2
j=1
(n
ij
e
ij
)
2
e
ij
2
(1)
_
_
_
Sob H
0
E(N
1j
) = n
+j
(p
1+
) e E(N
2j
) = n
+j
(p
2+
)
Estimativas e
ij
=
(n
i+
)(n
+j
)
n
i, j = 1, 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
Note que H
0
: p
1(1)
= p
1(2)
pode tambm ser expressa por:
H
0
:
p
1(1)
/(1p
1(1)
)
p
1(2)
/(1p
1(2)
)
=
p
1(1)
/p
2(1)
p
1(2)
/p
2(2)
=
p
1(1)
p
2(2)
p
2(1)
p
1(2)
. .
= 1
odds ratio ou razo de chances ou dos produtos cruzados
RR = P(D|E)/P(D|
odds
C
= 0,6/0,4 = 3/2
odds
C
=
p
1(2)
1p
1(2)
odds
E
= 0,20/0,80 = 1/4
odds ratio
C|C
=
odds
C
odds
C
OR = 6
Nesse exemplo, a chance de exposio ao fator sob estudo
foi maior entre os casos do que entre os controles.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p
1(1)
p
1(2)
p
1+
i = 2 (E) p
2(1)
p
2(2)
p
2+
Totais 1 1 1
OR
C|C
=
odds
C
odds
C
=
p
1(1)
/p
2(1)
p
1(2)
/p
2(2)
=
p
1(1)
p
2(2)
p
1(2)
p
2(1)
OR
C|C
=
n
11
n
22
n
12
n
21
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> require(epiR)
> epi.2by2(a=60, b=20, c=40, d=80, method ="case.control",
conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0 ?
Exposed - 40 80 120 33.3 0.5 ?
Total 100 100 200 50.0 1.0 ?
> epi.2by2(a=60, b=40, c=20, d=80, method ="case.control",
conf.level = 0.95, units=100, verbose = FALSE)
Exposed + Exposed - Total Prevalence Odds
Disease + 60 40 100 60 1.500
Disease - 20 80 100 20 0.250
Total 80 120 200 40 0.667
Point estimates and 95% CIs:
---------------------------------------------------------
Odds ratio 6 (3.19, 11.29)
---------------------------------------------------------
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Relao entre odds ratio e risco relativo
Doenas raras Estudos de Coorte so inviveis.
Nesses casos Estudos Caso-Controle so usuais.
Resultado: Se doena rara RR OR
De fato,
D = doena, D = no doena, P(D) = 1P(D)
E = exposio e E = no-exposio
RR =
p
(1)1
p
(2)1
=
P(D|E)
P(D|E)
=
P(D)P(E|D)/[P(D)P(E|D) +P(D)P(E|D)]
P(D)P(E|D)/[P(D)P(E|D) +P(D)P(E|D)]
=
P(E|D){P(E|D) +P(D)[P(E|D) P(E|D)]}
P(E|D){P(E|D) +P(D)[P(E|D) P(E|D)]}
Se doena rara, P(D) 0
. .
RR
P(E|D)P(E|D)
P(E|D)P(E|D)
=
p
1(1)
p
2(2)
p
2(1)
p
1(2)
= OR
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Clnico-Epidemiolgicos
Estudos Transversais ou Cross-Sectional
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Embora ambas as variveis sejam respostas, uma delas
usualmente classicada como varivel explicativa.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
i = 2
Totais n
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p
11
p
12
i = 2 p
21
p
22
Totais 1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p
11
p
12
i = 2 p
21
p
22
Totais 1
Categorias de X
i = 1 i = 2
Categorias de Y j = 1 j = 2 j = 1 j = 2 Total
p
11
p
12
p
21
p
22
1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Modelo probabilstico: Multinomial tal que:
P(N = n) = P(N
11
= n
11
, N
12
= n
12
, N
21
= n
21
, N
22
= n
22
)
= n!
2
i=1
2
j=1
(p
ij
)
n
ij
(n
ij
)!
em que n
ij
0,
2
i,j=1
n
ij
= n e
2
i,j=1
p
ij
= 1.
Probabilidades p
ij
(i, j = 1, 2) estimadas por:
p
ij
=
n
ij
n
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p
11
p
12
p
1+
i = 2 p
21
p
22
p
2+
Totais p
+1
p
+2
1
_
H
0
: p
ij
= (p
i+
)(p
+j
), para i, j = 1, 2
H
A
: p
ij
= (p
i+
)(p
+j
), para pelo menos um par (i, j),
H
0
usualmente denominada hiptese de independncia,
pois a ausncia de associao, em termos probabilsticos,
signica independncia mtua.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos Transversais ou Cross-Sectional
Considerando o modelo Multinomial a tais estudos
OR =
n
11
n
22
n
12
n
21
e
RP =
n
11
/n
1+
n
21
/n
2+
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=60, b=20, c=40, d=80, method="cross.sectional",
conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0
Exposed - 40 80 120 33.3 0.5
Total 100 100 200 50.0 1.0
Point estimates and 95% CIs:
-----------------------------------------------------------
Prevalence ratio 2.25 (1.70, 2.99)
Odds ratio 6 (3.19, 11.29)
-----------------------------------------------------------
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Durante o planejamento e execuo dos estudos, nem
sempre possvel estabelecer o total de participantes.
Tempo de durao do estudo , ento, pr-estabelecido.
Sendo assim, N
ij
, i, j = 1,2, so contagens aleatrias, com
N
ij
, e tambm N, conhecidas somente aps o trmino da
coleta dos dados.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
i = 2
Totais
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Insetos coletados em armadilhas e sexados.
Sexo
Armadilha Machos Fmeas Totais
Alaranjada 246 17 263
Amarela 458 32 490
Totais 704 49 753
Fonte: Silveira Neto et al. (1976), Demtrio (2001)
Assumindo que certas suposies so vlidas/razoveis.
em um determinado intervalo de tempo, o n
o
de insetos independente do n
o
de insetos em qualquer outro intervalo disjunto,
a distribuio do nmero de insetos depende somente do comprimento do
intervalo de tempo considerado e no do seu instante inicial,
a probabilidade de um inseto passar em um intervalo de tempo sucientemente
pequeno proporcional ao comprimento do intervalo,
a probabilidade de que dois ou mais insetos passem simultaneamente em um
intervalo de tempo sucientemente pequeno desprezvel.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Ento, usual assumir
N
ij
Poisson (
ij
= t
ij
), i, j = 1, 2
ij
a taxa mdia por unidade de tempo
t a durao do experimento.
Considerando N
ij
independentes, i, j = 1, 2
Modelo Produto de Poisson independentes
P(N = n) =
2
i=1
2
j=1
P(N
ij
= n
ij
) =
2
i=1
2
j=1
e
ij
(
ij
)
n
ij
(n
ij
)!
,
ij
> 0
com (N = n) = (N
11
= n
11
, N
12
= n
12
, N
21
= n
21
, N
22
= n
22
).
Estimativas
ij
= n
ij
, i, j = 1, 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estudos com Tempo de Durao Fixado
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
11
12
1+
i = 2
21
22
2+
Totais
+1
+2
Sob este modelo, ausncia de associao entre X e Y
_
H
0
:
1j
1+
=
2j
2+
_
=
+j
_
, para j = 1,2.
H
A
:
1j
1+
=
2j
2+
_
H
0
:
ij
=
(
i+
) (
+j
)
, para i, j = 1,2.
H
A
:
ij
=
(
i+
) (
+j
)
Logo, e
ij
=
(n
i+
)(n
+j
)
n
, pois
i+
= n
i+
,
+j
= n
+j
e
= n.
Obs: estudos dessa natureza so frequentemente
analisados assumindo-se o modelo Multinomial.
Justicativa: a distribuio de probabilidades do vetor
(N
11
, . . . , N
22
), N
ij
Poisson independentes, condicional
soma N =
i,j
N
ij
, segue distribuio Multinomial (N, p),
com p = (p
11
, . . . , p
22
), em que p
ij
=
ij
i,j
ij
, para i, j = 1, 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Consideraes sobre os Delineamentos Amostrais
Os delineamentos amostrais apresentados esto dentre
os mais usuais. Como visto, seus respectivos modelos
probabilsticos so obtidos com base nos esquemas
amostrais adotados.
Naturalmente, em estudos com outros esquemas, haver
a necessidade de se considerar outros modelos.
As concluses estaro, contudo, condicionadas validade
das suposies distribucionais.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Alguns Estudos Descritos na Literatura
1
Framingham Heart Study
fatores associados doenas cardiovasculares.
2
Nurses Health Study
consequncias do uso de contraceptivos orais a longo prazo.
3
Life Span Study
expectativa de vida - efeito radiao bomba atmica Japo.
4
Pelotas Birth Cohort Study
sade infantil e materna.
5
Baependi Heart Study
fatores associados doenas cardiovasculares - populao miscigenada.
6
Medicine, Angioplasty, or Surgery Study (MASS-II).
comparao de tratamentos - pacientes c/ doena coronria multiarterial.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Extenses
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r ( > 2)
1. Variveis Y e X nominais
Estabelecidas as hipteses apropriadas:
Se n
i+
xos hiptese de homogeneidade
Se n xo hiptese de independncia
Se totais aleatrios hiptese de multiplicatividade
Q
P
=
s
i=1
r
j=1
(n
ij
e
ij
)
2
e
ij
2
(s1)(r1)
com e
ij
=
(n
i+
)(n
+j
)
n
, i = 1, . . . , s e j = 1, . . . , r.
Alternativamente Estatsticas Q
L
ou Q
N
.
Em algumas situaes Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Exemplo: X e Y nominais e n xo (s e r > 2
Estudo transversal para avaliar a presena de associao
entre partido poltico e local de moradia.
Local de Moradia
Partido Poltico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 836 548 2570
Fonte: Stokes et al. (2000)
Modelo associado Multinomial
_
H
0
: p
ij
= (p
i+
) (p
+j
), para i = 1, 2, 3 e j = 1, 2, 3, 4
H
A
: p
ij
= (p
i+
) (p
+j
), para pelo menos um par (i, j).
Q
P
= 273,92 (p < 0,0001, g.l = 6) h evidncias de
associao entre partido poltico e local de moradia.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> dados<-matrix(c(221,200,208,160,291,106,360,160,316,
140,311,97),nc=4)
> dados
[,1] [,2] [,3] [,4]
[1,] 221 160 360 140
[2,] 200 291 160 311
[3,] 208 106 316 97
> chisq.test(dados,correct=F)
Pearsons Chi-squared test
data: dados
X-squared = 273.9188, df = 6, p-value < 2.2e-16
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r
2. Varivel Y ordinal e X nominal com totais n
i+
xos
Avaliao de tratamentos em pacientes com artrite reumatide.
Melhora do Paciente
Tratamentos Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Fonte: Stokes et al. (2000)
Nesses casos, a estatstica Q
P
pode ser utilizada para
testar H
0
: p
1
= p
2
= ... = p
r
(hptese de homogeneidade)
Modelo associado Produto de multinomiais.
Contudo, a natureza ordinal da varivel resposta no
estaria sendo levada em considerao.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Varivel Y ordinal e X nominal com totais n
i+
xos
Alternativa atribuir escores a = (a
1
, a
2
, . . . , a
r
) para as
categorias de Y e denir um escore mdio F
i
para cada
subpopulao tal que:
F
i
=
r
j=1
a
j
(p
(i)j
) i = 1, . . . , s.
Se s = 2, como no exemplo da artrite H
0
: F
1
= F
2
.
f
i
=
r
j=1
a
j
(p
(i)j
) =
r
j=1
a
j
_
n
ij
n
i+
_
, i = 1, 2
E(f
1
|H
0
) =
r
j=1
a
j
_
E(N
1j
)
n
1+
_
=
r
j=1
a
j
_
n
+j
n
_
=
a
V(f
1
|H
0
) =
(n n
1+
)
(n
1+
)(n1)
r
j=1
(a
j
a
)
2
_
n
+j
n
_
. .
=
(n n
1+
)
(n
1+
)(n1)
a
.
a
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Varivel Y ordinal e X nominal com totais n
i+
xos
Desse modo, para testar H
0
: F
1
= F
2
foi proposto:
Q
S
=
(f
1
a
)
2
(n n
1+
)
(n
1+
)(n1)
a
=
(n1)
(nn
1+
)
(n
1+
)(f
1
a
)
2
v
a
. .
2
1
estatstica escore mdio
Se s > 2 H
0
: F
1
= F
2
= . . . = F
s
.
Q
S
=
(n1)
n
s
i=1
(n
i+
)(f
i
a
)
2
v
a
. .
2
(s1)
estatstica escore mdio
Se H
0
for rejeitada comparaes dois a dois.
i=1
2
j=1
c
i
a
j
p
ij
Estimativa f =
3
i=1
2
j=1
c
i
a
j
p
ij
=
3
i=1
2
j=1
c
i
a
j
n
ij
n
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Variveis Y e X ordinais e total n xo
Sob H
0
segue que:
E(f ) =
3
i=1
2
j=1
c
i
a
j
n
E(N
ij
) =
3
i=1
c
i
_
n
i+
n
_ 2
j=1
a
j
_
n
+j
n
_
=
c
a
V(f ) =
_
3
i=1
(c
i
c
)
2
_
n
i+
n
_ 2
j=1
(a
j
a
)
2
(n
+j
/n)
(n1)
_
.
Para amostras grandes f Normal.
Q
CS
=
(f
c
a
)
2
V(f )
= . . . = (n 1)(r
ac
)
2
. .
2
1
estatstica da correlao
com r
ac
o coeciente de correlao de Pearson.
Dados de tabaco Q
CS
= 42, 94 (p < 0,0001)
H associao entre a conscincia do risco e o uso de tabaco.
Uso tabaco medida que conscincia do risco (r
ac
=0, 274).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> x<-c(rep(1,103),rep(2,242),rep(3,229))
> y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40),
rep(0,218),rep(1,11))
> rac<-cor(y,x)
> rac
[1] -0.2737401
> n<-length(x)
> QCS<-(n-1)
*
rac^2
> p<-1-pchisq(QCS,1)
> cbind(QCS,p)
QCS p
[1,] 42.93697 5.653222e-11
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Outra situao em que Y e X ordinais
3.2 Variveis Y e X ordinais e totais n
i+
xos
Inuncia de aditivos na gua sobre a limpeza das roupas.
Limpeza
Tratamentos Baixa Mdia Alta Totais
gua 27 14 5 46
gua + dose nica trat padro 10 17 26 53
gua + dose dupla trat padro 5 12 50 67
Totais 42 43 81 166
Fonte: Stokes et al. (2000)
Assumindo: a = (1, 2, 3) categorias de limpeza das roupas
c = (1, 2, 3) categorias de tratamento.
Q
CS
= 50,6 (p < 0,0001, g.l.=1), com r
ac
= 0,554.
H evidencias de associao entre X e Y.
Limpeza com o da dosagem pois r
ac
> 0.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Variveis Y e X ordinais e totais n
i+
xos)
Em contrapartida, como os n
i+
so xos
Q
S
= 52,77 (p < 0, 00001, g.l.= 2).
Comparaes dos tratamentos, dois a dois:
_
_
_
H
0
:
F
1
=
F
2
Q
S
= 21, 71 (p < 0, 0001, g.l. = 1)
H
0
:
F
1
=
F
3
Q
S
= 49, 06 (p < 0, 0001, g.l. = 1)
H
0
:
F
2
=
F
3
Q
S
= 8, 02 (p = 0, 0046, g.l. = 1).
Para = 0, 05 0,05/3 = 0,017.
Rejeita-se as trs hipteses nulas testadas.
Como
f
1
= 1,52 <
f
2
= 2,30 <
f
3
= 2,67
Limpeza das roupas com o da dosagem do aditivo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Tabelas de Contingncia s r
Assim, se as variveis Y e X forem ordinais e escores
puderem ser assumidos para as categorias de ambas
h=1
n
h11
h=1
e
h11
_
2
q
h=1
v
h11
2
(1)
Q
MH
ecaz para avaliar associaes se a maioria das
diferenas (p
h(1)1
p
h(2)1
) apresentar o mesmo sinal.
Havendo homogeneidade das OR nas q tabelas 2 2
OR
MH
=
q
h=1
n
h11
n
h22
n
h
q
h=1
n
h12
n
h21
n
h
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resultados - Ensaio Clnico Multicentros
Q
MH
= 18, 41 (p < 0,0001), indicando associao entre as
variveis tratamento e resposta do paciente, controlando
pela varivel estraticadora centro mdico.
Tambm, o medicamento novo apresenta proporo de
resposta favorvel maior do que a do placebo, uma vez
que p
h(1)1
>p
h(2)1
, para h = 1, 2.
OR
1
= 4, 01 e
OR
2
= 4, 04 (homogneas)
OR
MH
= 4, 028 a odds de melhora dos
pacientes que receberam o novo tratamento
foi 4 vezes a dos que receberam placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))
> mantelhaen.test(tab, correct=F)
Mantel-Haenszel test without continuity correction
data: tab
X-squared = 18.4106, df = 1, p-value = 1.781e-05
alternative hypothesis: true common odds ratio
is not equal to 1
95 percent confidence interval:
2.105716 7.708353
sample estimates:
common odds ratio
4.028846
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Extenses da Estatstica de Mantel-Haenszel
Extenses na presena de uma varivel estraticadora
Y ordinal e X nominal com totais n
i+
xos Q
SMH
Y e X ordinais com totais n
i+
xos Q
SMH
ou Q
CSMH
Y e X ordinais com total n xo Q
CSMH
Q
SMH
Estatstica escore mdio estendida de M-H
Q
SMH
Estatstica da correlao estendida de M-H
Para mais detalhes Stokes et al. (2000).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelos para Dados com
Resposta Dicotmica
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Dados com Resposta Binria ou Dicotmica
Para estudar a existncia de associao entre um con-
junto de variveis X = (X
1
, X
2
, ..., X
k
) e uma resposta
dicotmica Y modelos de regresso so usuais.
X
1
X
2
... X
k
. .
Y
..
O modelo de regresso logstica um dos mais populares
nestas situaes.
Quanto s variveis X, estas podem ser um
misto de variveis categricas e contnuas.
As categricas so incorporadas aos modelos
por meio de variveis dummy.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
Para introduzir o modelo de regresso logstica, considere
os dados de um estudo sobre doena coronariana.
Doena coronria
Idade (X = x) Sim (Y = 1) No (Y = 0) Totais P(Y = 1 | x)
20-29 1 9 10 0,10
30-34 2 13 15 0,13
35-39 3 9 12 0,25
40-44 5 10 15 0,33
45-49 6 7 13 0,46
50-54 5 3 8 0,63
55-59 13 4 17 0,76
60-69 8 2 10 0,80
Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
E(Y | x)
. .
= 1 P(Y = 1 | x) + 0 P(Y = 0 | x) = P(Y = 1 | x)
. .
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
30 40 50 60
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
0
.
7
0
.
8
Idade(em anos)
E
[
Y
|
x
]
Note que medida que a x = idade cresce, E(Y | x) tambm cresce.
A mudana na E(Y | x) por unidade de mudana em x se torna
progressivamente menor quando E(Y | x) prxima de 0 ou 1.
Relao entre idade e E(Y | x) no , portanto, linear, mas sim
sigmoidal (forma de S).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
Similar regresso linear interesse em modelar E(Y | x).
Necessrio, contudo, considerar que:
E(Y | x) pertence ao intervalo [0, 1].
Relao entre X e E(Y | x) tem a forma de S.
0
+
p
k=1
k
x
k
_
1 +exp
_
0
+
p
k=1
k
x
k
_
1 (x) =
1
1 +exp
_
0
+
p
k=1
k
x
k
_
.
sendo x = (x
1
, x
2
, . . . , x
p
) = valores observados das variveis X,
0
= constante e
k
(k = 1, . . . , p) os p parmetros de regresso.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Dicotmica
(x) =
exp{
x}
1+exp{
x}
e 1(x) =
1
1+exp{
x}
ln
_
(x)
1(x)
_
=
0
+
p
k=1
k
x
k
=
x.
Esta transformao denominada logito.
A razo entre (x) e 1(x) denio de odds
odds =
(x)
1(x)
= exp
_
x
_
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Estimao do vetor e das varincias-covarincias de
=1
P(Y = y
| x
) =
n
=1
_
(x
)
_
y
_
1(x
)
_
1y
= 0, c.c.
Valores de que maximizam lnL()
.
Distribuio assinttica de
Normal
Estimao da matriz de varincias-covarincias de
() = [I()]
1
= matriz de varincias-covarincias
I() = matriz contendo o negativo das derivadas
parciais de 2
a
ordem de lnL().
Estimadores so obtidos por avaliar () em
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Signicncia dos Efeitos das Variveis
Testar hipteses relativas aos parmetros
k
(k = 1, . . . , p)
1. Teste da Razo de Verossimilhanas (TRV)
TRV =2ln
_
L
S
L
C
_
= 2ln(L
C
) 2ln(L
S
)
. .
2
(q)
diferena de deviances
L
S
: funo de verossimilhana associada ao modelo sem a(s)
varivel(is) sob investigao
L
C
: funo de verossimilhana associada ao modelo com a(s)
varivel(is) sob investigao
q = diferena de parmetros entre os dois modelos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Anlise de Deviances e Seleo de Modelos
Considere que modelos encaixados sejam ajustados aos
dados de um estudo em que Y binria e X
1
e X
2
so
categricas com duas categorias cada.
Tabela de Anlise de Deviances (ANODEV).
Modelos g.l. Deviances TRV = g.l.
Nulo gl
N
D
N
X
1
gl
N
1 D
1
D
N
D
1
1
X
2
| X
1
gl
N
2 D
2
D
1
D
2
1
X
1
X
2
| X
1
, X
2
gl
N
3 D
3
D
2
D
3
1
gl
N
= g.l. do modelo nulo = nmero de subpopulaes 1
Obs: na presena de dados faltantes, o tamanho amostral
nos modelos sequenciais depender das variveis X
k
que
os compem TRV apresentar problemas.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Signicncia dos Efeitos das Variveis
2. Teste de Wald (Wald, 1943)
i) Para testar hipteses relativas a um parmetro
H
0
:
k
= 0, k = 1, . . . , p
W =
(
j
)
2
Var(
j
)
2
1
ii) Para hipteses relativas a q 2 parmetros
H
0
:
= 0 (
= vetor q1)
W = (
)]
1
(
)
2
q
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Diagnstico do Modelo Ajustado
Sob a hiptese H
0
: modelo ajustado satisfatrio, faz-se
uso de estatisticas que resumem a concordncia entre os
valores observados e os preditos pelo modelo.
Q
P
=
i,j
_
n
ij
e
ij
_
2
e
ij
2
m
Q
L
= 2
i,j
n
ij
ln
_
n
ij
e
ij
_
2
m
e
ij
= n
i+
(x
i
), j = 1 e e
ij
= n
i+
(1
(x
i
)), j = 2.
n
i+
= sujeitos na i-sima subpopulao da tabela de dados s 2.
(x
i
) = probabilidade P(Y = 1 | x
i
) predita pelo modelo ajustado.
e
ij
= frequncias esperadas sob o modelo ajustado.
m = n
o
subpopulaes n
o
parmetros do modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Diagnstico do Modelo Ajustado
Na presena de variveis contnuas frequncias muito
pequenas para a grande maioria das s subpopulaes.
inviabiliza o uso de Q
L
e Q
P
i=1
(o
i
n
i
(x
i
))
2
n
i
(x
i
)(1(x
i
))
2
(g2)
n
i
= frequncia de observaes no grupo i
o
i
= frequncia de resposta Y = 1 no grupo i
(x
i
) = probab. mdia estimada de resposta Y = 1 no grupo i.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> dados1<-read.table("chd4a.txt",h=T)
> attach(dados1)
> dados1
dc sexo ecg idade
1 0 0 0 28
2 0 0 0 34
3 0 0 0 38
4 1 0 0 41
...
76 1 1 2 58
77 1 1 2 59
78 1 1 2 60
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Recursos do Software R
Comandos R
> ajust<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"),
data=dados1)
> summary(ajust)
> anova(ajust, test="Chisq")
> source("http://www.poleto.com/funcoes/gof.bino.txt")
> gof.bino(ajust, grupos=10)
$x2
[1] 5.754939
$df
[1] 8
$pvalue
[1] 0.6746605
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resduos de Pearson e Resduos Deviance
Limitao das estatsticas Q
p
e Q
L
nico valor utilizado
para resumir uma quantidade considervel de informao.
Pregibon (1981) estendeu os mtodos de diagnstico de
regresso linear para a regresso logstica, fazendo uso
dos componentes individuais das estatsticas Q
p
e Q
L
.
c
i
=
n
i1
(n
i+
)
(x
i
)
_
(n
i+
)
(x
i
)(1
(x
i
))
. .
, i = 1, , s.
resduos de Pearson
Componentes c
i
so denominados resduos de Pearson,
pois a soma deles ao quadrado resulta em Q
P
, i.e.,
Q
P
=
s
i=1
(c
i
)
2
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resduos deviance
Analogamente, os componentes d
i
so denominados
resduos deviance, pois a soma deles ao quadrado
resulta em Q
L
, isto ,
Q
L
=
s
i=1
(d
i
)
2
.
d
i
=
_
2n
i1
ln
_
n
i1
e
i1
_
+2(n
i+
n
i1
)ln
_
n
i+
n
i1
n
i+
e
i1
__
1/2
. .
resduos deviance
e
i1
= (n
i+
)
(x
i
), para i = 1, . . . , s.
sinal de d
i
denido a partir das diferenas (n
i1
e
i1
).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resduos deviance
Distribuio aproximada dos resduos c
i
e d
i
N(0, 1).
Resduos excedendo 2,5 pode indicar
possvel falta de ajuste do modelo
presena de outliers
padres sistemticos de variao.
1 2 3 4 5 6 7 8
0
.
4
0
.
2
0
.
0
0
.
2
0
.
4
R
e
s
d
u
o
s
d
e
P
e
a
r
s
o
n
1 2 3 4 5 6 7 8
0
.
4
0
.
2
0
.
0
0
.
2
0
.
4
i
R
e
s
d
u
o
s
d
e
v
i
a
n
c
e
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Sobre a Distribuio dos Resduos
Assumindo que os resduos d
i
seguem distribuio
aproximada normal construir normal Q-Q plot com
envelope simulado (Davison e Gigli, 1989).
2 1 0 1 2
1
0
1
2
Percentis
D
e
v
i
a
n
c
e
QQ Plot QQ Plot QQ Plot
Se os resduos estiverem dentro do envelope simulado
evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Sobre a Distribuio dos Resduos
Ben e Yohai (2004) argumentam, contudo, que para
alguns MLG, tal distribuio pode estar distante da
normalidade.
Assim, propuseram uma estimativa da distribuio dos
resduos d
i
, de modo que no Q-Q plot tais resduos so
gracado versus os quantis da distribuio estimada.
Ben MG, Yohai VJ (2004). Quantile-quantile plot for
deviance residuals in the generalized linear model.
J. of Comput. & Graphical Statistics, 13(1): 36-47.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Mtodos Auxiliares
Poder Preditivo do Modelo Ajustado
Para avaliar o poder preditivo do modelo necessrio
estabelecer um ponto de corte (0 < pc < 1), tal que:
a) Probabilidades preditas pelo modelo pc Y = 1
b) Probabilidades preditas pelo modelo < pc Y = 0.
Resposta Resposta Predita pelo Modelo
Observada Y = 1 (+) Y = 0 () Totais
Y = 1 (+) a b (a + b)
Y = 0 () c d (c + d)
Totais (a + c) (b + d) n
Sensibilidade =
a
a+b
= taxa de verdadeiros +
Especicidade =
d
c+d
= taxa de verdadeiros
Valor Preditivo =
a+d
n
= proporo geral de acertos
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Mtodos Auxiliares
Para diversos pontos de corte Curva ROC
Pares (x, y) = (1 especicidade, sensibilidade).
Modelo com discriminao perfeita (x, y) = (0,1).
Pontos de corte prximos ao canto superior esquerdo,
produziro os maiores % de acertos (V+ e V).
Quanto mais prxima de 1 for a rea abaixo da curva,
melhor o poder de predio do modelo.
1 especificidade
s
e
n
s
i
b
i
l
i
d
a
d
e
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Doena coronria
Idade (X = x) Sim (Y = 1) No (Y = 0) Totais E(Y | x)
20-29 1 9 10 0,10
30-34 2 13 15 0,13
35-39 3 9 12 0,25
40-44 5 10 15 0,33
45-49 6 7 13 0,46
50-54 5 3 8 0,63
55-59 13 4 17 0,76
60-69 8 2 10 0,80
Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
0
= 5,123 (e.p. = 1,11) e
1
= 0,1058 (e.p. = 0,023).
(x) =
exp{5, 123 +0, 1058 x}
1 +exp{5, 123 +0, 1058 x}
ln
_
(x)
1
(x)
_
=5, 123 +0, 1058 x
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Tabela 1. Diferenas de deviances
Modelos g.l. Deviances Diferenas = g.l.
Nulo 7 28,7015
X: idade 6 0,5838 28,1177 1
Tabela 2. Anlise de Deviance (ANODEV)
Fonte de variao g.l. Deviances TRV valor p
Regresso 1 28,1177 28,1177 < 0,00001
Deviance residual 6 0,5838
Deviance total 7 28,7015
Evidncias de associao entre idade e doena coronria.
Ainda, teste de Wald W = 20, 49 (g.l. = 1, p < 0, 00001)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Q
p
= 0,59 (p = 0,9965) e Q
L
= 0,58 (p = 0,9967), g.l.= 6.
Resduos c
i
e d
i
entre 2,5 e 2,5.
1 2 3 4 5 6 7 8
1
0
1
2
Index
r
e
s
d
u
o
s
P
e
a
r
s
o
n
1 2 3 4 5 6 7 8
1
0
1
2
Index
r
e
s
d
u
o
s
d
e
v
i
a
n
c
e
1.5 1.0 0.5 0.0 0.5 1.0 1.5
1
0
1
2
3
Normal QQ Plot
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e
d
o
D
e
s
v
io
Normal QQ Plot Normal QQ Plot Normal QQ Plot
rea abaixo da curva ROC: AUC = 0,7838.
Evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
30 40 50 60
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
idade
E
(
Y
|
x
)
A partir do modelo ajustado tem-se, por exemplo:
x
i
(x
i
) 1
(x
i
)
(x
i
)
1
(x
i
)
= exp{
0
+
1
x
i
}
26 0,0853 0,9147 exp{
0
+
1
26} = 0,093
27 0,0939 0,9061 exp{
0
+
1
27} = 0,103
65 0,8524 0,1476 exp{
0
+
1
65} = 5,774
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1: Dados sobre Doena Coronria vs Idade
Relembrando que
(x
i
)
1(x
i
)
= odds, segue que:
OR =
odds
(27)
odds
(26)
= exp{
1
(2726)} = exp{
1
} 1, 11
OR =
odds
(65)
odds
(26)
= exp{
1
(6526)} = exp{
1
39} 62
A odds de doena coronria entre indivduos com 65 anos
de idade 62 vezes a dos indivduos com 26 anos.
Obs: OR nos modelos de regresso logstica so denominadas
OR ajustadas, uma vez que o efeito
k
associado covarivel k
estimado na presena dos demais no modelo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> resim<-c(1,2,3,5,6,5,13,8)
> resnao<-c(9,13,9,10,7,3,4,2)
> idade<-c(25,32,38,43,47,53,57,65)
> dados<-as.data.frame(cbind(resim,resnao,idade))
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,
family=binomial(link="logit"),data=dados)
> anova(ajust,test="Chisq")
> summary(ajust)
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=deviance)
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,6)
> cbind(QL,p1)
> plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch=16)
> abline(h=0, lty=3)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=pearson)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,6)
> cbind(QP,p2)
> plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pch=16)
> abline(h=0,lty=3)
> theta<-resim/(resim+resnao)
> plot(idade,theta,ylim=range(0,0.9),xlab="idade",
ylab="E(Y|x)",pch=16)
> idade<-20:70
> modajust<-(exp(-5.123+0.1058
*
idade))/(1+ exp(-5.123+
0.1058
*
idade))
> lines(idade,modajust)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ntot<-c(10,15,12,15,13,8,17,10)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> dados1<-read.table("coronaria.txt",h=T)
# dados 1 = arquivo com 1 indivduo por linha (100 x 2)
> attach(dados1)
> dados1[1:3,]
y idade
1 25
0 25
0 25
...
> require(Epi)
> ROC(form=y~idade,plot="ROC")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Ensaio Clinico aleatorizado em que trs tratamentos foram
avaliados em pacientes que no diagnstico apresentaram
infeco urinria complicada ou no de ser curada.
Cura
Diagnstico da Infeco Medicamentos Sim No Totais
Complicada A 78 28 106
Complicada B 101 11 112
Complicada C 68 46 114
No complicada A 40 5 45
No complicada B 54 5 59
No complicada C 34 6 40
Fonte: Koch et al. (1985)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Resposta dicotmica e duas covariveis em que:
x
i1
=
_
1 se infeco complicada
0 caso contrrio.
x
i2
=
_
_
(x
i21
, x
i22
) = (1, 0) se tratamento A
(x
i21
, x
i22
) = (0, 1) se tratamento B
(x
i21
, x
i22
) = (0, 0) se tratamento C refrencia.
Tabela 1. Diferenas de deviances.
Modelos g.l. deviances = deviances = g.l. valor p
Nulo 5 44,473
X
1
4 30,628 13,844 1 0,0002
X
2
| X
1
2 2,515 28,114 2 < 0,0001
X
1
X
2
| X
1
, X
2
0 0,000 2,515 2 0,2843
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Efeito da interao no signicativo (p = 0,2843).
Foram ento testados os efeitos principais
Efeito de X
1
signicativo (p = 0,0002).
Efeito de X
2
|X
1
signicativo (p < 0, 0001).
Tabela 2. Anlise de Deviance (ANODEV).
Fonte de variao g.l. deviances TRV valor p
Regresso 3 41,958 41,958 < 0,00001
Deviance residual 2 2,515
Deviance total 5 44,473
As variveis X
1
= diagnstico e X
2
= tratamento reduzem
substancialmente a deviance total.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Estatsticas de qualidade de ajuste do modelo
Q
L
= 2,515 (p = 0,2844) e Q
P
= 2,757 (p = 0,2519).
Valores observados e preditos pelo modelo e resduos
deviance e de Pearson.
(x
i
)
(x
i
) d
i
c
i
0,735 0,739 0,077 0,077
0,902 0,882 0,646 0,630
0,596 0,612 0,344 0,345
0,889 0,881 0,162 0,161
0,915 0,951 1,182 1,302
0,850 0,805 0,740 0,717
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Grco dos resduos deviance e Normal QQ-Plot
1 2 3 4 5 6
1
0
1
2
3
Index
r
s
d
u
o
s
d
e
v
i
a
n
c
e
1.0 0.5 0.0 0.5 1.0
1
0
1
2
3
Normal QQ Plot
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e
d
o
D
e
s
v
i
o
Normal QQ Plot Normal QQ Plot Normal QQ Plot
rea abaixo da curva ROC AUC = 0,70.
Evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Tabela 3. Estimativas dos parmetros do modelo ajustado.
Parmetros Estimativas erro padro
0
: constante 1,4184 0,2986
1
: infeco complicada 0,9616 0,2997
2
: tratamento A 0,5847 0,2641
3
: tratamento B 1,5608 0,3158
ln
_
(x
i
)
1
(x
i
)
_
= 1, 41840, 9616 x
i1
+0, 5847 x
i21
+1, 5608 x
i22
(x
i
) =
exp{1, 41840, 9616 x
i1
+0, 5847 x
i21
+1, 5608 x
i22
}
1+exp{1, 41840, 9616 x
i1
+0, 5847 x
i21
+1, 5608 x
i22
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2: Estudo sobre Infeces Urinrias
Infeco Tratamentos
(x
i
)
1
(x
i
)
= odds
Complicada A exp{
0
+
1
+
2
}
Complicada B exp{
0
+
1
+
3
}
Complicada C exp{
0
+
1
}
No complicada A exp{
0
+
2
}
No complicada B exp{
0
+
3
}
No complicada C exp{
0
}
OR
C|NC
= exp{
1
} = 0,38
OR
NC|C
= exp{
1
} = 2,6
OR
A|C
= exp{
2
} = 1,79
OR
B|C
= exp{
3
} = 4,76
OR
B|A
= exp{
2
} = 2,65
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> resim<-c(78,101,68,40,54,34)
> resnao<-c(28,11,46,5,5,6)
> diag<-c(1,1,1,0,0,0)
> trat<-c(2,3,1,2,3,1)
> dados<-as.data.frame(cbind(resim,resnao,diag,trat))
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+
factor(trat),family=binomial(link="logit"),data=dados)
> summary(ajust)
> anova(ajust,test="Chisq")
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=deviance)
> dev
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,2)
> cbind(QL,p1)
> plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos deviance")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=pearson)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,2)
> cbind(QP,p2)
> ntot<-c(106,112,114,45,59,40)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> dados1<-read.table("infec.txt", h=T)
> dados1 # arquivo com 1 indivduo por linha (476 x 3)
x1 x2 y # x1 = diag e x2 = trat
1 2 1
1 2 1
...
> attach(dados1)
> require(Epi)
> ROC(form=y~factor(x1)+factor(x2),plot="ROC")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Objetivo: estudar associao de bronquite com
smk = status de fumo (0 se no usa e 1 se usa),
ses = status scio-econmico (0 se alto e 1 se baixo)
idade = 0 se < 40 anos e 1 se 40 anos.
Bronquite
smk ses idade Sim No Totais
0 1 0 38 73 111
0 1 1 48 86 134
0 0 0 28 67 95
0 0 1 40 84 124
1 1 0 84 89 173
1 1 1 102 46 148
1 0 0 47 96 143
1 0 1 59 53 112
Fonte: Kleinbaum (1994)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Tabela 1. Diferenas de deviances - modelos sequenciais.
Modelos g.l. Dev. TRV = g.l. valor p
Nulo 7 72,798
X
1
6 40,336 32,462 1 < 0,0001
X
2
| X
1
5 27,511 12,825 1 0,0003
X
3
| X
1
, X
2
4 11,025 16,486 1 < 0,0001
X
1
X
2
| X
1
, X
2
, X
3
3 7,910 3,115 1 0,0775
X
1
X
3
| X
1
, X
2
, X
3
, X
1
X
2
2 0,032 7,879 1 0,0050
X
2
X
3
| X
1
, X
2
, X
3
, X
1
X
2
, X
1
X
3
1 0,031 0,001 1 0,9763
X
1
X
2
X
3
| X
1
, X
2
, X
3
+ duplas 0 0,000 0,031 1 0,8602
X
1
= smk, X
2
= ses e X
3
= idade
Modelo X
1
, X
2
, X
3
+X
1
X
3
+X
1
X
2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
(x
i
)
(x
i
)
0.3389166 0.3423423
0.3610467 0.3582090
0.2987395 0.2947368
0.3195141 0.3225806
0.4870962 0.4855491
0.6873808 0.6891892
0.3267997 0.3286713
0.5291753 0.5267857
1.5 1.0 0.5 0.0 0.5 1.0 1.5
1
0
1
2
Normal QQ Plot
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e
d
o
D
e
s
v
i
o
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1 2 3 4 5 6 7 8
0
.
4
0
.
2
0
.
0
0
.
2
0
.
4
Index
R
e
s
i
d
u
o
s
d
e
v
i
a
n
c
e
Q
L
= Q
P
= 0,0318 (p = 0,999).
rea abaixo curva ROC = 0.64.
Evidncias a favor do modelo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Parmetros Estimativas Erro-padro
0
0,8533 0,1856
1
: x
1
= smk 0,1306 0,2408
2
: x
2
= ses 0,1852 0,1982
3
: x
3
= idade 0,0973 0,1991
4
: (x
1
x
2
) = smkses 0,4859 0,2637
5
: (x
1
x
3
) = smkidade 0,7422 0,2643
smk ses idade smkses smkidade odds =
(x
i
)
1
(x
i
)
0 1 0 0 0 exp{
0
+
2
}
0 1 1 0 0 exp{
0
+
2
+
3
}
0 0 0 0 0 exp{
0
}
0 0 1 0 0 exp{
0
+
3
}
1 1 0 1 0 exp{
0
+
1
+
2
+
4
}
1 1 1 1 1 exp{
0
+
1
+
2
+
3
+
4
+
5
}
1 0 0 0 0 exp{
0
+
1
}
1 0 1 0 1 exp{
0
+
1
+
3
+
5
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
Na presena de interaes signicativas:
OR
smk(1|0)
=
_
_
exp{
1
} se ses = 0 e idade = 0
exp{
1
+
4
} se ses = 1 e idade = 0
exp{
1
+
5
} se ses = 0 e idade = 1
exp{
1
+
4
+
5
} se ses = 1 e idade = 1
OR
smk(1|0)
= exp{
1
+
4
ses+
5
idade}
Assim, para, por exemplo, pacientes com ses alto = 0 e idade
> 40 anos (idade = 1), a odds de bronquite entre os que fumam
exp{0, 1306 +0, 7422} = 2,4 vezes a dos que no fumam.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
OR
ses(1| 0)
=
_
exp{
2
} se smk = 0
exp{
2
+
4
} se smk = 1
OR
ses(1| 0)
= exp{
2
+
4
smk}
Assim, para pacientes que fumam, a odds de bronquite entre os
com ses baixo (ses = 1) exp{0, 1852 +0, 4859} = 1,95 vezes a
dos com ses alto (ses = 0).
Para os que no fumam (smk = 0), tal odds exp{0, 1852} = 1,2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3: Estudo sobre Bronquite
OR
idade(1| 0)
=
_
exp{
3
} se smk = 0
exp{
3
+
5
} se smk = 1
OR
idade(1| 0)
= exp{
3
+
5
smk}
Desse modo, para os que fumam, a odds de bronquite entre os
com idade 40 anos exp{0, 0973 +0, 7422} = 2,3 vezes a dos
com idade < 40 anos.
Para os que no fumam tal odds exp{0, 0973} = 1,1.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> brc<-read.table("bronquite.txt",h=T)
> attach(brc)
> brc
sim nao smk ses idade
38 73 0 1 0
48 86 0 1 1
28 67 0 0 0
40 84 0 0 1
84 89 1 1 0
102 46 1 1 1
47 96 1 0 0
59 53 1 0 1
> ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+
smk
*
ses+smk
*
idade,family=binomial,data=brc)
> anova(ajust,test="Chisq")
> summary(ajust)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=deviance)
> dev
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,6)
> cbind(QL,p1)
> rpears<-residuals(ajust,type=pearson)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,6)
> cbind(QP,p2)
> plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos deviance")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ntot<-c(111,134,95,124,173,148,143,112)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> brc1<-read.table("bronquite1.txt",h=T)
> attach(brc1)
# brc1 = arquivo com 1 indivduo por linha (1040 x 4)
> brc1
x1 x2 x3 y
0 1 0 1
0 1 0 1
...
1 0 1 0
> require(Epi)
> ROC(form=y~x1+x2+x3+x1
*
x2+x1
*
x3,plot="ROC")
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Links Paramtricos Alternativos para Dados Binrios
Alguns links para dados com resposta binria.
(x) = F(
x}
1+ exp{
x}
logito ln
_
(x)
1(x)
_
(
x) probito
1
((x))
1exp{exp{
x)
cauchy F
1
((x))
() denota a funo de distribuio da N(0,1), arctg = arco tangente
F()denota a funo de distribuio da Cauchy(0,1) t-Student
(1g.l.)
Simtricos: logstico, probito e cauchy
Assimtrico: complemento log-log.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Links Alternativos para Dados Binrios
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
t
h
e
t
a
(
x
)
logstico
probito
cloglog
cauchy
Procedimentos de estimao, qualidade e diagnstico so
anlogos aos do modelo logstico.
Interpretao dos parmetros difere da apresentada para
o modelo logstico.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
Bioensaio conduzido em laboratrio por Machado (2006).
Objetivo: concentrao ideal de uma suspenso viral.
Mortes
Diluies (CPI/ml) Sim No Totais
Testemunha 0 30 30
10
3
1 29 30
10
6
4 26 30
10
7
15 15 30
10
8
28 2 30
10
9
29 1 30
x
i
= logaritmo neperiano das diluies.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando Links Alternativos - Bioensaio
0 5 10 15 20 25
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
ln(diluio)
P
r
o
p
o
r
o
d
e
m
o
r
t
e
s
Logstico (x
i
) =
exp{
0
+
1
x
i
}
1+exp{
0
+
1
x
i
}
Probito (x
i
) = (
0
+
1
x
i
)
Clog-log (x
i
) = 1exp{exp{
0
+
1
x
i
}}
Cauchy (x
i
) =
1
2
+
arctan(
0
+
1
x
i
)
1
0
1
2
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1.0 0.0 1.0
1
0
1
2
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1.0 0.0 1.0
2
0
1
2
3
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
1.0 0.0 1.0
2
0
2
4
Normal QQ Plot
Percentis da N(0,1)
D
e
v
i
a
n
c
e
Normal QQ Plot Normal QQ Plot Normal QQ Plot
a) logito b) probito c) clog-log d) Cauchy
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
Evidncias a favor do modelo Binomial com link cauchy.
Estimativas
links
0
(e.p.)
1
(e.p.)
Logito 12,863 (2,27) 0,708 (0,12)
Probito 6,244 (1,07) 0,347 (0,06)
Clog-log 8,143 (1,26) 0,422 (0,06)
Cauchy 26,678 (9,47) 1,451 (0,51)
Usual nos bioensaios: dose letal mediana LD
50
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
x
50
= ln(
LD
50
)
LD
50
Logito ln
_
0, 50
1 0, 50
_
=
0
+
1
x
1
18,17 (7, 7)
7
Probito
1
(0, 50) =
0
+
1
x
1
18,00 (6, 6)
7
Clog-log ln(ln(1 0, 50)) =
0
+
1
x
0,3665
1
18,43 (10)
7
Cauchy F
1
(0, 50) =
0
+
1
x
1
18,39 (9, 7)
7
Obs: para os modelos com links simtricos x
50
=
1
.
Estimao por ponto e intervalo da LD50: Finney (1971),
Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ...
Koenker, R. Parametric links for binary response. URL:
www.econ.uiuc.edu/roger/research/links/Rnews.pdf
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando links Alternativos - Bioensaio
0 5 10 15 20 25
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
ln(diluies)
p
r
o
p
o
r
o
d
e
m
o
r
t
e
s
logstico
probito
cloglog
cauchy
(18.386, 0.5)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Cauchy
Comandos R
> resim<-c(0,1,4,15,28,29)
> resnao<-c(30,29,26,15,2,1)
> lnd<-c(0,9.21,16.12,18.42,20.72,23.02)
> dados<-as.data.frame(cbind(resim,resnao,lnd))
> attach(dados)
> ajuste4<-glm(as.matrix(dados[,c(1,2)])~lnd,
family=binomial(link="cauchit"),data=dados)
> ajuste4
> anova(ajuste4,test="Chisq")
> summary(ajuste4)
# Obs: link="logit", "probit" e "cloglog"
para ajustar os demais modelos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando Modelo Binomial com Link Cauchy
Comandos R
> ntot<-c(30,30,30,30,30,30)
> fit.model<-ajuste4
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> x<-seq(0,25,0.1)
> m4<- pcauchy(-26.678+1.451
*
x)
> plot(lnd,resim/(resim+resnao),pch=16, ylab="proporo de
mortes",xlab="ln(diluies)",xlim=c(0,28),ylim=c(0,1.05))
> lines(x,m4,lty=1,lwd=2,col=1)
> legend(1,0.8,lty=c(1),col=c(1),lwd=2,c("cauchy"),bty="n")
> lines(c(18.386,18.386),c(0,0.50),lty=3)
> lines(c(0,18.386),c(0.50,0.50),lty=3)
> legend(17.7,0.55,c("(18.386, 0.5)"),bty="n",cex=0.8)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelos para Dados com
Resposta Politmica
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelos para Dados com Resposta Politmica
Considere, agora, que o interesse seja o de estudar a
existncia de associao entre um conjunto de variveis
X = (X
1
, X
2
, ..., X
k
) e uma resposta politmica Y, a qual
pode ser nominal ou ordinal.
X
1
X
2
... X
k
. .
Y
..
hik
= 1, tem-se:
Programa de Aprendizado
Escola Perodo k
h i 1 2 3
1 1
111
112
113
1
1 2
121
122
123
1
2 1
211
212
213
1
2 2
221
222
223
1
3 1
311
312
313
1
3 2
321
322
323
1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Generalizados
Possvel modelo para anlise desses dados
Modelo de Logitos Generalizados
Esse modelo considera (r 1) logitos generalizados tq:
logit
hik
= ln
_
hik
hir
_
=
0k
+
k
x
hi
, k = 1, . . . , r 1
sendo r = n
o
de categorias da resposta.
Note que cada logito k (k = 1, . . . , r 1) denido a partir da
probabilidade associada ksima categoria de resposta
sobre a da ltima categoria (k = r).
Note, tambm, que h diferentes interceptos e diferentes
vetores de parmetros
k
associados aos r 1 logitos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Generalizados
Como mais de um logito est sendo denido para cada
subpopulao necessrio tamanho amostral grande
para acomodar o n
o
de logitos sendo modelados.
Quando no houver dados sucientes que justiquem a
anlise por meio de logitos generalizados pode haver
problemas quanto a estimao dos parmetros.
Nesses casos, uma alternativa seria simplicar a estrutura
da varivel resposta (grupar categorias) e utilizar, por
exemplo, o modelo de regresso logstica dicotmica.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
No estudo sobre preferncia de aprendizado r = 3. Ento:
logit
hi1
= ln
_
hi1
hi3
_
e logit
hi2
= ln
_
hi2
hi3
_
logit
hik
=
0k
+
k
x
hi
k = 1, 2, h = 1, 2, 3 e i = 1, 2.
X
1
= escolas e X
2
= perodos variveis dummy
x
11
=
_
0 escola 1
1 escola 2,
0 escola 3
x
12
=
_
0 escola 1
0 escola 2,
1 escola 3
x
2
=
_
1 padro
0 integral.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 1 - Diferenas de deviances.
Modelos g.l. deviances = deviances = g.l. valor p
Nulo 10 30,2480
X
1
6 12,8716 17,3764 4 0,0016
X
2
| X
1
4 1,7776 11,0940 2 0,0039
X
1
X
2
| X
1
, X
2
0 0,0000 1,7776 4 0,7766
g.l. = (r 1) g.l. esperados para um nico logito.
Modelo selecionado X
1
+X
2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 2 - Probabilidades observadas e preditas a partir do modelo.
Observadas Preditas
Escolas Perodos Pref. Probabilidade e.p. Probabilidade e.p ObsPred
1 pad indiv 0,1887 0,0537 0,1580 0,0403 0,0306
grupo 0,3208 0,0641 0,3049 0,0527 0,0159
aula 0,4906 0,0687 0,5371 0,0560 0,0470
1 int indiv 0,0746 0,0321 0,0989 0,0279 0,0240
grupo 0,1791 0,0468 0,1917 0,0393 0,0130
aula 0,7463 0,0532 0,7095 0,0459 0,0368
2 pad indiv 0,3281 0,0587 0,3409 0,0515 0,0130
grupo 0,2656 0,0552 0,2667 0,0469 0,0010
aula 0,4063 0,0614 0,3924 0,0509 0,0139
2 int indiv 0,2500 0,0541 0,2372 0,0444 0,0128
grupo 0,1875 0,0488 0,1864 0,0389 0,0011
aula 0,5625 0,0620 0,5764 0,0518 0,0140
3 pad indiv 0,3261 0,0691 0,3436 0,0587 0,0170
grupo 0,3261 0,0691 0,3429 0,0582 0,0170
aula 0,3478 0,0702 0,3136 0,0536 0,0343
3 int indiv 0,2727 0,0671 0,2545 0,0521 0,0183
grupo 0,2727 0,0671 0,2552 0,0517 0,0176
aula 0,4545 0,0751 0,4904 0,0608 0,0360
Probabilidades observadas e preditas esto prximas,
indicando evidncias favorveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 3 - Estimativas dos parmetros do modelo ajustado.
logito 1 logito 2
estimativas erro-padro estimativas erro-padro
Intercepto 1,9711 0,320 1,3088 0,259
Escola 2 1,0828 0,353 0,1801 0,317
Escola 3 1,3147 0,384 0,6556 0,339
Perodo padro 0,7474 0,282 0,7426 0,270
ln
_
hi1
hi3
_
=
01
+
1
x
hi
e ln
_
hi2
hi3
_
=
02
+
2
x
hi
hi1
hi3
= exp{
01
+
1
x
hi
} e
hi2
hi3
= exp{
02
+
2
x
hi
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 4 - Odds associadas aos logitos 1 e 2.
logito 1 logito 2
Escola Perodo odds =
hi1
/
hi3
odds =
hi2
/
hi3
1 Padro exp{
01
+
31
} exp{
02
+
32
}
1 Integral exp{
01
} exp{
02
}
2 Padro exp{
01
+
11
+
31
} exp{
02
+
12
+
32
}
2 Integral exp{
01
+
11
} exp{
02
+
12
}
3 Padro exp{
01
+
21
+
31
} exp{
02
+
22
+
32
}
3 Integral exp{
01
+
21
} exp{
02
+
22
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
logito 1 logito 2
entre perodos individual / sala de aula grupo / sala de aula
OR
P/I
e
31
= 2,11 e
32
= 2,10
Entre aprendizado individual ou em sala de aula
odds de preferncia pelo 1
o
entre alunos do perodo
padro o dobro da dos alunos do perodo integral,
Entre aprendizado em grupo ou em sala de aula
odds de preferncia pelo 1
o
entre alunos do perodo
padro o dobro da dos alunos do perodo integral.
Entre aprendizado individual ou em grupo
odds de preferncia entre esses dois mtodos de
aprendizado no diferiu entre os alunos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Logitos Generalizados
logito 1 logito 2
entre escolas individual / sala de aula grupo / sala de aula
OR
2/1
e
11
= 2,95 e
12
= 1,19
OR
3/1
e
21
= 3,72 e
22
= 1,93
OR
3/2
e
21
11
= 1,26 e
22
12
= 1,61
Entre aprendizado individual ou em sala de aula
odds de preferncia pelo 1
o
entre alunos da escola 2
de 3 vezes a dos alunos da escola 1. J entre os da
escola 3, tal odds de 4 vezes a daqueles na escola 1
e, entre os das escolas 3 e 2, de 1,3 vezes.
Por analogia tem-se as demais interpretaes.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando o Modelo de Logitos Generalizados
Comandos R
> require(VGAM)
> esc<-read.table("escolas.txt", h=T)
> attach(esc)
> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +
factor(periodo),multinomial,esc)
> summary(fit1)
> coef(fit1,matrix=TRUE)
> fitted(fit1)
> fit1@y - fitted(fit1)
> model.matrix(fit1)
> residuals(fit1)
Obs: A ltima categoria de resposta considerada no R
como a categoria de referncia. Para considerar
outra (por ex., grupo 2), use refLevel.
> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +
factor(periodo),multinomial(refLevel=2),esc)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situao 2 - Resposta Politmica Ordinal
Para abordar essa situao, considere os dados a seguir em
que se deseja avaliar se o grau de melhora de pacientes com
artrite estaria associado com genro e tratamento.
Grau de melhora
Sexo Tratamentos Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
As categorias de resposta esto ordenadas a
partir da situao mais favorvel para a menos
favorvel aos pacientes.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Resposta politmica ordinal
Denotando por
hik
a probabilidade de um paciente do sexo h
(h = 1, 2) com tratamento i (i = 1, 2) apresentar grau de melhora
k (k = 1, 2, 3). Ento, segue que:
Grau de Melhora
Sexo Tratamento k Totais
h i 1 2 3
1 1
111
112
113
1
1 2
121
122
123
1
2 1
211
212
213
1
2 2
221
222
223
1
Considerando os totais n
hi+
xos multinomial associada a
cada subpopulao, de modo que
3
k=1
hik
= 1.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situao 2 - Resposta Politmica Ordinal
Considerando, ainda, as seguintes quantidades:
hi1
=
hi1
e
hi2
=
hi1
+
hi2
hi1
=probabilidade de melhora acentuada
hi2
=probabilidade de melhora acentuada ou alguma melhora
hik
, k = 1, . . . , r 1 probabilidades cumulativas
hi2
+
hi3
_
e logit(
hi2
) = ln
_
hi1
+
hi2
hi3
_
logit(
hik
) =
0k
+
k
x
hi
, k = 1, . . . , r 1
sendo r = n
o
de categorias da resposta.
usual que as categorias de resposta mais favorveis
sejam avaliadas em relao s menos favorveis.
Neste modelo, os interceptos so distintos e existem =
vetores de parmetros de regresso para cada logito.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Odds Proporcionais (MOP)
Na realidade, o modelo de logitos cumulativos similar ao
modelo de logitos generalizados.
Contudo, se proporcionalidade das odds for vlida, o que
equivale a supor que
k
= para k = 1, . . . , r 1, ento,
logit(
hik
) =
0k
+
x
hi
hik
=
exp
_
0k
+
x
hi
_
1+exp
_
0k
+
x
hi
_
hi1
=
hi1
hi2
=
hi2
hi1
hi3
= 1
hi2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Para os dados de artrite foram consideradas:
X
1
=
_
1 se feminino
0 se masculino
X
2
=
_
1 se tratamento A
0 se placebo
Como no foram encontradas evidncias contrrias a
suposio de odds proporcionais, i.e., H
0
:
k
= , k
TRV = 1,88 (p = 0,39, g.l.= 2)
01
: intercepto 1 2,6672 0,5997
02
: intercepto 2 1,8128 0,5566
1
: sexo feminino 1,3187 0,5292
2
: tratamento A 1,7973 0,4728
Tabela 3 - Probabilidades
hik
e
hij
preditas pelo MOP.
Sexo Tratamentos
hi1
hi2
hi1
hi2
hi3
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 4 -Odds associadas ao MOP ajustado.
Sexo Tratamentos
hi1
/(
hi2
+
hi3
) (
hi1
+
hi2
)/
hi3
F A exp{
01
+
1
+
2
} exp{
02
+
1
+
2
}
F Placebo exp{
01
+
1
} exp{
02
+
1
}
M A exp{
01
+
2
} exp{
02
+
2
}
M Placebo exp{
01
} exp{
02
}
Melhora acentuada versus alguma ou nenhuma melhora
a odds de melhora acentuada entre as mulheres
exp{
1
} 4 vezes a dos homens.
a odds de melhora acentuada entre os pacientes sob
tratamento A exp{
2
} 6 vezes a daqueles sob placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Melhora acentuada ou alguma melhora versus nenhuma
Devido suposio de odds proporcionais, as estimativas
so as mesmas obtidas anteriormente. Logo,
a odds de melhora acentuada ou alguma melhora
entre as mulheres 4 vezes a dos homens.
a odds de melhora acentuada ou alguma melhora entre
os pacientes sob trat. A 6 vezes a daqueles sob placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
Obs: Instalar package VGAM (www.r-project.org)
> require(VGAM)
> data<-read.table("artrite.txt", h=T)
> data
ac alg nenh sexo trat
16 5 6 2 2
6 7 19 2 1
5 2 7 1 2
1 0 10 1 1
> fit <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(trat),
cumulative(parallel=TRUE),data) # MOP
> fit1 <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(trat),
cumulative(parallel=FALSE),data) # MLC
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
> TRV <- 2
*
(logLik(fit1)-logLik(fit))
> gl <- length(coef(fit1))-length(coef(fit))
> p <- 1-pchisq(TRV,gl)
> cbind(TRV, gl, p)
> summary(fit)
> coef(fit, matrix = TRUE)
> residuals(fit)
> fitted(fit)
> fit@y
> fit@y - fitted(fit)
> model.matrix(fit)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
Obs: Instalar package Design (www.r-project.org)
> data1<-read.table("artrite1.txt", h = T)
# artrite1 = arquivo com 1 indivduo por linha (84 x 3)
> data1[1:3,]
melhora sexo tratamento
1 3 2 2
2 3 2 2
3 3 2 2
...
> require(Design)
> mop<-lrm(melhora~sexo+tratamento, x=TRUE, y=TRUE)
> mop
> par(mfrow=c(1,2))
> residuals(mop, type="score.binary", pl=TRUE)
> residuals(mop, type="partial", pl=TRUE)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
melhora
s
e
x
o
0
.
1
5
0
.
0
5
0
.
0
5
0
.
1
5
alg nenh
melhora
s
e
x
o
melhora
t
r
a
t
a
m
e
n
t
o
0
.
1
5
0
.
0
5
0
.
0
5
0
.
1
5
alg nenh
melhora
t
r
a
t
a
m
e
n
t
o
1.0 1.2 1.4 1.6 1.8 2.0
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
sexo
P
a
r
t
i
a
l
R
e
s
i
d
u
a
l
y>=2
y>=3
1.0 1.2 1.4 1.6 1.8 2.0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
tratamento
P
a
r
t
i
a
l
R
e
s
i
d
u
a
l
y>=2
y>=3
Obs: Certo desvio da suposio de odds proporcionais para a
covarivel sexo. Se consider-lo srio, um modelo alternativo
seria:
Modelo de odds proporcionais parciais (MOPP)
Abreu et al. (2009). Rev Sade Pblica, 43(1): 183-194.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Dados Pareados com
Resposta Binria
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Introduo
Em algumas situaes, dados com resposta binria
podem apresentar informaes pareadas.
Estudos com gmeos fraternos
Estudos que avaliam lados direito e esquerdo do corpo
Estudos do tipo antes e aps um acontecimento
Estudos caso-controle com pareamento 1-1
Estudos crossover, dentre outros.
clusters de tamanho = 2
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situaes Simples - Teste de McNemar
Situaes simples ausncia de variveis explicativas
aps
antes Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
lado lado esquerdo
direito Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
controle
caso E = 1 E = 0 Totais
E = 1 n
11
n
12
n
1+
E = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
perodo 2
per. 1 Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
testar:
_
H
0
: p
1+
= p
+1
H
A
: p
1+
= p
+1
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Situaes Simples - Teste de McNemar
(1, 1)
. .
(1, 0)
. .
(0, 1)
. .
(0, 0)
. .
no-informativo informativo informativo no-informativo
x
ij
}
1+exp{
i
+
x
ij
}
sendo
i
o efeito do i-simo par (i = 1, . . . , q) e o vetor de
parmetros associados s variveis explicativas X.
Obs: o efeito de par no aqui de interesse primrio,
mas sim o de estimar os demais efeitos de interesse
controlando (ou removendo) o efeito de par.
P((Y
i1
=1, Y
i2
=0) | (Y
i1
=1, Y
i2
=0) ou (Y
i1
=0, Y
i2
=1))
=
P(Y
i1
= 1)P(Y
i2
= 0)
P(Y
i1
= 1)P(Y
i2
= 0) +P(Y
i1
= 0)P(Y
i2
= 1)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Como as probabilidades envolvidas so dadas por
P(Y
i1
= 1) =
exp{
i
+ +
x
i1
}
1+exp{
i
+ +
x
i1
}
P(Y
i1
= 0) =
1
1+exp{
i
+ +
x
i1
}
P(Y
i2
= 1) =
exp{
i
+
x
i2
}
1+exp{
i
+
x
i2
}
P(Y
i2
= 0) =
1
1+exp{
i
+
x
i2
}
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Segue que:
P(Y
i1
= 1)P(Y
i2
= 0)
P(Y
i1
= 1)P(Y
i2
= 0) +P(Y
i1
= 0)P(Y
i2
= 1)
=
exp{
i
+ +
x
i1
}
exp{
i
+ +
x
i1
}+exp{
i
+
x
i2
}
=
e por exp{
i
x
i2
} tem-se:
=
exp{ +
(x
i1
x
i2
)}
1+exp{ +
(x
i1
x
i2
)}
que no inclui os parmetros
i
(i = 1, , q).
Sob esta abordagemmodelo com um nmero reduzido
de parmetros que podem ser estimados sem vcio.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Funo de verossimilhana associada ao modelo condicional
L(, ) =
q
i=1
_
exp{ +
(x
i1
x
i2
)}
1+exp{ +
(x
i1
x
i2
)}
_
y
i1
(1y
i2
)
_
1
1+exp{ +
(x
i1
x
i2
)}
_
(1y
i1
)y
i2
Note que a contribuio para L(, ) dos pares com resposta
concordantes, i.e., (Y
i1
= 1, Y
i2
= 1) e (Y
i1
= 0, Y
i2
= 0) igual
a 1 pares concordantes so no-informativos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
A funo L(, ) , na realidade, a f de verossimilhana
do modelo de regresso logstica usual, em que:
Y
i
=
_
1 se (Y
i1
= 1, Y
i2
= 0)
0 se (Y
i1
= 0, Y
i2
= 1)
intercepto : efeito do tratamento
z
i
= (x
i1
x
i2
): = dos valores das variveis x dos pacientes
tratado e placebo.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
demais variveis
Centro Y
ij
= Melhora X
1ij
= Tratamento X
2ij
. . . X
mij
1 1 1
1 0 0
2 0 1
2 0 0
3 0 1
3 1 0
.
.
.
.
.
.
.
.
.
.
.
. . . .
.
.
.
demais variveis
Centro Y
i
= Melhora Z
1i
= Tratamento Z
2i
. . . Z
mi
1 1 1 (x
2i1
x
2i2
) . . . (x
mi1
x
mi2
)
3 0 1 (x
2i1
x
2i2
) . . . (x
mi1
x
mi2
)
.
.
.
.
.
.
.
.
.
.
.
. . . .
.
.
.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Modelo de Regresso Logstica Condicional
Note que na ausncia das covariveis X
2
, . . . , X
k
, os dados
podem ser representados em uma tabela de contingncia
22 em que as respostas para o tratamento so cruzadas
com as respostas para o placebo.
Placebo
Tratamento Y = 1 Y = 0 Totais
Y = 1 n
11
n
12
n
1+
Y = 0 n
21
n
22
n
2+
Totais n
+1
n
+2
n
Assim, testar H
0
:
1
= 0 equivalente ao teste de McNemar.
Ainda, exp{
1
} estimado por n
12
/n
21
, sendo n
12
e n
21
as
contagens fora da diagonal principal da tabela.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Para avaliar um novo tratamento para um problema de
pele 79 clnicas. Em cada uma, um paciente recebeu
o tratamento e, o outro, um placebo).
Resposta: melhora ou no do problema.
clinica trat idade melhora grauini
1 1 27 0 1
1 0 32 0 2
2 1 41 1 3
2 0 47 0 1
3 1 19 1 4
3 0 31 0 4
... ... ... ... ...
79 1 22 0 1
79 0 19 1 4
grau inicial do problema (1 a 4 para leve a severo).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Tabela 1. TRV obtidos nos dados sobre tratamento de pele.
Modelos ln(L(, )) TRV valor p
Nulo 37,4299
Tratamento 35,5942 3,67 0,055
Idade | Trat 34,5466 2,09 0,148
Grau inicial | Trat, Idade 25,7545 17,58 < 0,001
Tratamento + Grau Inicial
Interao dupla no signicativa
Modelo trat + grauini
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Tabela 2. Estimativas associadas ao modelo ajustado.
estimativas erros-padro Z valor p
Tratamento (
1
) 0,711 0,349 2,04 0,0410
Grau inicial (
1
) 1,077 0,321 3,35 0,0008
Anlise dos resduos evidncias a favor do modelo.
a) a odds de melhora dos pacientes sob tratamento
exp{0, 711} 2 vezes a daqueles recebendo placebo.
b) a odds de melhora tambm cresce exp{1.077} 3
vezes para cada unidade de acrscimo no grau inicial.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 1 - Ensaio Clnico Multicentros
Comandos R
> require(survival)
> skin<-read.table("skin.txt",h=T)
> attach(skin)
> model1<-clogit(melhora~trat+idade+grauini+strata(clinica))
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(melhora~trat+grauini+strata(clinica))
> model2
> summary(model2)
> plot(model2$residuals,pch=16,ylab="residuos",xlab="i")
## Teste de Mcnemar ##
> dados<-matrix(c(20,10,5,10),nc=2)
> dados
> mcnemar.test(dados,correct=F)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Estudo crossover de 2 perodos para avaliao dos tratamentos
A, B e P = Placebo em pacientes estraticados de acordo com
dois grupos de idade: jovens e adultos.
A sequncia A:B signica que a droga A foi administrada
durante o 1
o
perodo e a B no 2
o
perodo. P indica placebo.
Grupos de Sequncia Efeito
Idade Tratamentos FF FU UF UU Totais
Adultos A:B 12 12 6 20 50
Adultos B:P 8 5 6 31 50
Adultos P:A 5 3 22 20 50
Jovens B:A 19 3 25 3 50
Jovens A:P 25 6 6 13 50
Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = (1,1) = favorvel nos dois perodos; FU = (1,0) = favorvel no 1
o
perodo e no-favorvel no 2
o
;
UF = (0,1) = no favorvel no 1
o
perodo e favorvel no 2
o
, UU = (0, 0) = no favorvel nos dois perodos.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Efeitos de interesse nesse estudo
efeito dos perodos
efeito das drogas
efeito dos grupos de idade
efeitos residuais das drogas A e B que resultam
da passagem do perodo 1 para o perodo 2.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
obs resp periodo drogaA drogaB gpidade resA resB
1 1 1 1 0 1 0 0
1 1 0 0 1 0 1 0
2 1 1 1 0 1 0 0
2 1 0 0 1 0 1 0
3 1 1 1 0 1 0 0
3 1 0 0 1 0 1 0
...
12 1 1 1 0 1 0 0
12 1 0 0 1 0 1 0
13 1 1 1 0 1 0 0
13 0 0 0 1 0 1 0
...
24 1 1 1 0 1 0 0
24 0 0 0 1 0 1 0
25 0 1 1 0 1 0 0
25 1 0 0 1 0 1 0
...
300 1 1 0 0 0 0 0
300 1 0 0 1 0 0 0
Obs: gpidade foi representado por (1,0) se adulto e (0,0) se jovem.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Anlogo situao anterior tem-se:
(Y
i1
, Y
i2
)
. .
(F, F) (F, U) (U, F) (U, U)
(1, 1)
. .
(1, 0)
. .
(0, 1)
. .
(0, 0)
. .
no-informativo informativo informativo no-informativo
2
)
2
Var(
2
)
=
(
2
)
2
Var(
1
) +
Var(
2
) 2
Cov(
1
,
2
)
= 12, 41
valor p = 0,0004 (g.l.= 1) indicando efeitos diferentes.
Odds ratios podem ser obtidas e interpretadas de modo
similar a dos demais estudos analisados. Por exemplo,
A odds de resposta favorvel dos pacientes sob a droga A foi
exp{1, 408} 4 vezes a dos que usaram placebo e, ainda,
exp{1, 4080, 296} 3 vezes a dos que usaram a droga B.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 2 - Estudo Crossover
Comandos R
> require(survival)
> match<-read.table("cross.txt",h=T)
> attach(cross)
> model3<-clogit(resp~periodo+drogaA+drogaB+strata(obs),
data=cross)
> model3
> summary(model3)
> model3$loglik
> plot(model3$residuals, pch=16)
## testando H_0: gamma_1 = gamma_2 ##
> model3$var
> vardif<-model3$var[2,2] + model3$var[3,3]
-2
*
(model3$var[2,3])
> teste<-((1.408-0.296)/sqrt(vardif))^2
> cbind(teste, 1-pchisq(teste,1))
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Estudo realizado nos anos 70 em uma comunidade de
aposentadas para estudar a associao entre o uso de
estrognio e o cncer do endomtrio.
Nesse estudo, cada caso foi pareado a um controle que:
estava no mesmo ano de idade do caso
tinha o mesmo status marital do caso
vivia na mesma comunidade do caso quando do diagnstico.
Pareamento 1:1 63 casos / 63 controles.
Algumas das informaes coletadas foram sobre:
hipertenso (1 se sim e 0 se no)
histrico de vescula biliar (1 se sim e 0 se no)
uso de estrognio (1 se sim e 0 se no).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Endomtrio membrana que reveste a parede do tero.
Cncer do endomtrio incidncia crescente nas ltimas
duas dcadas, sendo o 2
o
tumor plvico mais frequente
entre as brasileiras. A maioria dos casos ocorre entre 60 e
70 anos, mas alguns casos podem ocorrer antes dos 40.
Estudos em animais tm mostrado que altos
nveis de estrognio resultam em crescimento
endometrial excessivo e cncer.
Sugerem ateno com anticoncepcionais
e terapias de reposio hormonais com
altos nveis de estrognio.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
par caso-controle estrognio histrico vescula biliar hipertenso
cc est hvb hip
1 1 1 0 0
1 0 0 0 0
2 1 1 0 0
2 0 0 0 1
3 1 1 0 1
3 0 1 0 1
...
47 1 1 1 1
47 0 0 0 0
...
63 1 1 1 0
63 0 1 0 0
Fonte: Stokes et al. (2000).
Pares no-informativos nesses estudos so aqueles
em que x
i1
= x
i2
. Por exemplo, o par 3.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Funo de verossimilhana associada ao estudo.
L() =
q
i=1
_
exp{
(x
i1
x
i2
)}
1+exp{
(x
i1
x
i2
)}
_
(x
i1
x
i2
) = diferenas dos valores das covariveis
do i-simo par caso-controle (i = 1, , q).
Esta funo corresponde funo de verossimilhana de
um modelo de regresso logstica no-condicional sem o
intercepto, em que a resposta Y sempre 1 e os valores
das covariveis so iguais a (x
i1
x
i2
).
Note que a contribuio para L() dos pares em que
x
i1
= x
i2
constante (= 0,5).
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Estimativas associadas ao modelo nal ajustado.
estimativas erros-padro Wald valor p
HVB (
1
) 1,66 0,798 2,07 0,0381
EST (
2
) 2,78 0,760 3,65 0,0003
Anlise dos resduos favorvel ao modelo.
A odds de cncer endometrial das aposentadas com
histrico de vescula biliar foi exp{1, 66} 5 vezes a
daquelas sem tal histrico.
A odds de cncer endometrial das aposentadas que
usaram estrognio foi exp{2, 78} 16 vezes a das que
no usaram.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Ilustrao 3 - Estudo Caso-Controle com Pareamento 1:1
Comandos R
> require(survival)
> match<-read.table("match.txt",h=T)
> attach(match)
> model<-clogit(cc~hvb+est+strata(par),data=match)
> model
> model$loglik
> summary(model)
> plot(model$residuals, pch=16)
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Referncias Bibliogrcas
Abreu, MNS; Siqueira, AL; Caiaffa, WT (2009). Regresso logstica ordinal em
estudos epidemiolgicos. Rev Sade Pblica, 43(1): 183-194.
Davison, AC; Gigli, A (1989). Deviance residuals and normal scores plots.
Biometrika, 76(2): 211-221.
Ben, MG; Yohai, VJ (2004). Quantile-quantile plot for deviance residuals in the
generalized linear model. Journal of Computational & Graphical Statistics, 13(1):
36-47.
Finney, DJ (1971). Estimation of the Median Effective Dose. Probit Analysis.
Cambridge University Press: London, 3rd ed., 1971.
Hosmer, DW; Lemeshow, S (1989, 2nd ed. 2000). Applied Logistic Regression.
New York: John Wiley & Sons.
Kelly, GE (2001). The Median Lethal Dose-Design and Estimation. J. R. Stat.
Soc., Ser. D, 50:41-50.
Kelly, GE; Lindsey, JK (2002). Robust estimation of the median lethal dose.
Journal of Biopharmaceutical Statistics, 12(2):137-147.
Kleibaum, DG (1994) Logistic Regression: a self-learning text. New York:
Springer Verlag.
Koch, GG; Imrey, PB; Singer, JM; Atkinson SS; Stokes ME (1985). Analysis of
categorical data. Montral: Les Presses de l
Universit de Montral.
Mantel, N (1963). Chi-square tests with one degree of freedom: Extensions of
the Mantel-Haenszel procedure, JASA, 58:690-700.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS
Minicurso - 57
a
Reunio Anual da RBras
Referncias Bibliogrcas
Machado, EB (2006) Controle de Condylorrhiza vestigialis, a mariposa do lamo,
com o uso de C. vestigialis multiplenucleopolyhedrovirus em condies de
laboratrio e Campo. Dissertao de Mestrado, Engenharia Florestal, UFPR.
Mantel, N; Haenszel, W (1959). Statistical Aspects of the analysis of data from
retrospective studies of disease, J. of the National Cancer Institute, 22:719-748.
Pregibon, D (1981). Logistic regression diagnostics, Annals of Statistics,
9:705-724.
Santner, TJ; Duffy, DE (1989). The statistical analysis of discrete data. New
York: Springer-Verlag.
Silveira Neto, S; Nakano, O; Barbin, D; Villa Nova, NA (1976). Manual de
Ecologia dos Insetos. So Paulo: Agronmica Ceres, 419p.
Stokes, ME; Davis, CS; Koch, GG (2000). Categorical Data Analysis using the
SAS System. SAS Institute Inc., Cary, NC. USA.
Tuyns, AJ; Pequinot, G; Jensen, OM (1977). Le cancer de loesophage en Ille et
Vilaine en fonction del niveaux de consommation dalcool et de tabac: des
risques que se multiplient. Bull Cancer, 64: 45-60.
Wald, A (1943). Tests of Statistical Hypotheses concerning Several Parameters
when the Number of Observations is Large. Trans Amer Math Soc., 54:426-482.
Williams, DH (1986). Interval estimation of the median lethal dose. Biometrics,
42:641-645.
Giolo, S.R. (2012) INTRODUO ANLISE DE DADOS CATEGRICOS