Академический Документы
Профессиональный Документы
Культура Документы
Regresso logstica
politmica: reviso terica e
aplicaes
Hlio Radke Bittencourt
Resumo
O tradicional modelo de regresso logstica tornou-se um mtodo padro de anlise na rea
das cincias da sade, especialmente Epidemiologia, pois capaz de estabelecer uma relao de
dependncia entre uma nica varivel-resposta binria e um conjunto de variveis independentes
quantitativas ou qualitativas. A tcnica considerada uma abordagem parcialmente no-paramtrica,
no exigindo suposies sobre o comportamento probabilstico dos dados de entrada. Neste trabalho uma extenso da regresso logstica para variveis-resposta politmicas apresentada, bem
como uma reviso sobre os aspectos tericos mais importantes e aplicaes da tcnica com a
utilizao de bancos de dados reais.
Palavras-chave: Regresso Logstica, Anlise Discriminante.
Abstract
The traditional logistic regression model became a standard method in the medical and biological
sciences, especially in epidemiology, because allows modeling of binary response variables only
and a set of quantitative or qualitative independent variables. Logistic regression can be regarded as
a partially parametric approach, since it assumes nothing about the probability distribution of variables.
This paper describes an extension of the logistic regression to polytomous response variables, as well
as presents a revision about the most important theoretical aspects and gives some results obtained
when using real databases.
Key-Words: Logistic Regression, Discriminant Analysis.
1 Introduo
Variveis qualitativas nominais so
aquelas que mais limitam a possibilidade
de utilizao de tcnicas estatsticas, especialmente quando o nmero de categorias
n.1
p. 77 - 86
jan./jun. 2003
77
sim como as medidas de associao derivadas, pode ser adequada para um grande
nmero de casos, entretanto s permite a
anlise simultnea de duas variveis e, no
caso de variveis quantitativas, necessria a prvia categorizao, implicando em
perda de informao.
De acordo com Allison (1999) existem
pesquisadores utilizando inadequadamente a
tcnica de regresso linear para tratamento de
variveis-resposta qualitativas nominais e
ordinais o que, na sua opinio, se deve ao desconhecimento de tcnicas mais avanadas.
O presente estudo inicia com uma reviso do modelo de regresso logstica tradicional e, em seguida, apresentada a
extenso da tcnica para variveis
politmicas, resultados prticos e as consideraes finais.
exp 0 1 x1 p x p
1 exp 0 1 x1 p x p
e, conseqentemente,
1
1 exp 0 1 x1 p x p
P (Y 1)
P(Y 0) 1 P(Y 1)
P( Y 1 )
logit( x ) g( x ) ln
1 P( Y 1 )
0 1 x1 p x p
Funo logstica
1,0
logit(x)=g(x)
P(Y=1)
0,8
0,6
0,4
0,2
-
2. 1 Hi strico do Modelo
Logstico e Principais Aplicaes
difcil precisar exatamente o ano no
qual o modelo logstico foi utilizado pela
primeira vez, mas Cox e Snell (1989) e
Hosmer e Lemeshow (1989) concordam
que o modelo de regresso logstica ganhou
reconhecimento aps o trabalho de Truett,
Cornfield e Kennel (1967) que analisava o
risco de doena coronria em um grande
projeto conhecido por Framingham heart
study. Esse trabalho ganhou fama e at
hoje considerado um marco inicial dos
estudos envolvendo regresso logstica nas
reas da sade. McLachlan (1992) tambm
afirma que as primeiras aplicaes do modelo logstico foram em estudos
prospectivos de doenas coronrias. Contudo, nessas aplicaes, os autores realizaram o processo de estimao de parmetros
sob a suposio de normalidade, que se
torna desnecessria quando a estimao
feita por mxima verossimilhana via mtodos numricos. O procedimento de estimao em um contexto mais genrico foi
proposto por Day and Kerridge (1967) e
por Walker and Duncan (1967).
Hosmer e Lemeshow (1989) afirmam
que o modelo de regresso logstica tornouse um mtodo padro de anlise de regresso de dados dicotmicos, especialmente
nas cincias da sade. De fato, aplicaes
da regresso logstica so comumente encontradas em peridicos da rea de sade,
tais como The American Journal of
Epidemiology, The American Journal of Public
Health, The International Journal of
Epidemiology e The Journal of Chronic
Diseases.
ACTA SCIENTIAE v.5 n.1 jan./jun. 2003
3 Regresso logstica
politmica
O modelo de regresso logstica, originalmente desenvolvido para variveisresposta binrias, extensvel para variveis-resposta politmicas (trs ou mais
categorias). O entendimento da regresso logstica politmica fica mais simples
se for ut ilizad o com o exem plo
introdutrio um modelo cuja varivelresposta Y assume apenas trs nveis, digamos 0, 1 e 2, assim como descrito em
Hosmer e Lemeshow (1989). Agora, o
modelo logstico ter duas funes logit:
a razo entre Y=1 e Y=0 e a razo entre
Y=2 e Y=0. Nesse caso, o nvel Y=0 foi
assumido como base.
P( Y 1 )
g1 ( x ) ln
P
(
Y
0
)
10 11 x1 1 p x p
P( Y 2 )
g 2 ( x ) ln
P( Y 0 )
20 21 x1 2 p x p
A partir das funes lineares g i(x),
cujos parmetros so estimados por mxima verossimilhana, possvel calcular as
probabilidades condicionais de ocorrncia
de cada categoria da varivel-resposta Y
dado um vetor de observaes x, conforme segue:
79
1
P( Y 0 | x )
g1 x
1 e
e g2 x
P( Y 1 | x )
e g1 x
1 e g1 x e g2 x
P( Y 2 | x )
e g2 x
1 e g1 x e g2 x
P( Y y i | x )
expg i ( x )
k 1
1 exp g j ( x )
j 1
i 1, 2, , k-1
P( yi | x ) 1 . Portani 1
P y k | x 1
k 1
P( yi | x )
i 1
se
P( yi | x ) P( y j | x )
ji
'i 1 , 2 , , p , correspondentes a k1 categorias da varivel Y. A k-sima categoria assumida como base. O processo
de estimao dos parmetros em regresso
logstica est baseado na maximizao da
funo de verossimilhana (x, ) . Para
tornar possvel a realizao desse procedimento so necessrias n amostras de treinamento x1 , x 2 , , x n , cujas classes a que
pertencem so conhecidas.
Os vetores soluo bi que maximizam
a funo (x, ) so aqueles que tornam
mxima a probabilidade da particular
P( Y y i | x )
g i ( x ) ln
P( Y y k | x )
i 0 i1 x1 ip x p
i 1, 2, , k-1
g k x 0 .
80
3.1 Testes de
Significncia
O primeiro teste de significncia importante na regresso logstica o teste da
razo de verossimilhana, onde a hiptese
de que pelo menos um dos parmetros
( 0 )
2 ln ( 0 ) 2 ln (x, )
D 2 ln
( x, )
~ 2
(k 1) p
onde,
conhecida estatstica de Wald, onde a hiptese nula a de que o particular coeficiente igual a zero. A estatstica W de
ij
Wald definida como o quadrado da razo
entre a estimativa de mxima verossimilhana para o coeficiente e seu respectivo
erro-padro (EP). Essa estatstica tem uma
distribuio assintoticamente qui-quadrado com um nico grau de liberdade:
ij
W
EP
ij
~ 12
3.2 Interpretao de
parmetros
A interpretao dos parmetros estimados no modelo de regresso logstica tornase similar ao caso da regresso mltipla tradicional. No caso de uma varivel resposta
com k nveis, o k-simo nvel ser assumido como base e, portanto, pode-se estabelecer k-1 funes logit, contrastando cada
nvel contra o nvel base, conforme segue:
P yi | x
`
g i ( x ) ln
i0 i x
P y k | x
1 i k 1
egi ( x )
P yi | x i0 i x
e
P yk | x
1 i k 1
bilidades da observao x pertencer a classe yi em relao classe yk. Portanto, quando xj aumenta em uma unidade, a classe yi
torna-se
ij
4 Aplicaes
Nos itens subsequentes so apresentados dois exemplos de aplicao da regresso
logstica politmica, enfatizando a utilizao
prtica e a interpretao dos modelos estimados. Os bancos de dados utilizados foram
encontrados a partir do trabalho de
Aeberhard et al. (1994) que fez um comparativo entre uma grande quantidade de mtodos de reconhecimento de padres utilizando dados reais e simulados.
Model
Intercept Only
Final
-2 Log
Likelihood
386,630
67,257
Chi-Square
df
Sig.
319,372
,000
Pseudo R-Square
Cox and Snell
Nagelkerke
McFadden
,834
,941
,826
Parameter Estimates
CLASS
1
Intercept
ALCOHOL
PHENOLS
COLOR
Intercept
ALCOHOL
PHENOLS
COLOR
B
-29,539
1,558
7,757
-1,413
33,421
-2,471
6,208
-2,919
Std. Error
15,974
1,255
1,909
,508
14,621
1,196
1,829
,668
Wald
3,419
1,541
16,515
7,729
5,225
4,270
11,524
19,093
df
1
1
1
1
1
1
1
1
Sig.
,064
,214
,000
,005
,022
,039
,001
,000
Exp(B)
4,749
2338,084
,243
,406
55,477
8,987E-02
55,566
98538,407
,659
8,454E-02
496,881
5,397E-02
8,116E-03
13,790
1,457E-02
,880
17903,238
,200
Classification
Predicted
Observed
1
2
3
Overall Percentage
54
Percent
Correct
91,5%
3
1
32,6%
65
2
40,4%
3
45
27,0%
91,5%
93,8%
92,1%
Figura 2 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo do Reconhecimento de Vinhos
82
P( Y y1 | x )
expg1( x )
1 expg1( x ) expg 2 ( x )
P( Y y 2 | x )
expg 2 ( x )
1 expg1( x ) expg 2 ( x )
P( Y y3 | x ) 1 P( Y y1 | x ) P( Y y 2 | x )
P(Y y1 | x) 0,135
P(Y y 2 | x) 0,740
P(Y y3 | x) 0,125 .
Portanto, um vinho com tais caractersticas seria classificado como proveniente do Cultivar Tipo 2. A Figura 2 apresenta a tabela de classificao utilizando todas as 178 observaes do conjunto de
dados, onde percebe-se uma habilidade
satisfatria do modelo para classificao,
com taxa de acerto de 92,1%.
Ainda explorando a Figura 2, percebe-se a presena da coluna Exp(B) e seu
respectivo intervalo de confiana. Numa
rpida inspeo visual percebe-se que os
intervalos de confiana so muito amplos,
ocasionados pelos grandes erros-padro
das estimativas. Por meio da interpretao
da coluna Exp(B) chega-se a interpretaes
do tipo: a cada aumento de uma unidade
na graduao alcolica, espera-se um aumento de 0,406 a 55,566 vezes na probabilidade do vinho ser proveniente do Cultivar Tipo 1 em relao probabilidade do
vinho pertencer ao Cultivar Tipo 3.
Model
Intercept Only
-2 Log
L ikelihood
329,584
Final
Chi-Squa re
11,899
df
Sig.
317 ,685
,000
,88 0
,99 0
M cF adden
,96 4
Std. Error
2272547
667745,9
313392,1
Wald
,0 00
,0 00
,0 00
-31,522
-43,107
310957,5
,000
42,638
2,465
6,681
-9 ,4 29
-18,286
Inte rcept
SEP_LEN
SEP_WID
PET_LEN
B
30,291
14,670
14,474
PET_ WID
Inte rcept
SEP_LEN
SEP_WID
PET_LEN
PET_ WID
df
1
1
1
Sig.
1,000
1,000
1,000
Exp( B)
Low er Bound
235 05 69
193 15 22
,000
,000
Upper Bound
,a
,a
,0 00
,
1
1
1,000
,
2,043E-14
1,900E-19
,000
1 ,9 00 E- 19
,a
1,900 E-19
25,708
2,394
4,480
2,751
1,060
2,224
1
1
1
,0 97
,3 03
,1 36
11 ,7 66
797,026
,108
,123
1284,293
518 18 47,602
4,737
9,743
3,962
3,523
1
1
,0 47
,0 61
8,033E-05
1,144E-08
7 ,4 57 E- 09
5 ,8 28 E- 17
,865
2,246
a. Flo at ing po int overflo w occurred while computing this stat istic. Its value is therefore set to syste m missing.
Classificatio n
Pre dicted
O bserved
Iris Seto sa
Iris Versicolo ur
Iris Virginica
O verall Perce ntage
Iris Setosa
50
I ris
Versico lour
0
Iris Virginica
0
Percent
C orrect
100 ,0 %
49
98 ,0 %
0
33 ,3 %
1
33 ,3 %
49
33 ,3 %
98 ,0 %
98 ,7 %
Figura 3 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo Fisher Iris Data
P( Y y1 | x ) 0
P( Y y 2 | x ) 0,831
P( Y y3 | x ) 0,169
84
nesse caso, uma flor com tais caractersticas seria classificada como ris
Versicolor porque a maior probabilidade
est associada classe y2.
5 Consideraes finais
A regresso logstica politmica consiste de uma poderosa ferramenta para
anlise de variveis qualitativas nominais,
apresentando algumas caractersticas bastante interessantes e desejveis em tcnicas de modelagem estatstica. A primeira
ACTA SCIENTIAE v.5 n.1 jan./jun. 2003
85
Referncias
bibliogrficas
86