Вы находитесь на странице: 1из 10

Cincias Naturais e Exatas

Regresso logstica
politmica: reviso terica e
aplicaes
Hlio Radke Bittencourt

Resumo
O tradicional modelo de regresso logstica tornou-se um mtodo padro de anlise na rea
das cincias da sade, especialmente Epidemiologia, pois capaz de estabelecer uma relao de
dependncia entre uma nica varivel-resposta binria e um conjunto de variveis independentes
quantitativas ou qualitativas. A tcnica considerada uma abordagem parcialmente no-paramtrica,
no exigindo suposies sobre o comportamento probabilstico dos dados de entrada. Neste trabalho uma extenso da regresso logstica para variveis-resposta politmicas apresentada, bem
como uma reviso sobre os aspectos tericos mais importantes e aplicaes da tcnica com a
utilizao de bancos de dados reais.
Palavras-chave: Regresso Logstica, Anlise Discriminante.
Abstract
The traditional logistic regression model became a standard method in the medical and biological
sciences, especially in epidemiology, because allows modeling of binary response variables only
and a set of quantitative or qualitative independent variables. Logistic regression can be regarded as
a partially parametric approach, since it assumes nothing about the probability distribution of variables.
This paper describes an extension of the logistic regression to polytomous response variables, as well
as presents a revision about the most important theoretical aspects and gives some results obtained
when using real databases.
Key-Words: Logistic Regression, Discriminant Analysis.

1 Introduo
Variveis qualitativas nominais so
aquelas que mais limitam a possibilidade
de utilizao de tcnicas estatsticas, especialmente quando o nmero de categorias

excede dois. muito comum a utilizao


de tabelas de contingncia para verificao de associao entre variveis nominais
que, geralmente, so acompanhadas do
bem conhecido teste Qui-quadrado. A prova no-paramtrica do Qui-quadrado, as-

Hlio Radke Bittencourt - Laboratrio de Eestatstica - Ulbra


ACTA SCIENTIAE
Canoas
v.5
ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

n.1

p. 77 - 86

jan./jun. 2003

77

sim como as medidas de associao derivadas, pode ser adequada para um grande
nmero de casos, entretanto s permite a
anlise simultnea de duas variveis e, no
caso de variveis quantitativas, necessria a prvia categorizao, implicando em
perda de informao.
De acordo com Allison (1999) existem
pesquisadores utilizando inadequadamente a
tcnica de regresso linear para tratamento de
variveis-resposta qualitativas nominais e
ordinais o que, na sua opinio, se deve ao desconhecimento de tcnicas mais avanadas.
O presente estudo inicia com uma reviso do modelo de regresso logstica tradicional e, em seguida, apresentada a
extenso da tcnica para variveis
politmicas, resultados prticos e as consideraes finais.

exp 0 1 x1 p x p
1 exp 0 1 x1 p x p
e, conseqentemente,

1
1 exp 0 1 x1 p x p

P (Y 1)

P(Y 0) 1 P(Y 1)

onde so os parmetros do modei


lo, estimados pelo mtodo de mxima verossimilhana.
A transformao que est por trs do
modelo logstico a chamada transformao logit, denotada por g(x). uma funo
linear nos parmetros , contnua e que
pode variar de - a + :

P( Y 1 )
logit( x ) g( x ) ln

1 P( Y 1 )

0 1 x1 p x p

2 O modelo de regresso logstica tradicional

Hosmer e Lemeshow (1989) dizem


que h pelo menos duas razes para utilizao do modelo logstico na anlise de
variveis-resposta dicotmicas: 1) de um
ponto de vista matemtico, extremamente
flexvel e fcil de ser utilizado; 2) permite
uma interpretao de resultados bastante
rica e direta. A Figura 1 apresenta a funo
logstica com o seu caracterstico formato
em S e a relao linear entre uma nica
varivel x e o logit g(x).

De acordo com Hosmer e Lemeshow


(1989) a regresso logstica, em sua forma
tradicional, consiste de um modelo que relaciona um conjunto de p variveis independentes X1 , X2, ... , Xp a uma varivel dependente Y que assume apenas dois possveis
estados, digamos 0 ou 1. O modelo logstico
permite a estimao direta da probabilidade de ocorrncia de um evento (Y=1):

Logit (funo linear)

Funo logstica
1,0

logit(x)=g(x)

P(Y=1)

0,8
0,6
0,4
0,2
-

Figura 1: Funo logstica e a relao logit


78

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

Anderson (1982) enfatiza que a discriminao logstica pode ser aplicada a


uma grande variedade de famlias de distribuies, pois a suposio de linearidade
do logit vlida numa grande quantidade
de funes de distribuio de probabilidade, como por exemplo, a distribuio normal multivariada.

2. 1 Hi strico do Modelo
Logstico e Principais Aplicaes
difcil precisar exatamente o ano no
qual o modelo logstico foi utilizado pela
primeira vez, mas Cox e Snell (1989) e
Hosmer e Lemeshow (1989) concordam
que o modelo de regresso logstica ganhou
reconhecimento aps o trabalho de Truett,
Cornfield e Kennel (1967) que analisava o
risco de doena coronria em um grande
projeto conhecido por Framingham heart
study. Esse trabalho ganhou fama e at
hoje considerado um marco inicial dos
estudos envolvendo regresso logstica nas
reas da sade. McLachlan (1992) tambm
afirma que as primeiras aplicaes do modelo logstico foram em estudos
prospectivos de doenas coronrias. Contudo, nessas aplicaes, os autores realizaram o processo de estimao de parmetros
sob a suposio de normalidade, que se
torna desnecessria quando a estimao
feita por mxima verossimilhana via mtodos numricos. O procedimento de estimao em um contexto mais genrico foi
proposto por Day and Kerridge (1967) e
por Walker and Duncan (1967).
Hosmer e Lemeshow (1989) afirmam
que o modelo de regresso logstica tornouse um mtodo padro de anlise de regresso de dados dicotmicos, especialmente
nas cincias da sade. De fato, aplicaes
da regresso logstica so comumente encontradas em peridicos da rea de sade,
tais como The American Journal of
Epidemiology, The American Journal of Public
Health, The International Journal of
Epidemiology e The Journal of Chronic
Diseases.
ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

A literatura sobre regresso logstica


muito vasta, tendo apresentado um crescimento muito rpido. Alm das inmeras
aplicaes na rea da sade, a regresso
logstica tambm tem sido utilizada no campo da econometria, administrao e educao. Por esse motivo, encontramos artigos envolvendo regresso logstica em peridicos de diversas reas.

3 Regresso logstica
politmica
O modelo de regresso logstica, originalmente desenvolvido para variveisresposta binrias, extensvel para variveis-resposta politmicas (trs ou mais
categorias). O entendimento da regresso logstica politmica fica mais simples
se for ut ilizad o com o exem plo
introdutrio um modelo cuja varivelresposta Y assume apenas trs nveis, digamos 0, 1 e 2, assim como descrito em
Hosmer e Lemeshow (1989). Agora, o
modelo logstico ter duas funes logit:
a razo entre Y=1 e Y=0 e a razo entre
Y=2 e Y=0. Nesse caso, o nvel Y=0 foi
assumido como base.

P( Y 1 )
g1 ( x ) ln

P
(
Y

0
)

10 11 x1 1 p x p
P( Y 2 )
g 2 ( x ) ln

P( Y 0 )

20 21 x1 2 p x p
A partir das funes lineares g i(x),
cujos parmetros so estimados por mxima verossimilhana, possvel calcular as
probabilidades condicionais de ocorrncia
de cada categoria da varivel-resposta Y
dado um vetor de observaes x, conforme segue:
79

1
P( Y 0 | x )
g1 x
1 e
e g2 x

Considerando y1, y2,..., yk categorias


exaustivas e exclusivas da varivel Y, podemos afirmar que

P( Y 1 | x )

e g1 x
1 e g1 x e g2 x

P( Y 2 | x )

e g2 x
1 e g1 x e g2 x

Krzanowski (1988) afirma que, no momento em que as probabilidades a posteriori


P(Y=y|x) do modelo logstico so utilizadas para se estabelecer uma regra de
alocao, a abordagem chamada de discriminao logstica. Na rea de Reconhecimento
de Padres esse o termo mais utilizado,
conforme se pode verificar em McLachlan
(1992) e Bittencourt e Clarke (2002).
A generalizao do modelo logstico
para variveis-resposta com k nveis (k>2)
direta, permitindo sua utilizao para discriminao entre k classes. Na regresso
logstica politmica a probabilidade de uma
dada observao x pertencer a uma das
classes yi estimada diretamente por meio
da seguinte expresso:

P( Y y i | x )

expg i ( x )
k 1

1 exp g j ( x )
j 1

i 1, 2, , k-1

P( yi | x ) 1 . Portani 1

to, a probabilidade de uma observao x


pertencer a classe yk, denotada por P(yk|x),
pode ser obtida por diferena:

P y k | x 1

k 1

P( yi | x )
i 1

A utilizao do modelo logstico para


discriminao de classes pode ser direta.
A regra de classificao para alocar uma
observao x numa das classes yi muito
simples:
x yi

se

P( yi | x ) P( y j | x )

ji

O modelo logstico necessita da estimao de k-1 vetores de parmetros

'i 1 , 2 , , p , correspondentes a k1 categorias da varivel Y. A k-sima categoria assumida como base. O processo
de estimao dos parmetros em regresso
logstica est baseado na maximizao da
funo de verossimilhana (x, ) . Para
tornar possvel a realizao desse procedimento so necessrias n amostras de treinamento x1 , x 2 , , x n , cujas classes a que
pertencem so conhecidas.
Os vetores soluo bi que maximizam
a funo (x, ) so aqueles que tornam
mxima a probabilidade da particular

onde a funo logit, assumindo o nvel yk como base, dada por

P( Y y i | x )
g i ( x ) ln

P( Y y k | x )

i 0 i1 x1 ip x p
i 1, 2, , k-1
g k x 0 .
80

amostra de treinamento x1 , x 2 , , x n ter


sido selecionada. Sendo assim, sob a hiptese da amostra ser representativa da populao em estudo, obtm-se um modelo
que maximiza as chances de classificar todas observaes da populao nas classes
yi as quais realmente pertencem. Como as
equaes derivadas da funo de verossimilhana so no lineares, h necessidade
da utilizao de mtodos numricos para
ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

encontrar uma soluo. Esses processos so


iterativos e esto disponveis em alguns
softwares estatsticos. No presente estudo foi
utilizado o procedimento Multinomial
Logistic Regression disponvel no software
SPSS verso 10.0 e que se encontra-se descrito em Norusis e SPSS Inc. (1999). O
procedimento CATMOD do sistema SAS
tambm pode ser utilizado.

3.1 Testes de
Significncia
O primeiro teste de significncia importante na regresso logstica o teste da
razo de verossimilhana, onde a hiptese
de que pelo menos um dos parmetros

ij diferente de zero (exceto os


interceptos parmetros i 0 ) testada.
Esse teste faz uma comparao entre o valor da funo de verossimilhana para o
modelo contendo apenas os interceptos e
a verossimilhana do modelo final com todos os parmetros estimados. A estatstica
de teste D, chamada de deviance, tem uma
distribuio qui-quadrado e calculada da
seguinte forma:

( 0 )
2 ln ( 0 ) 2 ln (x, )
D 2 ln
( x, )
~ 2
(k 1) p
onde,

conhecida estatstica de Wald, onde a hiptese nula a de que o particular coeficiente igual a zero. A estatstica W de
ij
Wald definida como o quadrado da razo
entre a estimativa de mxima verossimilhana para o coeficiente e seu respectivo
erro-padro (EP). Essa estatstica tem uma
distribuio assintoticamente qui-quadrado com um nico grau de liberdade:

ij
W
EP
ij

~ 12

As sadas dos programas estatsticos


SPSS e SAS apresentam os testes da razo
de verossimilhana e de Wald.

3.2 Interpretao de
parmetros
A interpretao dos parmetros estimados no modelo de regresso logstica tornase similar ao caso da regresso mltipla tradicional. No caso de uma varivel resposta
com k nveis, o k-simo nvel ser assumido como base e, portanto, pode-se estabelecer k-1 funes logit, contrastando cada
nvel contra o nvel base, conforme segue:

P yi | x
`
g i ( x ) ln
i0 i x
P y k | x

( 0 ) o valor da funo de verossi-

1 i k 1

(x , ) o valor da funo de veros-

Aplicando a funo exponencial nos


dos lados da igualdade:

milhana apenas com os interceptos

similhana para o modelo final


k o nmero de categorias da varivel-resposta Y
p o nmero de variveis independentes (x) includas no modelo
Para a realizao de testes de
significncia individuais para os parmetros

ij , bastante comum a utilizao da bemACTA SCIENTIAE v.5 n.1 jan./jun. 2003

egi ( x )

P yi | x i0 i x
e
P yk | x
1 i k 1

Assim, um incremento de uma unidade na varivel xj causar um aumento


de e ij unidades na razo entre as proba81

bilidades da observao x pertencer a classe yi em relao classe yk. Portanto, quando xj aumenta em uma unidade, a classe yi
torna-se

ij

mesma regio da Itlia, mas derivados de


trs diferentes cultivares (y1, y2 y3) Um total
de 13 caractersticas de cada amostra de vinho foi analisado. Os tamanhos amostrais
para os trs diferentes tipos de cultivares so
59, 71 e 48, considerados suficientes para
estimativas confiveis.
Por razes didticas, apenas trs variveis, dentre as 13 disponveis, sero consideradas no presente exemplo (x1: teor
alcolico, x2: total de fenis e x3: intensidade da cor). A sada do software SPSS 10.0
apresentada na Figura 2.
O teste da razo de verossimilhana
resultou altamente
significativo
(Deviance=67,257) indicando que o modelo estimado pode ser til na discriminao dos trs tipos de cultivares. Os valores Pseudo R-Square so uma espcie de
coeficiente de determinao (R2), mas
com uma interpretao mais complexa,
entretanto segue a regra bsica: quanto
maior, melhor o ajuste do modelo. Dentre as trs medidas apresentadas d-se
preferncia a de Nagelkerke, visto ser uma
medida no intervalo [0;1]. Nesse caso a
medida resultou 0,941, muito prxima do
valor mximo.

vezes mais provvel que yk.

4 Aplicaes
Nos itens subsequentes so apresentados dois exemplos de aplicao da regresso
logstica politmica, enfatizando a utilizao
prtica e a interpretao dos modelos estimados. Os bancos de dados utilizados foram
encontrados a partir do trabalho de
Aeberhard et al. (1994) que fez um comparativo entre uma grande quantidade de mtodos de reconhecimento de padres utilizando dados reais e simulados.

4.1 Reconhecimento de Vinhos (Aplicao no 1)


O banco de dados Wine Recognition
Data encontra-se disponvel na home page do
Departamento de Informao e Cincias da
Computao da Universidade da Califrnia
Irvine e deve-se a Forina et al. (1988). Trata-se do resultado de uma anlise qumica
realizada com vinhos provenientes de uma
Model Fitting Information

Model
Intercept Only
Final

-2 Log
Likelihood
386,630
67,257

Chi-Square

df

Sig.

319,372

,000

Pseudo R-Square
Cox and Snell
Nagelkerke
McFadden

,834
,941
,826

Parameter Estimates

CLASS
1

Intercept
ALCOHOL
PHENOLS
COLOR
Intercept
ALCOHOL
PHENOLS
COLOR

B
-29,539
1,558
7,757
-1,413
33,421
-2,471
6,208
-2,919

Std. Error
15,974
1,255
1,909
,508
14,621
1,196
1,829
,668

Wald
3,419
1,541
16,515
7,729
5,225
4,270
11,524
19,093

df
1
1
1
1
1
1
1
1

Sig.
,064
,214
,000
,005
,022
,039
,001
,000

Exp(B)

95% Confidence Interval for


Exp(B)
Lower Bound
Upper Bound

4,749
2338,084
,243

,406
55,477
8,987E-02

55,566
98538,407
,659

8,454E-02
496,881
5,397E-02

8,116E-03
13,790
1,457E-02

,880
17903,238
,200

Classification
Predicted
Observed
1
2
3
Overall Percentage

54

Percent
Correct
91,5%

3
1
32,6%

65
2
40,4%

3
45
27,0%

91,5%
93,8%
92,1%

Figura 2 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo do Reconhecimento de Vinhos
82

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

As estimativas para os parmetros do


modelo tambm so apresentadas na Figura 2. O nmero de parmetros a ser estimado de (k-1)(p+1) parmetros. No
exemplo h trs classes e trs variveis
(k=p=3), o que leva a um total de oito
parmetros. As duas funes logit estimadas foram as seguintes:
g1 x 29,539 1,558 x1 7,757 x2 1,413x3
(Cultivar Tipo 1)
g 2 x 33,421 2, 471x1 6, 208 x2 2,919 x3
(Cultivar Tipo 2).
O Cultivar Tipo 3 foi considerado
como base e, portanto, g x 0 . De acor3
do com o teste de Wald apenas dois
parmetros estimados no resultaram significativos ao nvel de 5% (Sig.>0,05), entretanto verifica-se que todas as variveis
tm coeficientes significativos em pelo
menos uma das equaes, o que constitui
uma situao altamente desejvel. Geralmente no h interesse nos testes de hipteses das constantes (bi0). A aplicao do
modelo simples, sendo necessrio inserir os valores de x nas funes logit para
obteno das probabilidades de pertencer
as classes:

P( Y y1 | x )

expg1( x )
1 expg1( x ) expg 2 ( x )

P( Y y 2 | x )

expg 2 ( x )
1 expg1( x ) expg 2 ( x )

P( Y y3 | x ) 1 P( Y y1 | x ) P( Y y 2 | x )

De acordo com o modelo estimado,


um vinho com graduao alcolica de
12,0o, fenis totais de 2,5 e intensidade da
cor de 6,0 x=[12,0 ; 2,5 ; 6,0] teria as
seguintes probabilidades de classificao:

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

P(Y y1 | x) 0,135
P(Y y 2 | x) 0,740
P(Y y3 | x) 0,125 .
Portanto, um vinho com tais caractersticas seria classificado como proveniente do Cultivar Tipo 2. A Figura 2 apresenta a tabela de classificao utilizando todas as 178 observaes do conjunto de
dados, onde percebe-se uma habilidade
satisfatria do modelo para classificao,
com taxa de acerto de 92,1%.
Ainda explorando a Figura 2, percebe-se a presena da coluna Exp(B) e seu
respectivo intervalo de confiana. Numa
rpida inspeo visual percebe-se que os
intervalos de confiana so muito amplos,
ocasionados pelos grandes erros-padro
das estimativas. Por meio da interpretao
da coluna Exp(B) chega-se a interpretaes
do tipo: a cada aumento de uma unidade
na graduao alcolica, espera-se um aumento de 0,406 a 55,566 vezes na probabilidade do vinho ser proveniente do Cultivar Tipo 1 em relao probabilidade do
vinho pertencer ao Cultivar Tipo 3.

4.2 As ris de Fisher (Aplicao no 2)


O banco de dados das ris de Fisher
, sem dvida, um dos mais famosos conjuntos de observaes na rea de classificao e discriminao e encontra-se disponvel em diversas pginas da Internet.
Esse sucesso deve-se ao importante trabalho publicado por Fisher (1936) no qual a
anlise discriminante foi abordada. Tratase de um caso onde h trs espcies de flores (y1: ris Setosa, y2: ris Versicolor e y3:
ris Virgnica) e quatro variveis independentes (x1: comprimento da spala, x2: largura da spala, x3: comprimento da ptala, x4: largura da ptala). O banco de dados composto de 150 observaes, sendo 50 para cada tipo de flor. A sada do
software SPSS 10.0 para esse problema
apresentada na Figura 3.
83

O teste da razo de verossimilhana


resultou
altamente
significativo
(Deviance=11,899) indicando que pelo menos uma das quatro caractersticas pode ser
utilizada para discriminao dos trs tipos
de flores. O valor do coeficiente de determinao de Nagelkerke foi praticamente
mximo: 0,99.
As estimativas para os dez parmetros
do modelo tambm so apresentadas na Figura 3. Ocorreram problemas numricos
devido a uma separao completa da classe

ris Setosa, o que comprometeu a parte


inferencial do modelo (testes de
significncia) provocando erros padro visivelmente inflados. Tambm verificou-se
alta correlao entre as variveis independentes o que provoca aumento nos erros
padres e prejudica o procedimento de estimao. Verifica-se que, apesar da ocorrncia de tais problemas, as estimativas encontradas continuam sendo teis, como prova
a taxa de classificao correta de 98,7% apresentada na tabela de classificao.

Mode l Fitting In formation

Model
Intercept Only

-2 Log
L ikelihood
329,584

Final

Chi-Squa re

11,899

df

Sig.

317 ,685

,000

Pse udo R -Squa re


C ox a nd Snell
N agelkerke

,88 0
,99 0

M cF adden

,96 4

Para mete r Estim at es


95% Co nfidence Interval for
Exp(B)
Class
Iris Setosa

Std. Error
2272547
667745,9
313392,1

Wald
,0 00
,0 00
,0 00

-31,522
-43,107

310957,5
,000

42,638
2,465
6,681
-9 ,4 29
-18,286

Inte rcept
SEP_LEN
SEP_WID
PET_LEN

Iris Versico lour

B
30,291
14,670
14,474

PET_ WID
Inte rcept
SEP_LEN
SEP_WID
PET_LEN
PET_ WID

df
1
1
1

Sig.
1,000
1,000
1,000

Exp( B)

Low er Bound

235 05 69
193 15 22

,000
,000

Upper Bound
,a
,a

,0 00
,

1
1

1,000
,

2,043E-14
1,900E-19

,000
1 ,9 00 E- 19

,a
1,900 E-19

25,708
2,394
4,480

2,751
1,060
2,224

1
1
1

,0 97
,3 03
,1 36

11 ,7 66
797,026

,108
,123

1284,293
518 18 47,602

4,737
9,743

3,962
3,523

1
1

,0 47
,0 61

8,033E-05
1,144E-08

7 ,4 57 E- 09
5 ,8 28 E- 17

,865
2,246

a. Flo at ing po int overflo w occurred while computing this stat istic. Its value is therefore set to syste m missing.

Classificatio n
Pre dicted
O bserved
Iris Seto sa
Iris Versicolo ur
Iris Virginica
O verall Perce ntage

Iris Setosa
50

I ris
Versico lour
0

Iris Virginica
0

Percent
C orrect
100 ,0 %

49

98 ,0 %

0
33 ,3 %

1
33 ,3 %

49
33 ,3 %

98 ,0 %
98 ,7 %

Figura 3 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo Fisher Iris Data

As duas funes logit estimadas foram


as seguintes:
g1 x 30,291 14,670x1 14,474x2 31,522 x3 43,107 x4
(Setosa)
g 2 x 42,638 2,465 x1 6,681x2 9,429 x3 18,286 x4
(Versicolor).
Considerando uma observao x=[4
; 3,5 ; 4 ; 2], obtm-se as seguintes probabilidades:

P( Y y1 | x ) 0
P( Y y 2 | x ) 0,831
P( Y y3 | x ) 0,169
84

nesse caso, uma flor com tais caractersticas seria classificada como ris
Versicolor porque a maior probabilidade
est associada classe y2.

5 Consideraes finais
A regresso logstica politmica consiste de uma poderosa ferramenta para
anlise de variveis qualitativas nominais,
apresentando algumas caractersticas bastante interessantes e desejveis em tcnicas de modelagem estatstica. A primeira
ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

caracterstica refere-se ao fato da regresso


logstica no fazer suposies sobre o comportamento probabilstico das variveis independentes. A segunda consiste da possibilidade de estimao direta da probabilidade de uma observao pertencer a determina classe. Por fim, possvel testar a
significncia de um grande nmero de variveis independentes e, assim, eleger as
variveis que contribuem mais para a
separabilidade entre as classes.
Como em todas tcnicas estatsticas,
tambm h problemas na regresso logstica
politmica, conforme se pode observar no
item 4.2. Um dos principais problemas se
d em casos de separabilidade completa
entre as classes, o que inviabiliza uma soluo nica nas equaes de verossimilhana. Segundo Hosmer e Lemeshow (1989)
esse problema ocorre principalmente com
amostras pequenas acompanhadas de um
grande nmero de variveis independentes,
sendo muito improvvel haver separao
completa em modelos estimados a partir de
amostras substanciais. Uma forma simples
de identificar o problema verificar se h
presena de erros padro exageradamente
grandes nas estimativas. Outro problema
que ocorre freqentemente chamado de
colinearidade e se refere presena de correlao entre as variveis independentes. A
colinearidade facilmente identificada
numa matriz de correlao. Uma soluo
eficiente para o problema escolher apenas uma varivel quando houver um par
de variveis altamente correlacionadas. A
presena de colinearidade tambm ocasiona erros-padro grandes.
No item 4.2 os dois problemas mencionados foram identificados e, realmente, os erros padro das estimativas, especialmente para a classe ris Setosa, foram
muito exagerados. Percebe-se que, mesmo
com a ocorrncia dos problemas, o modelo apresentou boa habilidade preditiva. No
h como resolver o problema da
separabilidade completa entre as classes,
mas o problema da colinearidade seria fa-

AEBERHARD, S; COOMANS, D. e DE VEL, O.


(1994) Comparative Analysis of Statistical
Pattern Recognition Methods in High
Dimensional Settings. Pattern Recognition.
Vol. 27, No. 8, p. 1065-77.
ALLISON, P. D. (1999) Logistic Regression using
the SAS System: Theory and Application. Cary,
NC: SAS Institute Inc.
ANDERSON, J. A. (1982) Logistic Discrimination.
In Handbook of Statistics (Vol. 2) P. R. Krishnaiah
and L. Kanal (Eds.) Amsterdam: NorthHolland, p. 169-191.
BITTENCOURT, H. R. e CLARKE, R.T. (2002) Use
of Logistic Discrimination to Classify
Remotely-Sensed -Digital Images. In.: 12TH
PORTUGUESE CONFERENCE ON PATTERN
RECOGNITION. Proceedings... Aveiro, Portugal: Associao Portuguesa de Reconhecimento de Padres. BULL, S. and DONNER, A.
(1987) The efficiency of multinomial logistic
regression compared with multiple group

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

85

cilmente resolvido com a excluso de uma


ou duas variveis. No item 4.1 tem-se um
exemplo bem-comportado onde no
ocorreram problemas e, portanto, toda
parte inferencial pode ser aproveitada.
Como ltima considerao, sugere-se
que a regresso logstica seja utilizada sempre que houver necessidade de entender
algum fenmeno onde a varivel independente do nvel nominal. No caso de ocorrncia de problemas o pesquisador pode
optar por tcnicas mais simples, caso no
haja como resolv-los, porque a parte
inferencial ser necessariamente sacrificada.
Se o interesse for nico e exclusivamente
de discriminao entre classes, a amostra
pode ser dividida em duas partes: uma para
estimao e outra para validao. Mesmo
havendo problemas numricos o modelo
pode ser respaldado pelos resultados da
amostra de validao.

Referncias
bibliogrficas

discriminant analysis. Journal of the American


Satistical Association. vol. 82, p. 1118-1122.
COX, D.R. and SNELL, E. J. (1989). The Analysis
of Binary Data. Second Edition. London:
Chapman and Hall.
DAY, N. and KERRIDGE, D. (1967) A general
maximum likelihood discriminant. Biometrics,
vol. 23, p. 313-324.
FISHER, R. A. (1936) The use of multiple
measures in taxonomic problems. Annals
Eugenica, vol. 7(II), p. 179-188.
FORINA, M. LEARD, R. ARMANINO C. LAUTER,
S. (1988) Parvus an extendible package for
data exploration, classification and correlation.
Institute of Pharmaceutical and Food
Analysis and Technologies, Genoa Italy.
HOSMER, D. and LEMESHOW, S.. (1989)

Applied Logistic Regression. New York: John


Wiley & Sons.
KRZANOWSKY, W. J. (1988) Principles of
Multivariate Analysis. Oxford: Clarendon Press.
McLACHLAN, G. (1992) Discriminant Analysis
and Statistical Pattern Recognition. New York:
John Wiley & Sons.
NORUSIS, M. J. and SPSS Inc. (1999) SPSS
Regression Models 10.0. Chicago, IL: SPSS Inc.
TRUETT, J. CORNFIELD, J. and KANNEL, W.
(1967) A multivariate analysis of the risk
of coronary heart disease in Framinghan.
Journal of Chronic Diseases. v. 20, p. 511-524.
WALKER, S. H. and DUNCAN, D. B. (1967)
Estimation of the probability of an event
as a function of several independent
variables. Biometrika vol. 54, p. 167-169.

86

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

Вам также может понравиться