Вы находитесь на странице: 1из 118

1

INCIO ANDRUSKI GUIMARES










M MO OD DE EL LO OS S D DE E R RE EG GR RE ES SS S O O L LO OG G S ST TI IC CA A O OC CU UL LT TO O E E D DE E
C CO OM MP PO ON NE EN NT TE ES S P PR RI IN NC CI IP PA AI IS S P PA AR RA A R RE EC CO ON NH HE EC CI IM ME EN NT TO O E E
C CL LA AS SS SI IF FI IC CA A O O D DE E P PA AD DR R E ES S C CO OM M V VA AR RI I V VE EL L R RE ES SP PO OS ST TA A
P PO OL LI IT T M MI IC CA A















Curitiba - Paran
2006
Tese apresentada como requisito parcial
obteno do ttulo de Doutor em Mtodos
Numricos em Engenharia, rea de
concentrao: Programao Matemtica, sob a
orientao do Prof. Dr. Anselmo Chaves Neto.
1















































i
2

TERMO DE APROVAO

Incio Andruski Guimares


Modelos de Regresso Logstica Oculto e de Componentes
Principais para Reconhecimento e Classificao de Padres com
Varivel Resposta Politmica

Tese aprovada como requisito parcial para obteno do grau de Doutor em
Cincias no Programa de Ps-Graduao em Mtodos Numricos em Engenharia rea
de Concentrao em Programao Matemtica, setores de Tecnologia e de Cincias
Exatas da Universidade Federal do Paran, pela seguinte banca examinadora:

Orientador: Prof. Anselmo Chaves Neto, D.Sc.
PPGMNE UFPR

Profa. Maria Terezinha Arns Steiner, D. Eng.
PPGMNE UFPR

Prof. Jair Mendes Marques, D.Sc.
PPGMNE UFPR

Prof. Sebastio de Amorin, Ph. D.
Faculdade de Engenharia / UNICAMP

Prof. Jlio Csar Nievola, D. Eng.
PPGIA PUC PR

Curitiba, 08 de dezembro de 2006.


ii
3































minha esposa Patrcia Accioly Calderari da Rosa, com amor.
















iii
4

AGRADECIMENTOS



Aos meus pais, pelos esforos jamais negados e pelos exemplos sempre oferecidos.

Ao meu orientador, Prof. Dr. Anselmo Chaves Neto, pela infinita pacincia demonstrada
diante das ocasionais dificuldades, provocadas ora pelas dificuldades inerentes ao trabalho, ora
pelos equvocos do orientado.

Aos professores do Programa de Ps Graduao em Mtodos Numricos em Engenharia
PPGMNE, por todo o conhecimento transmitido.

Aos professores Maria Terezinha Arns Steiner, Sebastio Amorim, Jair Mendes Marques e
Jlio Csar Nievola, pelas valiosssimas sugestes para a melhoria do presente trabalho e tambm
pelo exaustivo trabalho de reviso.

secretria do CPGMNE, Maristela Bandil, pela eficincia sempre demonstrada e,
sobretudo, pelo bom humor inesgotvel.

Finalmente, aos funcionrios da biblioteca do setor de cincias exatas e tecnolgicas da
UFPR, especialmente aos operadores do Programa de Comutao Bibliogrfica COMUT, pela
eficincia e agilidade na obteno dos trabalhos solicitados.












iv
5

SUMRIO
LISTA DE QUADROS.............................................................................................. vii
LISTA DE FIGURAS................................................................................................ ix
RESUMO ................................................................................................................... x
ABSTRACT ............................................................................................................... xi
1. INTRODUO...................................................................................................... 1
1.1 PROBLEMA ..................................................................................................... 2
1.2 OBJETIVOS ..................................................................................................... 2
1.3 ESTRUTURA DO TRABALHO ...................................................................... 3
2. REVISO DE LITERATURA ............................................................................ 5
2.1 CONFIGURAES DOS CONJUNTOS DE DADOS .................................. 5
2.2 MEDIDA DE SOBREPOSIO NO CASO BINRIO ................................ 8
2.3 MTODO DO CUSTO ESPERADO MNIMO DE RESPOSTA .................. 11
2.4 MODELO DE REGRESSO LOGSTICA .................................................... 13
2.4.1 Estimadores de Mxima Verossimilhana ................................................. 15
2.4.2 Modelos de Regresso Logstica Individualizados .................................... 18
2.4.3 Modelo de Regresso Logstica Oculto ..................................................... 22
2.4.3.1 Modelo de Regresso Logstica Oculto para Varivel Resposta
Dicotmica .....................................................................................................

26
2.4.3.2 Escolha de
0
e
1
................................................................................ 29
2.4.4 Anlise de Componentes Principais Aplicada Estimao de Parmetros 30
2.4.4.1 Formulao do Modelo ....................................................................... 31
2.5 VIS DOS ESTIMADORES ........................................................................... 35
2.5.1 Aplicaes do Mtodo Bootstrap .............................................................. 36
2.6 FUNO DISCRIMINANTE LINEAR PARA MAIS DE DOIS GRUPOS . 39
2.6.1 Aplicaes da Programao Linear Anlise Disciminante Linear ......... 43
2.7 REDES NEURAIS ARTIFICIAIS .................................................................. 46
2.7.1 Redes Neurais com Camadas Ocultas ....................................................... 49
2.7.1.1 Algoritmo de Treinamento .................................................................. 50
2.7.1.2 Condies Iniciais ............................................................................... 54
2.7.2 Vantagens e Desvantagens das Redes Neurais Apontadas na Literatura
Disponvel ..........................................................................................................

54
3. MODELOS DE REGRESSO LOGSTICA OCULTO E DE
COMPONENTES PRINCIPAIS PARA RECONHECIMENTO E
CLASSIFICAO DE PADRES COM VARIVEL RESPOSTA
POLITMICA ....................................................................................................



56
3.1 MODELO DE REGRESSO LOGSTICA OCULTO PARA VARIVEL
RESPOSTA POLITMICA ...........................................................................

56
3.2 MODELO DE REGRESSO LOGSTICA DE COMPONENTES
PRINCIPAIS PARA VARIVEL RESPOSTA POLITMICA ...................

61
4. RESULTADOS E DISCUSSES ....................................................................... 66
4.1 RESULTADOS PARA O CONJUNTO MAMOGRAFIA ............................. 68
4.2 RESULTADOS PARA O CONJUNTO IRIS ................................................. 70
4.3 RESULTADOS PARA O CONJUNTO LEO ISOLANTE .......................... 72
4.4 REPLICAES BOOTSTRAP ........................................................................ 75
4.5 ABORDAGENS INDIVIDUALIZADAS ....................................................... 84
v
6

5. CONCLUSES ..................................................................................................... 86
REFERNCIAS ........................................................................................................ 90
APNDICE I ANLISE DE COMPONENTES PRINCIPAIS ........................ 97
APNDICE II MTODOS BOOTSTRAP ........................................................... 101










































vi
7

LISTA DE QUADROS

QUADRO 4.1 VARIVEIS OBSERVADAS NO CONJUNTO MAMOGRAFIA 66
QUADRO 4.2 VARIVEIS OBSERVADAS NO CONJUNTO IRIS .................... 67
QUADRO 4.3 VARIVEIS OBSERVADAS NO CONJUNTO LEO ................. 68
QUADRO 4.4 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA CLSSICO (MRLC), INDIVIDUALIZADOS (MRLI) E OCULTO
(MRLO). CONJUNTO MAMOGRAFIA ....................................................................


69
QUADRO 4.5 COEFICIENTES DAS FUNES DISCRIMINANTES
LINEARES. CONJUNTO MAMOGRAFIA ...............................................................

69
QUADRO 4.6 MATRIZES DE CLASSIFICAES OBSERVADAS PARA O
CONJUNTO MAMOGRAFIA .....................................................................................

70
QUADRO 4.7 VARINCIAS E AUTOVETORES. CONJUNTO IRIS ................ 71
QUADRO 4.8 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA CLSSICO (MRLC), INDIVIDUALIZADOS (MRLI) E OCULTO
(MRLO). CONJUNTO IRIS .........................................................................................


71
QUADRO 4.9 COEFICIENTES DAS FUNES DISCRIMINANTES
LINEARES. CONJUNTO IRIS ....................................................................................

71
QUADRO 4.10 TAXAS DE CLASSIFICAES EFETUADAS
CORRETAMENTE NO CONJUNTO IRIS ................................................................

72
QUADRO 4.11 NDICES DE CLASSIFICAO PARA LEO ISOLANTE
CLASSIFICADO COMO BOM ....................................................................................

72
QUADRO 4.12 NDICES DE CLASSIFICAO PARA LEO ISOLANTE
CLASSIFICADO COMO A REGENERAR ................................................................

72
QUADRO 4.13 NDICES DE CLASSIFICAO PARA LEO ISOLANTE
CLASSIFICADO COMO A REGENERAR ................................................................

73
QUADRO 4.14 MATRIZ DE CLASSIFICAES DA QDF PARA O
CONJUNTO LEO ISOLANTE ..................................................................................

73
QUADRO 4.15 ESTIMADORES PARA O MRLO. CONJUNTO LEO
ISOLANTE ......................................................................................................................

74
QUADRO 4.16 MATRIZ DE CLASSIFICAES DO MRLO PARA O
CONJUNTO LEO ISOLANTE ..................................................................................

75
QUADRO 4.17 ESTIMADORES PARA O MODELO DE REGRESSO
LOGSTICA OCULTO (MRLO) E ESTIMADORES BOOTSTRAP.
CONJUNTO MAMOGRAFIA .....................................................................................


76
QUADRO 4.18 ESTIMADORES PARA O MODELO DE REGRESSO
LOGSTICA OCULTO (MRLO) E ESTIMADORES BOOTSTRAP.
CONJUNTO IRIS ...........................................................................................................


76
QUADRO 4.19 TAXAS DE CLASSIFICAES EFETUADAS PELO
MODELO DE REGRESSO LOGSTICA OCULTO NO CONJUNTO IRIS,
COM AS VARIVEIS X
1
E X
2
.....................................................................................


76
QUADRO 4.20 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA OCULTO (MRLO) E BOOTSTRAP. CONJUNTO IRIS ...................

77
QUADRO 4.21 VARIVEIS OBSERVADAS NO CONJUNTO LEO CR ..... 77


vii
8

QUADRO 4.22 ESTIMADORES PARA O MODELO DE REGRESSO
LOGSTICA OCULTO (MRLO) E ESTIMADORES BOOTSTRAP.
CONJUNTO LEO CR ..............................................................................................


78
QUADRO 4.23 ESTIMADORES PARA O MODELO DE REGRESSO
LOGSTICA OCULTO (MRLO) E ESTIMADORES BOOTSTRAP.
CONJUNTO LEO CR (REDUZIDO) ....................................................................


78
QUADRO 4.24 TAXAS DE CLASSIFICAES EFETUADAS PELO MRLO
NO CONJUNTO LEO CR, COM AS VARIVEIS X
1
, X
3
E X
5
.........................

78
QUADRO 4.25 VARINCIAS E AUTOVETORES DO CONJUNTO LEO
CR ..................................................................................................................................

79
QUADRO 4.26 ESTIMADORES PARA O MRLCP. CONJUNTO LEO CR 79
QUADRO 4.27 TAXAS DE CLASSIFICAES EFETUADAS PELO MRLCP
NO CONJUNTO LEO CR, COM AS TRS PRIMEIRAS COMPONENTES
PRINCIPAIS ...................................................................................................................


79
QUADRO 4.28 VARIVEIS OBSERVADAS NO CONJUNTO CIDOS
GRAXOS .........................................................................................................................

80
QUADRO 4.29 MATRIZ DE CLASSIFICAES EFETUADAS NO
CONJUNTO CIDOS GRAXOS .................................................................................

81
QUADRO 4.30 ESTMADORES PARA O MRLI, MRLO E BOOTSTRAP,
COM VIS. CONJUNTO CIDOS GRAXOS ...........................................................

82
QUADRO 4.31 VARINCIAS E AUTOVETORES DO CONJUNTO CIDOS
GRAXOS .........................................................................................................................

83
QUADRO 4.32 MATRIZ DE CLASSIFICAES PARA O MRLO.
CONJUNTO CIDOS GRAXOS .................................................................................

83
QUADRO 4.33 ESTMADORES PARA O MRLI, MRLO E BOOTSTRAP,
COM VIS. CONJUNTO CIDOS GRAXOS, SEGUNDA SIMULAO ............

83
QUADRO 4.34 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA CLSSICO (MRLC) E OCULTO (MRLO). CONJUNTO IRIS 13 .

84
QUADRO 4.35 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA CLSSICO (MRLC) E OCULTO (MRLO). CONJUNTO IRIS 23 .

84
QUADRO 4.36 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA CLSSICO (MRLC) E OCULTO (MRLO). CONJUNTO
MAMOGRAFIA 13 ........................................................................................................


85
QUADRO 4.37 ESTIMADORES PARA OS MODELOS DE REGRESSO
LOGSTICA CLSSICO (MRLC) E OCULTO (MRLO). CONJUNTO
MAMOGRAFIA 23 ........................................................................................................


85










viii
9


LISTA DE FIGURAS

FIGURA 2.1 DIFERENTES CONFIGURAES DE CONJUNTOS DE
DADOS ............................................................................................................................

5
FIGURA 2.2 VERDADEIRO T NO OBSERVVEL E RESPOSTA Y
OBSERVVEL ...............................................................................................................

26
FIGURA 2.3 MODELO DE REGRESSO LOGSTICA OCULTO .................... 27
FIGURA 2.4 PERCEPTRON LOGSTICO .............................................................. 47
FIGURA 2.5 GRFICO DA FUNO SIGMIDE ............................................... 48
FIGURA 2.6 PERCEPTRON LOGSTICO PARA VARIVEL RESPOSTA
POLITMICA ................................................................................................................

50
FIGURA 2.7 PERCEPTRON LOGSTICO PARA VARIVEL RESPOSTA
POLITMICA COM UMA CAMADA OCULTA .....................................................

51
FIGURA 3.1 MODELO DE REGRESSO LOGSTICA OCULTO
PROPOSTO PARA VARIVEL RESPOSTA POLITMICA ................................

57
FIGURA 5.1 ESPAO DISCRIMINANTE PARA A COMBINAO (X
1
, X
2
),
DO CONJUNTO IRIS ....................................................................................................

67
FIGURA 5.2 ESPAO DISCRIMINANTE PARA A COMBINAO (X
1
, X
3
),
DO CONJUNTO IRIS ....................................................................................................

67




















ix
10

RESUMO

Este trabalho apresenta uma reviso dos mtodos mais conhecidos e utilizados na estimao de
parmetros de Modelos de Regresso Logstica aplicados a problemas de Reconhecimento de
Padres com varivel resposta politmica. Tambm aborda o problema da separao de grupos, que
fundamental para o clculo dos estimadores dos parmetros dos modelos mencionados. O
principal objetivo comparar a eficincia de abordagens ao problema da obteno de regras
discriminantes a partir do Modelo de Regresso Logstica Oculto, que imune separao de
grupos em problemas com varivel resposta binria, e tambm a partir do Modelo de Regresso
Logstica de Componentes Principais. As mencionadas abordagens consistem em estender os
modelos citados a problemas com varivel resposta politmica, de modo a apresentar uma
alternativa original para a abordagem de problemas desta natureza. O desempenho dos modelos
obtidos avaliado mediante a aplicao dos mesmos a conjuntos de dados extrados da literatura
corrente, em comparao com o Modelo de Regresso Logstica Clssico e Modelos de Regresso
Logstica Individualizados, alm da Funo Discriminante Linear de Fisher e de uma Rede Neural
Artificial. O vis dos estimadores dos parmetros do Modelo de Regresso Logstica Oculto
estimado atravs do Mtodo Bootstrap. O critrio para comparao do desempenho dos modelos
obtidos a taxa de classificaes incorretamente efetuadas pelos mtodos mencionados, tambm
chamada Taxa Aparente de Erros.

PALAVRAS CHAVES: Reconhecimento de Padres, Varivel Resposta Politmica, Separao de
Grupos, Modelo de Regresso Logstica Oculto, Modelo de Regresso Logstica de Componentes
Principais, Mtodos de Reamostragem.










x
11

ABSTRACT

This job gives a review of the most widely used methods for estimating the parameters in the
Logistic Regression Models, applied to Pattern Recognition with polytomous response variable, as
well gives a brief review of some properties about data configuration, in order to compute the
parameter estimates. The main goal is to compare the performance of these methods in building
recognition rules based on the Hidden Logistic Regression Model, which is immune to any
configuration of the data in binary case; as well the Principal Component Logistic Regression
Model. We propose an extension of the models above to problems with polytomous response, in
order to show an original approach to solve the parameter estimation problem when the groups are
completely separated. The performance of the models is investigated through simulations and by
applying it to some data sets taken from the trade literature, and compares with the performance
obtained by the Classical Logistic Regression Model, Individualized Logistic Regression Model,
Linear Discriminant Function and Artificial Neural Network. The bias of estimates in Hidden
Logistic Regression Model is investigated through the Bootstrap Method. The criterion used to
compare the resulting performance is the apparent error rate.


KEYWORDS: Pattern Recognition, Polytomous Response, Data Separation, Hidden Logistic
Regression Model, Principal Component Logistic Regression Model, Resampling Methods.













xi
1

1 INTRODUO

A principal motivao para este trabalho decorre do fato de que, a despeito da reconhecida
eficincia do Modelo de Regresso Logstica como mtodo de Reconhecimento e Classificao de
Padres, possvel notar atravs da literatura disponvel que estudos e aplicaes envolvendo o
mtodo em questo empregam na sua grande maioria modelos com resposta binria. Mesmo os
problemas pertinentes estimao de parmetros, particularmente para conjuntos com grupos cujas
configuraes comprometem os resultados, em geral so abordados a partir de modelos com
resposta binria, sem que se dedique maior ateno aos problemas com varivel resposta politmica
e respectiva metodologia envolvida. Tambm pode-se perceber, especialmente nos ltimos cinco
anos, que o emprego da Regresso Logstica para modelos com varivel resposta politmica
muito menos freqente quando comparado a tcnicas como, por exemplo, Redes Neurais Artificiais,
em suas mais variadas configuraes, Algoritmos Genticos e, mais recentemente, Mquinas de
Base Vetorial (Support Vector Machines). Sem desconsiderar a eficincia destas tcnicas no
Reconhecimento de Padres, comprovada pelo grande nmero de trabalhos disponveis na literatura
atual, pode-se argumentar que a Regresso Logstica tem um grande potencial como objeto de
estudos, alm de representar uma opo matematicamente consistente para a anlise de dados
categorizados. Tambm nota-se que em alguns campos de estudo, como na Medicina, por exemplo,
o Modelo Logstico o mais utilizado como mtodo de discriminao, no que pode ser considerada
uma abordagem padro.

O propsito principal deste trabalho apresentar um estudo comparativo de diferentes
mtodos de estimao de parmetros em modelos de Regresso Logstica, no que se refere
convergncia dos mesmos para solues finitas e tambm eficincia dos modelos resultantes
quando utilizados como regras discriminantes. Alm disso, apresenta-se uma abordagem original
baseada no Modelo de Regresso Logstica Oculto e no Modelo de Regresso Logstica de
Componentes Principais, mediante a extenso dos mesmos para problemas com varivel resposta
politmica, e diferentes tipos de configuraes de conjuntos de dados. A abordagem desenvolvida
de acordo com a metodologia empregada para encontrar as solues obtidas por ambos os modelos
para problemas com varivel resposta dicotmica.




2

1.1 PROBLEMA

As tcnicas estatsticas mais utilizadas no Reconhecimento Estatstico de Padres so a
Funo Discriminante Linear de Fisher (FDL), a Regresso Logstica e a Funo Discriminante
Quadrtica (FDQ). Estas tcnicas podem ser aplicadas a problemas que envolvem, por exemplo,
anlise de crdito, previso de falncias, deteco de fraudes em seguros e cartes de crdito,
manuteno de equipamentos, diagnstico mdico, bem como em estudos biomdicos e
epidemiolgicos. A utilizao da primeira presume que as matrizes de covarincias dos grupos
analisados sejam iguais, o que nem sempre ocorre na prtica. A Regresso Logstica uma
alternativa Funo Discriminante Linear, particularmente quando a suposio acerca das matrizes
de covarincias no satisfeita, e pode ser aplicada a uma grande famlia de distribuies de
probabilidade, envolvendo tanto variveis discretas como contnuas. Na prtica, contudo, a
obteno do Modelo de Regresso Logstica pode ser prejudicada por determinadas caractersticas
dos dados, que afetam o desempenho de procedimentos iterativos utilizados na estimao dos
parmetros desconhecidos. Estas caractersticas, que dizem respeito principalmente aos tipos de
configurao dos conjuntos de dados, em especial sobreposio de grupos, esto intimamente
relacionadas eficincia dos referidos processos iterativos, no que se refere convergncia dos
mesmos no sentido de fornecer estimadores finitos. Alguns mtodos tradicionalmente utilizados
costumam falhar quando aplicados a problemas que envolvem conjuntos de dados com
determinadas configuraes, especialmente nos casos que envolvem varivel resposta politmica,
considerando que no caso de varivel resposta dicotmica este problema pode ser contornado sem
maiores dificuldades. A Funo Discriminante Quadrtica elimina a suposio de matrizes de
covarincias iguais, porm exige que os vetores aleatrios sejam oriundos de populaes normais
multivariadas, o que se configura um problema de igual magnitude.

1.2 OBJETIVOS

O principal objetivo deste trabalho apresentar uma investigao do desempenho de
diferentes mtodos de estimao dos parmetros para Modelos de Regresso Logstica, em
problemas com varivel resposta politmica, ou multinomial. Mais especificamente, o que se
pretende avaliar o desempenho com relao convergncia de cada mtodo para uma soluo
finita e apresentar uma sntese dos resultados obtidos, de modo a oferecer subsdios para a
construo de modelos discriminantes baseados no Modelo de Regresso Logstica. Os mtodos
abordados so: Modelo de Regresso Logstica Clssico (MRLC); Modelos de Regresso Logstica
3

Individualizados (MRLI), conforme a proposta de Begg e Grey (1984); Modelo de Regresso
Logstica Oculto (MRLO), apresentado por Rousseeuw e Christmann (2003), aqui generalizado
para varivel resposta politmica; e a utilizao da Anlise de Componentes Principais na obteno
dos estimadores de modelos com varivel resposta politmica, tomando como ponto de partida a
abordagem apresentada por Aguilera, Escabias e Valderrama (2006) para problemas com varivel
resposta binria. A mencionada generalizao dos dois ltimos mtodos citados constitui uma
abordagem inovadora, de fcil compreenso e rpida implementao computacional. Um objetivo
secundrio a comparao da eficincia dos modelos abordados com a eficincia apresentada pela
Funo Discriminante Linear e por uma Rede Neural Artificial, com algoritmo de retro-propagao.
Esta eficincia avaliada por meio da taxa de classificaes corretamente efetuadas pelos diferentes
modelos, utilizando conjuntos de dados extrados da literatura disponvel, de modo a possibilitar a
comparao dos resultados obtidos com aqueles eventualmente conhecidos por outros
pesquisadores. A incluso destas duas tcnicas motivada pela considervel quantidade de
trabalhos publicados com o objetivo de avaliar a eficincia e o comportamento das mesmas quando
aplicadas Anlise Discriminante. Com isto pretende-se fornecer subsdios para a utilizao de
qualquer das abordagens mencionadas como ferramenta de apoio tomada de decises.

1.3 ESTRUTURA DO TRABALHO

Este trabalho aborda inicialmente o conceito de separao de grupos e alguns aspectos
referentes medida de sobreposio dos mesmos para problemas com varivel resposta binria.
Tambm apresenta uma breve reviso de alguns conceitos e aspectos tericos do Mtodo do Custo
Mnimo Esperado de Mistura (ECM). Em seguida apresenta uma breve explanao sobre o Modelo
de Regresso Logstica Clssico (MRLC) com varivel resposta politmica e a estimao dos
parmetros, bem como o mtodo de Newton Raphson, destacando-se algumas propriedades
importantes para a obteno dos Estimadores de Mxima Verossimilhana (EMV). Tambm so
revistos mtodos alternativos ao Mtodo da Mxima Verossimilhana, tais como os Modelos de
Regresso Logstica Individualizados (MRLI), e um mtodo de estimao robusta, denominado
Modelo de Regresso Logstica Oculto (MRLO), aplicado a problemas com varivel resposta
dicotmica. Na seqncia apresenta-se uma sntese da aplicao do Mtodo Bootstrap na estimao
tanto dos parmetros como do vis dos estimadores obtidos pelo Modelo de Regresso Logstica
Oculto. Uma rpida reviso de alguns aspectos tericos sobre Funo Discriminante Linear, bem
como de aplicaes da Programao Linear Anlise Discriminante Linear, e Redes Neurais
Artificiais apresentada na seqncia, aproveitando para expor algumas relaes entre a ltima
4

tcnica e o Modelo de Regresso Logstica. O passo seguinte consiste em desenvolver uma
extenso do Modelo de Regresso Logstica Oculto para varivel resposta politmica e, em seguida,
a aplicao da Anlise de Componentes Principais estimao de parmetros para o Modelo de
Regresso Logstica, que resulta no Modelo de Regresso Logstica de Componentes Principais
(MRLCP). Finalmente, a eficincia dos modelos obtidos avaliada mediante a comparao com os
resultados obtidos atravs das trs tcnicas. Para facilitar a comparao dos resultados obtidos com
aqueles que porventura tenham sido obtidos por outros pesquisadores, optou-se por utilizar dados
extrados da literatura disponvel.


























5

2 REVISO DE LITERATURA

2.1 CONFIGURAES DOS CONJUNTOS DE DADOS

Uma questo de grande importncia para o Reconhecimento Estatstico de Padres envolve a
configurao dos conjuntos de dados disponveis para anlise, especialmente quando a abordagem
desenvolvida tem como base o Modelo de Regresso Logstica. A mencionada configurao est
diretamente relacionada estimao dos parmetros desconhecidos do modelo em questo, uma vez
que a mesma tem influncia sobre o desempenho de mtodos numricos tradicionalmente
empregados para a obteno dos referidos estimadores.

Sejam k grupos, populacionais ou amostrais, G
1
, G
2
, ... , G
k
contendo n
1
, n
2
, ... , n
k

observaes, respectivamente, na forma X
T
= (x
0
, x
1
, ... , x
p
), onde x
0
1, por convenincia, e as
demais variveis podem ser discretas ou contnuas. O problema aqui abordado o do
Reconhecimento e Classificao, isto , dar uma descrio algbrica, ou grfica, de caractersticas
diferenciais das observaes, com valores numricos que permitam a mxima separao dos grupos
estudados, alm de encontrar uma regra que permita a alocao de uma nova observao em um dos
grupos estudados.

Uma informao importante na configurao dos dados diz respeito separao, ou
sobreposio, dos k grupos estudados. Na Figura 2.1 so considerados como exemplo trs grupos,
isto , k = 3, com p = 2 variveis independentes, X
1
e X
2
. A Figura 2.1(a) mostra total sobreposio
dos grupos. A Figura 2.1(b) ilustra separao, ou sobreposio, parcial. Na Figura 2.1(c) pode-se
observar separao completa dos grupos. Estes conceitos foram formalizados por Albert e Anderson
(1984) conforme o raciocnio mostrado a seguir.

X
2
(a) (b) (c)

G
1
G
1
G
1
G
3

G
2
G
3

G
3
G
2
G
2

X
1
Figura 2.1 Diferentes configuraes de conjuntos de dados.
6


Seja a matriz X, de ordem n (p + 1), de posto (p + 1), por suposio, definida como:

(
(
(
(
(

=
pn n
p
p
x ... x
... ... ... ...
x ... x
x ... x
1
2 12
1 11
1
1
1
X . (2.1)

e que tambm costuma ser apresentada na forma:

[ ]
p
... x x 1 X
1
= . (2.1b)

Seja L
s
o conjunto de linhas identificadoras das observaes de G
s
, s = 1, 2, ... , k. Diz-se
que h separao completa entre os grupos se existe um vetor R
m
, onde m = (k 1)(p + 1), tal
que, para todo i L
j
, e para j , t = 1, 2, ... , k, j t ,

0 ) ( >
i
T
t j
X B B . (2.2)

Diz-se que h separao quase completa se

0 ) (
i
T
t j
X B B , (2.3)

com a igualdade valendo para, no mnimo, uma tripla (i , j , t). Sejam j(i), o valor de j para o qual i
L
j
, e Q( ), o conjunto de indicadores das observaes que satisfazem a igualdade em (2.3). Diz-
se que estas observaes so quase separadas em relao a .

Finalmente, diz-se que h sobreposio dos grupos quando existe uma tripla (i , j , t) tal que

0 ) ( <
i
T
t j
X B B . (2.4)

Segundo Albert e Anderson (1984) a deteco da separao entre grupos pode ser abordada
de duas maneiras distintas, algbrica ou emprica. A abordagem algbrica, segundo os autores
7

citados, foi relatada por J. Burridge (em um trabalho no publicado) e baseada em conceitos da
Programao Linear, seguindo o raciocnio mostrado na seqncia.

Sejam dois grupos distintos, G
1
e G
2
. Diz-se que h separao completa, ou quase completa,
quando existe
1
0 , tal que

0
1
B A , (2.5)

onde A uma matriz n ( p + 1) com linhas ( x
i
), para i L
1
, e x
i
, para i L
2
. Caso a inequao
(2.5) no possa ser satisfeita com
1
0 , diz-se que os grupos esto sobrepostos.

A desigualdade (2.5) tambm pode ser escrita na forma:

( )( ) 0
1
= T , I , A
n
B . (2.6)

onde I
n
a matriz identidade de ordem n, e T um vetor com n variveis de folga. Com relao
soluo h trs possveis concluses:

1. Se existe uma soluo tal que t
i
> 0 (i = 1, 2, ... , n), diz-se que os grupos esto
completamente separados.
2. Se existe uma soluo tal que t
i
0 (i = 1, 2, ... , n), com a igualdade verificando-se para no
mnimo um valor de i, diz-se que a separao quase completa.
3. Se nenhuma das condies acima for verificada, diz-se que os grupos esto sobrepostos.

Em uma expanso do trabalho de Albert e Anderson, Santner e Duffy (1986) apresentam
um modelo de Programao Linear que classifica os dados como (i) completamente separados, (ii)
quase separados ou (iii) sobrepostos. Tal modelo brevemente descrito a seguir.

Inicialmente considera-se o vetor B
T
= (B
T
1
, ... , B
T
k 1
), B R
m
, onde m = (p + 1)(k 1).
Alm disso, para cada i, 1 i n, j(i) representa o valor da varivel resposta Y
i
, isto , Y
i
= j(i).
Sejam os conjuntos A
C
, de todos os vetores B que satisfazem (2.2), e A
Q
, de todos os vetores B que
satisfazem (2.3). Seja a matriz em blocos X, de dimenso n(k 2) m, onde cada bloco tem
dimenso (k 2) m, e definida da seguinte forma:
8


1. Se j(i) < k, ento uma linha
T
i
Q
j( i )
e (k 3) linhas so da forma
T
i
{Q
j( i )
Q
t
},
considerando t {1 , ... , k 2} \ {j(i)}; e
2. Se j(i) = k, ento (k 3) linhas so da forma
T
i
{ Q
t
}, para t {1 , ... , k 2}.

Aqui Q
t
, para 1 t k 2, a matriz de dimenso (p + 1) m, de elementos nulos ou unitrios, tal
que Q
t
B = B
t
e
i
a i-sima coluna de X. Seja T(B) o produto cartesiano X{T
i
(B): i Q
m
}. O
modelo de Programao Linear proposto pelos autores da forma:

=
n
i
i
z max
1

( )
[ ] [ ]
( ) ( )
( )( )
( )
( )

= |

\
|

=
=

+ =

n ,..., i w k z
k n ,..., j
m
s
w
|
a sujeito
k i
k i j
j i
j
j
1
2
5
2 1
0

2
1 2 1
S B I X
2 k n


onde B arbitrariamente escolhido, s > 0, w
j
e z
i
{0 , 1}, I
n(k 2)
a matriz identidade, e m > 0
escolhido de modo que m s
j
verifica-se para s
j
> 0, sendo )} ( { i j
m
i
= T S .

De acordo com os autores, o modelo acima sempre factvel. Alm disso, um componente de S
positivo se, e somente se, a inequao 0 B X estritamente satisfeita. Tambm, z
i
= 1 se, e
somente se, Y
i
completamente separado. A funo objetivo maximiza a cardinalidade do
complemento de Q
m
, onde ( )
I
Q
A
m
Q Q

=
B
B .

2.2 MEDIDA DA SOBREPOSIO NO CASO BINRIO

Uma abordagem proposta por Christmann e Rousseeuw (2001) efetua a mensurao da
sobreposio dos grupos para casos onde a varivel resposta, Y, binria, ou dicotmica. So
definidos dois valores: n
overlap
, que representa o menor nmero de observaes cuja remoo
necessria para tornar impossvel a existncia dos EMV, e n
complete
, que representa o menor nmero
9

de observaes cuja remoo produz separao completa. Por definio, n
overlap
n
complete
. A
determinao de ambos os valores, e tambm dos conjuntos de ndices correspondentes s
mencionadas observaes, feita mediante a aplicao de um algoritmo proposto pelos autores, e
cujo desenvolvimento prescinde de duas definies, apresentadas a seguir, relativas a um modelo de
regresso linear aplicado a um conjunto de dados na forma que se segue:

( ) { } n i y x x x Z
i i p i i n
, ... , 2 , 1 ; , ,..., ,
, , 2 , 1
= = . (2.7)

O objetivo ajustar a cada y
i
um hiperplano afim, pertencente ao espao R
p + 1
, ou seja:

i p p i i i
x x x y
, , 2 2 , 1 1 0
... + + + + = (2.8)

( ) ( )
i
T
i
, g y X B 1 = . (2.9)

Definio 2.1: Diz-se que um vetor no ajustado a Z
n
se, e somente se, existe um hiperplano
afim V R
p + 1
que no contenha nenhum X
i
e tal que os resduos

( ) ( ) ( ) 0 1 > =
i
T
i i
, g y r X B B (2.10)

para qualquer X
i
em um dos subespaos e

( ) ( ) ( ) 0 1 < =
i
T
i i
, g y r X B B (2.11)

no outro subespao.

Definio 2.2: A profundidade de regresso de um ajuste aos dados Z
n
o menor nmero de
observaes que necessitam ser removidas para tornar no ajustado, no sentido da Definio 2.1.
O menor nmero de resduos que necessitam de alterao de sinal denotado por rdepth( , Z
n
).

A profundidade de regresso invariante com relao s transformaes montonas, no
sentido de que possvel substituir y
i
por uma funo estritamente montona h(y
i
), desde que g seja
substituda por (h g). Esta propriedade vlida, segundo Rousseeuw (1984), porque a
10

profundidade de regresso, conforme a Definio 2.1, depende apenas das variveis independentes
X
i
e dos sinais dos resduos (2.10) e (2.11). Ainda de acordo com Rousseeuw (1984), esta
propriedade no verificada para a maioria dos mtodos de estimao, entre os quais o Mtodo dos
Mnimos Quadrados (MMQ).

Para o caso de varivel resposta binria, pode-se definir a profundidade de regresso atravs
da substituio da funo g pela funo distribuio acumulada da distribuio logstica. Neste
caso, a medida invariante com relao aos diferentes valores da varivel resposta binria, e pode
ser computada atravs de um algoritmo, desenvolvido por Rousseeuw e Hubert (1999), de ordem
O(nlog(n)), para p = 2, ou de um algoritmo de ordem O(n
p 1
log(n)), para p {3 , 4}, desenvolvido
por Rousseeuw e Struyf (1998). Ainda de acordo com Christmann e Rousseeuw (2001), a
determinao do nmero mnimo exato de observaes misturadas para p arbitrrio, com base em
um hiperplano afim, um problema essencialmente NP-difcil.

O algoritmo proposto por Christmann e Rousseeuw (2001) consiste dos seguintes passos:

1. Ler o conjunto de dados na forma (2.7), considerando y
i
{0 , 1}, i = 1, 2, ... , n.
Normalizar as variveis x
1i
, x
2i
, ... , x
pi
.
2. Determinar o nmero n
a
de pontos distintos, na forma ( x
a
j , 1
, ... , x
a
j , p 1
, y
a
j
) em Z
n
. Para
cada j {1, ... , n
a
} contar o nmero t
j
de pontos coincidentes, de modo que

=
=
a
n
j
j
t n
1
.
Deste ponto em diante trabalha-se com o conjunto de dados agregados
} 1 ); ; , ,..., {(
1 , 1 , a j
a
j
a
p j
a
j
a
n
n j t y x x Z =

. Para computar n
overlap
ou n
complete
, os pontos
coincidentes so contados como t
j
pontos.
3. Se p = 2, aplicar o algoritmo exato para n
overlap
, ou n
complete
, ao conjunto de dados
agregados. Ir para o passo 7.
4. Se p > 2, usar o algoritmo de aproximao baseado em projees. Definir o nmero NITER
de subgrupos a explorar. Iniciar o gerador de nmeros aleatrios. Fixar os valores NSIN = 0,
ITER = 1 e n
overlap
= n , n
complete
= n.
5. Explorar um subgrupo escolhido aleatoriamente, e de tamanho (p 1), de Z
a
n
. Se o
conjunto } )' 1 , ( ,..., )' 1 , {(
1 , 1 ,
a
p j
a
j
x x

linearmente dependente, fazer NSIN = NSIN + 1 e


explorar o prximo subgrupo. Seno ir para o passo 6.
11

6. Projetar todos os x
a
j
na direo U , ortogonal ao hiperplano dado pelo subgrupo. Agregar o
conjunto bidimensional } ,..., 1 ); , {(
a j
T a
j
n j y x = U e o correspondente valor de t
j
,
conforme definido no passo 2, e contar os pontos coincidentes. Computar n
overlap

bidimensional. Se for menor que o atual valor de n
overlap
, atualiz-lo, e proceder da mesma
forma para n
complete
. Fazer ITER = ITER + 1. Se ITER > NITER, ir para o passo 7. Seno,
retornar ao passo 5.
7. Fornecer a aproximao resultante de n
overlap
, ou n
complete
, a direo correspondente de U , e
para p > 2 o nmero NSIN de subgrupos singulares encontrado.

De acordo com os autores, o algoritmo acima descrito tem a sua preciso e o seu tempo de
computao fortemente afetados pelo nmero de subgrupos analisados. O nmero de variveis
independentes tambm contribui consideravelmente para o aumento do esforo computacional
requerido para a mensurao da sobreposio. Alm disso, o mtodo em questo avalia a
sobreposio entre as observaes de dois grupos a cada vez, o que pode ser um srio obstculo
sua utilizao para problemas com trs ou mais grupos de observaes.


2.3 MTODO DO CUSTO MNIMO ESPERADO DE MISTURA

Sejam os grupos G
1
, G
2
, ... , G
k
contendo n
1
, n
2
, ... n
k
observaes, respectivamente, na
forma X
T
= (x
0
, x
1
, ... , x
p
) , onde x
0
1 e as demais variveis podem ser discretas ou contnuas.
Sejam f
i
(X) , a funo densidade de probabilidade (f.d.p.) associada ao grupo G
i
, i = 1 , 2 , ... , k;
p
i
, a probabilidade a priori do grupo G
i
, e C(j | i) , o custo de classificar uma observao em G
j
,
quando a mesma pertence, de fato, ao grupo G
i
, sendo C(i | i) = 0. Alm disso, sejam R
j
, o conjunto
de observaes X classificadas como pertencentes ao grupo G
j
, e a probabilidade P(j | i), de
classificar uma observao em G
j
, quando a mesma pertence, de fato, ao grupo G
i
, dada por:

( ) ( )

=
j
R
i
d f i | j P X X . (2.12)
Tambm,
( ) ( )

=
=
k
i j
j
i | j P i | i P
1
1 . (2.13)

12

A classificao de uma observao do grupo G
i
em um grupo G
j
, i j , tem um custo esperado de
confuso dado por:

( ) ( ) ( )

=
=
k
i j
j
i | j C i | j P i ECM
1
. (2.14)

Multiplicando-se cada ECM por sua respectiva probabilidade a priori, e efetuando-se a soma dos
produtos, obtm-se:

( ) ( )

=

=
(
(
(

=
k
i
k
i j
j
i
i | j C i | j P p ECM
1 1
. (2.15)

Ento a obteno de um procedimento timo de classificao consiste em escolher regies R
1
, R
2
,
... , R
k
, tais que (2.15) seja minimizada. Tais regies so definidas pela classificao de uma
observao X no grupo G
j
, j = 1 , 2 , ... , k, para o qual mnima a soma definida por:

( ) ( )

=
k
j i
i
i i
i | j C f p
1
X . (2.16)

Caso ocorra um empate, a observao pode ser classificada em qualquer dos grupos empatados.

De acordo com Johnson e Wichern (1988), quando os custos esperados forem os mesmos,
sem perda de generalidade podem ser fixados em 1 (um), a soma (2.16) pequena quando o termo
omitido grande. Desta forma, pode-se expressar a regra do custo esperado mnimo de confuso
como:

Classificar X como pertencente ao grupo G
j
, j = 1 , 2 , ... , k, se

( ) ( ) j i , f p f p
i i j j
> X X . (2.17)

A expresso (2.17) tambm pode ser apresentada como:
13


( ) ( ) j i f np f np
i i j j
> , X X l l . (2.18)

Convm acrescentar que a regra anterior idntica regra que maximiza a probabilidade a
posteriori, P(G
j
| X) , dada por:

( )
( )
( )

=
=
k
i
i i
j j
j
f p
f p
| G P
1
X
X
X . (2.19)


2.4 MODELO DE REGRESSO LOGSTICA

Sejam os grupos G
1
, G
2
, ... , G
k
contendo n
1
, n
2
, ... , n
k
, observaes, respectivamente, na
forma X
T
= (x
0
, x
1
, ... , x
p
), onde x
0
1 e as demais variveis, ou covariveis, podem ser discretas
ou contnuas. Seja Y
s
, s = 1, 2, ... , k, a varivel resposta, na forma Y
T
= (y
1
, y
2
, ... , y
n
), que indica
o grupo ao qual pertence cada observao. O Modelo de Regresso Logstica assume que as
probabilidades a posteriori tm a forma:

( )
( )
( )
) ..., , 2 , 1 (
exp
exp
|
1
k s G P
k
j
j
s
s
= =

X
, (2.20)
onde
) 1 , ... , 1 ( ...
1
0 2 2 1 1 0
= = + = + + + + =

=
k s x x x x
T
s
p
i
i si s p sp s s s s
X B , (2.21)
e 0 0 = =
k k
B .

Na forma anterior o k-simo grupo adotado neste trabalho como grupo base, ou de
referncia. Convm ressaltar que alguns autores, como Hosmer e Lemeshow (1989), preferem
tomar o grupo 1 como referncia. Tambm h autores que consideram 0 (zero) como valor inicial
para s, como Santner e Duffy (1986), por exemplo. Uma vez escolhido o grupo de referncia, a
estimao dos parmetros segue um raciocnio anlogo ao desenvolvido para modelos com resposta
binria.
14


A forma (2.20) permite a modelagem da relao entre a varivel resposta e o vetor X de
covariveis, ou variveis explanatrias. De acordo com McLachlan (1992), as primeiras aplicaes
do Modelo de Regresso Logstica ocorreram no estudo prospectivo de doenas coronrias, por
Cornfield (1962) e Truett, Cornfield e Kannel (1967). Nestes casos a estimao dos parmetros
seguia a suposio de normalidade. O problema da estimao em um contexto mais amplo foi
considerado por Cox (1966, 1970), Day e Kerridge (1967) e por Walker e Duncan (1967). Ainda de
acordo com McLachlan (1992), a discriminao logstica amplamente aplicvel a uma grande
variedade de famlias de distribuies, tais como:

1. Distribuies normais multivariadas com matrizes de covarincias iguais.
2. Distribuies discretas multivariadas seguindo o modelo log-linear.
3. Distribuies conjuntas de variveis aleatrias contnuas e discretas, no necessariamente
independentes.

A regra mais simples para discriminao consiste em alocar uma observao X no grupo G
s

se, e somente se,

) , ... , 2 , 1 ( 0 ) ( k t
T
t s
= X B B . (2.22)

A funo de verossimilhana condicional para k grupos pode ser expressa na forma:

( ) [ ]

= =
=
n
i
k
j
Y
i j
ji
G P
1 1
) | ( X B l , (2.23)

onde Y
ji
a varivel resposta, indicadora do grupo ao qual pertence a i-sima observao, isto :

=
=
j y se
j y se
Y
i
i
ji
, 0
, 1
, i = 1 , ... , n, j = 1 , ... , k.

Do ponto de vista matemtico mais conveniente trabalhar com a funo log-verossimilhana,
dada por:

15

( )

=

= (
(

|
|

\
|
+ =
n
i
k
j
j
k
j
j ji
n Y L
1
1
1
1
1
exp 1 l B . (2.24)

2.4.1 Estimadores de Mxima Verossimilhana

Os Estimadores de Mxima Verossimilhana (EMV) dos parmetros so encontrados
mediante a resoluo do sistema de equaes formado pelas derivadas parciais de (2.24) em relao
a cada um dos (k 1)(p + 1) parmetros desconhecidos, igualadas a zero, e cuja forma geral :

( )
( ) [ ]

=
=

n
i
i j ji mi
jm
| G P Y x
L
1
X
B
( j = 1 , 2 , ... , k 1 , e m = 0 , 1 , ... , p). (2.25)

O procedimento mais utilizado na obteno dos EMV o mtodo de Newton-Raphson, que
resulta na expresso dada por:

( ) ( ) ( )
( ) [ ]
( )
( ) [ ]
m m m m
S I B B B B
1
1

+
+ = (2.26)

onde S(B
(m)
) o vetor com (k 1)(p + 1) parmetros, dados por (2.25) e I(B
(m)
) uma matriz
quadrada, de ordem (k 1)(p + 1), cujos elementos so os negativos dos valores esperados para as
derivadas parciais de segunda ordem, na forma que se segue:

[ ][ ]

=
=

n
i
i j i j mi i m
jm jm
G P G P x x
L
1
'
'
2
) | ( 1 ) | (
) (
X X
B

(2.27)
[ ][ ]

=
=

n
i
i j i j mi i m
m j jm
G P G P x x
L
1
' '
' '
2
) | ( ) | (
) (
X X
B

(2.28)

onde j , j = 1 , 2 , ... , k 1 , e m , m = 0 , 1 , ... , p.

A matriz de informao I(B
(m)
) pode ser escrita na forma:

VX X B
T
) ( = I (2.29)

16

onde V, para varivel resposta binria, a matriz diagonal n n de varincias, isto ,

( ) ( ) [ ]
i i ii
| G P | G P V X X = 1 . (2.30)

Para varivel resposta politmica a matriz de informao pode ser escrita na forma:

( )
( )
( )
( ) ( ) ( )( ) (
(
(
(
(

1 1 2 1 1 1
1 2 22 21
1 1 12 11
k k k k
k
k
B ... B B
... ... ... ...
B ... B B
B ... B B
I B , (2.31)

onde

( ) ( ) ( ) [ ] [ ]
( ) ( ) ( ) [ ] [ ]


= =
=
j i | G P | G P diag
i s j i | G P | G P diag
B
i j i i
T
i s i s
T
ij
, 1
, , 1
x x X
X x x X
. (2.32)

De acordo com Anderson (1972), Albert e Anderson (1984) e Albert e Lesaffre (1986), os
estimadores para os parmetros existem se, e somente se, houver sobreposio completa dos grupos.
Aqui deve-se entender a existncia no sentido de unicidade da soluo, isto , se os grupos no
esto completamente sobrepostos, conforme a Figura 2.1(a), os estimadores obtidos pelo mtodo da
mxima verossimilhana no so nicos, ou tendem ao infinito, conforme os teoremas a seguir.
Neste ponto importante ressaltar a necessidade de escolher adequadamente o grupo base. Caso
haja sobreposio parcial, conforme a Figura 2.1(b), os modelos podero ser obtidos desde que G
2

seja escolhido como grupo base. Se a escolha recair sobre G
1
ou G
3
, os estimadores de mxima
verossimilhana no sero encontrados. Para tais casos h algumas abordagens alternativas, que
sero apresentadas adiante.

Teorema 2.1 Se existe separao completa dos grupos de dados, ento os estimadores de mxima
verossimilhana para B no existem, e

( ) 1 =

B L max .

17

Para provar o teorema anterior, Albert e Anderson (1984) definem inicialmente o conjunto
C
de
todos os vetores B que satisfazem a desigualdade (2.2), isto :

0 ) (
T
>
i t j
X B B .

Na seqncia consideram ( ) B k k = , onde B pertence ao conjunto
C
e k > 0. Ento a funo
verossimilhana pode ser escrita na forma:

( )
( ) { }

=
=
(
(
(
(


=
k
j G i
k
t
i
T
t j
j
k
n k L
1
1
exp
1
,
x B B
B X l . (2.33)

Os autores citados consideram o comportamento da funo acima quando k . Neste caso a
desigualdade (2.2) ainda satisfeita. Ento os termos exponenciais tendem a zero, exceto aquele no
qual a soma sobre t quando t = j, onde k igual a um. Desta forma ( ) 0 , B X k L no ponto de
mximo absoluto, quando k . Os autores concluem que o mximo absoluto da funo
atingido no infinito, sobre a fronteira do espao de parmetros.

Teorema 2.2 Se existe sobreposio dos grupos de dados, ento os estimadores de mxima
verossimilhana para B existem e so nicos.

De acordo com os autores a prova para este teorema dada por Silvapulle (1981), para modelos
com resposta dicotmica. Para modelos com resposta politmica a demonstrao tem como base o
argumento de que ( ) B X k L , e tambm que a funo em questo estritamente cncava.

As provas detalhadas para os teoremas citados podem ser encontradas em Albert e Anderson
(1984). Uma importante referncia adicional o trabalho de Santner e Duffy (1986).

Outra abordagem ao problema da deteco de separao completa, ou quase completa,
defendida por Lesafre e Albert (1989). Segundo estes dois autores, as regras de identificao das
referidas configuraes poderiam tomar como base a resposta de um programa padro de mxima
verossimilhana. Como apoio ao seu argumento os referidos autores provam que a separao
18

totalmente determinada pelo comportamento dos erros padres dos estimadores no processo
iterativo. Seguindo esta mesma linha de raciocnio, Heinze e Schemper (2002) afirmam que o
problema da separao de grupos pode ser contornado monitorando-se a varincia dos estimadores
durante a execuo do processo iterativo.

A separao completa dos grupos de dados no representa um grande problema quando a
varivel resposta dicotmica, j que esta ocorrncia em situaes prticas pode ser contornada
pela utilizao de outros mtodos de classificao, como a Funo Discriminante Linear, por
exemplo. Entretanto, para varivel resposta politmica, a ausncia de sobreposio pode tornar at
mesmo impraticvel a estimao dos parmetros do modelo, especialmente em problemas
envolvendo mais de trs variveis independentes (p > 3), j que a identificao de grupos totalmente
separados torna-se mais complexa, particularmente quando h um nmero elevado de grupos
envolvidos e de variveis independentes. Nestas condies a implementao das solues propostas
por Santner e Duffy (1986) e por Christmann e Rousseeuw (2001) pode exigir um elevado esforo
computacional, o que pode ser um obstculo sua utilizao. Algumas abordagens alternativas,
brevemente descritas a seguir, so sugeridas por Begg e Gray (1984) e por Rom e Cohen (1995).
So tcnicas que, alm de permitir a estimao dos parmetros, quando estes existem, possibilitam a
identificao dos grupos totalmente separados do grupo de referncia.

2.4.2 Modelos de Regresso Logstica Individualizados

A primeira abordagem, apresentada por Begg e Gray (1984), prope o uso de Modelos de
Regresso Logstica Individualizados (MRLI), na qual obtm-se uma srie de modelos de
Regresso Logstica simples, em substituio ao modelo politmico. Seja a probabilidade:

k j Y P P
i ji ji
,..., 2 , 1 , ) | 1 ( = = = x . (2.34)

No modelo politmico pode-se considerar que:

. 1 ,..., 2 , 1 ,
~
= =
|
|

\
|
k j
P
P
n
ii
T
ki
ji
x B l (2.35)

19

Para obter modelos individualizados, que comparam cada categoria com a categoria de referncia,
pode-se adotar um modelo na forma:

1 , ... , 2 , 1 ,
T
= =
|
|

\
|
k d
Q
Q
n
i d
ki
di
x A l . (2.36)
onde
) 1 , | 1 ( = + = =
ki di i di di
Y Y Y P Q x

e ) 1 , | 0 ( = + = =
ki di i di ki
Y Y Y P Q x .

Segundo os autores, fcil verificar que os dois modelos so parametricamente equivalentes, isto ,

d
=
d
. De acordo com o teorema de Bayes:

ki di
di
di
P P
P
Q
+
= . (2.37)
Tambm
di
di
ki
di
Q
Q
P
P

=
1
. (2.38)

O mtodo alternativo proposto pelos autores considera as probabilidades condicionais
individualizadas dadas por:

[ ] 1 1
1
= + = =
i di i di di
Y Y , | Y P IP x
e
[ ] 1 0 1
1
= + = =
i di i di di
Y Y , | Y P IP x

com i = 1 , 2 , ... , n e d = 2 , ... , k.

Ento tem-se que:

i
T
d
i
di
di
di
P
P
n
IP
IP
n x B
~
1
1
=
(

=
(

l l . (2.39)

20

A abordagem apresentada permite, de acordo com os autores, ajustar (k 1) diferentes
modelos de Regresso Logstica para varivel resposta binria, nos quais cada grupo d comparado
com o grupo de referncia, aqui tomado como o Grupo 1. Se o procedimento for adotado para obter
(k 1) modelos, os estimadores
1 1
~
,...,
~
k
B B , podem ser substitudos em (2.20). Alm disso, se for
empregado o Mtodo da Mxima Verossimilhana, os estimadores citados sero assintoticamente
no viesados. A eficcia do procedimento avaliada a partir da eficincia assinttica relativa
(EAR). Ainda, de acordo com os autores, a perda na EAR dos estimadores muito pequena. Apesar
disso, possvel que os estimadores no sejam todos encontrados. Uma situao tpica ilustrada
pela Figura 2.1(b). Se o grupo G
1
for adotado como categoria de referncia, o estimador
3
~
B no
existir, pois no h sobreposio entre G
1
e G
3
.

Embora o mtodo seja analiticamente flexvel, os autores levantam algumas questes a
respeito do mesmo. A primeira diz respeito eficincia assinttica dos estimadores com relao aos
Estimadores de Mxima Verossimilhana do modelo politmico. Outra questo refere-se
eficincia das combinaes lineares dos estimadores, especialmente das combinaes de variveis
de diferentes modelos de regresso. Uma terceira questo relativa possibilidade de utilizar os
modelos individualizados em testes de hipteses efetuados com o objetivo de avaliar o impacto de
uma varivel explanatria sobre qualquer dos modelos. Finalmente, a ltima questo levantada
envolve a possibilidade de desenvolver formulaes prticas para obter intervalos de confiana para
as probabilidades preditas, quando as varincias dependem de todos os parmetros.

De acordo com Hosmer e Lemeshow (1989), os estimadores obtidos atravs do mtodo em
questo so consistentes e no apresentam grande perda de eficincia, assumindo valores bastante
prximos aos valores obtidos para os estimadores atravs do Mtodo da Mxima Verossimilhana,
conforme descrito em 2.1. Ainda de acordo com os autores citados, os modelos individualizados
podem ser bastante teis para tratar um problema que, embora no ocorra no caso de varivel
resposta binria, comum em problemas com resposta politmica. Trata-se da situao na qual uma
varivel independente significativa para apenas uma das funes discriminantes. Como o modelo
(2.20) no adequado ao tratamento deste problema, os Modelos Individualizados podem fornecer
funes discriminantes que envolvem diferentes variveis independentes. A significncia em
questo pode ser estimada atravs do Teste de Wald. Este teste fornece um estimador z
i
, i = 0 , 1 ,
... , p, para cada estimador B
i
, dado por:

21

( )
2
(

=
i
i
i
SE
z
B
B
. (2.40)

Alguns autores apontam problemas com o uso do Teste de Wald. De acordo com Menard
(1995), quando o valor encontrado para o estimador grande, o erro padro inflacionado, o que
reduz o valor da estatstica utilizada. Segundo Agresti (2002), o Teste da Razo das
Verossimilhanas mais confivel. A estatstica deste teste dada por:

( ) ( ) [ ]
i
L L B B 2 , (2.41)

onde L(B
i
) a log-verossimilhana para o modelo sem a isima varivel, e L(B) a log-
verossimilhana do modelo com todas as variveis. Tanto (2.40) como (2.41) seguem distribuio
Qui-Quadrado com (n p 1) graus de liberdade.

Outra medida de adequao de ajustamento a estatstica
2
arc
baseada na transformao
arco-seno, dada por

( ) [ ]

=
=
n
i
i i arc
Y P arcsen y arcsen
1
2
| 4 x . (2.42)

Uma modificao para o mtodo de Begg e Gray sugerida por Rom e Cohen (1995). O
mtodo em questo tem por base a idia de que comparaes de pares de categorias podem
aumentar as informaes a respeito da razo (2.35), alm de permitir a obteno dos estimadores
para os parmetros desconhecidos. A idia consiste em ajustar k(k + 1)/2 modelos binrios e depois
estimar os parmetros atravs do Mtodo de Mnimos Quadrados Ponderados, de modo a obter os
Estimadores Individualizados Ponderados. Segundo os autores, embora o procedimento requeira
maior esforo computacional, a EAR maior que aquela observada para a abordagem de Begg e
Gray. Alm disso, quando comparado ao Mtodo da Mxima Verossimilhana, mais vantajoso
para estudos que envolvem grandes conjuntos de dados, quando limitaes computacionais podem
tornar intratvel o problema de estimao dos parmetros.



22

2.4.3 Modelo de Regresso Logstica Oculto

Com o objetivo de contornar o problema da no existncia de estimadores de mxima
verossimilhana em funo da separao de grupos, Rousseeuw e Christmann (2003) apresentaram
o Modelo de Regresso Logstica Oculto (MRLO). Esse modelo foi assim denominado pela
semelhana com a camada oculta de alguns modelos de Redes Neurais, como ser visto adiante. Na
sua concepo assume-se que, devido a um mecanismo estocstico, a verdadeira resposta de um
Modelo de Regresso Logstica no observvel, e que existe uma varivel observvel fortemente
relacionada verdadeira resposta. A estimao dos parmetros do modelo resultante realizada
atravs de mtodos de estimao robusta, tendo como referncia conceitos formulados por Ekholm
e Palmgren (1982) e Copas (1988).

A estimao robusta geralmente abordada de duas formas, conforme Kodzarkhia, Mishra
e Reierslmoen (2001). Uma baseada na minimizao da Funo Verossimilhana, enquanto a
outra tem como base funes de influncia. Na seqncia apresenta-se de forma sucinta a aplicao
deste mtodo ao Modelo de Regresso Logstica com varivel resposta dicotmica, seguindo o
raciocnio apresentado por Kodzarkhia, Mishra e Reierslmoen (2001).

Sejam Y
1
, Y
2
, ... , Y
i
, ... , Y
n
observaes de uma distribuio de Bernoulli, b(1 , p
i
), por
suposio geradas a partir de um modelo linear geral com vetor de variveis explanatrias
) ,..., , 1 (
1
T
p
x x = x , vetor de parmetros ) ,..., , (
1 0
T
p
= B e uma funo L tal que:

) ( ) | 1 (
T
x B x L Y P p
i i i
= = = .

No Modelo de Regresso Logstica, L(z) a funo sigmide, isto ,
1
) 1 ( ) (

+ =
z
e z L . A funo
densidade de probabilidade condicional de Y dado x :

) ( )] ( 1 [ ) 1 ( ) ( ) | (
T T
y L y L y x B x B x + = l , (2.43)

onde ( y ) o valor Delta de Dirac.

Sejam
1
,
2
, ... ,
i
, ... ,
n
observaes de um modelo onde assume-se que Y
i

contaminada por uma varivel T
i
~ b(1 , q
i
). Deste modo tem-se que:
23


( )
i n i i n i i
T Y Y
, ,
1
~
+ = ,

onde

\
|
0 , , 1 ~
,
n
b
n i
. A taxa de contaminao
n

justifica-se pela contigidade de


alternativas indexadas pelo parmetro 0 < com relao ao modelo ideal, isto = 0.

Para as amostras [ Y
1
, ... , Y
n
] e [ T
1
, ... , T
n
], a funo densidade de probabilidade condicional de
T dado x :

) ( )] ( 1 [ ) 1 ( ) ( ) | ( y F y F y f x x x + = , (2.44)

onde
i i i
q T P F = = = ) | 1 ( ) ( x x . Ento )
~
( ~
i i
p Ber Y , sendo ) (
~
i i i i
p q
n
p p + =

.

Os estimadores robustos tambm podem ser definidos como soluo para a equao:

( ) ( ) { } 0 ,
1
T
=

=
n
i
i i i i i
c L Y x B x B x w .

Se w
i
= 1 e c( . ) = 0, a soluo fornece os Estimadores de Mxima Verossimilhana. De acordo
com Gervini (2005), os EMV tm varincia assinttica mnima, embora sejam sensveis a certas
configuraes dos dados. Observaes com valores que destoam da regio de maior concentrao
dos dados podem influenciar os estimadores; alm disso, se tais observaes esto associadas a
respostas incorretas, os estimadores resultantes podem ser seriamente viesados. Para implementar a
estimao robusta, o referido autor considera a funo deviance, dada por:

( ) ( ) [ ]
i i i i i i
n y n y y d x B x B B x
T T
1 ) 1 ( 2 2 ) , , ( = l l . (2.45)

O estimador de mxima verossimilhana de B :

) , , ( min arg

=
=
n
i
i i
y d B x B
B
. (2.46)
24


O estimador acima deve satisfazer s condies de primeira ordem, dadas por:

( ) ( ) [ ]
0
1

'

1
T T
T T
=

\
|
(

\
|

=
i
n
i
i i
i i i
y
x
x B x B
x B x B


. (2.47)

Os estimadores robustos mais utilizados so dos tipos S (Schweppe) e M (Mallows). Os
primeiros so definidos como solues do sistema de equaes

( )( ) ( )
( ) V V b
n
V V V y r
n
i
i i i i i
n
i
i i i i i i i b

,

1
0

,

, ,
1
T
2
1
1 T
T
1
2
1
1 T
2
1
1 T
=
(

=
(


x x x x x B
x x x x x B x

, (2.48)

onde ( ) ( ) ( )
|

\
|
=

2
1
1 T
T
T

,

,

, ,
i i i i i i i
V b c y V y r x x x B x B B x e c(t , b) uma funo de
correo do vis. Alm disso, [ ] )] ( 1 [ )] , ( ) ( [ ) ( ) , ( ) ( 1 ) , (
2 2
t b t c t t b t c t b t
b b
+ = .
De modo geral, escolhe-se
b
como a Funo de Hubert, ) ( ) ( ) ( b t b t
b
= , para a qual:

< <
< <
=
. , 0
) ( , 0 , ) ( / )] ( 1 [ ) ( 1
) ( 1 , 0 , ) ( )] ( 1 [ / ) (
) , (
caso outro
t b t t t b t
t b t t t t b
b t c



Os estimadores tipo-M so definidos como solues da equao dada por:

( ) ( ) 0 ,

;
1
T
T
=
(

\
|

=
n
i
i i i i b i
b c y x x B x B x , (2.49)

onde um vetor de parmetros de perturbao, que podem ser medidas de posio ou de
disperso das covariveis. Conforme Gervini (2005), a principal diferena entre os estimadores
Tipo-S e Tipo-M que neste ltimo os pesos para as covariveis e os resduos so estimados
independentemente, o que no se verifica para o Tipo-S.
25


Uma outra abordagem ao problema da estimao de parmetros no caso de separao
completa de grupos proposta por Heinze e Schemper (2002). Os autores apresentam uma
metodologia baseada no Escore Modificado de Firth, para estimao de mxima verossimilhana
penalizada, cujo objetivo original reduzir o vis dos estimadores. No Mtodo da Mxima
Verossimilhana, os estimadores para os parmetros so as solues da funo escore:

( )
( ) 0 = =

B
B
B
U
L
. (2.50)

Na abordagem apresentada, a funo acima substituda por uma Funo Escore Modificada, dada
por:

( ) ( ) ( ) ( )
( )
0
2
1
1 *
=
(

)
`

+ =

B
B
B B B
I
I tr U U . (2.51)

Para modelos logsticos com resposta binria a Funo Escore Modificada dada por:

( ) ( ) { } 0 1
1
*
= + =

=
n
i
i i i i i
h y U x B , (2.52)

onde h
i
o elemento da i-sima diagonal da matriz dada por:

( )
2
1
2
1
W X WX X X W H
T
1
T

= (2.53)
e ( ) [ ]
i i
diag = 1 W .

No mesmo trabalho, Heinze e Schemper (2002) apresentam um mtodo alternativo para
obter os estimadores. Os autores propem que cada observao ( y
i
, x
i
) seja transformada em duas
observaes, uma com resposta
i
e outra com resposta (1
i
), com pesos (1 + h
i
/ 2) e (h
i
/ 2),
respectivamente. A contribuio das novas observaes para a funo escore a mesma obtida com
a abordagem baseada em (2.52). Os autores alertam que o mtodo, embora apresente convergncia,
no imune a problemas como multicolinearidade, por exemplo.

26

2.4.3.1 Modelo de Regresso Logstica Oculto para Varivel Resposta Dicotmica

De acordo com Rousseeuw e Christmann (2003), este modelo foi usado sob outra
denominao por Copas (1988), utilizando uma abordagem distinta. Inicialmente os autores
consideram uma situao na qual so possveis apenas dois resultados para a varivel resposta,
sucesso (s) e insucesso (f). Assumem tambm que o verdadeiro estado T no observvel, ao
contrrio da varivel Y, que relacionada a T, conforme a Figura 2.2.

O estudo baseado no seguinte raciocnio: Se o verdadeiro estado T = s, observa-se Y = 1
com probabilidade P(Y = 1 | T = s) =
1
. Deste modo a probabilidade de m classificao dada por
P(Y = 0 | T = s) = 1
1
. Analogamente, se T = f, observa-se Y = 0 com probabilidade dada por P(Y
= 0 | T = f) = 1
0
, com probabilidade de m classificao dada por P(Y = 1 | T = f) =
0
. Os
autores assumem que a probabilidade de se observar o verdadeiro estado superior a 50%, ou seja,
0 <
0
< 0,5 <
1
< 1. Convm lembrar que no Modelo de Regresso Logstica Clssico assume-se
que
0
= 0 e
1
= 1.

Y 0 1


0

1 -
0

1
1 -
1


T f s

Figura 2.2 Verdadeiro T no observvel e resposta Y observvel.

Na formulao do modelo considera-se que h n variveis aleatrias independentes e no
observveis resultantes de um modelo de Regresso Logstica, com k = 2 grupos. Ento T
i
tem
distribuio de Bernoulli, com probabilidade de sucesso dada por (B
T
x
i
), i = 1 , 2 , ... , n, que a
funo sigmide e onde B um vetor de parmetros finitos. A idia ilustrada na Figura 2.2.




27


0 1
Y

0

1
1 -
0


1 -
1


f s
T

Modelo logstico


X
x
1
x
2
x
k


Figura 2.3 Modelo de Regresso Logstica Oculto.

O algoritmo ilustrado chamado Modelo de Regresso Logstica Oculto, j que o
verdadeiro status T
i
est oculto pela estrutura estocstica na parte superior da representao.
Conforme os autores, este modelo pode ser interpretado como um tipo de rede neural com uma
camada oculta correspondente varivel latente T.

Para obter os estimadores dos parmetros do modelo de Regresso Logstica os autores
assumem que tanto Y como T tm distribuio de Bernoulli. Desta forma o estimador de mxima
verossimilhana de T, dado Y = y, :

( )
( ) s Y T

f Y T

ML
ML
= =
= =
1
0
. (2.54)

A probabilidade condicional de Y dado T dada por:

28

( )
( ) 1 se 1
0 se 1
1
0
= = =
= = =
y T

| Y P
y T

| Y P
ML
ML
. (2.55)

onde y o valor observado de Y. Denotando (2.55) por Y
~
tem-se:

( )
1 0
1
~
Y Y Y + =
que, para n observaes y
1
, y
2
, ... , y
n
, fica:

( )
1 0
1 + =
i i i
y y y
~
. (2.56)

Convm notar que no modelo clssico assume-se
i i
y y
~
= , isto
0
= 0 e
1
= 1.

Para ajustar um modelo de Regresso Logstica s pseudo-observaes
i
y
~
utiliza-se o
Mtodo da Mxima Verossimilhana, a fim de maximizar a funo de verossimilhana, que neste
caso dada por:

( ) ( ) [ ] ( ) [ ]

=
n
i
y
i
T
y
i
T
i
i i
y y
1
~
1
~
1
1
~
,...,
~
| x x l . (2.57)

A expresso (2.57) chamada de Verossimilhana Estimada, pois no se conhece a
verdadeira verossimilhana, que depende dos valores no observados t
1
, ... , t
n
. Os valores que
maximizam (2.57) so denominados Estimadores de Mxima Verossimilhana Estimada, e de
acordo com os autores sempre existem e so finitos, ao contrrio dos estimadores de mxima
verossimilhana, conforme j foi exposto. Esta garantia de existncia baseia-se inicialmente no fato
de que os valores de
i
y
~
pertencem ao intervalo (0 , 1).

O logaritmo da Funo Verossimilhana (2.57) :

( ) ( ) ( ) ( ) ( ) ( )

=
+ =
n
i
i
T
i i
T
i n
n y n y y y L
1
1
1
~
1
~ ~
,...,
~
| x x l l . (2.58)

29

A expresso (2.58) sempre existe quando finito. As derivadas parciais em relao a resultam
na funo escore p-variada dada por:

( ) ( ) ( )

=
=
n
i
i i
T
i n
y y y S
1
1
~ ~
,...,
~
| x x . (2.59)

Aps igualar a zero as expresses (2.59), obtm-se o sistema de equaes cuja resoluo fornece os
estimadores procurados.

Uma propriedade do Estimador de Mxima Verossimilhana Estimada garante a sua
existncia, sempre que 0 <
o
<
1
< 1 e a matriz de dados tem posto (p + 1). A prova para esta
propriedade passa pelo fato de que o Hessiano de (2.58), dado por:

( ) ( ) ( ) ( )

=
=

n
i
T
i i i
T
i
T
S
1
1 x x x x

, (2.60)

uma matriz negativa definida, pois a matriz de dados tem posto (p + 1). Alm disso, a funo
(2.58) estritamente cncava.

2.4.3.2 Escolha de
0
e
1


O problema continua com a escolha de valores adequados para
0
e
1
. Citando Copas
(1988), o autor relata que a estimao de
0
e
1
pode ser extremamente difcil, quando no
impossvel, a menos que n seja suficientemente grande. A abordagem simtrica usada por Copas
(1988) consiste em escolher uma constante > 0 e fixar
0
= e
1
= 1 . A implementao
computacional exige que seja suficientemente pequeno, de modo que os termos em
2
possam ser
ignorados.

Finalmente, os autores chamam a ateno para o fato de que o mtodo da mxima
verossimilhana estimada no suficientemente robusto para valores observados que destoam da
regio de maior concentrao dos dados. A fim de aumentar a robustez do mtodo sugere-se o uso
de Estimadores de Mxima Verossimilhana Estimada Ponderados, definidos como a soluo para a
equao,
30


( ) ( ) 0
~
1
=

=
n
i
i i i
T
i
x w y x . (2.61)

Os pesos w
i
, que dependem apenas da distncia de x
i
at a regio de maior concentrao dos dados,
so definidos por:

( ) { } M x RD
M
w
i
i
, max
* 2
= , (2.62)

onde, RD(x
i
*
) a Distncia Robusta de x
i
e M o 75
o
percentil de todos os valores RD
2
(x
i
*
) ,
indicando que 25% dos pontos mais afastados recebem pesos inferiores a 1. Os valores em questo
so obtidos atravs das expresses

( ) ( ) ( )
j ij j
T
j ij ij
x x S x x x RD =
1
. (2.63)

O peso para x
i
1 se ( )
2
975 . 0 , p ij
x RD e 0, caso contrrio.

Como estimadores da Distncia Robusta sugere-se o Estimador Determinante de
Covarincia Mnima apresentado por Rousseeuw (1984), utilizando o algoritmo de Rousseeuw e
Van Driessen (1996). Tambm sugerido o algoritmo de Hubert, Rousseeuw e Verboven (2002)
para Componentes Principais Robustos. Uma referncia adicional o trabalho de Hubert e Van
Driessen (2004) sobre tcnicas robustas aplicadas Anlise Discriminante, no qual as autoras
estudam a obteno de estimadores robustos para as Funes Discriminante Quadrtica e
Discriminante Linear de Fisher.

2.4.4 Anlise de Componentes Principais Aplicada Estimao de Parmetros

Alm da configurao dos dados, outros fatores podem afetar a obteno de estimativas dos
parmetros. A existncia de multicolinearidade entre as variveis independentes, isto , a existncia
de forte dependncia entre as mesmas, pode ter efeitos sobre a preciso dos estimadores. Outro
elemento a ser considerado a existncia de grande nmero de variveis independentes, o que pode
31

exigir maior esforo computacional. Uma terceira questo envolve o tamanho da amostra e o seu
efeito sobre o vis dos estimadores. Uma abordagem apresentada por Aguilera, Escabias e
Valderrama (2006) consiste em utilizar a Anlise de Componentes Principais (ACP) para reduzir o
tamanho do conjunto de dados e a influncia da multicolinearidade em problemas com varivel
resposta binria, tratando das duas primeiras questes. O passo seguinte o ajuste de um modelo
logstico s componentes principais, que substituem as variveis originais. Neste sentido, o MRLCP
pode ser interpretado como um mtodo de substituio de variveis, no qual as componentes
principais substituem as variveis originais.

Os autores citados apresentaram o Modelo de Regresso Logstica de Componentes
Principais (MRLCP), como uma extenso do Modelo de Regresso de Componentes Principais
apresentado por Massy (1965) para o caso linear. Para atingir seu objetivo, os autores utilizam
como covariveis um conjunto de s < p componentes principais das variveis independentes, de
modo a reduzir o tamanho do conjunto de dados originais. Tambm so propostos dois mtodos
para resolver o problema da escolha das componentes principais timas que devem ser includas no
modelo. O primeiro inclui as componentes principais na ordem natural, dada pelas respectivas
varincias explicadas. O segundo mtodo consiste em selecionar as componentes principais
mediante um teste de razo de verossimilhanas. No mesmo trabalho so comparados os
estimadores obtidos pelo mtodo em questo com aqueles obtidos pelo Mtodo de Mnimos
Quadrados Parciais.

O primeiro passo na abordagem proposta a escolha de um indicador de existncia de
multicolinearidade. Conforme Aguilera, Escabias e Valderrama (2006), se as variveis
independentes so todas contnuas, pode-se utilizar como indicador o coeficiente de correlao. O
problema torna-se mais srio quando o modelo envolve variveis no contnuas. Uma possvel
escolha para indicar a ocorrncia de multicolinearidade pode ser alguma medida de concordncia.
De acordo com Hosmer e Lemeshow (1989), grandes valores para o erro padro tambm podem
servir como um alerta para o problema.

2.4.4.1 Formulao do Modelo de Regresso Logstica de Componentes Principais

Sejam dois grupos de observaes, G
1
e G
2
, associados matriz de dados X, dada por:

32

(
(
(
(
(

=
pn n n
p
p
x x x
x x x
x x x
...
... ... ... ...
...
...
2 1
2 22 12
1 21 11
X ,

e cuja matriz de covarincias :

(
(
(
(
(

=
pp
p
p
s
s s
s s s
... ...
...
...
2 22
1 12 11
S .
onde
( )( )

=
n
k
j kj i ki ij
x x x x
n
s
1
1
1


De acordo com Aguilera, Escabias e Valderrama (2006), pode-se considerar, sem perda de
generalidade, que as observaes esto centradas, isto , apresentam mdias iguais a zero. A matriz
de covarincia pode ser escrita como:

X X S
T
1
1

=
n
.

Seja P a matriz quadrada de ordem p, cujas colunas so os autovetores da matriz de
covarincias, associados aos autovalores
1

2
...
p
0, que so as varincias das
componentes principais correspondentes x e
T
i i
Y = , i = 1,2, ...., p. Convm lembrar que a matriz
de covarincia S, simtrica e positiva definida, pode ser decomposta de acordo com o Teorema da
Decomposio Espectral na forma S = P P

, onde = diag(
1
, ... ,
p
) contm os autovalores de
S e a matriz ortogonal P contm os respectivos autovetores. Seja Z a matriz cujas colunas so as
componentes principais previamente definidas, ento Z = XP.

A definio do MRLCP comea pela formulao do modelo logstico em termos das
componentes principais associadas matriz de dados X, considerando que todas as variveis so
33

contnuas e normalizadas. O Modelo de Regresso Logstica para varivel resposta dicotmica pode
ser escrito na forma:

|
|

\
|
+ +
|
|

\
|
+
= = =

=
=
p
j
j ij
p
j
j ij
i i
x
x
Y P
1
0
1
0
exp 1
exp
) | 1 (


x .

Considerando que X = ZP
T
, e substituindo

=
=
p
k
jk ik ij
v z x
1
no modelo acima, o MRLCP
para varivel resposta binria pode ser escrito como:

|
|

\
|
+ +
|
|

\
|
+
=
|
|

\
|
+ +
|
|

\
|
+
=

=
=
= =
= =
p
k
k ik
p
k
k ik
p
j
p
k
j jk ik
p
j
j jk ik
p
k
i
z
z
z
z
1
0
1
0
1 1
0
1 1
0
exp 1
exp
exp 1
exp




, (2.64)

onde z
ik
(i = 1 , ... , n ; k = 1 , ... , p) so os elementos da matriz de componentes principais Z = XP,
e

=
=
p
j
j jk k
1
, k = 1 , ... , p.

O modelo logstico tambm considerado na sua forma matricial, em termos das
transformaes logit e das componentes principais, isto :

L = XB = ZP
T
B , (2.65)

onde Z e P podem ser particionadas como:

( ) ( )
( )
r s
np ns ns
p s s
p s s
ns n
s
s
z z z
z z z
z z z
z z
z z
z z
Z Z Z =
|
|
|
|
|

\
|
=
+ +
+ +
+ +
...
... ... ... ...
...
...
... 1
... ... ... ...
... 1
... 1
2 1
2 2 2 1 2
1 2 1 1 1
1
2 21
1 11

34

e
( )
( )
( )
r
s
pp ps
p s s
ps p
s
v v
v v v
v v
v v
P P P =
|
|
|
|
|

\
|
=
+
+ +
... ...
... ... ... ...
...
0 ... 0 0
... 0
... ... ... ...
... 0
0 ... 0 0
1
1 2 1 1 1
1
1 11


Ento
( ) ( ) s s
XP Z = e
( ) ( ) r r
XP Z = , tal que:

( ) ( ) ( ) ( ) r r s s
P P B + = .

Levando em considerao que o modelo (2.65) pode ser decomposto na forma:

( ) ( ) ( ) ( ) r r s s
Z Z L + = ,

o MRLCP, em termos das componentes principais, obtido pela remoo na equao acima das
ltimas r componentes principais, ou seja:

( )
|
|

\
|
+ +
|
|

\
|
+
=

=
=
s
j
j ij
s
j
j ij
s i
z
z
1
0
1
0
exp 1
exp


, i = 1 , ... , n. (2.66)

Os estimadores de mxima verossimilhana do MRLCP so:

( ) ( ) ( ) s s s

V = . (2.67)

A formulao apresentada utiliza as s primeiras componentes principais. Contudo, Aguilera,
Escabias e Valderrama (2006), alertam que as componentes principais com as maiores varincias
no so necessariamente as mais eficientes para a predio, pois componentes com pequenas
varincias podem ser altamente correlacionadas com a varivel resposta, razo pela qual devem ser
consideradas como possveis variveis explicativas em um modelo otimizado.

35

2.5 VIS DOS ESTIMADORES

De acordo com autores como Anderson e Richardson (1979) e McLachlan (1992), por
exemplo, o tamanho da amostra exerce grande influncia sobre o vis dos Estimadores de Mxima
Verossimilhana. Tambm de acordo com os autores citados, observa-se um aumento do vis
quando os estimadores so obtidos a partir de amostras de tamanho reduzido. Uma explanao
detalhada a respeito da reduo do vis de Estimadores de Mxima Verossimilhana pode ser
encontrada em Firth (1993). Uma comparao de mtodos de estimao de parmetros para o
Modelo de Regresso Logstica, em problemas com separao de grupos, pode ser encontrada em
Heinze (2006). Neste trabalho o autor prope a utilizao de Estimadores de Mxima
Verossimilhana Penalizada para reduzir o vis dos estimadores. O problema tambm tratado por
Bull, Mak e Greenwood (2002). Neste caso as autoras apresentam uma abordagem para reduo do
vis dos Estimadores de Mxima Verossimilhana em modelos da famlia exponencial para o
Modelo de Regresso Logstica Multinomial. A abordagem testada em dois conjuntos de dados e,
de acordo com as autoras, os estimadores de escores modificados para os modelos com resposta
binria e politmica, neste caso com trs grupos, tm vis mdio prximo de zero e erro quadrtico
mdio menor que aquele apresentado por outras abordagens. Em outro trabalho, Bull, Greenwood e
Hauck (1997) utilizam o Mtodo Jackknife para reduo do vis em Modelos de Regresso
Logstica Politmica.

Conforme Anderson e Richardson (1979), o valor esperado para o Estimador de Mxima
Verossimilhana B

dado por:

( ) ( ) + + = B B B b E

(2.68)

onde b
T
(B) = [b
1
(B) , ... , b
p
(B)] o vis do estimador e um vetor cujas componentes so todas
o(1 / n). Alm disso,

( )

=
)

|
|

\
|

+
|
|

\
|

=
p
k j i
k j i k i j
jk it
t
nL
E
nL nL
E I I b
1 , ,
3 2
2
2
1
B B B B B B
B
l l l
, (t = 1 , ... , p), (2.69)

onde
36

( )
1
2

(
(

|
|

\
|

=
j i
ij
nL
E I
B B
l
. (2.70)

Ento os Estimadores de Mxima Verossimilhana Corrigida so dados por:

( ) B B B

~
= . (2.71)

No difcil perceber que a implementao de um algoritmo para estimar o vis dos
estimadores, seguindo o raciocnio que conduz expresso (2.71), deve levar em conta o esforo
computacional exigido para sua execuo, especialmente para conjuntos de dados de grandes
dimenses.

2.5.1 Aplicaes do Mtodo Bootstrap

As aplicaes do Mtodo Bootstrap ao Reconhecimento Estatstico de Padres incluem a
estimao da taxa aparente de erros, que avalia o desempenho do modelo discriminante calculando
a proporo de observaes classificadas corretamente pelo modelo em questo, e tambm a
estimao de parmetros, tanto do modelo como do vis dos estimadores encontrados. A primeira
aplicao mencionada sugerida por Efron (1979), inclusive como alternativa Anlise de
Lachenbruch, Lachenbruch e Mickey (1968). Uma explanao completa sobre a utilizao do
Mtodo Bootstrap na correo do vis da Taxa Aparente de Erros pode ser encontrada em
McLachlan (1992). Outros exemplos de aplicaes do mtodo em questo podem ser encontrados
nos trabalhos de Jhun e Jeong (2000), para a construo de intervalos de confiana para propores
envolvendo populaes multinomiais; e de Aerts e Claeskens (2001), para testar modelos
envolvendo conjuntos de dados cujas variveis no seguem um modelo paramtrico especificado.

O objetivo do Mtodo Bootstrap reamostrar o conjunto de dados para gerar rplicas que
possam ser utilizadas na estimao de um parmetro de interesse. A rigor obtm-se pseudo-rplicas,
uma vez que so obtidas da amostra original seguindo um procedimento especfico de
reamostragem. Na estimao dos parmetros de modelos de regresso, a aplicao do Mtodo
Bootstrap segue o raciocnio apresentado na seqncia. Conforme Efron (1979), o modelo geral de
regresso geralmente definido por:

37

( )
i i i
X g Y + = , (2.72)

onde g( . ) uma funo conhecida do vetor de parmetros
T
= [
1
, ... ,
p
] e das variveis
explicativas X
T
= [X
1
, X
2
, .... ,X
p
] , enquanto
i
~
ind
C , i = 1 , ... , n.

Normalmente, a informao que se tem a respeito de C que est centrada em zero, isto ,
E
C
() = 0 ou Mediana
C
() = 0. A partir de uma amostra observada para Y , dado X, utiliza-se algum
mtodo para estimar , geralmente o Mtodo dos Mnimos Quadrados, ou seja,

[ ]

n
i
i i
x g y
1
2
) , ( min :



, (2.73)

com o objetivo de estimar o vetor de parmetros e obter alguma informao sobre a distribuio
amostral de .

A aplicao do Mtodo Bootstrap pode ser efetuada pela definio de como distribuio
de probabilidade amostral dos resduos
i
, isto :

)

(
1
:


i i i
g x para
n
mass C =
.

Conforme Efron (1979), se alguma componente de um parmetro de posio para g( . ), ento
tem mdia igual a zero. Caso contrrio, e se a suposio de que E
C
() = 0 bastante plausvel, pode-
se modificar de modo a obter a mdia desejada. As amostras bootstrap so obtidas da seguinte
forma: da amostra original dos resduos,
1
,

2
, ... ,
n
, obtm-se com reposio B amostras de
mesmo tamanho denominadas amostras bootstrap. Estas amostras de resduos
*
so utilizadas para
recompor os valores bootstrap da resposta,

* *
)

(
i i i
g Y + = , i = 1,2, .... , n . (2.74)

Ento, em cada amostra bootstrap das respostas, aplica-se o mesmo mtodo de estimao,
resultando para cada componente do vetor de parmetros o valor dado por:

38

[ ]

n
i
i i
x g y
1
2
* *
) , ( min :



. (2.75)

E
*

a estimativa bootstrap do parmetro . As B amostras bootstrap fornecem B estimativas


bootstrap de e, assim, pode-se estimar a distribuio amostral do estimador

.

De acordo com Rousseeuw e Christmann (2003), citando Firth (1993), uma vez que o
Mtodo da Mxima Verossimilhana tende a superestimar a magnitude dos coeficientes no nulos
para amostras reduzidas, uma correo para o vis dos estimadores requer algum tipo de quebra
com relao a valores prximos de 0 (zero). Segundo os mesmos autores, os estimadores obtidos
pelo Mtodo da Mxima Verossimilhana Estimada apresentam esta propriedade, que se verifica na
limitao ao intervalo (0 , 1) dos valores atribudos s pseudo-observaes
ij
y
~
.

Para estimar o vis dos estimadores fornecidos pelo MRLO, aplicou-se neste trabalho o
Mtodo Bootstrap para replicar o conjunto de dados e obter as estimativas bootstrap, utilizadas na
estimao do vis. A aplicao do mtodo efetuada de acordo com o algoritmo dado a seguir.

Passo 1: A partir da amostra original, X = [ x
1
, x
2
, ... , x
n
], selecionar B amostras independentes
X
*
1
, X
*
2
, ... , X
*
B
, todas de tamanho n, selecionadas com reposio.

Passo 2: Ajustar um modelo logstico a cada uma das amostras geradas no Passo 1, obtendo os
vetores
*
1
,
*
2
, ... ,
*
B
de parmetros.

Passo 3: Os estimadores bootstrap so dados por:

=
=
B
ji j
i
B
1
* *
1

. (2.76)

Passo 4: O vis do estimador
j

dado por:

( )
*

j j j
b = . (2.77)

39

2.6 FUNO DISCRIMINANTE LINEAR PARA MAIS DE DOIS GRUPOS

Sejam k > 2 grupos G
1
, G
2
, ... , G
k
, com vetores mdios
1
,
2
, ... ,
k
e matrizes de
covarincias
1
,
2
, ... ,
k
, respectivamente. O problema da discriminao linear entre k > 2
grupos no exige a suposio de que as populaes so normais multivariadas e assume
inicialmente a igualdade das matrizes de covarincias, isto ,
1
=
2
= ... =
k
= . Os estimadores
para os vetores mdios
i
, i = 1 , 2 , ... , k, e para a matriz de covarincias so, respectivamente:

=
=
i
n
j
ij
i
i
x
n
1
1
x (2.78)
e
( )( )

= =
=
k
i
n
j
i ij i ij p
i
x x
1 1
T
x x S (2.79)

O uso de S
p
apropriado, pois satisfaz a suposio de igualdade das matrizes de covarincias.
Sejam, tambm, a matriz soma de produtos cruzados,

( )( )

=
=
k
i
i i
1
T

x x x x B (2.80)
onde

=
=
=
k
i
i
k
i
i i
n
n
1
1
x
x (2.81)

e a matriz positiva semidefinida: B S

+ =
p
. (2.82)

Seja a combinao linear:

X c
T
= Y . (2.83)

Neste caso tem-se, para a i-sima populao:

40

( )
i
Y E =
T
c (2.84)

e, para todas as populaes:

( ) c B c c S c

T T
+ =
p
Y V , (2.85)

decomposta em duas parcelas, a primeira dentro e a segunda entre os grupos. Uma combinao
linear para a qual c
T
c muito maior que c
T
S
p
c mostra que a variabilidade dentro dos grupos
inflacionada pelas diferenas na localizao. O que se pretende a maximizao da razo:

( )
c S c
c B c
c S c
c B S c
p p
p
T
T
T
T

+ =
+
. (2.86)

Seja a razo:
( )
c S c
c B c
c
p
R
T
T

= (2.87)

na qual assume-se que S
p
positiva definida.

De acordo com o teorema da decomposio espectral simultnea de duas matrizes,
conforme Flury (1997), existem duas matrizes, uma no singular H e outra diagonal = diag(
1
,

2
, ... ,
p
) ,
i
0, tais que:

T
HH S =
p
e
T

H H B = . (2.88)

O uso do referido teorema bastante conveniente do ponto de vista da implementao
computacional, uma vez que a matriz, por ser simtrica, pode ter seus autovalores e autovetores
determinados atravs do Algoritmo de Jacobi, conforme Kolman (1998). Sendo m o posto da matriz
B

, ento m valores da diagonal de so estritamente positivos, e possvel arranjar as colunas de


H em ordem decrescente, isto ,
1
...
m
> 0 =
m + 1
= ... =
p
. De acordo com (2.88) pode-se
escrever:
41


( )
c HH c
c H H c
c
T T
T T

= R . (2.89)

A maximizao da razo (2.89) pode ficar restrita aos vetores normalizados, isto , assume-se que
d
T
d = 1. Ento o objetivo maximizar:

=
=
m
i
i i
d
1
2 T
d d . (2.90)

Como
1

i
, i 1,
1
1
2
1
1
2
1
2 T
= = =

= = =
p
i
i
p
i
i i
m
i
i i
d d d d d . (2.91)

O mximo
1
atingido para d = e
1
= (1 , 0 , ... , 0)
T
, pois e
1
T
e
1
=
1
. Isto indica que a razo R(c)
maximizada pela escolha de:

( )
1
1
T
e c

= H . (2.92)

Fazendo:

( )
1
T
1
) ,..., (

= = H
p
B (2.93)

tem-se uma combinao linear que maximiza R(c), dada por:

X
T
1
1
= Y . (2.94)

A combinao linear (2.94), denominada primeira funo discriminante amostral, fornece a
melhor separao entre os k grupos, no sentido de maximizar a variabilidade entre os grupos, em
relao variabilidade dentro dos grupos.

42

Em uma segunda etapa o objetivo maximizar novamente a razo (2.89), agora com uma
restrio adicional, a nova combinao linear obtida no pode ser correlacionada com (2.94). Ento
o problema fica:

( )
0 a s.

max
1
T
T
T
=
=

p
p
S
R
c
c S c
c B c
c
. (2.95)

Assumindo que d
T
d = 1, a restrio em (2.95) fica:

0
1
T
= e d . (2.96)

Deste modo, o problema (2.96) torna-se:


0
1

1
T
T
T
=
=

e d
d d
d d
a . s
max
. (2.97)

Como
2
...
m
> 0 =
m + 1
= ... =
p
, tem-se:

2
2
2
2
2
2
2
2 T
= = =

= = =
p
i
i
p
i
i i
m
i
i i
d d d d d . (2.98)

Agora, o mximo
2
atingido para d = e
2
= (0 , 1 , ... , 0)
T
, pois e
2
T
e
2
=
2
. Ento a razo R(c)
maximizada pela escolha de:

( )
2
2 2
1
T
= = =

e B e c H . (2.99)

A combinao linear:
X
T
2
2
= Y (2.100)

43

chamada segunda funo discriminante amostral. Uma generalizao do processo fornece m
funes discriminantes amostrais na forma de combinaes lineares, isto :

X
T
j
j
Y = (2.101)
onde, j = 1 , 2 , ... , m , m min(p , k 1).

A regra de classificao baseada nas funes discriminantes amostrais consiste em classificar uma
observao X no grupo, ou populao, G
j
se, para i k ,

( ) [ ] ( ) [ ]

= =

m
k
i
k
m
k
k
k
1
2
11
2
x X x X . (2.102)

Neste trabalho, a Funo Discriminante Linear abordada com o nico propsito de comparar
o seu desempenho com o desempenho dos modelos de Regresso Logstica abordados. Vale
ressaltar que a FDL objeto de estudo de muitos pesquisadores, servindo como ponto de partida
para diferentes abordagens. Uma delas, utilizando a Programao Linear, apresentada na
seqncia a ttulo de ilustrao, e tambm para possibilitar uma comparao com o mtodo
apresentado por Santner e Duffy (1986).

2.6.1 Aplicaes da Programao Linear Anlise Discriminante Linear

A utilizao da Funo Discriminante Linear supe que as matrizes de covarincias dos
grupos analisados so iguais, o que nem sempre ocorre na prtica. A violao desta suposio
ponto de partida para duas questes, relativas ao vis da funo discriminante e eficcia da mesma
como mtodo de discriminao e classificao. Duas abordagens baseadas na Programao Linear,
apresentadas por Freed e Glover (1981) e por Lam e Moy (2003), so apresentadas na seqncia.

Na primeira abordagem, apresentada por Freed e Glover (1981) para dois grupos G
1
e G
2
,
de pontos A
i
, deve-se determinar um vetor X e um valor fronteirio b tal que, to prximo quanto
possvel,

2
1
,
,
G A b A
G A b A
i i
i i


X
X
. (2.103)
44


Seja a varivel
i
, para medir o grau de acordo com o qual os membros do grupo A
i
violam a
fronteira entre os grupos. Ento pode-se inserir uma soluo na qual:

2
1
,
,
G A b A
G A b A
i i i
i i i
+
+

X
X
. (2.104)

Neste caso deve-se minimizar a soma das violaes
i
da fronteira entre grupos, ou uma soma
ponderada das violaes h
i

i
.

Adicionalmente, o hiperplano de separao, AX = b, ser selecionado de modo que os
pontos situados dentro da fronteira estejam to distantes da mesma quanto possvel. Seja d
i
a
distncia do ponto A
i
at a fronteira ajustada. Ento possvel combinar dois objetivos: minimizar
os desvios da fronteira e maximizar a soma ponderada destas distncias, dada por k
i
d
i
. Ento o
problema pode ser modelado como


= =

n
i
i i
n
i
i i
d k h Min
1 1

(2.105)

+ = +
+ = +
2
1
,
,
.
G A b d A
G A b d A
a s
i i i i
i i i i

X
X


No modelo acima as distncias d
i
so as variveis de folga que transformam as inequaes de
(2.104) em equaes.

O modelo (2.105) fornece uma soluo na qual d
i
= 0 sempre que o peso para minimizar a
violao de fronteira exceda o peso para maximizar a distncia de A
i
at a fronteira ajustada e A
i

violar a verdadeira fronteira, ou seja, se
i
> 0, ento d
i
= 0, para todo h
i
> k
i
.

De acordo com Lam e Moy (2003), o desempenho de classificao da Programao Linear,
especialmente quando a suposio de normalidade violada, superior ao da Funo Discriminante
Linear de Fisher (1936) para propsitos de classificao em muitos estudos experimentais. Os
referidos autores apresentam um modelo que minimiza o desvio total dos escores de classificao
45

de todas as observaes com relao s mdias amostrais. O modelo de Programao Linear
proposto para dois grupos, G
1
e G
2
, brevemente descrito a seguir.

Seja a
ij
o valor do jsimo critrio para a isima observao na amostra; w
j
o peso do j
simo critrio;
1
j
a e
2
j
a os valores mdios do jsimo atributo em G
1
e G
2
, respectivamente; e
sejam tambm d
i
+
, d
i
-
e e
i
-
as variveis de desvio. O modelo proposto formulado como

( ) ( )


+ +
+ +
1 2
G i G i
i i i i
e e d d Min
( )
( )
( )


= +
= +

=
=
+
=
+
q
j
j j j
q
j
i i j j ij
q
j
i i j j ij
w a a
G i , e e w a a
G i , d d w a a
a . s
1
2 1
1
2
2
1
1
1
1
0
0
(2.106)

onde w
j
no tem restrio de sinal, d
i
+
0, d
i
-
0, e e
i
-
0, para quaisquer i e j. A terceira restrio
no apenas evita solues inaceitveis como tambm restringe a diferena entre os escores de
classificao, no caso de dois grupos dados por (2.104), a valores iguais ou superiores a um.


= =
q
j
j j
q
j
j j
w a w a
1
2
1
1
e . (2.107)

Enquanto o desvio entre os grupos fixado, a funo objetivo minimiza o desvio absoluto dentro de
cada grupo em relao s suas mdias. Em sua essncia, segundo Lam e Moy (2003), o modelo
acima similar Funo Discriminante Linear, no sentido de maximizar a razo das variaes entre
grupos pelas variaes dentro dos grupos.

Os valores para w
j
obtidos aps a resoluo do modelo proposto podem ser usados para
computar os escores de classificao para todas as observaes, dados por

=
=
q
i
j ij i
w a s
1
(2.108)
46


O valor de corte c pode ser determinado tambm pela resoluo do seguinte modelo de
Programao Linear.

{ }


2 1
G G i
i
h Min
(2.109)


+
2
1
0
0
G i c h s
G i c h s
a . s
i i
i i


onde h
i
0 e c no tem restrio de sinal. Conhecido o valor de corte, as observaes podem ser
classificadas pelos seus escores de classificao.


2.7 REDES NEURAIS ARTIFICIAIS

As Redes Neurais Artificiais surgiram, de acordo com Fausett (1994), em meados da
dcada de 50, tomando como ponto de partida as idias apresentadas por McCulloch e Pitts (1943).
A motivao era a necessidade de compreender o funcionamento do crebro humano e reproduzir
algumas de suas caractersticas, entre as quais o alto nvel de interconexo e paralelismo macio,
isto , muitos neurnios operando simultaneamente e tolerncia a falhas, ou seja, o desempenho no
afetado de forma significativa por algum prejuzo porventura causado a alguns neurnios. A
aplicao de Redes Neurais a problemas de reconhecimento de padres pode ser observada em
trabalhos como os de Guimares e Chaves Neto (2006), que compara o desempenho de um modelo
logstico, uma rede neural com algoritmo de retro-propagao e uma Funo Discriminante Linear
para classificao de padres com resposta politmica; de Wilson e Sharda (1994), que utiliza
Redes Neurais na previso de falncias; Schumacher, Roner e Vach (1996), que apresenta uma
comparao entre Redes Neurais e Regresso Logstica, ilustrada pela aplicao das mencionadas
tcnicas ao diagnstico de cncer de mama e ao estudo de problemas vasculares, e de Desai, Crook
e Overstreet (1996) que compara Redes Neurais, anlise discriminante linear e Regresso Logstica
na construo de modelos de escore de crdito. Uma fonte de referncia bastante ilustrativa o
trabalho de Fraud e Clrot (2002), que apresenta uma metodologia para explicar a classificao de
padres atravs de Redes Neurais Artificiais. Outra fonte de referncia para o estudo de
47

propriedades comuns s Redes Neurais Artificiais e ao Modelo de Regresso logstica o trabalho
de Dreiseitl e Ohno-Machado (2002), que tambm aborda a aplicao das duas tcnicas pesquisa
mdica.

Uma Rede Neural Artificial consiste de um determinado nmero de elementos de
processamento chamados neurnios, dispostos em camadas, aos quais so associados pesos. O tipo
mais simples de rede neural, mostrado na Figura 2.4, conhecido como feedforward, ou perceptron
logstico, na terminologia de Schumacher et al. (1996).


x
1
w
1


w
2


x
2
Y




x
p
w
p
w
0
1

Figura 2.4 Perceptron logstico.

O perceptron consiste de (p + 1) unidades de entrada, onde x
0
tem entrada constante igual a
1, e uma unidade de sada. Os valores de entrada x
i
so ponderados com pesos w
i
, i = 0, 1, ... , p, e a
soma das entradas ponderadas transformada pela funo logstica, cujo grfico mostrado na
Figura 2.5. Ento o sinal de sada Y pode ser definido como funo dos valores de entrada X e dos
pesos W , isto ,

+
=
e
e
Y
1
,

=
+ =
p
i
i i
x w w
1
0
(2.116)

O clculo dos valores para os pesos chamado treinamento, ou aprendizagem, da rede. O
treinamento pode ser supervisionado, quando cada vetor do conjunto de entradas associado a uma
resposta e o objetivo determinar a resposta correta para todos os vetores de entrada, ou no
supervisionado, quando apenas o conjunto de entrada fornecido e busca-se extrair propriedades de
48

acordo com determinadas representaes internas. O referido treinamento realizado no sentido de
minimizar a funo erro, definida como:

( ) ( )

=
=
n
i
i i
y y E
1
2
W (2.117)
onde ( )
i
i
e
e
, f y
i i

+
= =
1
W X ,
i i
' X W = . (2.118)


Figura 2.5 Grfico da Funo Sigmide, - 10 x 10 .

De acordo com Schumacher, Roner e Vach (1996), a minimizao nada mais que uma
aplicao do mtodo dos mnimos quadrados. Neste processo utiliza-se o mtodo conhecido como
retro-propagao (back-propagation), que de acordo com os autores citados pode ser
denominado como retro-propagao de mnimos quadrados (LS-BP), e definido por:

( ) ( ) ( )
( ) [ ]
j j j
w E w w =
+
r
1
(2.119)

onde a taxa de aprendizagem. Esta formulao caracteriza (2.119) como um mtodo de busca
descendente. O modelo (2.116) envolve a funo logstica, o que torna o perceptron logstico
semelhante ao modelo de Regresso Logstica. De fato, Schumacher, Roner e Vach (1996)
sugerem que W e X sejam interpretados no mesmo sentido. Uma alternativa para a funo de
aprendizagem pode ser a Distncia de Kullback Leibler, na forma:

49

( ) ( )

=
(

+ =
n
i i
i
i
i
i
i
y
y
n y
y
y
n y E
1
*
1
1
1

l l W (2.120)

onde
i
y definido por (2.116). Pela semelhana com o mtodo da mxima verossimilhana, o
mtodo de retropropagao usando (2.116) tambm conhecido como retro-propagao de
mxima verossimilhana (ML-BP). Ento a equao (2.119) pode ser escrita na forma

( ) ( ) ( )
( ) [ ]
j * j j
w E w w =
+
r
1
. (2.121)

O modelo do perceptron logstico pode ser estendido para s, s > 1, unidades de sada. A
rede neural com tal configurao, cuja arquitetura ilustrada na Figura 2.6, possui pesos w
i j
, i = 1 ,
2 , ... , n , j = 1 , 2 , ... , s, conectados s unidades de sada Y
j
, na forma

= =
=
|

\
|
+
|

\
|
+
=
s
k
n
i
i ik ok
n
i
i ij j
j
x w w exp
x w w exp
Y
1 1
1
0
. (2.122)

2.7.1 Redes Neurais com Camadas Ocultas

Uma extenso do perceptron logstico consiste em adicionar uma camada com K neurnios,
usualmente denominada camada oculta, conforme a Figura 2.7. Esta camada estabelecida entre as
unidades de entrada e de sada. A camada de entrada recebe os sinais, X
i
, do conjunto de medidas.
Estes sinais, ponderados com pesos v
i k
, i = 1 , 2 , ... , p , k = 1 , 2 , ... , K, so enviados aos
neurnios da camada oculta. Cada neurnio desta camada calcula sua ativao, w
kj
, j = 1 , 2 , ... , s ,
e envia o sinal obtido para o neurnio da camada de sada, Y. O neurnio da camada de sada, por
sua vez, calcula o seu sinal de ativao e o transforma em uma resposta, Y

, para o padro
fornecido, que comparada com a resposta Y j conhecida, a fim de determinar o erro associado.
Com base neste erro efetua-se uma atualizao dos pesos. O processo repetido para todos os
padres fornecidos, razo pela qual so tambm denominados padres de treinamento. A
atualizao dos pesos efetuada de acordo com a taxa de aprendizagem. A escolha do valor da
referida taxa decisiva para se alcanar um desempenho adequado da rede. Uma taxa constante,
50

porm de baixo valor, pode dificultar o trabalho de busca por um ponto de mnimo global, enquanto
um valor alto pode desestabilizar o algoritmo nas proximidades do referido ponto.
A atualizao dos pesos segue as equaes:
( ) ( )
( )
( )
( )
( )
( )
p
p
p
j
p
j j
p
i exp
i exp
Y

w x w i
+
=
+ =

1
0
(2.123)
( ) ( ) ( )
( )
j j j
p
j j
p p p
w w w
x w
Y

Y
+ =
=
=
(2.124)

w
11


x
1
Y
1
w
12
w
21


x
2
w
1s


w
2s


Y
2
w
31


x
3



w
p1

w
p2
w
01
w
02
x
p
Y
s



w
0s

x
0
1

Figura 2.6 Perceptron logstico para varivel resposta politmica.

2.7.1.1 Algoritmo de Treinamento

Neste trabalho optou-se pela utilizao de uma rede neural dotada de um perceptron
logstico para varivel resposta politmica com uma camada oculta, conforme a Figura 2.7. Esta
opo foi motivada apenas pelo fato de ser esta arquitetura uma das mais utilizadas para o
reconhecimento de padres. Tambm possvel encontrar na literatura corrente um nmero
considervel de trabalhos comparando o desempenho apresentado por redes com esta arquitetura
com o desempenho de modelos baseados em Regresso Logstica e funes discriminantes lineares,
embora a maioria dos trabalhos restrinja-se a problemas com varivel resposta dicotmica. O
51

algoritmo de treinamento segue o raciocnio apresentado por Fausett (1994), que chama a ateno
para a importncia da forma dos dados na escolha da funo apropriada, entre outras questes. A
derivada da funo logstica, na forma 2.116, pode ser escrita na forma:

( ) ( ) ( ) ( ) x f x f x ' f = 1 (2.125)

Esta propriedade proporciona maior simplicidade na implementao computacional, j que no
exige nenhum procedimento adicional para a avaliao da derivada.

v
11
Z
1
x
1
v
12
w
11

v
21
Z
2
w
12
x
2
Y
1


w
2s
Y
2
v
31
v
13
Z
3
x
3
Y
s

v
3p
v
1p
w
p1
w
p2
v
p1

v
p3
w
ps
x
p

Z
p
1

1

Figura 2.7 Perceptron logstico para varivel resposta politmica com uma camada oculta.

O algoritmo de treinamento segue os passos listados a seguir.

Passo 0. Iniciar os pesos.
Passo 1. Enquanto o critrio de parada no for atendido, executar os passos 2 a 9.
Passo 2. Para cada par de treinamento (y
i
, X
i
), executar os passos 3 a 8.
Feedforward:
Passo 3. Cada unidade de entrada x
i
, i = 1 , ... , p, recebe o sinal de entrada e o distribui para todas as
unidades da camada oculta.
Passo 4. Cada unidade oculta z
i
, i = 1 , ... , p, efetua a soma ponderada dos sinais de entrada,

52

=
+ =
p
j
ij i i i
v x v in _ z
1
0
(2.126)

O sinal computado pela funo de ativao, gerando o sinal de sada

( )
i i
in _ z f z =

Este sinal enviado a todas as unidades da camada de sada.
Passo 5. Cada unidade de sada Y
j
, j = 1 , ... , k, soma seus sinais ponderados de entrada,

=
+ =
k
i
ij i oj j
w z w in _ y
1
(2.127)

O sinal de sada computado pela funo de ativao,

( )
j j
in _ y f y =

Retro-propagao do erro:
Passo 6. Cada unidade de sada recebe o valor observado no conjunto de treinamento e computa o
erro,

( ) ( )
k k k j
in _ y ' f yest yobs = (2.128)

Aps computar o erro acima, cada unidade calcula o termo ponderado de correo

i j ij
z w = (2.129)

O termo de correo para o vis dado por:

j i
w =
0


Cada termo
j
enviado para as unidades da camada oculta.
53


Passo 7. Cada unidade Z
j
soma suas entradas
j
,

=
=
k
i
ij i j
w in _
1
(2.130)

As entradas so multiplicadas pela derivada da funo de ativao para calcular o erro de
informao,

( )
j j j
in _ z ' f in _ = (2.131)

Calcula-se o termo ponderado de correo:

i j ij
x v = (2.132)

e o termo de correo do vis:

j j
v =
0


Atualizao dos pesos e do vis

Passo 8. Cada unidade de sada atualiza o vis e seus pesos:

( ) ( )
ij
t
ij
t
ij
w w w + =
+1
(2.133)

Cada unidade da camada oculta atualiza o vis e seus pesos:

( ) ( )
ij
t
ij
t
ij
v v v + =
+1
(2.134)

Passo 9. Testar o critrio de parada.


54

2.7.1.2 Condies Iniciais

A importncia da escolha adequada das condies iniciais, tanto para os pesos como para a
taxa de aprendizagem, apontada por autores como Schumacher, Roner e Vach (1996) e Fausett
(1994). De acordo com os primeiros autores, uma taxa de aprendizagem pequena pode diminuir a
chance de encontrar um ponto de mnimo, alm de dificultar o afastamento de pontos de mnimo
locais. Por outro lado, uma taxa de aprendizagem grande tende a aumentar estas chances, mas o
algoritmo pode tornar-se instvel. Na escolha de valores iniciais para os pesos, no incio do
procedimento iterativo, Fausett (1994) recomenda que sejam evitados valores que possam zerar
tanto a funo de ativao como suas derivadas, uma vez que as mesmas so demasiado importantes
para a atualizao dos pesos durante a aplicao de procedimentos iterativos.

Neste trabalho, a Rede Neural utilizada teve seus pesos iniciados com valores pseudo-
aleatrios do intervalo [- 0,5 ; 0,5]. Os valores foram simulados a partir de uma distribuio
uniforme. Para efeito de comparao de desempenho, tambm foram adotados, em outras iteraes,
valores iniciais iguais a zero.

2.7.2 Vantagens e Desvantagens das Redes Neurais Apontadas na Literatura Disponvel

Em que pese a eficincia relatada nas aplicaes a problemas de reconhecimento e
classificao de padres, e demonstrada em numerosos artigos publicados na literatura corrente, o
uso de Redes Neurais gera desconfiana entre alguns pesquisadores, principalmente pela carncia
de formalismo matemtico. Segundo Faraggi e Simon (1995), o desenvolvimento das Redes
Neurais tem sido conduzido em grande parte por pesquisadores no estatsticos, o que explica o
pouco uso de tcnicas estatsticas. Alm deste fato, no h certeza sobre quando e sob quais
condies o uso de Redes Neurais prefervel ao uso das tcnicas estatsticas multivariadas aqui
abordadas. De acordo com Schwarzer, Vach e Schumacher (2000) a aplicao incorreta de Redes
Neurais pode levar a problemas como o ajuste de funes implausveis e estimao viesada ou
ineficiente. De acordo com Schumacher, Roner e Vach (1996), apenas aplicaes bem sucedidas
so relatadas. Segundo os mesmos autores, citando comunicado do SAS Institute (1994), muitos
tipos de Redes Neurais so meras reinvenes de conhecidos mtodos estatsticos, implementadas
atravs de algoritmos ineficientes. Por outro lado, conforme White (1992), citado pelos mesmos
autores, as Redes Neurais so atraentes, ao contrrio dos mtodos estatsticos. Ao discutir e
comparar Redes Neurais com modelos de regresso, Warner e Misra (1996) apontam que as Redes
55

Neurais de mltiplas camadas no impem nenhuma relao funcional entre variveis dependentes
e independentes. Pelo contrrio, a relao funcional determinada a partir dos dados no processo de
determinao dos pesos. Segundo os autores, a vantagem deste processo a conseqente habilidade
da rede neural para aproximar qualquer funo contnua. A desvantagem do mesmo a dificuldade
para interpretar a rede neural obtida. Outra desvantagem apontada pelos autores a lentido da
convergncia para uma soluo e sua dependncia das condies iniciais. Aspectos dessa natureza
so amplamente tratados por Intrator e Intrator (2001), que tambm apresentam uma metodologia
para interpretar os resultados fornecidos por Redes Neurais aplicadas ao Reconhecimento de
Padres.

A literatura disponvel est repleta de argumentos, tanto favorveis como contrrios,
utilizao de Redes Neurais Artificiais. Esta discusso indica que o assunto uma rea ainda aberta
a pesquisas, tanto no campo terico como no campo das aplicaes. O que no se pode ignorar a
utilidade desta tcnica, bem como seu potencial, para a resoluo de problemas de reconhecimento
estatstico de padres, razo pela qual abordada neste trabalho. Assim como no caso da Funo
Discriminante Linear, o que se pretende utilizar o desempenho da Rede Neural Artificial como
referncia para avaliar o desempenho dos modelos de Regresso Logstica aqui abordados.
















56

3 MODELOS DE REGRESSO LOGSTICA OCULTO E DE COMPONENTES
PRINCIPAIS PARA RECONHECIMENTO E CLASSIFICAO DE PADRES COM
VARIVEL RESPOSTA POLITMICA

Neste trabalho se faz a proposta da extenso do Modelo de Regresso Logstica Oculto
(MRLO) e do Modelo de Regresso Logstica de Componentes Principais (MRLCP) para varivel
resposta politmica. A extenso do primeiro modelo tem como objetivo inicial verificar se o mesmo
mantm, quando aplicado a problemas com varivel resposta politmica, a sua principal
propriedade, isto , se o Mtodo da Mxima Verossimilhana Estimada garante a existncia dos
Estimadores de Mxima Verossimilhana para quaisquer configuraes dos conjuntos de dados, da
mesma forma verificada para varivel resposta dicotmica. O segundo objetivo comparar o
desempenho do modelo em questo com os desempenhos apresentados pelo Modelo de Regresso
Logstica Clssico (MRLC) e pelos Modelos de Regresso Logstica Individualizados (MRLI). Um
objetivo adicional determinar o vis para cada estimador atravs do Mtodo Bootstrap, utilizando
o algoritmo apresentado em 2.5.1.

Com relao ao MRLCP, deseja-se investigar a sua eficincia no apenas na estimao de
parmetros, como tambm a sua contribuio para a eficincia do modelo obtido a partir das
componentes principais, comparando o seu desempenho com os desempenhos dos modelos citados
anteriormente. Cabe ressaltar que no foi dedicada ateno especial escolha das componentes
principais para compor os modelos obtidos.

3.1 MODELO DE REGRESSO LOGSTICA OCULTO PARA VARIVEL RESPOSTA
POLITMICA

Para se aplicar o modelo em questo a problemas com varivel resposta politmica,
considera-se k variveis no observveis T
1
, ... , T
k
, assumindo os valores f
i
ou s
i
, i = 1 , ... , k,
conforme o raciocnio ilustrado na Figura 3.1, e que segue de perto a proposta de Rousseeuw e
Christmann (2003) para varivel resposta dicotmica.

Deste modo, se o verdadeiro estado T
j
= s
j
, observa-se Y = j , j = 1 , ... , k, com
probabilidade dada por:

( )
j j j
s s T j Y P = = = | . (3.1)
57


Analogamente, se T
j
= f
j
, observa-se Y = j ,

( )
j j j
f f T j Y P = = = | . (3.1)

Adicionalmente, tem-se que:

( )
j j j
s s T j Y P = = 1 | (3.2)
e
( )
j j j
f f T j Y P = = 1 | . (3.3)

Assume-se, tambm, que 0 < f
j
< 0,5 < s
j
< 1, j = 1 , ... , k.


1 ... k
Y





T s
1
f
1
. . . s
k
f
k






X x
1
x
2
x
P


Figura 3.1 Modelo de Regresso Logstica Oculto Proposto para Varivel Resposta Politmica.

58

Ento, h n k variveis no observveis T
ij
, i = 1 , ... , n, j = 1 , ... , k, resultantes de k vetores
1
,
... ,
k
, tais que:

[ ]
T
1 0
...
jp j j j
=
onde
k
= 0 .

O estimador de mxima verossimilhana de T
j
, dado Y = y, dado por:

( )
( )
j ML
j ML
s j Y T

f j Y T

j
j
= =
=
. (3.4)

A probabilidade condicional dada ento por:

( )
( ) j y f T j Y P
j y s T j Y P
j ML
j ML
j
j
= =
= = =
se

|
se

. (3.5)

Desta forma pode-se definir a varivel:

( )
j ji j ji ji
s y f y y + = 1
~
, (3.6)
onde

=
=
j Y
j Y
y
i
i
ji
se 0
se 1
.

Agora o objetivo ajustar s pseudo-observaes
ij
y
~
um Modelo de Regresso Logstica na forma
dada por:

( )
( )
( )
) , ... , 2 , 1 (
exp
exp
|
1
k s G P
k
j
j
s
s
= =

X ,
onde ) 1 , ... , 2 , 1 ( ...
2 2 1 1 0
= = + + + + = k s x x x
T
s p sp s s s s
X , e
k
= 0 .

59

Neste caso a funo de verossimilhana estimada dada por:

( ) [ ]

= =
=
n
i
k
j
Y
i j
ji
T P
1 1
~
) | (
~
| X Y l . (3.7)

Extraindo o logaritmo neperiano obtm-se a Funo Log-Verossimilhana Estimada dada por:

( )

=

= (
(

|
|

\
|
+ =
n
i
k
j
j
k
j
j ji
n y L
1
1
1
1
1
exp 1
~
~
| l Y (3.8)

Os estimadores de
j
so os valores que maximizam (3.8). Neste trabalho utilizou-se o Mtodo da
Mxima Verossimilhana, e tem-se a equao:

( )
( ) [ ]

=
=

n
i
i j ji mi
jm
G P y x
L
1
|
~
x

(3.9)

onde j = 1 , ... , k 1 e m = 0 , 1 , ... , p.

Para verificar que (3.8) estritamente cncava, basta considerar
1
e
2
, vetores de um
subespao convexo de R
p + 1
. Diz-se, por definio, que uma funo L, definida no mesmo
subespao, estritamente convexa, para quaisquer
1
,
2
,
1

2
, e para qualquer , 0 1,
se:

( ) ( ) ( ) ( ) ( )
2 1 2 1
1 1 L L L + < + .

Tambm por definio, diz-se que uma funo S, definida no mesmo subespao referido acima,
estritamente cncava se L = - S estritamente convexa.

Sejam
1
e
2
, vetores de um subespao convexo de R
p + 1
, tal que 0 1, e a funo
( ) ( ) Y Y
~
|
~
| L S = . De (3.8) tem-se que:
( ) ( ) ( ) = + Y
~
| 1
2 1
S
60

( )

=

= (
(

|
|

\
|
+ + + =
n
i
k
j
i
T
j
T
j
T
j
k
j
i
T
j ji i
T
j ji i
T
j ji
n y y y
1
1
1
2 2 1
1
1
2 1 2
exp 1
~ ~ ~
x x x x l .
(3.10)

Da mesma forma:

( ) ( ) ( ) = + Y Y
~
| 1
~
|
2 1
S S
( ) ( )

=

= (
(

|
|

\
|
+
|
|

\
|
+ + =
n
i
k
j
k
j
i
T
j
T
j
k
j
i
T
j i
T
j
T
j
T
j ji
n n y
1
1
1
1
1
2 2
1
1
1 2 1 2
exp 1 exp 1 ) (
~
x x x l l
(3.11)

Para = 0 ou = 1, pode-se verificar que:

( ) ( ) ( ) ( ) ( ) ( ) nk S S S l + + = + Y Y Y
~
| 1
~
| 1
~
|
2 1 2 1
,
ou seja, ( ) ( ) ( ) ( ) ( ) ( ) Y Y Y
~
| 1
~
|
~
| 1
2 1 2 1
S S S + < + .

Para 0 < < 1 basta verificar que:

( ) ( ) ( ) = + Y Y
~
| 1
~
|
2 1
S S
( ) ( ) ( )

=

= (
(

|
|

\
|
|
|

\
|
+
|
|

\
|
+ + =
n
i
k
j
k
j
i
T
j
T
j
k
j
i
T
j i
T
j
T
j
T
j ji
n y
1
1
1
1
1
2 2
1
1
1 2 1 2
exp 1 exp 1
~
x x x l

( ) ( ) ( ) Y
~
| 1
2 1
+ > S .

A matriz de informao, quadrada de ordem (k 1)(p + 1), pode ser escrita tambm na forma:

( )
( )
( )
( ) ( ) ( )( ) (
(
(
(
(

1 1 2 1 1 1
1 2 22 21
1 1 12 11
...
... ... ... ...
...
...
k k k k
k
k
T T T
T T T
T T T
I , (3.12)

61

Na forma (3.12) cada bloco T
ij
definido como:

( ) ( ) ( ) [ ] [ ]
( ) ( ) ( ) [ ] [ ]


= =
=
j i G P G P diag
i s j i G P G P diag
T
i j i i
T
i s i s
T
ij
, | | 1
, , | 1 |
x x X
X x x X
. (3.13)

Para a escolha de s
j
e f
j
optou-se por utilizar o mesmo procedimento adotado no modelo
para varivel resposta dicotmica. Neste trabalho assume-se que

j j j j
f s f = = 1 e ,

com
j
= 0,0001. Com isto atende-se necessidade da abordagem simtrica, isto , escolher
j
tal
que o valor de ||
j
||
2
possa ser ignorado na fase de implementao computacional.

Finalmente, para aumentar a informao a respeito dos modelos obtidos, optou-se por estimar
o vis dos estimadores obtidos atravs do Mtodo Bootstrap, seguindo o algoritmo apresentado em
2.5.1. Cabe acrescentar que a aplicao do referido mtodo visa apenas estimar o vis, e que a
mesma no se constitui em uma abordagem destinada reduo do mesmo.


3.2 MODELO DE REGRESSO LOGSTICA DE COMPONENTES PRINCIPAIS PARA
VARIVEL RESPOSTA POLITMICA

A extenso da Anlise de Componentes Principais (ACP) a problemas com varivel
resposta politmica, tambm proposta neste trabalho, no requer uma formulao complexa. De
fato, pode ser considerada como um mtodo de substituio de variveis, j que as p variveis
originais so substitudas por s componentes principais, s p. Esta substituio tem como efeito
mais evidente a reduo do volume de dados, para s < p colunas, o que acaba por exigir menor
esforo computacional na fase de implementao do modelo. Outra questo de interesse refere-se ao
comportamento do modelo com relao s diferentes configuraes dos conjuntos de dados, mais
especificamente quando h grupos completamente separados.

Sejam g grupos, G
1
, ... , G
g
, de observaes na forma da matriz de dados

62

(
(
(
(
(

=
pn n n
p
p
x x x
x x x
x x x
...
... ... ... ...
...
...
2 1
2 22 12
1 21 11
X .

O MRLC para varivel resposta politmica pode ser escrito na forma:

( )

= =
=
|
|

\
|
+
|
|

\
|
+
=
g
j
p
k
ki jk j
p
k
ki sk s
i s
x
x
G P
1 1
0
1
0
exp
exp
|


x

O primeiro passo o clculo da matriz S de covarincias e os correspondentes autovalores e
autovetores. Este clculo pode ser efetuado atravs do Algoritmo de Jacobi, j que a matriz
simtrica. Seguindo o mesmo raciocnio utilizado para o modelo com varivel resposta dicotmica,
pode-se fazer

=
=
p
j
ij kj ki
v z x
1
e, em seguida, efetuar a substituio no modelo. Com isto tem-se que:

( )

= = =
= =
|
|

\
|
+
|
|

\
|
+
=
g
j
p
k
p
j
jk ij kj j
p
k
p
j
sk ij kj s
i s
v z
v z
v Z G P
1 1 1
0
1 1
0
exp
exp
|


(3.14)
onde i = 1 , ... , k, j = 0 , .... , p e
kj
= 0.

Fazendo

=
=
p
q
iq qj ij
v
1
, e substituindo em (3.14), tem-se o Modelo de Regresso
Logstica de Componentes Principais (MRLCP) para varivel resposta politmica, que pode ser
escrito na forma:

63

( )

= =
=
|
|

\
|
+
|
|

\
|
+
=
k
i
p
j
ij j i
p
j
sj j s
s
z
z
G P
1 1
0
1
0
exp
exp
|


V Z , (3.15)
onde

=
=
p
q
iq qj ij
1
, i = 1 , ... , k e j = 1 , ... , p.

Os parmetros desconhecidos podem ser estimados atravs do Mtodo da Mxima
Verossimilhana, na mesma forma utilizada para o Modelo de Regresso Logstica Clssico
(MRLC). Neste trabalho optou-se pela construo do modelo a partir da matriz de dados com
valores normalizados.

A escolha das componentes principais abordada de forma mais detalhada por Aguilera,
Escabias e Valderrama (2006). Os autores alertam que as componentes com maior varincia no so
necessariamente as melhores preditoras, j que componentes com pequena varincia podem ser
altamente correlacionadas com a varivel resposta. Alm disso, ainda segundo os autores, o Modelo
de Regresso de Componentes Principais alvo de crticas por parte de alguns autores, que usam
como argumento o fato de que as componentes principais so obtidas sem levar em considerao a
dependncia entre a varivel resposta e as variveis explanatrias. Para resolver este problema,
Aguilera, Escabias e Valderrama (2006) utilizam um procedimento que se inicia com um modelo
sem componentes principais. Na seqncia adiciona-se a este modelo uma componente principal a
cada passo, at que no haja nenhum ganho expressivo no desempenho do mesmo. Alm do
problema mencionado, alguns autores, como Hubert, Rousseeuw e Verboven (2002), por exemplo,
apontam que os algoritmos comumente usados para a determinao das componentes principais
demandam grande esforo computacional, sobretudo para grandes conjuntos de dados.

Com o objetivo de obter a melhor estimao possvel para os parmetros, os autores
propem diferentes critrios baseados em medidas distintas de eficincia dos parmetros estimados.
Inicialmente definido o Erro Quadrtico Mdio do vetor de parmetros, dado por:

( ) ( )
( )

+
=
p
j
j s j s
p
MSEB
0
2

1
1
. (3.16)

64

Na seqncia definido o Mximo das Diferenas Absolutas dos parmetros,

( ) ( )
{ }
j s j j s
Max Max =

. (3.17)

Finalmente, definido o Erro Quadrtico Mdio das Probabilidades como,

( ) ( )
( )

=
=
n
i
i s i s
n
MSEP
1
2

1
. (3.18)

De acordo com os autores espera-se que pequenos valores para as trs medidas indiquem melhor
estimao dos parmetros.

importante ressaltar que o procedimento descrito foi utilizado em estudos que utilizaram
conjuntos de dados gerados a partir de um modelo conhecido. Em seguida efetuou-se a comparao
dos estimadores obtidos com os parmetros do modelo, conhecidos a priori. Na prtica, quando se
trabalha com dados de observao, os parmetros no so conhecidos, fato que impede o clculo
das medidas anteriores. Desta forma, pode-se utilizar como medida de ajuste a varincia dos
estimadores, dada por:

( )
[ ]
( ) ( ) ( ) ( )
( )
( ) s s s s s s
Var V Z W Z V
1
T T


= , (3.19)

onde
( ) ( ) ( )
( ) ( )
s i s i s
diag 1

= W .

Conforme Aguilera, Escabias e Valderrama (2006), geralmente as melhores simulaes,
isto , com os menores valores para (3.16), apresentam grande acrscimo em suas varincias
estimadas.

Neste trabalho a Anlise de Componentes Principais foi abordada com o objetivo de
verificar a sua eficincia na estimao de parmetros do Modelo de Regresso Logstica,
especialmente em casos nos quais os mtodos conhecidos no apresentam convergncia. Por este
motivo no foi dedicada maior ateno escolha das componentes principais que integraro o
modelo, sendo consideradas as s primeiras componentes principais tais que:
65


95 , 0
1
1

(
(
(
(

=
=
p
j
j
s
i
i

.

Como objetivo adicional, deseja-se tambm avaliar o desempenho do MRLCP incluindo diferentes
componentes principais, a fim de verificar se o mesmo est sujeito a alguma influncia quando o
conjunto de dados originais substitudo pelas correspondentes componentes principais.

























66

4 RESULTADOS E DISCUSSES

Para comparar a eficincia dos mtodos abordados neste trabalho os diferentes modelos
foram aplicados a conjuntos de dados extrados da literatura disponvel. A opo por tais conjuntos
visa facilitar a comparao dos resultados obtidos com aqueles que eventualmente tenham sido
alcanados por outros pesquisadores. Os mesmos conjuntos podem ser obtidos no endereo
eletrnico www.fesppr.br/~inacio/BancosDeDados. A implementao computacional foi levada a efeito
atravs de um programa escrito em linguagem Visual Basic 6.0

, executado em um computador
Hewlett-Packard

, modelo Pavillion b1040br, processador Intel

Pentium

4 2,93 Ghz.

O primeiro conjunto de dados, extrado de Hosmer e Lemeshow (1989), envolve variveis
estudadas em exames de mamografia, cujas caractersticas so apresentadas no Quadro 4.1. Os
dados so resultantes da observao de 412 casos, sendo 104 pertencentes ao Grupo 1, 74
pertencentes ao Grupo 2 e 234 pertencentes ao Grupo 3, e podem ser obtidos na obra citada.

Quadro 4.1 Variveis observadas no conjunto MAMOGRAFIA.
Varivel Codificao Abreviatura
Histrico de exame mamogrfico (Varivel Resposta)
1 Nunca
2 H menos de um ano
3 H mais de um ano
ME
O exame necessrio apenas quando so
apresentados os sintomas? (Pergunta feita paciente)
1 Concordo fortemente
2 Concordo
3 Discordo
4 Discordo fortemente
SYMPT
Os benefcios do exame so perceptveis? (Pergunta
feita paciente)
Escala variando de 5 a 20. PB
Me ou irm com histrico de cncer de mama. 0 No 1 Sim HIST
Sabe como efetuar o auto-exame? 0 No 1 Sim BSE
O exame de mamografia confivel para diagnosticar
novos casos de cncer de mama?
1 No confivel
2 pouco confivel
3 muito confivel
DETC

O segundo conjunto de dados, extrado de Fisher (1936), contm 150 observaes
referentes s dimenses das spalas e das ptalas de trs espcies de ris, iris setosa (G
1
), iris
versicolor (G
2
) e iris virginica (G
3
). Para cada espcie foram efetuadas 50 observaes, e as
variveis so descritas no Quadro 4.2. Este , provavelmente, o mais conhecido banco de dados
utilizado em trabalhos publicados na literatura disponvel, tendo sido usado por Lesaffre e Albert
(1989), entre outros, para demonstrar aspectos referentes separao de grupos e suas
conseqncias para a estimao de parmetros. bem sabido que o grupo 1, de exemplares da
67

espcie iris setosa, completamente separado dos grupos 2 e 3, das espcies iris versicolor e iris
virginica, respectivamente, conforme pode-se observar nas Figuras 4.1 e 4.2, que apresentam os
espaos discriminantes para algumas combinaes de variveis independentes. Aqui tambm foi
utilizado o Grupo 3 como grupo de referncia.

Quadro 4.2 Variveis observadas no conjunto IRIS.
Varivel Codificao (Domnio) Abreviatura
Espcies (Varivel resposta).
1 Iris Setosa
2 Iris Versicolor
3 Iris Virginica
Species
Comprimento da spala Medidas variando de 43 a 79 mm. X
1

Largura da spala Medidas variando de 20 a 44 mm. X
2

Comprimento da ptala Medidas variando de 10 a 69 mm. X
3

Largura da ptala Medidas variando de 1 a 25 mm. X
4


Figura 4.1 Espao discriminante para a combinao (X
1
, X
2
), do conjunto IRIS.
Figura 4.2 Espao discriminante para a combinao (X
1
, X
3
), do conjunto IRIS.


Espao Discriminante (IRIS)
43 53 63 73 83
X1
20
24
28
32
36
40
44
X
2
Species
1
2
3
Espao Discriminante (IRIS)
X1
X
3
Species
1
2
3
43 53 63 73 83
0
20
40
60
80
68

O terceiro conjunto de dados contm 2567 observaes correspondentes a valores anotados
na inspeo de amostras de leo isolante empregado em transformadores eltricos com tenso
mxima de 69 kV, e foi apresentado por Paixo e Chaves Neto (2006). So definidos trs grupos a
partir da varivel resposta ESTADO, sendo 1806 observaes pertencentes ao Grupo 1, 114
observaes pertencentes ao Grupo 2 e 647 observaes pertencentes ao Grupo 3. Este conjunto foi
utilizado em um estudo com o objetivo de construir uma regra discriminante que permita determinar
o estado do leo isolante. No estudo em questo os autores aplicaram a Funo Discriminante
Quadrtica. As variveis so mostradas no Quadro 4.3.

Quadro 4.3 Variveis observadas no conjunto LEO ISOLANTE.
Varivel Domnio Abreviatura
Estado do leo (Varivel resposta)
1 Bom
2 A recuperar
3 A regenerar
ESTADO
ndice de neutralizao 0,003 0,671 (mg KOH/g) IN
Fator de potncia 0,10 28,6 (%) FP
Rigidez dieltrica 16 71 kV RD
Tenso interfacial 11,5 51,2 (dina/cm
2
) TI
Teor de gua 2 82 (ppm) TA
Temperatura do leo 5 85 (
o
C) TO

Foi tambm providenciada a construo de modelos de classificao baseados na Funo
Discriminante Linear e em Redes Neurais Artificiais. O desempenho dos modelos obtidos a partir
das diferentes abordagens avaliado mediante a comparao das taxas de classificaes efetuadas
corretamente, na forma de matrizes de classificaes.

4.1 RESULTADOS PARA O CONJUNTO MAMOGRAFIA

Inicialmente foram obtidos o Modelo de Regresso Logstica Clssico (MRLC), os
Modelos de Regresso Logstica Individualizados (MRLI) e o Modelo de Regresso Logstica
Oculto (MRLO). As variveis SYMPT e DETC foram codificadas atravs das variveis binrias
SYMPT(1), SYMPT(2), SYMPT(3) e DETC(1), DETC(2), respectivamente. Desta forma para
SYMPT = 4, por exemplo, tem-se SYMPT(1) = 1, SYMPT(2) = 1 e SYMPT(3) = 1. Se SYMPT =
2, tem-se SYMPT(1) = 0, SYMPT(2) = 1 e SYMPT(3) = 0. Utilizou-se como referncia o grupo 3.
Os estimadores obtidos so mostrados no Quadro 4.4. Os resultados obtidos pelos diferentes
modelos so bastante prximos, tanto para os estimadores como para os respectivos erros padres.

69

Quadro 4.4 Estimadores para os Modelos de Regresso Logstica Clssico (MRLC),
Individualizados (MRLI) e Oculto (MRLO). Conjunto MAMOGRAFIA.
Funo Varivel MRLC
Erro
Padro
MRLI
Erro
Padro
MRLO
Erro
Padro
SYMPT(1) 2,1298 0,4818 2,1425 0,4901 2,1282 0,4655
SYMPT(2) 0,3260 0,4801 0,3831 0,4858 0,3259 0,4636
SYMPT(3) 0,2093 0,4884 0,1423 0,4956 0,2092 0,4721
PB - 0,2213 0,0754 - 0,2145 0,0766 - 0,2212 0,0748
HIST 1,3670 0,4375 1,4153 0,4687 1,3663 0,4354
BSE 1,2904 0,5300 1,3998 0,5384 1,2894 0,5206
DETC(1) - 0,9011 1,1265 - 1,0490 1,1268 - 0,8998 1,0910
DETC(2) - 0,0061 1,1613 - 0,1947 1,1667 - 0,0052 1,1254
1
Intercepto - 2,2816 1,4738 - 2,2568 1,4963 - 2,2804 1,4360
SYMPT(1) 1,1100 0,3623 1,1369 0,3626 1,1096 0,3581
SYMPT(2) 0,0200 0,3559 0,0709 0,3572 0,0201 0,3515
SYMPT(3) 0,2996 0,3663 0,3349 0,3702 0,2934 0,3616
PB - 0,1504 0,0762 - 0,1447 0,0755 - 0,1504 0,0756
HIST 1,0660 0,4593 1,1573 0,4735 1,0655 0,4575
BSE 1,0505 0,5150 1,0165 0,5158 1,0497 0,5063
DETC(1) 0,6941 0,6870 0,5706 0,6869 0,6940 0,6829
DETC(2) 0,9358 0,7132 0,7896 0,7174 0,9356 0,7084
2
Intercepto - 2,8915 1,1237 - 2,8282 1,1192 - 2,8900 1,1131

Os coeficientes das funes discriminantes lineares obtidas para o conjunto em questo so
mostrados no Quadro 4.5. A Rede Neural Artificial utilizada neste trabalho segue o raciocnio
mostrado na Figura 2.7. As camadas de entrada e oculta possuem p neurnios cada uma, onde p o
nmero de variveis independentes. Os pesos foram iniciados com valores aleatrios seguindo uma
distribuio uniforme U(-0,5;0,5), o algoritmo utilizado para treinamento do tipo retro-
propagao, e segue os passos apresentados no Algoritmo 4.1.1.

Quadro 4.5 Coeficientes das Funes Discriminantes
Lineares. Conjunto MAMOGRAFIA
Funo Discriminante
Varivel
Primeira Segunda
SYMPT(1) 1,4642 0,3706
SYMPT(2) 0,2740 - 0,6823
SYMPT(3) 0,2876 0,0721
PB - 0,1822 - 0,0483
HIST 1,1809 0,1627
BSE 0,8690 1,4159
DETC(1) 0,0478 4,0925
DETC(2) 0,6207 2,9410
Autovalores 0,2845 0,0066


70


Quadro 4.6 Matrizes de classificaes observadas para o conjunto MAMOGRAFIA.
Grupo Previsto
Modelo Grupo Observado
1 2 3
0,1346 0,0000 0,8654
0,0811 0,0405 0,8784 MRLO
1
2
3
0,0171 0,0000 0,9829
0,6154 0,2308 0,1538
0,5000 0,2297 0,0405 FDL
1
2
3
0,2051 0,1880 0,6068
0,8558 0,0000 0,1442
0,2162 0,7432 0,0405 RNA
1
2
3
0,0000 0,0128 0,9872

O Quadro 4.6 mostra que o desempenho do MRLO significativamente inferior, quando
comparado FDL e a uma RNA. Tambm possvel notar que os dois modelos logsticos, MRLC e
MRLO, apresentaram desempenhos muito prximos entre si, embora demonstrem ser pouco teis
para o problema em questo.

4.2 RESULTADOS PARA O CONJUNTO IRIS

O Modelo de Regresso Logstica Clssico (MRLC) no apresentou convergncia, fato que j
era esperado, em funo da conhecida configurao do conjunto de dados. Os Modelos de
Regresso Logstica Individualizados (MRLI) apresentaram estimadores para a segunda funo
discriminante, que discrimina as observaes do grupo 2 em relao ao grupo 3, mas no houve
convergncia para os estimadores da primeira funo discriminante, que deveria discriminar as
observaes do grupo 1 em relao ao grupo 3, fato que tambm est de acordo com a mencionada
configurao dos dados. Quanto ao Modelo de Regresso Logstica Oculto (MRLO) no houve
problemas de convergncia, o que possibilitou a obteno de todos os estimadores, confirmando a
imunidade do mtodo s diferentes configuraes de dados. Para a implementao computacional
utilizou-se
j
= 10
4
. Os resultados so apresentados no Quadro 4.8. A Anlise de Componentes
Principais apresentou os autovalores e autovetores mostrados no Quadro 4.7. Estes valores foram
obtidos a partir da matriz de dados normalizados. Os estimadores para o Modelo de Regresso
Logstica de Componentes Principais (MRLCP) no foram obtidos. A no existncia dos
estimadores para o MRLCP indica que a Anlise de Componentes Principais, embora possibilite a
reduo do esforo computacional, no representa uma garantia contra o problema da no existncia
dos estimadores quando h separao completa de pelo menos um dos grupos.

71


Quadro 4.7 Varincias e autovetores do conjunto IRIS.
Autovetores
Varivel
v
1
v
2
v
3
v
4
X
1

X
2

X
3

X
4

0,3614
- 0,0845
0,8567
0,3583
0,6566
0,7302
- 0,1734
- 0,0755
0,5820
- 0,5979
- 0,0762
- 0,5458
0,3155
- 0,3197
- 0,4798
0,7537
Varincia (
i
) 420,0053 24,1053 7,7688 2,3676
Percentagem 0,9246 0,0531 0,0171 0,0052

Quadro 4.8 Estimadores para os Modelos de Regresso Logstica Clssico (MRLC),
Individualizados (MRLI) e Oculto (MRLO). Conjunto IRIS.
Funo Varivel MRLC
Erro
Padro
MRLI
Erro
Padro
MRLO
Erro
Padro
X
1
NE
*
NE NE NE 0,4611 2,7904
X
2
NE NE NE NE 1,0454 2,0433
X
3
NE NE NE NE - 1,4298 2,5094
X
4
NE NE NE NE - 2,2577 4,7388
1
Intercepto NE NE NE NE 36,0292 94,6970
X
1
NE NE 0,2465 0,2394 0,2464 0,2377
X
2
NE NE 0,6681 0,4480 0,6541 0,4388
X
3
NE NE - 0,9429 0,4737 - 0,9258 0,4599
X
4
NE NE - 1,8286 0,9743 - 1,7886 0,9479
2
Intercepto NE NE 42,6378 25,7077 41,5301 24,9025
* NE = No Existe

Os coeficientes obtidos para as funes discriminantes lineares so apresentados no Quadro
4.9, juntamente com os respectivos autovalores. A Rede Neural utilizada segue o mesmo raciocnio
exposto para o Conjunto MAMOGRAFIA. Os desempenhos dos modelos obtidos para o conjunto
IRIS so apresentados no Quadro 4.10, e indicam ligeira superioridade do MRLO, mais
precisamente para as observaes do grupo 2, em relao Funo Discriminante Linear e Rede
Neural Artificial.

Quadro 4.9 Coeficientes das Funes Discriminantes
Lineares. Conjunto IRIS
Funo Discriminante
Varivel
Primeira Segunda
X
1
- 0,0838 0,0024
X
2
- 0,1550 0,2187
X
3
0,2224 - 0,0941
X
4
0,2839 0,2868
Autovalores 32,1919 0,2854

72


Quadro 4.10 Taxas de classificaes efetuadas corretamente no conjunto IRIS.
Grupo Previsto
Modelo Grupo Observado
1 2 3
1,0000 0,0000 0,0000
0,0000 0,9800 0,0200 MRLO
1
2
3
0,0000 0,0200 0,9800
1,0000 0,0000 0,0000
0,0000 0,9600 0,0400 FDL
1
2
3
0,0000 0,0200 0,9800
1,0000 0,0000 0,0000
0,0000 0,9600 0,0400 RNA
1
2
3
0,0000 0,0200 0,9800

4.3 RESULTADOS PARA O CONJUNTO LEO ISOLANTE

O leo mineral utilizado como isolante em transformadores eltricos submetido a reaes
de oxidao devido presena de oxignio, gua e metais. O acompanhamento e a manuteno da
qualidade do leo isolante tm por objetivo assegurar uma operao confivel dos transformadores.
A verificao das medidas dos ndices nem sempre feita a tempo de se evitar panes ou mesmo a
troca do equipamento. Atualmente, a tcnica mais usada para a preveno de falhas neste tipo de
equipamento a manuteno preditiva, caracterizada pela anlise fsico-qumica do leo isolante
utilizado. A avaliao efetuada com base na interpretao de medidas realizadas atravs de
ensaios fsico-qumicos e que so comparadas a limites admissveis aplicados, conforme os Quadros
4.11, 4.12 e 4.13.

Quadro 4.11 ndices de classificao para leo isolante classificado como BOM.
Tenso
Varivel (Unidade)
At 69 kV 69 a 240 kV Acima de 240 kV
Teor de gua (ppm) < 30 < 25 < 20
Rigidez dieltrica (kV) > 30 > 30 > 35
ndice de neutralizao (mg KOH/g) < 0,15 < 0,15 < 0,10
Tenso interfacial (dina/cm
2
) > 20 > 20 > 22
Fator de potncia (%) < 15 < 15 < 15
Fonte: Paixo e Chaves Neto (2006).

Quadro 4.12 ndices de classificao para leo isolante classificado como A REGENERAR.
Tenso
Varivel (Unidade)
At 69 kV 69 a 240 kV Acima de 240 kV
ndice de neutralizao (mg KOH/g) > 0,15 > 0,15 > 0,10
Tenso interfacial (dina/cm
2
) < 20 < 20 < 22
Fator de potncia (%) > 15 > 15 > 15
Fonte: Paixo e Chaves Neto (2006).
73


Quadro 4.13 ndices de classificao para leo isolante classificado como A RECUPERAR.
Tenso
Varivel (Unidade)
At 69 kV 69 a 240 kV Acima de 240 kV
Teor de gua (ppm) > 30 > 25 > 20
Rigidez dieltrica (kV) < 30 < 30 < 35
ndice de neutralizao (mg KOH/g) < 0,15 < 0,15 < 0,10
Tenso interfacial (dina/cm
2
) > 20 > 20 > 22
Fator de potncia (%) < 15 < 15 < 15
Fonte: Paixo e Chaves Neto (2006).

O conjunto em questo foi utilizado por Paixo e Chaves Neto (2006) para a construo de
um modelo discriminante a partir da Funo Discriminante Quadrtica (FDQ). A funo dada por:

( ) ( ) ( )
i k k
T
k i
Q
i
np x x n x d l l + =


1
2
1
2
1
(4.1)
onde

i
= vetor mdio da populao
i
.

i
= matriz de covarincias da populao
i
.
p
i
= probabilidade a priori da observao pertencer populao
i
.
x = vetor aleatrio.

A regra de classificao consiste em alocar x em
k
se ( ) ( ) x x
Q
i
Q
k
mxd d = , i = 1 , ... , k.

As funes discriminantes tm a forma:

+ + + =

=

=
+
=
p
i
i i
p
i
i i i
p
i
i i k
x x x x d
1
1
1
1
1
2
(4.2)

A Funo Discriminante Quadrtica obtida por Paixo e Chaves Neto (2006) apresentou a
matriz de classificaes mostrada no Quadro 4.14.

Quadro 4.14 Matriz de Classificaes da FDQ para o conjunto LEO ISOLANTE.
Grupo Previsto
1 Bom 2 A recuperar 3 Regenerar
0,8793 0,0526 0,0681
0,0000 0,9737 0,0263 Grupo Observado
1
2
3
0,0680 0,0247 0,9073
Fonte: Paixo e Chaves Neto (2006).

74

O Modelo de Regresso Logstica Clssico (MRLC) no apresentou convergncia,
indicando a completa separao de pelo menos um dos trs grupos. Os Modelos de Regresso
Logstica Individualizados (MRLI) no apresentaram convergncia para a segunda funo
discriminante, indicando que o Grupo 2 completamente separado do Grupo 3, utilizado como
grupo de referncia, o que est de acordo com o desempenho do MRLC. O Modelo de Regresso
Logstica Oculto (MRLO) apresentou os estimadores mostrados no Quadro 4.15, juntamente com os
respectivos erros padres, confirmando a sua robustez em casos de separao total, ou parcial de
grupos.

Quadro 4.15 Estimadores para o MRLO. Conjunto LEO ISOLANTE.
Funo
Primeira Segunda Varivel
Estimadores Erro Padro Estimadores Erro Padro
Intercepto - 991,2077 653,4131 -937,1940 657,4500
IN 4239,2423 1161,0326 4823,3180 1122,2514
FP 21,0500 10,5751 35,3202 10,1592
RD - 6,0001 10,0635 - 11,0042 10,1592
TI 77,3480 36,3654 83,0050 36,3525
TA - 17,2660 7,4260 - 24,1805 7,4655
TO - 0,3208 4,6191 - 0,1756 4,6669
IN
2
- 1457,6189 463,4254 - 2826,8986 911,0983
IN FP - 10,4406 11,6354 - 44,4612 20,3344
IN RD 3,6378 4,5702 2,5725 5,5612
IN TI - 218,6601 53,9111 - 231,0900 53,5668
IN TA 5,6056 4,2733 4,9522 6,0819
IN TO 3,6603 2,8594 5,1862 4,1339
FP
2
- 0,0707 0,0925 - 0,3890 0,1732
FP RD 0,0482 0,0583 0,0469 0,0614
FP TI - 1,1316 0,3710 - 1,5083 0,3762
FP TA 0,1050 0,0580 0,1035 0,0776
FP TO - 0,0232 0,0441 - 0,0386 0,0607
RD
2
- 0,0214 0,0171 - 0,0096 0,0179
RD TI 0,3741 0,4939 0,3932 0,4943
RD TA - 0,0309 0,0259 0,0797 0,0263
RD TO 0,0089 0,0147 0,0130 0,0163
TI
2
- 1,4385 0,3519 - 1,5262 0,3489
TI TA 0,9727 0,3606 0,9800 0,3599
TI TO - 0,0207 0,2364 - 0,0213 0,2369
TA
2
- 0,0455 0,0155 0,0351 0,0156
TA TO - 0,0014 0,0165 - 0,0071 0,0177
TO
2
0,0014 0,0071 0,0001 0,0089

A matriz de classificaes do MRLO apresentada no Quadro 4.16. Todos os modelos
contm 27 variveis independentes, resultantes de combinaes efetuadas com as seis variveis
75

independentes originais. O desempenho apresentado para as observaes do grupo 2, confirma a
completa separao do mesmo, j indicada pelo comportamento do MRLI, que no obteve
estimadores para a segunda funo discriminante. Para o conjunto em questo a QDF ajustada
apresentou a matriz de classificaes mostrada no Quadro 4.14, onde possvel notar que o MRLO
apresentou desempenho superior QDF em todos os grupos.

Quadro 4.16 Matriz de Classificaes do MRLO para o conjunto LEO
ISOLANTE.
Grupo Previsto Grupo
Observado 1 Bom 2 A recuperar 3 Regenerar
0,9989 0,0006 0,0006
0,0000 1,0000 0,0000
1
2
3
0,0031 0,0000 0,9969

4.4 REPLICAES BOOTSTRAP

Com o objetivo de estimar o vis dos estimadores obtidos para o Modelo de Regresso
Logstica Oculto, algumas das simulaes relatadas foram repetidas mediante a aplicao do
Mtodo Bootstrap para a obteno de um Modelo de Regresso Logstica Bootstrap, seguindo o
algoritmo apresentado em 2.5.1. Os estimadores bootstrap encontrados para este modelo foram
comparados aos estimadores obtidos pelo MRLO, com o vis dado pela diferena entre os
respectivos valores.

Para o conjunto MAMOGRAFIA foram geradas 300 amostras bootstrap, que forneceram
modelos cujos estimadores so mostrados no Quadro 4.17, juntamente com o vis encontrado para
cada estimador. possvel perceber que nenhum dos estimadores encontrados apresenta vis
elevado, em relao aos respectivos estimadores do Modelo de Regresso Logstica Oculto.

Para o conjunto IRIS foram geradas 500 amostras bootstrap, e obtidos os estimadores
apresentados no Quadro 4.18. Para estudar o comportamento do vis dos estimadores foi executada
uma nova simulao com os dados do conjunto IRIS, desta vez incluindo no modelo apenas as
variveis X
1
e X
2
e gerando 500 amostras bootstrap. O desempenho do modelo obtido nesta
simulao apresentado no Quadro 4.19.




76

Quadro 4.17 Estimadores para o Modelo de Regresso
Logstica Oculto (MRLO) e estimadores Bootstrap.
Conjunto MAMOGRAFIA.
Funo Varivel MRLO Bootstrap Vis
SYMPT(1) 2,1282 2,1669 - 0,0387
SYMPT(2) 0,3259 0,3240 0,0019
SYMPT(3) 0,2092 0,2076 0,0016
PB - 0,2212 - 0,2216 0,0004
HIST 1,3663 1,3726 0,0387
BSE 1,2894 1,2496 0,0398
DETC(1) - 0,8998 - 1,2497 0,3499
DETC(2) - 0,0052 - 0,3578 0,3526
1
Intercepto - 2,2804 - 1,8872 - 0,3932
SYMPT(1) 1,1096 1,1409 - 0,0313
SYMPT(2) 0,0201 0,0836 - 0,0635
SYMPT(3) 0,2994 0,2497 0,0497
PB - 0,1504 - 0,1537 0,0033
HIST 1,0655 1,0764 - 0,0109
BSE 1,0497 1,0336 0,0161
DETC(1) 0,6940 0,6435 0,0505
DETC(2) 0,9356 0,8937 0,0419
2
Intercepto - 2,8900 - 2,8118 - 0,0782

Quadro 4.18 Estimadores para o Modelo de Regresso
Logstica Oculto (MRLO) e estimadores Bootstrap.
Conjunto IRIS.
Funo Varivel MRLO Bootstrap Vis
X
1
0,4611 0,2900 0,1711
X
2
1,0454 0,6210 0,4244
X
3
- 1,4342 - 0,8519 - 0,5823
X
4
- 2,2577 - 0,7967 - 1,4610
1
Intercepto 36,0292 31,2018 4,8274
X
1
0,2464 0,2436 0,0028
X
2
0,6541 0,3509 0,3032
X
3
- 0,9258 - 0,5666 - 0,3592
X
4
- 1,7886 - 0,8716 - 0,9170
2
Intercepto 41,5301 17,4460 24,0841

Quadro 4.19 Taxas de classificaes efetuadas pelo Modelo de Regresso
Logstica Oculto no conjunto IRIS, com as variveis X
1
e X
2
.
Grupo Previsto Grupo
Observado 1 2 3
1 1,0000 0,0000 0,0000
2 0,0000 0,7600 0,2400
3 0,0000 0,2600 0,7400

77

possvel perceber pelo Quadro 4.19 que, embora o modelo envolvendo apenas duas
variveis mantenha a capacidade de classificar corretamente a totalidade das observaes do Grupo
1, apresentou uma significativa queda na eficincia ao classificar as observaes pertencentes ao
Grupo 2. Os estimadores obtidos para o MRLO e para o Modelo Bootstrap so apresentados no
Quadro 4.20.

Quadro 4.20 Estimadores para os Modelos de Regresso
Logstica Oculto (MRLO) e Bootstrap. Conjunto IRIS.
Funo Varivel MRLO Bootstrap Vis
X
1
- 3,0466 - 0,7239 - 2,3227
X
2
2,5321 0,6369 1,8952 1
Intercepto 85,6596 21,1293 64,5303
X
1
- 0,1902 - 0,1873 - 0,0029
X
2
- 0,0403 - 0,0424 0,0021 2
Intercepto 13,0381 12,9474 0,0907

Os resultados apresentados no Quadro 4.20 mostram que a reduo da eficincia do modelo
acompanhada por uma reduo no vis dos estimadores. Basta verificar que o vis dos
estimadores da primeira funo, com 100% de classificaes corretas, significativamente maior
que o vis dos estimadores da segunda funo, cuja taxa de eficincia igual 76%, especialmente
para o intercepto. De outra forma, h indcios de que o vis dos estimadores de um modelo maior
para o modelo com maior poder discriminante. Para verificar este comportamento foi providenciada
a obteno de regras discriminantes para outros dois conjuntos de dados. O primeiro foi extrado de
Johnson e Wichern (1988) e contm 56 observaes de amostras de petrleo extradas de trs
diferentes tipos de solo e possui cinco variveis explanatrias, apresentadas no Quadro 4.21.

Quadro 4.21 Variveis observadas no conjunto LEO CR.
Varivel Codificao (Domnio) Abreviatura
Tipo de Solo (Varivel resposta).
1 Argila Wilhelm
2 Argila Sub-mulinia
3 Argila Superior
Grupo
Teor de vandio (%) Valores entre 1,2 e 11,0 X
1

Teor de Ferro (%) Valores entre 5,6 e 52 X
2

Teor de Berlio (%) Valores entre 0 e 1,5 X
3

Teor de Hidrocarbonetos Saturados (%) Valores entre 3,06 e 9,25 X
4

Teor de Hidrocarbonetos Aromticos (%) Valores entre 2,22 e 13,01 X
5
Fonte: Johnson e Wichern (1988).

Em primeiro lugar foi providenciada a estimao de parmetros para os quatro modelos de
Regresso Logstica abordados neste trabalho. Tanto o MRLC como o MRLI no apresentaram
convergncia. Os estimadores obtidos para o MRLO so mostrados no Quadro 4.22. Foram geradas
78

400 amostras bootstrap, que forneceram os estimadores mostrados tambm no mesmo quadro.
Neste caso o MRLO classificou corretamente as 56 observaes, sendo sete do Grupo 1, 11 do
Grupo 2 e 38 do Grupo 3, tomado como grupo de referncia. Na seqncia foi realizada uma
simulao para calcular os estimadores de um MRLO que envolvesse apenas as variveis X
1
, X
3
e
X
5
. Em seguida foram geradas 400 amostras bootstrap, obtendo-se os resultados mostrados no
Quadro 4.23 e a matriz de classificaes mostrada no Quadro 4.24.

Quadro 4.22 Estimadores para o MRLO e estimadores
Bootstrap. Conjunto LEO CR.
Funo Varivel MRLO Bootstrap Vis
X
1
- 18,5603 - 0,8455 - 17,7148
X
2
4,8244 0,2795 4,5449
X
3
- 118,2501 - 4,7558 - 113,4943
X
4
39,9649 - 0,0020 39,9669
X
5
- 3,6341 0,9459 - 4,5800
1
Intercep. - 254,5676 - 10,646 - 243,9216
X
1
- 17,1426 - 0,7232 - 16,4194
X
2
1,5282 0,0531 1,4751
X
3
- 195,0314 - 10,1938 - 184,8376
X
4
59,1918 2,6895 56,5023
X
5
- 8,7128 - 0,0993 - 8,6135
2
Intercep. - 199,6563 - 9,9869 - 189,6694

Quadro 4.23 Estimadores para o Modelo de
Regresso Logstica Oculto (MRLO) e estimadores
Bootstrap. Conjunto LEO CR.
Funo Varivel MRLO Bootstrap Vis
X
1
- 2,6341 - 1,6801 - 0,9540
X
3
- 7,8109 - 6,9710 - 0,8399
X
5
1,3550 0,9237 0,4313
1
Intercep. 2,2940 2,2299 0,0641
X
1
- 1,3591 - 1,2151 - 0,1440
X
3
- 8,4934 - 7,8298 - 0,6098
X
5
0,3865 0,2025 0,1840
2
Intercep. 7,1180 7,0028 0,1152

Quadro 4.24 Taxas de classificaes efetuadas pelo MRLO no conjunto
LEO CR, com as variveis X
1
e X
3
X
5
.
Grupo Previsto Grupo
Observado 1 2 3
1 1,0000 0,0000 0,0000
2 0,0909 0,5455 0,3636
3 0,0000 0,0000 1,0000

79

Nesta simulao tambm possvel notar que o vis dos estimadores menor que aquele
observado para o modelo que contm cinco variveis, embora esta queda nos valores observados
para o vis seja acompanhada por uma queda na eficincia dos modelos obtidos com apenas trs
variveis independentes, especialmente do segundo modelo, que classificou corretamente pouco
mais que a metade das observaes do segundo grupo. Por outro lado, as duas simulaes indicam
que o vis dos estimadores no compromete, pelo menos aparentemente, a eficincia do modelo.

A Anlise de Componentes Principais para o conjunto LEO CR apresentou as
componentes principais e autovalores mostrados no Quadro 4.25. Os estimadores para o MRLCP
com as trs primeiras componentes principais so apresentados no Quadro 4.26, juntamente com os
respectivos erros padres. A matriz de classificaes para o MRLCP apresentada no Quadro 4.27.

Quadro 4.25 Varincias e autovetores do conjunto LEO CR.
Autovetores
Varivel
v
1
v
2
v
3
v
4
v
5
X
1

X
2

X
3

X
4

X
5
0,5418
- 0,4971
0,1523
0,5823
- 0,3115
0,0320
- 0,0748
0,9376
- 0,3382
0,0011
0,3824
- 0,1885
- 0,0376
- 0,0235
0,9035
0,4995
0,8335
0,1218
0,2004
- 0,0272
0,5565
- 0,1304
- 0,2856
- 0,7112
- 0,2932
Varincia 2,0837 1,0433 0,9460 0,6343 0,2928
Percentagem 41,67 20,87 18,92 12,69 5,86

Quadro 4.26 Estimadores para o MRLCP. Conjunto
LEO CR.
Funo Componente Estimador Erro Padro
Intercepto - 39,3597 41,0709
1. Componente - 30,5299 26,3815
2. Componente 29,4016 38,5076
1
3. Componente - 7,8825 7,9746
Intercepto - 1,0934 1,2281
1. Componente - 1,6196 0,5779
2. Componente - 6,5638 2,9371
2
3. Componente - 0,0403 0,2109

Quadro 4.27 Taxas de classificaes efetuadas pelo MRLCP no conjunto
LEO CR, com as trs primeiras componentes principais.
Grupo Previsto Grupo
Observado 1 2 3
1 1,0000 0,0000 0,0000
2 0,0000 0,7273 0,2727
3 0,0000 0,0000 1,0000

80

No Quadro 4.27 possvel notar que o MRLCP apresenta um desempenho inferior ao
MRLO para as observaes do grupo 2, embora tenha se mostrado uma alternativa vlida para
contornar o problema da separao completa de grupos. O conjunto em questo tambm foi
utilizado por Johnson e Wichern (1988) para ilustrar a obteno de uma Funo Discriminante
Linear.

O segundo conjunto de dados foi extrado de Brodnjak-Vonina, Kodba, Novi (2005) e
contm 120 observaes referentes a cinco classes de leos vegetais. O objetivo das autoras
determinar a origem de amostras de leos vegetais a partir dos teores de cidos graxos presentes em
cada um dos tipos de leo vegetal. O conjunto original, disponvel no trabalho citado, contm
observaes de oito tipos de leo: abbora, girassol, amndoas, oliva, soja, colza, milho e de origem
desconhecida ou misto. Do conjunto original foram excludos trs grupos, leo de oliva, com trs
observaes, leo de soja, com sete observaes, e leo composto, ou misto, com apenas duas
observaes. Esta excluso foi motivada apenas pelo pequeno nmero de observaes em cada um
dos grupos excludos. As variveis observadas e suas definies so apresentadas no Quadro 4.28,
juntamente com algumas das caractersticas das mesmas.

Para a simulao com o conjunto CIDOS GRAXOS foram consideradas as variveis
apresentadas no Quadro 4.28. No conjunto original as variveis Eicosanoic e Eicosenoic assumem
valores inferiores a 0,1. O conjunto em questo contm cinco grupos: G
1
(n
1
= 11 observaes), G
2

(n
2
= 37 ), G
3
(n
3
= 26 ), G
4
(n
4
= 10) e o grupo de referncia G
5
(n
5
= 36).

Quadro 4.28 Variveis observadas no conjunto CIDOS GRAXOS.
Varivel Definio (Domnio) Abreviatura
Classe (Varivel resposta)
1 Colza
2 Girassol
3 Amndoas
4 Milho
5 Abbora
CLASS
Teor de cido Palmtico (%) Valores entre 3,8 e 13,1 Palmitic
Teor de cido Esterico (%) Valores entre 1,7 e 6,7 Stearic
Teor de cido Olico (%) Valores entre 22,3 e 80,6 Oleic
Teor de cido Linolico (%) Valores entre 11,3 e 66,1 Linoleic
Teor de cido Linolnico (%) Valores entre 0,1 e 9,5 Linolenic
Teor de cido Eicosanico (%) Valores entre 0,0999 e 2,8 Eicosanoic
Teor de cido Eicosenico (%) Valores entre 0,0999 e 1,8 Eicosenoic
Fonte: Brodnjak-Vonina et al. (2005).

81

Os dados foram utilizados para a obteno de uma Funo Discriminante Linear, de uma
Rede Neural Artificial e tambm para a estimao de parmetros dos modelos de Regresso
Logstica aqui abordados. As matrizes de classificaes so apresentadas no Quadro 4.29, no qual
possvel observar que a FDL, a RNA e o MRLO apresentaram desempenho bastante inferior ao
MRLCP, com quatro componentes principais.

Quadro 4.29 Classificaes efetuadas no conjunto CIDOS GRAXOS.
Grupo Previsto
Modelo Grupo Observado
1 2 3 4 5
0,0000 0,0000 0,0000 0,0000 1,0000
0,0000 0,0000 0,0000 0,0000 1,0000
0,0000 0,0000 0,0000 0,0000 1,0000
0,0000 0,0000 0,0000 1,0000 0,0000
FDL
1
2
3
4
5
0,0000 0,0000 0,0000 0,1944 0,8056
0,0000 0,1818 0,0000 0,0000 0,8182
0,0000 0,5135 0,0541 0,0000 0,4324
0,0000 0,0000 0,5385 0,0000 0,4615
0,0000 0,1000 0,1000 0,5000 0,3000
RNA
1
2
3
4
5
0,0000 0,1111 0,0833 0,1389 0,6667
0,0000 0,0000 0,0000 0,6364 0,3636
0,0000 0,0000 0,0000 0,9459 0,0541
0,0000 0,0000 1,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,7000 0,3000
MRLO
1
2
3
4
5
0,0000 0,0000 0,0278 0,2500 0,7222
0,4545 0,0000 0,0000 0,0000 0,5455
0,0000 0,9189 0,0000 0,0000 0,0811
0,0000 0,0000 1,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,8000 0,2000
MRLCP
1
2
3
4
5
0,1111 0,0556 0,0833 0,0556 0,6944

O MRLC no apresentou convergncia, enquanto o MRLI no apresentou convergncia
apenas para a terceira funo discriminante, o que est de acordo com a taxa de classificaes
apresentada pelo MRLO para as observaes do Grupo 3. Os estimadores para os modelos so
mostrados no Quadro 4.30. Para aplicar o Mtodo Bootstrap foram geradas 300 amostras e os
estimadores obtidos so apresentados no Quadro 4.30, juntamente com o vis dos estimadores em
relao ao MRLO. O MRLCP foi construdo com as cinco componentes principais mostradas no
Quadro 4.31 e apresentou a maior eficincia, o que d uma boa idia do seu potencial na construo
de regras discriminantes baseadas no Modelo de Regresso Logstica atravs das componentes
principais. Alm do desempenho superior, o modelo obtido a partir das componentes principais
mostra mais uma vez que pode eventualmente contornar o problema da separao completa de
grupos.
82


Quadro 4.30 Estimadores para o MRLI, MRLO e Bootsratp, com vis. Conjunto CIDOS
GRAXOS.
Funo Variveis MRLI
Erro
Padro
MRLO
Erro
Padro
Bootstrap Vis
Intercepto - 98,9055 107,1558 - 103,7708 107,4063 - 119,7021 15,9313
Palmitic 1,5720 1,3175 1,6041 1,3513 1,8042 - 0,2001
Stearic - 0,0941 1,3616 - 0,1358 1,4076 0,0515 - 0,1873
Oleic 0,9256 1,0708 0,9740 1,0822 1,1699 - 0,1959
Linoleic 0,9491 1,1029 1,0097 1,0903 1,2093 - 0,1996
Linolenic 1,2921 1,0750 1,3325 1,0468 1,2283 0,1042
Eicosanoic 3,5625 4,2976 3,5678 4,0833 1,5486 2,0192
1
Eicosenoic - 1,4939 3,6686 - 1,3585 3,5988 - 0,1944 - 1,1641
Intercepto 1,2413 153,8729 13,3611 141,7017 - 51,1813 64,5424
Palmitic 1,3511 1,474 1,2292 1,3275 1,6593 - 0,4301
Stearic 1,1142 2,049 1,1061 2,0490 1,1899 - 0,0838
Oleic - 0,1526 1,5591 - 0,2768 1,4371 0,4318 - 0,7086
Linoleic - 0,2448 1,5960 - 0,3764 1,4627 0,3512 - 0,7276
Linolenic - 1,2777 1,8158 - 1,3835 1,6955 - 0,6082 - 0,7753
Eicosanoic 1,5219 4,1871 1,8051 3,7158 - 0,7015 2,5066
2
Eicosenoic 1,5388 4,7567 0,8945 4,1551 3,4550 - 2,5605
Intercepto NE NE - 2579,9801 1695,6943 - 191,1927 - 2388,7874
Palmitic NE NE 23,0618 14,9258 2,1674 20,8944
Stearic NE NE - 14,6793 14,4351 - 1,3957 - 13,2836
Oleic NE NE 23,5866 15,8356 1,7723 21,8143
Linoleic NE NE 30,3859 19,7337 2,2513 28,1346
Linolenic NE NE 22,5048 16,2788 0,7502 21,7546
Eicosanoic NE NE - 1,4245 8,8502 - 2,2467 0,8222
3
Eicosenoic NE NE 96,8737 71,8125 9,6328 87,2409
Intercepto 408,8112 418,0917 370,5995 375,6840 63,4565 307,1430
Palmitic - 6,1084 6,9035 - 5,5093 6,2583 - 0,8131 - 4,6962
Stearic - 0,5833 4,9011 - 0,6216 4,8528 - 0,7230 0,1014
Oleic - 4,2459 4,3936 - 3,8481 3,9510 - 0,6222 - 3,2259
Linoleic - 4,3607 4,4947 - 3,9576 4,0427 - 0,6844 - 3,2732
Linolenic - 1,7572 2,8222 - 1,5179 2,6002 - 0,2125 - 1,3054
Eicosanoic - 10,6680 10,2203 - 10,0232 9,7806 - 5,2921 - 4,7311
4
Eicosenoic - 2,7562 3,9845 - 2,7033 3,9584 - 0,2655 - 2,4378

possvel observar no Quadro 4.30 que a terceira e a quarta funes, justamente aquelas
com maior eficincia, so que apresentam o maior vis para os estimadores, caracterstica que no
observada para as duas primeiras funes, ambas com menor poder discriminante.

Uma nova simulao, desta vez com as variveis Palmitic, Oleic, Linolenic e Eicosenoic,
foi realizada e apresentou para o MRLO as taxas de classificao mostradas no Quadro 4.32. Para
obter os estimadores bootstrap foram geradas 400 amostras. Os estimadores encontrados para o
MRLO e para o Modelo Bootstrap so mostrados no Quadro 4.33, assim como o respectivo vis.

83

Quadro 4.31 Varincias e autovetores do conjunto CIDOS GRAXOS.
Autovetores
Varivel
v
1
v
2
v
3
v
4
v
5
v
6
v
7
Palmitic
Stearic
Oleic
Linoleic
Linolenic
Eicosanoic
Eicosenoic
0,3075
0,4364
-0,4253
0,4303
- 0,3640
- 0,1670
- 0,4342
0,1919
0,1992
- 0,2084
0,1190
- 0,0018
0,8723
0,3242
0,7754
0,2536
0,1760
- 0,4143
0,3412
- 0,1226
- 0,0178
0,1112
- 0,3569
- 0,5222
0,3513
0,6608
- 0,1445
0,0812
0,0743
0,2118
- 0,0947
0,1241
- 0,2325
- 0,4154
0,8359
- 0,4814
0,7290
- 0,0182
-0,0515
0,4806
- 0,0472
- 0,0262
0,1332
0,0433
0,6802
0,6983
0,1713
0,0245
0,0104
Varincia 3,9092 1,0842 0,9325 0,7866 0,2053 0,0811 0,000098
Percentagem 55,85 15,49 13,32 11,24 2,93 1,16 0,0001

Quadro 4.32 Matriz de classificaes para o MRLO. Conjunto CIDOS GRAXOS.
Grupo Previsto
Grupo Observado
1 2 3 4 5
1 0,0909 0,0000 0,0909 0,3636 0,4545
2 0,0000 0,3514 0,0000 0,5946 0,0541
3 0,0000 0,0000 0,9615 0,0000 0,0385
4 0,0000 0,0000 0,0000 0,8000 0,2000
5 0,0000 0,0833 0,0833 0,1667 0,6389

Quadro 4.33 Estimadores para o MRLI, MRLO e Bootstrap, com vis.
Conjunto CIDOS GRAXOS, segunda simulao.
Funo Variveis MRLO
Erro
Padro
Bootstrap Vis
Intercepto - 8,8630 9,7859 - 6,3361 - 2,5269
Palmitic 0,5749 0,6160 0,5121 0,0628
Oleic 0,0037 0,1380 - 0,0020 0,0057
Linolenic 0,4466 0,3165 0,2281 0,2185
1
Eicosenoic - 1,2817 2,0868 - 1,3606 0,0789
Intercepto - 14,4956 5,1628 - 13,8513 - 0,6443
Palmitic 1,7208 0,5608 1,5035 0,2173
Oleic 0,0223 0,1136 0,0663 - 0,0440
Linolenic - 1,4332 0,5229 - 1,1720 - 0,2612
2
Eicosenoic 3,8075 2,6844 3,4154 0,3921
Intercepto 17,9257 6,8214 11,8780 6,0477
Palmitic - 0,7117 0,6351 - 0,4639 - 0,2478
Oleic - 0,4258 0,1882 - 0,2689 - 0,1569
Linolenic - 0,5427 0,5280 - 0,5427 0,0000
3
Eicosenoic - 1,1970 2,5302 0,4790 - 1,6760
Intercepto - 5,9831 23,2484 - 3,8587 - 2,1244
Palmitic - 0,9499 1,7930 - 0,4007 - 0,5492
Oleic 0,0643 0,2623 0,0556 0,0087
Linolenic 1,5165 0,6799 0,6868 0,8297
4
Eicosenoic - 3,9980 2,3275 - 2,4107 - 1,5873

84

Neste caso tambm possvel perceber uma significativa reduo do vis em relao ao modelo
Bootstrap, igualmente acompanhada por uma reduo da taxa de observaes corretamente
classificadas pelo MRLO.

4.5 ABORDAGENS INDIVIDUALIZADAS

Com o objetivo de comparar o desempenho dos modelos obtidos atravs de diferentes
abordagens, foi providenciada a diviso do conjunto IRIS em dois outros conjuntos. O primeiro,
referido como IRIS 13, contm as observaes pertencentes aos grupos 1 e 3, enquanto o
segundo, IRIS 23, contm as observaes dos grupos 2 e 3. Desta forma cada conjunto possui
varivel resposta binria. A cada um dos conjuntos aplicou-se os Modelos de Regresso Logstica
Clssico (MRLC) e Oculto (MRLO), ambos para varivel resposta binria. Os estimadores obtidos
so mostrados nos Quadros 4.34 e 4.35. Considerou-se = 0,0001.

Pode-se perceber que os estimadores obtidos individualmente, e tambm seus erros padres,
so bastante prximos aos obtidos pelos Modelos de Regresso Logstica Clssico e Oculto para
resposta politmica, mostrados no Quadro 4.4.

Quadro 4.34 Estimadores para os Modelos de Regresso Logstica Clssico
(MRLC) e Oculto (MRLO). Conjunto IRIS 13.
MRLC MRLO
Varivel
Estimador Erro Padro Estimador Erro Padro
X
1
NE NE 0,1390 3,3651
X
2
NE NE 0,1437 3,2261
X
3
NE NE - 0,3689 2,7049
X
4
NE NE - 0,3390 4,8980
Intercepto NE NE 3,8527 125,6554

Quadro 4.35 Estimadores para os Modelos de Regresso Logstica Clssico
(MRLC) e Oculto (MRLO). Conjunto IRIS 23.
MRLC MRLO
Varivel
Estimador Erro Padro Estimador Erro Padro
X
1
0,2465 0,2394 0,2457 0,2373
X
2
0,6681 0,4480 0,6527 0,4380
X
3
- 0,9429 0,4737 - 0,9239 0,4587
X
4
- 1,8286 0,9743 - 1,7853 0,9457
Intercepto 42,6378 25,7077 41,4616 24,8425

85

Os estimadores obtidos para os modelos correspondentes aos conjuntos Mamografia 13,
contendo observaes dos grupos 1 e 3, e Mamografia 23, contendo observaes dos grupos 2 e 3,
so apresentados nos Quadros 4.36 e 4.37, respectivamente.

Quadro 4.36 Estimadores para MRLC e MRLO. Conjunto Mamografia 13.
MRLC MRLO
Varivel
Estimador Erro Padro Estimador Erro Padro
SYMPT(1) 2,1425 0,4901 2,1409 0,4898
SYMPT(2) 0,3831 0,4858 0,3829 0,4855
SYMPT(3) 0,1423 0,4956 0,1423 0,4953
PB - 0,2145 0,0766 - 0,2144 0,0766
HIST 1,4153 0,4687 1,4148 0,4686
BSE 1,3998 0,5384 1,3990 0,5382
DETC(1) - 1,0490 1,1268 - 1,0481 1,1262
DETC(2) - 0,1974 1,1667 - 0,1970 1,1660
Intercepto - 2,2568 1,4963 - 2,2553 1,4955

Quadro 4.37 Estimadores para os Modelos de Regresso Logstica Clssico
(MRLC) e Oculto (MRLO). Conjunto Mamografia 23.
MRLC MRLO
Varivel
Estimador Erro Padro Estimador Erro Padro
SYMPT(1) 1,1369 0,3626 1,1362 0,3625
SYMPT(2) 0,0709 0,3572 0,0711 0,3571
SYMPT(3) 0,3349 0,3702 0,3346 0,3701
PB - 0,1447 0,0755 - 0,1446 0,0755
HIST 1,1573 0,4735 1,1569 0,4735
BSE 1,0165 0,5158 1,0159 0,5156
DETC(1) 0,5706 0,6869 0,5705 0,6868
DETC(2) 0,7896 0,7174 0,7894 0,7173
Intercepto - 2,8282 1,1192 - 2,8269 1,1190

Aqui tambm possvel notar que os estimadores obtidos so bastante prximos daqueles
obtidos pelos modelos com resposta politmica, alm da proximidade apresentada pelos modelos
entre si. Os resultados encontrados nas duas simulaes mostram que esta forma de abordagem
pode ser utilizada como uma valiosa ferramenta para testar a consistncia das solues apresentadas
pelas abordagens anteriores.








86

5 CONCLUSES

Nos ltimos cinco anos tem-se percebido na literatura corrente o surgimento de um nmero
considervel de abordagens alternativas para problemas de Reconhecimento e Classificao de
padres com varivel resposta politmica baseadas em Algoritmos Genticos, Redes Neurais
Artificiais, Mquinas de Base Vetorial, e Anlise Discriminante atravs da Programao Linear por
Partes, entre outros exemplos. Em comparao com estas tcnicas, possvel observar que o
Modelo de Regresso Logstica abordado com menor freqncia. Convm destacar neste ponto os
trabalhos de OBrien e Dunson (2004) e Groenewald e Mokgatlhe (2005), ambos com enfoque na
inferncia Bayesiana. Algumas das tcnicas mencionadas acima, com exceo talvez da Anlise
Discriminante Linear, so criticadas por alguns autores, que apontam desde a ausncia de
embasamento matemtico at a falta de uma explanao melhor detalhada sobre as caractersticas e
propriedades estatsticas das mesmas, embora no sejam poucos os trabalhos atestando a sua
eficincia como modelos discriminantes. Alm disso, em alguns campos de pesquisa, como a
Medicina, por exemplo, a abordagem padro firmemente baseada em mtodos estatsticos, como
se pode observar pelo grande nmero de trabalhos publicados por pesquisadores da rea. Nota-se
tambm que muitas destas abordagens utilizam o Modelo de Regresso Logstica como principal
ferramenta de tomada de decises e tambm que a maioria das aplicaes envolve varivel resposta
dicotmica. Outro aspecto que merece ser destacado a complexidade de alguns trabalhos a
respeito do modelo em questo, muitas vezes alm da compreenso de potenciais usurios que no
possuem uma slida formao em matemtica.

A utilizao de grandes conjuntos de dados exige certa cautela quanto ao uso de algumas
abordagens aqui revisadas, como aquelas propostas por Santner e Duffy (1986) e Christmann e
Rousseeuw (2001), por exemplo, principalmente no que diz respeito ao esforo computacional
requerido pelas mesmas. Tais fatos devem ser considerados quando da utilizao de uma
metodologia baseada no Modelo de Regresso Logstica e que exija uma verificao prvia da
existncia de sobreposio de grupos. Tambm necessrio ter em mente, especialmente em
aplicaes prticas, que o interesse de alguns pesquisadores concentra-se geralmente na eficincia
do mtodo utilizado como modelo discriminante e nos resultados fornecidos, enquanto as questes
relativas existncia de estimadores so objetos de estudo de especialistas dedicados a esta rea
especfica. Neste sentido conveniente dispor de um mtodo que fornea os estimadores
procurados, sem sofrer qualquer influncia ocasionada por eventuais caractersticas dos dados
disponveis e que seja efetivamente til como ferramenta de apoio tomada de decises.
87


O Modelo de Regresso Logstica Oculto (MRLO), aqui estendido para varivel resposta
politmica, segue rigorosamente a proposta apresentada por Rousseeuw e Christmann (2003),
comprovadamente eficaz para problemas com varivel resposta dicotmica. A abordagem utilizada
consistiu basicamente em uma generalizao que possibilita a aplicao do modelo em questo a
problemas com varivel resposta politmica. As simulaes realizadas sobre conjuntos de dados
disponveis na literatura corrente mostram que a eficincia do MRLO no afetada pelo nmero de
grupos de observaes, no sentido de fornecer estimadores para os parmetros desconhecidos, seja
qual for a configurao dos conjuntos de dados, alm de no exigir algoritmos complexos ou
dispendiosos para sua implementao computacional. Os resultados obtidos na comparao com
duas outras tcnicas, Funo Discriminante Linear e Redes Neurais Artificiais, tambm podem ser
um argumento em favor da viabilidade do MRLO no caso de varivel resposta politmica.

As mesmas simulaes mostram que o vis de cada estimador maior para modelos
ajustados a conjuntos de dados com pouca ou nenhuma sobreposio, justamente os casos nos quais
o MRLO apresenta maiores ndices de eficincia, em termos de classificaes corretamente
efetuadas. Convm lembrar que o vis avaliado em relao aos Estimadores Bootstrap. Por outro
lado, este fato mostra que o aumento do vis dos estimadores no afeta o desempenho do modelo
obtido, como possvel observar nas matrizes de classificaes apresentadas. Desta forma pode-se
argumentar que o modelo apresentado pode ser considerado uma ferramenta confivel, alm de
matematicamente consistente, para a anlise e reconhecimento estatstico de dados categorizados.

Os Modelos de Regresso Logstica Individualizados (MRLI) mostraram que, embora no
sejam imunes separao completa de grupos, podem ser utilizados em estudos preliminares para
fornecer uma descrio mais detalhada dos dados. Ao identificar um grupo totalmente separado,
pode-se, por exemplo, remov-lo do conjunto de dados e concentrar a ateno aos grupos
remanescentes, o que no uma informao desprezvel em termos de resultados prticos. Alm
disso, pode-se perceber que nas situaes onde no h problemas para a convergncia, os resultados
obtidos concordam fortemente com aqueles obtidos pelo MRLC e pelo MRLO.

O Modelo de Regresso Logstica de Componentes Principais (MRLCP) apresentou
desempenho superior aos demais modelos em pelo menos uma das simulaes apresentadas. Assim
como o MRLO, este modelo foi apresentado como opo de abordagem a problemas com varivel
resposta dicotmica e, da mesma forma, mostrou-se uma opo igualmente vivel para a abordagem
88

de problemas com varivel resposta politmica, embora no seja imune completa separao de
grupos. A despeito deste fato, a possibilidade de escolher o nmero de componentes principais que
integraro o modelo logstico resultante faz do MRLCP uma ferramenta no mnimo adequada s
finalidades aqui tratadas. Alm disso, a escolha de diferentes componentes principais permite, como
se verificou em alguns casos, contornar o problema causado pela completa separao de grupos, da
mesma forma que possvel obter o mesmo efeito para o MRLC e para o MRLI quando se altera a
combinao de variveis explanatrias que devem integrar o modelo obtido.

A implementao computacional de todos os modelos abordados no se mostrou uma tarefa
complexa. De fato, os algoritmos necessrios podem ser escritos com relativa facilidade, sem contar
que algumas sub-rotinas podem ser encontradas em numerosos livros ou trabalhos publicados,
como o Mtodo de Newton-Raphson, por exemplo, que de longe o mais utilizado na estimao de
parmetros para o Modelo de Regresso Logstica. A mesma facilidade de acesso bibliografia
verificada para algoritmos empregados na Anlise de Componentes Principais e tambm para os
procedimentos de execuo de operaes matriciais, de larga utilizao na estimao de parmetros
e na referida anlise.

A respeito de um dos outros mtodos aqui abordados, a Rede Neural Artificial (RNA),
possvel notar que a literatura disponvel est repleta de argumentos, muitos favorveis e alguns
contrrios sua utilizao. Esta discusso indica que o assunto uma rea ainda aberta a pesquisas,
tanto no campo terico como no campo das aplicaes prticas. O que no se pode ignorar a
utilidade desta tcnica, bem como seu potencial, para a resoluo de problemas de reconhecimento
estatstico de padres. Tambm justo lembrar que a concepo do MRLO inspirada na
arquitetura, ou topologia, de uma RNA com uma camada oculta, conforme declaram os prprios
pesquisadores que apresentaram o modelo em questo. O desempenho, em termos de classificaes
corretas, da RNA utilizada neste trabalho confirma a sua viabilidade como mtodo discriminante,
amplamente divulgada na literatura disponvel. A Funo Discriminante Linear (FDL), embora
criticada por alguns autores por exigir suposies a respeito da matriz de covarincias, suposies
estas no confirmadas na prtica, mostrou-se um mtodo de considervel eficincia, alm de servir
como ponto de partida para o desenvolvimento de outras abordagens, utilizando, por exemplo, a
Programao Linear. Alm disso, bem sabido que a FDL mostra-se mais eficiente quando
aplicada a conjuntos de dados que contm variveis contnuas, mais especificamente variveis com
distribuio normal multivariada.

89

A utilizao do Mtodo Bootstrap deve levar em considerao o volume de dados tratados
em cada problema, uma vez que o tempo de execuo de um algoritmo baseado nesta tcnica
aumenta na medida em que so includas mais observaes e, tambm, mais variveis explanatrias.
Tambm conveniente lembrar que os problemas causados pelo vis dos estimadores tm efeito
reduzido sobre os resultados, quando as amostras possuem grande nmero de observaes. Neste
trabalho optou-se por aplicar o mtodo em questo apenas na estimao dos vieses dos estimadores
calculados pelo MRLO por ser este o nico modelo imune completa separao de grupos.

Finalmente, pode-se concluir que os objetivos deste trabalho foram todos alcanados, tendo
em vista inicialmente a ampla comparao entre diferentes mtodos de estimao de parmetros,
seguida pelo desenvolvimento e implementao computacional dos mesmos, tendo como resultado
uma abordagem original no tratamento do problema de reconhecimento e classificao de padres
com varivel resposta politmica, atravs do Modelo de Regresso Logstica Oculto e do Modelo
de Regresso Logstica de Componentes Principais.




















90

REFERNCIAS

Aerts, M., Claeskens, G., Bootstrap tests for misspecified models, with application to clustered
binary data. Computational Statistics and Data Analysis 36, pp. 383-401, 2001.

Aguilera, A. M., Escabias, M., Valderrama, M. J., Using principal components for estimating
logistic regression with high-dimensional multicollinear data. Computational Statistics and Data
Analysis 50, pp. 1905-1924, 2006.

Agresti, A., Categorical Data Analysis. John Wiley & Sons, Inc. Hoboken, New Jersey, 2002.

Albert, A., Anderson, J. A., On the existence of maximum likelihood estimates in logistic
regression methods. Biometrika 71, 1, pp. 1-10, 1984.

Albert A., Lesaffre, E., Multiple group logistic discrimination. Comp. & Maths. with Applic. 12 ,
pp. 209-224, 1986.

Anderson, J. A., Separate sample logistic discrimination. Biometrika 59, pp. 19-35, 1972.

Anderson, J. A., Richardson, S. C., Logistic discrimination and bias correction in maximum
likelihood estimation. Technometrics, vol. 21, pp. 71-78, 1979.

Begg, C. B., Gray, R., Calculations of polychotomous logistic regression estimates using
individualized regressions. Biometrika 71, 1, pp. 11-18, 1984.

Brodnjak Vonina, D., Kodba, Z. C., Novi, M., Multivariate data analysis in classification of
vegetable oils characterized by the content of fatty acids. Chemometrics and Intelligent
Laboratory Systems 75, pp. 31-43, 2005.

Bull, S. B., Greenwood, C. M. T., Hauck, W. W., Jackknife bias reduction for polychotomous
logistic regression. Statistics in Medicine, 16, 5, pp. 545-560, 1997.

91

Bull, S. B., Mak, C., Greenwood, C. M. T., A modified score function estimator for multinomial
logistic regression in small samples. Computational Statistics and Data Analysis 39, pp. 57-74,
2002.

Christmann, A., Rousseeuw, P. J., Measuring overlap in binary regression. Computational
Statistics and Data Analysis 37, pp. 65-75, 2001.

Copas, J. B., Binary regression models for contaminated data. With discussion. Journal of
Royal Statistic Society B 50, pp. 225-265, 1988.

Cornfield, J., Joint dependence of risk of coronary heart disease on serum cholesterol and
systolic blood pressure: a discriminant function approach. Fed. Amer. Socs. Exper. Biol. Proc.
Suppl., 11, pp. 58-61, 1962.

Cox, D. R., Some procedures associated with the logistic qualitative response curve. Research
Papers on Statistics: Festschrift for J. Neyman, F. N. David (Ed.), New York: Wiley, pp. 55-71,
1966.

Cox, D. R., The Analysis of Binary Data. First edition. London: Methuen, 1970.

Davison, A. C., Hinkley, D. V., Bootstraps methods and their application. Cambridge University
Press, 1997.

Day, N. E., Kerridge, D. F., A general maximum likelihood discriminant. Biometrics 23, pp.
313-324, 1967.

Desai, V. S., Crook, J. N., Overstreet Jr., G. A. A comparison of neural networks and linear
scoring models in the credit union environment. European Journal of Operational Research
95,pp. 24-37, 1996.

Dreiseitl, S., Ohno-Machado, L., Logistic regression and artificial neural network classification
models: a methodology review. Journal of Biomedical Informatics 35, 5-6, pp. 352-359, 2002.

92

Ekholm, A., Palmgren, J., A model for binary response with misclassification. In: Gil-Christ, R.
(Ed.), GLIM-82, Proceedings of the International Conference on Generalized Linear Models.
Springer, Heidelberg, pp. 128-143, 1982.

Efron, B., Bootstrap methods: another look at jackknife. Annals of Statistics 7, pp. 1-26, 1979.

Fausett, L., Fundamentals of Neural Networks Architectures, algorithms, and applications.
New Jersey: Prentice Hall, Inc., 1994.

Faraggi, D., Simon, R., The maximum likelihood neural network as a statistical classification
model. Journal of Statistical Planning and Inference 46, pp. 93-105, 1995.

Fraud, R., Clrot, F., A methodology to explain neural network classification. Neural Networks
15, pp. 237-246, 2002.

Firth, D., Bias reduction of maximum likelihood estimates. Biometrika 80, 1, pp. 27-38, 1993.

Fisher, R. A., The use of multiple measurements in taxonomic problems. Annals of Eugenics 7,
pp. 179-188, 1936.

Flury, B., A first course in multivariate analysis. Springer Verlag New York, Inc.,1997.

Freed, N., Glover, F., Simple but powerful goal programming models for discriminant
problems. European Journal of Operational Research 7, pp. 44-60, 1981.

Gervini, D., Robust adaptive estimators for binary regression models. Journal of Statistical
Planning and Inference 131, pp, 297-311, 2005.

Groenewald, P. C. N., Mokgatlhe, L., Bayesian computation for logistic regression.
Computational Statistics and Data Analysis 48, pp. 857-868, 2005.

Guimares, I.A., Chaves Neto, A. Reconhecimento de padres: Comparao de mtodos
multivariados e Redes Neurais. Revista Negcios e Tecnologia da Informao 1, 1, pp.38-58,
2006.
93


Heinze, G., Schemper, M., A solution to the problem of separation in logistic regression.
Statistic in Medicine 21, pp. 2409-2419, 2002.

Heinze, G., A comparative investigation of methods for logistic regression with separated or
nearly separated data. Statistics in Medicine 25, 24, pp. 4216-4226, 2006.

Hosmer, D. W., Lemeshow, S., Applied logistic regression. Wiley Interscience, New York, 1989.

Hubert, M., Rousseeuw, P.J., Verboven, S., A fast method for robust principal components with
applications to chemometrics. Chemometrics Intelligent Laboratory Systems 60, pp. 101-111,
2002.

Hubert, M., Van Driessen, K., Fast and robust discriminant analysis. Computational Statistics
and Data Analysis 45, pp. 301-320, 2004.

Intrator, O., Intrator, N., Interpreting neural-network results: a simulation study. Computational
Statistics and Data Analysis 37, pp. 373-393, 2001.

Johnson, R. A., Wichern, D. W. Applied multivariate statistical analysis. 2. ed. New Jersey:
Prentice Hall International, Inc., 1988.

Jhun, M., Jeong, H. C., Applications of bootstrap methods for categorical data analysis.
Computational Statistics and data Analysis 35, pp. 83-91, 2000.

Kodzarkhia, N., Mishra, G. D., Reierslmoen, L., Robust estimation in the logistic regression
model. Journal of Statistical Planning and Inference 98, pp. 211-223, 2001.

Kolman, B., Introduo lgebra linear com aplicaes. 6
a
ed. Rio de Janeiro. LTC Livros
Tcnicos e Cientficos Editora Ltda, 1998.

Lachenbruch, P., Mickey, R., Estimation of error rates in discriminant analysis. Technometrics
10, pp. 1-11, 1968.

94

Lam, K. F., Moy, J. W., A piecewise linear programming approach to the two-group
discriminant problem an adaptation to Fishers linear discriminant function model.
European Journal of Operational Research 145, pp. 471-481, 2003.

Lesaffre, E., Albert, A., Partial separation in logistic discrimination. Journal of Royal Statistical
Society B 51, pp. 109-116, 1989.

Massy, W. F., Principal component regression in explanatory statistic research. J. Amer.
Statist. Assoc. 60, pp. 234-246, 1965.

Menard, S., Applied logistic regression analysis. Sage Publications. Series: Quantitative
Applications 106, 1995.

McCulloch, W., Pitts, W. A., A logical calculus of the ideas immanent in nervous activity.
Bulletin of Mathematical Biophysics, v. 5 , pp. 115-133, 1943.

McLachlan, G. J., Discriminant analysis and statistical pattern recognition. John Wiley & Sons,
New York, 1992.

OBrien, S. M., Dunson, D. B., Bayesian multivariate logistic regression. Biometrics 60, pp. 739-
746, 2004.

Paixo, L. A., Chaves Neto, A., Avaliao de leo isolante em transformadores com o emprego
da anlise discriminante quadrtica. Artigo aceito para apresentao no XVII Seminrio
Nacional de Distribuio de Energia Eltrica. Belo Horizonte, Minas Gerais. 21 25 de agosto de
2006.

Rom, M., Cohen, A., Estimation in the polytomous logistic regression model. Journal of
Statistical Planning and Inference 43, pp. 341-353, 1995.

Rousseeuw, P. J., Least median of squares regression. Journal of American Statistical Association
79, pp. 871-880, 1984.

95

Rousseuw, P. J., Van Driessen, K., A fast algorithm for the minimum covariance determinant
estimator. Technometrics 41, pp. 212-223, 1996.

Rousseeuw, P. J., Struyf, A., Computing location depth and regression depth in higher
dimensions. Statist. Comput. 8, pp. 193-203, 1998.

Rousseeuw, P. J., Hubert, M., Regression depth. Journal of American Statistical Association 94,
pp. 388-433, 1999.

Rousseeuw, P. J., Christmann, A., Robustness against separation and outliers in logistic
regression. Computational Statistics and Data Analysis 43, pp. 315-332, 2003.

Santner, T. J., Duffy, D. E., A note on A. Albert and J. A. Andersons conditions for the
existence of maximum likelihood estimates in logistic regression models. Biometrika 73, 3, pp.
755-758, 1986.

Schumacher, M., Roner, R., Vach, W., Neural networks and logistic regression: Part I.
Computational Statistics and Data Analysis 21, pp. 661-682, 1996.

Schwarzer, G., Vach, W., Schumacher, M., On the misuses of artificial networks for prognostic
and diagnostic classification in oncology. Statistics in Medicine 19, pp. 541-561, 2000.

Silvapulle, M. J., On the existence of maximum likelihood estimates for the binomial response
models. Journal of Royal Statistical Society B 43, pp. 310-313, 1981

Truett, J., Cornfield, J., Kannel, W.B., A multivariate analysis of the risk of coronary heart
disease in Framingham. J. Chron. Dis. 20, pp. 511-524, 1967.

Walker, S. H., Duncan, D. B., Estimation of the probability of an event as a function of several
independent variables. Biometrika 54, pp. 167-169, 1967.

Warner, B., Misra, M., Understanding neural networks as statistical tools. The American
Statistician 50, 4, pp. 284-293, 1996.

96

White, H., Artificial neural networks: Approximation and learning theory. Basil Blackwell,
Oxford, 1992.

Wilson, R. L., Sharda, R., Bankruptcy prediction using neural networks. Decision Support
Systems 11, pp. 545-577, 1994.





























97

APNDICE I ANLISE DE COMPONENTES PRINCIPAIS

A Anlise de Componentes Principais (ACP) utilizada no estudo da estrutura de
varincia-covarincia atravs de combinaes lineares das variveis originais. Tem como objetivos
a reduo de dados e o auxlio interpretao dos mesmos. De acordo com Johnson e Wichern
(1988), a ACP no uma finalidade em si, mas parte integrante de determinadas abordagens.

Embora o estudo da variabilidade exija p componentes, h situaes nas quais boa parte
desta variabilidade pode ser resumida por um nmero k, k < p, de componentes principais. Neste
caso as p variveis originais podem ser substitudas por k componentes principais, possibilitando a
reduo da matriz de dados de ordem n p para uma matriz de ordem n k. A ACP tambm auxilia
a expor relaes entre as variveis, relaes estas que podem afetar fortemente os resultados
esperados.

Sejam p variveis aleatrias X
1
, X
2
, ... , X
p
, e seja uma matriz de dados contendo n
observaes das referidas variveis na forma

(
(
(
(
(

pn n n
p
p
x x x
x x x
x x x
...
... ... ... ...
...
...
2 1
2 22 12
1 21 11
. (AI.1)

As componentes principais so combinaes lineares das p variveis aleatrias. Geometricamente
estas combinaes lineares podem ser interpretadas como uma mudana do sistema de coordenadas,
atravs da rotao do sistema original, tomando X
1
, X
2
, ... , X
p
como eixos coordenados, os quais
representam as direes com mxima variabilidade.

Seja o vetor aleatrio [ ]
T
2 1
...
p
X X X = X , cuja matriz de covarincias possui
autovalores 0 ...
2 1

p
. Sejam tambm as combinaes lineares

p pp p p p
p p
X l X l l Y
X l X l l Y
+ + = =
+ + = =
...
...
...
1 1
T
1 1 11
T
1 1
X
X
. (AI.2)
98


Ento as varincias e as covarincias so dadas, respectivamente, por

( )
i i i
l l Y Var =
T
(AI.3)
( )
k i k i
l l Y Y Cov =
T
, (AI.4)

As componentes principais so as combinaes lineares no correlacionadas e cujas
varincias so to grandes quanto possvel. A primeira componente principal a combinao linear
que maximiza

( )
1
T
1 1
l l Y Var =

Como a expresso pode ser alterada pela multiplicao por qualquer constante, pode-se eliminar tal
indeterminao restringindo-se o problema a vetores unitrios, isto

1 .
1
T
1
1
T
1
=

l l a s
l l Max
. (AI.5)

A segunda componente principal, que no deve ser correlacionada com a primeira, dada por

( ) 0 ,
1 .
2 1
2
T
2
2
T
2
=
=

Y Y Cov
l l a s
l l Max
. (AI.6)

A i sima componente principal dada por

( ) i k Y Y Cov
l l a s
l l Max
k i
i i
i i
< =
=

, 0 ,
1 .
T
T
. (AI.7)

99

Seja a matriz de covarincias associada ao vetor [ ]
T
2 1
...
p
X X X = X . Os pares
de autovaloresautovetores de so ( ) ( ) ( )
p p
e e e , , ... , , , ,
2 2 1 1
, onde
0
2 1

p
L . A i sima componente principal dada por

p pi i i i i
X e X e X e e Y + + + = = K
2 2 1 1
T
X , i = 1 , 2 , ... , p. (AI.8)

Ento

( )
i i i i
e e Y Var = =
T
, i = 1 , 2 , ... , p. (AI.9)
( ) k i e e Y Y Cov
k i k i
= = , 0 ,
T
. (AI.10)

Se
i
=
k
, i k, h mais de uma opo para a escolha de e
i
, e conseqentemente Y
i
no nica.
Johnson e Wichern (1988) demonstram que as componentes principais so no correlacionadas e
tm varincias iguais aos autovalores de .

Sejam Y
1
, Y
2
, ... , Y
p
componentes principais associadas ao vetor
[ ]
T
2 1
...
p
X X X = X , com matriz de covarincias . Ento

( ) ( )

= =
= + + + = = + + +
p
i
i p
p
i
i pp
Y Var X Var
1
2 1
1
22 11
K K . (AI.11)

Isto significa que a varincia total da populao

p pp
+ + + = + + + K K
2 1 22 11
,

de modo que a proporo da varincia total explicada pela j sima componente principal

=
=
p
i
i
j
j
1

. (AI.12)

100

Se uma grande proporo, algo entre 80% e 90%, pode ser atribuda a m, m < p, componentes
principais, ento estas m componentes podem substituir as p variveis originais sem muita perda de
informao.

Finalmente, o coeficiente de correlao entre uma componente principal Y
i
e uma varivel X
k
dado
por:

kk
i ki
X Y
e
k i

=
,
, i , k = 1 , ... , p. (AI.13)

























101

APNDICE II MTODO BOOTSTRAP

INTRODUO

Esta tcnica foi apresentada por Efron (1979) e indicada para estimar a distribuio
amostral de estatsticas a fim de medir a sua disperso, entre outras aplicaes. Deve ser usada
quando no se dispe de resultado analtico ou, quando existir, seja fortemente assinttico. Assim,
importante em especial quando se trabalha com amostras de tamanhos reduzidos. O mtodo consiste
em gerar um grande nmero de amostras com reposio, da amostra original, usando a funo de
distribuio emprica dos dados originais (ou resduos de um modelo, ou outro procedimento). As
amostras assim geradas podem posteriormente ser utilizadas na construo de uma estimativa da
distribuio amostral da estatstica de interesse. E, a partir dessa distribuio amostral bootstrap
pode-se obter, com base em percents, intervalos de confiana bootstrap com determinada
probabilidade de cobertura para parmetros, avaliao da variabilidade da estatstica que estima um
parmetro, entre outras aplicaes. A utilizao dos dados originais para gerar mais dados lembra o
truque utilizado pelo fictcio Baro de Munchusen, que conseguiu salvar-se de um naufrgio
puxando a si mesmo pelos cadaros de suas botas, em ingls bootstraps. Cabe ressaltar que o
principal objetivo do Mtodo Bootstrap no obter um aumento das informaes trazidas pela
amostra original, mas conseguir uma nova viso dos mesmos. A seguir apresenta-se uma introduo
mais formal, adaptada de Davison e Hinkley (1997).

Seja uma amostra aleatria {x
1
, x
2
, ... , x
n
} das variveis aleatrias independentes e
identicamente distribudas (i.i.d.) X
1
, X
2
, ... , X
n
, cujas funes densidades de probabilidades
(p.d.f.s) e funes distribuies acumuladas (c.d.f.s) podem ser representadas, respectivamente,
por f ( . ) e F ( . ). A referida amostra utilizada para fazer inferncias a respeito de um parmetro ,
utilizando a estatstica T, cujo valor amostral t. As questes referentes distribuio de
probabilidade de T podem ser o valor do vis, o valor do erro padro ou o intervalo de confiana
para usando T.

H duas situaes distintas, a paramtrica e a no paramtrica. A primeira ocorre quando
possvel usar um modelo matemtico contendo constantes ajustveis, ou parmetros, para
determinar f ( . ). Neste caso o parmetro uma componente, ou funo de . Quando no existe
tal modelo, diz-se que a anlise no paramtrica e utiliza-se apenas o fato de que as variveis
102

aleatrias X
j
so i.i.d. Esta ltima pode ser til na anlise da robustez das concluses obtidas atravs
da anlise paramtrica.

Na anlise no paramtrica muito importante o uso da distribuio emprica, que atribui a
cada valor amostral x
j
a mesma probabilidade n
1
. O estimador de F a funo distribuio
emprica (EDF), denotada por F

, definida como a proporo amostral



( )
{ }
n
x x #
x F

j
<
=

ou, de modo mais formal, como

( ) ( )

=
=
n
i
i
x x H
n
x F

1
1
(AII.1)

onde H( . ) a funo passo unitria, ou seja

( )

<

=
u
u
u H
0 , 1
0 , 0
.

Os valores da EDF so fixados como (0 , 1/n , 2/n , ... , n/n). Deste modo a EDF equivalente a
esses pontos de acrscimo, os valores ordenados x
(1)
< x
(2)
< ... < x
(n)
. Quando h valores repetidos
na amostra, ocorrncia comum em conjuntos de dados discretos, a EDF fixa probabilidades
proporcionais freqncia amostral dos mesmos.

SIMULAO PARAMTRICA

Seja um conjunto de dados {x
1
, x
2
, ... , x
n
}, para o qual h um modelo paramtrico. A CDF
e a PDF podem ser denotadas por F
0
(x) e f
0
(x), respectivamente. Quando estimado por , quase
sempre o estimador de mxima verossimilhana, tal substituio fornece o modelo ajustado, com
CDF ( ) ( ) x F x F


= , que pode ser usado para calcular propriedades de T, algumas vezes de modo
exato. Aqui se usa X
*
para denotar a varivel aleatria distribuda conforme o modelo ajustado.

103

Clculos tericos com o modelo ajustado podem ser muito complexos, alm disso, algumas
aproximaes podem no ser disponveis, ou confiveis, at mesmo em funo do tamanho
reduzido da amostra. Neste caso uma possvel alternativa a estimao das propriedades a partir de
conjuntos de dados simulados. Tais conjuntos podem ser denotados por X
1
*
, X
2
*
, ... , X
n
*
, e so
independentemente amostrados da distribuio ajustada F

. A estatstica de interesse calculada a


partir de um conjunto simulado representada por T
*
. Das R repeties obtm-se T
1
*
, T
2
*
, ... , T
R
*
.
Deste modo as propriedades de (T ) so estimadas a partir de T
1
*
, T
2
*
, ... , T
R
*
. O estimador do
vis de T, p.ex., dado por

( ) ( ) = F | T E F b ,

pode ser obtido como

( ) ( ) ( ) t T E t F

| T E F

b B
* *
= = = .

Alm disso

t T t T
R
B
*
R
r
*
r R
= =

=1
1
. (AII.2)

O parmetro para o modelo t, tal que (T
*
t) anlogo a (T ). O estimador para a varincia de
T dado por

( )

=
R
r
* *
r R
T T
R
V
1
2
1
1
. (AII.3)

De acordo com Davison e Hinkley (1997) as aproximaes acima so justificadas pela lei
dos grandes nmeros.

SIMULAO NO PARAMTRICA

Em algumas aplicaes o modelo paramtrico pode ser desconhecido, embora seja sensato
assumir que X
1
, X
2
, ... , X
n
so i.i.d. de acordo com uma funo distribuio F desconhecida. Neste
104

caso possvel usar a EDF F

para estimar a CDF F, como se fosse um modelo paramtrico.


Clculos tericos so possveis em poucos casos, embora seja possvel obter boas aproximaes.

Uma vez que a EDF fixa probabilidades iguais para os dados {x
1
, x
2
, ... , x
n
}, cada X
*

amostrado independentemente destes valores. Alm disso, as amostras simuladas X
1
*
, X
2
*
, ... , X
n
*

formam uma amostra aleatria tomada com reposio do mesmo conjunto. Esta modalidade de
reamostragem chamada bootstrap no paramtrica.

INTERVALOS DE CONFIANA

Uma das principais aplicaes para um estimador T o clculo de limites de intervalos de
confiana para o parmetro . Em geral utiliza-se a aproximao normal para a distribuio de T,
com mdia dada por ( + ) e varincia , onde o vis de T. Se e so conhecidos, pode-se
escrever

( )
( )
(

+

2 1 /
t
F | t T P

onde ( . ) a distribuio normal padro. Se o quantil da distribuio normal padro dado por
z

=
- 1
(), ento um intervalo de confiana (1 2)

( ) + +

2 1
1
2 1 2 1
z T z P
/ /
. (AII.4)

Como na prtica o vis e a varincia no so conhecidos, ambos devem ser substitudos por
estimadores. Tanto como podem ser expressos como

( ) ( ) ( ) ( ) F | T var F t F | T E F b = = = e . (AII.5)

Supondo que F estimada por F

, os referidos estimadores podem ser obtidos mediante a


substituio de F por F

, isto

( ) ( ) ( ) ( ) F

| T var F

t F

| T E F

= = = e . (AII.6)
105


De acordo com Davison e Hinkley (1997), a aproximao normal para a obteno dos
estimadores em questo no apresenta problemas para grandes amostras. Caso o tamanho da
amostra seja reduzido, a aproximao normal pode mostrar-se inadequada.

Se a distribuio de (T ) pode ser aproximada pela distribuio de (T
*
t), ento as
probabilidades acumuladas podem ser estimadas pela EDF dos valores simulados (t
*
t), ou seja,
se G(u) = P(T u), ento o estimador para G(u) dado por

( ) [ ]

=
=
R
r
*
r R
u t t I
R
u G

1
1
. (AII.7)

onde I[E] a funo indicadora do evento E, igual a 1 quando E verdadeiro e 0 quando E falso.
A aproximao (AII.7) contm duas fontes de erro, uma entre G

e G, em funo da variabilidade
dos dados, e outra entre
R
G

e G

, devida a simulao finita.



Se forem utilizados estimadores bootstrap dos quantis para (T ), ento um intervalo de confiana
(1 2) ter limites dados por

( )( )
( )
( )
( ) t t t t t t
*
R
*
R

+ 1 1 1
, . (AII.8)

Os limites acima so chamados limites de confiana bootstrap bsicos, e sua acurcia depende do
nmero R, de amostras bootstrap, e da concordncia da distribuio de (T
*
t) com a distribuio
de (T ).

MODELOS DE REGRESSO

Conforme Efron (1979), um modelo de regresso geralmente dado por

( )
i i i
g X + = B (AII.9)

106

onde g( . ) uma funo conhecida do vetor de parmetros B
T
= [
1
, ... ,
p
] , enquanto
i
~
ind
C ,
i = 1 , ... , n.

Normalmente, a informao que se tem a respeito de C que est centrada em zero, talvez
E
C
( ) = 0 ou Mediana
C
( ) = 0. A partir de uma amostra observada para X utiliza-se algum mtodo
para estimar B , geralmente o Mtodo dos Mnimos Quadrados, ou seja,

[ ]

n
i
i i
g x
1
2
) ( min :



, (AII.10)

com o objetivo de obter alguma informao sobre a distribuio amostral de B

.

A aplicao do Mtodo Bootstrap pode ser efetuada pela definio de como distribuio
de probabilidade amostral dos resduos
i
, isto

)

(
1
:


i i i
g x para
n
mass C =
.

De acordo com Efron (1979), se alguma componente de B um parmetro de posio para g( . ),
ento tem mdia igual a zero. Caso contrrio, e se a suposio de que E
C
( ) = 0 bastante
plausvel, pode-se modificar de modo a obter a mdia desejada. As amostras bootstrap so dadas
por

* *
)

(
i i i
g X + = . (AII.11)

Para cada amostra aplica-se o mesmo mtodo de estimao, ento

[ ]

n
i
i i
g x
1
2
* *
) ( min :





As amostras bootstrap obtidas podem ento ser utilizadas para estimar a distribuio amostral de
*

Вам также может понравиться