Академический Документы
Профессиональный Документы
Культура Документы
INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA
Instituto de Matemtica
Departamento de Estatstica
Banca Examinadora:
Professora Dra. Lisiane Priscila Roldo Selau
Marcos Roberto Eilert de Souza
Dedico este trabalho aos meus queridos pais: Ana Maria e Orides.
Agradecimentos
Sumrio
Resumo ......................................................................................................................... 1
1. Introduo .............................................................................................................. 1
2. Fundamentao Terica ........................................................................................ 4
2.1 Behavioral Scoring ............................................................................................ 5
2.2 Modelagem Hbrida........................................................................................... 6
2.3 Regresso Logstica ......................................................................................... 7
2.4 Redes Neurais .................................................................................................. 9
3. Sistemtica para Desenvolvimento do Modelo .................................................... 12
4. Resultados ........................................................................................................... 16
5. Concluses .......................................................................................................... 23
Referncias Bibliogrficas ........................................................................................... 25
Abstract ....................................................................................................................... 27
Resumo
Com o crescimento progressivo nos volumes de concesso de crdito no Brasil, as
empresas esto buscando melhorar na assertividade da concesso e agilidade na
anlise do crdito, no somente para novos clientes como tambm para clientes
antigos. Tcnicas quantitativas vm sendo difundidas para a construo de modelos
de previso de risco de crdito que, baseadas tanto em informaes cadastrais,
quanto no histrico de relacionamento do cliente na empresa, predizem um
comportamento padro de risco. O objetivo deste artigo propor uma sistemtica
para construo de modelos de previso de risco de crdito baseados em dados
comportamentais (Behavioral Scoring), utilizando um processo de modelagem hbrida
de dois estgios com regresso logstica e redes neurais e avaliar seu desempenho.
Todas as etapas de construo do modelo so discutidas detalhadamente, sendo
abordado desde o planejamento e definies do modelo at a validao da frmula de
pontuao. O modelo foi aplicado em uma amostra de 9.070 clientes de uma
instituio financeira de atuao nacional. Os resultados para esse estudo especfico
apontaram que o mtodo de modelagem hbrida desenvolvido apresentou
superioridade s tcnicas tradicionais, ressaltando que o apoio dos resultados da
regresso logstica, como ns de entrada da rede neural, contornaram as
caractersticas indesejveis das redes neurais, como processamento lento e
dificuldade na interpretao das variveis.
Palavras-chave: anlise de crdito, behavioral scoring, modelagem hbrida,
regresso logstica, redes neurais.
1. Introduo
No Brasil, a concesso de crdito sempre foi lenta e escassa, devido a polticas mal
concebidas e ao processo inflacionrio do passado. Entretanto, em consequncia da
maior estabilidade da economia brasileira nos ltimos anos, aps a implantao do
Plano Real, as empresas tm percebido o crdito como um gerador de riquezas e de
novos negcios (GOLDBERG apud BUENO, 2003).
2. Fundamentao Terica
Modelos de previso de risco de crdito vm sendo amplamente estudados e
ganhando foras devido a sua importncia para a sade de instituies financeiras, j
que o sucesso dessas instituies est diretamente relacionado a sua capacidade de
gerir os riscos (GHODSELAHI, 2011). Para lidar com estes desenvolvimentos, esto
sendo utilizadas ferramentas matemticas e estatsticas cada vez mais sofisticadas,
sendo que, conforme Tsai e Chen (2010), uma pequena melhora na preciso da
classificao de crdito pode resultar numa grande reduo do risco e gerar
significativa economia para a instituio.
4
Tcnicas
Avaliao
Preciso; Taxa de
Erro; Interpretao;
Convergncia
Hsieh (2005)
Regresso Multivariada
Lee e Chen (2005)
Preciso; Taxa de
Erro; Interpretao
Preciso
(01)
(02)
onde:
p = probabilidade do evento ocorrer;
1 - p = probabilidade do evento no ocorrer;
Xi = variveis preditoras;
bi = coeficientes a serem estimados para cada uma das variveis.
Notamos que, a funo p normaliza a sada do modelo para o intervalo [0,1],
informando a probabilidade do evento de interesse. Para testar a significncia dos
coeficientes, utiliza-se a estatstica de Wald (HAIR et al., 2005). Com o uso dessa
estatstica, o teste de hipteses pode ocorrer como em regresso mltipla.
Corrar et al. (2007), destacam a tcnica de regresso logstica, pela possibilidade de
contornar certas restries encontradas em outros modelos multivariados. Contudo, o
modelo de regresso logstica sensvel colinearidade entre as variveis (HAIR et
al., 2005). Por isso, Corrar et al. (2007) indicam, como uma das aes corretivas para
os problemas de multicolinearidade, o uso do mtodo stepwise para escolha de
variveis que iro compor o modelo considerado. O procedimento de avaliao das
variveis
preditoras
desconsidera
variveis
que
apresentem
sinais
de
(03)
(04)
10
Apesar das redes neurais terem se estabelecido como uma alternativa aos
tradicionais modelos estatsticos (CORRAR et al., 2007; LAHSASNA, 2010) e de
muitos estudos na rea de crdito terem concludo que as redes neurais superam os
tradicionais mtodos estatsticos em termos de preciso de classificao (WEST,
2000; LEE et al., 2002; BAESENS et al., 2003; SELAU, 2011), Hair et al. (2005) alerta
para a aplicao de redes neurais em problemas que necessitem previso e
classificao, com interesse na preciso da classificao e no na interpretao da
variveis preditoras. Outros pesquisadores, como Chung e Gray (1999), Hand e
Henley (1997) tambm criticam o tempo elevado de treinamento das redes neurais,
limitando, com isso, a aplicabilidade na manipulao de problemas de modelagem de
crdito, apesar de que a tecnologia de processamento evoluiu significativamente,
desde ento.
Por isso, nesse artigo, prope-se uma abordagem de modelos hbridos, que conforme
j mostrado aqui, vm sendo utilizada para melhorar inconvenientes das tcnicas de
inteligncia artificial, diminuindo o tempo de processo e facilitando, atravs do
primeiro mtodo, a identificao da relevncia das variveis significativas.
11
Planejamento e definies
Deve estar claro qual o pblico a ser atingido pelo modelo, ou seja, se necessrio
limitar o modelo para determinado produto, o que geralmente ocorre quando h uma
grande diversificao. Tendo claro o pblico, definir os conceitos para diviso dos
grupos em termos de aceitao de desempenho.
diferentes faixas de atrasos: (i) Bons clientes com pouco ou nenhum atraso no
perodo de observao; (ii) Indeterminados clientes com atrasos definidos como
intermedirios; (iii) Maus -
relevncia dos atrasos deve seguir a regra j existente em cada instituio, conforme
seu negcio e produto. Consideram-se, para a construo do modelo, apenas os
12
Predio
Perodo Histrico
Perodo de Observao
tempo
Ponto de
Observao
Resultado
Bom / Mau
13
(05)
(06)
Aps a avaliao dos melhores nveis de cada varivel, deve-se criar a varivel
dummy para cada atributo que far parte da anlise multivariada. Essa varivel
assumir apenas o valor 0 ou 1 (ex.: estado civil solteiro = 1, caso contrrio =0).
Dessa forma, os problemas de no linearidade sero evitados (SELAU, 2011).
Obteno da frmula preliminar
A determinao dos pesos de cada atributo para o clculo do escore final realizado
com base nas tcnicas quantitativas explicadas na fundamentao terica (Seo 2).
Hoje em dia h muitas tcnicas para clculo de escore, contudo, cabe ao analista
verificar suas necessidades e o poder de cada uma delas. Nesse estudo sugere-se o
uso de uma modelagem hbrida em duas etapas, sendo a primeira uma regresso
logstica, cujos resultados e variveis selecionadas serviro de entrada para uma rede
neural.
A complexidade de execuo do modelo adequado deve ser sempre levada em conta,
no subestimando nenhuma etapa, a fim de obter o melhor resultado. Para isso, os
pressupostos de cada tcnica devem ser seguidos. Na regresso logstica deve-se
atentar para a verificao da ausncia de multicolinearidade, e para isso pode-se
lanar mo do mtodo stepwise, j presentes em muitos softwares estatsticos, assim
as variveis preditoras sero incorporadas no modelo automaticamente. J na rede
neural h uma flexibilidade, no necessitando nenhuma verificao prvia quanto a
pressuposies para o uso.
A escolha do software tambm um passo que deve ser realizado com cuidado, dado
que necessrio verificar os recursos e caractersticas de cada um.
Analise da validao da frmula de pontuao
H muitas tcnicas estatsticas para testar o desempenho dos modelos e auxiliar na
escolha, entre elas: (i) estatstica de Kolmogorov-Smirnov (KS); (ii) rea abaixo da
curva ROC (AUC); e (iii) ndice de Gini.
A estatstica KS construda calculando a mxima diferena entre as distribuies
acumuladas de bons e maus. A Tabela 2 indica os nveis de aceitao para um
modelo construdo com base no comportamento do cliente em termos de KS. Esse
nvel de aceitao pode variar conforme a margem de lucro da empresa, o valor
15
mdio dos produtos, a rea de aplicao do modelo, entre outros fatores; ou seja,
classificao mostrada na Tabela 2 apenas um indicativo da qualidade do modelo,
cabendo ao analista avaliar a relevncia do resultado em seu negcio.
Tabela 2 Valor de KS x Capacidade de discriminao.
KS
KS<=40
40<= KS<50
50<= KS<60
60<=KS<70
KS>=70
Caracterstica da Discriminao
Discriminao baixa
Discriminao aceitvel
Discriminao boa
Discriminao muito boa
Discriminao excelente
Fonte: Sics (2010).
4. Resultados
Os resultados sero apresentados na mesma sequncia dos passos mostrados na
sistemtica da seo anterior, de forma que fiquem evidenciadas as etapas
percorridas para a obteno do modelo.
Planejamento e definies
Devido diversidade de pblico atendida e da gama de produtos, procurou-se
delimitar o alvo do modelo. Assim o foco foi na avaliao do risco do cliente, apenas
16
pessoa fsica, e que j tiveram alguma operao de crdito pessoal durante o tempo
de anlise. Dessa forma, o modelo servir de apoio s novas decises de concesso
de crdito pessoal para j clientes, contribuindo para o controle dos atrasos de
pagamentos. Conforme o conhecimento de analistas da instituio, os clientes foram
divididos em trs grupos, de acordo com o tempo de atraso, nos ltimos 6 meses que
antecederam a observao, sendo eles: (i) Bom: cliente com atraso at 30 dias; (ii)
Intermedirio: cliente com atraso entre 31 e 60 dias; e (iii) Mau: cliente com atraso
superior a 60 dias.
Identificao das variveis preditoras
Como o modelo a ser construdo trata-se de um Behavioral Scoring necessita-se de
informaes histricas alm das tradicionais do cadastro, como idade, estado civil,
CEP, renda, patrimnio, entre outras. Portanto houve a necessidade da consolidao
desses dados para obteno das variveis histricas comportamentais. Com a
varredura de bases mensais houve a transformao de variveis que consolidam o
comportamento do cliente na instituio. Essa etapa tambm muito importante, pois
dela depende no s a construo das variveis que resumem a totalidade da ao
no tempo observado, como tambm suas possveis derivaes. Ao exemplo da
informao de investimento do cliente ao longo do perodo histrico observado, podese apenas criar uma varivel binria, indicando que o cliente teve ou no algum
investimento durante o perodo histrico, que nesse estudo foi de 6 meses; ou ainda,
sobre a mesma informao, criar outra varivel que compute o total investido nesse
perodo; ou que demonstre a mdia de investimento, como tambm poder haver
quebras em decorrncia do tempo observado. Todas essas sero variveis
candidatas a entrarem no modelo, sendo que a mais significativa para discriminao
ser escolhida. Seguindo esses passos de decomposio das informaes
disponveis, foram obtidas 82 variveis para o inicio do estudo, sendo dessas 40
cadastrais e 42 histricas. Todas as variveis ainda passaro pela avaliao de
outliers, de missings e pela categorizao (quando necessria), para ento ser
medida a importncia de cada uma (individualmente e no conjunto) na discriminao
final de bom e mau pagador.
Amostragem e coleta dos dados
Nesse estudo foi adotada a prtica de observao de 6 meses tanto no horizonte do
passado quanto no do futuro, em relao ao ponto de observao, conforme j
ilustrado na Figura 4.
17
Alm disso, foram consideradas 9 safras, sendo que cada uma com o ponto de
observao em um diferente ms. A inteno inicial era analisar 12 safras,
abrangendo todos os meses, contudo no houve histrico suficiente na empresa.
Portanto, considerou-se suficiente apenas 9 safras, seja pelo tamanho da amostra e
por presumidamente abranger alguma sazonalidade, se assim houvesse. Para a
marcao de bom e mau pagador na amostra, considerou-se todo o perodo de
observao, ou seja, uma vez ocorrida a marcao de mau pagador aps o ponto de
observao, ela permanecer, independe se o cliente tornou-se bom ainda dentro
desse perodo. Ou seja, uma vez marcado como mau pagador no perodo de
observao, essa informao ser gravada e permanecer.
Dessa forma, apresenta-se na Tabela 3 o total de clientes na amostra, conforme a
data do ponto de observao, e a quantidade por tipo de cliente.
Base desenvolvimento
Total de Clientes
da Amostra
7.449
8.638
9.089
10.913
10.985
9.186
10.258
11.827
13.521
129.427
Bom
Mau
Indeterminado
6.541
7.664
8.185
9.893
10.009
8.296
9.203
10.673
12.138
82.602
450
523
425
513
469
431
509
545
670
4.535
458
451
479
507
507
459
546
609
713
4.729
Por exemplo, foram 13.521 clientes que tiveram ponto de observao em dezembro
de 2010, sendo que as variveis histricas que predizem seu comportamento na
instituio foram coletadas de junho de 2010 at o incio de dezembro de 2010. J o
comportamento do cliente ser medido nos 6 meses posteriores, ou seja, de janeiro
de 2011 at junho de 2011.
Esses so os valores j desconsiderando observaes com inconsistncia no
preenchimento. As observaes com problemas totalizaram menos de 1% da base
inicial. A partir de ento, foram separadas amostras para anlise e teste,
considerando todos os 4.535 clientes identificados como maus e uma amostra
aleatria para selecionar outros 4.535 clientes identificados como bons do total de
82.602 clientes bons na amostra inicial, formando uma amostra com 50% de cada
grupo, totalizando 9.070 clientes para o estudo.
18
Visto que a verdadeira proporo de maus na populao em estudo muito baixa (em
torno de 5%), poderia haver problema de discriminao na amostra, dado que a
maioria seria de bons clientes. Por este motivo, todos os maus foram utilizados e
apenas uma amostra de bons clientes. Contudo, desconsiderou-se a verdadeira
proporo entre os grupos para uma correo no resultado final. Na finalizao,
realizado um ajustamento com a priori da verdadeira proporo, atravs de um
recurso no processo de deciso disponvel no SAS Enterprise Miner.
Com base na amostra final, de 9.070 clientes, foi separada de forma aleatria, a
amostra de anlise, utilizada para a construo do modelo; e a amostra de teste,
utilizada para o teste do modelo, na proporo de 70% e 30%, respectivamente.
Anlise dos dados
Houve necessidade de codificar os valores que estavam marcados como missings,
quando na verdade indicavam a nulidade da respectiva varivel. Oito variveis
cadastrais e trs histricas foram excludas por apresentarem mais de 50% de
missings. Outra anlise importante dos outliers, pois em dados financeiros comum
haver muita discrepncia nas variveis. O tratamento dos outliers ocorreu no
momento da modelagem via SAS Enterprise Miner, atravs da funo Replacemente,
que facilita a recodificao dos valores discrepantes. Esses valores podem ser
considerados missings, ou incorporados considerando-o como sendo pertencentes
aos quartis extremos da distribuio da varivel, ou ainda estabelecer um limite de
forma manual. Nessa etapa muito importante a opinio de um analista para que
identifique o que realmente um outlier ou uma informao incorreta. Obtiveram-se,
assim, cinco variveis que foram limitadas, consideram os valores fora do intervalo
como sendo missings; foi o caso de tempo do ltimo depsito com valores negativos,
tornando os valores negativos missings, por exemplo. Para outras 32 variveis foram
recodificados os valores discrepantes, ao exemplo da soma de investimento que foi
limitada a R$500.000, pois havia poucos casos que destoavam deste valor.
Anlise bivariada
Nessa seo analisa-se a relao entre a varivel resposta, que identifica o bom e o
mau cliente e as demais variveis. Nessa fase, vinte e sete variveis foram rejeitadas
da anlise por terem poder de discriminao muito prximo de zero, esse poder foi
medido pela estatstica de Gini e pelo Information Value. Porm, seis dessas
continuaram por serem importantes, segundo experincia de analistas.
19
Para incluir algumas variveis, como CEP residencial, na anlise foi necessrio
categoriz-las, devido ao elevado nmero de atributos de cada uma delas. Para tal
agrupamento foi utilizado o apoio da funo Interactive Grouping disponvel no SAS
Enterprise Miner, onde se categoriza as variveis conforme o peso da evidncia
(WOE). Aps, cada grupo formado transforma-se em uma varivel dummy que sero,
portanto, as variveis preditoras para a construo do modelo. Com esse artifcio
evitam-se problemas decorrentes da no linearidade dos atributos no clculo da
anlise multivariada. Com isso obteve-se um total de cento e quatorze variveis
dummies, alm das treze que j eram binrias, transformadas em dummies, e ainda
foram mantidas vinte e duas variveis intervalares, alm da varivel resposta com a
informao de bom e mau cliente, e a varivel chave que identifica o cliente,
totalizando assim 151 variveis para o incio da anlise.
Obteno da frmula preliminar
Para a construo do modelo, tanto para a parte da regresso logstica quanto para a
parte da rede neural, o software utilizado foi o SAS enterprise Miner verso 6.1 e 6.2.
Na construo do modelo de regresso logstica, utilizou-se o mtodo stepwise, com
0,05 de significncia para entrada e sada de variveis. Como vantagem, esse mtodo
proporciona ao corretiva para o problema de multicolineariedade, pois desconsidera
variveis que apresentam sinais de multicolineariedade, optando por manter no
modelo as de maior significncia (SELAU, 2011). Algumas variveis foram
reagrupadas, a fim de facilitar a entrada no modelo. No foram adicionados efeitos de
interao de variveis no modelo a fim de melhorar a compreenso do modelo final.
Segundo SICS (2010), modelos de Credit Scoring encontrados no mercado no tm
utilizado essa prtica.
Para a composio do modelo logstico, 32 variveis dummies e 5 intervalares foram
significativas, sendo que 7 dummies e 1 intervalar proviam das informaes
cadastrais e 25 dummies e 4 intervalares so variveis de comportamento obtidas na
observao do cliente durante o perodo histrico. Pde-se perceber que as variveis
histricas agregam mais informao que as variveis cadastrais, ajudando no poder
de discriminao do modelo.
Para preservar as informaes da empresa em que se est realizando o estudo, as
variveis sero apresentadas na frmula final de forma codificada, permitindo a
identificao se a varivel de origem cadastral ou histrica. O cdigo obedece at
quatro dgitos: XYZW, sendo que se X=D a varivel dummy, se X=I a varivel
20
1 + exp (-1,6295 0,0934 DC11 + 0,8232 DC21 + 0,1951 DC22 0,3816 DC25 + 0,2350 DH32
+ 0,3193 DH33 0,1873 DC42 + 1,2688 DH51 + 0,2577 DH52 0,2198 DH54 0,6264 DH55
+ 0,3493 DH71 + 0,0210 DH72 0,0470 DH81 + 0,1791 DH82 + 0,5048 DH91 + 0,1183 DH92
0,3361 DH93 0,5991 DH101 0,3137 DH102 0,0703 DH102 + 0,3694 DH104 0,8232 DH111
0,1534 DH112 + 0,2203 DH113 + 0,2555 DH114 0,7681 IH12 0,0932 IH13 0,0127 IH14
+ 0,0142 IC15 0,1359 IH16 0,1291 DC17)
(07)
RN1
RN2
RN3
28
30
35
Anlise
61
62
62
KS
Validao
58
61
60
21
Regresso logstica
59
0,87
0,73
Em termos do valor de KS, o modelo hbrido conseguiu alcanar um nvel muito bom
de diferena entre as distribuies acumuladas de bons e maus clientes, sendo que a
regresso logstica tambm apresentou um nvel bom. Alguns pontos a mais nessa
diferena podem significar aumento nos lucros para uma empresa, portanto essa
diferena deve ser considerada e se possvel medida em termos de retorno
monetrio. O valor da rea sobre a curva ROC no modelo hbrido tambm foi bastante
expressivo, indicando que a capacidade de identificar corretamente os maus crditos
(sensibilidade), assim como a capacidade de identificar os bons crditos
(especificidade) est bem ajustada, chegando bem prximo a 1, valor mximo.
Tambm o ndice de Gini, que sumariza o desempenho do modelo sobre todos os
pontos de corte, apresentou melhora no modelo hbrido.
22
5. Concluses
Esse artigo apresentou uma sistemtica para a construo de um modelo de
Behavioral Scoring, propondo um processo de modelagem hbrida de dois estgios
com regresso logstica e redes neurais. Todos os passos para a obteno do modelo
foram abordados, tanto em relao obteno das variveis e amostras, quanto na
abordagem das tcnicas. Esse trabalho inova no s no detalhamento do processo de
construo de um Behavioral Scoring, como tambm quanto abordagem de
modelos hbridos, que esto sendo recentemente estudados internacionalmente,
sendo esse um dos precursores na apresentao dessa tcnica com dados
brasileiros. Dessa forma, o modelo aqui desenvolvido pode servir de apoio para
pesquisadores e analistas de empresas que desejam desenvolver seus modelos.
A tcnica de modelagem hbrida aqui desenvolvida foi condizente com estudos j
realizados, apresentando superioridade tradicional (regresso logstica). Alm disso,
com o apoio dos resultados da regresso logstica, como ns de entrada da rede
neural, tcnica que vem sendo cada vez mais utilizada, contornaram-se as
caractersticas indesejveis das redes neurais, como processamento lento e
dificuldade na interpretao das variveis. Cabe ressaltar que, a busca por uma rede
neural mais eficiente de suma importncia e depende da experincia do
pesquisador, visto que algumas redes treinadas (RN1), tendo como ns de entrada os
resultados da regresso logstica, alcanaram os mesmos indicadores de eficincia
da regresso logstica, sendo aconselhvel, nesses casos o uso dos modelos mais
simples que alcanam o mesmo resultado, ou seja, o modelo mais parcimonioso.
Portanto, a utilizao de modelos de previso de risco de crdito que utilizam as
variveis comportamentais dos clientes elimina a subjetividade da anlise tradicional,
aproveitando as informaes ricas do comportamento do cliente que se encontram
armazenadas em bancos de dados, muitas vezes inutilizveis. Alm disso, a
padronizao do procedimento de deciso e a velocidade na anlise do crdito so
ganhos que aumentam a rentabilidade da empresa, garantindo uma maior eficincia
no atendimento dos clientes.
Durante a execuo desse trabalho surgiram algumas questes que no foram
abordadas nesse artigo e a seguir sero apresentadas como sugestes para
trabalhos futuros: (i) estudar o impacto do uso de grupos de clientes bons e maus de
tamanhos iguais ou diferentes na estimao e previso do modelo; (ii) avaliar, a partir
23
24
Referncias Bibliogrficas
ABDOU, H. A. An evaluation of alternative scoring models in private banking. The
Journal of Risk Finance, v.10 n.1, p.38-53, 2009.
AKHAVEIN, J.; FRAME, W.S; WHITE, L. J. The diffusion of financial innovations: An
examination of the adoption of small business credit scoring by large banking
organizations. The Journal of Business, v.78, n.2, p.577-596, 2005.
BAESENS, B.; SETIONO, R.; MUES, C.; VANTHIENEN, J., Using neural network rule
extraction and decision tables for credit-risk evaluation. Management Science, v.49,
n.3, p.312-329, 2003.
BEE, W. Y.; SENG, H. O.; NOR, M. H. Using data mining to improve assessment of
credit worthiness via credit scoring models. Expert Systems with Applications, v.38,
p.13274-13283, 2011.
BUENO, V. F. F. Avaliao de risco na concesso de crdito bancrio para
micros e pequenas empresas. Florianpolis: UFSC, 2003. Dissertao (Mestrado
em Engenharia da Produo), Programa de Ps-Graduao em Engenharia de
Produo, Universidade Federal de Santa Catarina, 2003.
CHEN, W.; MA, C.; MA, L. Mining the customer credit using hybrid support vector
machine technique. Expert Systems with Applications, v.36, p.7611-7616, 2009.
CHENG, L. H.; MU, C.C; CHIEH, J.W. Credit scoring with a data mining approach
based on support vector machines. Expert Systems with Applications, v.33, p.847856, 2007.
CHUNG, H. M.; GRAY, P. Special section: data mining. Journal of Management
Information Systems, v.16, n.1, p.11-16, 1999.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Anlise multivariada: para cursos
de administrao, cincias contbeis e economia. So Paulo: Atlas, 2007.
DYCHE, J.; DYCH, J. The CRM handbook: a business guide to customer
relationship management. Reading, MA: Addison-Wesley, 2001.
EMEL, B. A; ORAL, M; REISMAN, A.; YOLALAN, R. A credit scoring approach for the
commercial banking sector. Socio-Economic Planning Sciences, v.37, p.103-123,
2003.
FINLAY, S. Credit scoring for protability objectives. European Journal of
Operational Research, v.202, 2010.
GANG, W.; JIAN, M.; LIHUA, H.; KAIQUAN, X. Two credit scoring models based on
dual strategy ensemble trees. Knowledge-Based Systems, v.26, p.61-68, 2011.
GHODSELAHI, A. A hybrid support vector machine ensemble model for credit scoring.
International Journal of Computer Applications, v.17, n.5, p. 975-8887, 2011.
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Anlise multivariada
de dados. 5.ed. Porto Alegre: Bookman, 2005.
HAND, D.J.; HENLEY, W. E. Statistical classification methods in consumer credit
scoring: a review. Journal of the Royal Statistical Society. Series A (Statistical in
society), v.160, p.523-541, 1997.
HAYKIN, S. Redes neurais: princpios e prtica. Trad. Paulo Martins Engel. 2.ed.
Porto Alegre: Bookman, 2001.
25
new customers but also to existing clients. Multivariate techniques have diffused to
build predictive models of credit risk that, based on both registration information, and
also in the history of the customer relationship in the company, predicting a pattern of
risk behavior. The aim of this paper is to propose a system for building predictive
models of credit risk based on behavioral data (Behavioral Scoring), using a process
of two-stage hybrid modeling with logistic regression and neural networks and
evaluate their performance. All stages of construction of the model are discussed in
detail, being approached from planning and definition of the model to the analysis of
the validation of the scoring formula. The model was applied to a sample of 9070
customers of a financial institution of national performance. The results for this
particular study showed that the developed hybrid modeling technique was superior to
traditional, stressing that the support of the logistic regression results as input nodes of
neural network bypassed the undesirable characteristics of neural networks, such as
slow processing and difficulty in interpretation of the variables.
Keywords: credit scoring, behavioral scoring, hybrid modeling, logistic
regression, neural networks.
28