Академический Документы
Профессиональный Документы
Культура Документы
Aplicao da Regresso Logstica vs Redes Neuronais Artificiais na Avaliao do Risco de Crdito no Mercado Cabo-Verdiano.
por
Pelo
Credit scoring:
Aplicao da Regresso Logstica vs Redes Neuronais Artificiais na Avaliao do Risco de Crdito no Mercado Cabo-Verdiano.
Novembro de 2009
Agradecimento
Gostaria de expressar a minha gratido ao meu orientador Professor Doutor Fernando Jos Ferreira Lucas Bao, pelo apoio e amizade. Ao Dr. Lus Antnio Ribeiro Choro, pelos ensinamentos economtricos que me apresentou desde os tempos de licenciatura, o que fez com que criasse curiosidade intelectual e vontade prpria de me dedicar temtica do credit
credit scoring.
Telma, pela companhia e pacincia que demonstrou ao longo dos muitos dias de estudo e trabalho. Aos meus Pais pelo apoio, coragem, incentivo e pacincia que teve ao longo destes ltimos tempos, a fim que este projecto se tornasse realidade. 4
... O negcio de um banco o risco! H que reconhec-lo, mensur-lo e, no sendo possvel bani-lo, mister control-lo!. (Choro 2005, 121)
Resumo
A gesto de risco de crdito sem dvida uma das reas mais importantes no domnio da gesto de risco financeiro. Com a recente crise financeira, e as alteraes a nvel da regulao introduzidas pelo acordo de Basileia II, a anlise do risco de crdito e a gesto do risco em geral, tm recebido ainda mais ateno pela indstria financeira. A capacidade de discriminar bons e maus clientes tornou--se um factor decisivo para o sucesso das empresas que operam na indstria do crdito, impulsionando-as a agir de acordo com um processo de avaliao de risco mais fino. Nos pases desenvolvidos, os modelos de credit scoring tm sido largamente utilizados neste sentido. Contudo, em Cabo Verde estas tcnicas ainda esto numa fase embrionria. As instituies financeiras continuam a utilizar mecanismos indirectos de gesto de risco. Neste ambiente, alguns bancos tm procurado alinhar se s melhores prticas internacionais de gesto de risco. Neste trabalho so apresentadas duas ferramentas para a elaborao de modelos de
credit scoring aplicado a uma base de dados de crdito ao consumo de uma grande
instituio financeira Cabo-Verdiana. Depois da fase de preparao do dos dados e definida todos os parmetros (definio da target, amostra de desenvolvimento e perodo de classificao), foram estimados vrios modelos logit e vrias redes neuronais multicamadas segundo diversos subconjuntos de treino/teste formados. Por fim o desempenho dos modelos comparada com base em medidas comummente utilizados na avaliao de modelos de risco de crdito para eleger o modelo que melhor se ajusta realidade Cabo-Verdiana. Apesar dos testes estatisticos indicarem que os modelos apresentam Verde. desempenhos estatisticamente semelhantes, as redes neuronais representam uma promissora tcnica para a anlise e concesso de crdito em Cabo
Palavras-chaves: Credit scoring, modelo logit, curva ROC, redes neuronais multicamadas.
Abstract
Credit risk managment, is undoubtely one of the most important area in the field of financial risk management. With the recent regulatory changes introduced by the Basel II, the credit risk analysis in particular and risk management in general, have received more attention by the financial industry. The capacity to discriminate between good and bad accounts has become a key decision factor for the success of the credit industry companies, empeling them to act according to a more sophisticated risk management process. In developed countries, credit scoring has beem widely used in this sence. However, in Cape Verde, these techniques are still in its infancy. Financial institutions continue to use indirect mechanisms of adjudication process based on credit analyst feelings. In this environment, some banks have sought to align itself with international best practice risk management by introducing more accurate evaluation of credit. This work consists in comparing two diferent tools for the elaboration of a credit scoring model applied to a credit consumer database from a big financial instituition of Cape Verde. After database preparation and definition of the project parameter (default, sample window, performance windows) various logit models and several multilayer perceptron networks were estimated, according to different train/test subgroups formed. Finally, the performance of the models are compared based on measures commonly used to evaluate models of credit risk to elect the model that best fits the reality of Cape Verdean. Despite the statistical tests indicate that the models show statistically similar performances, neuronal networks represent a promising technique for credit adjudication process in Cape Verde. Palavras-chaves: Credit scoring, modelo logit, curva ROC, redes neuronais multicamadas.
ndice Resumo .............................................................................................................................. 6 1 Introduo ................................................................................................................ 10 1.1 Motivao e relevncia do trabalho .................................................................... 12 1.2 Objectivos.......................................................................................................... 14 1.3 Organizao da dissertao ................................................................................ 14 2 Credit Scoring .......................................................................................................... 16 2.1 Histria do credit scoring................................................................................... 16 2.2 Filosofia de credit scoring.................................................................................. 18 2.2.1 Scoring versus objectivos de negcio ......................................................... 20 2.3 Mtodos utilizados em credit scoring ................................................................. 21 2.4 Vantagens e desvantagens do credit scoring, ...................................................... 24 2.5 Actividade de crdito em Cabo Verde ................................................................ 25 2.6 Condicionantes da actividade de crdito e benefcios da introduo do credit scoring em Cabo verde ................................................................................................. 28 2.7 Superviso e gesto de risco de crdito no sector bancrio em Cabo Verde. ...... 30 3 Caracterizao da base de dados de anlise ............................................................... 32 3.1 Qualidade da base de dados................................................................................ 34 3.2 Janela de amostragem e perodo de classificao. ............................................... 36 3.3 Definio de bom, mau e indeterminado. ........................................................... 37 3.4 Inferncia dos rejeitados .................................................................................... 39 3.4.1 Parceling ..................................................................................................... 40 3.4.2 Augumentation (dados aumentados) ........................................................... 41 3.4.3 Classificao de rejeitados como clientes maus ........................................... 41 3.4.4 Utilizao de informao de mercado.......................................................... 41 3.4.5 Potenciais benefcios da utilizao da inferncia dos rejeitados ................... 42 3.5 Seleco das variveis ........................................................................................ 43 4 Modelo de regresso logstica (Logit) ....................................................................... 46 4.1 Regresso logstica histria ................................................................................ 46 4.2 Especificao do modelo .................................................................................... 47 4.2.1 Modelo de Probabilidade Linear ................................................................. 47 4.2.2 Derivao do Modelo de Regresso Logstica Binomial. ............................. 49 4.2.3 Estimao do modelo .................................................................................. 51 4.3 Testes de significncia do modelo ...................................................................... 54 4.3.1 Teste de razo de verosimilhana ................................................................ 54 4.3.2 Teste de significncia dos parmetros (testes de Wald) ............................... 56 4.3.3 Teste de score (teste de multiplicadores de Lagrange) ................................. 56 4.4 Medidas de associao mltipla entre variveis as independentes e a varivel dependente. .................................................................................................................. 57 4.4.1 Pseudo R2 (teste de McFadden) ................................................................... 57 4.4.2 R2 de Cox e Snell ........................................................................................ 58 4.4.3 R2 de Nagelkerke ........................................................................................ 58 4.5 Medidas de qualidade do ajustamento ................................................................ 59 4.5.1 Testes de Hosmer e Lemeshow ................................................................... 59 4.5.2 Anlise de resduos ..................................................................................... 60 8
7 8 9
4.5.3 Curva ROC ................................................................................................. 63 Redes Neuronais Artificiais ...................................................................................... 67 5.1 Inspirao Biolgica: O Crebro Humano .......................................................... 68 5.2 Os componentes de uma Rede Neuronal Artificial ............................................. 69 5.3 Redes Neuronais Artificiais: Histria ................................................................. 73 5.4 Tipos de Redes Neuronais Artificiais ................................................................. 76 5.5 Tipos de aprendizagem ...................................................................................... 78 5.5.1 Aprendizagem por reforo .......................................................................... 79 5.5.2 Aprendizagem Supervisionada .................................................................... 79 5.5.3 Aprendizagem no-supervisionada .............................................................. 80 5.6 Redes Multi Layer Perceptron (multicamadas). ................................................. 81 5.6.1 Perceptron de uma nica camada. ............................................................... 81 5.6.2 Arquitectura de redes multicamdas (MLP) .................................................. 83 5.6.3 Algoritimo Backpropagation ....................................................................... 84 5.6.4 Consideraes sobre o Algoritmo Backpropagation .................................... 91 5.7 Redes Neuronais e modelos economtricos ...................................................... 104 5.8 Principais vantagens e limitaes das Redes Neuronais .................................... 106 Resultados da estimao dos modelos..................................................................... 108 6.1 Regressso Logstica ........................................................................................ 108 6.2 Redes Neuronais .............................................................................................. 112 Concluso: ............................................................................................................. 114 Limitaes.............................................................................................................. 117 Bibliography .......................................................................................................... 118 Apendices .................................................................................................................. 124 Apendice A Modelo logit com conjunto de treino de 80% ................................... 124 Apendice B Fit statistics RMSE .............................................................................. 126
Captulo I
1 Introduo
A gesto de risco representa um dos principais problemas enfrentado pelas instituies financeiras, desde o inicio da sua actividade. Isso ocorre, porque os bancos e as instituies financeiras em geral, tm como principal funo a intermediao financeira. No desenvolvimento da sua actividade de intermediao financeira, esto sujeitas a uma srie de riscos, designadamente quando realizam operaes que envolvem activos, passivos e elementos extrapatrimonias. Em relao s operaes de crdito, o banco concede crdito a outros agentes econmicos, sob a promessa de um recebimento futuro do capital mutuado e juros de acordo com o plano de reembolso contratado. Existe, contudo na carteira de crdito da instituio, muturios que podem no vir a cumprir as obrigaes monetrias contratados implicando prejuzos que tero de ser cobertos com as necessrias provises. A este no cumprimento das responsabilidades por parte do solicitante de crdito chama-se de default1. Nos ltimos anos devido sobretudo a presses regulamentares, as instituies financeiras tm procurado criar metodologias mais eficientes para aferir a probabilidade de incumprimento esperado em cada operao de crdito. Contudo, s recentemente, com a crise do crdito sub-prime hipotecrio nos Estados Unidos e, a consequente crise do mercado de crdito mundial, os consumidores, instituies financeiras e supervisores se aperceberam efectivamente da sua importncia. No mbito internacional, tem ocorrido de forma cada vez mais acelerada, uma revoluo na forma como as instituies financeiras tm avaliado o incumprimento, atravs de desenvolvimento de modelos internos de quantificao de risco.
De acordo com o novo acordo de Basileia II, considera-se que um indivduo est em situao de default desde que apresente um atraso superior a noventa dias no pagamento das prestaes.
10
Em Cabo Verde, o processo decisrio essencialmente intuitivo, estruturando-se no feeling e na experincia dos analistas de crdito. Habitualmente so analisadas variveis, tais como a taxa de endividamento (rcio entre os custos mensais do agregado familiar e o respectivo ordenado lquido; bens mveis e imveis do agregado; Profisso; Tipo de contrato de trabalho; estabilidade no emprego averiguvel pela antiguidade na entidade patronal; nvel dos saldos mdios nas contas bancrias do cliente; Entrada inicial face ao valor de preo de venda ao pblico e idades dos proponentes. Tendo em conta estes parmetros, os analistas, recorriam-se ao seu savoir faire para ponderar os prs e os contras, colocando-os numa balana mental para avaliar o risco de crdito, isto , para calcular a probabilidade de default do cliente. Recentemente, comea-se assistir a introduo de modelos de scoring genricos para aquilatar se um determinado indivduo tem perfil de bom ou mau pagador. O aumento da concorrncia entre as instituies financeiras e a crescente presso para a maximizao das receitas impulsionam as instituies financeiras, a procurarem mecanismos mais eficientes de atrair novos clientes com baixo perfil de risco e ao mesmo tempo controlar e minimizar as perdas. O aparecimento de novas tecnologias, o aumento da procura por crdito, bem como por uma questo de qualidade de servio a necessidade de responder o mais rpido possvel s solicitaes levou ao desenvolvimento e aplicao de sofisticados modelos estatsticos na gesto de risco de crdito, designados por credit scoring. Os modelos de credit scoring so sistemas que atribuem scores s variveis de deciso de crdito de um requerente, mediante a aplicao de tcnicas estatsticas. Esses modelos visam sumariar todas as caractersticas que permitem distinguir os bons dos maus emprstimos (Lewis, 1992). A partir de uma equao estimada com base nas caractersticas dos solicitantes de crdito, gerado um score que representa o risco de perda de cada operao. O score que resulta da equao, interpretado como probabilidade de incumprimento que comparado com um cut-off prviamente estabelecido associado a um conjunto de regras e filtros, permite ajuizar quanto concesso ou no de crdito. Assim, a idia bsica dos modelos de credit scoring identificar certos factores chave que influenciam a probabilidade de incumprimento dos clientes, permitindo a
11
classificao dos mesmos em grupos distintos e como consequncia, a deciso sobre a aceitao ou no da proposta em anlise. Os mtodos usados em credit scoring incluem vrias tcnicas estatsticas e de investigao operacional, sendo as mais utilizadas a regresso logstica, a anlise discriminante e as rvores de deciso (Choro 2005). Recentemente perante o advento das novas tecnologias (aumento da capacidade de processamento) e, ao aparecimento de softwares estatsticos nos anos 80, assistimos a adopo de tcnicas de inteligncia artificial, como as redes neuronais e os expert systems (L. C. Thomas 2009).
1.1
de uma economia, em decorrncia da dinmica que introduz no processo econmico, seja como uma oportunidade para as empresas (especialmente as pequenas e mdias empresas) aumentarem os seus nveis de produo ou como estmulo ao consumo dos indivduos. Segundo (Baptista 2006), o reconhecimento de que os mercados financeiros, atravs do negcio de crdito privado, contribuem para o desenvolvimento econmico, bem marcante na literatura financeira, desde (Schumpeter 1911) at (Levine 1997). A ttulo de exemplo, o mercado de crdito ao consumo nos Estados Unidos tem demonstrado que estabilidade econmica baseada em polticas slidas de crdito sinnimo de prosperidade econmica, baixas taxas de desemprego e baixas taxas de juro. Ao longo das ltimas dcadas o crdito ao consumo nos Estados Unidos tem crescido num ritmo fenomenal tendo atingido em 2007 a marca de $13 trilies, superando em 40% o crdito concedido ao sector industrial e, em 24% ao crdito s empresas (L. C. Thomas 2009). A par de outros factores, o credit scoring, dado o automatismo que assegura foi o factor que mais permitiu a abertura do mercado de crdito a todos os consumidores, mantendo o risco num nvel controlvel. Em Cabo Verde a indstria do crdito bem menor dos pases desenvolvidos, todavia, o crdito ao consumo vem apresentando altas taxas de crescimento ao longo dos
12
ltimos anos. Segundo dados do Banco de Cabo Verde2 o crdito ao sector privado representa 45% do total do crdito concedido tendo registado em 2007 um crescimento de 30% face a 2006. Outros indicadores tais como o aumento expressivo da aceitao e utilizao dos cartes de crdito e, o volume de transaces, associados ao facto de ter uma populao maioritariamente jovem, bem como a alterao dos padres de vida e o aumento verificado na procura por crdito a habitao, oferece um enorme potencial de crescimento do mercado de crdito ao consumo no pas, quando comparado com as tendncias globais. Contudo, se no existirem metodologias eficazes de previso de incumprimento esperado e, controlo do processo de concesso de limites, as mesmas operaes de crdito podem levar a economia a um processo de abrandamento, em decorrncia de retraces das fontes financiadoras. Assim, para fazer face ao esperado desenvolvimento que Cabo Verde ainda conhecer e assegurar um crescimento sustentado do mercado de crdito ao consumo, imprescindvel sistemas de credit
2
3
Pliar I: Calculo do capital regulamentar de acordo com o rating das contrapartes ou de estimativas internas de probabilidades de default (PD), severidade da perda ( loss given default, LGD) e o valor da exposio em caso de incumprimento (Exposure at default, EAD). Pliar II: Anlise da adequao do capital resultante da aplicao das frmulas pr-definidas com a interveno da autoridade de superviso. Pilar III: Disclosure da informao de gesto baseado no risco.
13
1.2
Objectivos
O fenmeno de credit scoring ainda pouco conhecido, no caso especfico de Cabo Verde. Perdura ainda uma lacuna em termos de investigao cientfica sobre a matria, uma vez que, grande parte das instituies que operam no mercado no dispe de informao sistematizada e com antiguidade suficiente que sirva de suporte ao desenvolvimento de modelos de scoring. Com efeito, muitas questes se nos levantam: A informao de incumprimento existente em Cabo Verde suficiente para desenvolver um modelo de credit scoring robusto? Que tcnicas de desenvolvimento de modelos de credit scoring melhor se ajusta realidade de Cabo Verde? A presente dissertao tem por finalidade elaborar um modelo de credit scoring baseado num modelo economtrico e um modelo gerado a partir das redes neuronais artificiais para avaliao de risco de crdito relativo a solicitaes de crdito ao consumo.
1.3
Organizao da dissertao
Esta dissertao desenvolve-se ao longo de seis captulos. O conjunto de objectivos propostos anteriormente traduz, ainda que parcialmente, o modo como o trabalho foi estruturado. Nesta seco ao apresentar a organizao da dissertao, pretende-se orientar o leitor nas linhas seguidas ao longo do seu desenvolvimento. Assim, aps uma introduo, o segundo captulo, apresenta uma perspectiva histrica dos modelos de credit scoring, a sua filosofia de funcionamento, a sua aplicao em diferentes fases do ciclo de vida de uma operao de crdito e, a sua relao com os objectivos de negcio. Apresenta-se ainda, os mtodos utilizados na sua elaborao bem como as suas vantagens e limitaes. Por fim, faz-se uma breve reviso da actividade de crdito em
14
Cabo Verde, os condicionalismos ao seu desenvolvimento e os benefcios da introduo do credit scoring no mercado de crdito em Cabo Verde. O captulo 3 dedica-se temtica da qualidade da base de dados. Comea por descrever a base de dados considerada na elaborao da dissertao, desde a seleco da janela de amostragem e o respectivo perodo de classificao, passando pelo processo de preparao dos dados, indivduos considerados na modelao e seleco das variveis. Os captulos 4 e 5 apresentam as duas metodologias consideradas na dissertao. Por fim, so apresentadas algumas concluses gerais sobre o trabalho realizado.
15
Captulo II
2 Credit Scoring
Desde 1960 credit scoring tem revolucionado profundamente os processos de deciso de crdito. O seu sucesso deveu-se em grande parte ao advento dos computadores que alterou completamente o Back-office das Instituies financeiras (Raymond, 2007).
2.1
utilizao da tcnica denominada de Anlise discriminante linear para classificar diferentes espcies de flores do gnero ris: ris setosa, ris versicolor e ris verginica, analisando o comprimento e largura das spalas e ptalas. O trabalho de Fisher forneceu as bases de anlise estatstica multivariada que veria a ser utilizado posteriormente em vrios problemas de classificao mormente credit scoring. Em 1941, David Durand no seu estudo para National Bureau of Economic Research (EUA), demonstrou que a mesma tcnica poderia ser utilizada para discriminar bons e maus emprstimos. Segundo (Johnson, 2004) o estudo analisa 7200 observaes de bons e maus emprstimos relativos a 37 empresas baseado na informao da idade, gnero, antiguidade no emprego, antiguidade na habitao, profisso, sector de actividade, contas bancrias, seguros de vida e valor da prestao mensal. Mais tarde, porm no mesmo ano, os Estados Unidos v-se envolvida na Segunda Guerra Mundial e muitas instituies de crdito e de direct mailing comearam a enfrentar grandes dificuldades de gesto de crdito. Muitos analistas de crdito foram recrutados para servio militar, o que provocou uma escassez de recursos humanos com Know-
how adequado para a funo, numa altura em que a deciso quanto concesso de
crdito era subjectiva, dependendo, sobretudo, da experincia do analista, sem haver, portanto qualquer aplicao da tcnica estatstica. (Lewis, 1992) refere que Henry Wells, executivo da Spiebel Inc corporation, foi o primeiro a recorrer s tcnicas de estatstica multivariada para desenvolver modelos de credit scoring... Alguns anos depois, por volta
16
credit scoring, durante a segunda Guerra Mundial e, de estar provada a sua importncia,
dois factores inibiram desde logo a sua adopo: primeiramente, a resistncia organizacional em utilizar os computadores no processo de deciso, e em segundo lugar, a complexidade dos algoritmos e a dificuldade de implementao dos modelos nos postos de trabalho... Mas era s uma questo de tempo! Em 1956, com a fundao da primeira consultora na rea, pelo matemtico, Bill Fair e pelo engenheiro Earl Isaac, o credit scoring torna-se efectivamente um factor significativo na indstria do crdito. Inicialmente criaram um sistema de biling para a gesto de cartes de crdito do grupo Hilton Hotels. Dois anos mais tarde introduziram o conceito de credit scoring, e em 1958, produziram o primeiro modelo de scoring aplicacional. Uma vez que permitiam a avaliao em massa, so as empresas ligadas ao
17
1975/1976. Este facto tornou a discriminao ilegal no processo de atribuio de crdito, a no ser que empiricamente provado e validado estatisticamente. Na altura, a nica restrio, era a capacidade de processamento necessrio. Os computadores de ento, IBM 7090 mainframe, eram grandes, pouco eficientes comparado com os padres actuais. Pois que, s conseguiam processar simultaneamente 26 variveis num conjunto de 600 observaes (Meys e Forgey 1963). O sucesso do credit scoring na concesso de cartes de crdito nos anos 80, fez com que as instituies bancrias o aplicassem a outros tipos de bens, como o crdito pessoal, automvel e hipotecrio e, desta forma verem aumentados os seus lucros.
18
scoring, denominados por profit scoring, onde se pretende avaliar no s o perfil de risco
do solicitante de crdito, mas igualmente, a probabilidade do candidato ao crdito dar lucro instituio, no sendo a avaliao apenas baseada no risco. O resumo dos diferentes modelos de scoring usados nas diversas fases do ciclo de vida de uma operao de crdito apresentado na figura 2.1.
Neste caso as instituies financeiras recorrem frequentemente aos modelos de response scoring para restringir o mailing aos clientes com maior propenso (probabilidade) de vir a responder a uma determinada campanha e portanto resultar numa relao lucrativa para a empresa.
19
Preapplication
Response score
Application
Performance
Performance score
Collection
Collection socre
Application score
Fraud score
Behavioral score
Retention score
Figura. 2.1 Modelos de scoring usados em diferentes fases do ciclo de vida de uma operao de crdito. Fonte: Adaptado de (Gestel e Baesens 2009)
20
Outra rea recente de aplicao do credit score o pricing: risk-based pricing (tambm denominado de risk-adjusted pricing) consiste em determinar o preo do produto tendo em conta o perfil de risco do cliente, dado pelo score que lhe est associado. Muitas instituies financeiras utilizam-no igualmente para segmentar a carteira de crdito em classes homogneas de risco e vender a investidores terceiros, como forma de reduo do risco. Este processo designa-se por titularizao. Algumas instituies no financeiras tm utilizado o credit score, e mais especificamente os bureau score, para melhorar os seus processos de deciso. So exemplos, as empresas de telecomunicaes e as de electricidade. Na presente dissertao pretende-se abordar os modelos de credit scoring sob o ponto vista aplicacional. Assim o uso da terminologia credit scoring deve ser entendido neste mbito.
21
Modelo
Regresso Linear Anlise discriminante
Principais Tcnicas
Minimos quadrados ordinrios Distncia de Mahalanobis
Resumo
Adequada em situaes em que a varivel resposta contnua Classifica os objectos em grupos pr-definidas,minimizando varincia a
de
mxima
Adequada em situaes em que a varivel resposta binria Utiliza a estrutura da rvore para maximizar grupos a varincia entre-
Redes Neuronais
Perceptro multicamada
Programao Linear
Mtodo simplex
Tabela 1- Resumo das tcnicas estatsticas usadas em credit scoring. Fonte: Adaptado a (Raymond 2007) (p 163)
scoring. Cada uma com as suas virtudes e defeitos, dependendo em primeiro lugar da
informao disponvel (base dados utilizada) e, em segundo lugar dos aspectos relacionados com a modelao. A regresso logstica, a programao linear e a anlise discriminante so os mtodos mais utilizados. Ainda que a maioria dos mtodos apresente nveis de desempenho semelhantes5, tem sido feito um esforo por parte dos investigadores no sentido de encontrar o mtodo que melhor serve os propsitos de credit scoring. No entanto, qualquer que seja a tcnica utilizada correcto afirmar que a indstria financeira pretende em primeiro lugar modelos que tenham interpretabilidade e transparncia e, em segundo lugar modelos que sejam facilmente implementveis (Choro 2005). A facilidade de
5
22
credit scoring desenvolvidos nos anos 1950 e 1960. Da que a programao linear e a
anlise discriminante foram os primeiros mtodos utilizados ainda que estatsticamente imperfeitos. Com avano no domnio da informtica (aumento da capacidade de processamento dos computadores) foi possvel testar novas abordagens como os estimadores de mxima verossimilhana. Primeiramente com os modelos logit (logstica) e mais tarde probit (Gaussiana). Ambos so menos exigentes em termos de pressupostos estatsticos, mas muito exigentes computacionalmente e, inexequvel numa altura em que os computadores eram tinham pouca capacidade de processamento. Hoje a diferena do tempo de processamento incomparavelmente superior e a regresso logstica usada em mais de 80% dos modelos desenvolvidos. Devido sua flexibilidade e facilidade de utilizao os modelos de probabilidade linear6 continuam a ser muito utilizados (Raymond 2007). Os modelos de probabilidade linear so muito utilizados em instituies onde o credit scoring tem uma longa histria, ou onde a metodologia existente est bem enraizada. Pelo contrrio, a regresso logstica domina nas instituies onde o credit scoring foi introduzido mais tarde, quer devido s propriedades estatsticas conhecidas quer pela maior transparncia e interpretabilidade que introduz no processo de deciso. Por outro lado, hoje, muitos reguladores exigem que as instituies identifiquem fortes razes para a rejeio da proposta em anlise. Os modelos de scoring baseado na regresso logstica permitem facilmente identificar estatisticamente as variveis que mais contribuem para a rejeio do cliente. Tcnicas no paramtricas tm sido igualmente utilizadas em credit scoring, com algum sucesso. Destacam-se as rvores de deciso, e mtodos de inteligncia artificial, como as redes neuronais, algoritmos genticos, e mtodo do vizinho mais prximo.
A experiam por exemplo utiliza modelos de probabilidade linear nos seus modelos de credit
scoring
23
24
Custo de desenvolvimento: desenvolver um sistema de credit scoring acarreta custos, no somente com a instalao da infra-estrutura necessria, mas tambm com o suporte para a sua construo. Por exemplo: profissionais capacitados e equipamentos (hardware / software). Escassez e qualidade dos dados: Normalmente estes modelos so desenvolvidos com base nas observaes presentes nas bases de dados das instituies, e que a qualidade nem sempre salvaguardada; Altera a cultura da organizao: a implementao desses modelos implica grandes mudanas nos processos operacionais; Esses modelos baseiam-se no princpio que o passado prev o futuro, o que pode no se verificar. um sistema complexo, e eventuais erros no desenvolvimento do modelo de
25
A dinmica do crdito manteve-se robusta em 2008, o que pressupe que as condies monetrias prevaleceram favorveis evoluo da actividade econmica. O Crdito Interno total apresentou uma evoluo positiva em todos os meses do ano, tendo sido o ritmo de crescimento anual de 18,8%, traduzindo, sobretudo o bom desempenho do crdito economia. O crdito bancrio concedido ao sector privado ascendeu, em termos homlogos a 66.390,2 milhes de escudos Cabo-verdianos, o que representa um crescimento anual de 29,5%. A ventilao do crdito por sectores de actividade revela taxas de crescimento positivas, na sua globalidade destacando-se o crdito a particulares, que representa cerca de 53,7% do total concedido, com um crescimento de 19,2% repartidos pelo crdito habitao (64,1%) e crdito destinados a outros fins (35,9%). O crdito lquido ao sector pblico administrativo, registou uma reduo moderada de 8,1% quando comparada diminuio de 25,5% ocorrida em 2007, reflectindo os efeitos da diminuio verificada nos depsitos do Governo Central junto ao Banco Central.
Tabela: 2.2. Evoluo do crdito 2008. Fonte: Boletim Econmico Fevereiro de 2009, Banco de Cabo Verde.
Em termos da qualidade dos activos, o peso da carteira de crdito vencido dos bancos, no total do crdito, apresentou um acrscimo de 3,9% em 2006, passando para 13,5% em
26
2007, o que se fez acompanhar da mesma tendncia pelo rcio crdito vencido lquido de provises sobre o capital, derivado, essencialmente, da aplicao do novo regime de classificao de crdito e constituio de provises. Contudo, torna-se premente efectuar melhorias permanentes nos sistemas de gesto e maior controlo do risco de crdito, mediante um acompanhamento contnuo da evoluo do crdito mal parado e anlise das suas interligaes com algumas variveis macroeconmicas relevantes.
27
2.6 Condicionantes da actividade de crdito e benefcios da introduo do credit scoring em Cabo verde
Aps uma srie de reformas, o sector financeiro Cabo-Verdiano, est cada vez mais moderno, competitivo e concorrencial, conforme indica o nmero crescente de agncias bancrias, a melhoria da qualidade do atendimento, e a disponibilidade de novos meios de pagamento (ATMs, POS, cartes de crdito). O ndice de penetrao dos servios financeiros, seja em termos geogrficos, seja em termos demogrficos, indicador da evoluo positiva registada pelo sistema nos ltimos anos. Porm, o desenvolvimento do sistema tem sido condicionado pelo elevado custo de intermediao financeira e altas taxas de juro, caracterstica peculiar de sistemas financeiros de pases em vias de desenvolvimento. O alto custo do dinheiro apresenta-se, assim, como um obstculo importante para a expanso do crdito, importante factor de concentrao do rendimento e da riqueza, influenciando negativamente o nvel de investimento na economia. Neste contexto, a introduo do credit scoring, pelas caractersticas que lhe esto associadas, introduz inmeros benefcios no mercado de crdito Cabo-verdiano, dos quais que destacam: O credit scoring uma parte vital do bom funcionamento de um sistema financeiro moderno permitindo a reduo do foco na anlise manual (tradicional) das propostas, baseados essencialmente na interpretao dos Cs do crdito (carcter, capacidade, colateral, Capital, e Condies), o que traduz uma melhorar capacidade de anlise dos pedidos de crdito e aferio do perfil de risco dos clientes (Turner 2006). Melhora o trade-off entre o volume de aquisies e o controlo do crdito mal parado. Como refere (Baptista 2006), o prmio de risco, representado pelo nvel de provises para perdas de crdito, constitui um factor de peso na formao do custo final de intermediao em Cabo Verde. Assim, uma melhor anlise dos pedidos de crdito e acompanhamento dos clientes implica uma melhor alocao de provises para perdas esperadas de crdito. Isso poder implicar menor
28
necessidade de constituio de provises, portanto, de recursos no produtivos que, em ltima medida, iriam contribuir para a reduo dos custos globais da instituio e tornar mais barato o crdito aos clientes. (Mateus 2000) acrescenta, que a criao de condies para reduo e melhor avaliao do risco e, para recuperao do crdito mal-parado factor que contribui para reduo do custo de financiamento. Ainda segundo o mesmo autor, o prmio de risco um factor que acrescenta 1,85 p.p. ao spread. Melhora a eficincia operacional, quando o processo est automatizado, os scores so facilmente calculados e removem as tarefas demoradas da anlise. Este facto pode levar a uma expanso dos nveis de crdito concedido, decorrentes do maior grau de certeza das instituies bancrias quanto s perdas nos financiamentos e maior rapidez na anlise das propostas de crdito. medida que a concorrncia aumenta, os modelos de credit scoring permitem adoptar estratgias de Risk Based Princing (RBP), ou seja, determinar o pricing da operao de acordo com o perfil de risco do cliente. Este facto permite oferecer taxas de juro mais concorrenciais para clientes com baixo perfil de risco e, potencialmente maior disponibilidade de crdito para clientes de alto risco, que de outra forma viriam os seus pedidos de crdito simplesmente recusados. Por outro lado, face s exigncias da globalizao e a crescente necessidade de modernizao do sistema financeiro, as instituies financeiras em Cabo Verde tm pela frente um conjunto de desafios, que tornam desejvel a introduo dos modelos de credit
scoring:
A necessidade de investir em tecnologia; Reduzir as taxas de juro, Crescente aumento da concorrncia e consequente presso para a diversificao (novos produtos). Estes desafios, bem como a crescente procura por crdito, impulsionar as instituies bancrias a procurarem economias de escala e, a agirem de acordo com um processo de
29
avaliao de risco mais fino, conduzindo a uma maior consolidao da indstria de crdito em Cabo Verde.
A nvel mundial, e associado ao fenmeno da globalizao do mercado financeiro, tem-se verificado uma intensa movimentao de pases no sentido de fazerem convergir os seus sistemas de normas e regras internas aos padres internacionais, principalmente tratando-se de pases de economias e mercados mais abertos e competitivos. Para pases como Cabo Verde, de mercados pequenos e com elevado grau de dependncia externa, a necessidade de estar em linha com os padres internacionais torna-se um imperativo vital ao processo de convergncia. Nesta perspectiva, e face a um sistema financeiro cada vez mais exigente, mais exposto e em fase acelerada de desenvolvimento, iniciou-se nos ltimos anos em Cabo Verde um conjunto de reformas legais e de normativas prudenciais, mais consentneas com o desenvolvimento do sector financeiro, visando proceder a uma necessria aproximao aos actuais padres de referncia internacional, designadamente, as Normas de Reporte Contabilistico e Financeiro Internacional (IAS/IFRS) e BASILEIA II. De 1998 a meados de 2007, a gesto de riscos de crdito no sector bancrio em Cabo Verde esteve ancorada ao Aviso n. 09/987. Este normativo, de natureza de gesto meramente administrativa do risco, revelou-se, aps anos de vigncia, incapaz de atender
7
provises que as instituies sujeitas a superviso do Banco de Cabo Verde devem observar. (BO n. 48)
30
realidade actual, que se caracteriza por: (i) aumento e complexidade de situaes de risco de crdito, antes no previstos; (ii) possibilidade, capacidade e necessidade dos bancos se socorrerem de mtodos e instrumentos eficazes de gesto de risco de crdito; factos que reclamam o estabelecimento de mecanismos de diferenciao entre os bancos em matria de gesto de riscos nas suas actividades. Com efeito, no actual estgio de evoluo do sistema financeiro nacional, e no alheio concorrncia de um mercado global, o instrumento consubstanciado no Aviso n. 09/98 demonstrava-se incapaz de corresponder s exigncias e aos desafios do mercado, devido insensibilidade e inflexibilidade que o caracterizava em relao ao risco, tendo acomodado na sua estrutura conceptual procedimentos que obrigavam a tratamentos igualitrios para situaes absolutamente dspares. Em resposta a essas situaes, foi concebido, com a assistncia tcnica especializada do FMI, o novo normativo, o Aviso n. 04/20068. Este Aviso mais sensvel ao tratamento de situaes de risco, ao introduzir alguns mecanismos que permitem tratar situaes diferentes, pretendendo servir de ponte entre um sistema de gesto administrativa do risco de crdito e um sistema e cultura de gesto econmica do risco.
31
Captulo III
A base de dados utilizada neste estudo foi fornecida por uma instituio bancria CaboVerdiana e, como requerido neste estudo e em casos semelhantes, foi quebrada qualquer possibilidade de identificao dos clientes nela constantes. A base de estudo composta por 15.000 registos referentes a crditos ao consumo concedidos a clientes particulares no perodo de Janeiro de 2004 a Abril de 2009. Foram consideradas na anlise todas as variveis constantes no formulrio de proposta de crdito em uso na instituio (tabela 3.1).
32
Varivel Estado civil Gnero Profisso Actividade professional Entidade patronal Cargo na empresa Idade Habilitaes literrias Nacionalidade Naturalidade Antuiguidade como cliente Rendimento mensal Prazo do emprstimo Taxa de juro Valor da prestao mensal Valor solicitado Valor financiado
Tabela 3.1 Definio das variveis
Tipo de Varivel Catgrica Catgrica Catgrica Catgrica Catgrica Catgrica Contnua Catgrica Catgrica Catgrica Contnua Contnua Contnua Contnua Contnua Contnua Contnua
A natureza dos dados extrados pode-se estruturar em trs tipos distintos: Caracterizao do cliente; Caracterizao da operao de crdito; Comportamento do cliente. A primeira tem que ver com a informao que caracteriza o cliente na sua esfera scio demogrfica, sendo exemplo disso a idade, profisso, estado civil, etc. A segunda tem a ver com a caracterizao da operao de crdito, isto , o bem, o valor a financiar, o prazo da operao, etc. E finalmente a terceira, prende-se com as informaes respeitantes ao comportamento dos clientes, apurando mensalmente o nmero de prestaes/dias em atraso, durante o perodo de vigncia do contrato. Tanto a primeira como a segunda so recolhidas no momento de solicitao do crdito e, constituiro as variveis independentes dos modelos que iremos utilizar. Por sua vez a terceira servir, como mais a frente se explicar, para definir a varivel dependente, ou seja, Bom ou Mau pagador.
33
34
4. Utilizar tcnicas estatsticas para preencher os campos em falta. Uma opo para a resoluo do problema traduz-se no preenchimento automtico dos campos com uma boa estimativa do seu valor. Existem diversas formas de produzir esta estimativa sendo que a mais simples consiste em adoptar medidas de tendncia central como a mdia, a mediana ou a moda. Outra abordagem interessante consiste na especificao do mesmo como um problema economtrico. A ideia desenvolver um modelo preditivo que, com base nos registos completos e nas variveis disponveis nos fornea uma boa estimativa para os valores em falta. O risco que corremos ao optar pelas duas primeiras solues relativamente bvio e traduz-se em primeiro lugar, na no utilizao de variveis importantes para a formulao do modelo explicativo. Poderemos estar a prescindir de variveis que na realidade so importantes para modelar o fenmeno e sendo este o caso, o modelo provavelmente nunca produzir resultados to precisos quanto estariam ao seu alcance, caso as referidas variveis de input fossem utilizadas. Segundo, o facto de determinados registos no apresentarem valores, pode em si mesmo, evidenciar um caso importante (ex. Mau
35
Pelas razes apresentadas acima e por se considerar que a incluso dos missing values na amostra acrescenta benefcios ao negcio, optou-se neste estudo pela opo 3.
default. Mas que horizonte temporal seleccionar? No h, na verdade, uma resposta que
seja clara e objectiva quanto ao tempo a considerar na anlise. A escolha da melhor amostra deve responder a dois aspectos importantes: em primeiro lugar, a informao seleccionada deve ser o mais recente possvel, de modo a reflectir o perfil de futuros solicitantes de crdito. Em segundo lugar, deve cobrir um perodo de produo significativo, de modo a garantir um nmero suficiente de bons e maus contratos para a modelao. H portanto dois objectivos conflituais: Se o perodo de anlise demasiado pequeno, ento os indivduos em situao de default sero classificados como regul ares (erro tipo I); se o perodo, pelo contrrio, for demasiado longo, apesar de se terem mais observaes de indivduos em default, os dados estaro desactualizados e no serviro os intentos de utilizao preditiva do modelo (Wynn 2003). A literatura escassa e no perfeitamente concludente no que toca determinao da janela de amostragem que elege os registos que participaro na construo do modelo. Podemos contudo referir que a janela de amostragem dever ter uma taxa de maturao estvel, isto , a taxa de default da carteira do produto de crdito dever apresentar caractersticas de estabilidade ao longo do tempo. Conhecendo assim a maturidade da populao, estamos em condies de seleccionar a amostra de desenvolvimento constituda pelos indivduos cuja maturidade igual ou superior a maturidade global e que, portanto, seguramente os poderemos classificar num de dois grupos, regular ou
36
default, reduzindo deste modo a possibilidade de ocorrncia do erro tipo I como explicado
anteriormente. O momento de maturao da taxa de default (momento a partir da qual a taxa de default no evolui mais), e a amplitude dos perodos, janela de amostragem versus perodo de classificao, variam de produto para produto e da definio de default utilizada, no havendo uma regra inequvoca e explicita para a sua determinao. Segundo (Siddiqi 2006) os modelos aplicacionais apresentam caractersticas de estabilidade entre os 18 a 24 meses, enquanto se se tratar de um crdito hipotecrio, a regra de 3 a 5 anos. Contrariamente, nos modelos comportamentais, normalmente so utilizados perodos de anlise mais curtos, entre 6 a 12 meses, e 1 ms ou menos para modelos de recuperao. Quando o objectivo do desenvolvimento do modelo tem a ver com questes de carcter meramente regulatrio, nomeadamente no mbito do novo acordo de Basileia II, o perodo de classificao estabelecido pelo regulador (12 meses). No presente estudo assumiu-se um compromisso de 12 meses na janela de amostragem e 24 meses no perodo de classificao, dado garantirem observaes em nmero suficiente para a estimao do modelo e conferirem uma estabilizao da taxa de default como era mister encontrar, conforme anteriormente citado.
37
Deve estar em linha com o produto e com os intentos de utilizao preditiva do modelo; Deve garantir por um lado, um nmero suficiente de observaes para suportar a fase de modelao e, por outro, uma definio que seja capaz de diferenciar bons de maus clientes. Deve ser fcil de interpretar; Em algumas situaes, poder ser vantajoso ter a mesma definio de default (mau) em diferentes segmentos ou mesmo modelos em produo na instituio. Este facto torna mais fcil o processo de gesto de risco e consequente tomada de deciso, especialmente em ambientes onde existem vrios modelos de credit
scoring.
Porm, com a entrada em vigor do novo acordo de Basileia II, semelhana da definio da janela de amostragem e perodo de classificao, a definio do default tambm definido pelo regulador. Neste caso, considera-se que um cliente est em situao irregular (default), se ultrapassar mais de noventa dias nos primeiros doze meses de vigncia do contrato. Neste estudo adoptou-se a definio de Basileia II para classificar os clientes quanto ao incumprimento. Uma vez definido os maus clientes, a mesma anlise efectuada anteriormente pode ser utilizada para definir o conjunto dos bons/regulares" clientes. Novamente, esta deve estar em linha com as questes discutidas anteriormente. A definio de regular (bom) menos analtica e muitas vezes bvia. No presente estudo considera-se que o cliente est em situao regular se liquidou todas as prestaes dentro do prazo estabelecido. Um aspecto importante a anotar que, enquanto um cliente regular precisa manter a sua condio de regular ao longo da janela de classificao, um mau cliente s precisa atingir a definio adoptada uma nica vez em qualquer altura dentro da janela de classificao. Existe ainda um conjunto de indivduos, que no tendo comportamento suficiente, no os poderemos classificar num de dois grupos, regular ou default. No se encontram
38
suficientemente maduras para ter a capacidade de se ter tornado delinquentes ou mesmo para ter falhado alguma prestao. Este conjunto de indivduos nesta situao denominam-se indeterminados e, comum em credit scoring, no os considerar na modelao.
39
rejeitados. (Ash e Mester 2002) apresentaram o parceling, os mesmos autores sugerem ainda utilizar informao de mercado, para inferir o comportamento de solicitantes rejeitados. (Feelders 2000) considera a inferncia dos rejeitados como um problema de dados omissos. E (Shin e Sohn 2006) utilizam a tcnica de anlise de sobrevivncia, apresentando um mtodo de inferncia dos rejeitados baseados no intervalo de confiana para a mediana do tempo de sobrevivncia dos clientes em default. Ao desenvolver um modelo de credit scoring, pretende-se em primeiro lugar que este seja representativo do comportamento de todos os solicitantes de crdito. Contudo, tipicamente os modelos so desenvolvidos apenas com base em informao comportamental dos clientes aprovados, pois o comportamento dos clientes rejeitados desconhecido. A inferncia de rejeitados pode ser, ento, entendido, segundo (Shin e Sohn 2006) como um processo de estimao do risco dos indivduos rejeitados no processo de deciso de crdito. Existem vrias tcnicas que utilizam os indivduos rejeitados no desenvolvimento de modelos de credit scoring. Entre elas, esto as mais citadas na literatura, como: a classificao dos rejeitados como clientes maus, parcelamento (parceling) e dados aumentados (augumentation) e ainda a utilizao de informao de mercado como um mtodo de inferncia dos rejeitados.
3.4.1 Parceling
Apresentado por (Ash e Mester 2002) caracterizado como um processo de reclassificao por risco. Basicamente, o mtodo consiste em segmentar a populao dos rejeitados em clientes Bons e Maus, segundo o risco observado no conjunto de clientes aprovados. Para cada intervalo de score feito uma partio aleatria dos rejeitados, com base na frequncia observada de Bons e Maus, presentes na populao dos aprovados. Um novo modelo ser ento desenvolvido a partir da nova base de dados redistribuda, ou seja, com todos os solicitantes rejeitados reclassificados como Bons e Maus clientes e adicionados base inicial de clientes aprovados. Apenas pode ser utilizado em instituies onde existe modelos de credit scoring em produo, uma vez que para
40
efectuar a reclassificao dos solicitantes rejeitados preciso conhecer a taxa de maus por buckets de score. Uma alternativa para a utilizao deste mtodo na ausncia de um modelo de credit scoring consiste em efectuar a reclassificao de rejeitados de modo aleatrio a partir da taxa total de maus observada na amostra de desenvolvimento (proponentes aprovados).
model) inicialmente
41
noutra, obter informao sobre o seu comportamento no pagamento. Este mtodo assume que o proponente comporta de maneira semelhante independentemente da instituio. Quando utilizamos informaes de mercado, temos um ganho natural de informao, para os novos modelos desenvolvidos, pois temos informaes adicionais, para alm das informaes internas disponveis na instituio credora. Porm a obteno de informaes de mercado junto das centrais de crdito, exige um custo, que deve ser considerado e avaliado no momento do desenvolvimento de novos modelos.
42
43
Primeiramente, efectuamos uma anlise bivariada sobre os dados da janela de amostragem a fim de aferir a capacidade discriminatria de cada varivel, na construo do modelo. Seguidamente, outro tipo de anlise para explorao dos dados diz respeito ao clculo dos odds e dos odds-ratio. O odds pode ser interpretado como a comparao de dois nmeros: o primeiro traduz a probabilidade de ocorrerncia de um evento; o segundo, a probabilidade do mesmo evento no ocorrer. Ou matemticamente;
Odds
P(evento) 1 P(evento)
Por fim, atendento comparao que se pretende efectuar na identificao de quais os atributos que devero constar num determinado modelo de scoring, calcula-se o rcio entre os odds, isto , o odds-ratio (OR).
OR
odds(Y odds (Y
1X 1X
1) 0)
Por outras palavras, o odds-ratio, uma medida de associao que indica o quanto mais ou menos provavl a probabilidade de obter uma resposta positiva, consoante o valor da varivel independente. Por exemplo para variveis explicativas dicotmicas, se considerarmos que Y indica se o indivduo est em situao regular ou em default, e X presena ou ausncia de uma determinado factor de risco (caracterstica do indivduo), ento o odds-ratio indica-nos o quanto mais provavl a ocorrncia do evento, neste caso, default, consoante o factor de risco est ou no presente. Um Odd-ratio igual a 1 indica ausncia de relao entre a varivel explicativa e a dependente; um OR menor que 1, indica que a varivel explicativa est negativamente associado target, ou seja, quanto menor o odds-ratio, maior a probabilidade de o cliente apresentar menores risco de incumprimento, indicando que o factor de risco apresenta algum poder para disciriminar clientes bons. Um OR> 1 significa que quanto maior OR, maior a probabilidade de o cliente apresentar maiores riscos de incumprimento, evidenciando que o factor de risco considerado apresenta poder para discriminar maus clientes.
44
Outro estudo preliminar consiste em agrupar e discretizar os atributos a fim de poderem explicitamente, estar espelhados no modelo. (Sarmento 2005, 46) Apresenta vrias razes pelas quais a dicretizao se torna muitas vezes indispensvel: Em primeiro lugar, se um atributo numrico, possuir valores omissos, uma das formas ser discretizar o atributo, para que se possa tratar o missing como um novo atributo. Em segundo lugar, nos problemas em que as regresses lineares so utilizadas, a discretizao um meio importante para fornecer robustez ao modelo resultante, tornando-o mais generalizvel. A discretizao tambm um meio para combater os valores extremos e os outliers que tanto perturba a estimao dos parmetros. No entanto a discretizao, no gratuita, faz-se custa de perda de informao do atributo, mas em nome da abstraco. O problema est em como discretizar optimizando o binmio perda de informao versus abstraco. A este propsito (Thomas e N. Crook 2002) considera necessrio a agregao de atributos pois que h, normalmente um grande nmero de atruibutos associados s variveis que em face da amostra considerada poder no constituir um conjunto suficientemente grande para tornar a anlise robusta. Os mesmos autores entendem ainda que o agrupamento de factores tem tanto de arte como de cincia e comum a observncia de algumas estatsticas que indiciem a forma como se dever proceder. As mais conhecidas so as estatstica de
2
of evidence.
45
Captulo IV
(4.1) Ainda no sc. XIX, a mesma funo foi utilizada para descrever as reaces qumicas autocatalticas, mas esteve esquecido nas neblinas do tempo a maior parte do sculo e, s foi redescoberto em 1920 por Raymond Pearl, discpulo de Karl Peason, e Lowell Reed que o aplicaram igualmente ao estudo do crescimento da populao dos Estados Unidos da Amrica. O primeiro estudo acadmico abordando a sua aplicao no domnio de
credit scoring foi publicado em 1980, e desde ento tornou-se a tcnica estatstica de
eleio nos desenvolvimentos de modelos de scoring.
46
comportamento de uma varivel dita dependente (tambm designada por resposta, resultado ou endgena) uma funo de um conjunto de variveis independentes (tambm designadas de exploratrias, pr-determinadas ou exgenas). Frequentemente, a varivel que se pretende explicar (varivel dependente) de natureza qualitativa, assumindo, um nmero reduzido de valores, com uma probabilidade diferente associada a cada um destes valores. Por exemplo, nos modelos de credit scoring em que a varivel dependente (probabilidade de um cliente vir a entrar em situao de incumprimento), de natureza binomial ou dicotmica, ou seja, pode apenas assumir dois valores (regular,
default).
(4.2) Existem vrios modelos para explicar . Antes de derivar o modelo de regresso logstica
yi
x2i
...
xki
(4.3)
E ( yi )
x2i
...
xki
(4.4)
Mas como yi apenas pode assumir dois valores, o seu valor esperado tambm dado por:
E ( yi ) 0.(1 Pi ) 1.Pi Pi
47
(4.5)
Em que
Pi
a probabilidade de
yi assumir valor 1
Donde se deduz:
Pi
x2i
...
xki
(4.6)
Pi
Pi , ou seja, a
yi
aumenta linearmente com a variao de uma qualquer das variveis explicativas. Por outro lado, como a probabilidade dever situar-se entre zero e um, o modelo de probabilidade linear dever verificar a restrio:
0 Pi 1
explicativas. De salientar, igualmente, que para alm de do modelo de regresso clssica.
(4.7)
yi
Verifica-se, com efeito, que os erros assumem apenas dois valores (com probabilidade igual a a qual no constante.
, assumindo portanto uma distribuio binomial com mdia igual a zero e varincia
Assim, o MPL apresenta vrios problemas, o que levou opo por outras especificaes. Entre estas especificaes, uma das mais conhecidas9 o modelo da regresso logstica.
A outra especificao mais conhecida designada por modelo Probit ou Normit que utiliza a
48
, a
Pi E ( yi / x i )
e e
1 1
... ...
k xki k xki
(4.8)
E ( yi / x i )
e e
zi zi
(4.9)
Com
zi
2 2i
xki
Pi
Pi 1 1/2 Zi
Figura 4.1 Funo logstica
49
Por outro lado, o modelo (4.9) pode ser facilmente linearizado. Com efeito, verifica-se:
1 Pi
1 1 e zi
(4.10)
E, portanto
Pi 1 Pi
e zi
Pi 1 Pi
O quociente
chances, ou probabilidades. Assim, no caso em estudo, este rcio representa a probabilidade de um cliente ser classificado como default sobre a probabilidade do mesmo ser classificado como regular. Se aplicarmos o logaritmo neperiano transformao (4.10) e adicionarmos a componente residual, obtemos um modelo de regresso logstica linearizado:
Li
Com:
x2i
xki
(4.11)
Li zi
ln
1
Pi 1 Pi
2 2i
k ki
A transformao evidenciada em (4.11) resolve as principais dificuldades do modelo de probabilidade linear. Como refere (Hosmer e Lemeshow 2000), a importncia dessa transformao que
Li
50
linear. O modelo logit linear nos seus parmetros tem domnio em valores de
, dependendo dos
x , e, em que P
i
Li
ln
P i 1 Pi
2 2i
xki
(4.12)
Este modelo continua a apresentar erros heterocedsticos (com varincia no constante), no se aconselhando a estimao do modelo pelo mtodo dos Mnimos Quadrados Ordinrios. Mas a principal dificuldade reside na possibilidade de
10significado.
Li
Com efeito,
Pi
verifica) ou 0 (no caso oposto) pelo que Pi assume os valores de Ln( ) e de Ln(0), os quais no tm qualquer significado, tornando impossvel a estimao do modelo (4.11). Por esta razo, o modelo de regresso logstica no , em geral, estimado pelo mtodo dos mnimos quadrados, mas sim pelo de mxima verossimilhana. Seja ento, a funo de mxima verosimilhana L:
n
L
i 1
f ( yi )
(4.13)
1 yi
a funo
densidade de probabilidade de
10
yi .
transformao do modelo num modelo de regresso clssica o que passa por multiplicar o modelo pelo inverso do desvio padro dos erros.
51
yi , obtm-se:
L
i 1
P yi (1 P )1 i i
yi
(4.14)
Substituindo
L( )
i 1
1 1 e
Xi
yi
Xi Xi
1 yi
1 e
L( )
i 1
( X i ) i (1
( X i ))
(4.15)
Onde
(1 k ) de observaes das k variveis explicativas do indivduo i , o vector dos k parmetros a estimar e ( X i ) a funo distribuio da logstica.
Xi
o vector
A maximizao desta funo um problema equivalente maximizao do seu logaritmo, j que a funo logaritmo uma funo montona crescente. Para facilitar a obteno do maximizante, tem-se o logaritmo da funo de verosimilhana, ou funo logverosimilhana.
n n
l( )
i 1
y i ln( ( X i )
i 1
(1 y i ) ln(1
( X i ))
(4.16)
O estimador de mxima verosimilhana dos definio aos valores desses parmetros que
torna-se necessrio calcular a primeira e a segunda derivadas de tem de ser igual a zero e a matriz Hessiana definida negativa.
52
Demonstra-se que o Gradiente e a matriz Hessiana so respectivamente dados pelas seguintes expresses11:
n n
G( )
i 1
yi X
i 1
(Xi )Xi
(4.17)
H( )
( X i )(1
(Xi )Xi Xi
(4.18)
A expresso (4.16) e (4.17) no permitem calcular por via analtica a soluo de que garante o mximo de l ( ) , ou seja, a soluo, onde a matriz Hessiana
para
G( ) =0 (condio necessria) e
possvel encontrar directamente uma soluo para este problema que assegure a condio necessria para o mximo de l ( ) . Assim, este problema de maximizao resolvido atravs do recurso a um algoritmo de optimizao. Demonstra-se que a resoluo deste problema reduz-se a iterar atravs da expresso: . Onde
h o valor
h 1
H(
) 1 G(
(4.19)
h,
na iterao de
h.
h 1
o processo
convergiu e, por outro lado, o gradiente de G( ) nulo, o que garante a verificao da condio necessria para a existncia do mximo. Um dos algoritmos de optimizao mais utilizados o de Newton-Raphson. (Amemiya 1985) demonstra que o log da funo de verosimilhana globalmente cncavo. Assim o algoritmo de Newton-Raphson converge para um nico mximo (os estimadores de mxima verosimilhana) independentemente dos valores de inicializao adoptados. A matriz de varincias-covarincias assimptticas do vector de parmetro estimada atravs do inverso da matriz Hessiana - H ( estimadores de mxima verosimilhana (MV),
MV
pode ser
MV
) , avaliada para os
1
53
4.3
Depois de se obter os coeficientes do modelo, coloca-se a questo de avaliar a qualidade da estimao, o que passa por saber at que ponto as variveis explicativas pertencentes ao modelo so significativas para explicar o comportamento da varivel resposta. Trs dos testes mais utilizados para aferir a bondade global do modelo e a significncia individual dos parmetros ou de um conjunto de parmetros do modelo so o teste de razo de verosimilhana, o teste de Wald e o teste de scores.
l ( R ) ln l ( U )
O que por definio igual diferena:
54
l ( R ) l ( U )
(4.20)
Onde l ( R ) igual ao valor mximo do logaritmo de log-verosimilhana com os da funo de mxima verosimilhana (sem restries). Salienta-se que, quando todos os parmetros (excepto a constante verifica,
k 1
) so nulos, se
pi
( yi )
n
1 1 e
y i ln( p)
p,
n
Pelo que
l(
)
I 1
(1 y i ) ln(1
i 1
p)
E, portanto,
l ( R )
Na hiptese de
(4.21)
H0
k 1 variveis k 1 graus de
RV
2 tem a distribuio do
com
,...
H0 H1
=0 0
(4.22)
Rejeitando-se a hiptese nula quando p-value <0.05, concluindo-se que a informao acerca das variveis independentes permite-nos realizar previses estatisticamente vlidas.
12
55
H0 j H1 j
* j * j ( j 2,...k)
(4.23)
wj
Onde
j * j var( j )
j
(4.24) .A estatstica
, para as
scores, tambm conhecido como teste de multiplicadores de Lagrange. Este teste pode
tornar-se vantajoso comparativamente aos testes anteriormente referidos pelo facto deste no requerer o clculo da estimativa de mxima verosimilhana para os parmetros do modelo. Este teste apenas estima o modelo com restries e avalia o declive da funo logverosimilhana na restrio. Se a hiptese for verdadeira, o declive ( score) na restrio dever ser prximo de zero.
56
Quando a hiptese nula verdadeira, o teste de Wald, rcio de verosimilhana, e scores so assimptoticamente equivalentes. Quando N aumenta, a distribuio amostral dos trs converge para a distribuio do qui-quadrado com graus de liberdade igual ao nmero de restries testadas.
4.4
Os coeficientes de determinao calculados no modelo de regresso clssica no so aplicveis no presente caso, visto a varivel dependente assumir apenas dois valores. Foram assim desenvolvidas outras frmulas de clculo.
independentes e a dependente mais conhecida na regresso logstica. Proposto em McFadden (1974), uma transformao da razo de verosimilhana na tentativa de se assemelhar ao R2 da regresso clssica com valores entre 0 e 1:
2 RMcF
l ( R ) l ( U )
(4.25)
Onde o significado dos smbolos o mesmo que em (4.20) O valor de 2 est limitado entre (0 e 1), assumindo o valor mnimo, zero, quando
pi 1 , quando yi 1
pi 0
quando
zero. Entre estes dois limites (0 e 1), o valor de 2 no tem uma interpretao bvia, sendo no entanto, valores mais elevados destes coeficientes associados, em geral, a
57
maior capacidade explicativa do modelo. Segundo (Tabachnick e Fidell 2001) valores entre 0,2 e 0,4 consideram-se satisfatrios.
R
O valor de
2 CS
1 e
(4.26)
2 RCS nunca atinge o valor Maximo 1 e considera-se uma boa aderncia valores
acima de 0,22.
4.4.3 R2 de Nagelkerke
Foi proposto por Nagelkerke, deriva do
2 RCS e, assim, o valor 1 pode ser atingido.
2 N
2 RCS 2 Rmax
(4.27)
Em que,
2 Rmax
o valor mximo de
R
De notar que Valores de ajustamento.
2 max
1 e
2 l( R ) n
(4.28)
58
Tambm a este nvel no podemos interpretar estes coeficientes do mesmo modo que o
R 2 (coeficiente
do modelo.
4.5
Aps a estimao do modelo, o mais adequado avaliar a qualidade do ajustamento do mesmo. A avaliao da qualidade do ajustamento pode ser feita atravs dos seguintes testes: Testes de Hosmer e Lemeshow, Curva de ROC;
pi
59
H0 H1
oj
ej,
1,..., g
j : oj
e j , j 1,..., g
(4.29)
(o j e j ) 2 ej 1 ej nj
j
(o j
p j )2
1 n j p j (1 p j )
2 g 2
(4.30)
nj
j 1
i 1
p ji nj
nj pj , pj
i 1
H 0 quando
2 HL
2 HL
>
2 g 2,1
. Anlise
assim, valores grandes desta estatstica evidenciam fraca aderncia aos dados.
regresso logstica, identificar as observaes para os quais o modelo tem pouca aderncia ou observaes que exercem mais do que a sua quota-parte de responsabilidade na estimao dos parmetros do modelo (pag. 43).
60
A este prposito, (Choro 2005) reitira a importncia da identificao e posterior remoo das obervaes tidas como outliers, porm apela ao bom senso e a uma anlise critriosa das observaes a retirar, pois que, um cliente em situao de default , por si s, um indivduo atpico. Existem dois tipos de resduos: O resduo de Pearson e o resduo
deviance.
O resduo de Pearson a diferena para cada observao entre o valor observado e a probabilidade estimada dividida pelo desvio-padro binomial da probabilidade estimada.
ei
P yi pi
pi
(4.31)
1 pi
Para grandes amostras, o resduo de Pearson segue uma distribuio normal com disviopadro um. Valores absolutos elevados indicam que o modelo no tem aderncia observao em particular. Normalmente existe nas bases de dados de anlise, um conjunto pequeno de observaes muito diferentes das restantes. A anlise estatstica muito sensvel a estas observaes, na medida que, uma mudana residual no valor das mesmas provoca uma alterao brusca no valor da estimativa da varivel dependente. Estas observaes denominam-se leverage points, ou observaes influntes e a frmula para a sua deduo a que de seguida se apresenta:
V
O vector
diag pi (1 pi )
(4.32)
61
hi
pi (1 pi ) x
x T vx
xit
(4.33)
Geralmente a estatstica de leverage assume valores no intervalo (0,1), porm quando a equao do modelo inclui o termo intercepto, poder assumir valores maiores que 1 ou 1/N. Valores elevados de causa.
n
hi
e um valor igual a 1
hi
k 1, a mdia de hi dado
(k 1) sendo N o nmero de observaes. So de levar em linha de conta para a N anlise, observaes com leverage maior que a mdia.
por A distncia de Cook outro indicador utilizado para aferir o impacto da observao i no vector dos parmetros estimado eliminao da observao . Indica a variao nos resduos em virtude da
Ci
Onde
ei hii k (1 hii )
(4.34)
Dbeta uma medida estandardizada desta estatstica. Valores maiores que 1 merecem
uma anlise mais cuidada.
62
Co ,
Co
contrrio. Para um determinado cutoff, possvel determinar a matriz de confuso, como apresentado na tabela seguinte (tabela-4.1)
Tabela 4.1 Matriz de confuso para duas classes.
Nota: TN- True negative; FP false positive; FN- false negative; TP True positive
Atravs da matriz de confuso possvel determinar a percentagem de classificaes correctas do modelo ajustado, que so as medidas de especificidade (probabilidade de um cliente ser regular, por aplicao do modelo, sendo-o realmente score menor que o cutoff) e de sensibilidade (probabilidade de um indivduo, atravs do modelo, ser
63
Sensibilidade=
TP TP FN TN TN FP
Especificidade =
Pode-se igualmente, para um determinado cutoff determinar o erro total do modelo de classificao, dado pela seguinte percentagem:
b c 100 % a b c d
(4.35)
Citando (Choro 2005), h a realar nesta matriz vrios aspectos importantes associados a problemas de credit scoring. Assim,
1. Erro tipo I Designado por (dimenso do teste) ou por risco de crdito, o rcio de clientes elevada, significa que demasiado generosa na em situao de default classificados como sendo regulares. Se uma instituio financeira tem uma taxa 2. Erro tipo II Designado por financeira, (complementar da potncia de teste) ou por risco comercial, o elevado por um longo perodo, haver perdas nas vendas e rcio de clientes regulares classificados como defaults. Quando, numa instituio concomitantemente, quebras nos lucros. A instituio est exposta ao risco comercial, i.e., ao risco de perda de quota de mercado. concesso de crdito estando, portanto, exposta a risco de crdito.
3. Cutoff
e esto dependentes do cutoff considerando para classificar um cliente em regular ou default. Alm disso, a matriz de confuso muitas vezes usada para comparar diferentes modelos de classificao, tendo como hiptese que os dois tipos de erros tm a mesma importncia para a instituio.
64
Para a direita do cutoff (teste positivo) identificamos uma rea correspondente aos false
positive (FP) e outra ao true positive (TP). Para a esquerda do cutoff (teste negativo)
identificamos uma rea correspondente aos false negative (FN) e outra aos true negative. Quando menor for a sobreposio das distribuies, menor a rea correspondente aos
false positive. Assim, de acordo com (A. C. Braga 2000) valores de corte elevados
conduzem a um teste pouco sensvel e muito especfico; por outro lado, valores de cutoff baixos conduzem a um teste muito sensvel e pouco especfico. Geometricamente, a curva ROC um grfico de pares de x e y (que correspondem, a 1 - especificidade e sensibilidade, respectivamente) num plano designado por plano ROC unitrio. Deste modo, no eixo das ordenadas est representada a sensibilidade do modelo, isto , quo bom o modelo em prever os true positives (defaults) sendo as suas coordenadas calculadas a partir de:
65
Y=
TP TP+FN
(4.36)
No eixo das abcissas encontra-se o complementar da especificidade, isto , a capacidade do modelo no errar na identificao dos true negatives (regulares). Em geral, um aumento da sensibilidade implica um decrscimo na especificidade e vice-versa. As do eixo das abcissas so calculadas a partir de:
X=1-
TN FP+TN
(4.37)
A relao anterior encontra-se ilustrada na figura 4.3 onde se alude, igualmente, aos trs tipos de modelo que a figura permite inferir.
Figura 4.3 - Curva de ROC, com apresentao das coordenadas para um dado cutoff
Quando maior a sensibilidade para valores elevados da especificidade (ou seja, valores elevados do eixo dos ys e valores baixos dos xs) melhor o modelo estimado. Neste sentido, uma medida numrica da preciso pode ser obtida pela rea da curva, em que o valor 1 significa um modelo perfeito, enquanto uma rea em redor de 0,5 indica uma fraca capacidade de aderncia aos dados (modelo aleatrio). Ou dito de outra forma, a rea delimitada pela curva mede a discriminao, isto , a capacidade preditiva do modelo classificar correctamente os indivduos em defaults e os individuos regulares
66
Captulo V
13
Ciberntica uma teoria da comunicao e controlo do feedback de regulao. O termo ciberntico advm
do grego (significando condutor, governador, piloto). A ciberntica a disciplina que estuda a comunicao e o controlo nos seres humanos e nas mquinas construdas pelos humanos (http://pt.wikipedia.org/wiki/Cibern%C3%A9tica)
67
John Von Neumann (1903 -1957) , matemtico hngaro-americano que teve uma grande contribuio na definio da arquitectura de mquinas sequenciais, onde um programa armazenado na mesma memria de dados que o programa utiliza. Hoje em dia quase todos os computadores so do tipo Von Neumann.
68
no corpo celular de um determinado neurnio atingir certo limite, o neurnio dispara, transmitindo um sinal electroqumico a um neurnio adjacente, atravs de um canal emissor, o axnio. A extremidade do axnio composta por ramificaes (as sinapses) que por sua vez esto ligadas estrutura do neurnio receptor atravs de outras ramificaes, as dendrites. (ver figura 5.1)
Um nico neurnio pode estar ligado centenas ou mesmo a dezena de milhares de neurnios. Num crebro existem estruturas anatmicas de pequena, mdia e alta complexidade com diferentes funes, sendo possveis parcerias. (Cortez e Neves 2000), escreve que os neurnios tendem a agrupar-se em camadas, existindo trs principais tipos de conexes: divergente onde o neurnio pode estar ligado a vrios neurnios via uma arborizao do axnio; convergentes, onde vrios neurnios podem estar conectados a um nico neurnio e encadeadas ou cclicas, as quais podem envolver vrios neurnios e formarem ciclos (ver figura -5.2)
69
Apesar dos esforos em reproduzir o funcionamento do crebro humano, tudo o que se conseguiu foi uma aproximao elementar. (Roisenberg e Vieira, Redes Neuronais Artificiais: Um Breve Tutorial s.d.) Como escreve (Bao 2005), tal como o processo electroqumico de comunicao entre neurnios biolgicos, as redes neurnios artificiais 15, tambm consistem em neurnios e conexes entre eles. Os neurnios (ou ns) transportam informao de entrada (input) e passam a outros neurnios atravs das suas conexes de sada (output). Nas redes neuronais artificiais estas conexes so designadas por pesos ou ponderaes (Weights). A informao eltrica simulada com valores numricos especficos armazenados nestes pesos. Atravs da alterao dos valores dos pesos simulamos a alterao na estrutura de conexo.
Figura -5.3 -Conceptualizao grfica de um neurnio artificial Como descreve a figura 5.3, um neurnio artificial semelhante clula neuronal biolgica, e funciona de forma semelhante. A informao enviada para o neurnio com base nos pesos de recepo da camada de entrada (input). Este input processado por
15
O termo artificial deriva, obviamente, do facto de estas redes serem implementadas em programas computacionais, capazes de processar o grande nmero de clculos necessriosdurante o processo de aprendizagem.
70
uma funo de combinao que soma o valor de todos os inputs ponderados recebidos. O valor resultante comparado com um determinado valor limiar pela funo de activao do neurnio. Se o input excede o valor limiar, o neurnio ser activado e enviar um
output pelos seus pesos de envio para todos os neurnios a ele conectados e assim
sucessivamente, de contrrio o neurnio ser inibido. Assim, vista como uma mquina adaptativa, uma rede neuronal segundo Haykin citado em (Cortez e Neves 2000) Um processador eminentemente paralelo, composto por simples unidades de processamento, que possui uma propenso natural para armazenar conhecimento emprico e torn-lo acessvel ao utilizador. Assemelha-se ao comportamento do crebro em dois aspectos:
O conhecimento adquirido a partir de um ambiente, atravs do processo de aprendizagem. O conhecimento armazenado nas conexes, tambm designadas por ligaes ou sinapses entre neurnios. Durante o processo de aprendizagem, dado por um algoritmo de aprendizagem ou de treino, a fora (ou peso) das conexes ajustada de forma a atingir um desejado objectivo ou estado de conhecimento da rede. Embora seja esta a forma tradicional de construir uma RNAs tambm possvel modificar a sua prpria estrutura interna (ou topologia), semelhana do que se passa no crebro, onde neurnios podem morrer e novas sinapses (e mesmo neurnios) se podem desenvolver. Resumindo, o modelo de neurnio artificial apresentado na figura 5.3 composto por trs elementos bsicos: 1. Um conjunto de sinapses (ou ligaes conectadas ), cada uma as quais
caracterizada por um peso, que tem um efeito excitatrio para valores positivos e inibitrios para valores negativos. Assim, o sinal ou estmulo do input da sinapse correspondente ligada ao neurnio multiplicado pelo peso sinptico . Pode ainda existir uma ligao extra, denominada de bias
71
cuja entrada toma o valor +1, que estabelece uma certa tendncia ou inclinao no processo computacional, isto , adiciona uma constante estabeleam as correctas condies operacionais para o nodo. 2. Um totalizador para acumular os sinais de entrada. Frequentemente utilizada a funo adio ponderando todos os inputs numa combinao linear. 3. Uma funo de activao (f) para restringir a amplitude do neurnio, de sada. A funo de activao tambm referida como funo esmagadora ou ainda restritiva, j que restringe (limita) a amplitude do sinal de sada a um valor finito. Citando (Haykin 1999), a razo pela qual as redes neuronais artificiais gozam actualmente de grande popularidade alicera-se em dois aspectos fundamentais: por um lado numa topologia que premeia o paralelismo, e por outro lado, na sua capacidade de aprendizagem e generalizao; isto , conseguir responder adequadamente a novas situaes com base em experincias passadas. So estas duas caractersticas que tornam possvel a resoluo de problemas, que de outra forma seriam intratveis. Isto no quer dizer que as RNAs sejam caixas mgicas que consigam por si dar resposta a qualquer problema. Pelo contrrio, precisam no raras vezes de ser integrados com outros sistemas ou paradigmas. As redes neuronais apresentam ainda, segundo (Haykin 1999), caractersticas nicas, que no se encontram em outras ferramentas ou tcnicas: Capacidade de aprendizagem e generalizao, isto , consegue descrever o todo a partir algumas partes, constituindo-se como formas eficientes de aprendizagem e armazenamento de conhecimento; No linearidade, atendo a que muitos problemas reais so de natureza no linear; Adaptabilidade: podendo adaptar a sua topologia de acordo com mudanas do ambiente; Robustez e tolerncia a falhas: permite processar o rudo ou informao incompleta de forma eficiente, assim como sendo capazes manter o seu desempenho quando h desactivao de algumas das suas conexes e/ou nodos. O que quer dizer que se uma rede neuronal for treinada para um problema para que se
72
especfico, ser capaz de atingir bons resultados, mesmo que o problema no seja exactamente igual quela que foi utilizado durante o treino. Flexibilidade, isto , tem um grande domnio de aplicabilidade. Capacidade de processamento paralelo, permitindo que tarefas complexas sejam realizadas num curto espao de tempo .
73
assunto, mas foi Hopfield, (mais de 30 anos depois) quem conseguiu estabelecer a ligao entre a mecnica estatstica e os sinais de aprendizagem. O prximo desenvolvimento significativo das redes neuronais veio em 1949, com a publicao do livro de Donald Hebb "The Organization of Behavior", em que acentuava a ideia de que os parmetros do modelo do neurnio de McCulloch-Pitts pudessem se autoajustar. Estes primeiros estudos das redes neuronais biolgicas formaram os fundamentos do que se tornou conhecido como redes neuronais artificiais (RNAs). Durante a metade da dcada de 1950 e incio de 1960, uma classe de investigadores chamados de "learning machines" liderada por Frank Rosenblatt, causaram grande excitao entre pesquisadores da teoria de reconhecimento de padres, principalmente pela apresentao do livro Principles of Neurodynamics. Nele o autor fornece vrias ideias a respeito dos perceptres, demonstrando que se adicionarem sinapses ajustveis, as redes neuronais poderiam ser treinadas para classificar certos tipos de padres. O perceptro capaz de classificar entre classes que so linearmente separveis, tendo sido utilizado para reconhecer caracteres. (Choro 2005) refere que a caracterstica mais importante do perceptro a apresentao de um algoritmo de aprendizagem capaz de adaptar os pesos internos do neurnio de maneira que seja capaz de resolver o problema da separabilidade linear das classes. O xito conseguido por esta abordagem fez com que muitos considerassem Rosenblatt como o verdadeiro pai da inteligencia artificial.. Em 1960, Widrow e Hoff introduziram o algoritmo " Least Mean Square" (LMS), conhecido como mnimos quadrados, que usaram para formular o Adaline (elemento linear adaptativo). A principal diferena entre o perceptro apresentado por Rosemblatt, e o Adaline de Widrow situa-se no procedimento de treino. Widrow e seus estudantes propuseram uma das primeiras redes neuronais com camadas capazes de ser treinadas com mltiplos elementos adaptativos, que foi chamada de Madaline (Haykin 1999). Aps a apresentao do perceptro acreditava-se que as redes neuronais (perceptrons) poderiam resolver qualquer problema. Contudo, aps estes espectaculares desenvolvimentos, a rea das redes neuronais conheceu uma grande crise com a publicao do trabalho de Marvin Minsky e Seymour Papert, em 1969 sobre o Perceptrons. Nele chamaram a ateno para algumas tarefas que o perceptro com
74
apenas uma camada intermdia, era incapaz de aprender padres no linearmente separveis, (o famoso problema do Xor/Ou exclusivo). Rosenblatt props como soluo aumentar o nmero de camadas, mas, apesar de toda a sua viso e perspiccia neste campo, no logrou desenvolver um mtodo de aprendizagem eficaz para estas redes neuronais mais avanadas. Aps a publicao do livro de Minsky e Papert, sobre as limitaes dos perceptres, e tambm, por no haver suporte financeiro para conduzir projectos nesta rea, as pesquisas em redes neuronais ficaram esquecidas pelo menos at o incio de 1980. E 1974 aconteceu um facto que viria, mais tarde a proporcionar o renascimento do interesse geral pelas potencialidades das redes neuronais, foi quando Paul Werbos lanou as bases do algoritmo de retro-propagao (Backpropagation), Porm as potencialidades deste mtodo tardaram a ser reconhecida (Gorni 1994). Em 1982 John Hopfield publicou com um estudo que chamava ateno para as propriedades associativas de uma classe de redes neuronais que apresentava fluxos de dados multidirecional e comportamento dinmico, Primeiramente ele demonstrou que a rede possua estados estveis e, posteriormente, que tais estados poderiam ser criados alterando-se os pesos das conexes entre os neurnios. No entanto, os primeiros resultados que levaram a retoma do desenvolvimento das redes neuronais s foram publicados em 1986 e 1987, atravs dos trabalhos do grupo PDP ( Paralled and distributed
Procesing), onde ficou consagrada a tcnica de treino por backpropagation. Estava ento
reunidas as condies para o desenvolvimento das redes neuronais. Em 1982, Kohonen (1982) publicou um artigo no qual utilizava mapas auto-organizveis (SOM) como uma estrutura bi-dimensional, que difere em alguns aspectos do primeiro trabalho de Willshaw e von der Malsburg que tambm usaram aprendizagem competitiva. Em 1988, Broomhead e Lowe descreveram um procedimento para o projecto de uma rede neuronal (feedforward) usando funo de base radial, conhecida na literatura como "radial basis
75
Hoje em dia procuram-se no s redes mais eficientes como tambm melhores algoritmos de treino (Sarle, Neural network 1999). Por outro lado, espera-se que a aplicao de RNAs a outras reas do conhecimento se generalize, seja Medicina, Economia, ao Processamento de Sinal, Robtica, ou aos Sistemas Periciais, para alm da Estatstica.
76
Figura 5.4 - Arquitetura de rede feedforward Como se poder observar na figura 5.5, numa rede feedback, as conexes podem ser feitas entre quaisquer nodos. A recorrncia existe em sistemas dinmicos quando uma sada de um elemento influncia de algum modo a entrada para esse mesmo elemento, criando-se assim um ou mais circuitos. Assim que uma ou mais conexes cclicas so includas numa rede, estas passam a ter um comportamento no linear, de natureza espacial e/ou temporal, que podem ser utilizadas para modelar novas funes cognitivas, tais como as de memria associativa e/ou temporal (Bose e Liang 1996). Ao conter ciclos, as sadas no esto dependentes exclusivamente das ligaes entre nodos, mas tambm de uma dimenso temporal; i.e., est-se na presena de uma clculo recursivo, que obedecer naturalmente a uma certa condio de paragem, com a ltima iterao a ser dada como a sada para o nodo (Riedmiller e Braun. 1993).
77
Enunciando (Haykin 1999) a aprendizagem um processo pela qual os parmetros de uma rede neuronal so ajustados atravs de um processo de estimulao
78
do meio ambiente no qual a rede est inserida, sendo o tipo de aprendizagem determinado pela maneira como ocorrem os ajustamentos nos parmetros. Portanto, o objectivo do treino/aprendizagem consiste em atribuir valores apropriados aos pesos sinpticos de modo a produzir o conjunto de sadas desejadas ou ao menos consistentes com um intervalo de erro estabelecido. Desta forma, o processo de aprendizagem consite na busca de um espao de pesos pela aplicao de alguma regra que defina esta aprendizagem. Existem trs paradigmas bsicos para adaptar os parmetros do sistema: aprendizagem por reforo, aprendizagem supervisionada, e aprendizagem no superviosionada.
79
Figura 5.6 - Diagrama do ciclo de aprendizagem supervisionada Fonte: Adaptado a (Haykin 1999) Por vezes este tipo de rede refere-se como fazendo uso de um professor externo que indique ao sistema o correcto resultado para cada padro de input. Podendo este professor ser um humano, que especifica a correcta classe para cada padro de entrada, ou um sistema fsico cujo comportamento se pretenda modelar. A cada interaco efectuada a rede neuronal compara a resposta desejada com o valor de sada da rede, originando um erro. O erro resultante utilizado para de alguma forma ajustar os pesos da rede. A soma dos erros quadrticos de todas as sadas normalmente utilizada como medida de desempenho da rede. Uma das vantagens da aprendizagem supervisionada a de que o seu modelo bem definido, apontando-se como principais crticas o artificialismo, a limitao do modelo de aprendizagem e a necessidade de professor (Reed e MarsII 1999)
80
Neste tipo de aprendizagem os dados de treino no se encontram legendados e no existem alvos a atingir, em vez disso o sistema adapta-se s suas idiossincrasias de acordo com as caractersticas que possuem implicitamente. Mesmo no conhecendo as classes envolvidas, se as amostras em anlise carem num nmero finito de categorias, digamos, com base nas suas relaes de similaridade, ento podemos estar perante um problema de classificao no supervisionada sendo assim necessrio recorrer a mtodos de agrupamento (clustering) (Kohonen 2001) Este tipo de aprendizagem apresenta ainda a vantagem adicional de poder ser utilizada mais abrangentemente em virtude dos dados no legendados se encontrarem frequentemente em maior disponibilidade que os dados classificados (Reed e MarsII 1999). Se uma rede tiver a habilidade de descobrir clusters com similaridade de padres sem superviso, i.e, sem possuir informao sobre o target, e a afectar neurnios a esses clusters, qualquer que seja o processo utilizado, diz-se que a rede, alm de no ser supervisionada, possui capacidade de auto-organizao (Gurney 1997). Um tipo de redes deste tipo e que tem sido muito bem sucedida na resoluo e modelao de vrios problemas so os
81
algoritmo de perceptron converge e posiciona a superfcie de deciso na forma de um hiperplano entre as duas classes (vide figura 5.7).
Figura 5.7- Classes linearmente separve is ( esquerda) e classes no linearmente separveis ( direita)
Todavia, Minsky e Papert, ao analisarem matematicamente o perceptro concluram que este no obtinha solues para problemas que no fossem linearmente separveis. Para isso seria necessrio a introduo de mais um neurnio na camada intermdia e de uma ou mais camadas intermdias de modo a poder implementar superfcies de deciso mais complexas. A caracterstica principal da camada escondida que seus elementos se organizam de tal forma que cada elemento aprenda a reconhecer caractersticas diferentes do espao de entrada, assim, o algoritmo de treino deve decidir que caractersticas devem ser extradas do conjunto de treino. Ademais, o algoritmo de minimizao do erro, tambm conhecido como regra delta, apresentado por Windrow e Hoff, no se aplicava s camadas intermdias.
82
83
Figura 5.7- Estrutura de um MLP Os inputs so apresentados simultaneamente camada de entrada, sendo que os inputs ponderados desta camada servem de alimentao camada seguinte (camada escondida) e assim sucessivamente. Cada uma das camadas possui, uma funo especifica. A camada de saida recebe os estimulos da camada intermdia e constroi o padro que ser a resposta. A camada intermdia funciona como extractoras de caracteristcas, cujos pesos so uma codificao de caracteristicas apresentadas nos padres de entrada, permitindo que a rede crie a sua prpria representao, mais rica e complexa, do problema. Assim, alm de calcular o sinal de saida de unidade calcula uma estimativa instantnia do vector gradiente que necessria para a retropropagao do erro. A camada de entrada responsavel por receber os dados externos e converter em representao intangvel para a rede (Pag.78).
84
do erro que ressuscitou o interesse pelas redes neuronais. Conforme (Beale 1990), o backpropagation pode ser visto como uma generalizao do mtodo Delta para redes neurais de mltiplas camadas, sendo que a a principal modificao reside no processo de clculo e actualizao dos pesos durante a fase de treino. A grande dificuldade dos perceptres de multicamada consiste no clculo dos pesos nas camadas intermdias duma forma eficiente e que minimize o erro na sada. Quantas mais camadas intermdias tiver, mais difcil se torna o clculo dos erros. O valor do erro na sada fcil de calcular, pois a diferena entre a sada obtida e a sada desejada, mas nas camadas intermdias a dificuldade acrescida, pois no existe uma observao directa do erro entre as camadas. O algoritmo de Retropropagao veio preencher esta lacuna. Trata-se de um algoritimo em que a aprendizagem d-se atravs de um processamento interactivo dos exemplos de treino, comparando as previses da rede para cada um dos exemplos de treino com os verdadeiros valores. A minimizao do erro no algoritmo
input, ou seja, uma vez apurado o erro segue-se um processo de apuramento das
responsabilidades tentando corrigir os pesos que mais contriburam para esse erro. Resumindo possivel identificar duas fases distintas no processo de aprendizagem do algoritimo de retropropogao:
A primeira fase responsvel pelo processo de treino, e consiste em enviar um sinal funcional que vai da camada de input at a de output, i.e., processamento para frente, onde um vector de entrada (
xp )
entrada, propagando-se para frente, camada a camada. Finalmente, produzido um conjunto de sada como resposta da rede. Durante a fase de propagao os
85
Na segunda fase do treino enviado um sinal do erro, no sentido inverso, isto , de output para a camada de input- demoninado de retropropagao. Durante a fase de retropropagao, os pesos sinpticos so todos ajustados de acordo com uma regra de correco do erro. Especificamente esta fase representa a validao da fase anterior, ou seja, verifica-se se o output produzido foi satisfatrio, atravs da comparao de sadas geradas pela rede com a resposa desejada para produzir um sinal de erro. Este sinal de erro tambm retropropagado atravs da rede, em sentido contrrio das conexes sinpticas da o nome retropropagao do erro.
De modo a facilitar a compreenso do algoritimo, apresenta-se de seguida uma descrio resumida dos passos mais importantes do algoritimo de retropropagao. Para mais detalhes aconselhamos a consulta de (Freeman e Skapura 1992) e (Haykin 1999). Para tal, considere a seguinte arquitetura multicamada apresentada na figura 5.9.
86
Figura 5.9 Arquitetura de rede mult-icamada Fonte: (Roisenberg e Vieira, Redes Neuronais Artificiais: Um Breve Tutorial s.d.)
Considere um conjunto de P pares de vetores (X1, Y1), (X2, Y2),..., (XP, YP), no nosso conjunto de treino e que so exemplos de um mapeamento funcional definido como:
m . Com o objectivo de treinar a rede de modo que ela consiga n ,Y ' m devemos seguir os (X ) : X aprender uma aproximao da forma: O Y ' Y (X ) : X
seguintes: O mapeamento funcional que foi proposto acima pode ser entendido como um conjunto de coordenadas cartesianas em que para cada x i de entrada existe um yi de sada. Assim, escolhendo para uma funo qualquer um bom exemplo de treino P (xi, yi) a rede ser capaz, depois de treinada, de interpolar/generalizar novos exemplos, criando assim uma aproximao da funo. Portanto, comforme descrito anteriomente, em primeiro lugar, um vector de entrada Xk= [xk1 xk2... xkn]
T
n ,Y
elementos de entrada distribuem os valores para os elementos da camada escondida. Para calcular o valor do net para o j-simo elemento da camada escondida, procedemos
87
multiplicao dos outputs de cada camada anterior pelo respectivo peso (w) e posteriormente a soma de todos eles. A expresso matemtica dada por:
n
net
h kj i 1
wh xki ji
h j
(5.1)
Onde w ji peso da conexo entre o j-simo elemento da camada de entrada e o j-simo elemento da camada escondida h e sada do neurnio. Assumindo que os neurnios so estticos, assumimos que o valor da funo de activao ser igual ao net, ento, o valor de sada para um neurnio da cada escondida resulta da expresso:
h f jh (netkj )
o p
factor ficticio de entrada igual a 1, dando um grau de liberdade maior para a funo de
ikj
(5,2)
net
o kp j 1
wo ikj pi
o p
okp
o f po (netkp )
(5,3)
Conforme (Freeman e Skapura 1992), o objectivo do treino consiste em ensinar rede o mapeamento de todo vector de entrada para o respectivo vector de sada, isto , encontrar os valores apropriados para os pesos das conexes da rede de modo a minimizar a funo do erro definida pela soma dos erros quadrticos mdios da rede. Assim, o erro para um nico neurnio p na camada de sada para um vector de entrada k dado por
Ekp
( ykp
Okp )
(5.4)
88
De forma a minimizar a funo de custo, calcula-se a derivada em ordem ao peso sinptico, ou seja, a direco de modificaes dos pesos ser dada de acordo com a direco que o vector gradiente seguir na superfcie. Aplicando a regra de cadeia tem-se:
Ek wo pj
o
( y kp okp )
f po
o (netkp )
o (netkp )
wo pj
(5.5)
o (netkp )
o pj
o pj j 1
wo ikj pj
o p
) ikj
(5.6)
( Ek ) wo pj
( ykp
(5.7)
Por aplicao do mtodo de gradiente descendente, poder-se evidenciar que a alterao do peso sinptico deve dar-se na direco oposta da derivada da superficie do erro aplicando-se taxa de aprendizagem , pelo que a alterao deve repeitar:
wo (t 1) wo (t ) pj pj
wo (t ) pj
o
Com
wo pj
(5.8)
Convm ressaltar que a funo f p precisa ser uma funo diferencivel para que seja possvel implementar a busca do gradiente descendente. A funco logistica ou sigmoidal, pela facilidade de clculo da sua derivada preencher os requesitos de continuidade, diferenciabilidade e monotonicidade, a mais utilizada sendo a sua expresso a seguinte:
f po (net o ) jp
1 1 e
net o jp
f po '
f po (1 f po )
(5.9)
Os clculos para os neurnios das camadas escondidas so similares, salvo facto de no sabermos a priori qual o valor desejado de sada para os neurnios destas camadas. Assim, o clculo feito em funo das sadas desejadas pela camada de sada, pois
89
estas esto intimamente ligadas com as sadas dos neurnios das camadas intermeddia. Da vem que;
Ek 1 2 1 2
1 2
( ykp
p
Okp ) 2
(5.10)
o p
( ykp
p
f po (net )) 2 f po (
j
( ykp
p
wo ikj pj
)) 2
Sabendo que i pj depende dos pesos da camada escondida, podemos utilizar este facto para calcular o gradiente de E k em relao aos pesos da camada escondida.
Ek wh ji
1 2 ( ykp
h ji
( ykp Okp
Okp ) 2
o (netkp )
Okp )
ikj
h (netkj )
h (netkj )
(5.11)
o (netkp )
ikj
wh ji
Cada um dos factores da equao pode ser calculado explicitamente das equaes anteriores, assim como foi feito para o gradiente da camada de sada. O resultado fica:
Ek wh ji
( ykp
p
(5.12)
Por fim, assim como no caso da camada de sada, actualizamos os pesos da camada escondida proporcionalmente ao valor negativo da equao.
wh (t 1) ji
Onde
wh (t ) ji
wh (t ) ji
wh ji
(5.13)
90
Antes de se iniciar o treino de uma rede, h que proceder escolha dos valores iniciais dos pesos associados s ligaes entre nodos, que em geral pertencem ao intervalo [0,1] ou [-1,1] e so gerados de forma aleatria. Os exemplos de treino so apresentados sucessivamente s unidades visveis da rede neural artificial, at que um erro aceitvel (previamente fixado) seja alcanado ou enquanto um nmero determinado de iteraes no for satisfeito. O ltimo conjunto de pesos observado entre as conexes das clulas ento mantido para testar a habilidade da rede em mapear a funo de entrada para sada e a consequente validao do modelo de redes neurais artificiais.
91
ser efectuado atravs de um processamento em modo sequencial (por padro ou ainda em on-line) ou em batch, tambm denominado de processamento por ciclo. No processamento em modo sequencial os pesos da rede so actualizados medida que um novo exemplo de treino {entrada, sada} apresentado rede. O treino sequencial muito utilizado em aplicaes em tempo real, devido ao facto de utilizar menos memria no seu processamento uma vez que os padres so apresentados rede par a par e os pesos so actualizados aps o seu processamento. Este facto faz com que a rede tenha uma maior probabilidade de no cair num mnimo local, bem como, seja mais difcil estabelecer condies tericas para a convergncia do algoritmo. Uma das vantagens da utilizao do mtodo sequencial consiste no facto de, ao trabalhar com dados extensos e redundantes, o algoritmo conseguir tirar partido, j que os dados so apresentados rede par a par. Apesar das desvantagens do modo sequencial em detrimento do modo em
batch, o mesmo muito usado devido ao facto de ser um algoritmo simples de aplicar e
proporcionar solues em vrios tipos de problemas com dificuldades diversas (Haykin 1999) No processamento em batch, a actualizao dos pesos realizada aps todos os exemplos de treino {entrada, sada} serem apresentados rede e processados em conjunto formando uma poca. O treino em batch melhora a estimativa do vector de gradiente sendo a convergncia para um mnimo local garantida atravs do uso de condies simples. Este modo de processamento permite mais facilmente estabelecer comparaes entre os diversos parmetros escolhidos. O algoritimo de retropropagao apresenta, contudo, alguns problemas tais como a paralesia da rede e a existncia de um minimo local. Como se sabe, o algoritimo de retropropagao utiliza a heurstica do gradiente decrescente para ajustar os pesos entre as sinpses, seguindo a curva da superfcie dos erros em direco a um ponto mnimo (Wasserman 1989).As superfcies de erros convexas, por apresentarem um nico mnimo, permitem que este mtodo atinja o mnimo global. Nas superfcies de erros no convexas e altamente convolutas, normalmente encontradas em problemas prticos, a soluo alcanada pode no ser a ptima. Nestes casos, haver que ser utilizado algum algoritmo de optimizao global.
92
Assim que um mnimo encontrado, seja global ou local, a aprendizagem termina (Freeman e Skapura 1992). Se a rede alcanar um mnimo local (figura 5.10), todas as direces na sua vizinhana mais prxima representam valores maiores que o alcanado e, consequentemente, a convergncia para o mnimo global no atingido. Nesse caso, a magnitude do erro da rede pode ser muito alta e, portanto, inaceitvel. Caso a rede neural encerre a aprendizagem antes que uma soluo satisfatria seja obtida, o redimensionamento do nmero de unidades ocultas ou da taxa de aprendizagem e do termo momentum podem ser suficientes para resolver o problema, como se explicar mais adiante.
93
provocar instabilidade no treino (e.g., movimento oscilatrio). medida que o treino evolui, os pesos sinpticos podem passar a assumir valores maiores, forando a operao dos neurnios na regio onde a derivada da funo de activao muito pequena. Como o erro retropropagado proporcional a esta derivada, o processo de treinamento tende a se estabilizar, levando a uma paralisao da rede sem que a soluo tenha sido encontrada. Isto pode ser evitado pela aplicao de uma taxa de aprendizagem menor. Teoricamente, o algoritmo de aprendizagem exige que a mudana nos pesos seja infinitesimal. Entretanto, a alterao dos pesos nessa proporo impraticvel, pois implicaria um tempo de treino infinito. Por este facto, recomendvel que a taxa de aprendizagem assuma um valor maior no incio do treino e, medida que se observe decrscimo no erro da rede, essa taxa tambm seja diminuda. Como refere (Beale 1990), medida que a taxa de actualizao dos pesos diminui, o gradiente decrescente torna-se mais apto a alcanar uma soluo melhor. Uma forma de aumentar a velocidade de convergncia da rede neuronal artificial a adopo de um mtodo chamado momentum. O propsito deste mtodo consiste em adicionar, aquando do clculo do valor da mudana do peso sinptico, uma frao proporcional alterao anterior. A equao (5.15) especifica o ajustamento das conexes entre unidades de processamento pela aplicao do termo momentum. Outra forma distinta para lidar com este problema reside no uso de diferentes taxas de aprendizagem, uma por cada nodo. 1 (Yeung 1999) sugere que se utilize. , Para um nodo com z conexes z
. w pk (t 1)
Onde
w0 (t ) pj
0
w(t 1)
1.
(5.14)
Na Fig. 5.11 pode-se analisar o comportamento do algoritmo sem e com o termo momento, donde facilmente se percebe a razo pela qual o termo momento ajuda no processo de actualizao dos pesos.
94
Figura 5.11 Comportamento do algoritimo de retropropagao com sem e com o termo momento
95
Deve-se ter em mente que preciso obter um modelo que no seja muito rgido a ponto de no modelar fielmente os dados, mas que tambm no seja excessivamente flexvel a ponto de modelar tambm o rudo presente nos dados. A idia que a rede responda de acordo com as caractersticas presentes nos dados de entrada e no exatamente igual aos dados de entrada. Por exemplo, o princpio de Ockham, diz que deveremos preferir modelos simples a complexos e esta preferncia dever aplicar-se at que os modelos se adequem aos dados. Igualmente, (Choro 2005) refere que apesar de vrias prcticas para determinar a dimenso da camada inetermdia, na maioria dos casos continua a ser a tentativa e erro a melhor regra a seguir. De acordo, (Bao 2005) uma rede MLP com uma camada intermdia suficiente para aproximar qualquer funo contnua e em problemas excepcionalmente complexos se podem utilizar duas. Independentemente da complexidade do problema, duas camadas so suficientes para que a rede possa aproximar o problema. A utilizao de um grande nmero de camadas escondidas no recomendada. Cada vez que o erro mdio durante o treinamento utilizado para actualizar os pesos das sinpses da camada imediatamente anterior, ele se torna menos til ou preciso. A nica camada que tem uma noo precisa do erro cometido pela rede a camada de sada. A ltima camada escondida recebe uma estimativa sobre o erro. A penltima camada escondida recebe uma estimativa da estimativa, e assim por diante. Em relao ao nmero de neurnios nas camadas escondidas, este geralmente definido empiricamente. Deve-se ter cuidado para no utilizar nem unidades demais, o que pode levar a rede a memorizar os dados de treino (overfitting), ao invs de extrair as caractersticas gerais que permitiro a generalizao, nem um nmero muito pequeno, que pode forar a rede a gastar tempo em excesso tentando encontrar uma representao ptima. Devido a estas dificuldades recomendado manter o nmero de neurnios escondidos baixo, mas no to baixo quanto o estritamente necessrio. Existem vrias propostas de como determinar a quantidade adequada de neurnios nas camadas escondidas de uma rede neural. As mais utilizadas so:
96
O nmero de neurnios dever estar compreendido entre o nmero de variveis de input e o nmero de output (Blum 1992, 60) O numero de neurnios dever ser menor que a metade do nmero de variveis da primeira camada (Swingler 1996, 53). O nmero de neurnios dever ser igual ao nmero de dimenses (componentes principais) necessrias para explicar 70 a 90% da variabilidade dos dados de entrada. (Boger e Guterman 1997) Utilizar um nmero de sinpses dez vezes menor que o nmero de exemplos de treino disponveis. Se o nmero de exemplos for muito maior que o nmero de sinpses, overfitting improvvel, no entanto pode ocorrer underfitting (a rede no converge durante o processo de treino).
97
caractersticas, como o rudo, que esto presentes nos dados de treino, mas no na funo implcita a ser aprendida. Este exemplo ilustra os dois objectivos contraditrios da aproximao funcional. Por um lado tem-se a minimizao do erro de treino, pelo outro tem-se a minimizao do erro para as entradas desconhecidas. Assim, uma RNA que seja treinada em demasia perde capacidade para generalizar.
A generalizao nem sempre possvel. Existem 3 condies que so normalmente necessrias (nem sempre suficientes) para uma boa generalizao: (Gallant 1993) e (Sarle, Stopped Training and Other Remedies for Overfitting. 1995): A primeira condio est associada complexidade do problema a ser aprendido Trata-se de um factor de difcil controlo. As entradas devem conter informao suficiente para permitir a obteno das sadas desejadas; i.e, tem de existir uma funo matemtica com algum grau de preciso que relacione as entradas com as sadas. Por outro lado, convm que esta funo seja suave; i.e, pequenas alteraes nas entradas devem provocar pequenas alteraes nas sadas, para a maior parte dos casos. Por vezes, uma transformao no linear nas entradas pode melhorar a sua suavidade ( transformao logartmica); A segunda condio para uma boa generalizao a de que o conjunto de exemplos de treino seja suficientemente grande e representativo da populao A generalizao sempre efectuada a partir de dois tipos de duas situaes:
98
interpolao e extrapolao. No primeiro caso, um valor calculado a partir da informao dos valores constantes de casos na vizinhana. A segunda situao engloba tudo o resto, ou seja, casos fora do domnio dos dados de treino. Enquanto a interpolao pode ser efectuada com relativa acuidade, o mesmo j no se passa com a extrapolao, notoriamente menos fivel; A terceira condio tem que ver com a arquitectura da RNA; i.e, o nmero de parmetros livres que denotam os pesos das ligaes entre neurnios e a sua capacidade de aprendizagem bem como a sua complexidade. Uma rede no propriamente complexa ir falhar na aproximao funo a aprender. Por outro lado, uma rede demasiado complexa, ir fixar o rudo existente nos dados, provocando overfitting. A Figura 5.13 mostra uma variao tpica do erro de uma RNA com uma camada intermdia, para os casos de treino e de teste, com o incremento do nmero de neurnios intermdios. medida que estes aumentam o erro de treino diminui. A dada altura, a curva de erro para os casos de teste inflecte, perdendo-se em generalizao.
Figura 5.13- Erro tpico que ocorre com o aumento do nmero de neurnios da camada intermdia
A melhor forma de evitar o overfitting utilizar uma quantidade elevada de exemplos de treino. Quando este nmero for pelo menos 30 vezes superior ao nmero de conexes, ento pouco provvel que ocorra overfitting. O problema que surge que nem sempre existem muitos exemplos de treino disponveis e no se deve reduzir o nmero de
99
conexes de um modo arbitrrio, devido a problemas de insuficincia de complexidade da rede. Dada uma dimenso fixa de dados de treino, existem pelo menos duas grandes alternativas eficientes para evitar a sub-aprendizagem e a sobre-aprendizagem, permitindo assim uma boa generalizao (Sarle, Stopped Training and Other Remedies for Overfitting. 1995), (Sarle, Neural network 1999): Regularizao e seleco de modelos.
5.6.4.4.1
Regularizao
A regularizao baseia-se num controlo dos valores dos pesos das conexes da rede para se obter uma boa generalizao. Entre os diversos mtodos de regularizao apresentamos os definidos por (Russel e Norvig 1995) (Sarle, Stopped Training and Other Remedies for Overfitting. 1995): Decaimento de pesos: A estratgia passa por acrescentar uma penalidade funo de erro, de modo a reduzir os pesos das conexes, em particular as mais expressivas, visto que estas prejudicam o processo de generalizao, dando origem a funes irregulares, por vezes na vizinhana de descontinuidades. Por outras palavras, pesos cujo varincia nas sadas, (onde
decaimento, cuja escolha crucial para uma boa generalizao. Adio de rudo O objectivo acrescentar deliberadamente rudo artificial s entradas durante o treino. Esta estratgia funciona porque a maior parte das funes a serem aprendidas pela rede so suaves. Assim, em cada iterao do algoritmo de treino, novos casos de treino so criados, acrescentando rudo. Este nem deve ser demasiado pequeno, produzindo pouco efeito, nem demasiado grande, pois obviamente desvirtuar a funo implcita a ser aprendida. Este rudo produzido por um gerador de nmeros aleatrios, usualmente seguindo uma distribuio normal com mdia 0 e desvio padro s , cujo valor dever ser
100
estimado de algum modo (e.g., de modo a que seja menor do que o erro de generalizao, medido por um estimador). Paragem antecipada Trata-se de um dos mais populares mtodos de regularizao, onde os dados de treino so divididos em dois tipos de casos: de treino e de validao. Os primeiros so utilizados na aprendizagem da rede, enquanto os ltimos so utilizados para aferir a qualidade da aprendizagem; i.e., para estimar o erro de generalizao. De notar que podem ser utilizados novos casos de teste para medir o desempenho da rede aps o treino. Durante a fase de treino, calcula-se o erro de validao de forma peridica, parando-se quando este comea a aumentar. Todavia, esquemas de paragem mais elaborados tm de ser adoptados, dado que a funo de erro pode apresentar diversos mnimos locais. Por exemplo, Prechelt (Patterson 1996) defende o uso de trs critrios de paragem: O primeiro critrio denominado de falha no processo de treino, que consiste em avaliar o progresso do treino, isto , a diminuio do erro sobre os exemplos de treino,
tr
pk (t ) 1000
t ' t k 1...t
tr
(t ')
tr (t ')
k min t ' t
(5.16)
k 1...t
O progresso no treino elevado nas suas fases de maior instabilidade, onde o erro para os exemplos de treino sobe em vez de diminuir. No entanto, tende para zero a longo prazo, a no ser que o treino se torne oscilante. O treino parado se pk (t ) uma medida de erro em estado estacionrio; Perda de Generalizao - Esta ocorre sempre que h uma inverso de sinal nos valores da derivada da funo de erro para os casos de validao, iteraes, toma a forma:
va
, em que
passando
101
Gk (t ) 100
va
(t )
va (t ')
min t '
(5.17)
Uma grande perda de generalizao uma boa razo para se parar o treino, pelo que o treino termina se Gk (t ) aconselhvel para a rede; e Nmero Mximo de Iteraes Este critrio aplicado quando os anteriores critrios de paragem falham, de modo a garantir que o treino termine. A paragem antecipada bastante utilizada porque simples e rpida, podendo ser aplicada a RNAs com um grande nmero de conexes. Todavia, possui algumas desvantagens. Em primeiro lugar, bastante sensvel forma como feita a diviso entre exemplos de treino e de validao; i.e., quais e quantos casos devo usar conjunto. Por outro lado, no aproveita toda a informao disponvel para a aprendizagem. , onde denota a perda de poder de generalizao
5.6.4.4.2
Seleco de Modelos
A regularizao diminui o efeito de overfitting pelo estmulo dado aprendizagem de funes suaves. No entanto, utiliza uma estrutura fixa, que deve ser especificada pelo utilizador. Embora se possa utilizar uma grande estrutura, com um grande nmero de neurnios intermdios, na prtica, a optimizao dos pesos torna-se de difcil ajustamento, exigindo um grande esforo computacional. Mais ainda, em geral, so mtodos que exigem um delicado balano, controlado por um (ou mais) parmetro (s) de regularizao. Mais recentemente, mtodos Bayesianos tm sido incorporados na regularizao, para eliminar alguns destes problemas. Trata-se de uma abordagem promissora embora ainda pouco desenvolvida. Para, alm disso, estes mtodos assumem certos tipos de distribuio entre dados de treino e teste que podem falhar quando o nmero de conexes da rede grande, quando comparado com a cardinalidade dos dados de treino (Kosko 1988). Uma alternativa distinta baseia-se na procura de uma topologia para uma RNA, em termos do nmero de conexes, nmero de nodos e camadas intermdias. Os defensores desta estratgia argumentam que mais fcil
102
adaptar a complexidade da rede ao problema a ser resolvido. Assim, um problema que seja de difcil aprendizagem para uma rede poder ser facilmente aprendido por outra rede. A abordagem estatstica resoluo deste problema passa pela estimativa do erro de generalizao para cada um dos modelos, ou topologias de rede, escolhendo-se o modelo que minimiza essa estimativa. Existem diversos mtodos para estimar a capacidade de generalizao de uma RNA (Efron e Tibshirani 1993) (Kernsley e Martinez s.d.) alguns dos quais so enunciados a seguir: Estatsticas Simples Diversas mtricas foram desenvolvidas tendo em conta modelos lineares, baseando-se em suposies sobre as amostras Entre estas, podem-se referenciar: o
AIC n ln(SSE / n) 2 p
Onde
(5.18)
casos de treino, n representa o nmero de exemplos de treino e p o nmero de parmetros livres da rede, ou seja, o nmero de pesos das ligaes entre os neurnios da rede; e o
(5.19)
Validao com Diviso da Amostra O mtodo mais popular para a estimao do erro de generalizao de uma RNA, geralmente associado paragem antecipada
103
do treino da rede, baseia-se numa diviso dos dados do problema em casos de treino, para a rede aprender, e casos de validao, para estimar o erro de validao. Como ponto forte deste processo tem-se a sua simplicidade e rapidez, embora produza uma reduo efectiva dos casos disponveis para treino.
104
Neste caso, o vector de pesos da rede neuronal da figura 5.16 (w14, w24, w34), sem camada oculta, nada mais que um vector de parmetros da regresso. Eles indicam, assim como os parmetros da regresso, a importncia de cada sinal de entrada na explicao do padro de sada. Contudo, quando utilizamos uma camada oculta, (perceptron multi-camada), como conhecido na literatura de redes neuronais artificiais, estamos a introduzir no-linearidade nas relaes entre as entradas x1, x2, x3, e a sada y. Portanto, a relao entre as variveis endgenas e exgena deixa de ser linear, e a comparao, ento, tem que ser feita com modelos de regresso no lineares. Nos modelos econmetricos tradicionais, os parmetros do modelo so obtidos atravs de algum processo de estimao que envolve a minimizao da soma do quadrado dos resduos ou a maximizao da funo de verossimilhana. J os pesos da RNA, so obtidos, segundo o jargo das redes neuronais, por um processo de aprendizagem. Contudo, a estimao dos pesos dos RNA, a partir de um processo de aprendizagem, e a estimao dos coeficientes dos modelos tradicionais, tal como o modelo logstico, so, do ponto de vista estatstico e matemtico, exactamente a mesma coisa. Em ambos os casos, o que se procura minimizar a funo do erro mdio quadrtico, ou qualquer outra funo objectivo escolhida. No caso das RNAs o
105
106
timing de activao dos neurnios ocultos e, por outro lado, efectuar inferncia
relativamente ao impacto que as variveis independentes provocam nas dependentes. No obstante, enquanto nos modelos economtricos lineares a avaliao da relevncia das variveis independentes, e do impacto que estas provocam na dependente, trivialmente avaliada recorrendo s estatsticas t, nos modelos neuronais essa tarefa afigura-se mais complexa.
107
software SAS (verso 9.1.2), em especial o mdulo Enterprise Miner (verso 5.2).
De Seguida, apresentamos os resultados e a panplia de testes estatsticos associados ao modelo logit para o conjunto de treino seleccionado a 70%. Os resultados para o conjunto (60% e 80%.) esto apresentados nos apndices (A e A1). Foi estimado um modelo logit binrio com as variveis descritas na pag. 35. Interps-se uma varivel frequncia a fim de balancear o grupo dos defaults com o grupo de regulares. Como se observa na tabela seguinte, o teste que compara o modelo completo, com os 15 parmetros, com o modelo somente com a constante estatisticamente significativo, indicando que os parmentros, quando tomados em conjunto, diferenciam entre clientes em defaults e clientes regulares.
g.l 14 14 14
108
R-Square
0.1920
Max-rescaled R-Square
0,21
Qualidade do ajustamento
A tabela 6.3 apresenta os coeficientes de regresso, as estatsticas de Wald, odds-ratio e respectivos intervalos de confiana para cada um dos 15 parmetros. de acordo com o critrio de Wald, todos os paramntros submetem-se exigncia de um nvel de significncia de 5%, estimados pelo mtodo de stepwise.
DF 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,005 10,383 11,261 -0.8859 0.8881 0.8738 -0.6166 0.6794 0.6871 0.4173 0.4475 0.3880 0.2166 0.1807 -0.1409
S.E 0,045 0.4622 0.8665 0.4864 0.1163 0.0986 0.8012 0.1532 0.3136 0.4472 0.1849 0.2652 0.2088 0.1647 0.7656
Wald 14,00 50,46 16,89 33,17 58,28 78,62 59,23 19,66 48,01 87,05 58,55 21,41 10,76 12,03 3,39
Sig 0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,002 0,003 0,002 0,002 0,002 0,002 0,001
OR 2,824 2,824 3,083 0.412 2,43 2,396 0.540 1,973 1,988 1,518 1,564 1,474 1,242 1,198 0.869
IC para OR a 95% Limite Inferiror Limite Superior 1,91 7,98 1,142 6,99 0.564 16,85 0.159 1,07 1,935 3,05 1,975 2,91 0.112 2,60 1,461 2,66 1,075 3,68 0.632 3,65 1,089 2,25 0.877 2,48 0.825 1,87 0.867 1,66 0.194 3,90
Tabela 6.3 - coeficientes de regresso, as estatsticas de Wald, O teste de Hosmer Lemeshow, apresentado nas tabelas seguintes, configura mais uma vez uma boa aderncia dos dados realidade observada.
109
Grupo 1 2 3 4 5 6 7 8 9 10
Total 232 232 232 232 232 232 232 232 232 235
Regulares Defaults Obeservados Esperados Obeservados Esperados 41 65 94 103 111 117 136 145 153 194 41 68 89 100 110 121 132 145 161 191 191 167 138 129 121 115 96 87 79 41 191 164 143 132 122 111 100 87 71 44
Chi-Square 27688
DF 8
Residuos
Por fim a distribuio dos resduos -se confrontado com a plausibilidade de assumirem uma distribuilo normal, encontrando-se 95% das obsrvaes entre -1.96 e +1.96.
Dbeta
Ordenou-se de forma decrescente, o ficheiro de dados e, apresentam-se as primeiras 16 observaes, constatando-se que nenhuma delas maior que 1, pelo que, na estimao do modelo, no esto includas observaes tidas como outliers.
110
-0.051 0.012 0.021 -0.035 -0.031 0.011 0.011 -0.035 0.020 0.017 0.019 -0.047 0.010 -0.028 -0.040 0.020
0.043 0.037 0.036 0.036 0.035 0.034 0.034 0.033 0.033 0.033 0.033 0.032 0.032 0.032 0.031 0.031
-0.001 -0.021 -0.027 -0.057 -0.048 -0.021 -0.022 -0.007 -0.030 -0.004 -0.028 -0.016 -0.008 -0.012 0.007 -0.026
-0.002 -0.002 0.000 -0.007 -0.004 -0.002 -0.002 -0.009 -0.001 0.003 0.001 -0.009 -0.001 -0.006 0.005 0.000
-0.258 -0.002 -0.003 0.001 0.002 -0.004 -0.003 0.000 -0.004 -0.002 -0.002 -0.240 -0.002 0.005 0.014 0.000
-0.010 0.013 -0.002 0.004 0.002 0.001 -0.006 0.001 -0.012 -0.120 0.012 0.008 -0.019 0.059 0.023 -0.001 0.001 -0.008 -0.004 0.002 -0.002 0.007 -0.022 -0.158 -0.007 -0.003 -0.001 -0.023 0.001 -0.002 -0.006 -0.001 0.009 0.035 0.012 0.012 -0.002 0.002 0.000 0.003 0.012 0.000 -0.045 0.008 -0.029 0.002 0.000 0.044 Tabela 6.7 DBeta
0.025 0.006 0.024 0.029 0.053 0.016 -0.002 0.011 0.016 -0.005 -0.010 -0.017 -0.003 -0.019 -0.123 0.001
-0.008 0.001 0.004 -0.003 -0.062 0.001 0.001 0.042 -0.001 0.003 -0.001 -0.004 0.001 0.002 0.005 0.000
0.001 -0.008 -0.016 0.003 -0.079 -0.011 -0.004 -0.033 -0.019 -0.002 -0.007 0.011 -0.003 0.012 0.075 -0.016
-0.018 -0.006 -0.005 0.003 -0.015 0.004 0.006 -0.086 -0.018 0.002 -0.012 -0.070 -0.006 -0.060 -0.007 -0.001
0.034 -0.001 -0.023 0.023 -0.013 0.006 0.006 0.056 0.027 -0.020 0.006 0.030 0.001 -0.004 0.034 -0.025
Curva de Roc
Apresenta-se na tabela 6.8 a rea da curva de ROC e a estatstica de Kolmogorovsmirnov para os diferentes modelos estimados, subconjunto de treino e subconjunto de validao.
Rcio de classificao global 68,32% 69,04% 72,03%
KS Treino 0,353 0,349 0,333 Teste 0,345 0,360 0,428 Treino 0,761 0,764 0,752
Tabela 6.8 avaliao da qualidade do modelo O modelo que melhor generaliza os dados e, portanto, melhor responde ao objectivo do
111
112
semelhana do que foi considerado para o modelo logit, tambm com as redes foi apurada qual a que apresentava melhor desempenho curva ROC. A tabela 6.9 sumaria a comparao entre os modelos de redes neuronais consideradas utilizando o conjunto de validao na avaliao do modelo identificado.
o conjunto 80%-10%-10% que apresenta um melhor desempenho na generalizao do conjunto de dados. Apresenta-se em apndice B figura tradutora do grfico de aprendizagem que se obtiveram na rede com 11 neurnios, para a melhor partio 80%-10%-10%, para o conjunto de treino. Analisando o tradicional cutoff 50% associado pontuao da probabilidade de incumprimento, pode se verificar igualmente que a rede neuronal apresenta um reduzido risco de crdito (erro tipo I).
113
7 Concluso:
No advento da entrada em vigor do acordo de Basileia II, as instituies financeiras munen-se de sofisticadas tcnicas de anlise de risco a fim de melhor optimizarem a sua carteira e, concomitantemente, a observncia dos valores mnimos de capital requeridos para afectarem s diferentes carteiras de crdito. O credit scoring aparece como o sistema usado pelas instituies financeiras para determinar a oportunidade de concesso de crdito a um solicitante. Levou-se a cabo assim, a tarefa de modelar uma base de dados real associada carteira de crdito ao consumo (segemto Lar) de uma instituio Cabo-Verdiana, tendo sido competitvamente analisadas duas ferramentas utilizadas em credit scoring: O modelo logit (regresso logistica) e as Redes Neuronais. As dezasete variveis iniciais utilizadas para estudar o problema so as constantes na ficha de solicitao de crdito s quais se juntaram duas outras: o rcio de endividamento e a varivel target. Relativamente primeira, esta defenida como o rcio entre o valor da prestao mensal e o rendimento do titular, representa uma importante varivel de negcio que traduz a capacidade de um indivduo fazer face ao servio de divida que pretende contrair; j quanto segunda, houve que recorrer informao disponvel nos planos de pagamentos a fim de possibilitar a sua classificao em regular ou em default, isto , situao em que o cliente apresenta um atraso de 90 dias relativamente ao vencimento da prestao, numa base mensal. Assim todos os modelos foram elaborados, tendo como objectivo classificar operaes de crdito de acordo com a sua probabilidade de apresentar atrasos no pagamento das prestaes, tendo sido desprezados critrios de lucratividade que, conforme discutido constituiria uma abordagem alternativa a que propomos desenvolver. Os indivduos classificados como indeterminados foram expurgados da modelao de forma a garantir uma maior discriminao dos grupos, assim como os clientes inactivos. Optou-se por no excluir o conjunto dos indivduos rejeitados a fim de possibilitar a avaliao do desempenho do modelo utilizando a tcnica da inferncia dos rejeitados como referido na pgina 41.
114
Debelada a classificao, seleccionou-se a janela de amostragem, perodo sobre o qual repousa a estimao dos modelos. Este perodo foi seleccionado aps se ter verificado que o tempo mdio de exposio dos contratos (tempo que media o momento do inicio do contrato e a data de obervao) se aproximava da maturidade da populao (momento a partir da qual a taxa de incumprimento da carteira de crdito no evolui mais. Assim poderemos definir o cliente regular do default com maior segurana zelando pela qualidade da definio da varivel target. Para aferir a capacidade preditiva dos modelos estimados, subdividiu-se o conjunto amostral em trs subconjuntos: subconjunto de treino, validao e teste. sobre este penltimo que se retiram as concluses quanto operacionalidade dos modelos de credit
scoring.
A fim de possibilitar o melhor desenho do perfil dos clientes a amostra dever encontrarse balanceada. Dado o maior nmero de indivduos em situao regular que em default, ponderaram-se os indivduos regulares na percentagem que equilibrasse os dois grupos, emprestando desta feita uma maior riqueza na extraco dos ponderadores e, portanto, na melhor identificao de clientes. Todas as variveis disponibilizadas foram individualmente submetidas ao processo de categorizao, que detectou grupos (categorias) de resposta homognea em relao varvel target. Cabe referir que foram utilizados as mesmas variveis para propsitos de comparao nas duas tcnicas. Para ambas as ferramentes utilizou-se o weight of
nomeadamente a determinao do nmero de neurnios que devero compor a camada intermdia, indiciado atravs do mtodo de tentativa e erro, foi ensaiado a estatstica de raz quadrada do erro mdio quadrtico, tendo, esta apontado 11 neurnios como a rede que melhor discrimina as duas naturezas de indivduos em estudo. As arquiteturas foram apuradas na explorao do conjunto 70%-15%-15%.
115
Geraram- se novos conjuntos aleatrios, 60%-20%-20% e 80%-10%-10% (identificando cada percentagem a dimenso do conjunto de treino, validao e teste respectivamente), a fim de poder conferir diferentes dimenses de parametrizao s ferramentas envolvidas em comparao e garantir a capacidade de generalizao que fulcral nestes trabalhos. O resultado do modelo logit e das redes neuronais foram comparados por recurso curva de ROC.
Redes Neuronais Logit NN11 60%-20%-20% 0,760 0,763 70%- 15%-15% 0,764 0,767 80%- 10%-10% 0,787 0,790 Tabela 6.11- Comparao da rea da curva de ROC
Quer no modelo logit, quer nos modelos de redes neuronais, o conjunto de 80%-10%10% aquele que sugere uma melhor generalizao para os dados do subconjunto de validao. A leitura das evidncias numricas associadas aos diferentes modelos ensaidos apontam ser o modelo baseado em redes neuronais como sendo o que melhor desempenho apresenta a prever o risco de crdito no mercado Cabo-veridano, quando comparado com o modelo logit. Contudo, para eleger estatisticamente o modelo que melhor se ajusta aos dados existentes em Cabo Verde, recorreu-se a estatstico U de Mann-Whitney proposto por (Delong E.R 1998) para comparar as reas das diferentes curvas ROC associados aos diferentes modelos desenvolvidos, cujos resultados se apresentam na tabela 6.12.
Chi-quadrado 0,254
d.f 1
Sig 0,075
O ensaio do teste estatstico realizado permite concluir no haver evidncia estatstica a 95% de confiana para afirmar que as redes neuronais so preferveis ao modelo logit (ou vice versa).
116
Apesar de todas as dificuldades tcnicas e prcticas, dos modelos de credit scoring, esses modelos consistem em ferramentas bastante vlidas para auxiliar o processo de anlise de crdito, de uma forma obejctiva, racional e prctica, tendo em vista que o seu desempenho sem dvida superior aos mtodos tradicionais (subjectivos) que ainda predominam em muitas instiuties em Cabo Verde. Como anlise global, considera-se que este processo de investigao, constituiu um valioso meio para discusso, e serviu para identificar, consolidar e sugerir linhas de investigao e abrir caminhos para o aprofundamento desta temtica no seio dos investigadores Caboverdianos.
8 Limitaes
A primeira dificuldade que surge em qualquer tarefa de modelao, mormente o credit
scoring, diz respeito elaborao de uma base de dados em condies apropriadas para
o estudo. preciso recolher e preparar um grande volume de dados, sendo necessrio observar as condies de preechimento das variveis e, caso necessrio eliminar registos sobre os quais se desconfia da veracidade. A base de dados utilizada no presente estudo continha algumas variveis com elevadas percentagens de missing, por outro lado no foi possvel recolher muitas variveis potencialmente discriminantes, (como por exemplo: Tipo de habitao, Antiguidade na habitao, antiguidade na profisso, nmero de dependentes, relao entre o primeiro e o segundo titular; informao do segundo titular... etc.). A ausncia destas variveis no prejudicou os modelos desenvolvidos, mas recomenda-se que sejam utilizados sempre que possvel.
117
9 Bibliography
Amemiya, T. Advanced Econometrics. Oxford, 1985. Ash, Dennis., e Steve Mester. Best Practice in Reject Inferencing: Presentation at Credit Risk Modeling and Decisioning Conference. Wharton FIC, University of Pensylvania, 2002. Bao, Fernando Lucas. Data Mining : Ps-Graduao em Estudos de Mercado e CRM. Lisboa, 2005. Banasik, John, e Jonathan Crook. Lean Models and Reject Inference. Jounal of Operational Research Society, 2005. Baptista, Jos Galvo. O Custo de Intermediao Financeira em Cabo Verde -Factores Condicionantes . Praia: Banco de Cabo Verde, 2006. Barlett, P. For valid generalization, the size of the weights is more important that the size of the network. Advances in Neural Information Processing Systems, 9:134-140, 1997. Beale, Jackson R.T. Neuronal Computing: An introduction. Adam Hilger Publishers. 1990. Beck, N., G. King, e L. Zeng. Improving Quantitative Studies of International Conflict:A Conjecture. Vols. Vo1. 94, No. 1. American Political Science Review., 2000. Blum, A. Neural Networks in C++. Vol. NY. Wiley, 1992. Boger, Z., e H. Guterman. Knowledge extraction from artificial neural network models. Florida: IEEE Systems, Man, and Cybernetics Conference, 1997. Boletim Econmico. Praia: Banco de Cabo Verde, Fevereiro 2009. Bose, N., e P. Liang. Neural Network Fundamentals with Graphs, Algorithms and Applications. USA: McGraw-Hill, 1996. Braga, A. C. Curvas ROC: Aspectos Funcionais e Aplicaes :Tese de Doutoramento. Braga: Universidade de Minho, 2000. Braga, A. P., A. C. P. L. F. Carvalho, e T. B. Ludemir. Redes Neurais Artificiais: Teoria e Aplicaes. Rio de Janeiro: LTC Livros Tcnicos e Cientificos Editora S.A, 2000. Burgo, Carlos. Encontro de Governadores dos PALOP. Encontro de Governadores dos PALOP. Lisboa 19 e 20 de Setembro 2005: Banco de Cabo Verde, 2005. Choro, Lus Antnio Ribeiro. Logit vs Redes Neuronais Artificiais: Um exemplo aplicado a cartes de crdito. Lisboa: Tese de Mestrado em Estatstica e Gesto de Informao ISEGI-UNL, 2005. 118
Cloete, I. e J. M. Zurada. Knowledje-based Neurocomputing. Massachutsetts: Massachutsetts Institute of Technology, 2000. Cortez, Paulo, e Jos Neves. Redes Neuronais Artificiais. Braga: Escola de Engenharia Universidade do Minho, 2000. Crook, J. N., J. B. Banasik, e L. C. Thomas. Sample Selection Bias in Credit Scoring Models. Journal of the Operational Research Society,, 2003. Crook, J., e J. Banasik. Does Reject Inference Really Improve the Performance of Application Scoring Models? Journal of Banking and Finance, 2004. Damsio, A R. O Erro de Decartes - Emoo, Razo e Crebro Humano. (D.Vicente e G.segurado,Tra 6 ed): Publicao Europa -Amrica, 1995. Delong E.R, Delong D.M e D. Clarke-Pearson. Comparing the Areas Under Correlated Receiver Operating Characteristics Curves: A Nonparametric Approach. Biometrics (44), 837-845., 1998. Dempster, P.A, N.M. Laird, e D.B. Rubin. Maximum Likehood for imcomplete Data. Journal of the Royal Statistics Society, 1977. Efron, B., e R. Tibshirani. An Introduction to the Bootstrap. USA: Chapman & Hall, 1993. Eisinga, R., P. Franses, e D. Dijk. Timing of Vote Decision in First and Second Order Dutch Elections 1978-1995 Evidence from Artificial Neural Networks. Oxford Journal, Political Analysis., 1997. Feelders, A.J. Credit Scoring and Reject Inference With Mixture Models. Tilburg University, The Netherlands: Internation Journal of Intelegent System in Accounting, Finance and Management, 2000. Freeman, James, e David M Skapura. Neural Networks: Algorithms Applications and Programming Techniques. Addison-Wesley Publishing, 1992. Gallant, S. Neural Network Learning and Expert Systems. USA: MIT Press, Cambridge, 1993. Gestel, Tony Van, e Bart Baesens. Credit Risk Management: Basic concepts: Financial risk components, Rating analysis, models, economic and regulatory capital. Oxford, 2009. Gorni, A.A. Redes Neuronais Artificiais - Uma abordagem revolucionria em inteligncia artificial. Microsistemas,. 1994. Gurney, K. An introduction to Neuronal Network. London: UCL Press, 1997. Hand, D.J., e W.E. Henley. Can Reject Inference Ever Work? IMA Journal of Mathematics Applied in Business and Industry, 1993. 119
Haykin, S. Neuronal Networks - A Comprehensive Foundation. New Jersey: Prentice Hall, 1999. Henley, J. A, e B. J. McNeil. The Meaning and Use of the Area Under the Receiver Operating Characteristics (ROC) Curve. 1982. Hosmer, David W, e Stanley Lemeshow. Applied logistic regression. Vol. Wiley series in probability and statistics. Texts and references section. New York: Wiley, 2000. Hsai, D.C. Credit Scoring and the Equal Credit Oportunity Act. The Hasting Law Journal, 1978. Joanes, D.N. Reject Inference Applied to Logistic Regression for Credit Scoring. IMA Journal of Mathematics Applied in Business and Industry, 1993. Johnson, R.A., e D. W. Wichern. Multivariate Statistics Analysis. Vol. 5 edio. New York: Printice Hall, 2002. Kernsley, D., e T. Martinez. A Survey Of Neural Network Research And Fielded Applications. Vols. 2:123-133, 1992. International Journal of Neural Networks: Research and Applications. Kohonen, T. Self-Organizing Maps. New York: Information Sciences, 2001. Kosko, B. Bidirectional Associative Memories. Vols. SMC-18:49-60. IEEE Transactions on Systems, Man and Cybernetics, , 1988. Kovacs, K. L. Redes Neurais Artificiais - Fundamentos e Aplicaes. So Paulo: Editora Acadmica, 1996. Krse, B., e P. Smagt. An Introduction to Neural Networks. Vol. 8 Edio. The University of Amesterdam, 1996. Law, R., e R. Pine. Tourism Demand Forecasting for the Tourism Industry:A Neural Network Network Approach. In G. Peter Zang, Neural Networks in Businesses Forecasting. Chapter VI. IRM Press., 2004. Levine, Ross. Financial Development and growth: Schumpeter might be right. (Quarterly Journal of Economics) Vol. 108, no. 688-726. (1997). Lewis, Edward M. An Introduction to Credit Scoring. Vol. Seconde Edition. San Rafael, California: Fair, Isaac and Co.,Inc., 1992. Massoumi, E., A. Khotanzad, e A. Abay. Artificial Neural Networks for Some Macroeconomic Series. Econometric Reviews, 13(1)., 1994.
120
Mateus, Abel. Anlise da eficincia e rentabilidade do sector bancrio. Praia Cabo Verde, 2000. Mays, E. Credit Scoring for risk managers: The Handbook for lenders. Mason,OH, 2004. Mays, Elizabeth. Handbook of Credit Scoring. Chicago: The Glenlake Publishing Company. Ltd, 2001. McNelis, P. D. Neural Networks in Finance:Gaining Predictive Edge in the Market. Elsevier Academic Press., 2005. Meneses, Maria Alexandrina da Silva. As Redes Neuronais na Anlise de Trfico com o GPS:Dissertao de Mestrado em Posicionamento e Navegao por Satlite. Faculdade de Cincias da Universidade do Porto. 2003. Mester, Lorreta J. What's the Point of Credit Scoring. 1997. Montrichard, Derek. Reject Inference Methodologies in Credit Risk Modeling. Toronto, Canada: Canadian Imperial Bank of Commerce, 2007. Nargundkar, S., e J. Priestley. Assessment of Evaluation Methods for Prediction and Classifications of Consumer Risk in the Credit Industry. In G. Peter Zang,Neural Networks in Businesses Forecasting. Chapter XIV. IRM Press., 2004. Neto, L.B. Sistema hbrido de apoio deciso para deteco e diagnstico de falhas em redes eltricas. Dissertao de Mestrado em Engenharia Eltrica,. Rio de Janeiro: Pontifcia Universidade Catlica do Rio de Janeiro, 1997. Neves, J. C., e A. Vieira. Estimating Banruptcy Using Neural Networks Trained with Hidden Layer Learning Vector Quantization. Lisboa: Working Paper,Departamento de Gesto, ISEG, UTL., 2004, Departamento de Gesto, ISEG, UTL. Niu, Jack. Managing Risks in Consumer Credit Industry. Beijing: Policy Conference on Chinese Consumer Credit, 2004. Patterson, D. Artificial Neural Networks - Theory and Applications. Singapore: Prentice Hall, 1996. Raymond, Anderson. The Credit Scoring Tookit Theory and Practice for Retail Credit Risk Management and Decision Automation. New York: OXFORD University Press Inc., New York, 2007. Reed, R.D., e MarsII. Neuronal Smithing:Supervised Learning in feedward Artificial Neuronal Network. Cambridge, MIT, 1999.
121
Reichert, A.k., C.C Cho, e G. M. Wagner. An Examination of the Conceptual Issues Involved in Developing Credit Scoring Models. Journal of Business and Economic Statistics, 1983. Riedmiller, M., e H. Braun. A Direct Adaptative Method for Faster Backpropagation Learning: The RPROP Algorithm. San Francisco, CA, USA: In Proceedings of the IEEE International Conference on Neural Networks, 1993. Roisenberg, Mauro. Emergncia da Inteligncia em Agentes Autnomos atravs de Modelos Inspirados na Natureza. Florianpolis: Tese de Doutoramento em Engenharia Eltrica: Universidade Federal de Santa Catarina, 1998. Roisenberg, Mauro, e Renato Corra Vieira. Redes Neuronais Artificiais: Um Breve Tutorial. Russel, S., e P. Norvig. Artificial Intelligence - A Modern Approach. New Jersey, USA: Prentice-Hall, 1995. Sarle, W. Neural network. 1999. Stopped Training and Other Remedies for Overfitting. In Proceedings of the 27th Symposium on the Interface of Computer Science and Statistics, pages 352-360,, 1995. Sarmento, Antnio. Experimentao e avaliao de modelos para um problema de atribuio de Crdito:Tese de mestrado em anlise de dados e sistemas de apoio deciso. Porto: Universidade do Porto Faculdade de Economia, 2005. Schumpeter, Joseph. The theory of Economic Development; traduzido por Redvers Opie, Cambridge,. Harvard University Press , 1911. Shachmurove, Y. Applying Artificial Neural Networks to Business, Economics and Finance. CARESS Working Papers: UCLA Department of Economics., 2002. Shin, H.W., e So Young Sohn. Reject inference in credit operations based on survival analysis. Seoul, South Korea: Department of Computer Science and Industrial Systems Engineering, 2006. Siddiqi, Naeem. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. New Jersey: Jonh Wiley & Sons, Inc, 2006. Stanton, T.H. Credit and Loan Scoring: Tools for Improved Management of Federal Credit Programs. Baltimore MD: Center for the Study of American Government, John Hopkins University, 1999. Swingler, K. Applying Neural Networks: A Practical Guide. London: Academic Press, 1996. 122
Tabachnick, B G, e L S Fidell. Using Multivariate Statiscts. Vol. 4 edio. 2001. Thawornwong, S., e D Enke. Forecasting Stock Returns with Artificial Neural Networks. G. Peter Zang, Neural Networks in Businesses Forecasting,Chapter III, IRM Press., 2004. Thomas, Lyn C. Consumer Credit Models: Pricing, Profit and Portfolios. New York: Oxford University Press Inc., 2009. Thomas, Lyn C.,Edelman, David B., e Jonathan N. Crook. Credit Scoring and Its Applications. 2002. Turner, Robin Varghese e Michael. The Benefits of Wider Participation in Full-File Credit Reporting in Latin America and the Costs of the Status Quo. (Information Policy Institute) Maro 2006: 2. Wasserman, P. D. Neural Computing: Theory and Practice. New York., 1989. Wynn, Helen McNab & Anthea. Principles and Practice of Consumer Credit Risk Management. Vol. 2nd edition. Institute of financial services, 2003. Yeung, T. Kwork e D. Constructive algorithms for structure learning in feedforward neural networks for regression problems::A survey. IEEE Transactions on Neural Networks. Vols. 8(3):630-645. 1999. Zhang, Y., Akkaladevi,S., Vachtsevanos,G., e T. Lin. Granular neural web agents for stock prediction. Soft Computing 6 (2002) 406 41. Springer-Verlag., 2002.
123
Apendices
Analysis of Maximum Likelihood Estimates Standard Wald DF Estimate Error Chi-Square 1 0.99 0.03 803 1 0.96 0.10 98 1 0.85 0.07 139 1 0.67 0.22 28 1 0.62 0.12 27 1 -0.58 0.38 58 1 0.56 0.59 46 1 0.52 0.30 89 1 0.51 0.68 65 1 0.47 0.14 67 1 0.43 0.26 59 1 0.48 0.07 89 1 0.80 0.22 88 1 0.89 0.03 48
Pr > ChiSq <.0001 <.0001 <.0001 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002
124
Partition for the Hosmer and Lemeshow Test TARGET= 0 TARGET = 1 Group Total Observed Expected Observed Expected 1 483 197 201 286 282 2 483 295 285 188 198 3 483 327 314 156 169 4 483 323 334 160 149 5 483 347 351 136 132 6 483 365 369 118 114 7 483 392 386 91 97 8 483 396 403 87 80 9 483 423 422 60 61 10 479 447 447 32 32
Test Hosmer and Lemeshow Goodness-of-Fit Chi-Square 5.2799 Pr > ChiSq 0.7273
125
126