Вы находитесь на странице: 1из 126

Credit Scoring:

Aplicao da Regresso Logstica vs Redes Neuronais Artificiais na Avaliao do Risco de Crdito no Mercado Cabo-Verdiano.

por

Danilson Pedro da Veiga Semedo

Dissertao apresentada como requisito parcial de obteno do grau de

Mestre em Estatstica e Gesto de Informao

Pelo

Instituto Superior de Estatstica e Gesto de Informao da Universidade Nova de Lisboa

Credit scoring:
Aplicao da Regresso Logstica vs Redes Neuronais Artificiais na Avaliao do Risco de Crdito no Mercado Cabo-Verdiano.

Orientador: Professor Doutor Fernando Jos Ferreira Lucas Bao

Novembro de 2009

minha famlia e Telma

Agradecimento
Gostaria de expressar a minha gratido ao meu orientador Professor Doutor Fernando Jos Ferreira Lucas Bao, pelo apoio e amizade. Ao Dr. Lus Antnio Ribeiro Choro, pelos ensinamentos economtricos que me apresentou desde os tempos de licenciatura, o que fez com que criasse curiosidade intelectual e vontade prpria de me dedicar temtica do credit

scoring, bem como pela disponibilidade e sugestes com as quais enriqueceu a


presente dissertao. Fico igualmente reconhecido ao Dr. Emanuel de Jesus Miranda, e ao Banco Comercial do Atlntico pela possibilidade que me conferiram em aceder base de dados de crdito ao consumo, bem como Luclia Semedo, pela disponibilidade e prontido no esclarecimento de dvidas relativas base de dados. Um agradecimento especial Fundao Cidade de Lisboa e ao Banco de Portugal patrocinadores deste mestrado. A todos os amigos do ISEGI, em especial ao Ricardo Vinhas, Nuno Trezentos, Elisabete Paulo, Clia Correia e Joo Paulo Segundo. So, tambm, extensveis os meus agradecimentos ao Dr. Joo Remgio e ao Dr. Andr Melo, pelos momentos de discusso que me proporcionaram em torno do

credit scoring.
Telma, pela companhia e pacincia que demonstrou ao longo dos muitos dias de estudo e trabalho. Aos meus Pais pelo apoio, coragem, incentivo e pacincia que teve ao longo destes ltimos tempos, a fim que este projecto se tornasse realidade. 4

... O negcio de um banco o risco! H que reconhec-lo, mensur-lo e, no sendo possvel bani-lo, mister control-lo!. (Choro 2005, 121)

Resumo
A gesto de risco de crdito sem dvida uma das reas mais importantes no domnio da gesto de risco financeiro. Com a recente crise financeira, e as alteraes a nvel da regulao introduzidas pelo acordo de Basileia II, a anlise do risco de crdito e a gesto do risco em geral, tm recebido ainda mais ateno pela indstria financeira. A capacidade de discriminar bons e maus clientes tornou--se um factor decisivo para o sucesso das empresas que operam na indstria do crdito, impulsionando-as a agir de acordo com um processo de avaliao de risco mais fino. Nos pases desenvolvidos, os modelos de credit scoring tm sido largamente utilizados neste sentido. Contudo, em Cabo Verde estas tcnicas ainda esto numa fase embrionria. As instituies financeiras continuam a utilizar mecanismos indirectos de gesto de risco. Neste ambiente, alguns bancos tm procurado alinhar se s melhores prticas internacionais de gesto de risco. Neste trabalho so apresentadas duas ferramentas para a elaborao de modelos de

credit scoring aplicado a uma base de dados de crdito ao consumo de uma grande
instituio financeira Cabo-Verdiana. Depois da fase de preparao do dos dados e definida todos os parmetros (definio da target, amostra de desenvolvimento e perodo de classificao), foram estimados vrios modelos logit e vrias redes neuronais multicamadas segundo diversos subconjuntos de treino/teste formados. Por fim o desempenho dos modelos comparada com base em medidas comummente utilizados na avaliao de modelos de risco de crdito para eleger o modelo que melhor se ajusta realidade Cabo-Verdiana. Apesar dos testes estatisticos indicarem que os modelos apresentam Verde. desempenhos estatisticamente semelhantes, as redes neuronais representam uma promissora tcnica para a anlise e concesso de crdito em Cabo

Palavras-chaves: Credit scoring, modelo logit, curva ROC, redes neuronais multicamadas.

Abstract
Credit risk managment, is undoubtely one of the most important area in the field of financial risk management. With the recent regulatory changes introduced by the Basel II, the credit risk analysis in particular and risk management in general, have received more attention by the financial industry. The capacity to discriminate between good and bad accounts has become a key decision factor for the success of the credit industry companies, empeling them to act according to a more sophisticated risk management process. In developed countries, credit scoring has beem widely used in this sence. However, in Cape Verde, these techniques are still in its infancy. Financial institutions continue to use indirect mechanisms of adjudication process based on credit analyst feelings. In this environment, some banks have sought to align itself with international best practice risk management by introducing more accurate evaluation of credit. This work consists in comparing two diferent tools for the elaboration of a credit scoring model applied to a credit consumer database from a big financial instituition of Cape Verde. After database preparation and definition of the project parameter (default, sample window, performance windows) various logit models and several multilayer perceptron networks were estimated, according to different train/test subgroups formed. Finally, the performance of the models are compared based on measures commonly used to evaluate models of credit risk to elect the model that best fits the reality of Cape Verdean. Despite the statistical tests indicate that the models show statistically similar performances, neuronal networks represent a promising technique for credit adjudication process in Cape Verde. Palavras-chaves: Credit scoring, modelo logit, curva ROC, redes neuronais multicamadas.

ndice Resumo .............................................................................................................................. 6 1 Introduo ................................................................................................................ 10 1.1 Motivao e relevncia do trabalho .................................................................... 12 1.2 Objectivos.......................................................................................................... 14 1.3 Organizao da dissertao ................................................................................ 14 2 Credit Scoring .......................................................................................................... 16 2.1 Histria do credit scoring................................................................................... 16 2.2 Filosofia de credit scoring.................................................................................. 18 2.2.1 Scoring versus objectivos de negcio ......................................................... 20 2.3 Mtodos utilizados em credit scoring ................................................................. 21 2.4 Vantagens e desvantagens do credit scoring, ...................................................... 24 2.5 Actividade de crdito em Cabo Verde ................................................................ 25 2.6 Condicionantes da actividade de crdito e benefcios da introduo do credit scoring em Cabo verde ................................................................................................. 28 2.7 Superviso e gesto de risco de crdito no sector bancrio em Cabo Verde. ...... 30 3 Caracterizao da base de dados de anlise ............................................................... 32 3.1 Qualidade da base de dados................................................................................ 34 3.2 Janela de amostragem e perodo de classificao. ............................................... 36 3.3 Definio de bom, mau e indeterminado. ........................................................... 37 3.4 Inferncia dos rejeitados .................................................................................... 39 3.4.1 Parceling ..................................................................................................... 40 3.4.2 Augumentation (dados aumentados) ........................................................... 41 3.4.3 Classificao de rejeitados como clientes maus ........................................... 41 3.4.4 Utilizao de informao de mercado.......................................................... 41 3.4.5 Potenciais benefcios da utilizao da inferncia dos rejeitados ................... 42 3.5 Seleco das variveis ........................................................................................ 43 4 Modelo de regresso logstica (Logit) ....................................................................... 46 4.1 Regresso logstica histria ................................................................................ 46 4.2 Especificao do modelo .................................................................................... 47 4.2.1 Modelo de Probabilidade Linear ................................................................. 47 4.2.2 Derivao do Modelo de Regresso Logstica Binomial. ............................. 49 4.2.3 Estimao do modelo .................................................................................. 51 4.3 Testes de significncia do modelo ...................................................................... 54 4.3.1 Teste de razo de verosimilhana ................................................................ 54 4.3.2 Teste de significncia dos parmetros (testes de Wald) ............................... 56 4.3.3 Teste de score (teste de multiplicadores de Lagrange) ................................. 56 4.4 Medidas de associao mltipla entre variveis as independentes e a varivel dependente. .................................................................................................................. 57 4.4.1 Pseudo R2 (teste de McFadden) ................................................................... 57 4.4.2 R2 de Cox e Snell ........................................................................................ 58 4.4.3 R2 de Nagelkerke ........................................................................................ 58 4.5 Medidas de qualidade do ajustamento ................................................................ 59 4.5.1 Testes de Hosmer e Lemeshow ................................................................... 59 4.5.2 Anlise de resduos ..................................................................................... 60 8

7 8 9

4.5.3 Curva ROC ................................................................................................. 63 Redes Neuronais Artificiais ...................................................................................... 67 5.1 Inspirao Biolgica: O Crebro Humano .......................................................... 68 5.2 Os componentes de uma Rede Neuronal Artificial ............................................. 69 5.3 Redes Neuronais Artificiais: Histria ................................................................. 73 5.4 Tipos de Redes Neuronais Artificiais ................................................................. 76 5.5 Tipos de aprendizagem ...................................................................................... 78 5.5.1 Aprendizagem por reforo .......................................................................... 79 5.5.2 Aprendizagem Supervisionada .................................................................... 79 5.5.3 Aprendizagem no-supervisionada .............................................................. 80 5.6 Redes Multi Layer Perceptron (multicamadas). ................................................. 81 5.6.1 Perceptron de uma nica camada. ............................................................... 81 5.6.2 Arquitectura de redes multicamdas (MLP) .................................................. 83 5.6.3 Algoritimo Backpropagation ....................................................................... 84 5.6.4 Consideraes sobre o Algoritmo Backpropagation .................................... 91 5.7 Redes Neuronais e modelos economtricos ...................................................... 104 5.8 Principais vantagens e limitaes das Redes Neuronais .................................... 106 Resultados da estimao dos modelos..................................................................... 108 6.1 Regressso Logstica ........................................................................................ 108 6.2 Redes Neuronais .............................................................................................. 112 Concluso: ............................................................................................................. 114 Limitaes.............................................................................................................. 117 Bibliography .......................................................................................................... 118 Apendices .................................................................................................................. 124 Apendice A Modelo logit com conjunto de treino de 80% ................................... 124 Apendice B Fit statistics RMSE .............................................................................. 126

Captulo I

1 Introduo
A gesto de risco representa um dos principais problemas enfrentado pelas instituies financeiras, desde o inicio da sua actividade. Isso ocorre, porque os bancos e as instituies financeiras em geral, tm como principal funo a intermediao financeira. No desenvolvimento da sua actividade de intermediao financeira, esto sujeitas a uma srie de riscos, designadamente quando realizam operaes que envolvem activos, passivos e elementos extrapatrimonias. Em relao s operaes de crdito, o banco concede crdito a outros agentes econmicos, sob a promessa de um recebimento futuro do capital mutuado e juros de acordo com o plano de reembolso contratado. Existe, contudo na carteira de crdito da instituio, muturios que podem no vir a cumprir as obrigaes monetrias contratados implicando prejuzos que tero de ser cobertos com as necessrias provises. A este no cumprimento das responsabilidades por parte do solicitante de crdito chama-se de default1. Nos ltimos anos devido sobretudo a presses regulamentares, as instituies financeiras tm procurado criar metodologias mais eficientes para aferir a probabilidade de incumprimento esperado em cada operao de crdito. Contudo, s recentemente, com a crise do crdito sub-prime hipotecrio nos Estados Unidos e, a consequente crise do mercado de crdito mundial, os consumidores, instituies financeiras e supervisores se aperceberam efectivamente da sua importncia. No mbito internacional, tem ocorrido de forma cada vez mais acelerada, uma revoluo na forma como as instituies financeiras tm avaliado o incumprimento, atravs de desenvolvimento de modelos internos de quantificao de risco.

De acordo com o novo acordo de Basileia II, considera-se que um indivduo est em situao de default desde que apresente um atraso superior a noventa dias no pagamento das prestaes.

10

Em Cabo Verde, o processo decisrio essencialmente intuitivo, estruturando-se no feeling e na experincia dos analistas de crdito. Habitualmente so analisadas variveis, tais como a taxa de endividamento (rcio entre os custos mensais do agregado familiar e o respectivo ordenado lquido; bens mveis e imveis do agregado; Profisso; Tipo de contrato de trabalho; estabilidade no emprego averiguvel pela antiguidade na entidade patronal; nvel dos saldos mdios nas contas bancrias do cliente; Entrada inicial face ao valor de preo de venda ao pblico e idades dos proponentes. Tendo em conta estes parmetros, os analistas, recorriam-se ao seu savoir faire para ponderar os prs e os contras, colocando-os numa balana mental para avaliar o risco de crdito, isto , para calcular a probabilidade de default do cliente. Recentemente, comea-se assistir a introduo de modelos de scoring genricos para aquilatar se um determinado indivduo tem perfil de bom ou mau pagador. O aumento da concorrncia entre as instituies financeiras e a crescente presso para a maximizao das receitas impulsionam as instituies financeiras, a procurarem mecanismos mais eficientes de atrair novos clientes com baixo perfil de risco e ao mesmo tempo controlar e minimizar as perdas. O aparecimento de novas tecnologias, o aumento da procura por crdito, bem como por uma questo de qualidade de servio a necessidade de responder o mais rpido possvel s solicitaes levou ao desenvolvimento e aplicao de sofisticados modelos estatsticos na gesto de risco de crdito, designados por credit scoring. Os modelos de credit scoring so sistemas que atribuem scores s variveis de deciso de crdito de um requerente, mediante a aplicao de tcnicas estatsticas. Esses modelos visam sumariar todas as caractersticas que permitem distinguir os bons dos maus emprstimos (Lewis, 1992). A partir de uma equao estimada com base nas caractersticas dos solicitantes de crdito, gerado um score que representa o risco de perda de cada operao. O score que resulta da equao, interpretado como probabilidade de incumprimento que comparado com um cut-off prviamente estabelecido associado a um conjunto de regras e filtros, permite ajuizar quanto concesso ou no de crdito. Assim, a idia bsica dos modelos de credit scoring identificar certos factores chave que influenciam a probabilidade de incumprimento dos clientes, permitindo a

11

classificao dos mesmos em grupos distintos e como consequncia, a deciso sobre a aceitao ou no da proposta em anlise. Os mtodos usados em credit scoring incluem vrias tcnicas estatsticas e de investigao operacional, sendo as mais utilizadas a regresso logstica, a anlise discriminante e as rvores de deciso (Choro 2005). Recentemente perante o advento das novas tecnologias (aumento da capacidade de processamento) e, ao aparecimento de softwares estatsticos nos anos 80, assistimos a adopo de tcnicas de inteligncia artificial, como as redes neuronais e os expert systems (L. C. Thomas 2009).

1.1

Motivao e relevncia do trabalho


A concesso de crdito desempenha um papel fundamental no desenvolvimento

de uma economia, em decorrncia da dinmica que introduz no processo econmico, seja como uma oportunidade para as empresas (especialmente as pequenas e mdias empresas) aumentarem os seus nveis de produo ou como estmulo ao consumo dos indivduos. Segundo (Baptista 2006), o reconhecimento de que os mercados financeiros, atravs do negcio de crdito privado, contribuem para o desenvolvimento econmico, bem marcante na literatura financeira, desde (Schumpeter 1911) at (Levine 1997). A ttulo de exemplo, o mercado de crdito ao consumo nos Estados Unidos tem demonstrado que estabilidade econmica baseada em polticas slidas de crdito sinnimo de prosperidade econmica, baixas taxas de desemprego e baixas taxas de juro. Ao longo das ltimas dcadas o crdito ao consumo nos Estados Unidos tem crescido num ritmo fenomenal tendo atingido em 2007 a marca de $13 trilies, superando em 40% o crdito concedido ao sector industrial e, em 24% ao crdito s empresas (L. C. Thomas 2009). A par de outros factores, o credit scoring, dado o automatismo que assegura foi o factor que mais permitiu a abertura do mercado de crdito a todos os consumidores, mantendo o risco num nvel controlvel. Em Cabo Verde a indstria do crdito bem menor dos pases desenvolvidos, todavia, o crdito ao consumo vem apresentando altas taxas de crescimento ao longo dos

12

ltimos anos. Segundo dados do Banco de Cabo Verde2 o crdito ao sector privado representa 45% do total do crdito concedido tendo registado em 2007 um crescimento de 30% face a 2006. Outros indicadores tais como o aumento expressivo da aceitao e utilizao dos cartes de crdito e, o volume de transaces, associados ao facto de ter uma populao maioritariamente jovem, bem como a alterao dos padres de vida e o aumento verificado na procura por crdito a habitao, oferece um enorme potencial de crescimento do mercado de crdito ao consumo no pas, quando comparado com as tendncias globais. Contudo, se no existirem metodologias eficazes de previso de incumprimento esperado e, controlo do processo de concesso de limites, as mesmas operaes de crdito podem levar a economia a um processo de abrandamento, em decorrncia de retraces das fontes financiadoras. Assim, para fazer face ao esperado desenvolvimento que Cabo Verde ainda conhecer e assegurar um crescimento sustentado do mercado de crdito ao consumo, imprescindvel sistemas de credit

scoring que permitam aos bancos e instituies financeiras avaliar automticamente os


riscos assumidos na concesso do crdito. Ademais, este trabalho justifica-se pela crescente importncia e actualidade dos modelos de credit scoring resultante das alteraes a nvel da regulao introduzidas pelo acordo de Basileia II3. Com este estudo pretende-se contribuir para o processo de gesto de risco de crdito em Cabo Verde, caracterizado por carentes instrumentos de avaliao e controlo do risco de crdito.

2
3

Boletim Econmico Banco de Cabo Verde Fevereiro 2009.


Bassileia II assenta em trs pilares:

Pliar I: Calculo do capital regulamentar de acordo com o rating das contrapartes ou de estimativas internas de probabilidades de default (PD), severidade da perda ( loss given default, LGD) e o valor da exposio em caso de incumprimento (Exposure at default, EAD). Pliar II: Anlise da adequao do capital resultante da aplicao das frmulas pr-definidas com a interveno da autoridade de superviso. Pilar III: Disclosure da informao de gesto baseado no risco.

13

1.2

Objectivos

O fenmeno de credit scoring ainda pouco conhecido, no caso especfico de Cabo Verde. Perdura ainda uma lacuna em termos de investigao cientfica sobre a matria, uma vez que, grande parte das instituies que operam no mercado no dispe de informao sistematizada e com antiguidade suficiente que sirva de suporte ao desenvolvimento de modelos de scoring. Com efeito, muitas questes se nos levantam: A informao de incumprimento existente em Cabo Verde suficiente para desenvolver um modelo de credit scoring robusto? Que tcnicas de desenvolvimento de modelos de credit scoring melhor se ajusta realidade de Cabo Verde? A presente dissertao tem por finalidade elaborar um modelo de credit scoring baseado num modelo economtrico e um modelo gerado a partir das redes neuronais artificiais para avaliao de risco de crdito relativo a solicitaes de crdito ao consumo.

1.3

Organizao da dissertao

Esta dissertao desenvolve-se ao longo de seis captulos. O conjunto de objectivos propostos anteriormente traduz, ainda que parcialmente, o modo como o trabalho foi estruturado. Nesta seco ao apresentar a organizao da dissertao, pretende-se orientar o leitor nas linhas seguidas ao longo do seu desenvolvimento. Assim, aps uma introduo, o segundo captulo, apresenta uma perspectiva histrica dos modelos de credit scoring, a sua filosofia de funcionamento, a sua aplicao em diferentes fases do ciclo de vida de uma operao de crdito e, a sua relao com os objectivos de negcio. Apresenta-se ainda, os mtodos utilizados na sua elaborao bem como as suas vantagens e limitaes. Por fim, faz-se uma breve reviso da actividade de crdito em

14

Cabo Verde, os condicionalismos ao seu desenvolvimento e os benefcios da introduo do credit scoring no mercado de crdito em Cabo Verde. O captulo 3 dedica-se temtica da qualidade da base de dados. Comea por descrever a base de dados considerada na elaborao da dissertao, desde a seleco da janela de amostragem e o respectivo perodo de classificao, passando pelo processo de preparao dos dados, indivduos considerados na modelao e seleco das variveis. Os captulos 4 e 5 apresentam as duas metodologias consideradas na dissertao. Por fim, so apresentadas algumas concluses gerais sobre o trabalho realizado.

15

Captulo II

2 Credit Scoring
Desde 1960 credit scoring tem revolucionado profundamente os processos de deciso de crdito. O seu sucesso deveu-se em grande parte ao advento dos computadores que alterou completamente o Back-office das Instituies financeiras (Raymond, 2007).

2.1

Histria do credit scoring


Em 1936, o Estaticista Ingls, Ronald Aymer Fisher publicou um artigo sobre a

utilizao da tcnica denominada de Anlise discriminante linear para classificar diferentes espcies de flores do gnero ris: ris setosa, ris versicolor e ris verginica, analisando o comprimento e largura das spalas e ptalas. O trabalho de Fisher forneceu as bases de anlise estatstica multivariada que veria a ser utilizado posteriormente em vrios problemas de classificao mormente credit scoring. Em 1941, David Durand no seu estudo para National Bureau of Economic Research (EUA), demonstrou que a mesma tcnica poderia ser utilizada para discriminar bons e maus emprstimos. Segundo (Johnson, 2004) o estudo analisa 7200 observaes de bons e maus emprstimos relativos a 37 empresas baseado na informao da idade, gnero, antiguidade no emprego, antiguidade na habitao, profisso, sector de actividade, contas bancrias, seguros de vida e valor da prestao mensal. Mais tarde, porm no mesmo ano, os Estados Unidos v-se envolvida na Segunda Guerra Mundial e muitas instituies de crdito e de direct mailing comearam a enfrentar grandes dificuldades de gesto de crdito. Muitos analistas de crdito foram recrutados para servio militar, o que provocou uma escassez de recursos humanos com Know-

how adequado para a funo, numa altura em que a deciso quanto concesso de
crdito era subjectiva, dependendo, sobretudo, da experincia do analista, sem haver, portanto qualquer aplicao da tcnica estatstica. (Lewis, 1992) refere que Henry Wells, executivo da Spiebel Inc corporation, foi o primeiro a recorrer s tcnicas de estatstica multivariada para desenvolver modelos de credit scoring... Alguns anos depois, por volta

16

do ano de 1946, o senhor Wonderlic, ento presidente da empresa Household Finance

Corporation, desenvolveu um Guia de credit scoring. E f-lo recorrendo igualmente s


tcnicas de estatstica multivariada. Apesar dos significativos progressos registados nas metodologias dos sistemas de

credit scoring, durante a segunda Guerra Mundial e, de estar provada a sua importncia,
dois factores inibiram desde logo a sua adopo: primeiramente, a resistncia organizacional em utilizar os computadores no processo de deciso, e em segundo lugar, a complexidade dos algoritmos e a dificuldade de implementao dos modelos nos postos de trabalho... Mas era s uma questo de tempo! Em 1956, com a fundao da primeira consultora na rea, pelo matemtico, Bill Fair e pelo engenheiro Earl Isaac, o credit scoring torna-se efectivamente um factor significativo na indstria do crdito. Inicialmente criaram um sistema de biling para a gesto de cartes de crdito do grupo Hilton Hotels. Dois anos mais tarde introduziram o conceito de credit scoring, e em 1958, produziram o primeiro modelo de scoring aplicacional. Uma vez que permitiam a avaliao em massa, so as empresas ligadas ao

direct mailing e grandes cadeias de distribuio seguidas das de leasing que,


primeiramente, utilizaram o conceito de credit scoring (Choro 2005). Durante a segunda metade dos anos 60, as empresas petrolferas incorreram em enormes perdas devido a problemas com a gesto das operaes de crdito, nomeadamente, o aumento estrutural dos eventos de incumprimento e roubos de cartes de crdito. Em resposta implementaram modelos de credit scoring. Nesta altura, os cartes eram emitidos sem anuidades, o que provocou, por um lado, um aumento significativo de pessoas a recorrem ao crdito, e por outro, aumento da concorrncia. Muitos dos emissores de cartes de crdito de ento, eram confrontados com grandes volumes de solicitaes e experimentaram avultosas perdas. (Lewis, 1992) conclui que, este facto constitui a principal razo associada introduo dos modelos de scoring, pelo controlo que assegura sobre a carteira de crdito. O sucesso de credit scoring no foi imediato. O facto dos modelos estatsticos removerem toda a interveno humana no processo de deciso no inspirava confiana em muitos adeptos da avaliao manual (tradicional). Apesar das resistncias, credit

scoring foi ganhando aceitao e, afirmou-se definitivamente em 1974 aquando da


implementao do Fair Credit Reporting ACT e Equal Credit Opportunity Act em

17

1975/1976. Este facto tornou a discriminao ilegal no processo de atribuio de crdito, a no ser que empiricamente provado e validado estatisticamente. Na altura, a nica restrio, era a capacidade de processamento necessrio. Os computadores de ento, IBM 7090 mainframe, eram grandes, pouco eficientes comparado com os padres actuais. Pois que, s conseguiam processar simultaneamente 26 variveis num conjunto de 600 observaes (Meys e Forgey 1963). O sucesso do credit scoring na concesso de cartes de crdito nos anos 80, fez com que as instituies bancrias o aplicassem a outros tipos de bens, como o crdito pessoal, automvel e hipotecrio e, desta forma verem aumentados os seus lucros.

2.2 Filosofia de credit scoring


A previso do risco e, o credit scoring em particular uma rea que mais desenvolvimento tem conhecido em finanas nos anos mais recentes. A par da gesto do

portfolio, princing options, (e outros instrumentos financeiros), credit scoring representa


uma importante ferramenta de estimao e reduo do risco de crdito. Na extensa literatura existem vrias definies de credit scoring. Por exemplo (Lewis 1992) define credit scoring, como um processo em que a informao sobre o solicitante convertida em nmeros que de forma combinada forma um score. Este score representa o perfil de risco do solicitante; (Mester 1997) acrescenta que um mtodo estatstico usado para prever a probabilidade de um solicitante entrar em incumprimento. Usando dados histricos, o credit scoring isola as caractersticas dos solicitantes que entraram em situao de default produzindo, ento, um score que a instituio utiliza para classificar o candidato ao crdito em termos de risco (p. 3) e, decidir quanto concesso do crdito. Utilizado inicialmente como uma poderosa ferramenta de suporte deciso crdito, (crdito habitao, automvel, cartes de crdito, crdito clssico, e crdito a pequenas e mdias empresas) o credit scoring, actualmente, usado para gerir e monitorizar o risco de incumprimento de todo o portflio de crdito de uma instituio financeira, incluindo empresas, autoridades locais, e emprstimos especializados (Project

18

finance e imobiliria comercial). Hoje em dia no so usados exclusivamente no processo


de deciso de crdito, tm tido aplicabilidade em diversos contextos como, o pricing, provises, capital econmico/regulamentar e titularizao, como mais adiante se explicar. Dado o sucesso dos modelos de scoring aplicacionais na indstria do crdito dos nossos dias, as instituies financeiras comearam a aplic-los a outras reas do negcio. Os modelos de scoring aplicacionais/reactivos tm como objectivo, determinar o perfil de risco de um novo solicitante de crdito no momento da anlise da proposta. Porm, a gesto do risco de uma operao de crdito, no se resume avaliao do risco inicial (risco no momento da anlise). Importa igualmente, monitorizar o risco de crdito em toda a sua amplitude. Este acompanhamento normalmente feito recorrendo a outro conjunto de modelos de scoring. Por exemplo, temos modelos conhecidos na literatura como modelos comportamentais, onde se estima a propenso aquisio de um determinado bem (nomeadamente os modelos de response scoring4 associados normalmente ao marketing); modelo de reteno, (attrition/churn), onde se procura identificar os clientes com maior probabilidade de abandonar a instituio. medida que o mercado de crdito se desenvolve, verifica-se que os modelos de

scoring tm sido caracterizados por uma crescente sofisticao de algoritmos. (L. C.


Thomas 2009) refere que estamos na era da terceira gerao dos modelos de credit

scoring, denominados por profit scoring, onde se pretende avaliar no s o perfil de risco
do solicitante de crdito, mas igualmente, a probabilidade do candidato ao crdito dar lucro instituio, no sendo a avaliao apenas baseada no risco. O resumo dos diferentes modelos de scoring usados nas diversas fases do ciclo de vida de uma operao de crdito apresentado na figura 2.1.

A aquisio de novos cliente um processo muito dispendioso, especialmente as campanhas de mailing.

Neste caso as instituies financeiras recorrem frequentemente aos modelos de response scoring para restringir o mailing aos clientes com maior propenso (probabilidade) de vir a responder a uma determinada campanha e portanto resultar numa relao lucrativa para a empresa.

19

Preapplication
Response score

Application

Performance
Performance score

Collection
Collection socre

Application score

Fraud score

Behavioral score

Retention score
Figura. 2.1 Modelos de scoring usados em diferentes fases do ciclo de vida de uma operao de crdito. Fonte: Adaptado de (Gestel e Baesens 2009)

2.2.1 Scoring versus objectivos de negcio


As tcnicas de scoring so aplicadas tendo em vista diferentes objectivos de negcio. O objectivo principal do scoring melhorar o processo de seleco de bons clientes de modo a reduzir perdas futuras. Dado o seu sucesso, os sistemas de scoring tornaram-se um factor de deciso chave, ou se quisermos uma ferramenta de suporte deciso imprescindvel na quantificao e gesto do risco. Os scores gerados pelo modelo so utilizados para calcular a perda mxima (expected loss) da carteira de crdito de uma instituio e, consequentemente, determinar o nvel de provises necessrio para cobrir a perda mxima esperada. Para determinar a perda esperada, o risco de incumprimento da carteira de crdito precisa ser adequadamente quantificado e os scores tm demonstrado ser um importante input. Os

scores so igualmente utilizados para determinar o montante de capital necessrio para


proteger as instituies financeiras e os depositantes de perdas inesperadas - capital econmico/regulamentar.

20

Outra rea recente de aplicao do credit score o pricing: risk-based pricing (tambm denominado de risk-adjusted pricing) consiste em determinar o preo do produto tendo em conta o perfil de risco do cliente, dado pelo score que lhe est associado. Muitas instituies financeiras utilizam-no igualmente para segmentar a carteira de crdito em classes homogneas de risco e vender a investidores terceiros, como forma de reduo do risco. Este processo designa-se por titularizao. Algumas instituies no financeiras tm utilizado o credit score, e mais especificamente os bureau score, para melhorar os seus processos de deciso. So exemplos, as empresas de telecomunicaes e as de electricidade. Na presente dissertao pretende-se abordar os modelos de credit scoring sob o ponto vista aplicacional. Assim o uso da terminologia credit scoring deve ser entendido neste mbito.

2.3 Mtodos utilizados em credit scoring


The tools of credit scoring are based on statistical and operational research techniques and are some of the most successful and profitable aplications of statistics theory in the last 20 years. Crook, Edelman, and Thomas (1992) Nesta seco apresenta-se um resumo dos principais mtodos paramtricos e no paramtricos utilizados em credit scoring, focando-se particularmente na regresso logstica e nas redes neuronais. A tabela que se segue apresenta um resumo dos mtodos utilizados:

21

Modelo
Regresso Linear Anlise discriminante

Principais Tcnicas
Minimos quadrados ordinrios Distncia de Mahalanobis

Resumo
Adequada em situaes em que a varivel resposta contnua Classifica os objectos em grupos pr-definidas,minimizando varincia a

Regresso Logstica rvores de deciso

Estimadores verossimilhana Chaid

de

mxima

Adequada em situaes em que a varivel resposta binria Utiliza a estrutura da rvore para maximizar grupos a varincia entre-

Redes Neuronais

Perceptro multicamada

Tcnica de inteligncia artificial. Os resultados so difcies de explicar.

Programao Linear

Mtodo simplex

Muito utilizado na optimizao de alocao de recursos

Tabela 1- Resumo das tcnicas estatsticas usadas em credit scoring. Fonte: Adaptado a (Raymond 2007) (p 163)

Ao longo dos anos tm sido propostas muitas abordagens do domnio do credit

scoring. Cada uma com as suas virtudes e defeitos, dependendo em primeiro lugar da
informao disponvel (base dados utilizada) e, em segundo lugar dos aspectos relacionados com a modelao. A regresso logstica, a programao linear e a anlise discriminante so os mtodos mais utilizados. Ainda que a maioria dos mtodos apresente nveis de desempenho semelhantes5, tem sido feito um esforo por parte dos investigadores no sentido de encontrar o mtodo que melhor serve os propsitos de credit scoring. No entanto, qualquer que seja a tcnica utilizada correcto afirmar que a indstria financeira pretende em primeiro lugar modelos que tenham interpretabilidade e transparncia e, em segundo lugar modelos que sejam facilmente implementveis (Choro 2005). A facilidade de
5

(Thomas e N. Crook 2002), Apresenta um bom resumo de vrios estudos comparativos,

mostrando que existem mais semelhanas que diferenas.

22

implementao foi determinante na escolha do mtodo a utilizar nos primeiros modelos de

credit scoring desenvolvidos nos anos 1950 e 1960. Da que a programao linear e a
anlise discriminante foram os primeiros mtodos utilizados ainda que estatsticamente imperfeitos. Com avano no domnio da informtica (aumento da capacidade de processamento dos computadores) foi possvel testar novas abordagens como os estimadores de mxima verossimilhana. Primeiramente com os modelos logit (logstica) e mais tarde probit (Gaussiana). Ambos so menos exigentes em termos de pressupostos estatsticos, mas muito exigentes computacionalmente e, inexequvel numa altura em que os computadores eram tinham pouca capacidade de processamento. Hoje a diferena do tempo de processamento incomparavelmente superior e a regresso logstica usada em mais de 80% dos modelos desenvolvidos. Devido sua flexibilidade e facilidade de utilizao os modelos de probabilidade linear6 continuam a ser muito utilizados (Raymond 2007). Os modelos de probabilidade linear so muito utilizados em instituies onde o credit scoring tem uma longa histria, ou onde a metodologia existente est bem enraizada. Pelo contrrio, a regresso logstica domina nas instituies onde o credit scoring foi introduzido mais tarde, quer devido s propriedades estatsticas conhecidas quer pela maior transparncia e interpretabilidade que introduz no processo de deciso. Por outro lado, hoje, muitos reguladores exigem que as instituies identifiquem fortes razes para a rejeio da proposta em anlise. Os modelos de scoring baseado na regresso logstica permitem facilmente identificar estatisticamente as variveis que mais contribuem para a rejeio do cliente. Tcnicas no paramtricas tm sido igualmente utilizadas em credit scoring, com algum sucesso. Destacam-se as rvores de deciso, e mtodos de inteligncia artificial, como as redes neuronais, algoritmos genticos, e mtodo do vizinho mais prximo.

A experiam por exemplo utiliza modelos de probabilidade linear nos seus modelos de credit

scoring

23

2.4 Vantagens e desvantagens do credit scoring,


A presente seco atenta em inventariar por consulta a (Raymond 2007) as principais vantagens e desvantagens da adopo de sistemas de credit scoring. A primeira vantagem da introduo de modelos de scoring a reduo do tempo de anlise de novas propostas de crdito. Uma vez automatizado o processo, os scores so facilmente calculados e a resposta quanto concesso/rejeio so geradas em tempo real, o que extremamente importante no actual mercado de crdito cada vez mais competitivo. Este facto pode ser exemplificado pela crescente importncia dos novos canais de aquisio, como a Internet, o telefone e o E-commerce, que faz com que o processamento e a avaliao do crdito em tempo real sejam uma necessidade. Outra vantagem dos modelos de credit scoring, tem que ver com a consistncia das decises: O score torna o processo de deciso objectivo eliminado a possibilidade de discriminao. ainda possvel inumerar as seguintes vantagens: Aumento do lucro da instituio atravs de maiores ndices de aprovao com reduzidos nveis de default; Possibilita que o cliente seja tratado de forma personalizada independentemente do canal de entrada; As estratgias de risco/crdito podem ser rapidamente actualizadas e assimiladas pela organizao; Aumenta a qualidade do servio prestado ao cliente; O processo facilmente compreendido pelos seus participantes; Identifica as variveis tidas como as mais importantes na discriminao dos regulares e em situao de default; A lista dos benefcios extensa, contudo possvel enumerar as seguintes limitaes.

24

Custo de desenvolvimento: desenvolver um sistema de credit scoring acarreta custos, no somente com a instalao da infra-estrutura necessria, mas tambm com o suporte para a sua construo. Por exemplo: profissionais capacitados e equipamentos (hardware / software). Escassez e qualidade dos dados: Normalmente estes modelos so desenvolvidos com base nas observaes presentes nas bases de dados das instituies, e que a qualidade nem sempre salvaguardada; Altera a cultura da organizao: a implementao desses modelos implica grandes mudanas nos processos operacionais; Esses modelos baseiam-se no princpio que o passado prev o futuro, o que pode no se verificar. um sistema complexo, e eventuais erros no desenvolvimento do modelo de

scoring, definio da estratgia ou implementao podem acarretar custos para a


instituio ou resultar em situaes danosas na concesso do crdito; As tcnicas estatsticas utilizadas no desenvolvimento dos modelos de scoring assumem que a base de dados utilizada contm um nmero suficiente de clientes em situao irregular. Este pressuposto nem sempre se verifica, especialmente para determinados tipos de portflio (de pequena dimenso), onde a disponibilidade de informao muito limitada. Para estes tipos de portflio, aconselhvel adoptar tcnicas alternativas de mensurao do risco. Ex. experts

systems, baseados na interpretao dos Cs do crdito, ( capacidade, carcter,


colateral, capital e condies)

2.5 Actividade de crdito em Cabo Verde


A concesso de crdito em Cabo Verde exclusivamente efectuada pela Banca de Retalho. Considerando o universo das instituies autorizadas e em pleno funcionamento, o sistema financeiro comportava, em 2007, do lado da banca, quatro instituies de crdito, seis instituies para-bancrias e onze instituies financeiras internacionais, nove das quais dedicando-se actividade bancria e duas a actividades de gesto de fundos mobilirios. A evoluo recente na estrutura do sector bancrio cabo-verdiano fica a dever-se instalao de novas instituies, em particular, sucursais de instituies financeiras internacionais.

25

A dinmica do crdito manteve-se robusta em 2008, o que pressupe que as condies monetrias prevaleceram favorveis evoluo da actividade econmica. O Crdito Interno total apresentou uma evoluo positiva em todos os meses do ano, tendo sido o ritmo de crescimento anual de 18,8%, traduzindo, sobretudo o bom desempenho do crdito economia. O crdito bancrio concedido ao sector privado ascendeu, em termos homlogos a 66.390,2 milhes de escudos Cabo-verdianos, o que representa um crescimento anual de 29,5%. A ventilao do crdito por sectores de actividade revela taxas de crescimento positivas, na sua globalidade destacando-se o crdito a particulares, que representa cerca de 53,7% do total concedido, com um crescimento de 19,2% repartidos pelo crdito habitao (64,1%) e crdito destinados a outros fins (35,9%). O crdito lquido ao sector pblico administrativo, registou uma reduo moderada de 8,1% quando comparada diminuio de 25,5% ocorrida em 2007, reflectindo os efeitos da diminuio verificada nos depsitos do Governo Central junto ao Banco Central.

Tabela: 2.2. Evoluo do crdito 2008. Fonte: Boletim Econmico Fevereiro de 2009, Banco de Cabo Verde.

Em termos da qualidade dos activos, o peso da carteira de crdito vencido dos bancos, no total do crdito, apresentou um acrscimo de 3,9% em 2006, passando para 13,5% em

26

2007, o que se fez acompanhar da mesma tendncia pelo rcio crdito vencido lquido de provises sobre o capital, derivado, essencialmente, da aplicao do novo regime de classificao de crdito e constituio de provises. Contudo, torna-se premente efectuar melhorias permanentes nos sistemas de gesto e maior controlo do risco de crdito, mediante um acompanhamento contnuo da evoluo do crdito mal parado e anlise das suas interligaes com algumas variveis macroeconmicas relevantes.

Tabela: 2.3. Distribuio do crdito Bancrio por sector de actividade.

27

2.6 Condicionantes da actividade de crdito e benefcios da introduo do credit scoring em Cabo verde
Aps uma srie de reformas, o sector financeiro Cabo-Verdiano, est cada vez mais moderno, competitivo e concorrencial, conforme indica o nmero crescente de agncias bancrias, a melhoria da qualidade do atendimento, e a disponibilidade de novos meios de pagamento (ATMs, POS, cartes de crdito). O ndice de penetrao dos servios financeiros, seja em termos geogrficos, seja em termos demogrficos, indicador da evoluo positiva registada pelo sistema nos ltimos anos. Porm, o desenvolvimento do sistema tem sido condicionado pelo elevado custo de intermediao financeira e altas taxas de juro, caracterstica peculiar de sistemas financeiros de pases em vias de desenvolvimento. O alto custo do dinheiro apresenta-se, assim, como um obstculo importante para a expanso do crdito, importante factor de concentrao do rendimento e da riqueza, influenciando negativamente o nvel de investimento na economia. Neste contexto, a introduo do credit scoring, pelas caractersticas que lhe esto associadas, introduz inmeros benefcios no mercado de crdito Cabo-verdiano, dos quais que destacam: O credit scoring uma parte vital do bom funcionamento de um sistema financeiro moderno permitindo a reduo do foco na anlise manual (tradicional) das propostas, baseados essencialmente na interpretao dos Cs do crdito (carcter, capacidade, colateral, Capital, e Condies), o que traduz uma melhorar capacidade de anlise dos pedidos de crdito e aferio do perfil de risco dos clientes (Turner 2006). Melhora o trade-off entre o volume de aquisies e o controlo do crdito mal parado. Como refere (Baptista 2006), o prmio de risco, representado pelo nvel de provises para perdas de crdito, constitui um factor de peso na formao do custo final de intermediao em Cabo Verde. Assim, uma melhor anlise dos pedidos de crdito e acompanhamento dos clientes implica uma melhor alocao de provises para perdas esperadas de crdito. Isso poder implicar menor

28

necessidade de constituio de provises, portanto, de recursos no produtivos que, em ltima medida, iriam contribuir para a reduo dos custos globais da instituio e tornar mais barato o crdito aos clientes. (Mateus 2000) acrescenta, que a criao de condies para reduo e melhor avaliao do risco e, para recuperao do crdito mal-parado factor que contribui para reduo do custo de financiamento. Ainda segundo o mesmo autor, o prmio de risco um factor que acrescenta 1,85 p.p. ao spread. Melhora a eficincia operacional, quando o processo est automatizado, os scores so facilmente calculados e removem as tarefas demoradas da anlise. Este facto pode levar a uma expanso dos nveis de crdito concedido, decorrentes do maior grau de certeza das instituies bancrias quanto s perdas nos financiamentos e maior rapidez na anlise das propostas de crdito. medida que a concorrncia aumenta, os modelos de credit scoring permitem adoptar estratgias de Risk Based Princing (RBP), ou seja, determinar o pricing da operao de acordo com o perfil de risco do cliente. Este facto permite oferecer taxas de juro mais concorrenciais para clientes com baixo perfil de risco e, potencialmente maior disponibilidade de crdito para clientes de alto risco, que de outra forma viriam os seus pedidos de crdito simplesmente recusados. Por outro lado, face s exigncias da globalizao e a crescente necessidade de modernizao do sistema financeiro, as instituies financeiras em Cabo Verde tm pela frente um conjunto de desafios, que tornam desejvel a introduo dos modelos de credit

scoring:
A necessidade de investir em tecnologia; Reduzir as taxas de juro, Crescente aumento da concorrncia e consequente presso para a diversificao (novos produtos). Estes desafios, bem como a crescente procura por crdito, impulsionar as instituies bancrias a procurarem economias de escala e, a agirem de acordo com um processo de

29

avaliao de risco mais fino, conduzindo a uma maior consolidao da indstria de crdito em Cabo Verde.

2.7 Superviso e gesto de risco de crdito no sector bancrio em Cabo Verde.


A regulao do sistema financeiro superviso prudencial das instituies de crdito focalizada em aspectos relacionados com a concentrao do crdito, constituio de provises e fundos prprios, analize dos riscos para a estabilidade financeira, avaliano da capacidade de absoro de choques no sistema. e

A nvel mundial, e associado ao fenmeno da globalizao do mercado financeiro, tem-se verificado uma intensa movimentao de pases no sentido de fazerem convergir os seus sistemas de normas e regras internas aos padres internacionais, principalmente tratando-se de pases de economias e mercados mais abertos e competitivos. Para pases como Cabo Verde, de mercados pequenos e com elevado grau de dependncia externa, a necessidade de estar em linha com os padres internacionais torna-se um imperativo vital ao processo de convergncia. Nesta perspectiva, e face a um sistema financeiro cada vez mais exigente, mais exposto e em fase acelerada de desenvolvimento, iniciou-se nos ltimos anos em Cabo Verde um conjunto de reformas legais e de normativas prudenciais, mais consentneas com o desenvolvimento do sector financeiro, visando proceder a uma necessria aproximao aos actuais padres de referncia internacional, designadamente, as Normas de Reporte Contabilistico e Financeiro Internacional (IAS/IFRS) e BASILEIA II. De 1998 a meados de 2007, a gesto de riscos de crdito no sector bancrio em Cabo Verde esteve ancorada ao Aviso n. 09/987. Este normativo, de natureza de gesto meramente administrativa do risco, revelou-se, aps anos de vigncia, incapaz de atender
7

Aviso n. 9/98, de 28 de Dezembro, do Banco de Cabo Verde:Estabelece o nvel mnimo de

provises que as instituies sujeitas a superviso do Banco de Cabo Verde devem observar. (BO n. 48)

30

realidade actual, que se caracteriza por: (i) aumento e complexidade de situaes de risco de crdito, antes no previstos; (ii) possibilidade, capacidade e necessidade dos bancos se socorrerem de mtodos e instrumentos eficazes de gesto de risco de crdito; factos que reclamam o estabelecimento de mecanismos de diferenciao entre os bancos em matria de gesto de riscos nas suas actividades. Com efeito, no actual estgio de evoluo do sistema financeiro nacional, e no alheio concorrncia de um mercado global, o instrumento consubstanciado no Aviso n. 09/98 demonstrava-se incapaz de corresponder s exigncias e aos desafios do mercado, devido insensibilidade e inflexibilidade que o caracterizava em relao ao risco, tendo acomodado na sua estrutura conceptual procedimentos que obrigavam a tratamentos igualitrios para situaes absolutamente dspares. Em resposta a essas situaes, foi concebido, com a assistncia tcnica especializada do FMI, o novo normativo, o Aviso n. 04/20068. Este Aviso mais sensvel ao tratamento de situaes de risco, ao introduzir alguns mecanismos que permitem tratar situaes diferentes, pretendendo servir de ponte entre um sistema de gesto administrativa do risco de crdito e um sistema e cultura de gesto econmica do risco.

Aviso n. 4/2006, de 2 de Janeiro de 2007. Estabelece a classificao de operao de crdito e provises.

Revoga o aviso n. 9/98, de 28 de Dezembro. (B.O. n 1, I Srie).

31

Captulo III

3 Caracterizao da base de dados de anlise


Este captulo tem como objectivo descrever a base de dados utilizada neste estudo. Foca, ainda, nos aspectos relacionados com a preparao dos dados, identificando as principais consideraes a ter em conta na construo de uma base de dados, que vo desde o tratamento dos missing values, passando pelas excluses, at a definio da varivel

target, janela de amostragem e perodo de classificao de forma a alimentar a fase da


modelao.

A base de dados utilizada neste estudo foi fornecida por uma instituio bancria CaboVerdiana e, como requerido neste estudo e em casos semelhantes, foi quebrada qualquer possibilidade de identificao dos clientes nela constantes. A base de estudo composta por 15.000 registos referentes a crditos ao consumo concedidos a clientes particulares no perodo de Janeiro de 2004 a Abril de 2009. Foram consideradas na anlise todas as variveis constantes no formulrio de proposta de crdito em uso na instituio (tabela 3.1).

32

ID #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17

Varivel Estado civil Gnero Profisso Actividade professional Entidade patronal Cargo na empresa Idade Habilitaes literrias Nacionalidade Naturalidade Antuiguidade como cliente Rendimento mensal Prazo do emprstimo Taxa de juro Valor da prestao mensal Valor solicitado Valor financiado
Tabela 3.1 Definio das variveis

Tipo de Varivel Catgrica Catgrica Catgrica Catgrica Catgrica Catgrica Contnua Catgrica Catgrica Catgrica Contnua Contnua Contnua Contnua Contnua Contnua Contnua

A natureza dos dados extrados pode-se estruturar em trs tipos distintos: Caracterizao do cliente; Caracterizao da operao de crdito; Comportamento do cliente. A primeira tem que ver com a informao que caracteriza o cliente na sua esfera scio demogrfica, sendo exemplo disso a idade, profisso, estado civil, etc. A segunda tem a ver com a caracterizao da operao de crdito, isto , o bem, o valor a financiar, o prazo da operao, etc. E finalmente a terceira, prende-se com as informaes respeitantes ao comportamento dos clientes, apurando mensalmente o nmero de prestaes/dias em atraso, durante o perodo de vigncia do contrato. Tanto a primeira como a segunda so recolhidas no momento de solicitao do crdito e, constituiro as variveis independentes dos modelos que iremos utilizar. Por sua vez a terceira servir, como mais a frente se explicar, para definir a varivel dependente, ou seja, Bom ou Mau pagador.

33

3.1 Qualidade da base de dados


Neither sophisticated software nor statistical techniques can overcome the inherent limitations of the raw data that goes into them.
(Wynn 2003) A preparao da base de dados de anlise um estgio importante no processo de desenvolvimento de um modelo preditivo. Este estgio fica a dever-se ao facto de a maioria dos dados que podemos encontrar serem pouco adequados para os propsitos que se pretendem. Entre os problemas que normalmente encontramos contam-se exemplos de dados invlidos e inconsistentes e o aparecimento de missing values e

outliers. Relativamente aos primeiros, a sua identificao e posterior remoo


importante, na medida em que a sua existncia pode comprometer a validade dos resultados finais, dos quais so exemplos de cuidados a observar: atribuio de crdito a indivduos que no tenham sido sujeitos a uma deciso baseados no sistema de avaliao de crdito ou que tenham sido excluidos por outros motivos, por exemplo, crdito a colaboradores, VIPs, indivduos com idade inferior a 18 anos ou com histrico de elevado risco e propostas suspeitas de fraude. Quanto aos missing values, frequente encontrarmos, nas bases de dados, padres incompletos, ou valores que no fazem sentido para uma determina varivel. Existem diversas formas de lidar com este problema, no havendo uma que seja nitidamente superior a todas as outras, das quais se destacam: 1. Excluir todos os registos/variveis que apresentam valores omissos 2. Excluir da amostra de desenvolvimento registos/variveis que apresentam uma percentagem significativo de missing values (ex.50%), especialmente se for expectvel que o nvel de missing values se mantenha no futuro. 3. Considerar os missing values como um novo atributo das variveis a incluir no modelo.

34

4. Utilizar tcnicas estatsticas para preencher os campos em falta. Uma opo para a resoluo do problema traduz-se no preenchimento automtico dos campos com uma boa estimativa do seu valor. Existem diversas formas de produzir esta estimativa sendo que a mais simples consiste em adoptar medidas de tendncia central como a mdia, a mediana ou a moda. Outra abordagem interessante consiste na especificao do mesmo como um problema economtrico. A ideia desenvolver um modelo preditivo que, com base nos registos completos e nas variveis disponveis nos fornea uma boa estimativa para os valores em falta. O risco que corremos ao optar pelas duas primeiras solues relativamente bvio e traduz-se em primeiro lugar, na no utilizao de variveis importantes para a formulao do modelo explicativo. Poderemos estar a prescindir de variveis que na realidade so importantes para modelar o fenmeno e sendo este o caso, o modelo provavelmente nunca produzir resultados to precisos quanto estariam ao seu alcance, caso as referidas variveis de input fossem utilizadas. Segundo, o facto de determinados registos no apresentarem valores, pode em si mesmo, evidenciar um caso importante (ex. Mau

performance). Ao excluir estes registos corremos o risco de estar a enviesar a amostra,


isto caso haja um motivo para que estes registos no possuam valores para a varivel em causa. Por exemplo sabemos que a probabilidade de um indivduo recm-empregado no preencher o campo destinado antiguidade no emprego no formulrio da proposta de crdito elevado. Com efeito, caso existam uma grande percentagem de indivduos que no preencheram o campo destinado antiguidade no emprego, decidimos retir-lo do nosso conjunto de dados. Ora, quando tal facto acontece, corremos o risco de estar a enviesar a nossa amostra. Se certo que indivduos recm-empregados tendem a deixar o referido campo em branco, isto quer dizer ao eliminarmos estes mesmos registos, estaremos tambm a retirar da amostra uma grande parte de indivduos com poucos anos no emprego. Como consequncia o nosso modelo produzir sempre estimativas pouco precisas, seno mesmo aleatrias, para os indivduos com poucos anos no emprego.

35

Pelas razes apresentadas acima e por se considerar que a incluso dos missing values na amostra acrescenta benefcios ao negcio, optou-se neste estudo pela opo 3.

3.2 Janela de amostragem e perodo de classificao.


A expresso o passado prev o futuro representa um dos princpios fundamentais da evoluo dos modelos de credit scoring. Baseado neste princpio, os dados histricos de anteriores solicitantes de crdito so analisados para prever o comportamento de futuros proponentes de crdito. Assim, selecciona-se um conjunto de clientes abertos num determinado perodo de tempo, denominado de janela de amostragem, e o seu comportamento analisado noutro perodo distinto no futuro, chamado de janela de classificao, para determinar a varivel dependente, isto , se o cliente foi regular ou

default. Mas que horizonte temporal seleccionar? No h, na verdade, uma resposta que
seja clara e objectiva quanto ao tempo a considerar na anlise. A escolha da melhor amostra deve responder a dois aspectos importantes: em primeiro lugar, a informao seleccionada deve ser o mais recente possvel, de modo a reflectir o perfil de futuros solicitantes de crdito. Em segundo lugar, deve cobrir um perodo de produo significativo, de modo a garantir um nmero suficiente de bons e maus contratos para a modelao. H portanto dois objectivos conflituais: Se o perodo de anlise demasiado pequeno, ento os indivduos em situao de default sero classificados como regul ares (erro tipo I); se o perodo, pelo contrrio, for demasiado longo, apesar de se terem mais observaes de indivduos em default, os dados estaro desactualizados e no serviro os intentos de utilizao preditiva do modelo (Wynn 2003). A literatura escassa e no perfeitamente concludente no que toca determinao da janela de amostragem que elege os registos que participaro na construo do modelo. Podemos contudo referir que a janela de amostragem dever ter uma taxa de maturao estvel, isto , a taxa de default da carteira do produto de crdito dever apresentar caractersticas de estabilidade ao longo do tempo. Conhecendo assim a maturidade da populao, estamos em condies de seleccionar a amostra de desenvolvimento constituda pelos indivduos cuja maturidade igual ou superior a maturidade global e que, portanto, seguramente os poderemos classificar num de dois grupos, regular ou

36

default, reduzindo deste modo a possibilidade de ocorrncia do erro tipo I como explicado
anteriormente. O momento de maturao da taxa de default (momento a partir da qual a taxa de default no evolui mais), e a amplitude dos perodos, janela de amostragem versus perodo de classificao, variam de produto para produto e da definio de default utilizada, no havendo uma regra inequvoca e explicita para a sua determinao. Segundo (Siddiqi 2006) os modelos aplicacionais apresentam caractersticas de estabilidade entre os 18 a 24 meses, enquanto se se tratar de um crdito hipotecrio, a regra de 3 a 5 anos. Contrariamente, nos modelos comportamentais, normalmente so utilizados perodos de anlise mais curtos, entre 6 a 12 meses, e 1 ms ou menos para modelos de recuperao. Quando o objectivo do desenvolvimento do modelo tem a ver com questes de carcter meramente regulatrio, nomeadamente no mbito do novo acordo de Basileia II, o perodo de classificao estabelecido pelo regulador (12 meses). No presente estudo assumiu-se um compromisso de 12 meses na janela de amostragem e 24 meses no perodo de classificao, dado garantirem observaes em nmero suficiente para a estimao do modelo e conferirem uma estabilizao da taxa de default como era mister encontrar, conforme anteriormente citado.

3.3 Definio de bom, mau e indeterminado.


A classificao de clientes quanto ao incumprimento uma etapa chave do processo de desenvolvimento de um modelo de credit scoring. Sem dvida que o que pode ser um bom cliente para uma organizao, poder ser ma para outra dependendo da ambiente de negcio. Por esta razo (Wynn 2003, 53) menciona que a definio de incumprimento deve reflectir a experincia da prpria instituio. (Siddiqi 2006, 39) apresenta uma lista de aspectos a considerar na definio de incumprimento: Deve estar em linha com os objectivos da organizao. Por exemplo, se o objectivo da instituio aumentar os lucros, ento, o mau cliente deve ser definido em funo do conceito de rentabilidade.

37

Deve estar em linha com o produto e com os intentos de utilizao preditiva do modelo; Deve garantir por um lado, um nmero suficiente de observaes para suportar a fase de modelao e, por outro, uma definio que seja capaz de diferenciar bons de maus clientes. Deve ser fcil de interpretar; Em algumas situaes, poder ser vantajoso ter a mesma definio de default (mau) em diferentes segmentos ou mesmo modelos em produo na instituio. Este facto torna mais fcil o processo de gesto de risco e consequente tomada de deciso, especialmente em ambientes onde existem vrios modelos de credit

scoring.
Porm, com a entrada em vigor do novo acordo de Basileia II, semelhana da definio da janela de amostragem e perodo de classificao, a definio do default tambm definido pelo regulador. Neste caso, considera-se que um cliente est em situao irregular (default), se ultrapassar mais de noventa dias nos primeiros doze meses de vigncia do contrato. Neste estudo adoptou-se a definio de Basileia II para classificar os clientes quanto ao incumprimento. Uma vez definido os maus clientes, a mesma anlise efectuada anteriormente pode ser utilizada para definir o conjunto dos bons/regulares" clientes. Novamente, esta deve estar em linha com as questes discutidas anteriormente. A definio de regular (bom) menos analtica e muitas vezes bvia. No presente estudo considera-se que o cliente est em situao regular se liquidou todas as prestaes dentro do prazo estabelecido. Um aspecto importante a anotar que, enquanto um cliente regular precisa manter a sua condio de regular ao longo da janela de classificao, um mau cliente s precisa atingir a definio adoptada uma nica vez em qualquer altura dentro da janela de classificao. Existe ainda um conjunto de indivduos, que no tendo comportamento suficiente, no os poderemos classificar num de dois grupos, regular ou default. No se encontram

38

suficientemente maduras para ter a capacidade de se ter tornado delinquentes ou mesmo para ter falhado alguma prestao. Este conjunto de indivduos nesta situao denominam-se indeterminados e, comum em credit scoring, no os considerar na modelao.

3.4 Inferncia dos rejeitados


Um dos maiores problemas no processo de desenvolvimento de modelos de credit

scoring consiste na evidncia que somente as propostas de crdito aprovadas e


concretizadas, podero ser classificadas como: Bons, Maus e indeterminados. Para as propostas recusadas no passado, apenas detemos as variveis dos proponentes, mas obviamente no possumos a informao de Bons ou Maus. Se estes clientes, recusados, forem ignorados e retirados da populao de desenvolvimento, provocar um bias, quando o modelo, construdo sobre os Bons e os Maus, classificar um proponente recusado anteriormente. Pois pode se deixar de avaliar algumas caractersticas especficas, que esteja particularmente presente apenas nos proponentes rejeitados, fazendo com que o novo modelo de credit scoring desenvolvido no consiga prever de forma adequada o comportamento desses indivduos. De modo a incluir estes clientes no modelo, utiliza-se uma tcnica denominada de inferncia dos rejeitados. Esta tcnica visa por um lado, inferir o comportamento dos solicitantes rejeitados no processo de deciso de crdito, e reduzir o enviesamento da seleco da amostra, por outro. A literatura ainda muito escassa no que a este tema diz respeito, somente encontramos uma srie de estudos que avaliam de modo emprico as tcnicas de inferncia dos rejeitados em credit scoring. As tcnicas de extrapolation e augmentation, aqui tratados como dados aumentados foram inicialmente propostos por (Hsai 1978), depois por (Hand e Henley 1993) e (Banasik e Crook 2005), contudo, os estudos empricos levados a cabo por (Crook e Banasik 2004), demonstraram no haver vantagens na incluso deste grupo no processo de estimao. (Dempster, Laird e Rubin 1977) utilizou o algoritmo de

expectation e Maximization (EM) para a estimao da mxima verosimilhana a partir do


tratamento dos rejeitados como dados incompletos; (Joanes 1993) desenvolveu um modelo de credit scoring com base num conjunto de solicitantes aprovados recorrendo a regresso logstica, que utilizou posteriormente para inferir o comportamento dos

39

rejeitados. (Ash e Mester 2002) apresentaram o parceling, os mesmos autores sugerem ainda utilizar informao de mercado, para inferir o comportamento de solicitantes rejeitados. (Feelders 2000) considera a inferncia dos rejeitados como um problema de dados omissos. E (Shin e Sohn 2006) utilizam a tcnica de anlise de sobrevivncia, apresentando um mtodo de inferncia dos rejeitados baseados no intervalo de confiana para a mediana do tempo de sobrevivncia dos clientes em default. Ao desenvolver um modelo de credit scoring, pretende-se em primeiro lugar que este seja representativo do comportamento de todos os solicitantes de crdito. Contudo, tipicamente os modelos so desenvolvidos apenas com base em informao comportamental dos clientes aprovados, pois o comportamento dos clientes rejeitados desconhecido. A inferncia de rejeitados pode ser, ento, entendido, segundo (Shin e Sohn 2006) como um processo de estimao do risco dos indivduos rejeitados no processo de deciso de crdito. Existem vrias tcnicas que utilizam os indivduos rejeitados no desenvolvimento de modelos de credit scoring. Entre elas, esto as mais citadas na literatura, como: a classificao dos rejeitados como clientes maus, parcelamento (parceling) e dados aumentados (augumentation) e ainda a utilizao de informao de mercado como um mtodo de inferncia dos rejeitados.

3.4.1 Parceling
Apresentado por (Ash e Mester 2002) caracterizado como um processo de reclassificao por risco. Basicamente, o mtodo consiste em segmentar a populao dos rejeitados em clientes Bons e Maus, segundo o risco observado no conjunto de clientes aprovados. Para cada intervalo de score feito uma partio aleatria dos rejeitados, com base na frequncia observada de Bons e Maus, presentes na populao dos aprovados. Um novo modelo ser ento desenvolvido a partir da nova base de dados redistribuda, ou seja, com todos os solicitantes rejeitados reclassificados como Bons e Maus clientes e adicionados base inicial de clientes aprovados. Apenas pode ser utilizado em instituies onde existe modelos de credit scoring em produo, uma vez que para

40

efectuar a reclassificao dos solicitantes rejeitados preciso conhecer a taxa de maus por buckets de score. Uma alternativa para a utilizao deste mtodo na ausncia de um modelo de credit scoring consiste em efectuar a reclassificao de rejeitados de modo aleatrio a partir da taxa total de maus observada na amostra de desenvolvimento (proponentes aprovados).

3.4.2 Augumentation (dados aumentados)


O mtodo de dados aumentados o mtodo mais utilizado em credit scoring e, est disponvel em muitos softwares estatsticos. geralmente utilizado quando o processo de anlise de risco de crdito feito com base num conjunto de ltros e regras de risco. Esse mtodo considera que para o mesmo score a probabilidade de um rejeitado/recusado ser Bom igual a probabilidade, de um aprovado ser Bom. Assim, em primeiro lugar estima-se um modelo com base nos proponentes aprovados e rejeitados (Accepted/Rejected model). Em seguida gera-se um novo modelo ponderado, com apenas os proponentes aprovados, (Good/Bad model) utilizando como varivel de ponderao o desenvolvido. peso obtido no modelo (Accepted/Rejected

model) inicialmente

3.4.3 Classificao de rejeitados como clientes maus


Uma das abordagens mais simples de tratamento dos rejeitados classific-los como maus clientes. Assim, a amostra de desenvolvimento do novo modelo ser composta por clientes aprovados (Bons e Maus) acrescidas dos solicitantes rejeitados, todos classificados como clientes Maus. Esta tcnica nada aconselhvel ainda colhe adeptos actualmente.

3.4.4 Utilizao de informao de mercado


Este mtodo utiliza informaes de mercado, obtidas a partir de uma central de informao de crdito para inferir o comportamento dos proponentes rejeitados, ou seja, sobre os clientes recusados numa determinada instituio financeira e se aprovados

41

noutra, obter informao sobre o seu comportamento no pagamento. Este mtodo assume que o proponente comporta de maneira semelhante independentemente da instituio. Quando utilizamos informaes de mercado, temos um ganho natural de informao, para os novos modelos desenvolvidos, pois temos informaes adicionais, para alm das informaes internas disponveis na instituio credora. Porm a obteno de informaes de mercado junto das centrais de crdito, exige um custo, que deve ser considerado e avaliado no momento do desenvolvimento de novos modelos.

3.4.5 Potenciais benefcios da utilizao da inferncia dos rejeitados


Como referido anteriormente, pouco tem sido publicado sobre a temtica do reject

inference, sendo que a maioria destes focam-se em apresentar as tcnicas de inferncia


dos rejeitados e, pouco tem sido feito no sentido de quantificar os seus benefcios. Porm, da pouca investigao disponvel, parece no haver consenso. (Crook e Banasik 2004), defendem que os potenciais benefcios da introduo dos rejeitados no desenvolvimento do modelo so modestos. Por outro lado, (Siddiqi 2006) argumenta que a incluso dos rejeitados, constitui uma mais-valia no processo de desenvolvimento de modelos de

scoring, reduzindo o impacto do enviesamento amostral. (Montrichard 2007) demonstrou


empiricamente que a incluso dos rejeitados permite: 1. Identificar as caractersticas de clientes associados ao risco de crdito; 2. Obter estimativas mais precisas da taxa de maus; 3. Aumentar a capacidade do modelo em distinguir os bons dos maus clientes; 4. Facilita a comparao de modelos candidatos. O segundo ponto principalmente importante do ponto de vista de aceitao. Normalmente o cut-off determinando fixando uma taxa de aceitao que confere um nvel de risco aceitvel, isto , que a instituio est disposta a assumir. Ora, se a estimativa da nova taxa de maus for subestimada, a instituio incorrer em perdas inesperadas, o que altamente indesejvel.

42

3.5 Seleco das variveis


Quando se seleccionam dados no mbito de um problema de classificao a tendncia acrescentar o maior nmero de variveis possveis, de forma a bem caracterizar o problema. Acontece, normalmente, que muitas das variveis pouco ou nada esto associadas ao conceito-alvo, (target), havendo nestes casos dois tipos de variveis: As variveis completamente irrelevantes, ou seja, que em nada distinguem o conceito-alvo e as variveis redundantes, ou seja, que em nada acrescentam a discriminao do conceito-alvo. Por esta razo, comum em estudos deste genro, levar a cabo diversas abordagens de forma a encontrar as relaes tidas como as mais preditivas para o objectivo em estudo. O propsito da seleco de atributos consiste em, a partir de um conjunto inicial de F atributos, seleccionar um subconjunto G, tal que G < F, tendo sido G apurado segundo um determinado critrio que permita identificar as variveis relevantes para o problema em anlise. A elimino de atributos inteis permite reduzir a dimenso dos dados de treino e a sua complexidade e, portanto, reduzir o tempo de processamento dos mtodos a aplicar nas fases seguintes. Alm disso, (Hosmer e Lemeshow 2000) apela para a importncia da seleco de variveis, pois tendencialmente, com um menor nmero de variveis o modelo ser mais robusto. Este assunto, muito querido dos estatsticos, e vlido, pois quanto maior o nmero de graus de liberdade subjacentes ao modelo, maior ser a dependncia do modelo ao conjunto de treino e, portanto maior a sua variabilidade. A seleco de atributos dever eleger o subconjunto de atributos, com maior relvancia para o conceito-alvo, no perdendo de vista duas condies: A primeira o de a capacidade preditiva do modelo no diminuir significativamente. A segunda e que as probabilidades condicionadas P (x|bom) e P (x|mau), que representam as funes de densidade de probabilidade para cada um dos grupos, Bom e Mau se mantenham semelhantes, para todos os elementos de ambos os grupos, antes e depois da seleco de atributos. Foram, assim, encetadas vrias anlises, todas com uma mecnica comum que se sintetizam, basicamente, a aspectos de ndole grfica e estatstica:

43

Primeiramente, efectuamos uma anlise bivariada sobre os dados da janela de amostragem a fim de aferir a capacidade discriminatria de cada varivel, na construo do modelo. Seguidamente, outro tipo de anlise para explorao dos dados diz respeito ao clculo dos odds e dos odds-ratio. O odds pode ser interpretado como a comparao de dois nmeros: o primeiro traduz a probabilidade de ocorrerncia de um evento; o segundo, a probabilidade do mesmo evento no ocorrer. Ou matemticamente;

Odds

P(evento) 1 P(evento)

Por fim, atendento comparao que se pretende efectuar na identificao de quais os atributos que devero constar num determinado modelo de scoring, calcula-se o rcio entre os odds, isto , o odds-ratio (OR).

OR

odds(Y odds (Y

1X 1X

1) 0)

Por outras palavras, o odds-ratio, uma medida de associao que indica o quanto mais ou menos provavl a probabilidade de obter uma resposta positiva, consoante o valor da varivel independente. Por exemplo para variveis explicativas dicotmicas, se considerarmos que Y indica se o indivduo est em situao regular ou em default, e X presena ou ausncia de uma determinado factor de risco (caracterstica do indivduo), ento o odds-ratio indica-nos o quanto mais provavl a ocorrncia do evento, neste caso, default, consoante o factor de risco est ou no presente. Um Odd-ratio igual a 1 indica ausncia de relao entre a varivel explicativa e a dependente; um OR menor que 1, indica que a varivel explicativa est negativamente associado target, ou seja, quanto menor o odds-ratio, maior a probabilidade de o cliente apresentar menores risco de incumprimento, indicando que o factor de risco apresenta algum poder para disciriminar clientes bons. Um OR> 1 significa que quanto maior OR, maior a probabilidade de o cliente apresentar maiores riscos de incumprimento, evidenciando que o factor de risco considerado apresenta poder para discriminar maus clientes.

44

Outro estudo preliminar consiste em agrupar e discretizar os atributos a fim de poderem explicitamente, estar espelhados no modelo. (Sarmento 2005, 46) Apresenta vrias razes pelas quais a dicretizao se torna muitas vezes indispensvel: Em primeiro lugar, se um atributo numrico, possuir valores omissos, uma das formas ser discretizar o atributo, para que se possa tratar o missing como um novo atributo. Em segundo lugar, nos problemas em que as regresses lineares so utilizadas, a discretizao um meio importante para fornecer robustez ao modelo resultante, tornando-o mais generalizvel. A discretizao tambm um meio para combater os valores extremos e os outliers que tanto perturba a estimao dos parmetros. No entanto a discretizao, no gratuita, faz-se custa de perda de informao do atributo, mas em nome da abstraco. O problema est em como discretizar optimizando o binmio perda de informao versus abstraco. A este propsito (Thomas e N. Crook 2002) considera necessrio a agregao de atributos pois que h, normalmente um grande nmero de atruibutos associados s variveis que em face da amostra considerada poder no constituir um conjunto suficientemente grande para tornar a anlise robusta. Os mesmos autores entendem ainda que o agrupamento de factores tem tanto de arte como de cincia e comum a observncia de algumas estatsticas que indiciem a forma como se dever proceder. As mais conhecidas so as estatstica de
2

, e information value e o weigth

of evidence.

45

Captulo IV

4 Modelo de regresso logstica (Logit)


Este captulo descreve o trabalho de modelao empreendido para avaliar o risco de crdito do cliente luz do modelo de regresso logstica. Inicia-se assim com uma apresentao sumria das suas origens. Depois apresenta-se o modelo terico, modelo logit ou regresso logstica binomial (dois nomes para o mesmo modelo). De seguida descreve-se os pressupostos do modelo e as suas estatsticas de avaliao dos diferentes modelos estimados. Por ltimo, sero referidas medidas da qualidade dos ajustamentos como o teste de Hosmer e Lemeshow e a curva de ROC.

4.1 Regresso logstica histria


A regresso logstica surgiu em 1789, com os estudos de crescimento populacional de Malthus. Segundo, Cramer 2002, 40 anos depois, Alphonse Quetelet, astrnomo Belga e, o seu discpulo Pierre- Franois Verhust (1804-1849), recuperaram a ideia de Malthus para descrever o crescimento populacional em Frana, Blgica e Rssia antes de 1833. Apesar de estar encontrada a ideia bsica do modelo logstico, s em 1845, PierreFranois Verhust publicou a formulao utilizada nos estudos de crescimento da populao a que chamou de curva logstica, sendo a expresso matemtica a seguinte:

(4.1) Ainda no sc. XIX, a mesma funo foi utilizada para descrever as reaces qumicas autocatalticas, mas esteve esquecido nas neblinas do tempo a maior parte do sculo e, s foi redescoberto em 1920 por Raymond Pearl, discpulo de Karl Peason, e Lowell Reed que o aplicaram igualmente ao estudo do crescimento da populao dos Estados Unidos da Amrica. O primeiro estudo acadmico abordando a sua aplicao no domnio de

credit scoring foi publicado em 1980, e desde ento tornou-se a tcnica estatstica de
eleio nos desenvolvimentos de modelos de scoring.

46

4.2 Especificao do modelo


Segundo a especificao do modelo clssico de regresso linear mltipla, o

comportamento de uma varivel dita dependente (tambm designada por resposta, resultado ou endgena) uma funo de um conjunto de variveis independentes (tambm designadas de exploratrias, pr-determinadas ou exgenas). Frequentemente, a varivel que se pretende explicar (varivel dependente) de natureza qualitativa, assumindo, um nmero reduzido de valores, com uma probabilidade diferente associada a cada um destes valores. Por exemplo, nos modelos de credit scoring em que a varivel dependente (probabilidade de um cliente vir a entrar em situao de incumprimento), de natureza binomial ou dicotmica, ou seja, pode apenas assumir dois valores (regular,

default).
(4.2) Existem vrios modelos para explicar . Antes de derivar o modelo de regresso logstica

vamos introduzir o modelo de probabilidade linear (MPL).

4.2.1 Modelo de Probabilidade Linear


Seja a seguinte especificao:

yi

x2i

...

xki

(4.3)

Sendo o valor esperado de

yi por definio igual a:


1 2

E ( yi )

x2i

...

xki

(4.4)

Mas como yi apenas pode assumir dois valores, o seu valor esperado tambm dado por:

E ( yi ) 0.(1 Pi ) 1.Pi Pi
47

(4.5)

Em que

Pi

a probabilidade de

yi assumir valor 1

Donde se deduz:

Pi

x2i

...

xki

(4.6)

Como este modelo exprime a probabilidade probabilidade de

Pi

como uma funo linear das variveis

explicativas, conhecido como Modelo de Probabilidade linear. De notar que

Pi , ou seja, a

yi

assumir o valor 1 (do cliente ser considerado em situao de default)

aumenta linearmente com a variao de uma qualquer das variveis explicativas. Por outro lado, como a probabilidade dever situar-se entre zero e um, o modelo de probabilidade linear dever verificar a restrio:

0 Pi 1
explicativas. De salientar, igualmente, que para alm de do modelo de regresso clssica.

(4.7)

O que dificilmente acontece j que, a probabilidade cresce linearmente com as variveis

yi

assumir qualquer valor na

recta real, o MPL tambm no satisfaz as hipteses de normalidade e homocedasticidade

Verifica-se, com efeito, que os erros assumem apenas dois valores (com probabilidade igual a a qual no constante.

, assumindo portanto uma distribuio binomial com mdia igual a zero e varincia

Assim, o MPL apresenta vrios problemas, o que levou opo por outras especificaes. Entre estas especificaes, uma das mais conhecidas9 o modelo da regresso logstica.

A outra especificao mais conhecida designada por modelo Probit ou Normit que utiliza a

distribuio normal como aproximao.

48

4.2.2 Derivao do Modelo de Regresso Logstica Binomial.


Dado, ento, a varivel de resposta binria y com probabilidade de sucesso proposta por Pierre-Franois Verhulst:
2 x2 i 2 x2 i

, a

regresso logstica um modelo de regresso no linear com a seguinte formulao

Pi E ( yi / x i )

e e

1 1

... ...

k xki k xki

(4.8)

Que se pode escrever:

E ( yi / x i )

e e

zi zi
(4.9)

Com

zi

2 2i

xki

Demonstra-se facilmente que:

Assim no modelo logit

Pi

crescente sem nunca assumir valores fora do intervalo [0,1].

Pi 1 1/2 Zi
Figura 4.1 Funo logstica

49

Por outro lado, o modelo (4.9) pode ser facilmente linearizado. Com efeito, verifica-se:

1 Pi

1 1 e zi

(4.10)

E, portanto

Pi 1 Pi

e zi
Pi 1 Pi

O quociente

pode ser interpretado muito simplesmente como o (odds), rcio de

chances, ou probabilidades. Assim, no caso em estudo, este rcio representa a probabilidade de um cliente ser classificado como default sobre a probabilidade do mesmo ser classificado como regular. Se aplicarmos o logaritmo neperiano transformao (4.10) e adicionarmos a componente residual, obtemos um modelo de regresso logstica linearizado:

Li
Com:

x2i

xki

(4.11)

Li zi

ln
1

Pi 1 Pi
2 2i

k ki

A transformao evidenciada em (4.11) resolve as principais dificuldades do modelo de probabilidade linear. Como refere (Hosmer e Lemeshow 2000), a importncia dessa transformao que

Li

tem muitas propriedades desejveis do modelo de regresso

50

linear. O modelo logit linear nos seus parmetros tem domnio em valores de

, dependendo dos

x , e, em que P
i

(0,1), conforme decorre da definio de probabilidade.

4.2.3 Estimao do modelo


Se escrevermos o modelo de regresso logstica linearizado, teremos:

Li

ln

P i 1 Pi

2 2i

xki

(4.12)

Este modelo continua a apresentar erros heterocedsticos (com varincia no constante), no se aconselhando a estimao do modelo pelo mtodo dos Mnimos Quadrados Ordinrios. Mas a principal dificuldade reside na possibilidade de
10significado.

Li

assumir valores sem

Com efeito,

Pi

assume, em geral, os valores 1 (quando o acontecimento se

verifica) ou 0 (no caso oposto) pelo que Pi assume os valores de Ln( ) e de Ln(0), os quais no tm qualquer significado, tornando impossvel a estimao do modelo (4.11). Por esta razo, o modelo de regresso logstica no , em geral, estimado pelo mtodo dos mnimos quadrados, mas sim pelo de mxima verossimilhana. Seja ento, a funo de mxima verosimilhana L:
n

L
i 1

f ( yi )

(4.13)

Onde n o numero de indivduos (igual ao de observaes) e f ( yi ) P i (1 P ) i i


y

1 yi

a funo

densidade de probabilidade de
10

yi .

De facto se o problema fosse apenas heterocedasticidade, resolver-se-ia facilmente pela

transformao do modelo num modelo de regresso clssica o que passa por multiplicar o modelo pelo inverso do desvio padro dos erros.

51

Substituindo (4.12) pela expresso da funo de probabilidade de


n

yi , obtm-se:

L
i 1

P yi (1 P )1 i i

yi

(4.14)

Substituindo

Pi , pela funo de distribuio logstica vem;


n

L( )
i 1

1 1 e
Xi

yi

Xi Xi

1 yi

1 e

Representando de modo mais simplificado fica:


n

L( )
i 1

( X i ) i (1

( X i ))

(4.15)

Onde

(1 k ) de observaes das k variveis explicativas do indivduo i , o vector dos k parmetros a estimar e ( X i ) a funo distribuio da logstica.

Xi

o vector

A maximizao desta funo um problema equivalente maximizao do seu logaritmo, j que a funo logaritmo uma funo montona crescente. Para facilitar a obteno do maximizante, tem-se o logaritmo da funo de verosimilhana, ou funo logverosimilhana.
n n

l( )
i 1

y i ln( ( X i )
i 1

(1 y i ) ln(1

( X i ))

(4.16)

O estimador de mxima verosimilhana dos definio aos valores desses parmetros que

k componentes de maximizam l . Para

corresponde, por obter este mximo,

torna-se necessrio calcular a primeira e a segunda derivadas de tem de ser igual a zero e a matriz Hessiana definida negativa.

l , designadas respectivamente por Gradiente G e pela matriz Hessiana H. No Maximo de l , o gradiente

52

Demonstra-se que o Gradiente e a matriz Hessiana so respectivamente dados pelas seguintes expresses11:
n n

G( )
i 1

yi X
i 1

(Xi )Xi

(4.17)

H( )

( X i )(1

(Xi )Xi Xi

(4.18)

A expresso (4.16) e (4.17) no permitem calcular por via analtica a soluo de que garante o mximo de l ( ) , ou seja, a soluo, onde a matriz Hessiana

para

G( ) =0 (condio necessria) e

H ( ) definida negativa (condio suficiente). No , portanto,

possvel encontrar directamente uma soluo para este problema que assegure a condio necessria para o mximo de l ( ) . Assim, este problema de maximizao resolvido atravs do recurso a um algoritmo de optimizao. Demonstra-se que a resoluo deste problema reduz-se a iterar atravs da expresso: . Onde
h o valor

h 1

H(

) 1 G(

(4.19)
h,

na iterao de

h.

De notar que quando

h 1

o processo

convergiu e, por outro lado, o gradiente de G( ) nulo, o que garante a verificao da condio necessria para a existncia do mximo. Um dos algoritmos de optimizao mais utilizados o de Newton-Raphson. (Amemiya 1985) demonstra que o log da funo de verosimilhana globalmente cncavo. Assim o algoritmo de Newton-Raphson converge para um nico mximo (os estimadores de mxima verosimilhana) independentemente dos valores de inicializao adoptados. A matriz de varincias-covarincias assimptticas do vector de parmetro estimada atravs do inverso da matriz Hessiana - H ( estimadores de mxima verosimilhana (MV),
MV

pode ser

MV

) , avaliada para os
1

. Os estimadores da diagonal principal

correspondem s varincias e os restantes s covarincias.


11

A demostrao pode encontar-se em Franses e Paag (2001 p.59-60)

53

4.3

Testes de significncia do modelo

Depois de se obter os coeficientes do modelo, coloca-se a questo de avaliar a qualidade da estimao, o que passa por saber at que ponto as variveis explicativas pertencentes ao modelo so significativas para explicar o comportamento da varivel resposta. Trs dos testes mais utilizados para aferir a bondade global do modelo e a significncia individual dos parmetros ou de um conjunto de parmetros do modelo so o teste de razo de verosimilhana, o teste de Wald e o teste de scores.

4.3.1 Teste de razo de verosimilhana


O teste de razo de verosimilhana (RV) baseado no mesmo conceito que o teste F para o modelo clssico de regresso linear. O teste F mede o aumento na soma dos quadrados dos resduos quando as variveis so retiradas do modelo. Na regresso logstica, o teste de RV baseado nas diferenas entre os logaritmos da funo verosimilhana para os modelos com e sem restries. Pela teoria de estimao de mxima verosimilhana, sabe-se que os estimadores de mxima verosimilhana maximizam a funo log-verosimilhana, pelo que retirar as variveis resultam geralmente num valor pequeno para a log-verosimilhana, a semelhana do que acontece com o R2 no modelo de regresso clssica. Isto , similar ao facto de R 2 nunca aumentar quando algumas variveis so retiradas da regresso. Com efeito, o teste de razo de verosimilhana avalia se o valor de log-verosimilhana suficientemente grande para concluir que as variveis retiradas so importantes para o modelo. O teste do rcio de mxima verosimilhana baseia-se, portanto no valor obtido pelo rcio:

l ( R ) ln l ( U )
O que por definio igual diferena:

54

l ( R ) l ( U )

(4.20)

Onde l ( R ) igual ao valor mximo do logaritmo de log-verosimilhana com os da funo de mxima verosimilhana (sem restries). Salienta-se que, quando todos os parmetros (excepto a constante verifica,

k 1

parmetros (todos, excepto a constante) iguais a 0 e l ( U ) o valor mximo do logaritmo

) so nulos, se

pi

( yi )
n

1 1 e
y i ln( p)

p,
n

Pelo que

l(

)
I 1

(1 y i ) ln(1
i 1

p)

E, portanto,

l ( R )
Na hiptese de

n( p ln( p) (1 p) ln(1 p))

(4.21)

H0

ser verdadeira, ou seja, de todos os parmetros das


12

k 1 variveis k 1 graus de

explicativas serem nulos, ento

RV

2 tem a distribuio do

com

liberdade (igual ao nmero de restries). Supondo

,...

a hiptese a testar a seguinte.

H0 H1

=0 0

(4.22)

Rejeitando-se a hiptese nula quando p-value <0.05, concluindo-se que a informao acerca das variveis independentes permite-nos realizar previses estatisticamente vlidas.

12

A multiplicao por 2 necessria para que a estatstica RV tenha uma aproximao

distribuio do qui-quadrado sob a hiptese H0

55

4.3.2 Teste de significncia dos parmetros (testes de Wald)


O teste de Wald pode ser obtido, comparando a estimativa de mxima verosimilhana de determinado coeficiente, j , com a estimativa do seu erro padro. Assim, as hipteses so as seguintes:

H0 j H1 j

* j * j ( j 2,...k)

(4.23)

E a estatstica teste dada pela seguinte expresso:

wj
Onde

j * j var( j )
j

(4.24) .A estatstica

var( j ) o desvio padro estimado do estimador do parmetro

w j apresenta uma distribuio qui-quadrado com nmero de graus de liberdade igual ao


nmero de restries (no caso presente apenas um). Os valores crticos, calculado para um determinado dado nvel significncia. for maior que o
j

, para as

estimativas dos parmetros so os nveis para os quais, se o valor do teste de Wald


j j

, se rejeita a hiptese nula para um

4.3.3 Teste de score (teste de multiplicadores de Lagrange)


Outro teste utilizado para avaliar a significncia das variveis explicativas, o teste de

scores, tambm conhecido como teste de multiplicadores de Lagrange. Este teste pode
tornar-se vantajoso comparativamente aos testes anteriormente referidos pelo facto deste no requerer o clculo da estimativa de mxima verosimilhana para os parmetros do modelo. Este teste apenas estima o modelo com restries e avalia o declive da funo logverosimilhana na restrio. Se a hiptese for verdadeira, o declive ( score) na restrio dever ser prximo de zero.

56

Quando a hiptese nula verdadeira, o teste de Wald, rcio de verosimilhana, e scores so assimptoticamente equivalentes. Quando N aumenta, a distribuio amostral dos trs converge para a distribuio do qui-quadrado com graus de liberdade igual ao nmero de restries testadas.

4.4

Medidas de associao mltipla entre variveis as independentes e a varivel dependente.

Os coeficientes de determinao calculados no modelo de regresso clssica no so aplicveis no presente caso, visto a varivel dependente assumir apenas dois valores. Foram assim desenvolvidas outras frmulas de clculo.

4.4.1 Pseudo R2 (teste de McFadden)


O de McFadden uma das medidas de associao mltipla entre as variveis

independentes e a dependente mais conhecida na regresso logstica. Proposto em McFadden (1974), uma transformao da razo de verosimilhana na tentativa de se assemelhar ao R2 da regresso clssica com valores entre 0 e 1:

2 RMcF

l ( R ) l ( U )

(4.25)

Onde o significado dos smbolos o mesmo que em (4.20) O valor de 2 est limitado entre (0 e 1), assumindo o valor mnimo, zero, quando

l ( R ) l ( U ) Por outro lado, s atinge o valor 1 se a aproximao for sempre perfeita, ou


seja

pi 1 , quando yi 1

pi 0

quando

yi 0 . Apenas, num tal caso l ( R ) igual a

zero. Entre estes dois limites (0 e 1), o valor de 2 no tem uma interpretao bvia, sendo no entanto, valores mais elevados destes coeficientes associados, em geral, a

57

maior capacidade explicativa do modelo. Segundo (Tabachnick e Fidell 2001) valores entre 0,2 e 0,4 consideram-se satisfatrios.

4.4.2 R2 de Cox e Snell


Esta medida baseia-se no logaritmo da funo mxima verosimilhana e leva em linha de conta a dimenso da amostra.
2 l ( R ) l ( U ) n

R
O valor de

2 CS

1 e

(4.26)

2 RCS nunca atinge o valor Maximo 1 e considera-se uma boa aderncia valores

acima de 0,22.

4.4.3 R2 de Nagelkerke
Foi proposto por Nagelkerke, deriva do
2 RCS e, assim, o valor 1 pode ser atingido.

2 N

2 RCS 2 Rmax

(4.27)

Em que,

2 Rmax

o valor mximo de

2 RCS , ou seja, o valor quando, l ( U )

R
De notar que Valores de ajustamento.

2 max

1 e

2 l( R ) n

(4.28)

2 RN tem como mximo o valor 1.

2 RN acima dos 0.3 so considerados tradutores de boa qualidade de

58

Tambm a este nvel no podemos interpretar estes coeficientes do mesmo modo que o

R 2 (coeficiente
do modelo.

de determinao) no caso de modelos de regresso clssica. Podemos,


2 2 RCS e RN maior capacidade explicativa

no entanto associar a valores mais elevados de

4.5

Medidas de qualidade do ajustamento

Aps a estimao do modelo, o mais adequado avaliar a qualidade do ajustamento do mesmo. A avaliao da qualidade do ajustamento pode ser feita atravs dos seguintes testes: Testes de Hosmer e Lemeshow, Curva de ROC;

4.5.1 Testes de Hosmer e Lemeshow


O teste de Hosmer e Lemeshow um procedimento habitual para avaliar a qualidade de ajustamento aos dados num modelo de logit. Os seus autores sugerem que o intervalo [0,1] de variao de probabilidade, e as observadas em cada grupo. A elaborao dos testes consiste nos seguintes passos: 1. Para cada observao estima-se a probabilidade de sucesso; 2. Ordenam-se as probabilidades estimadas por ordem crescente; 3. Agrupam-se os dados de acordo com os decis das probabilidades estimadas; 4. Em cada decil, dividem-se as observaes e os valores esperados para o sucesso e insucesso; 5. Calculam-se as estatsticas de teste da semelhana do clculo de uma tabela de contingncia.

pi

seja dividido em g intervalos mutuamente

exclusivos (aproximadamente 10), comparando-se de seguida as frequncias esperadas

59

A hiptese a testar a seguinte:

H0 H1

oj

ej,

1,..., g

j : oj

e j , j 1,..., g

(4.29)

A estatstica de teste sob a hiptese nula a seguinte:


g 2 HL j 1

(o j e j ) 2 ej 1 ej nj
j

(o j

p j )2

1 n j p j (1 p j )

2 g 2

(4.30)

Onde f- nmero de decis;

n j - Nmero de observaes pertencentes ao grupo j, verificando-se n


o j Frequncia observada de sucesso no grupo j, onde o j
observao do grupo j.
nj
nj

nj
j 1

yij e yij a i-sima

i 1

p ji nj

e j - Frequncia esperada de sucesso no grupo j, onde e j

nj pj , pj

i 1

p j a probabilidade estimada correspondente i-sima observao do grupo j.


Rejeitando-se da estatstica

H 0 quando
2 HL

2 HL

>

2 g 2,1

, para um nvel de significncia fixado,

. Anlise

fornece uma indicao da qualidade de ajustamento do modelo, e

assim, valores grandes desta estatstica evidenciam fraca aderncia aos dados.

4.5.2 Anlise de resduos


Conforme refere (Choro 2005) O principal prposito da anlise de resduos da

regresso logstica, identificar as observaes para os quais o modelo tem pouca aderncia ou observaes que exercem mais do que a sua quota-parte de responsabilidade na estimao dos parmetros do modelo (pag. 43).

60

A este prposito, (Choro 2005) reitira a importncia da identificao e posterior remoo das obervaes tidas como outliers, porm apela ao bom senso e a uma anlise critriosa das observaes a retirar, pois que, um cliente em situao de default , por si s, um indivduo atpico. Existem dois tipos de resduos: O resduo de Pearson e o resduo

deviance.
O resduo de Pearson a diferena para cada observao entre o valor observado e a probabilidade estimada dividida pelo desvio-padro binomial da probabilidade estimada.

ei

P yi pi

pi

(4.31)

1 pi

Para grandes amostras, o resduo de Pearson segue uma distribuio normal com disviopadro um. Valores absolutos elevados indicam que o modelo no tem aderncia observao em particular. Normalmente existe nas bases de dados de anlise, um conjunto pequeno de observaes muito diferentes das restantes. A anlise estatstica muito sensvel a estas observaes, na medida que, uma mudana residual no valor das mesmas provoca uma alterao brusca no valor da estimativa da varivel dependente. Estas observaes denominam-se leverage points, ou observaes influntes e a frmula para a sua deduo a que de seguida se apresenta:

X (n p) ; Matriz diagonal V- de dimenso (n n) , constituida pelo produto entre a


Matriz das variveis explicativas Probabilidade estimada e o seu complementar

V
O vector

diag pi (1 pi )

(4.32)

h ento determinado pela seguinte relao

61

hi

pi (1 pi ) x

x T vx

xit

(4.33)

Geralmente a estatstica de leverage assume valores no intervalo (0,1), porm quando a equao do modelo inclui o termo intercepto, poder assumir valores maiores que 1 ou 1/N. Valores elevados de causa.
n

hi

indicam grande influncia da observao

e um valor igual a 1

significa que o vector dos parmetros influnnciado em 100% pela observao em

Numa equao com k variveis independentes,


i 1

hi

k 1, a mdia de hi dado

(k 1) sendo N o nmero de observaes. So de levar em linha de conta para a N anlise, observaes com leverage maior que a mdia.
por A distncia de Cook outro indicador utilizado para aferir o impacto da observao i no vector dos parmetros estimado eliminao da observao . Indica a variao nos resduos em virtude da

Ci
Onde

ei hii k (1 hii )

(4.34)

ei o resduo de Pearson definido anteriormente em (4.31), hii o leverage (4.33) e K

o nmero de parmetros do modelo.

Dbeta uma medida estandardizada desta estatstica. Valores maiores que 1 merecem
uma anlise mais cuidada.

62

4.5.3 Curva ROC


A curva de (Receiver Operating Characterisctic), tambm conhecido como curva de Lorenz (Henley e McNeil 1982), bastante utilizada na rea mdica, para especificar problemas no desempenho de diagnsticos mdicos, em que se procura identificar a presena ou ausncia de certa doena, com determinada probabilidade de erro. Na rea de credit scoring uma tcnica bastante til para avaliar o desempenho de modelos de

scoring. De uma forma imediata a curva baseada nos conceitos de sensibilidade e


especificidade estatsticas (medida de taxa de classificaes correctas) que podem ser obtidas a partir da construo de matrizes de confuso (Johnson e Wichern 2002) obtidas do resultado da classificao dos indivduos, gerada pelo modelo. Com o modelo ajustado, a partir de uma amostra de n cliente atribui-se um score S para cada indivduo. Assim o i-simo indivduo ser classificado como um default se S i (em que

Co ,

Co

o cutoff para o score Si , previamente determinado), e como regular caso

contrrio. Para um determinado cutoff, possvel determinar a matriz de confuso, como apresentado na tabela seguinte (tabela-4.1)
Tabela 4.1 Matriz de confuso para duas classes.

Nota: TN- True negative; FP false positive; FN- false negative; TP True positive

Atravs da matriz de confuso possvel determinar a percentagem de classificaes correctas do modelo ajustado, que so as medidas de especificidade (probabilidade de um cliente ser regular, por aplicao do modelo, sendo-o realmente score menor que o cutoff) e de sensibilidade (probabilidade de um indivduo, atravs do modelo, ser

63

classificado em default quando o efectivamente score superior ou igual ao cutoff), ou seja:

Sensibilidade=

TP TP FN TN TN FP

Especificidade =

Pode-se igualmente, para um determinado cutoff determinar o erro total do modelo de classificao, dado pela seguinte percentagem:

b c 100 % a b c d

(4.35)

Citando (Choro 2005), h a realar nesta matriz vrios aspectos importantes associados a problemas de credit scoring. Assim,

1. Erro tipo I Designado por (dimenso do teste) ou por risco de crdito, o rcio de clientes elevada, significa que demasiado generosa na em situao de default classificados como sendo regulares. Se uma instituio financeira tem uma taxa 2. Erro tipo II Designado por financeira, (complementar da potncia de teste) ou por risco comercial, o elevado por um longo perodo, haver perdas nas vendas e rcio de clientes regulares classificados como defaults. Quando, numa instituio concomitantemente, quebras nos lucros. A instituio est exposta ao risco comercial, i.e., ao risco de perda de quota de mercado. concesso de crdito estando, portanto, exposta a risco de crdito.

3. Cutoff
e esto dependentes do cutoff considerando para classificar um cliente em regular ou default. Alm disso, a matriz de confuso muitas vezes usada para comparar diferentes modelos de classificao, tendo como hiptese que os dois tipos de erros tm a mesma importncia para a instituio.

64

4.5.3.1 rea abaixo da curva ROC


A rea abaixo da curva de ROC, que varia entre 0 e 1, fornece uma medida da capacidade do modelo discriminar entre indivduos com factor de interesse versus os que no tem factor de interesse. Contudo, quando se considera um teste onde esto presentes duas populaes, uma de indivduos defaults (presena de factor de interesse), outra de indivduos regulares (ausncia de factor de interesse), muito raramente se observa uma perfeita separao entre as duas populaes. Regra geral, os resultados do teste apresentam uma sobreposio conforme se denota na figura 4.2.

Figura 4.2 - Funes de densidade de duas populaes

Para a direita do cutoff (teste positivo) identificamos uma rea correspondente aos false

positive (FP) e outra ao true positive (TP). Para a esquerda do cutoff (teste negativo)
identificamos uma rea correspondente aos false negative (FN) e outra aos true negative. Quando menor for a sobreposio das distribuies, menor a rea correspondente aos

false positive. Assim, de acordo com (A. C. Braga 2000) valores de corte elevados
conduzem a um teste pouco sensvel e muito especfico; por outro lado, valores de cutoff baixos conduzem a um teste muito sensvel e pouco especfico. Geometricamente, a curva ROC um grfico de pares de x e y (que correspondem, a 1 - especificidade e sensibilidade, respectivamente) num plano designado por plano ROC unitrio. Deste modo, no eixo das ordenadas est representada a sensibilidade do modelo, isto , quo bom o modelo em prever os true positives (defaults) sendo as suas coordenadas calculadas a partir de:

65

Y=

TP TP+FN

(4.36)

No eixo das abcissas encontra-se o complementar da especificidade, isto , a capacidade do modelo no errar na identificao dos true negatives (regulares). Em geral, um aumento da sensibilidade implica um decrscimo na especificidade e vice-versa. As do eixo das abcissas so calculadas a partir de:

X=1-

TN FP+TN

(4.37)

A relao anterior encontra-se ilustrada na figura 4.3 onde se alude, igualmente, aos trs tipos de modelo que a figura permite inferir.

Figura 4.3 - Curva de ROC, com apresentao das coordenadas para um dado cutoff

Quando maior a sensibilidade para valores elevados da especificidade (ou seja, valores elevados do eixo dos ys e valores baixos dos xs) melhor o modelo estimado. Neste sentido, uma medida numrica da preciso pode ser obtida pela rea da curva, em que o valor 1 significa um modelo perfeito, enquanto uma rea em redor de 0,5 indica uma fraca capacidade de aderncia aos dados (modelo aleatrio). Ou dito de outra forma, a rea delimitada pela curva mede a discriminao, isto , a capacidade preditiva do modelo classificar correctamente os indivduos em defaults e os individuos regulares

66

Captulo V

5 Redes Neuronais Artificiais


As redes neuronais artificiais so modelos que surgiram originalmente na dcada de 1940 como tentativa de reproduo do funcionamento do crebro humano, sendo o complexo sistema de neurnios biolgicos a sua principal fonte de inspirao. A desmistificao deste conceito torna-se assim inevitvel e se de facto as redes neuronais esto relacionadas com o crebro biolgico o seu estudo e desenvolvimento envolve para alm da neuro-biologia, outras reas do conhecimento tais como a matemtica, a electrnica e a ciberntica13. Os mtodos de neuro-computao so estreitamente baseados num modelo artificial do crebro como uma rede de elementos de processamento simples conectados entre si, correspondendo aos neurnios biolgicos, mas cuja actuao colectiva lhes confere grande capacidade de processamento possuindo estes sistemas como principal vantagem o facto de poderem aprender e adaptar-se a alteraes ambientais (Cloete 2000) Os modelos neuronais tm tido inmeras aplicaes nas mais diversas reas, desde as telecomunicaes ao mercado imobilirio, das despesas militares ao turismo (Shachmurove 2002) e (Law e Pine 2004) desde a robtica viso (Krse e Smagt 1996), das relaes internacionais (Beck, King e Zeng 2000) s questes de poltica interna (Eisinga, Franses e Dijk 1997). Na rea financeira vrios problemas tm sido abordados recorrendo s redes neuronais, como a anlise do risco de crdito (Nargundkar e Priestley 2004), a previso da insolvncia de empresas (Neves e Vieira 2004), a modelizao da inflao (McNelis 2005), a modelizao das taxas de cmbio (Zhang e Lin 2002) , o rating de obrigaes, a previso da volatilidade das opes (McNelis 2005), a previso das rendibilidades de aces (Thawornwong e Enke 2004) (Zhang e Lin 2002) a previso de ndices e tendncias de mercados accionistas .

13

Ciberntica uma teoria da comunicao e controlo do feedback de regulao. O termo ciberntico advm

do grego (significando condutor, governador, piloto). A ciberntica a disciplina que estuda a comunicao e o controlo nos seres humanos e nas mquinas construdas pelos humanos (http://pt.wikipedia.org/wiki/Cibern%C3%A9tica)

67

5.1 Inspirao Biolgica: O Crebro Humano


Grande parte da investigao em Redes Neuronais artificiais (RNAs) foi inspirada e influenciada pelo sistema nervoso do ser humano. Muitos investigadores acreditam que as RNAs oferecem a aproximao mais promissora para a construo de verdadeiros sistemas inteligentes, tendo capacidade para ultrapassar a exploso combinatorial associada computao simblica baseada em arquitetura de Von Neumann 14 O sistema nervoso central fornece uma forte base de sustentao a esta tese. O crebro uma estrutura altamente complexa, no linear e paralela. Possui uma capacidade de organizar os seus constituintes, conhecidos por neurnios de modo a executarem certas tarefas complexas (e.g processamento em paralelo da informao, a memria associativa e a capacidade para classificar e generalizar conceitos), de uma forma inatingvel pelo computador mais potente at hoje concebido. Apesar dos grandes avanos cientficos, o conhecimento do modo como o crebro humano funciona est longe de estar completo. No entanto, alguns factos importantes j so conhecidos. Quando algum nasce, o seu crebro apresenta se j com uma estrutura fortemente conexionista, com capacidade de aprender atravs da experincia. Este conhecimento evolui atravs do tempo, apresentando-se um desenvolvimento mais acentuado nos primeiros dois anos de vida. Estima-se que o sistema nervoso humano possui aproximadamente 86 bilhes neurnios ligado uns aos outros atravs de sinapses, e juntos formam uma grande rede, chamada rede neuronal. (Kohonen 2001) refere que e as ligaes existentes entre eles os axnios possuem um comprimento tal no seu conjunto que se fossem esticados daria para fazer duas vezes a viagem de ida e volta da Terra Lua. (Damsio 1995) escreve que nos neurnios se identificam trs componentes importantes: um corpo celular; uma fibra principal de sada, o axnio; e fibras de entrada ou dendrites. Os pontos nos quais os axnios estabelecem contacto com as dendrites de outros neurnios designam-se por sinapses (p.65). Portanto, uma rede neuronal consiste essencialmente num conjunto de unidades de processamento simples (neurnios) que comunicam entre si enviando sinais atravs de um nmero elevado de conexes. Em termos biolgicos, se a informao acumulada
14

John Von Neumann (1903 -1957) , matemtico hngaro-americano que teve uma grande contribuio na definio da arquitectura de mquinas sequenciais, onde um programa armazenado na mesma memria de dados que o programa utiliza. Hoje em dia quase todos os computadores so do tipo Von Neumann.

68

no corpo celular de um determinado neurnio atingir certo limite, o neurnio dispara, transmitindo um sinal electroqumico a um neurnio adjacente, atravs de um canal emissor, o axnio. A extremidade do axnio composta por ramificaes (as sinapses) que por sua vez esto ligadas estrutura do neurnio receptor atravs de outras ramificaes, as dendrites. (ver figura 5.1)

Figura 5.1 -Diagrama de um neurnio

Um nico neurnio pode estar ligado centenas ou mesmo a dezena de milhares de neurnios. Num crebro existem estruturas anatmicas de pequena, mdia e alta complexidade com diferentes funes, sendo possveis parcerias. (Cortez e Neves 2000), escreve que os neurnios tendem a agrupar-se em camadas, existindo trs principais tipos de conexes: divergente onde o neurnio pode estar ligado a vrios neurnios via uma arborizao do axnio; convergentes, onde vrios neurnios podem estar conectados a um nico neurnio e encadeadas ou cclicas, as quais podem envolver vrios neurnios e formarem ciclos (ver figura -5.2)

Figura 5.2 - Os diferentes tipos de conexes

5.2 Os componentes de uma Rede Neuronal Artificial

69

Apesar dos esforos em reproduzir o funcionamento do crebro humano, tudo o que se conseguiu foi uma aproximao elementar. (Roisenberg e Vieira, Redes Neuronais Artificiais: Um Breve Tutorial s.d.) Como escreve (Bao 2005), tal como o processo electroqumico de comunicao entre neurnios biolgicos, as redes neurnios artificiais 15, tambm consistem em neurnios e conexes entre eles. Os neurnios (ou ns) transportam informao de entrada (input) e passam a outros neurnios atravs das suas conexes de sada (output). Nas redes neuronais artificiais estas conexes so designadas por pesos ou ponderaes (Weights). A informao eltrica simulada com valores numricos especficos armazenados nestes pesos. Atravs da alterao dos valores dos pesos simulamos a alterao na estrutura de conexo.

Figura -5.3 -Conceptualizao grfica de um neurnio artificial Como descreve a figura 5.3, um neurnio artificial semelhante clula neuronal biolgica, e funciona de forma semelhante. A informao enviada para o neurnio com base nos pesos de recepo da camada de entrada (input). Este input processado por
15

O termo artificial deriva, obviamente, do facto de estas redes serem implementadas em programas computacionais, capazes de processar o grande nmero de clculos necessriosdurante o processo de aprendizagem.

70

uma funo de combinao que soma o valor de todos os inputs ponderados recebidos. O valor resultante comparado com um determinado valor limiar pela funo de activao do neurnio. Se o input excede o valor limiar, o neurnio ser activado e enviar um

output pelos seus pesos de envio para todos os neurnios a ele conectados e assim
sucessivamente, de contrrio o neurnio ser inibido. Assim, vista como uma mquina adaptativa, uma rede neuronal segundo Haykin citado em (Cortez e Neves 2000) Um processador eminentemente paralelo, composto por simples unidades de processamento, que possui uma propenso natural para armazenar conhecimento emprico e torn-lo acessvel ao utilizador. Assemelha-se ao comportamento do crebro em dois aspectos:

O conhecimento adquirido a partir de um ambiente, atravs do processo de aprendizagem. O conhecimento armazenado nas conexes, tambm designadas por ligaes ou sinapses entre neurnios. Durante o processo de aprendizagem, dado por um algoritmo de aprendizagem ou de treino, a fora (ou peso) das conexes ajustada de forma a atingir um desejado objectivo ou estado de conhecimento da rede. Embora seja esta a forma tradicional de construir uma RNAs tambm possvel modificar a sua prpria estrutura interna (ou topologia), semelhana do que se passa no crebro, onde neurnios podem morrer e novas sinapses (e mesmo neurnios) se podem desenvolver. Resumindo, o modelo de neurnio artificial apresentado na figura 5.3 composto por trs elementos bsicos: 1. Um conjunto de sinapses (ou ligaes conectadas ), cada uma as quais

caracterizada por um peso, que tem um efeito excitatrio para valores positivos e inibitrios para valores negativos. Assim, o sinal ou estmulo do input da sinapse correspondente ligada ao neurnio multiplicado pelo peso sinptico . Pode ainda existir uma ligao extra, denominada de bias

71

cuja entrada toma o valor +1, que estabelece uma certa tendncia ou inclinao no processo computacional, isto , adiciona uma constante estabeleam as correctas condies operacionais para o nodo. 2. Um totalizador para acumular os sinais de entrada. Frequentemente utilizada a funo adio ponderando todos os inputs numa combinao linear. 3. Uma funo de activao (f) para restringir a amplitude do neurnio, de sada. A funo de activao tambm referida como funo esmagadora ou ainda restritiva, j que restringe (limita) a amplitude do sinal de sada a um valor finito. Citando (Haykin 1999), a razo pela qual as redes neuronais artificiais gozam actualmente de grande popularidade alicera-se em dois aspectos fundamentais: por um lado numa topologia que premeia o paralelismo, e por outro lado, na sua capacidade de aprendizagem e generalizao; isto , conseguir responder adequadamente a novas situaes com base em experincias passadas. So estas duas caractersticas que tornam possvel a resoluo de problemas, que de outra forma seriam intratveis. Isto no quer dizer que as RNAs sejam caixas mgicas que consigam por si dar resposta a qualquer problema. Pelo contrrio, precisam no raras vezes de ser integrados com outros sistemas ou paradigmas. As redes neuronais apresentam ainda, segundo (Haykin 1999), caractersticas nicas, que no se encontram em outras ferramentas ou tcnicas: Capacidade de aprendizagem e generalizao, isto , consegue descrever o todo a partir algumas partes, constituindo-se como formas eficientes de aprendizagem e armazenamento de conhecimento; No linearidade, atendo a que muitos problemas reais so de natureza no linear; Adaptabilidade: podendo adaptar a sua topologia de acordo com mudanas do ambiente; Robustez e tolerncia a falhas: permite processar o rudo ou informao incompleta de forma eficiente, assim como sendo capazes manter o seu desempenho quando h desactivao de algumas das suas conexes e/ou nodos. O que quer dizer que se uma rede neuronal for treinada para um problema para que se

72

especfico, ser capaz de atingir bons resultados, mesmo que o problema no seja exactamente igual quela que foi utilizado durante o treino. Flexibilidade, isto , tem um grande domnio de aplicabilidade. Capacidade de processamento paralelo, permitindo que tarefas complexas sejam realizadas num curto espao de tempo .

5.3 Redes Neuronais Artificiais: Histria


A curiosidade sobre o crebro humano e os processos cognitivos e de coordenao h j muito tempo que intrigam o Homem. As primeiras tentativas de explicao de alguns aspectos tericos, segundo (Kohonen 2001) foram encetadas por filsofos gregos como Aristteles (384-322 AC), tendo j os filsofos empricos do sc. XVI algumas vises do sistema nervoso, de onde se destaca a de Descartes (1596-1650). O conhecimento existente hoje sobre o funcionamento do crebro o resultado da investigao feita nos ltimos 100 anos Ramn y Cajal em 1894 foi o primeiro a propor uma teoria para o funcionamento do crebro em termos de unidades constituintes a que denominou de neurnios. Contudo, a tentativa de reproduo do funcionamento do crebro humano data do incio da dcada de 1940, com o trabalho pioneiro de McCulloch e Pitts (Haykin 1999). Warren McCulloch foi um psiquiatra e neuroanatomista que dedicou 20 anos de investigao na tentativa de reproduzir um evento no sistema nervoso. Por sua vez, Walter Pitts, um prodgio matemtico, juntou-se a McCulloch em 1942, tendo ambos, publicado em 1943, A logical

calculus of the ideas immanent in nervous activity, No Artigo os autores descrevem um


clculo lgico das redes neuronais que sumariava os estudos da neurofisiologia e da matemtica lgica. Defendiam ainda que o modelo formal do neurnio por eles desenvolvido seguia uma lei tudo ou nada. Provaram que uma rede neuronal constituda por um nmero suficiente de neurnios e com conexes sinpticas ajustadas apropriadamente e operando de forma sncrona era capaz de processar qualquer funo. Em 1948, foi publicado o famoso livro Cybernetics de Winer, descrevendo alguns conceitos importantes sobre o controle, a comunicao e o processamento estatstico de sinais. A segunda edio do livro foi publicada em 1961, adicionando novos conceitos sobre aprendizagem e Self- Organizing Maps. No captulo 2 de ambos os livros Winer, parece compreender o significado fsico de mecnica estatstica no contexto deste

73

assunto, mas foi Hopfield, (mais de 30 anos depois) quem conseguiu estabelecer a ligao entre a mecnica estatstica e os sinais de aprendizagem. O prximo desenvolvimento significativo das redes neuronais veio em 1949, com a publicao do livro de Donald Hebb "The Organization of Behavior", em que acentuava a ideia de que os parmetros do modelo do neurnio de McCulloch-Pitts pudessem se autoajustar. Estes primeiros estudos das redes neuronais biolgicas formaram os fundamentos do que se tornou conhecido como redes neuronais artificiais (RNAs). Durante a metade da dcada de 1950 e incio de 1960, uma classe de investigadores chamados de "learning machines" liderada por Frank Rosenblatt, causaram grande excitao entre pesquisadores da teoria de reconhecimento de padres, principalmente pela apresentao do livro Principles of Neurodynamics. Nele o autor fornece vrias ideias a respeito dos perceptres, demonstrando que se adicionarem sinapses ajustveis, as redes neuronais poderiam ser treinadas para classificar certos tipos de padres. O perceptro capaz de classificar entre classes que so linearmente separveis, tendo sido utilizado para reconhecer caracteres. (Choro 2005) refere que a caracterstica mais importante do perceptro a apresentao de um algoritmo de aprendizagem capaz de adaptar os pesos internos do neurnio de maneira que seja capaz de resolver o problema da separabilidade linear das classes. O xito conseguido por esta abordagem fez com que muitos considerassem Rosenblatt como o verdadeiro pai da inteligencia artificial.. Em 1960, Widrow e Hoff introduziram o algoritmo " Least Mean Square" (LMS), conhecido como mnimos quadrados, que usaram para formular o Adaline (elemento linear adaptativo). A principal diferena entre o perceptro apresentado por Rosemblatt, e o Adaline de Widrow situa-se no procedimento de treino. Widrow e seus estudantes propuseram uma das primeiras redes neuronais com camadas capazes de ser treinadas com mltiplos elementos adaptativos, que foi chamada de Madaline (Haykin 1999). Aps a apresentao do perceptro acreditava-se que as redes neuronais (perceptrons) poderiam resolver qualquer problema. Contudo, aps estes espectaculares desenvolvimentos, a rea das redes neuronais conheceu uma grande crise com a publicao do trabalho de Marvin Minsky e Seymour Papert, em 1969 sobre o Perceptrons. Nele chamaram a ateno para algumas tarefas que o perceptro com

74

apenas uma camada intermdia, era incapaz de aprender padres no linearmente separveis, (o famoso problema do Xor/Ou exclusivo). Rosenblatt props como soluo aumentar o nmero de camadas, mas, apesar de toda a sua viso e perspiccia neste campo, no logrou desenvolver um mtodo de aprendizagem eficaz para estas redes neuronais mais avanadas. Aps a publicao do livro de Minsky e Papert, sobre as limitaes dos perceptres, e tambm, por no haver suporte financeiro para conduzir projectos nesta rea, as pesquisas em redes neuronais ficaram esquecidas pelo menos at o incio de 1980. E 1974 aconteceu um facto que viria, mais tarde a proporcionar o renascimento do interesse geral pelas potencialidades das redes neuronais, foi quando Paul Werbos lanou as bases do algoritmo de retro-propagao (Backpropagation), Porm as potencialidades deste mtodo tardaram a ser reconhecida (Gorni 1994). Em 1982 John Hopfield publicou com um estudo que chamava ateno para as propriedades associativas de uma classe de redes neuronais que apresentava fluxos de dados multidirecional e comportamento dinmico, Primeiramente ele demonstrou que a rede possua estados estveis e, posteriormente, que tais estados poderiam ser criados alterando-se os pesos das conexes entre os neurnios. No entanto, os primeiros resultados que levaram a retoma do desenvolvimento das redes neuronais s foram publicados em 1986 e 1987, atravs dos trabalhos do grupo PDP ( Paralled and distributed

Procesing), onde ficou consagrada a tcnica de treino por backpropagation. Estava ento
reunidas as condies para o desenvolvimento das redes neuronais. Em 1982, Kohonen (1982) publicou um artigo no qual utilizava mapas auto-organizveis (SOM) como uma estrutura bi-dimensional, que difere em alguns aspectos do primeiro trabalho de Willshaw e von der Malsburg que tambm usaram aprendizagem competitiva. Em 1988, Broomhead e Lowe descreveram um procedimento para o projecto de uma rede neuronal (feedforward) usando funo de base radial, conhecida na literatura como "radial basis

function" (RBF), que proporcionou um modelo de aprendizagem alternativo ao perceptro


de multiplas camadas. No incio dos anos 90, Vapnik e seus colaboradores apresentaram uma poderosa classe de redes neuronais supervisionadas, designadas de Support Vector

Machines, para a regresso e o reconhecimento de padres.

75

Hoje em dia procuram-se no s redes mais eficientes como tambm melhores algoritmos de treino (Sarle, Neural network 1999). Por outro lado, espera-se que a aplicao de RNAs a outras reas do conhecimento se generalize, seja Medicina, Economia, ao Processamento de Sinal, Robtica, ou aos Sistemas Periciais, para alm da Estatstica.

5.4 Tipos de Redes Neuronais Artificiais


As redes neurais artificiais diferenciam-se pela sua arquitectura e pela forma como os pesos associados s conexes so ajustados durante o processo de aprendizagem. A arquitectura de uma rede neural restringe o tipo de problema no qual a rede poder ser utilizada, e definida pelo nmero de camadas (camada nica ou mltiplas camadas), pelo nmero de ns em cada camada, pelo tipo de conexo entre os ns e pela sua topologia (Haykin 1999). Hoje em dia existem milhares de diferentes tipos de redes neuronais, cada uma com as suas prprias potencialidades e caracteristicas. No entanto, a grande distino feita entre redes feedback- tambm designadas recorrentes e feedforward (alimentao para a frente). Uma rede neuronal artificial feedforward pode ser organizada por camadas, pois no existem ciclos, dado que as conexes so sempre unidireccionais (convergentes ou divergentes) no existindo realimentao. Na sua forma mais simples, uma rede composta por uma camada de entrada, cujos valores de sada so fixados externamente, e por uma camada de sada. De referir que a camada de entrada no contabilizada como camada numa RNA dada o facto de nesta no se efectuarem quaisquer formas de clculo. A segunda classe de redes feedforward distingue-se pelo facto de possuir uma ou mais camadas intermdias, cujos nodos so designados por nodos intermdios tendo como funo intervir de forma til entre a entrada e a sada da rede. Ao se acrescentar camadas intermdias est-se a aumentar a capacidade da rede em modelar funes de maior complexidade, uma particularidade bastante til quando o nmero de nodos na camada de entrada elevado. Por outro lado, este aumento tambm transporta um seno, uma vez que o tempo de aprendizagem aumenta de forma exponencial.

76

Figura 5.4 - Arquitetura de rede feedforward Como se poder observar na figura 5.5, numa rede feedback, as conexes podem ser feitas entre quaisquer nodos. A recorrncia existe em sistemas dinmicos quando uma sada de um elemento influncia de algum modo a entrada para esse mesmo elemento, criando-se assim um ou mais circuitos. Assim que uma ou mais conexes cclicas so includas numa rede, estas passam a ter um comportamento no linear, de natureza espacial e/ou temporal, que podem ser utilizadas para modelar novas funes cognitivas, tais como as de memria associativa e/ou temporal (Bose e Liang 1996). Ao conter ciclos, as sadas no esto dependentes exclusivamente das ligaes entre nodos, mas tambm de uma dimenso temporal; i.e., est-se na presena de uma clculo recursivo, que obedecer naturalmente a uma certa condio de paragem, com a ltima iterao a ser dada como a sada para o nodo (Riedmiller e Braun. 1993).

77

Figura 5.5 - Arquitetura de redes neuronais feedback

5.5 Tipos de aprendizagem


Como j foi referido uma das propriedades mais importantes de uma rede neural artificial a capacidade de aprender a partir da interaco com o meio ambiente e fazer inferncias do que aprenderam. A utilizao de redes neuronais num qualquer problema passa primeiramente pela fase de aprendizagem que se d quando a rede neuronal consegue extrair padres de informao no subconjunto de treino, criando assim uma representao prpria. Segundo (Braga, Carvalho e Ludemir 2000) a etapa de aprendizagem consiste num processo interactivo de ajustamento dos parmetros da rede, os pesos das conexes entre as unidades de processamento, que guardam, no final do processo, o conhecimento que a rede adquiriu do ambiente em que se encontra a operar. (pag. 72)

Enunciando (Haykin 1999) a aprendizagem um processo pela qual os parmetros de uma rede neuronal so ajustados atravs de um processo de estimulao

78

do meio ambiente no qual a rede est inserida, sendo o tipo de aprendizagem determinado pela maneira como ocorrem os ajustamentos nos parmetros. Portanto, o objectivo do treino/aprendizagem consiste em atribuir valores apropriados aos pesos sinpticos de modo a produzir o conjunto de sadas desejadas ou ao menos consistentes com um intervalo de erro estabelecido. Desta forma, o processo de aprendizagem consite na busca de um espao de pesos pela aplicao de alguma regra que defina esta aprendizagem. Existem trs paradigmas bsicos para adaptar os parmetros do sistema: aprendizagem por reforo, aprendizagem supervisionada, e aprendizagem no superviosionada.

5.5.1 Aprendizagem por reforo


Neste tipo de aprendizagem conta-se com a presena de especialistas acerca do universo de discurso, embora a resposta correcta no seja apresentada rede; i.e., apenas se fornece uma indicao sobre se a resposta da rede est correcta ou errada, tendo a rede de usar essa informao para melhorar o seu desempenho. Em princpio, um prmio dado em termos do reforo dos pesos das conexes que contribuem para uma resposta correcta e, uma penalidade para a situao em contrrio.

5.5.2 Aprendizagem Supervisionada


Nas redes neuronais, aprendizagem supervisionada tornou-se a designao do processo de ajustamento de um sistema para que produza um determinado output, designado por este motivo de alvo (target), como resposta a determinados inputs, sendo a relao funcional existente entre as variveis independentes e dependente normalmente conhecida e designando-se por treino o processo pelo qual o sistema aprende esta relao. Desta forma, a rede pode ajustar os parmetros de forma a encontrar a soluo que melhor adequabilidade registe entre o seu output e os seus valores correctos observados.

79

Figura 5.6 - Diagrama do ciclo de aprendizagem supervisionada Fonte: Adaptado a (Haykin 1999) Por vezes este tipo de rede refere-se como fazendo uso de um professor externo que indique ao sistema o correcto resultado para cada padro de input. Podendo este professor ser um humano, que especifica a correcta classe para cada padro de entrada, ou um sistema fsico cujo comportamento se pretenda modelar. A cada interaco efectuada a rede neuronal compara a resposta desejada com o valor de sada da rede, originando um erro. O erro resultante utilizado para de alguma forma ajustar os pesos da rede. A soma dos erros quadrticos de todas as sadas normalmente utilizada como medida de desempenho da rede. Uma das vantagens da aprendizagem supervisionada a de que o seu modelo bem definido, apontando-se como principais crticas o artificialismo, a limitao do modelo de aprendizagem e a necessidade de professor (Reed e MarsII 1999)

5.5.3 Aprendizagem no-supervisionada


Um dos inconvenientes do treino supervisionado a necessidade de professor Suponhamos agora que tambm no conhecemos a priori o nmero nem as classes envolvidas. Como lidar com situaes destas? Para fazer face a estas questes nasceu a necessidade de desenvolver uma aprendizagem e classificao no-supervisionada.

80

Neste tipo de aprendizagem os dados de treino no se encontram legendados e no existem alvos a atingir, em vez disso o sistema adapta-se s suas idiossincrasias de acordo com as caractersticas que possuem implicitamente. Mesmo no conhecendo as classes envolvidas, se as amostras em anlise carem num nmero finito de categorias, digamos, com base nas suas relaes de similaridade, ento podemos estar perante um problema de classificao no supervisionada sendo assim necessrio recorrer a mtodos de agrupamento (clustering) (Kohonen 2001) Este tipo de aprendizagem apresenta ainda a vantagem adicional de poder ser utilizada mais abrangentemente em virtude dos dados no legendados se encontrarem frequentemente em maior disponibilidade que os dados classificados (Reed e MarsII 1999). Se uma rede tiver a habilidade de descobrir clusters com similaridade de padres sem superviso, i.e, sem possuir informao sobre o target, e a afectar neurnios a esses clusters, qualquer que seja o processo utilizado, diz-se que a rede, alm de no ser supervisionada, possui capacidade de auto-organizao (Gurney 1997). Um tipo de redes deste tipo e que tem sido muito bem sucedida na resoluo e modelao de vrios problemas so os

Self-Organizing Maps (SOM).

5.6 Redes Multi Layer Perceptron (multicamadas).


5.6.1 Perceptron de uma nica camada.
De acordo com o que se escreveu em 5.3. Redes Neuronais Histria, pag. 77, foi Rosembalt em 1958, quem primeiramente props o perceptron, como o primeiro modelo de aprendizagem supervisionada. O perceptron a forma mais simples de uma rede neuronal, que s aceita valores binrios (0 e 1) como input e como output. utilizada para a classificao de padres ditos linearmente separveis, isto , padres que se encontram em lados opostos de um hiperplano. Este modelo era composto, basicamente, por um nico neurnio com pesos sinpticos ajustveis e o termo bias. O algoritmo utilizado para ajustar os parmetros livres desta rede neuronal apareceu primeiro num processo de aprendizagem desenvolvido por Rosembalt para o seu modelo cerebral de

perceptron. De facto, Rosembalt provou que se os padres (vectores) utilizados para


treinar o perceptron so retirados de duas classes linearmente separveis, ento o

81

algoritmo de perceptron converge e posiciona a superfcie de deciso na forma de um hiperplano entre as duas classes (vide figura 5.7).

Figura 5.7- Classes linearmente separve is ( esquerda) e classes no linearmente separveis ( direita)

Todavia, Minsky e Papert, ao analisarem matematicamente o perceptro concluram que este no obtinha solues para problemas que no fossem linearmente separveis. Para isso seria necessrio a introduo de mais um neurnio na camada intermdia e de uma ou mais camadas intermdias de modo a poder implementar superfcies de deciso mais complexas. A caracterstica principal da camada escondida que seus elementos se organizam de tal forma que cada elemento aprenda a reconhecer caractersticas diferentes do espao de entrada, assim, o algoritmo de treino deve decidir que caractersticas devem ser extradas do conjunto de treino. Ademais, o algoritmo de minimizao do erro, tambm conhecido como regra delta, apresentado por Windrow e Hoff, no se aplicava s camadas intermdias.

82

5.6.2 Arquitectura de redes multicamdas (MLP)


Para problemas no linearmente separveis seria, necessrio recorrer a uma combinao de hiperplanos em que se deveria, segundo (Neto 1997) dotar a rede com mais de um neurnio na camada intermdia, e/ou mais de uma camada. Contudo, na poca ainda no se conhecia nenhum algoritmo de aprendizagem capaz de treinar redes com mais de uma camada de neurnios, gerando-se, assim, um grande pessimismo em relao ao futuro da rea das redes neuronais. Foi somente em 1974 que Paul Werbos, descobriu o algoritmo enquanto desenvolvia a sua tese de doutoramento em Estatstica, o qual apelidou de Algoritmo de realimentao dinmica. Parker, em 1982 redescobriu o algoritmo e denominou-o de Algoritmo de aprendizagem lgico. Todavia, como referido anteriormente, foi o com o trabalho de Rumelhart Hilton e Williams do grupo de PDP do MIT que 1986, divulgou e popularizou o uso do backpropagation dando, assim um novo impulso ao desenvolvimento das redes neuronais. Este algoritimo conhecido como retropropagao do erro, ou ainda, por regra delta generalizada sendo o seu objectivo a minimizao do erro quadrtico mdio. Com esta descoberta, as MLP tornaram-se capazes de solucionar problemas que no so linearmente separveis. Trata-se de um mtodo muito simples, mesmo para modelos complexos contendo milhares de parmetros (pesos); as MLP, so assim, uma tcnica flexvel para aferirem padres estatsticos de reconhecimento com modelos complexos. Conforme o seu nome indica, MLP so compostas por: Uma camada de entrada (E); uma ou vrias camadas escondidas ou intermdios (I); uma camada de saida (S); Um conjunto de conexes unidireccionais (C), definidos pelo iniciais (i, j, w) ou abreviadamente wij, em que i I S, j E I, j < i e w ; e um conjunto de funes de activao (F), normalmente do tipo no linear e diferenciveis, sendo a funo logstica (ou sigmoid) uma das mais utilizadas.

83

Figura 5.7- Estrutura de um MLP Os inputs so apresentados simultaneamente camada de entrada, sendo que os inputs ponderados desta camada servem de alimentao camada seguinte (camada escondida) e assim sucessivamente. Cada uma das camadas possui, uma funo especifica. A camada de saida recebe os estimulos da camada intermdia e constroi o padro que ser a resposta. A camada intermdia funciona como extractoras de caracteristcas, cujos pesos so uma codificao de caracteristicas apresentadas nos padres de entrada, permitindo que a rede crie a sua prpria representao, mais rica e complexa, do problema. Assim, alm de calcular o sinal de saida de unidade calcula uma estimativa instantnia do vector gradiente que necessria para a retropropagao do erro. A camada de entrada responsavel por receber os dados externos e converter em representao intangvel para a rede (Pag.78).

5.6.3 Algoritimo Backpropagation


Dentro dos algoritmos supervisionados, o algoritmo de Backpropagation (BP) talvez o mtodo de aprendizagem mais popular e mais utilizado em RNAs Este algoritimo de aprendizagem representa um marco na evoluo das redes neuronais artificiais, pois que, enunciando (Choro 2005) foi o desenvolvimento de um mtodo de retropropagao

84

do erro que ressuscitou o interesse pelas redes neuronais. Conforme (Beale 1990), o backpropagation pode ser visto como uma generalizao do mtodo Delta para redes neurais de mltiplas camadas, sendo que a a principal modificao reside no processo de clculo e actualizao dos pesos durante a fase de treino. A grande dificuldade dos perceptres de multicamada consiste no clculo dos pesos nas camadas intermdias duma forma eficiente e que minimize o erro na sada. Quantas mais camadas intermdias tiver, mais difcil se torna o clculo dos erros. O valor do erro na sada fcil de calcular, pois a diferena entre a sada obtida e a sada desejada, mas nas camadas intermdias a dificuldade acrescida, pois no existe uma observao directa do erro entre as camadas. O algoritmo de Retropropagao veio preencher esta lacuna. Trata-se de um algoritimo em que a aprendizagem d-se atravs de um processamento interactivo dos exemplos de treino, comparando as previses da rede para cada um dos exemplos de treino com os verdadeiros valores. A minimizao do erro no algoritmo

backpropagation obtida pela execuo do gradiente decrescente na superfcie de erros


do espao de pesos, onde a altura para qualquer ponto no espao de pesos corresponde medida do erro. Para cada exemplo de treino, os pesos so modificados de forma a minimizar o erro quadrtico mdio entre as previses da rede e os verdadeiros resultados. Estas modificaes so feitas no sentido contrrio, da camada de output para a camada de input. O erro apurado na camada de output e retro-propagado para a camada de

input, ou seja, uma vez apurado o erro segue-se um processo de apuramento das
responsabilidades tentando corrigir os pesos que mais contriburam para esse erro. Resumindo possivel identificar duas fases distintas no processo de aprendizagem do algoritimo de retropropogao:

A primeira fase responsvel pelo processo de treino, e consiste em enviar um sinal funcional que vai da camada de input at a de output, i.e., processamento para frente, onde um vector de entrada (

xp )

fornecido aos neurnios de

entrada, propagando-se para frente, camada a camada. Finalmente, produzido um conjunto de sada como resposta da rede. Durante a fase de propagao os

85

pesos sinpticos da rede so todos fixos.

Na segunda fase do treino enviado um sinal do erro, no sentido inverso, isto , de output para a camada de input- demoninado de retropropagao. Durante a fase de retropropagao, os pesos sinpticos so todos ajustados de acordo com uma regra de correco do erro. Especificamente esta fase representa a validao da fase anterior, ou seja, verifica-se se o output produzido foi satisfatrio, atravs da comparao de sadas geradas pela rede com a resposa desejada para produzir um sinal de erro. Este sinal de erro tambm retropropagado atravs da rede, em sentido contrrio das conexes sinpticas da o nome retropropagao do erro.

Figura 5.8: Vagas de computao

De modo a facilitar a compreenso do algoritimo, apresenta-se de seguida uma descrio resumida dos passos mais importantes do algoritimo de retropropagao. Para mais detalhes aconselhamos a consulta de (Freeman e Skapura 1992) e (Haykin 1999). Para tal, considere a seguinte arquitetura multicamada apresentada na figura 5.9.

86

Figura 5.9 Arquitetura de rede mult-icamada Fonte: (Roisenberg e Vieira, Redes Neuronais Artificiais: Um Breve Tutorial s.d.)

Considere um conjunto de P pares de vetores (X1, Y1), (X2, Y2),..., (XP, YP), no nosso conjunto de treino e que so exemplos de um mapeamento funcional definido como:

m . Com o objectivo de treinar a rede de modo que ela consiga n ,Y ' m devemos seguir os (X ) : X aprender uma aproximao da forma: O Y ' Y (X ) : X
seguintes: O mapeamento funcional que foi proposto acima pode ser entendido como um conjunto de coordenadas cartesianas em que para cada x i de entrada existe um yi de sada. Assim, escolhendo para uma funo qualquer um bom exemplo de treino P (xi, yi) a rede ser capaz, depois de treinada, de interpolar/generalizar novos exemplos, criando assim uma aproximao da funo. Portanto, comforme descrito anteriomente, em primeiro lugar, um vector de entrada Xk= [xk1 xk2... xkn]
T

n ,Y

do conjunto de treino apresentado camada de entrada da rede. Os

elementos de entrada distribuem os valores para os elementos da camada escondida. Para calcular o valor do net para o j-simo elemento da camada escondida, procedemos

87

multiplicao dos outputs de cada camada anterior pelo respectivo peso (w) e posteriormente a soma de todos eles. A expresso matemtica dada por:
n

net

h kj i 1

wh xki ji

h j

(5.1)

Onde w ji peso da conexo entre o j-simo elemento da camada de entrada e o j-simo elemento da camada escondida h e sada do neurnio. Assumindo que os neurnios so estticos, assumimos que o valor da funo de activao ser igual ao net, ento, o valor de sada para um neurnio da cada escondida resulta da expresso:
h f jh (netkj )
o p

o termo opcional chamada bias que prev um

factor ficticio de entrada igual a 1, dando um grau de liberdade maior para a funo de

ikj

(5,2)

Do mesmo modo, as equaes para os neurnios da camada de sada so dadas por:


i

net

o kp j 1

wo ikj pi

o p

okp

o f po (netkp )

(5,3)

Conforme (Freeman e Skapura 1992), o objectivo do treino consiste em ensinar rede o mapeamento de todo vector de entrada para o respectivo vector de sada, isto , encontrar os valores apropriados para os pesos das conexes da rede de modo a minimizar a funo do erro definida pela soma dos erros quadrticos mdios da rede. Assim, o erro para um nico neurnio p na camada de sada para um vector de entrada k dado por

Ekp

( ykp

Okp )

(5.4)

88

De forma a minimizar a funo de custo, calcula-se a derivada em ordem ao peso sinptico, ou seja, a direco de modificaes dos pesos ser dada de acordo com a direco que o vector gradiente seguir na superfcie. Aplicando a regra de cadeia tem-se:

Ek wo pj
o

( y kp okp )

f po
o (netkp )

o (netkp )

wo pj

(5.5)

Podemos escrever a derivada de f p netkp e o ltimo termo da equao como:


o

o (netkp )

o pj

o pj j 1

wo ikj pj

o p

) ikj

(5.6)

Combinando as equaes, o negativo do gradiente ser:

( Ek ) wo pj

( ykp

o okp ) f po ' (netkp )ikj

(5.7)

Por aplicao do mtodo de gradiente descendente, poder-se evidenciar que a alterao do peso sinptico deve dar-se na direco oposta da derivada da superficie do erro aplicando-se taxa de aprendizagem , pelo que a alterao deve repeitar:

wo (t 1) wo (t ) pj pj

wo (t ) pj
o

Com

wo pj

o ( ykp okp ) f po ' (netkp )ikj

(5.8)

Convm ressaltar que a funo f p precisa ser uma funo diferencivel para que seja possvel implementar a busca do gradiente descendente. A funco logistica ou sigmoidal, pela facilidade de clculo da sua derivada preencher os requesitos de continuidade, diferenciabilidade e monotonicidade, a mais utilizada sendo a sua expresso a seguinte:

f po (net o ) jp

1 1 e
net o jp

E a sua derivada dado por:

f po '

f po (1 f po )

(5.9)

Os clculos para os neurnios das camadas escondidas so similares, salvo facto de no sabermos a priori qual o valor desejado de sada para os neurnios destas camadas. Assim, o clculo feito em funo das sadas desejadas pela camada de sada, pois

89

estas esto intimamente ligadas com as sadas dos neurnios das camadas intermeddia. Da vem que;

Ek 1 2 1 2

1 2

( ykp
p

Okp ) 2
(5.10)
o p

( ykp
p

f po (net )) 2 f po (
j

( ykp
p

wo ikj pj

)) 2

Sabendo que i pj depende dos pesos da camada escondida, podemos utilizar este facto para calcular o gradiente de E k em relao aos pesos da camada escondida.

Ek wh ji

1 2 ( ykp

h ji

( ykp Okp

Okp ) 2
o (netkp )

Okp )

ikj
h (netkj )

h (netkj )

(5.11)

o (netkp )

ikj

wh ji

Cada um dos factores da equao pode ser calculado explicitamente das equaes anteriores, assim como foi feito para o gradiente da camada de sada. O resultado fica:

Ek wh ji

( ykp
p

o h Okp ) f po ' (netkp ) wo f jh ' (netkj ) x ki pj

(5.12)

Por fim, assim como no caso da camada de sada, actualizamos os pesos da camada escondida proporcionalmente ao valor negativo da equao.

wh (t 1) ji
Onde

wh (t ) ji

wh (t ) ji

wh ji

h f jh ' (netkj ) xki p

o ( ykp okp ) f po ' (netkp ) wo pj

(5.13)

90

Antes de se iniciar o treino de uma rede, h que proceder escolha dos valores iniciais dos pesos associados s ligaes entre nodos, que em geral pertencem ao intervalo [0,1] ou [-1,1] e so gerados de forma aleatria. Os exemplos de treino so apresentados sucessivamente s unidades visveis da rede neural artificial, at que um erro aceitvel (previamente fixado) seja alcanado ou enquanto um nmero determinado de iteraes no for satisfeito. O ltimo conjunto de pesos observado entre as conexes das clulas ento mantido para testar a habilidade da rede em mapear a funo de entrada para sada e a consequente validao do modelo de redes neurais artificiais.

5.6.4 Consideraes sobre o Algoritmo Backpropagation


O desempenho do algoritmo de aprendizagem backpropagation est condicionado arquitetura da rede neuronal e ao conjunto de dados utilizados no processo de ajustamento dos pesos sinpticos entre as conexes da rede .

5.6.4.1 Dados de treino


Conforme James Freeman (Freeman e Skapura 1992) no existe critrio especfico para seleco dos exemplos de treino. possvel utilizar todos os dados disponveis no processo de treino da rede, embora apenas um subconjunto desses dados seja suficiente para que o processo seja executado com sucesso. Os dados restantes podem ser usados para avaliar a capacidade de generalizao do backpropagation. Idealmente, os dados devem ser em quantidade suficiente para reflectir todas as possveis variaes de respostas diferentes. Neste caso, os dados dividem-se em trs conjuntos: um conjunto de treino, que servir para a actualizao dos pesos das sinpses; um conjunto de teste, que serve para verificao da resposta da rede a dados no usados para treino; e um conjunto de validao, que deve ter casos diferentes dos anteriores, e permitir aferir qual a melhor rede obtida pelo treino.

5.6.4.2 Tipo de processamento, taxa de aprendizagem e mnimos locais


Conforme a descrio anteriormente efectuada, os pesos sinpticos vo sendo ajustados no decorrer do processo de treino. No algoritimo backpropagation, este ajustamento pode

91

ser efectuado atravs de um processamento em modo sequencial (por padro ou ainda em on-line) ou em batch, tambm denominado de processamento por ciclo. No processamento em modo sequencial os pesos da rede so actualizados medida que um novo exemplo de treino {entrada, sada} apresentado rede. O treino sequencial muito utilizado em aplicaes em tempo real, devido ao facto de utilizar menos memria no seu processamento uma vez que os padres so apresentados rede par a par e os pesos so actualizados aps o seu processamento. Este facto faz com que a rede tenha uma maior probabilidade de no cair num mnimo local, bem como, seja mais difcil estabelecer condies tericas para a convergncia do algoritmo. Uma das vantagens da utilizao do mtodo sequencial consiste no facto de, ao trabalhar com dados extensos e redundantes, o algoritmo conseguir tirar partido, j que os dados so apresentados rede par a par. Apesar das desvantagens do modo sequencial em detrimento do modo em

batch, o mesmo muito usado devido ao facto de ser um algoritmo simples de aplicar e
proporcionar solues em vrios tipos de problemas com dificuldades diversas (Haykin 1999) No processamento em batch, a actualizao dos pesos realizada aps todos os exemplos de treino {entrada, sada} serem apresentados rede e processados em conjunto formando uma poca. O treino em batch melhora a estimativa do vector de gradiente sendo a convergncia para um mnimo local garantida atravs do uso de condies simples. Este modo de processamento permite mais facilmente estabelecer comparaes entre os diversos parmetros escolhidos. O algoritimo de retropropagao apresenta, contudo, alguns problemas tais como a paralesia da rede e a existncia de um minimo local. Como se sabe, o algoritimo de retropropagao utiliza a heurstica do gradiente decrescente para ajustar os pesos entre as sinpses, seguindo a curva da superfcie dos erros em direco a um ponto mnimo (Wasserman 1989).As superfcies de erros convexas, por apresentarem um nico mnimo, permitem que este mtodo atinja o mnimo global. Nas superfcies de erros no convexas e altamente convolutas, normalmente encontradas em problemas prticos, a soluo alcanada pode no ser a ptima. Nestes casos, haver que ser utilizado algum algoritmo de optimizao global.

92

Assim que um mnimo encontrado, seja global ou local, a aprendizagem termina (Freeman e Skapura 1992). Se a rede alcanar um mnimo local (figura 5.10), todas as direces na sua vizinhana mais prxima representam valores maiores que o alcanado e, consequentemente, a convergncia para o mnimo global no atingido. Nesse caso, a magnitude do erro da rede pode ser muito alta e, portanto, inaceitvel. Caso a rede neural encerre a aprendizagem antes que uma soluo satisfatria seja obtida, o redimensionamento do nmero de unidades ocultas ou da taxa de aprendizagem e do termo momentum podem ser suficientes para resolver o problema, como se explicar mais adiante.

Figura -5.10 Minimo Local

Fonte : (Kovacs 1996)


Atravs da figura 5.10, que ilustra um corte em uma superfcie de erros hipottica no espao de pesos, possvel observar um ponto de mnimo local. Tanto direita, quanto esquerda, os valores so maiores que esse mnimo. (Freeman e Skapura 1992), sugere que os pesos das conexes entre as camadas de uma rede neural sejam inicializados com valores aleatrios e pequenos para que se evite a saturao da funo de activao e a consequente incapacidade de realizar a aprendizagem. Quanto mais pequena for a taxa de aprendizagem , menores vo ser as mudanas nos pesos das conexes da RNA, de modo que a procura do mnimo global ser favorecida pelo uso de saltos mais suaves. O problema que se coloca que, desta forma converge-se para uma aprendizagem mais lenta. Por outro lado, se se aumentar em demasia o valor de , ento os saltos desmedidos nas mudanas dos pesos podero

93

provocar instabilidade no treino (e.g., movimento oscilatrio). medida que o treino evolui, os pesos sinpticos podem passar a assumir valores maiores, forando a operao dos neurnios na regio onde a derivada da funo de activao muito pequena. Como o erro retropropagado proporcional a esta derivada, o processo de treinamento tende a se estabilizar, levando a uma paralisao da rede sem que a soluo tenha sido encontrada. Isto pode ser evitado pela aplicao de uma taxa de aprendizagem menor. Teoricamente, o algoritmo de aprendizagem exige que a mudana nos pesos seja infinitesimal. Entretanto, a alterao dos pesos nessa proporo impraticvel, pois implicaria um tempo de treino infinito. Por este facto, recomendvel que a taxa de aprendizagem assuma um valor maior no incio do treino e, medida que se observe decrscimo no erro da rede, essa taxa tambm seja diminuda. Como refere (Beale 1990), medida que a taxa de actualizao dos pesos diminui, o gradiente decrescente torna-se mais apto a alcanar uma soluo melhor. Uma forma de aumentar a velocidade de convergncia da rede neuronal artificial a adopo de um mtodo chamado momentum. O propsito deste mtodo consiste em adicionar, aquando do clculo do valor da mudana do peso sinptico, uma frao proporcional alterao anterior. A equao (5.15) especifica o ajustamento das conexes entre unidades de processamento pela aplicao do termo momentum. Outra forma distinta para lidar com este problema reside no uso de diferentes taxas de aprendizagem, uma por cada nodo. 1 (Yeung 1999) sugere que se utilize. , Para um nodo com z conexes z

. w pk (t 1)
Onde

w0 (t ) pj
0

w(t 1)
1.

(5.14)

representa o termo momentum,

Na Fig. 5.11 pode-se analisar o comportamento do algoritmo sem e com o termo momento, donde facilmente se percebe a razo pela qual o termo momento ajuda no processo de actualizao dos pesos.

94

Figura 5.11 Comportamento do algoritimo de retropropagao com sem e com o termo momento

Fonte: (Meneses 2003)


A introduo do termo momento no algoritmo de Retropropagao representa uma pequena modificao na actualizao dos pesos. O termo momento tende a acelerar a convergncia da rede evitando a oscilao da mesma e a sua queda num mnimo local da superfcie de erro. O algoritmo de Retropropagao assume que a taxa de aprendizagem constante, mas, usando o termo momento, tal parmetro varivel (depende da conexo da rede).

5.6.4.3 Nmero de camadas. Nmero de neurnios


Um dos problemas enfrentados no treino de redes neuronais do tipo MLP diz respeito definio do nmero de camadas e neurnios. A definio destes parmetros um processo to pouco compreendido que so muitas vezes chamadas de magia negra. Pequenas diferenas nestes parmetros podem levar a grandes diferenas tanto no tempo de treino como na generalizao obtida. Exitem inmeras pesquisas no sentido de encontrar uma frmula mgica que determine a configurao ideal de uma rede neural para um dado problema. No entanto, at agora o que se tem so apenas sugestes que esto fundamentadas em experincias vividas por especialistas no assunto e no bom senso.

95

Deve-se ter em mente que preciso obter um modelo que no seja muito rgido a ponto de no modelar fielmente os dados, mas que tambm no seja excessivamente flexvel a ponto de modelar tambm o rudo presente nos dados. A idia que a rede responda de acordo com as caractersticas presentes nos dados de entrada e no exatamente igual aos dados de entrada. Por exemplo, o princpio de Ockham, diz que deveremos preferir modelos simples a complexos e esta preferncia dever aplicar-se at que os modelos se adequem aos dados. Igualmente, (Choro 2005) refere que apesar de vrias prcticas para determinar a dimenso da camada inetermdia, na maioria dos casos continua a ser a tentativa e erro a melhor regra a seguir. De acordo, (Bao 2005) uma rede MLP com uma camada intermdia suficiente para aproximar qualquer funo contnua e em problemas excepcionalmente complexos se podem utilizar duas. Independentemente da complexidade do problema, duas camadas so suficientes para que a rede possa aproximar o problema. A utilizao de um grande nmero de camadas escondidas no recomendada. Cada vez que o erro mdio durante o treinamento utilizado para actualizar os pesos das sinpses da camada imediatamente anterior, ele se torna menos til ou preciso. A nica camada que tem uma noo precisa do erro cometido pela rede a camada de sada. A ltima camada escondida recebe uma estimativa sobre o erro. A penltima camada escondida recebe uma estimativa da estimativa, e assim por diante. Em relao ao nmero de neurnios nas camadas escondidas, este geralmente definido empiricamente. Deve-se ter cuidado para no utilizar nem unidades demais, o que pode levar a rede a memorizar os dados de treino (overfitting), ao invs de extrair as caractersticas gerais que permitiro a generalizao, nem um nmero muito pequeno, que pode forar a rede a gastar tempo em excesso tentando encontrar uma representao ptima. Devido a estas dificuldades recomendado manter o nmero de neurnios escondidos baixo, mas no to baixo quanto o estritamente necessrio. Existem vrias propostas de como determinar a quantidade adequada de neurnios nas camadas escondidas de uma rede neural. As mais utilizadas so:

96

O nmero de neurnios dever estar compreendido entre o nmero de variveis de input e o nmero de output (Blum 1992, 60) O numero de neurnios dever ser menor que a metade do nmero de variveis da primeira camada (Swingler 1996, 53). O nmero de neurnios dever ser igual ao nmero de dimenses (componentes principais) necessrias para explicar 70 a 90% da variabilidade dos dados de entrada. (Boger e Guterman 1997) Utilizar um nmero de sinpses dez vezes menor que o nmero de exemplos de treino disponveis. Se o nmero de exemplos for muito maior que o nmero de sinpses, overfitting improvvel, no entanto pode ocorrer underfitting (a rede no converge durante o processo de treino).

5.6.4.4 Generalizao overfitting


Um aspecto tido como fulcral aquando da elaborao de um modelo para credit scoring, seja o modelo neuronal seja o modelo logit, (ou no desenvolvimento de parte dos mtodos preditivos no-paramtricos) prende se com a sua capacidade de generalizao, isto , qual a qualidade das previses produzidas pela rede para casos que no se encontrem no conjunto de dados de treino? Diz-se que uma RNA possui uma boa generalizao quando a correspondncia entre entradas e sadas correcta (ou prxima disso) para dados de teste, retirados da mesma populao, nunca antes utilizados na criao ou treino da rede. O processo de aprendizagem pode ser visto como um problema de ajustamento de curvas ou de aproximao de funes, onde a rede tenta efectuar uma boa interpolao no linear dos dados (Riedmiller e Braun. 1993). A Figura 5.12 mostra como podem ocorrer duas generalizaes distintas para o mesmo conjunto de dados de treino. Aqui, uma boa generalizao ocorre com a curva A, com um erro mnimo para os dados de teste. O mesmo j no sucede com a curva B, que origina um erro maior para os casos de teste, isto apesar de apresentar um menor erro para os dados de treino. Tal fenmeno, designado de overfitting, ocorre quando uma RNA memoriza em demasia os exemplos de treino, tratando-se de um dos problemas mais srios relacionados com o uso de RNAs (Russel e Norvig 1995). Durante o processo de aprendizagem, a rede pode captar certas

97

caractersticas, como o rudo, que esto presentes nos dados de treino, mas no na funo implcita a ser aprendida. Este exemplo ilustra os dois objectivos contraditrios da aproximao funcional. Por um lado tem-se a minimizao do erro de treino, pelo outro tem-se a minimizao do erro para as entradas desconhecidas. Assim, uma RNA que seja treinada em demasia perde capacidade para generalizar.

Figura 5.12- Generalizao e Overfitting

A generalizao nem sempre possvel. Existem 3 condies que so normalmente necessrias (nem sempre suficientes) para uma boa generalizao: (Gallant 1993) e (Sarle, Stopped Training and Other Remedies for Overfitting. 1995): A primeira condio est associada complexidade do problema a ser aprendido Trata-se de um factor de difcil controlo. As entradas devem conter informao suficiente para permitir a obteno das sadas desejadas; i.e, tem de existir uma funo matemtica com algum grau de preciso que relacione as entradas com as sadas. Por outro lado, convm que esta funo seja suave; i.e, pequenas alteraes nas entradas devem provocar pequenas alteraes nas sadas, para a maior parte dos casos. Por vezes, uma transformao no linear nas entradas pode melhorar a sua suavidade ( transformao logartmica); A segunda condio para uma boa generalizao a de que o conjunto de exemplos de treino seja suficientemente grande e representativo da populao A generalizao sempre efectuada a partir de dois tipos de duas situaes:

98

interpolao e extrapolao. No primeiro caso, um valor calculado a partir da informao dos valores constantes de casos na vizinhana. A segunda situao engloba tudo o resto, ou seja, casos fora do domnio dos dados de treino. Enquanto a interpolao pode ser efectuada com relativa acuidade, o mesmo j no se passa com a extrapolao, notoriamente menos fivel; A terceira condio tem que ver com a arquitectura da RNA; i.e, o nmero de parmetros livres que denotam os pesos das ligaes entre neurnios e a sua capacidade de aprendizagem bem como a sua complexidade. Uma rede no propriamente complexa ir falhar na aproximao funo a aprender. Por outro lado, uma rede demasiado complexa, ir fixar o rudo existente nos dados, provocando overfitting. A Figura 5.13 mostra uma variao tpica do erro de uma RNA com uma camada intermdia, para os casos de treino e de teste, com o incremento do nmero de neurnios intermdios. medida que estes aumentam o erro de treino diminui. A dada altura, a curva de erro para os casos de teste inflecte, perdendo-se em generalizao.

Figura 5.13- Erro tpico que ocorre com o aumento do nmero de neurnios da camada intermdia

A melhor forma de evitar o overfitting utilizar uma quantidade elevada de exemplos de treino. Quando este nmero for pelo menos 30 vezes superior ao nmero de conexes, ento pouco provvel que ocorra overfitting. O problema que surge que nem sempre existem muitos exemplos de treino disponveis e no se deve reduzir o nmero de

99

conexes de um modo arbitrrio, devido a problemas de insuficincia de complexidade da rede. Dada uma dimenso fixa de dados de treino, existem pelo menos duas grandes alternativas eficientes para evitar a sub-aprendizagem e a sobre-aprendizagem, permitindo assim uma boa generalizao (Sarle, Stopped Training and Other Remedies for Overfitting. 1995), (Sarle, Neural network 1999): Regularizao e seleco de modelos.

5.6.4.4.1

Regularizao

A regularizao baseia-se num controlo dos valores dos pesos das conexes da rede para se obter uma boa generalizao. Entre os diversos mtodos de regularizao apresentamos os definidos por (Russel e Norvig 1995) (Sarle, Stopped Training and Other Remedies for Overfitting. 1995): Decaimento de pesos: A estratgia passa por acrescentar uma penalidade funo de erro, de modo a reduzir os pesos das conexes, em particular as mais expressivas, visto que estas prejudicam o processo de generalizao, dando origem a funes irregulares, por vezes na vizinhana de descontinuidades. Por outras palavras, pesos cujo varincia nas sadas, (onde

0 causam uma excessiva

denota a funo mdulo). (Barlett 1997). Normalmente


2 wij onde d representa a constante de

esta penalidade dada pela expresso: d

decaimento, cuja escolha crucial para uma boa generalizao. Adio de rudo O objectivo acrescentar deliberadamente rudo artificial s entradas durante o treino. Esta estratgia funciona porque a maior parte das funes a serem aprendidas pela rede so suaves. Assim, em cada iterao do algoritmo de treino, novos casos de treino so criados, acrescentando rudo. Este nem deve ser demasiado pequeno, produzindo pouco efeito, nem demasiado grande, pois obviamente desvirtuar a funo implcita a ser aprendida. Este rudo produzido por um gerador de nmeros aleatrios, usualmente seguindo uma distribuio normal com mdia 0 e desvio padro s , cujo valor dever ser

100

estimado de algum modo (e.g., de modo a que seja menor do que o erro de generalizao, medido por um estimador). Paragem antecipada Trata-se de um dos mais populares mtodos de regularizao, onde os dados de treino so divididos em dois tipos de casos: de treino e de validao. Os primeiros so utilizados na aprendizagem da rede, enquanto os ltimos so utilizados para aferir a qualidade da aprendizagem; i.e., para estimar o erro de generalizao. De notar que podem ser utilizados novos casos de teste para medir o desempenho da rede aps o treino. Durante a fase de treino, calcula-se o erro de validao de forma peridica, parando-se quando este comea a aumentar. Todavia, esquemas de paragem mais elaborados tm de ser adoptados, dado que a funo de erro pode apresentar diversos mnimos locais. Por exemplo, Prechelt (Patterson 1996) defende o uso de trs critrios de paragem: O primeiro critrio denominado de falha no processo de treino, que consiste em avaliar o progresso do treino, isto , a diminuio do erro sobre os exemplos de treino,
tr

, durante uma dada faixa do treino, com k iteraes. A funo de

progresso, avaliada em cada k iteraes, toma a forma:

pk (t ) 1000

t ' t k 1...t

tr

(t ')
tr (t ')

k min t ' t

(5.16)

k 1...t

O progresso no treino elevado nas suas fases de maior instabilidade, onde o erro para os exemplos de treino sobe em vez de diminuir. No entanto, tende para zero a longo prazo, a no ser que o treino se torne oscilante. O treino parado se pk (t ) uma medida de erro em estado estacionrio; Perda de Generalizao - Esta ocorre sempre que h uma inverso de sinal nos valores da derivada da funo de erro para os casos de validao, iteraes, toma a forma:
va

, em que

passando

estes de negativos a positivos. A funo de avaliao, tambm medida de k em k

101

Gk (t ) 100

va

(t )
va (t ')

min t '

(5.17)

Uma grande perda de generalizao uma boa razo para se parar o treino, pelo que o treino termina se Gk (t ) aconselhvel para a rede; e Nmero Mximo de Iteraes Este critrio aplicado quando os anteriores critrios de paragem falham, de modo a garantir que o treino termine. A paragem antecipada bastante utilizada porque simples e rpida, podendo ser aplicada a RNAs com um grande nmero de conexes. Todavia, possui algumas desvantagens. Em primeiro lugar, bastante sensvel forma como feita a diviso entre exemplos de treino e de validao; i.e., quais e quantos casos devo usar conjunto. Por outro lado, no aproveita toda a informao disponvel para a aprendizagem. , onde denota a perda de poder de generalizao

5.6.4.4.2

Seleco de Modelos

A regularizao diminui o efeito de overfitting pelo estmulo dado aprendizagem de funes suaves. No entanto, utiliza uma estrutura fixa, que deve ser especificada pelo utilizador. Embora se possa utilizar uma grande estrutura, com um grande nmero de neurnios intermdios, na prtica, a optimizao dos pesos torna-se de difcil ajustamento, exigindo um grande esforo computacional. Mais ainda, em geral, so mtodos que exigem um delicado balano, controlado por um (ou mais) parmetro (s) de regularizao. Mais recentemente, mtodos Bayesianos tm sido incorporados na regularizao, para eliminar alguns destes problemas. Trata-se de uma abordagem promissora embora ainda pouco desenvolvida. Para, alm disso, estes mtodos assumem certos tipos de distribuio entre dados de treino e teste que podem falhar quando o nmero de conexes da rede grande, quando comparado com a cardinalidade dos dados de treino (Kosko 1988). Uma alternativa distinta baseia-se na procura de uma topologia para uma RNA, em termos do nmero de conexes, nmero de nodos e camadas intermdias. Os defensores desta estratgia argumentam que mais fcil

102

adaptar a complexidade da rede ao problema a ser resolvido. Assim, um problema que seja de difcil aprendizagem para uma rede poder ser facilmente aprendido por outra rede. A abordagem estatstica resoluo deste problema passa pela estimativa do erro de generalizao para cada um dos modelos, ou topologias de rede, escolhendo-se o modelo que minimiza essa estimativa. Existem diversos mtodos para estimar a capacidade de generalizao de uma RNA (Efron e Tibshirani 1993) (Kernsley e Martinez s.d.) alguns dos quais so enunciados a seguir: Estatsticas Simples Diversas mtricas foram desenvolvidas tendo em conta modelos lineares, baseando-se em suposies sobre as amostras Entre estas, podem-se referenciar: o

Critrio de Informao de Akaike - conhecido por AIC. A formulao


matemtica dado por

AIC n ln(SSE / n) 2 p
Onde

(5.18)

SSE representa o somatrio do quadrado dos erros para todos os

casos de treino, n representa o nmero de exemplos de treino e p o nmero de parmetros livres da rede, ou seja, o nmero de pesos das ligaes entre os neurnios da rede; e o

Critrio de Informao de Bayes, designado por BIC ou SBC, que


normalmente funciona bem com RNAs.

BIC n ln(SSE / n) p ln(n) p

(5.19)

Validao com Diviso da Amostra O mtodo mais popular para a estimao do erro de generalizao de uma RNA, geralmente associado paragem antecipada

103

do treino da rede, baseia-se numa diviso dos dados do problema em casos de treino, para a rede aprender, e casos de validao, para estimar o erro de validao. Como ponto forte deste processo tem-se a sua simplicidade e rapidez, embora produza uma reduo efectiva dos casos disponveis para treino.

5.7 Redes Neuronais e modelos economtricos


Ao contrrio do que pode parecer primeira vista, os modelos de redes neuronais tm vrios pontos de contacto com os modelos economtricos tradicionais, nomeadamente os modelos de regresso. Muitas das semelhanas existentes ficam embotadas pelo uso de jorges tcnios diferentes pelos estaticistas ou econometristas e conexionistas. No caso de modelos de regresso, por exemplo, temos uma varivel dita endgena sendo explicada por diferentes variveis exgenas. Nas redes neuronais as variveis exgenas podem ser vistas como os neurnios da camada de entrada, enquanto a varivel endgena representada pelo sinal de saida desejvel pela rede. Em outras palavras a varivel endgena o padro que objecto de aprendizagem da rede neuronal. Na verdade, uma rede neuronal artificial constituida por apenas uma camada de entrada e outra de sada (perceptron) pode ser facilmente relacionada com o modelo de regresso linear.

Figura -5.16 Rede Neuronal Artificial

104

Neste caso, o vector de pesos da rede neuronal da figura 5.16 (w14, w24, w34), sem camada oculta, nada mais que um vector de parmetros da regresso. Eles indicam, assim como os parmetros da regresso, a importncia de cada sinal de entrada na explicao do padro de sada. Contudo, quando utilizamos uma camada oculta, (perceptron multi-camada), como conhecido na literatura de redes neuronais artificiais, estamos a introduzir no-linearidade nas relaes entre as entradas x1, x2, x3, e a sada y. Portanto, a relao entre as variveis endgenas e exgena deixa de ser linear, e a comparao, ento, tem que ser feita com modelos de regresso no lineares. Nos modelos econmetricos tradicionais, os parmetros do modelo so obtidos atravs de algum processo de estimao que envolve a minimizao da soma do quadrado dos resduos ou a maximizao da funo de verossimilhana. J os pesos da RNA, so obtidos, segundo o jargo das redes neuronais, por um processo de aprendizagem. Contudo, a estimao dos pesos dos RNA, a partir de um processo de aprendizagem, e a estimao dos coeficientes dos modelos tradicionais, tal como o modelo logstico, so, do ponto de vista estatstico e matemtico, exactamente a mesma coisa. Em ambos os casos, o que se procura minimizar a funo do erro mdio quadrtico, ou qualquer outra funo objectivo escolhida. No caso das RNAs o

backpropagation apenas um algoritimo nmerico utilizado para obter um minimo


local/global da funo objectivo em questo. Neste sentido, o processo de aprendizagem das RNAs, equivalente estimao dos parmetros realizada nos modelos enconmetricos. A principal diferena entre os modelos economtricos tradicionais e as RNAs, tal como as conhecemos actualmente, que estas no contam com uma base estatstica pr-determinada. Enquanto nos modelos econmetricos estamos a lidar com variveis aleatrias que possuem uma determinada distribuio conjunta de probabilidade, nas RNA temos apenas sinais de entrada e sada de rede. A ausncia de um modelo estatstico bem especificado impede, por exemplo, a construo de intervalos de confiana para estimativas geradas pelas redes neuronais. As previses geradas pelas redes neuronais so sempre pontuais, ao contrrio do que ocorre com os modelos econmetricos.

105

5.8 Principais vantagens e limitaes das Redes Neuronais


A utilizao das redes neuronais em credit scoring pode justificar- se pelas vantagens que estes modelos trazem relativamente a outros mtodos de preditivos (Shachmurove 2002), por exemplo, enumera algumas vantagens face aos modelos economtricos tradicionais. Uma das vantagens referidas que estes modelos conseguem captar com preciso padres complexos existentes nos dados. A este propsito, (Massoumi, Khotanzad e Abay 1994) mencionam que os dados utilizados nestes modelos so dinmicos por natureza, sendo necessria a existncia de ferramentas no lineares para captar padres comportamentais existentes nos dados. Outra vantagem, talvez das mais relevantes, que no necessrio elaborar hipteses relativamente natureza da distribuio dos dados. Em vez disso, estes modelos utilizam os prprios dados para produzir representaes internas das relaes entre as variveis. Como consequncia, de esperar a obteno de melhores resultados com a aplicao das redes neuronais quando as relaes entre as variveis no seguem um comportamento pr-definido. Relativamente s desvantagens, (Shachmurove 2002) refere que no existe uma metodologia estruturada que permita efectuar a melhor escolha relativamente arquitectura da rede, ao treino da rede ou verificao da qualidade da mesma. Por exemplo, o nmero de camadas a utilizar na rede ou o nmero de neurnios que cada camada deve ter so normalmente aspectos inter alia com opinies divergentes. (Thawornwong e Enke 2004)) para conclurem que as redes neuronais permitem obter melhores resultados que outros modelos na previso das rendibilidades de aces, compilaram numa tabela as tcnicas de modelizao neuronais encontradas em 45 estudos diferentes. Verifica-se que raramente h consenso em relao escolha dos diversos aspectos, o que permite concluir que a escolha da melhor arquitectura para a rede continua a depender em grande medida da sensibilidade e das experincias realizadas por cada investigador. Outra crtica que se faz amide aos modelos neuronais a crtica da caixa negra (black box), segundo a qual no possvel perceber como so estimadas as relaes nos neurnios ocultos. (Eisinga, Franses e Dijk 1997) Mostraram que esta crtica um pouco exagerada ao conseguirem, por um lado, desenhar uma rede que lhes permitiu controlar o

106

timing de activao dos neurnios ocultos e, por outro lado, efectuar inferncia
relativamente ao impacto que as variveis independentes provocam nas dependentes. No obstante, enquanto nos modelos economtricos lineares a avaliao da relevncia das variveis independentes, e do impacto que estas provocam na dependente, trivialmente avaliada recorrendo s estatsticas t, nos modelos neuronais essa tarefa afigura-se mais complexa.

107

6 Resultados da estimao dos modelos 6.1 Regressso Logstica


Foram elaborados trs modelos logit de acordo com a percentagem escolhida para o conjunto de treino, validao e teste. Os modelos foram estimados por recurso ao

software SAS (verso 9.1.2), em especial o mdulo Enterprise Miner (verso 5.2).
De Seguida, apresentamos os resultados e a panplia de testes estatsticos associados ao modelo logit para o conjunto de treino seleccionado a 70%. Os resultados para o conjunto (60% e 80%.) esto apresentados nos apndices (A e A1). Foi estimado um modelo logit binrio com as variveis descritas na pag. 35. Interps-se uma varivel frequncia a fim de balancear o grupo dos defaults com o grupo de regulares. Como se observa na tabela seguinte, o teste que compara o modelo completo, com os 15 parmetros, com o modelo somente com a constante estatisticamente significativo, indicando que os parmentros, quando tomados em conjunto, diferenciam entre clientes em defaults e clientes regulares.

Estatstica Rcio de Verosimilhana Score Wald

Qui-Quadrado 329 302 259

g.l 14 14 14

Sig. <.0001 <.0001 <.0001

Tabela 6.1 - Teste de significncia para o modelo geral

108

Coeficiente de determinao Pseudo R2


A varincia explicada associada aos defaults considerada satisfatria, conforme mostra a tabela 6.2.

R-Square

0.1920

Max-rescaled R-Square

0,21

Tabela 6.2 Coeficiente de determinao.

Qualidade do ajustamento
A tabela 6.3 apresenta os coeficientes de regresso, as estatsticas de Wald, odds-ratio e respectivos intervalos de confiana para cada um dos 15 parmetros. de acordo com o critrio de Wald, todos os paramntros submetem-se exigncia de um nvel de significncia de 5%, estimados pelo mtodo de stepwise.

Variveis Intercept X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14

DF 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

0,005 10,383 11,261 -0.8859 0.8881 0.8738 -0.6166 0.6794 0.6871 0.4173 0.4475 0.3880 0.2166 0.1807 -0.1409

S.E 0,045 0.4622 0.8665 0.4864 0.1163 0.0986 0.8012 0.1532 0.3136 0.4472 0.1849 0.2652 0.2088 0.1647 0.7656

Wald 14,00 50,46 16,89 33,17 58,28 78,62 59,23 19,66 48,01 87,05 58,55 21,41 10,76 12,03 3,39

Sig 0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,002 0,003 0,002 0,002 0,002 0,002 0,001

OR 2,824 2,824 3,083 0.412 2,43 2,396 0.540 1,973 1,988 1,518 1,564 1,474 1,242 1,198 0.869

IC para OR a 95% Limite Inferiror Limite Superior 1,91 7,98 1,142 6,99 0.564 16,85 0.159 1,07 1,935 3,05 1,975 2,91 0.112 2,60 1,461 2,66 1,075 3,68 0.632 3,65 1,089 2,25 0.877 2,48 0.825 1,87 0.867 1,66 0.194 3,90

Tabela 6.3 - coeficientes de regresso, as estatsticas de Wald, O teste de Hosmer Lemeshow, apresentado nas tabelas seguintes, configura mais uma vez uma boa aderncia dos dados realidade observada.

109

Grupo 1 2 3 4 5 6 7 8 9 10

Total 232 232 232 232 232 232 232 232 232 235

Regulares Defaults Obeservados Esperados Obeservados Esperados 41 65 94 103 111 117 136 145 153 194 41 68 89 100 110 121 132 145 161 191 191 167 138 129 121 115 96 87 79 41 191 164 143 132 122 111 100 87 71 44

Tabela 6.4 -Partio do teste Hosmer Lemeshow.

Chi-Square 27688

DF 8

Pr > ChiSq 0.9480

Tabela 6.5 - Hosmer Lemeshoe test.

Residuos
Por fim a distribuio dos resduos -se confrontado com a plausibilidade de assumirem uma distribuilo normal, encontrando-se 95% das obsrvaes entre -1.96 e +1.96.

Valor Kolmogorov-Smirnov 18,5 Cramer-von Mises 27 Anderson-Darling 15


Teste

p-value <.0001 <.0050 <.0050

Tabela 6.6 - anlise de redisuos

Dbeta
Ordenou-se de forma decrescente, o ficheiro de dados e, apresentam-se as primeiras 16 observaes, constatando-se que nenhuma delas maior que 1, pelo que, na estimao do modelo, no esto includas observaes tidas como outliers.

110

Dbeta X1 Dbeta X2 Dbeta X3 Dbeta X4 Dbeta X5 Dbeta X6 Dbeta X7 X8

Dbeta X9 Dbeta X10 Dbeta X11 Dbeta X12 Dbeta X13

-0.051 0.012 0.021 -0.035 -0.031 0.011 0.011 -0.035 0.020 0.017 0.019 -0.047 0.010 -0.028 -0.040 0.020

0.043 0.037 0.036 0.036 0.035 0.034 0.034 0.033 0.033 0.033 0.033 0.032 0.032 0.032 0.031 0.031

-0.001 -0.021 -0.027 -0.057 -0.048 -0.021 -0.022 -0.007 -0.030 -0.004 -0.028 -0.016 -0.008 -0.012 0.007 -0.026

-0.002 -0.002 0.000 -0.007 -0.004 -0.002 -0.002 -0.009 -0.001 0.003 0.001 -0.009 -0.001 -0.006 0.005 0.000

-0.258 -0.002 -0.003 0.001 0.002 -0.004 -0.003 0.000 -0.004 -0.002 -0.002 -0.240 -0.002 0.005 0.014 0.000

-0.010 0.013 -0.002 0.004 0.002 0.001 -0.006 0.001 -0.012 -0.120 0.012 0.008 -0.019 0.059 0.023 -0.001 0.001 -0.008 -0.004 0.002 -0.002 0.007 -0.022 -0.158 -0.007 -0.003 -0.001 -0.023 0.001 -0.002 -0.006 -0.001 0.009 0.035 0.012 0.012 -0.002 0.002 0.000 0.003 0.012 0.000 -0.045 0.008 -0.029 0.002 0.000 0.044 Tabela 6.7 DBeta

0.025 0.006 0.024 0.029 0.053 0.016 -0.002 0.011 0.016 -0.005 -0.010 -0.017 -0.003 -0.019 -0.123 0.001

-0.008 0.001 0.004 -0.003 -0.062 0.001 0.001 0.042 -0.001 0.003 -0.001 -0.004 0.001 0.002 0.005 0.000

0.001 -0.008 -0.016 0.003 -0.079 -0.011 -0.004 -0.033 -0.019 -0.002 -0.007 0.011 -0.003 0.012 0.075 -0.016

-0.018 -0.006 -0.005 0.003 -0.015 0.004 0.006 -0.086 -0.018 0.002 -0.012 -0.070 -0.006 -0.060 -0.007 -0.001

0.034 -0.001 -0.023 0.023 -0.013 0.006 0.006 0.056 0.027 -0.020 0.006 0.030 0.001 -0.004 0.034 -0.025

Curva de Roc
Apresenta-se na tabela 6.8 a rea da curva de ROC e a estatstica de Kolmogorovsmirnov para os diferentes modelos estimados, subconjunto de treino e subconjunto de validao.
Rcio de classificao global 68,32% 69,04% 72,03%

Modelo Logit 60%-20%-20% 70%- 15%-15% 80%- 10%-10%

KS Treino 0,353 0,349 0,333 Teste 0,345 0,360 0,428 Treino 0,761 0,764 0,752

ROC Teste 0,760 0,764 0,787

Tabela 6.8 avaliao da qualidade do modelo O modelo que melhor generaliza os dados e, portanto, melhor responde ao objectivo do

credit scoring a representao de 80%-10%-10%.


Graficamente, as curvas de ROC apresentam o seguinte formato:

111

Figura 6.1 Curva de ROC conjunto 80%-10%-10%.

6.2 Redes Neuronais


Iniciou-se a o processo de seleco da arquitetura da rede neuronal com as mesmas parties utilizadas na estimao do modelo logit 70%-15%-15% (conjunto de treino, validao e teste respectivamente) apurando para o efeito a estatstica de RMSE. A rede com 11 neurnios foi a que apresentou um valor mais baixo. (apndice B). Seleccionamos a rede com 11 neurnios luz daquela partio, recorremos ao software SAS (verso 9.1.3) mdulo enterprise Miner para estimar os modelos, utilizando as mesmas amostras aleatrias utilizadas no modelo logit, sempre com a observncia de propores idnticas dos dois grupos considerados, regulares e defaults, a fim de melhor poder ajuizar da bondade das redes neuronais em classificar correctamente os indivduos. Foi considerado como funo de activao a regresso logstica e o mtodo de estimao do gradiente com =0.1 e =0.4. Subjugou-se a gerao inicial dos pesos sinpticos distribuio uniforme. As redes foram estimadas, tendo como funo minimizadora a taxa de classificao errada.

112

semelhana do que foi considerado para o modelo logit, tambm com as redes foi apurada qual a que apresentava melhor desempenho curva ROC. A tabela 6.9 sumaria a comparao entre os modelos de redes neuronais consideradas utilizando o conjunto de validao na avaliao do modelo identificado.

Redes Neuronais 60%-20%-20% 70%- 15%-15% 80%- 10%-10%

Treino 0,373 0,369 0,353

KS Validao 0,365 0,380 0,448

Treino 0,764 0,767 0,755

ROC Validao 0,763 0,767 0,790

Tabela 6.9 Curva ROC redes neuronais

o conjunto 80%-10%-10% que apresenta um melhor desempenho na generalizao do conjunto de dados. Apresenta-se em apndice B figura tradutora do grfico de aprendizagem que se obtiveram na rede com 11 neurnios, para a melhor partio 80%-10%-10%, para o conjunto de treino. Analisando o tradicional cutoff 50% associado pontuao da probabilidade de incumprimento, pode se verificar igualmente que a rede neuronal apresenta um reduzido risco de crdito (erro tipo I).

Observados Regular Default

Previso Regular Default 76,06 21,64 3,69 5,95

Tabela 6.10 Matrix de confuso

113

7 Concluso:
No advento da entrada em vigor do acordo de Basileia II, as instituies financeiras munen-se de sofisticadas tcnicas de anlise de risco a fim de melhor optimizarem a sua carteira e, concomitantemente, a observncia dos valores mnimos de capital requeridos para afectarem s diferentes carteiras de crdito. O credit scoring aparece como o sistema usado pelas instituies financeiras para determinar a oportunidade de concesso de crdito a um solicitante. Levou-se a cabo assim, a tarefa de modelar uma base de dados real associada carteira de crdito ao consumo (segemto Lar) de uma instituio Cabo-Verdiana, tendo sido competitvamente analisadas duas ferramentas utilizadas em credit scoring: O modelo logit (regresso logistica) e as Redes Neuronais. As dezasete variveis iniciais utilizadas para estudar o problema so as constantes na ficha de solicitao de crdito s quais se juntaram duas outras: o rcio de endividamento e a varivel target. Relativamente primeira, esta defenida como o rcio entre o valor da prestao mensal e o rendimento do titular, representa uma importante varivel de negcio que traduz a capacidade de um indivduo fazer face ao servio de divida que pretende contrair; j quanto segunda, houve que recorrer informao disponvel nos planos de pagamentos a fim de possibilitar a sua classificao em regular ou em default, isto , situao em que o cliente apresenta um atraso de 90 dias relativamente ao vencimento da prestao, numa base mensal. Assim todos os modelos foram elaborados, tendo como objectivo classificar operaes de crdito de acordo com a sua probabilidade de apresentar atrasos no pagamento das prestaes, tendo sido desprezados critrios de lucratividade que, conforme discutido constituiria uma abordagem alternativa a que propomos desenvolver. Os indivduos classificados como indeterminados foram expurgados da modelao de forma a garantir uma maior discriminao dos grupos, assim como os clientes inactivos. Optou-se por no excluir o conjunto dos indivduos rejeitados a fim de possibilitar a avaliao do desempenho do modelo utilizando a tcnica da inferncia dos rejeitados como referido na pgina 41.

114

Debelada a classificao, seleccionou-se a janela de amostragem, perodo sobre o qual repousa a estimao dos modelos. Este perodo foi seleccionado aps se ter verificado que o tempo mdio de exposio dos contratos (tempo que media o momento do inicio do contrato e a data de obervao) se aproximava da maturidade da populao (momento a partir da qual a taxa de incumprimento da carteira de crdito no evolui mais. Assim poderemos definir o cliente regular do default com maior segurana zelando pela qualidade da definio da varivel target. Para aferir a capacidade preditiva dos modelos estimados, subdividiu-se o conjunto amostral em trs subconjuntos: subconjunto de treino, validao e teste. sobre este penltimo que se retiram as concluses quanto operacionalidade dos modelos de credit

scoring.
A fim de possibilitar o melhor desenho do perfil dos clientes a amostra dever encontrarse balanceada. Dado o maior nmero de indivduos em situao regular que em default, ponderaram-se os indivduos regulares na percentagem que equilibrasse os dois grupos, emprestando desta feita uma maior riqueza na extraco dos ponderadores e, portanto, na melhor identificao de clientes. Todas as variveis disponibilizadas foram individualmente submetidas ao processo de categorizao, que detectou grupos (categorias) de resposta homognea em relao varvel target. Cabe referir que foram utilizados as mesmas variveis para propsitos de comparao nas duas tcnicas. Para ambas as ferramentes utilizou-se o weight of

evidence (WoE) resultante do processo de categorizao anteriomente referido como


variveis de input. Para escolher a melhor arquitectura multicamada para as redes neuronais,

nomeadamente a determinao do nmero de neurnios que devero compor a camada intermdia, indiciado atravs do mtodo de tentativa e erro, foi ensaiado a estatstica de raz quadrada do erro mdio quadrtico, tendo, esta apontado 11 neurnios como a rede que melhor discrimina as duas naturezas de indivduos em estudo. As arquiteturas foram apuradas na explorao do conjunto 70%-15%-15%.

115

Geraram- se novos conjuntos aleatrios, 60%-20%-20% e 80%-10%-10% (identificando cada percentagem a dimenso do conjunto de treino, validao e teste respectivamente), a fim de poder conferir diferentes dimenses de parametrizao s ferramentas envolvidas em comparao e garantir a capacidade de generalizao que fulcral nestes trabalhos. O resultado do modelo logit e das redes neuronais foram comparados por recurso curva de ROC.

Redes Neuronais Logit NN11 60%-20%-20% 0,760 0,763 70%- 15%-15% 0,764 0,767 80%- 10%-10% 0,787 0,790 Tabela 6.11- Comparao da rea da curva de ROC

Quer no modelo logit, quer nos modelos de redes neuronais, o conjunto de 80%-10%10% aquele que sugere uma melhor generalizao para os dados do subconjunto de validao. A leitura das evidncias numricas associadas aos diferentes modelos ensaidos apontam ser o modelo baseado em redes neuronais como sendo o que melhor desempenho apresenta a prever o risco de crdito no mercado Cabo-veridano, quando comparado com o modelo logit. Contudo, para eleger estatisticamente o modelo que melhor se ajusta aos dados existentes em Cabo Verde, recorreu-se a estatstico U de Mann-Whitney proposto por (Delong E.R 1998) para comparar as reas das diferentes curvas ROC associados aos diferentes modelos desenvolvidos, cujos resultados se apresentam na tabela 6.12.

Modelos Logit vs NN11

Chi-quadrado 0,254

d.f 1

Sig 0,075

Tabela 6.12 - teste de DeLong e Clarke-Person (80%-10%-10%)

O ensaio do teste estatstico realizado permite concluir no haver evidncia estatstica a 95% de confiana para afirmar que as redes neuronais so preferveis ao modelo logit (ou vice versa).

116

Apesar de todas as dificuldades tcnicas e prcticas, dos modelos de credit scoring, esses modelos consistem em ferramentas bastante vlidas para auxiliar o processo de anlise de crdito, de uma forma obejctiva, racional e prctica, tendo em vista que o seu desempenho sem dvida superior aos mtodos tradicionais (subjectivos) que ainda predominam em muitas instiuties em Cabo Verde. Como anlise global, considera-se que este processo de investigao, constituiu um valioso meio para discusso, e serviu para identificar, consolidar e sugerir linhas de investigao e abrir caminhos para o aprofundamento desta temtica no seio dos investigadores Caboverdianos.

8 Limitaes
A primeira dificuldade que surge em qualquer tarefa de modelao, mormente o credit

scoring, diz respeito elaborao de uma base de dados em condies apropriadas para
o estudo. preciso recolher e preparar um grande volume de dados, sendo necessrio observar as condies de preechimento das variveis e, caso necessrio eliminar registos sobre os quais se desconfia da veracidade. A base de dados utilizada no presente estudo continha algumas variveis com elevadas percentagens de missing, por outro lado no foi possvel recolher muitas variveis potencialmente discriminantes, (como por exemplo: Tipo de habitao, Antiguidade na habitao, antiguidade na profisso, nmero de dependentes, relao entre o primeiro e o segundo titular; informao do segundo titular... etc.). A ausncia destas variveis no prejudicou os modelos desenvolvidos, mas recomenda-se que sejam utilizados sempre que possvel.

117

9 Bibliography
Amemiya, T. Advanced Econometrics. Oxford, 1985. Ash, Dennis., e Steve Mester. Best Practice in Reject Inferencing: Presentation at Credit Risk Modeling and Decisioning Conference. Wharton FIC, University of Pensylvania, 2002. Bao, Fernando Lucas. Data Mining : Ps-Graduao em Estudos de Mercado e CRM. Lisboa, 2005. Banasik, John, e Jonathan Crook. Lean Models and Reject Inference. Jounal of Operational Research Society, 2005. Baptista, Jos Galvo. O Custo de Intermediao Financeira em Cabo Verde -Factores Condicionantes . Praia: Banco de Cabo Verde, 2006. Barlett, P. For valid generalization, the size of the weights is more important that the size of the network. Advances in Neural Information Processing Systems, 9:134-140, 1997. Beale, Jackson R.T. Neuronal Computing: An introduction. Adam Hilger Publishers. 1990. Beck, N., G. King, e L. Zeng. Improving Quantitative Studies of International Conflict:A Conjecture. Vols. Vo1. 94, No. 1. American Political Science Review., 2000. Blum, A. Neural Networks in C++. Vol. NY. Wiley, 1992. Boger, Z., e H. Guterman. Knowledge extraction from artificial neural network models. Florida: IEEE Systems, Man, and Cybernetics Conference, 1997. Boletim Econmico. Praia: Banco de Cabo Verde, Fevereiro 2009. Bose, N., e P. Liang. Neural Network Fundamentals with Graphs, Algorithms and Applications. USA: McGraw-Hill, 1996. Braga, A. C. Curvas ROC: Aspectos Funcionais e Aplicaes :Tese de Doutoramento. Braga: Universidade de Minho, 2000. Braga, A. P., A. C. P. L. F. Carvalho, e T. B. Ludemir. Redes Neurais Artificiais: Teoria e Aplicaes. Rio de Janeiro: LTC Livros Tcnicos e Cientificos Editora S.A, 2000. Burgo, Carlos. Encontro de Governadores dos PALOP. Encontro de Governadores dos PALOP. Lisboa 19 e 20 de Setembro 2005: Banco de Cabo Verde, 2005. Choro, Lus Antnio Ribeiro. Logit vs Redes Neuronais Artificiais: Um exemplo aplicado a cartes de crdito. Lisboa: Tese de Mestrado em Estatstica e Gesto de Informao ISEGI-UNL, 2005. 118

Cloete, I. e J. M. Zurada. Knowledje-based Neurocomputing. Massachutsetts: Massachutsetts Institute of Technology, 2000. Cortez, Paulo, e Jos Neves. Redes Neuronais Artificiais. Braga: Escola de Engenharia Universidade do Minho, 2000. Crook, J. N., J. B. Banasik, e L. C. Thomas. Sample Selection Bias in Credit Scoring Models. Journal of the Operational Research Society,, 2003. Crook, J., e J. Banasik. Does Reject Inference Really Improve the Performance of Application Scoring Models? Journal of Banking and Finance, 2004. Damsio, A R. O Erro de Decartes - Emoo, Razo e Crebro Humano. (D.Vicente e G.segurado,Tra 6 ed): Publicao Europa -Amrica, 1995. Delong E.R, Delong D.M e D. Clarke-Pearson. Comparing the Areas Under Correlated Receiver Operating Characteristics Curves: A Nonparametric Approach. Biometrics (44), 837-845., 1998. Dempster, P.A, N.M. Laird, e D.B. Rubin. Maximum Likehood for imcomplete Data. Journal of the Royal Statistics Society, 1977. Efron, B., e R. Tibshirani. An Introduction to the Bootstrap. USA: Chapman & Hall, 1993. Eisinga, R., P. Franses, e D. Dijk. Timing of Vote Decision in First and Second Order Dutch Elections 1978-1995 Evidence from Artificial Neural Networks. Oxford Journal, Political Analysis., 1997. Feelders, A.J. Credit Scoring and Reject Inference With Mixture Models. Tilburg University, The Netherlands: Internation Journal of Intelegent System in Accounting, Finance and Management, 2000. Freeman, James, e David M Skapura. Neural Networks: Algorithms Applications and Programming Techniques. Addison-Wesley Publishing, 1992. Gallant, S. Neural Network Learning and Expert Systems. USA: MIT Press, Cambridge, 1993. Gestel, Tony Van, e Bart Baesens. Credit Risk Management: Basic concepts: Financial risk components, Rating analysis, models, economic and regulatory capital. Oxford, 2009. Gorni, A.A. Redes Neuronais Artificiais - Uma abordagem revolucionria em inteligncia artificial. Microsistemas,. 1994. Gurney, K. An introduction to Neuronal Network. London: UCL Press, 1997. Hand, D.J., e W.E. Henley. Can Reject Inference Ever Work? IMA Journal of Mathematics Applied in Business and Industry, 1993. 119

Haykin, S. Neuronal Networks - A Comprehensive Foundation. New Jersey: Prentice Hall, 1999. Henley, J. A, e B. J. McNeil. The Meaning and Use of the Area Under the Receiver Operating Characteristics (ROC) Curve. 1982. Hosmer, David W, e Stanley Lemeshow. Applied logistic regression. Vol. Wiley series in probability and statistics. Texts and references section. New York: Wiley, 2000. Hsai, D.C. Credit Scoring and the Equal Credit Oportunity Act. The Hasting Law Journal, 1978. Joanes, D.N. Reject Inference Applied to Logistic Regression for Credit Scoring. IMA Journal of Mathematics Applied in Business and Industry, 1993. Johnson, R.A., e D. W. Wichern. Multivariate Statistics Analysis. Vol. 5 edio. New York: Printice Hall, 2002. Kernsley, D., e T. Martinez. A Survey Of Neural Network Research And Fielded Applications. Vols. 2:123-133, 1992. International Journal of Neural Networks: Research and Applications. Kohonen, T. Self-Organizing Maps. New York: Information Sciences, 2001. Kosko, B. Bidirectional Associative Memories. Vols. SMC-18:49-60. IEEE Transactions on Systems, Man and Cybernetics, , 1988. Kovacs, K. L. Redes Neurais Artificiais - Fundamentos e Aplicaes. So Paulo: Editora Acadmica, 1996. Krse, B., e P. Smagt. An Introduction to Neural Networks. Vol. 8 Edio. The University of Amesterdam, 1996. Law, R., e R. Pine. Tourism Demand Forecasting for the Tourism Industry:A Neural Network Network Approach. In G. Peter Zang, Neural Networks in Businesses Forecasting. Chapter VI. IRM Press., 2004. Levine, Ross. Financial Development and growth: Schumpeter might be right. (Quarterly Journal of Economics) Vol. 108, no. 688-726. (1997). Lewis, Edward M. An Introduction to Credit Scoring. Vol. Seconde Edition. San Rafael, California: Fair, Isaac and Co.,Inc., 1992. Massoumi, E., A. Khotanzad, e A. Abay. Artificial Neural Networks for Some Macroeconomic Series. Econometric Reviews, 13(1)., 1994.

120

Mateus, Abel. Anlise da eficincia e rentabilidade do sector bancrio. Praia Cabo Verde, 2000. Mays, E. Credit Scoring for risk managers: The Handbook for lenders. Mason,OH, 2004. Mays, Elizabeth. Handbook of Credit Scoring. Chicago: The Glenlake Publishing Company. Ltd, 2001. McNelis, P. D. Neural Networks in Finance:Gaining Predictive Edge in the Market. Elsevier Academic Press., 2005. Meneses, Maria Alexandrina da Silva. As Redes Neuronais na Anlise de Trfico com o GPS:Dissertao de Mestrado em Posicionamento e Navegao por Satlite. Faculdade de Cincias da Universidade do Porto. 2003. Mester, Lorreta J. What's the Point of Credit Scoring. 1997. Montrichard, Derek. Reject Inference Methodologies in Credit Risk Modeling. Toronto, Canada: Canadian Imperial Bank of Commerce, 2007. Nargundkar, S., e J. Priestley. Assessment of Evaluation Methods for Prediction and Classifications of Consumer Risk in the Credit Industry. In G. Peter Zang,Neural Networks in Businesses Forecasting. Chapter XIV. IRM Press., 2004. Neto, L.B. Sistema hbrido de apoio deciso para deteco e diagnstico de falhas em redes eltricas. Dissertao de Mestrado em Engenharia Eltrica,. Rio de Janeiro: Pontifcia Universidade Catlica do Rio de Janeiro, 1997. Neves, J. C., e A. Vieira. Estimating Banruptcy Using Neural Networks Trained with Hidden Layer Learning Vector Quantization. Lisboa: Working Paper,Departamento de Gesto, ISEG, UTL., 2004, Departamento de Gesto, ISEG, UTL. Niu, Jack. Managing Risks in Consumer Credit Industry. Beijing: Policy Conference on Chinese Consumer Credit, 2004. Patterson, D. Artificial Neural Networks - Theory and Applications. Singapore: Prentice Hall, 1996. Raymond, Anderson. The Credit Scoring Tookit Theory and Practice for Retail Credit Risk Management and Decision Automation. New York: OXFORD University Press Inc., New York, 2007. Reed, R.D., e MarsII. Neuronal Smithing:Supervised Learning in feedward Artificial Neuronal Network. Cambridge, MIT, 1999.

121

Reichert, A.k., C.C Cho, e G. M. Wagner. An Examination of the Conceptual Issues Involved in Developing Credit Scoring Models. Journal of Business and Economic Statistics, 1983. Riedmiller, M., e H. Braun. A Direct Adaptative Method for Faster Backpropagation Learning: The RPROP Algorithm. San Francisco, CA, USA: In Proceedings of the IEEE International Conference on Neural Networks, 1993. Roisenberg, Mauro. Emergncia da Inteligncia em Agentes Autnomos atravs de Modelos Inspirados na Natureza. Florianpolis: Tese de Doutoramento em Engenharia Eltrica: Universidade Federal de Santa Catarina, 1998. Roisenberg, Mauro, e Renato Corra Vieira. Redes Neuronais Artificiais: Um Breve Tutorial. Russel, S., e P. Norvig. Artificial Intelligence - A Modern Approach. New Jersey, USA: Prentice-Hall, 1995. Sarle, W. Neural network. 1999. Stopped Training and Other Remedies for Overfitting. In Proceedings of the 27th Symposium on the Interface of Computer Science and Statistics, pages 352-360,, 1995. Sarmento, Antnio. Experimentao e avaliao de modelos para um problema de atribuio de Crdito:Tese de mestrado em anlise de dados e sistemas de apoio deciso. Porto: Universidade do Porto Faculdade de Economia, 2005. Schumpeter, Joseph. The theory of Economic Development; traduzido por Redvers Opie, Cambridge,. Harvard University Press , 1911. Shachmurove, Y. Applying Artificial Neural Networks to Business, Economics and Finance. CARESS Working Papers: UCLA Department of Economics., 2002. Shin, H.W., e So Young Sohn. Reject inference in credit operations based on survival analysis. Seoul, South Korea: Department of Computer Science and Industrial Systems Engineering, 2006. Siddiqi, Naeem. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. New Jersey: Jonh Wiley & Sons, Inc, 2006. Stanton, T.H. Credit and Loan Scoring: Tools for Improved Management of Federal Credit Programs. Baltimore MD: Center for the Study of American Government, John Hopkins University, 1999. Swingler, K. Applying Neural Networks: A Practical Guide. London: Academic Press, 1996. 122

Tabachnick, B G, e L S Fidell. Using Multivariate Statiscts. Vol. 4 edio. 2001. Thawornwong, S., e D Enke. Forecasting Stock Returns with Artificial Neural Networks. G. Peter Zang, Neural Networks in Businesses Forecasting,Chapter III, IRM Press., 2004. Thomas, Lyn C. Consumer Credit Models: Pricing, Profit and Portfolios. New York: Oxford University Press Inc., 2009. Thomas, Lyn C.,Edelman, David B., e Jonathan N. Crook. Credit Scoring and Its Applications. 2002. Turner, Robin Varghese e Michael. The Benefits of Wider Participation in Full-File Credit Reporting in Latin America and the Costs of the Status Quo. (Information Policy Institute) Maro 2006: 2. Wasserman, P. D. Neural Computing: Theory and Practice. New York., 1989. Wynn, Helen McNab & Anthea. Principles and Practice of Consumer Credit Risk Management. Vol. 2nd edition. Institute of financial services, 2003. Yeung, T. Kwork e D. Constructive algorithms for structure learning in feedforward neural networks for regression problems::A survey. IEEE Transactions on Neural Networks. Vols. 8(3):630-645. 1999. Zhang, Y., Akkaladevi,S., Vachtsevanos,G., e T. Lin. Granular neural web agents for stock prediction. Soft Computing 6 (2002) 406 41. Springer-Verlag., 2002.

123

Apendices

Apendice A Modelo logit com conjunto de treino de 80%

Tabela de estimativas dos parmetros

Parameter Intercept X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13

Analysis of Maximum Likelihood Estimates Standard Wald DF Estimate Error Chi-Square 1 0.99 0.03 803 1 0.96 0.10 98 1 0.85 0.07 139 1 0.67 0.22 28 1 0.62 0.12 27 1 -0.58 0.38 58 1 0.56 0.59 46 1 0.52 0.30 89 1 0.51 0.68 65 1 0.47 0.14 67 1 0.43 0.26 59 1 0.48 0.07 89 1 0.80 0.22 88 1 0.89 0.03 48

Pr > ChiSq <.0001 <.0001 <.0001 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002 <0.002

Testing Global Null Hypothesis: BETA=0


Testing Global Null Hypothesis: BETA=0 Test Likelihood Ratio Score Wald Chi-Square 525 491 431 DF 13 13 13 Pr > ChiSq <.0001 <.0001 <.0001

124

Tabela de contingencia do Hosmer- Lemeshow

Partition for the Hosmer and Lemeshow Test TARGET= 0 TARGET = 1 Group Total Observed Expected Observed Expected 1 483 197 201 286 282 2 483 295 285 188 198 3 483 327 314 156 169 4 483 323 334 160 149 5 483 347 351 136 132 6 483 365 369 118 114 7 483 392 386 91 97 8 483 396 403 87 80 9 483 423 422 60 61 10 479 447 447 32 32

Teste de Hosmer Lemeshow

Test Hosmer and Lemeshow Goodness-of-Fit Chi-Square 5.2799 Pr > ChiSq 0.7273

Coeficiente de determinao Pseudo R2


R-Square 0.17 Max-rescaled R-Square 0.19

125

Apendice B Fit statistics RMSE


Seleco da melhor arquitetura RMSE

0.45 0.45 0.44 0.44 0.43 0.43

Root mean square error

0.42 0.42 0.41


2 3 4 5 6 7 8 9 10 11 12 13 14

Nmero de neurnios da camada interior

A rede com 11 neurnios a que aprersenta menor erro.

Processo de Treino da rede Neuronal conjunto 70%-15%-15%.

126

Вам также может понравиться