Вы находитесь на странице: 1из 213

LUIS PAULO VIEIRA BRAGA

Introduo
Minerao de Dados
2 edio revista e ampliada

Rio de Janeiro, 2005

Luis Paulo Vieira Braga / E-papers Servios Editoriais Ltda., 2005.


Todos os direitos reservados Luis Paulo Vieira Braga /
E-papers Servios Editoriais Ltda. proibida a reproduo ou
transmisso desta obra, ou parte dela, por qualquer meio, sem
a prvia autorizao dos editores.
Impresso no Brasil.
SPSS, SAS, Microsoft, IBM, Harley-Davidson e outros nomes
de empresas so marcas registradas.
1 edio: 2004
2 edio: 2005
ISBN: 85-7650-035-3

Projeto grco, diagramao e Capa


Livia Krykhtine
Reviso de texto
Elisa Sankuevitz
Hel Castro
Mrio Jos de Oliveira

Esta publicao encontra-se venda no site da


E-papers Servios Editoriais.
http://www.e-papers.com.br
E-papers Servios Editoriais Ltda.
Rua Mariz e Barros, 72, sala 202
Praa da Bandeira Rio de Janeiro
Rio de Janeiro Brasil
CEP 20.270-006

Braga, Luis Paulo Vieira


Introduo Minerao de Dados/ Luis Paulo Vieira
Braga. 2 edio revista e ampliada. Rio de Janeiro: E-Papers
Servios Editoriais, 2005.
212 p.
1. Banco de Dados
I. Ttulo
311.07

PERTENCE A NOME DO CLIENTE

Sumrio

Prefcio

11

Introduo

15

KDD e Minerao de Dados


16
Denio do problema
16
Aquisio e Avaliao dos dados
17
Extrao de caractersticas e realce
17
Plano de prototipagem, prototipagem e
desenvolvimento do modelo
17
Avaliao do modelo
17
Implementao
17
Avaliao do retorno do investimento (ps-projeto)

19

Bancos de Dados para Minerao de Dados Data


warehouse, Data mart e Data webhouse

23

A Construo de Modelos no Processo KDD/DM


23
Problema

27

Tratamento de Dados para DM


27
Denio da Populao
28
Amostragem
31
Triagem dos Dados
32
Transformao dos Dados

37

Mtodos para Modelagem


37
Seleo do Mtodo
44
Anlise de Regresso no-Linear
46
Regresso Logstica
48
rvores de Classicao

PERTENCE A NOME DO CLIENTE

52
58
61
68

Redes Neurais
Anlise Discriminante
Anlise de Similaridade e de Conglomerados
Anlise de Anidade

73

Plano de Prototipagem
73
Plano de Prototipagem, Prototipagem e
Desenvolvimento do Modelo

79

Validao do Modelo
79
Validao

83

Implementao
83
Implementao

85

Retorno do Investimento (ROI)

89

Exemplos
89
A Partir de uma Base de Clientes, para Quais Enviar
um Novo Catlogo?
90
Penetrao no Mercado
90
Classicao para Clientes de um Carto de Crdito
91
Previso de Vendas para uma Campanha Promocional
92
Modelando Risco

93

Bibliograa

95

Anexo I Repositrios de Dados na Internet

97

Anexo II Pacotes Computacionais em Minerao de


Dados

99

Anexo III Anteprojeto de Minerao de Dados

103 Anexo IV Estudos de Caso


104 AIV.1 Classicao de doadores potenciais da
Paralyzed Veterans of America
110 AIV.2 Identicao de padres no acesso s pginas
do site MSNBC
117 AIV.3 Identicao de pers em basede dados de
acidentes de trabalho
126 AIV.4 Aquisio de Seguros
135 AIV.5 Projeto de minerao de dados para
categorizao de clientes de uma instituio nanceira

PERTENCE A NOME DO CLIENTE

156
163
193

AIV.6 Classicao Supervisionada de Crdito em


um Banco na Alemanha
AIV-7 Predio do Interesse pela Compra de Seguro
de Trailers
AIV-8 Sistema de Deteco de Intruso

205 Anexo V Estatstica do Quiquadrado para alguns


Atributos
207 Anexo VI Transformaes matemticas
209 Anexo VII Exemplos de taxas de acerto e matrizes
de confuso

PERTENCE A NOME DO CLIENTE

ndice de Figuras

13
15
20
22
31
38
44
45
46
49
51
52
53
58
64
66
67
69

Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura

1.1.
2.1.
3.1.
3.2.
5.1.
6.1.
6.2.
6.3.
6.4.
6.5.
6.6.
6.7.
6.8.
6.9.
6.10.
6.11.
6.12.
6.13.

Tipos de Negcios Eletrnicos


KDD
Sistemas para Business Intelligence
Banco Relacional versus Multidimensional
Outliers
Resduos versus estimativas
Regresso No-linear
Superfcie de Regresso
Regresso Logstica
rvore de Classicao
rvore de Classicao do exerccio
Modelo de um neurnio
Rede neural
Funo discriminante
Anlise de agrupamento
Dendograma
Mtodo das K-mdias
Caminhos em sites

PERTENCE A NOME DO CLIENTE

Prefcio

meu primeiro contacto com Minerao de Dados, no sentido


estrito que este jargo passou a ser utilizado, se deu durante
o perodo em que cursei o MBA em Comrcio Eletrnico da
FGV-RJ no ano de 2001. Por outro lado minha experincia com anlise de dados em cincias da natureza de cerca de 20 anos. Coincidentemente ou no, eu j trabalhava com dados em minerao
e passei ento a trabalhar com minerao de dados. Nesse texto o
termo ser utilizado no contexto do mundo dos negcios, embora
as tcnicas de minerao de dados possam tambm ser aplicadas
em reas sociais, alguns estudos de caso contemplam exatamente
este segmento.
O assunto est exposto em 11 captulos, alm da bibliograa
e quatro anexos. A meta apresentar a metodologia para o desenvolvimento de um projeto em minerao de dados, de modo
que o leitor que apto a formular um projeto de acordo com as
necessidades da organizao para a qual trabalha. No ensinado
nenhum particular pacote computacional, mas aps o estudo do
material apresentado, o leitor certamente saber utilizar melhor as
facilidades que a maioria dos bons pacotes oferece. Estudantes de
graduao em economia, administrao, marketing, engenharia,
matemtica, estatstica e informtica, alm de prossionais que
trabalhem nestas reas podem se beneciar do texto, tomando
contacto com uma ferramenta que est se tornando cada vez mais
presente no mercado de trabalho.
O texto, agora em sua segunda edio, vem sendo utilizado
na disciplina Minerao de Dados que tenho oferecido a nvel de
graduao, ps-graduao ou extenso no Instituto de Matemtica

Introduo Minerao de Dados

PERTENCE A NOME DO CLIENTE

da Universidade Federal do Rio de Janeiro. Muitas melhorias foram


introduzidas em relao edio anterior: cinco novos estudos de
caso, sees adicionais cobrindo mais tcnicas, melhoria do texto,
entre outras.
Agradeo os comentrios, contribuies e crticas de colegas
e estudantes, dentre eles: Adriano Moutinho, Airam Carlos Pais
Barreto Marques, Alexander Lima da Silva, Alexandra Ribeiro Mendes de Almeida, Anderson Scot de Mello, Andr Valle, Alissandra
Evangelista Martins, Antonio Anibal de Souza Teles, Artur Versiani
Scott Varella, Carlos Alberto Franco, Cassio Almeida, Catia Cristina
de Arajo Quarterolli Bastos, Ftima Luciana Contim Figueiredo,
Fernando Tamberlini Alves, Geraldo Oliveira Santos, Guido Alberti
Moreira, Jeffrey Hanson Costa, Joo Ismael Damasceno Pinheiro,
Jorge Leonardo Lima Barboza, Jorge de Rezende, Luiz Eduardo Varella, Marcelo Amorim Bastos, Marcelo Poton, Mrcio Bartolomeu
Azevedo da Costa, Raimundo Jos Macrio Costa, Regis da Rocha
Motta, Samuel Martins de Souza, Srgio Ellery Giro Barroso, Sonia
Baptista da Cunha, Viviane Soares Rodrigues Silva, Telma S. Par.

10

Prefcio

PERTENCE A NOME DO CLIENTE

Introduo

maior desao que as empresas enfrentam hoje o de manter


uma carteira de clientes lucrativos. No se trata mais de organizar a produo, reduzir custos e atender bem condies
necessrias mas no sucientes para vencer no mercado global e
altamente competitivo.
preciso, mediante o conhecimento adquirido sobre seus clientes, ser capaz de interpretar seus objetivos, expectativas e desejos.
Isto conseguido pela minerao de dados (data mining), ou ainda
pela minerao de dados centrada no cliente (customer centric data
mining), que uma coleo de tcnicas e mtodos facilitadora da
aquisio e reteno da parte do mercado que cabe a uma empresa
(market share). As metas de bom atendimento e reduo de custos
tambm valem para as organizaes no lucrativas, governamentais
ou no.
Para atingir estes objetivos no bastam as ferramentas genricas
de CRM (Client Relationship Management), ERP (Enterprise Resources Planning) ou BI (Business Intelligence) mas tambm capacidade
analtica para identicao de padres e predio a partir dos dados
estratgicos de uma organizao. Analistas de minerao de dados
desenvolvem dois tipos de modelos: preditivos e descritivos.
A minerao de dados prov um mtodo automtico para descobrir padres em dados, sem a tendenciosidade e a limitao de
uma anlise baseada meramente na intuio humana. Presidentes
de grandes corporaes como IBM, Microsoft e Harley-Davidson no
foram capazes de prever que o mercado ia preferir PCs, Internet e
motos populares. Alm disso massas de dados so demasiadamente
grandes e intrincadas para tratamento manual.

Introduo Minerao de Dados

11

PERTENCE A NOME DO CLIENTE

Em particular, o comrcio eletrnico vem pressionando drasticamente as empresas para utilizao de formas mais elaboradas de
obteno de conhecimento sobre seus clientes. A grande diferena
entre as empresas reais e as empresas na Internet, supondo-se que
o bsico seja atingido, o relacionamento. O negcio que conhece
seus clientes vai servi-los ainda melhor. Igualmente no setor pblico
a introduo do e-governo visa potencializar o acesso da populao
s diversas instncias governamentais, aumentando a presso sobre
o funcionamento da burocracia estatal.
A minerao de dados centrada no cliente prov o conhecimento
das caractersticas e do comportamento dos clientes. Esta compreenso a base para qualquer prospeco realstica. Reter clientes
custa menos que adquirir novos e a expanso do comrcio eletrnico
tornou fcil a mudana de fornecedor. Muitas relaes comerciais
no passaro de uma simples transao, por este motivo o melhor
gasto com marketing aquele que mantm os clientes que voc j
tem. Obviamente no se deve esquecer da ecincia operacional,
que a chave para manter os custos sob controle.
Hoje em dia a projeo de negcios fundamental, por exemplo,
a estimativa do ciclo de vida de um cliente de alto retorno para a
empresa. Este tipo de reviso vai muito alm do planejamento e do
desenvolvimento de modelos de uxo de caixa. Compreende projees
mercadolgicas enraizadas no histrico real de negcios. Pode responder perguntas tais como Quanto faturamento pode-se esperar de cada
cliente nos prximos 12 meses? Sem dvida nenhuma, uma pergunta
bsica para o planejamento da empresa durante um ano.
Tambm no caso de servios pblicos ou de interesse social a
identicao de fraudes, o diagnstico precoce de doenas ou de
suscetibilidade a acidentes de trabalho, entre outros problemas, so
de fundamental importncia para garantir o bem-estar da populao
e a economia de recursos pblicos.
A minerao de dados compreende um conjunto de tcnicas
para descrio e predio a partir de grandes massas de dados. Por
este motivo ela est geralmente associada a bancos de dados especiais
denominados data wharehouse. Estes bancos de dados viabilizam a
integrao rpida de dados oriundos de diferentes fontes.
Neste trabalho apresentaremos a metodologia bsica do processo de minerao de dados, as grandes categorias de problemas,

12

Introduo

PERTENCE A NOME DO CLIENTE

as ferramentas matemticas mais usuais, os estudos de casos e as


concluses.
Empresas
Pedidos
Site
B2C

Site
B2B
Divulgao
Produtos

Fornecedores
Produtos
Centro de Distribuio

Consumidores
Finais

Figura 1.1. Tipos de Negcios Eletrnicos.

Introduo Minerao de Dados

13

PERTENCE A NOME DO CLIENTE

KDD e Minerao de Dados

minerao de dados est inserida em um processo maior denominado descoberta de conhecimento em banco de dados,
Knowledge Discovery in Database (KDD). Rigorosamente o DM
se restringe obteno de modelos, cando as etapas anteriores e
o prprio DM como instncias do KDD.
Esquema para gerao de conhecimento
em bancos de dados KDD

Dados

Dados
Classes
Dados
Conhecimento
Dados-alvo Pr-processados
Transformadosos Previso (DM)

Figura 2.1. KDD.

No promissor e caro mercado de sistemas para minerao de


dados dois produtos se destacam: Clementine-SPSS e SAS-Enterprise Miner. O primeiro usa a metodologia CRISP-DM acrnimo
para Cross Industry Standard Process for Data Mining e o segundo a
metodologia SEMMA acrnimo para Sample, Explore, Modify, Model,
Assess. As diferenas entre eles e outros sistemas no so de essncia,
mas de apresentao e implementao. Estes sistemas basicamente
passam pelas mesmas etapas: coleta de dados, depurao e anlise,
resultando em um modelo descritivo, e, caso se deseje, os resultados sero utilizados na construo de um modelo preditivo.
Procurando estabelecer uma seqncia genrica de etapas para
um projeto de Minerao de Dados teramos:
a) Denio do problema

Introduo Minerao de Dados

15

PERTENCE A NOME DO CLIENTE

b) Aquisio e Avaliao dos dados


c) Extrao de caractersticas e realce
d) Plano de prototipagem, Prototipagem e Desenvolvimento do
Modelo
e) Avaliao do modelo
f ) Implementao
g) Avaliao do retorno do investimento (ps-projeto)
Descrevemos a seguir cada uma destas etapas:
DEFINIO DO PROBLEMA
A resposta a uma pergunta mal formulada ca comprometida desde o incio do processo. Um dos maiores desaos dos analistas de
sistemas descobrir o que o usurio realmente quer. Alm disto o
ambiente em grandes corporaes envolve o relacionamento com
diferentes comunidades dentro da mesma empresa. Por detrs do
usurio nal, h que se considerar o ambiente de software e hardware da empresa.
Destacamos ento as seguintes tarefas:
Entrevistar o usurio nal
Entrevistar o responsvel pela manuteno dos dados
Compilar documentao
Selecionar mdia e meios de armazenamento
Identicar ferramentas
AQUISIO E AVALIAO DOS DADOS
Partimos do princpio de que os dados so a fonte predominante
para obteno de informao, portanto esta etapa assim como a
anterior constituem os pilares do processo de Minerao de Dados.
As tarefas a serem cumpridas nesta etapa seriam as seguintes:
Adquirir dados
Formatar dados
Criar ambiente e ferramentas
Validar aquisio e formatao
Criar amostras (aleatrias) de trabalho
Particionar os dados (anlise, calibrao, validao e teste oculto)
16

KDD e Minerao de Dados

PERTENCE A NOME DO CLIENTE

EXTRAO DE CARACTERSTICAS E REALCE


Nesta etapa preciso identicar quais atributos contribuem para a
resoluo do problema em tela. Atributos que no se alteram, em
nada contribuem para a anlise. Da mesma forma atributos fortemente dependentes podem ser reduzidos, a meta desta etapa :
Produzir um conjunto de dados (data set) representativo, reproduzvel e convel
PLANO DE PROTOTIPAGEM, PROTOTIPAGEM E
DESENVOLVIMENTO DO MODELO
Desenvolver hipteses e plano de testes
Prototipagem
Desenvolver modelos descritivos e/ou preditivos
AVALIAO DO MODELO
Avaliar os resultados do prottipo
IMPLEMENTAO
Entregar o produto nal
AVALIAO DO RETORNO DO INVESTIMENTO (PS-PROJETO)
Esta fase deve ser conduzida pela gerncia da empresa para avaliar se
as mudanas conseqentes ao projeto representaram efetivamente
um ganho material.
Exemplo das sete etapas em uma aplicao destinada a uma
campanha de vendas de CDBs de um Banco que tem 1.400.000
clientes pessoas fsicas:
1. Problema: identicar clientes que se interessariam em comprar
CDBs.
2. Dados: amostra de 150 mil clientes dos quais se mediram os
seguintes atributos: idade, renda, variveis demogrcas, lucratividade, nvel do depsito, freqncia de investimentos,
ocasio das aplicaes entre outras.
3. Extrao de caractersticas: considerar apenas os atributos relacionados recncia (tempo decorrido desde a ltima aquisio),
freqncia e fator monetrio.

Introduo Minerao de Dados

17

PERTENCE A NOME DO CLIENTE

4. Modelo: rvore de classicao


5. Avaliao: a rvore explicou 80% do comportamento dos clientes
6. Implementao: baseado na rvore foram enviados convites para
parte da totalidade dos clientes do Banco propondo a aplicao
em CDBs
7. Retorno do Investimento: gastou-se 30% a menos em divulgao
porque ao contrrio de outras promoes o contato s foi feito
com parte dos clientes. A resposta foi 50% melhor do que em
promoes anteriores.
No prximo captulo trataremos da aquisio, manuteno e
atualizao de dados em um projeto de minerao de dados.

18

KDD e Minerao de Dados

PERTENCE A NOME DO CLIENTE

Bancos de Dados para Minerao


de Dados Data warehouse,
Data mart e Data webhouse

destacamos anteriormente o papel conceitual dos dados no


processo de Data mining a fonte de informao. Apresentamos a seguir cinco caractersticas que devem ser obedecidas na
captao e manuteno dos dados:
Acurcia sem erros de medio ou digitao
Consistncia fazem sentido
Completude sem campos faltantes
Relevncia concernentes ao problema
No redundncia no duplicao da mesma informao
Filosocamente trs princpios devem ser levados em conta:
A qualidade dos dados crtica e de muito mais importncia do
que a quantidade
A informao est nos dados
O trabalho deve ser desenvolvido nos dados
Em geral os Sistemas de Minerao de Dados trabalham acoplados a um sistema de banco de dados. Obviamente bancos de dados
e sistemas para gerao de relatrios existem desde a dcada de
1970, mas desde ento houve uma evoluo impressionante destes
sistemas em face da expanso dos negcios e da formao de grandes corporaes multinacionais. Consolidou-se ento o conceito de
Business Intelligence (BI) um conjunto de conceitos e metodologias
que, fazendo uso de acontecimentos (fatos) e sistemas baseados
nos mesmos, apia a tomada de decises em negcios. Para isto
ser possvel necessrio adquirir os dados, por exemplo, por meio
de um sistema de processamento on-line de transaes (OLTP),
armazen-los em um sistema de banco de dados, como um Data
Introduo Minerao de Dados

19

PERTENCE A NOME DO CLIENTE

warehouse do qual se pode gerar ainda um subconjunto especco


de dados, Data mart e, nalmente, processar estes dados com uma
ferramenta de anlise que pode ser: uma ferramenta de processamento analtico on-line (OLAP); um sistema de informaes para
executivos (EIS); um sistema de apoio a deciso (DSS); ou ainda um
sistema de descoberta e previso (Data mining).
DATA WAREHOUSE
OLTP

EIS/DSS
OLAP
DATA MINING

Figura 3.1. Sistemas para Business Intelligence.

A tabela a seguir ilustra as diferentes ferramentas de Business


Intelligence (BI).
Os sistemas de anlise no concorrem entre si, apenas responTipo de ferramenta

Questo bsica

Exemplo da resposta

Data Mining

O que interessante?
O que pode acontecer?

Tipos de clientes previso


de vendas

OLAP

O que aconteceu e
por qu?

Vendas mensais versus


mudanas de preos de
competidores

EIS/DSS

O que eu preciso
saber agora?

Cotaes diversas

Pesquisas e Relatrios

O que aconteceu?

Vendas do ltimo ms

dem a perguntas em nveis diferentes. Sendo o Data mining o de


maior alcance estratgico dentre eles.
A viabilizao destes sistemas de anlise s possvel graas ao
Data warehouse, o trao distintivo deste sistema de banco de dados
em relao aos sistemas anteriores que ele no relacional, mas
multidimensional. Alm disto tem a habilidade para extrair, tratar e
agregar dados de mltiplos sistemas operacionais em Data marts ou
em Data warehouses separados. Em sua concepo mais avanada o
Data warehouse implementado na World Wide Web (WWW), dando
origem ao Data webhouse. O Data webhouse armazena e publica

20

Bancos de Dados para Minerao de Dados

PERTENCE A NOME DO CLIENTE

dados de seqncia de cliques e outros dados comportamentais da


Web que guiam uma compreenso do comportamento do cliente,
diferencia-se, portanto, da ferramenta OLAP que registra a transao
efetuada mas no os movimentos preliminares a esta transao.
A implementao da estrutura multidimensional representada
na gura 3.2 possvel graas ao conceito de n-D cubide. Neste caso
o 0-D cubide d o total de carros, 15 no caso. Os 1-D cubides so
modelo e cor. No caso do 1-D cubide cor, tem-se: 1 Azul, 6 vermelhos, 5 Brancos e 3 Amarelos. Para o 1-D cubide Modelo, tem-se:
11 utilitrios, 4 sedans. Finalmente o 2-D cubide corresponde
descrio da tabela de contingncia: 0 utilitrios azuis, 6 utilitrios
vermelhos, 5 utilitrios brancos, e assim por diante.
A ferramenta OLAP permite realizar diversas operaes sobre
a estrutura multidimensional, a saber: drill-up agrega dados em
uma dimenso subindo na hierarquia, por exemplo, rua>cidade>
estado>pas; drill-down a operao oposta; slice xa o valor de
uma dimenso e recupera os valores das demais dimenses; dice
xa o valor de duas ou mais dimenses e recupera os valores das
demais; pivot intercambia dimenses, permitindo diferentes visualies dos dados.
No livro de Han J. e Kamber M. citado na bibliograa o leitor
poder saber mais sobre Data warehouse e sua ligao com Data
mining.
A principal questo do processo de minerao de dados pode ser
colocada da seguinte forma: onde est a informao que os dados
contm e como ela pode ser localizada? Isto ser visto nos prximos
captulos.

Introduo Minerao de Dados

21

PERTENCE A NOME DO CLIENTE

Modelo
Utilitrio
Utilitrio
Sedan
Sedan

Cor
Vermelha
Branca
Amarelo
Azul

Vendas
6
5
3
1

RELACIONAL

MULTIDIMENSIONAL
Cor

Azul Vermelha

Modelo
Utilitrio
Sedan

0
1

Branca

Amarelo

5
0

0
3

6
0

3/11
Figura 3.2. Banco Relacional versus Multidimensional.

Aspecto

OLTP

OLAP

Caracterstica

Operacional

Informacional

Orientao

Transao

Anlise

Usurio

Gerente

Analista de conhecimento

Funo

Cotidiano

Longo prazo

Concepo

Orientado aplicao

Orientado Assunto

Dados

Correntes

Histricos

Sumarizao

Altamente detalhado

Consolidado

Ponto de vista

Relacional

Multidimensional

Unidade de trabalho

Transaes simples

Consultas complexas

Acesso

Leitura/escrita

Leitura

Foco

Entrada de dados

Sada de informao

Operao

Indexao/hash

Busca

Nmero de registros

Dezenas

Milhes

Nmero de usurios

Milhares

Centenas

Tamanho

100Mb a 1 Gb

100Gb a Tb

Priroridade

Alta
performance/disponibilidade

Alta flexibilidade, autonomia para


usuario fianal

Mtrica

Desempenho por transao

Desempenho por consulta, tempo


de resposta

PERTENCE A NOME DO CLIENTE

A Construo de Modelos
no Processo KDD/DM

PROBLEMA
O termo KDD Knowledge Discovery in Databases foi criado em 1995
para designar o conjunto de processos, tcnicas e abordagens que
propiciam o contexto no qual a minerao de dados ter lugar. Em
suma a aplicao do mtodo cientco moderno aos problemas
do mundo dos negcios.
preciso, portanto, estar consciente de que o processo de descoberta no se faz provando uma hiptese mas, colhendo evidncias
e explicaes sobre ela podendo eventualmente levar construo
de um modelo. Os resultados ganharo evidncia medida que os
fatos assim o conrmarem. Alm disto esta evidncia e conrmao
reetem um paradigma. Quando h mudana de paradigma, tudo
deve mudar hipteses, evidncias e modelos.
Portanto, quando usarmos as tcnicas de minerao de dados
para analisar problemas do mundo dos negcios, preciso estar
atento mudana de paradigma que est ocorrendo. No velho paradigma, um negcio estava organizado em reas funcionais marketing, nanas, engenharia e um comando voltado para produo.
Este paradigma est mudando para algo centrado no cliente em
torno de quem se estabelece uma rede de processos controlveis
retroativamente. Os modelos de minerao de dados devem reetir
este novo paradigma sob pena de nada acrescentarem.
A primeira onda desta mudana de paradigma foi baseada no
conceito de lealdade/assiduidade medidas pela mtrica RFM (recncia tempo transcorrido desde a ltima compra; freqncia e
valor monetrio), um exemplo o programa de milhagem presente
em muitas companhias areas.

Introduo Minerao de Dados

23

PERTENCE A NOME DO CLIENTE

A segunda onda se baseou na otimizao do valor do cliente,


buscando a oferta de produtos e servios em nichos denidos por
segmentos de clientes.
A terceira onda vai muito alm busca a customizao em
massa, processo radical no qual o consumidor pode alterar estruturalmente o produto/servio de acordo com o seu pedido. o caso
da Toyota no Japo, Domino nos EUA, entre outras.
As empresas de marketing a partir da dcada de 1950 passaram
a trabalhar com o sistema de metas, isto , denem-se metas de
vendas, de market-share etc...
Exemplos de Metas
Atrair novos clientes
Tornar novos clientes rentveis
Evitar clientes de risco
Entender as caractersticas dos clientes
Tornar rentveis os atuais clientes
Reter clientes rentveis
Recuperar clientes
Melhorar a satisfao dos clientes
Aumentar vendas
Reduzir despesas
A partir das metas desenvolve-se uma seqncia de passos que
levem consecuo das mesmas. Este processo leva construo
de um modelo o qual pode ser preditivo ou descritivo. Um modelo
preditivo calcula algum valor que representa um nvel de atividade
futura, um modelo descritivo descobre regras que so usadas para
agrupar itens em categorias. Dentre algumas aplicaes dos modelos
preditivos temos: os modelos de resposta, risco, cross-sell, up-sell,
concorrncia, valor presente lquido e ciclo de vida. J em relao
aos modelos descritivos as aplicaes mais comuns so: anlise de
perl de cliente e cesta de compras. No livro de R. Swift sobre CRM
(Customer Relationship Management) listado na bibliograa, o leitor
poder apreender mais sobre as novas tendncias do marketing.

24

A Construo de Modelos no Processo KDD/DM

PERTENCE A NOME DO CLIENTE

Modelos e suas nalidades


Anlise de Perl: contm estatsticas sobre os clientes relativas
a atributos demogrcos (idade mdia, proporo de gnero,
proporo de casados, proporo de solteiros, tempo mdio de
residncia etc.). A anlise de perl mais efetiva quando aplicada
a segmentos.
Segmentao: segmenta os clientes segundo um conjunto de
critrios, por exemplo, lucratividade e potencial.
Resposta: procura determinar dentre os clientes quem reagir a
uma oferta de produto ou servio.
Risco: prediz a probabilidade de que um tomador de crdito no
honre sua dvida.
Ativao: prediz se um cliente inicial ir efetivamente se tornar
cliente.
Cross-sell: prediz a probabilidade ou valor de um cliente comprar
outro produto ou servio na empresa.
Up-sell: prediz a probabilidade ou valor de um cliente aumentar
suas compras do mesmo produto ou servio na empresa.
Attrition: prediz a reduo do consumo ou uso de um servio ou
produto.
Valor lquido presente de um produto (Net present value): prediz
a lucratividade de um produto por um perodo predeterminado
de tempo.
Valor lquido presente de um cliente (Lifetime value): prediz a
lucratividade de um cliente por um perodo predeterminado de
tempo.
O problema ou meta vai determinar qual ou quais modelos podem ser teis. O livro de O. P. Rud, citado na bibliograa dedicado
aplicao de Minerao de Dados ao setor de negcios.
Trataremos a partir de agora das questes metodolgicas obteno e tratamento dos dados; escolha da metodologia mais adequada
para processar o modelo, validao e implementao.
Como exerccio formule um problema em sua organizao que
possa ser tratado via minerao de dados. Lembre-se, o servio ou
produto disponibilizado personalizado. Ou seja voc sabe quem

Introduo Minerao de Dados

25

PERTENCE A NOME DO CLIENTE

o cliente ou usurio. No precisa se limitar a negcios lucrativos, por


exemplo, em uma indstria a partir de dados de acidentes construir
um modelo preditivo a partir do qual se possa avaliar a propenso
de um funcionrio se acidentar.

26

A Construo de Modelos no Processo KDD/DM

PERTENCE A NOME DO CLIENTE

Tratamento de Dados para DM

PROBLEMA > DEFINIO DA POPULAO


Do ponto de vista de contedo, os dados podem ser classicados
em trs categorias: demogrcos, comportamentais e psicolgicos
(valores). Por exemplo: um cliente masculino de 45 anos, vivo,
compra em mdia R$ 200,00 a cada ida semanal ao supermercado
e se declara contra a cobrana do estacionamento.
Tipos de Dados
DEMOGRFICO
Homem, 45 anos,
vivo.

COMPORTAMENTAL
Compras semanais
de em mdia R$ 200,00

PSICOLGICO
Contra cobrana
estacionamento

Existem diversas fontes de dados que podem ser aproveitadas


em um projeto de DM: banco de dados de clientes (idcliente,
iddomicilio, numconta, nome, endereo, telefone, daddemgrf
etc...); banco de dados de transaes (idcliente, numconta, valor,
data etc...); banco de dados de campanhas (idcliente, idprospect);
banco de dados de pesquisas. A aquisio, manuteno e acesso se
faz pelos sistemas apresentados no captulo Bancos de Dados para
Minerao de Dados.
Dependendo da nalidade da modelagem o conjunto de dados
a ser utilizado deve mudar. Podemos destacar trs nalidades mais
comuns: dados para prospeco, avaliao de risco e metas junto a
clientes. Por meio do sistema de banco de dados constri-se o Data
mart apropriado para a modelagem requerida. Assim em uma modelagem para metas junto a clientes, os banco de dados de transaes
e cadastros sero utilizados enquanto que em uma modelagem
para avaliao de captao de novos clientes, o banco de dados de

Introduo Minerao de Dados

27

PERTENCE A NOME DO CLIENTE

campanhas j seria mais indicado. Por exemplo em um trabalho encomendado pela Associao Brasileira de Imprensa (ABI) para traar
o perl do jornalista carioca, preferimos conduzir uma pesquisa ao
invs de usar o banco de dados dos associados da entidade.
PROBLEMA > POPULAO > AMOSTRAGEM
De uma maneira geral o nmero de registros em um banco de dados
muito grande, sendo desnecessrio utiliz-lo totalmente para o
ajuste de um modelo. Deve-se ento construir uma amostra, utilizando-se para isto de tcnicas especcas de amostragem. Duas
perguntas bsicas surgem: qual o tamanho da amostra e como selecion-la. O tamanho da amostra depende de muitas consideraes
nalidade do modelo, nmero de parmetros e poder preditivo
esperado. No caso de estimao de propores temos os seguintes
valores:
Tamanho da amostra

100

200

400

750

1000

1500

3000

5000

Margem de erro
(*=99%)

12,9

9,1

6,5

4,7

4,1

3,3

2,4

1,8

Margem de erro
(*=95%)

9,8

6,9

4,9

3,6

3,1

2,5

1,8

1,4

Margem de erro
(*=90%)

8,2

5,8

4,1

3,0

2,6

2,1

1,5

1,2

* Nvel de conana.

A outra questo como escolher os elementos da amostra. H cinco tipos bsicos de amostragem: aleatria simples, aleatria estraticada, sistemtica, por mltiplos estgios e por cotas. Se a populao
a ser considerada homognea a amostragem aleatria simples
a mais adequada. Entretanto se esta populao for estraticada ou
segmentada, ento podem ser utilizadas as opes aleatria estraticada, cotas ou conglomerados. No livro de A. C. Almeida, sobre
pesquisas eleitorais e de opinio, que consta na bibliograa o leitor
poder aprofundar os conhecimentos sobre o tema.
Tipos de Amostragem
Aleatria simples a selecionada por sorteio, de tal forma que
cada unidade da populao tenha igual chance de ser sorteada.

28

Tratamento de Dados para DM

PERTENCE A NOME DO CLIENTE

Aleatria estraticada a selecionada por sorteio em subconjuntos ou estratos da populao.


Sistemtica variante da aleatria simples, embaralham-se os
elementos da populao e passa-se a selecion-los a cada n/N
elementos, onde n: tamanho da populao e N: tamanho da
amostra.
Mltiplos estgios a populao representada por estratos
hierarquizados do mais amplo para o mais especco: municpio,
distrito, bairro, quarteiro, domiclio, data de nascimento.
Cotas a populao dividida em subgrupos e a seleo feita
arbitrariamente dentro de cada subgrupo e tantas vezes segundo
sua proporo na populao.
Exemplo de um plano de amostragem
O objetivo gerar uma amostra para traar o perl do jornalista
carioca, denimos o tamanho da amostra em 400 e optamos pela
amostragem em cotas, os nmeros dentro das clulas representam
a quantidade de entrevistados(das) em cada grupo. O levantamento
foi feito em 1996. Os valores em cada clula indicam o nmero de
pessoas a entrevistar.
Jornal
Empresa
Categoria

Globo

JB

Dia

Jornal do
Comrcio

Tribuna
Imprensa

O Povo

Jovem

16

Snior

12

TV
Empresa
Categoria

Globo

TVE

Manchete

SBT

Bandeirantes

CNT

Jovem

19

Snior

14

Rdio
Empresa
Categoria

Globo

JB

Tupi

Dia

Jovem

13

Senior

Introduo Minerao de Dados

Nacional Bandeirantes Catedral Transamerica

29

PERTENCE A NOME DO CLIENTE

Assessoria Imprensa Pblica


Empresa

Petro bras

CBTU

Sec.
Munic.

Sec.
Estad.

Ass.
Legisl.

Inca

Telerj

Embratel

IRB

10

10

10

Assessoria Imprensa Privado


Empresa

Golden Cross

Shell

Souza Cruz

Coca-Cola

Pepsi

Amil

Entidades Patronais
Empresa

CNI/Firjan

Ass. Com. RJ

Conf. Nac. Com.

FENASEG

Sindicatos Trabalhadores
Entidade

Sind.
Bancrios

Sind.
Urbanit.

Sind.
Petroleiros

CREMERJ

Sind.
Profess.

Sind.
Metal.

Publicaes Dirigidas
Empresa

Vale

CNI

CNC

Revista
Empresa
Categoria

Bloch

Abril

Jovem

14

10

Senior

Freelancer
Empresa

ABI

Bloch

Abril

Autnomo1

Autnomo2

Empresas Comunicao
Empresa

30

Video Clipping

Lima Amorim

Baroncelli

II

III

IV

Tratamento de Dados para DM

PERTENCE A NOME DO CLIENTE

Professores
Universidade UFRJ FACHA UERJ

CIDADE

ESTCIO

GAMA
FILHO

VEIGA
ALMEIDA

PUC

PROBLEMA > POPULAO > AMOSTRA > TRIAGEM DOS


DADOS
Uma vez selecionada a amostra h trs tarefas a realizar: tratar erros,
valores aberrantes (outliers) e valores faltantes (missing values).
Antes porm vamos relembrar a classicao tpica para dados em
dados qualitativos e quantitativos. Os dados qualitativos so expressos em categorias e basicamente so utilizados em segmentao e
classicao. J os dados quantitativos so expressos numericamente e se apresentam em quatro escalas diferentes: nominal, ordinal,
intervalar e contnua.
Para um dado qualitativo mais fcil detectar um erro ou um
outlier, basta vericar se os valores encontrados na amostra correspondem aos valores possveis. Caso isto no ocorra para algum
elemento pode-se descart-lo ou alternativamente substitu-lo
pela moda. No caso de dados quantitativos expressos em escalas
nominais ou ordinais pode-se aplicar o mesmo procedimento. J
para dados intervalares ou contnuos a gerao de grcos tais como
histograma e box-plot podem ajudar a identicar estes casos. Para
outliers existem muitos critrios que podem ser utilizados, por exemplo, valores fora das regies uma vez e meia o intervalo interquartil,
acima e abaixo do terceiro e primeiro quartis respectivamente:
Critrio simples para identicao de outliers
L
*

**

1,5L

X25%

X50%

X75%

1,5L

Figura 5.1. Outliers.

A identicao de outliers importante, porm mais importante


ainda o que vai-se fazer aps encontr-los. A presena de outliers
pode prejudicar o desempenho de muitos mtodos na etapa de

Introduo Minerao de Dados

31

PERTENCE A NOME DO CLIENTE

modelagem. Entretanto, eles podem estar fornecendo uma informao preciosa. Em muitos problemas de DM a meta encontrar
a exceo e no a regra, por exemplo, em deteco de fraude. O
monitoramento de contas em uma operadora de carto de crdito
deve incluir testes que detectem desvios signicativos do padro
usual de gastos de um cliente.
Para dados quantitativos tambm pode-se substituir dados
errados ou aberrantes, neste caso pela mdia ou pela mediana.
H procedimentos mais sosticados: mdia local da classe ou por
regresso baseada nas demais variveis.
Exemplo de substituio de outliers
Renda (sm)
Compras (R$)

4,5

4,8

5,1

10

11

120

100

200

1000

150

300

410

503

280

Caso no hajam dvidas sobre o carter excepcional ou errtico


do valor 1.000, ele poderia ser substitudo pela mdia local dos pares
prximos: (120 + 100 + 150 + 200)/4 = 142,5
PROBLEMA > POPULAO > AMOSTRA > TRIAGEM >
TRANSFORMAO DOS DADOS
O nmero de variveis presentes no dataset pode ser muito grande, alm disto as variveis podem estar expressas de forma pouco
conveniente. As seguintes tcnicas podem ser teis e se incluem na
etapa de realce e extrao de caractersticas do projeto de minerao
de dados.
Transformaes e suas aplicaes
Sumarizao reduzir o nmero de valores mediante de alguma
agregao, por exemplo, substituir dados dirios por mdias
semanais.
Razes gerar uma nova varivel a partir da razo de duas outras.
Codicao transformar dados qualitativos em quantitativos.
Por exemplo datas no formato dd.mm.aa inviabilizam operaes
matemticas, estabelece-se, portanto, uma data de referncia a
partir do qual os dias so contados.

32

Tratamento de Dados para DM

PERTENCE A NOME DO CLIENTE

Codicao simblica transformar dados quantitativos em qualitativos, no deixa de ser uma forma de sumarizao. Intervalos
de variao passam a ser associados a uma categoria.
Reduo de variveis eliminar variveis redundantes ou com
pouco poder preditivo.
Parametrizao transformar uma varivel em outra cujo domnio de variao seja mais adequado. Por exemplo, a padronizao.
Transformaes matemticas calcular uma funo da varivel
obtendo-se uma nova varivel com propriedades mais convenientes, por exemplo, simetrizao por meio da transformao
logartimica.
Reduo de variveis
Reduo de variveis ou reduo de dimensionalidade tem como
objetivo eliminar atributos irrelevantes ou pouco relevantes tendo
em vista o problema selecionado. Por exemplo, para um modelo
preditivo da preferncia por um tipo de revista a cor dos olhos ou
altura no signicativo. Ou, em outras palavras, se uma varivel
preditiva e a varivel resposta forem independentes, no h motivo
para inclu-la no modelo. Uma maneira de se avaliar esta independncia mediante a estatstica qui-quadrada que para variveis
independentes forneceria valores pequenos com alta chance de
Var.

II

III

IV

VI

VII

VIII

IX

47,38

3,27

1,97

0,09

20,33

0,03

63,73

20,33

164,49

46,46

P>

,0001

,07

,16

,77

,0001

,86

,0001

,0001

,0001

,0001

ocorrer (variveis IV e VI na tabela).


As variveis IV e VI tm baixo poder preditivo e podem ser eliminadas porque a diferena entre as freqncias observadas (relativas
a estas variveis) e esperadas baixa com probabilidade alta. Em
termos simples, a estatstica qui-quadrada mede a diferena entre
o valor esperado e o observado:

(esperado observado) 2
=
esperado
2

Introduo Minerao de Dados

(5.1)
33

PERTENCE A NOME DO CLIENTE

Usualmente os pacotes computacionais que calculam a regresso


logstica apresentam os valores da estatstica qui-quadrada para cada
varivel, podendo-se assim em um modelo preliminar que inclua
todas as variveis ter uma indicao das variveis descartveis.
Transformao de variveis
Considere os dados referentes a teores diversos tomados em uma
regio determinada.
Para cada varivel as transformaes propostas so:
Var

CaMg

Na

Al

1,5

1,6

0,09

21

1146,2

1,5

1,0

1,1

0,07

22,6

3015,3

1,8

CV

0,67

0,69

0,78

1,08

0,001

1,2

X50%

1,2

1,4

0,06

11,7

206,0

0,9

Cur

4,4

4,3

5,9

9,9

19,5

10,0

Ass

1,3

1,2

1,6

2,5

4,0

2,5

Para estas novas variveis as estatsticas se tornam:


Variveis

Transformaes

CaMg

CaMg

Novarivel
RcaMg

Log S

LS

Na

Log(Na+0,023)

Lna

Log K

LK

Log P

LP

Al

Log Al

Lal

Neste caso o objetivo era o de aproximar a curtose (coeciente

34

Var

RCaMg

LS

LNa

LK

LP

LAl

-1,03

0,1

-2,32

1,16

2,58

-0,04

0,44

0,34

0,51

0,37

0,6

0,43

CV

0,43

3,4

0,22

0,32

0,23

11

X50%

-0,91

0,15

-2,49

1,07

2,31

-0,04

Cur

2,34

2,43

2,79

4,32

2,71

Ass

-1,23

-0,24

0,63

0,44

1,07

0,26

Tratamento de Dados para DM

PERTENCE A NOME DO CLIENTE

de achatamento) e a assimetria dos padres normais, respectivamente 3 e 0.


Em vrios estudos de caso apresentados no Anexo IV so detalhados planos de amostragem e de tratamento de dados. Veremos
nos captulos sobre Plano de Prototipagem e Validao do Modelo
a importncia do uso da amostragem em um projeto de Minerao
de Dados. Finalmente preciso chamar a ateno para o fato de que
na imensa maioria dos casos, os dados em DM so dados observados, para os quais no foi delineado nenhum experimento prvio,
como usualmente se faz em Planejamento de Experimentos. Assim,
o escopo dos resultados observados raramente pode ser universalizado, devendo car restrito ao ambiente em estudo.
Como continuao do exerccio proposto ao nal do captulo A
Construo de Modelos no Processo KDD/DM especique:
a) repositrio de dados que ir ser utilizado
b) variveis (atributos) que sero lidos (todas)
c) esquema de particionamento
d) critrios para deteco de erros
e) critrios para tratamento de outliers
Estabelea agora procedimentos para transformao de variveis
que se faam necessrias para extrao de caractersticas e realce.
Preveja tambm procedimentos para reduo de variveis.

Introduo Minerao de Dados

35

PERTENCE A NOME DO CLIENTE

Mtodos para Modelagem

PROBLEMA > ... > TRANSFORMAO > SELEO DO MTODO


A primeira questo a considerar na seleo de um mtodo se o
problema original um problema que necessita de um modelo de
descrio ou de predio. Podemos tambm nos referir aos modelos descritivos como modelos de classicao no supervisionada,
enquanto os modelos de classicao supervisionada sero identicados como modelos de predio com argumento categrico. Os
demais modelos de predio tm seus argumentos contnuos.
A formulao do modelo (especicao), seu ajuste (estimao) juntamente com a validao (a ser vista mais adiante) constituem as fases
mais crticas do projeto, sendo includas na etapa de prototipagem.
Embora seja relativamente fcil determinar a qual classe de modelos o problema em tela pertence, no se pode dizer que fcil
selecionar o modelo e muito menos ajustar seus parmetros. No
h o modelo timo necessariamente, nem muito menos os nveis
timos para seus parmetros. Deve-se admitir a possibilidade da
incerteza do modelo e fazer dedues com base em vrias alternativas plausveis, ou escolhendo um procedimento que no force uma
forma particular de modelo sobre os dados. A questo da validao
do modelo ser tratada mais adiante.
Mtodos para modelos de predio com
variveis de entrada e sada contnuas
Toda a famlia de mtodos de regresso pode ser til para estes modelos: regresso linear, no-linear, univariada e multivariada.
Mtodos para modelos de predio com variveis de
entradas contnuas, inteiras ou categricas e sada categrica
Introduo Minerao de Dados

37

PERTENCE A NOME DO CLIENTE

Regresso Logstica, rvores de Classicao, Anlise Discriminante,


Redes Neurais.
Mtodos para modelos de classicao com
variveis de entrada contnuas, inteiras ou
categricas e sada categrica
Anlise de Cluster, Anlise de Associao, Redes Neurais.
Descrio dos mtodos e suas propriedades
Anlise de Regresso Linear o termo regresso foi introduzido
por Francis Galton em 1885. Nestes modelos supe-se que a mdia
de uma varivel Y dependente de uma ou mais variveis (X1, X2,
X ). A varivel Y chamada de varivel de sada ou dependente e,
... r
as variveis Xi so chamadas de variveis de entrada, explicativas
ou ainda de variveis independentes. Esta ltima designao pode
induzir confuso pois no necessariamente as variveis Xi so independentes entre si. As equaes bsicas do modelo, aonde letras
maisculas denotam as variveis e minsculas valores observados
das mesmas, so:

E (Y | X 1 , X 2 ,... X r ) = 0 + 1 X 1 + 2 X 2 + ... r X r

(6.1)

E(Y|X) representa o valor mdio ou esperana condicional de Y.

Y = 0 + 1 X 1 + 2 X 2 + ... r X r +

(6.2)

representa a varivel erro ou resduo do modelo.


Os pressupostos para a seleo deste modelo incluem a linearidade do fenmeno, homocedasticidade (varincia dos erros constantes), independncia dos erros e normalidade dos erros. As guras
a seguir ilustram estes conceitos:

Resduos

* * *

*
Linearidade, homocedasticidade
e independncia

Estimativas

(a)

38

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Resduos

*
* * *
** ** ** *

Linearidade e heterocedasticidade

Estimativas

(b)
+

Resduos

*
* *
*
*
*
*

No linearidade

Estimativas

(c)

Resduos

0
*

****
** * *
****
****
** *

Linearidade e dependncia

Estimativas

(d)
Figura 6.1. Resduos versus estimativas.

Estas propriedades s podem ser avaliadas a posteriori, pois


os grcos acima supem que o modelo foi ajustado. O ajuste do
modelo corresponde estimao de seus parmetros. Neste ponto
oportuno destacar a diferena entre estimao e previso. A determinao dos coecientes beta um problema de estimao. Estes
coecientes no so observveis, portanto a eccia da estimativa
s poder ser avaliada indiretamente, como veremos adiante. Por
outro lado, previso corresponde determinao do valor de uma
varivel em funo da variao das variveis de controle. No caso

Introduo Minerao de Dados

39

PERTENCE A NOME DO CLIENTE

do modelo de regresso tem-se a previso do valor mdio da varivel Y em funo dos valores das demais variveis. Por este motivo
os modelos de regresso suavizam suas predies. No caso de previso pode-se observar os resultados reais e comparar com o que
foi previsto.
O ajuste do modelo para uma dada populao feito comumente
a partir da minimizao da soma dos quadrados dos erros, embora
hajam outros critrios tais como o da mxima verossimilhana ou
ainda os mtodos da inferncia bayesiana.
O critrio de minimizao do erro quadrtico leva determinao de estimativas para os coecientes beta a partir de uma
amostra de valores para as variveis Y e Xi.
A intensidade da associao analisada com base nas estatsticas
seguintes:
SQTOTAL: variao total =

( yi y ) 2

SQREG: variao da regresso =


SQRES: variao dos erros =

(6.3)

( yi y ) 2

(6.4)

( yi yi ) 2

(6.5)

yi : i esima estimativa
onde:

 da varivel independente
y : media das observaoes
SQ TOTAL =SQ REG +SQ RES

Em minerao de dados o interesse maior na previso do


que na explicao do papel dos coeficientes. bvio que para
se fazer a previso precisa-se estimar os coeficientes, mas no
h a necessidade de se aprofundar a anlise. O objetivo maximizar o poder preditivo das variveis Xi. A combinao linear
destas variveis formada para ser o preditor timo da varivel
resposta. Por meio de medidas e testes a acurcia do preditor
pode ser avaliada. O coeficiente de determinao R2 o quadrado
da correlao entre Y

R2 =

40

SQ Re g
SQTot

(6.6)

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

e a combinao de variveis Xi. Quanto mais perto de 1 melhor


explicada a variabilidade total. Por exemplo, se R2 = 0,75 ento
75% da variao de Y explicado pelas variveis Xi. A aceitao ou
no de um ajuste de regresso pode ser qualicada mediante um
teste de hiptese no qual a hiptese nula i = 0, i=0,...,n. O teste se
baseia na estatstica F.

SQ Re g
(r + 1) 1
F=
SQTot
n (r + 1)

(6.7)

O numerador e o denominador de (6.7) representam, respectivamente as varincias explicada e em relao mdia. Se o valor de
F alto, isto signica que a composio de variveis Xi importante
na explicao dos valores de Y, rejeitando-se a hiptese nula.
O valor predito para Y pode ser utilizado para construir um intervalo de conana baseado na distribuio t de Student. Suponha
que se queira construir um intervalo de conana ao nvel = 1- ,
ento o intervalo da forma:

SQTot
* t / 2
n2

[ y +

, y +

SQTot
* t1 / 2 ]
n2

(6.8)

Exemplo
Considere uma amostra que contem informaes sobre nmero
de cartes de crdito que uma famlia possui, tamanho da famlia
e renda familiar.
# Cartes de crdito (Y)

Tamanho da famlia (X1)

Renda familiar (X2)

14.000

16.000

14.000

17.000

18.000

21.000

17.000

10

25.000

Introduo Minerao de Dados

41

PERTENCE A NOME DO CLIENTE

O modelo ajustado : Y = 0,482 + 0,63X1 + 0,216X2 +


O valor do coeciente de determinao 0,87.
As tcnicas para a construo de um modelo de regresso linear
constituem um captulo a parte dos mtodos estatsticos. O ajuste
do modelo no obtido em uma s etapa, mas aps vrios testes
com diferentes selees de variveis, que levam em conta testes de
hipteses e anlise de varincia, at a aceitao do melhor modelo.
Para se aprofundar nestas tcnicas o leitor pode se referir aos livros
de Hair, Anderson e Tatham (1998) ou de Malhotra (2001).
A classe de modelos lineares ou redutveis a modelos lineares
muito mais vasta do que a apresentada pela equao bsica de
regresso. Muitos autores consideram como lineares todos os modelos onde a varivel resposta depende linearmente das variveis
preditoras, podendo os coecientes serem expresses no-lineares.
Assim a equao de regresso

Y = ln 0 + 12 X 1 +

(6.9)

considerada um modelo de regresso linear. J o modelo:

Y = 0 + 1 X 12 +

(6.10)

tipicamente no-linear. H tambm modelos que podem ser linearizados e tratados como tal. Apresentamos em seguida a determinao dos coecientes de regresso para um modelo de avaliao
de valor de venda de terrenos.
Exemplo
A varivel resposta y representa o valor por metro quadrado. As
variveis de entrada so respectivamente:

42

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

rea (m2)
Frente (m)
VO (valor bsico para clculo do IPTU)
Tipo (aproveitamento do terreno U-unifamiliar, M-multifamiliar,
C-comercial)
A amostra consistiu em 13 terrenos anunciados nas imediaes
do imvel a ser avaliado, os valores so os seguintes:
VO valor bsico do logradouro para clculo do IPTU em UNIF.
TIPO aproveitamento do terreno: U unifamiliar, M multifamiliar,
C comercial. Esta varivel foi codicada numericamente como 1,
2 e 3 respectivamente.
VU varivel criada dividindo-se valor por rea, d o valor unitrio
(R$/m2).
Sobre as variveis Tipo e VO foram aplicadas transformaes
respectivamente 1/Tipo e Ln(VO).
O modelo de regresso adotado no-linear porm redutvel a
um modelo linear por meio de uma transformao logartimica.

VU = exp{ 0 + 1 * Area + 2 * Frente + 3 (1/ Tipo) + 4 * Ln(VO) + }


(6.11)

Determinando os coecientes temos:


VU = exp{5, 25 8,84 E 04 * Area + 2,38 E 02 * Frente 1,93* (1/ Tipo) + 0, 42 * Ln(VO)+ }

O coeciente de determinao R2 foi igual a 0,96 e a estatstica F


igual a 54,29 rejeitando-se a hiptese nula.
Para um terreno no pertencente amostra com os seguintes
atributos:

Introduo Minerao de Dados

43

PERTENCE A NOME DO CLIENTE

rea = 742,25
VO = 133,1608
Frente = 17
Tipo = 2
O modelo deu um valor central igual 444,67/m2. O valor total
do terreno seria, portanto, da ordem de 330.000,00 em reais ou
183.772,34 dlares naquela ocasio. Posteriormente este terreno
foi negociado a 180.000 dlares.
ANLISE DE REGRESSO NO-LINEAR
Os modelos no lineares so muito menos utilizados do que os
lineares. Dois motivos contribuem para isto:
a) a soluo no encontrada a partir de uma expresso matemtica
explcita mas de um processo iterativo que converge em limite
para a soluo;
b) preciso selecionar o modelo antes da seleo de variveis e
difcil justicar esta seleo a no ser em relao a grandes
categorias de modelos no-lineares;
Podemos agrupar estas categorias em:
(a) modelos sem pontos de mximo ou mnimo mas cncavos ou
convexos;
(b) modelos sigmoidais;
(c) modelos com mximos e mnimos.

(a)

(b)

(c)

Figura 6.2. Regresso No-linear.

Para cada grande categoria temos famlias de modelos com um


nmero de parmetros que vai de um a cinco, mais do que isto

44

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

em um problema univariado leva a uma sobreparametrizao. Os


modelos no-lineares multivariados so ainda mais difceis de se
classicar. A determinao dos coecientes de regresso podem se
basear no critrio de mnimos quadrados (mais usual) ou no critrio
de mxima verossimilhana.

E (Y | X 1 , X 2 ,..., X r ) = F ( X 1 , X 2 ,... X r ; 0 , 1 ,... r )

(6.12)

Os mtodos para determinao dos coecientes geram seqncias de valores para os coecientes, no limite as seqncias tendem
a beta.

bi( k +1) = bi( k ) + i( k +1)


lim bi( k ) = i
k

(6.13)
(6.14)

H diferentes mtodos para ajuste no-linear, os mais comuns


so: mtodo do gradiente, de Gauss-Newton e de Levenberg-Marquadt entre outros. Os testes para regresso no-linear so muito
mais complexos e esta mais uma razo para que estes modelos
sejam menos utilizados.
Exemplo
Neste exemplo consideramos um modelo com duas variveis explicativas e quatro parmetros. A funo escolhida tem um ponto de
sela e as funes marginais so sigmoidais. Esta escolha se baseou
em anlise prvia dos dados que consistiram em 380 vetores observados (Y(k), X1(k), X2(k)).

Y = {[1 exp( 1 ( X 1 ) 2 )][exp( 3 ( X 2 ) 4 )]} +

(6.15)

Aceitamos os seguintes valores para B com base nos valores


do gradiente da funo objetivo da ordem de 10-7; do valor da
mediana dos erros igual a 0,0008067 e da mdia dos erros igual a
0,000246.
(b1, b2, b3, b4) = (1,41 0,79 0,24 1,18)

Introduo Minerao de Dados

45

PERTENCE A NOME DO CLIENTE

1
0,9
0,8
0,7
0,6

Y 0,5
0,4
0,3
0,2
S15

0,1
0
1

S8
4

X2

10

13

16

19

X1

S1

Figura 6.3. Superfcie de Regresso.

As tcnicas no lineares mencionadas so tambm teis para modelos baseados em redes neurais, como ser visto mais adiante.
REGRESSO LOGSTICA
O modelo de regresso logstica tem sido utilizado para a resoluo
de problemas de classicao supervisionada. Considere dois eventos mutuamente exclusivos A e A, ento P(A)/P(A) so as chances
em favor do evento A. No modelo de regresso logstica, assume-se
que o logaritmo das chances, logit, linearmente relacionado com
as variveis explicativas.
P( A)
P( A)
E log
=
E

log

= 0 + 1 X 1 + 2 X 2 + ... r X r +

P
(
A
')

P
(
A
)

(6.16)

A razo de chances entre dois grupos diferentes dada por:

P ( A | G1)
P ( A ' | G1)
=
P ( A | G 2)
P ( A ' | G 2)

(6.17)

No modelo, P(A) representa um parmetro, designado por p. Este


modelo foi introduzido por Joseph Berkson em 1944, que denominou a expresso log(p/(1-p)) de logit, desta maneira tornou possvel

46

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

a regresso de p sem a inconvenincia destes valores carem fora


do intervalo [0,1].

p=

1
1 + e ( 0 + 1 X1 +...+ r X r )

(6.18)

P
1

Figura 6.4. Regresso Logstica.

O grco ilustra uma situao onde se tem uma resposta armativa ou negativa para valores diferentes da varivel X. Por exemplo,
resposta promoo de um produto em funo da renda do cliente.
A resposta armativa codicada como 1 e a negativa como 0. Ajusta-se ento um modelo, que para novos clientes dar a probabilidade
de se aceitar a promoo.
Exemplo
Sexo\Compras

Sim

No

Total

Mulher

40

143

183

Homem

10

101

111

Total

50

244

294

Neste caso h apenas uma varivel explicativa sexo, a varivel


logstica exprime o logaritmo das chances em favor de comprar. Os
valores ajustados para os coecientes beta foram respectivamente
2,31 e 1,04. O ajuste feito via critrio de mnimos quadrados ou
mxima verossimilhana. Assim se o cliente for homem (X = 0) a
probabilidade de comprar ser igual a 0,09. Enquanto, se for mulher
(X = 1) este valor ser igual a 0,2.

Introduo Minerao de Dados

47

PERTENCE A NOME DO CLIENTE

Uma questo que sempre colocada na anlise de regresso a


da multicolinearidade. Entretanto para o uso preditivo da regresso a
multicolinearidade no um problema. O nico inconveniente seria
o tamanho dos desvios-padro dos erros de estimao, o que pode
ser minorado aumentando-se o tamanho da amostra, procedimento
usualmente possvel no caso da minerao de dados.
A regresso logstica est associada a outro mtodo que ser
apresentado anlise discriminante.
No Anexo IV apresentado em um estudo de caso utilizando
regresso logstica para classicao supervisionada em uma aplicao preveno de acidentes de trabalho.
Os casos de regresso linear e logstica podem ser vistos como
casos particulares de um modelo mais geral denominado modelo
linear generalizado que atribui diferentes funes de ligao (link
function) entre as variveis de entrada e as de sada. No caso linear
esta funo a funo identidade, no caso logstico a funo logit,
havendo ainda outras expresses cuja utilizao depende da distribuio assumida para as covariveis de entrada normal e binomial,
respectivamente, para os casos apresentados aqui. A regresso
logstica contempla variveis de sada, ou alvo, categricas, diferentemente dos mtodos de predio linear e no linear, ainda que a
predio seja expressa por meio do valor de uma probabilidade.
RVORES DE CLASSIFICAO
Um procedimento hierrquico para predizer a classe de um objeto
com base em suas variveis preditoras (o mtodo pode tambm ser
utilizado para denir classes). A varivel alvo obviamente categrica e o mtodo permite sua predio em funo dos nveis observados
das variveis preditoras, as quais tambm devem ser categricas,
Caso no sejam, necessrio codic-las convenientemente. Os
mtodos mais conhecidos so: CART (classication regression tree);
CHAID (Chi-Square Automatic Interaction Delection); e QUEST
(Quick, Unbiased, Efcient Statistical Trees). Vamos descrever o procedimento CART. As classes so conhecidas e est disponvel uma
amostra de treinamento. Por exemplo suponhamos uma agncia
bancria que classica seus clientes em top e standard baseado na
experincia do gerente e deseja-se extrair dessa classicao uma

48

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

regra para enquadrar novos clientes da agncia. Consideraremos a


seguinte amostra de treinamento:
Sexo

Renda Mensal

Idade

Categoria

Homem

5.000

50

Top

Mulher

1.000

30

Standard

Mulher

3.000

15

Standard

Homem

500

15

Standard

Homem

2.000

25

Top

Homem

1.900

20

Top

A primeira fase do mtodo consiste em construir uma rvore


denominada rvore mxima. Esta rvore construda com base em
limiares para as variveis preditoras, no caso: sexo, renda e idade. A
rvore expandida at que seus ns terminais satisfaam um dos
seguintes critrios:
a) pureza maioria de elementos da mesma categoria;
b) raridade nmero mnimo de elementos no n;
c) indenio os valores das variveis preditoras prximos ou
iguais.
Para a amostra acima, uma rvore mxima seria obtida para os
seguintes limiares:
Sexo: 1 (H=1 e M=0)
Renda: 2000
Idade: 18
3 Tops
1 Standards

3 Tops

1
2

3 Tops
3 Standards

3
5

2 Standards

1 Standards

Figura 6.5. rvore de Classicao.

Para cada varivel preditiva calculado o ndice de diversidade


(ou entropia) relativo amostra de treinamento. Este ndice comparado com o ndice global de diversidade, selecionando-se assim a
ordem de construo das camadas da rvore. Para o exemplo dado,
teramos, usando logaritmo na base 2:

Introduo Minerao de Dados

49

PERTENCE A NOME DO CLIENTE

I (categoria ) = 3 / 6log (3 / 6) 3 / 6log (3 / 6) = 1


I sexo
1 (categoria ) = 1/ 4log (1/ 4) 3 / 4log (3 / 4) = 1/ 4
I <sexo
1 (categoria ) = 0
Esexo ( I ) = 1/ 4 4 / 6 + 0 * 2 / 6 = 1/ 6
Ganho( sexo) = 1 1/ 6 = 5 / 6
I idade
18 (categoria ) = 2 / 2 * log (2 / 2) = 0
I >idade
18 (categoria ) = 3 / 4 * log (3 / 4) 1/ 4 * log (1/ 4) = 1/ 4
Eidade ( I ) = 0 * 2 / 6 + 1/ 4 * 4 / 6 = 1/ 6
Ganho(idade) = 1 1/ 6 = 5 / 6
I renda
2000 (categoria ) = 2 / 4 * log (2 / 4) 2 / 4 * log (2 / 4) = 1
I >renda
2000 (categoria ) = 1/ 2 * log (1/ 2) 1/ 2 * log (1/ 2) = 1
Ganho(renda ) = 1 1 = 0
Portanto as variveis sexo e idade devem ser as primeiras na
construo da rvore e a varivel renda (neste caso) desnecessria.
A etapa seguinte a de poda.
Seja T a borda da rvore i.e. {3, 4, 5}. Tenta-se ento melhorar a
rvore iniciando-se um processo de poda. A poda ser feita se ela
contribuir para a melhoria da classicao. Um ndice que mede
esta melhoria o ndice de Gini calculado para cada n, se r(t)=0
s h um tipo de cliente, caso contrrio h mais de um tipo. Este
ndice proposto por Conrado Gini (1884-1965) tambm um ndice
de diversidade:

r (t ) = 1 max{P(top | t ), P( standard | t )}
P(top )
P(top | t ) =
P(top )

50

ntop (t )
n(t )

(6.19)

ntop (t )
n(t )

+ P( standard )

nstandard (t )
n(t )

(6.20)

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

A frmula P(top) e P(standard) so as probabilidades a priori de


top e standard. J ntop (t) representa o nmero de tops no n t e n(t)
o nmero de elementos no n. No exemplo todos os ns da borda
tero r(t) = 0. Calcula-se ento R( T ) para toda a borda da rvore
que dado pela frmula:

R(T ) = r (t ) p (t )
t T

(6.21)

Aonde p(t) representa o peso do n, por exemplo, o nmero de




elementos do n. A poda ser feita se R( Ti +1 ) < R( Ti ) e assim por

diante at no se conseguir mais reduzir R( Ti ) para algum i, onde i
denota a iterao corrente. Este ndice minimiza o erro de classi
cao. No exemplo muito simples considerado R( Ti ) = 0, portanto
no h podas a fazer.
O mtodo tem ampla aceitao pela sua visualizao que ajuda o
usurio a compreender o processo de classicao. Ou seja dado um
novo cliente, determina-se a qual folha (n de borda ou terminal)
ele pertence e atribui-se a classe que maximiza a probabilidade
condicional da classe dado que est naquele n. No exemplo, como
a pureza dos ns terminais absoluta, o resultado bvio. Mas se
no fosse assim, seria necessrio calcular as probabilidades condicionais de cada classe dado t e ento escolher a classe que deu a
maior probabilidade condicional.
Para os dados seguintes construir uma rvore de classicao,
tendo como varivel alvo a opo de compra de um computador, e
como variveis explicativas, a faixa etria, a faixa de renda, o nvel
de escolaridade e a avaliao de crdito.

Introduo Minerao de Dados

51

PERTENCE A NOME DO CLIENTE

Usando o critrio da diversidade ou entropia, a primeira varivel


a entrar na rvore a idade, em seguida a escolaridade e nalmente
o crdito. A renda, neste caso, no foi necessria, pois a rvore cou
completa antes de sua introduo.

Figura 6.6. rvore de Classicao do exerccio.

REDES NEURAIS
As origens destas tcnicas remontam a 1943 com os trabalhos de
McCulloch e Pitts, mas somente em 1953, Nathaniel Rochester simulou a primeira rede neural.
So mtodos inspirados no funcionamento do crebro humano,
em particular na forma como os neurnios reagem e propagam
estmulos formando uma rede neuronal, ou neural. A capacidade
humana de reconhecer padres e identicar classes justicou o
desenvolvimento de uma metodologia geral para identicao de
padres (classicao supervisionada ou predio de classe). H trs
tipos bsicos de redes neurais: perceptron, funo de base radial e
mapas auto-organizveis.
Vamos descrever em particular uma rede perceptron com aprendizagem por retropropagao (backpropagation).

52

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Corpo

Dendritos

Axnio colaterais

Figura 6.7. Modelo de um neurnio.

A conectividade da rede especica como os neurnios esto


interligados entre si, para a arquitetura em camadas. A verso mais
simples composta de trs camadas: entrada, interna e sada. De
uma maneira geral, as redes podem ser classicadas quanto ao
paradigma, arquitetura, conectividade e aprendizado.
No esquema abaixo, visualizamos uma rede com um n de entrada
e um n de sada, na rede intermediria temos trs ns. Mas, em geral,
poderamos ter n ns de entrada, l ns intermedirios e m ns de
sada. A funo g denominada de funo de ativao. X1, X2,...,Xn
so as variveis regressoras e Y1,Y2,...Ym as preditas. A funo de propagao d o estmulo produzido para camada intermediria:
n

Pj = W ji X i + j
i =1

(6.22)

Por outro lado, a funo de sada da camada intermediria


dada por:

Aj = g j ( Pj )

(6.23)

aonde g j a funo de ativao do neurnio j, em geral uma funo


sigmoidal da forma

A( p ) =

1
(1 + e p )

(6.24)

Analogamente, para um n K da camada de sada a funo de


propagao dada por

Introduo Minerao de Dados

53

PERTENCE A NOME DO CLIENTE

Pk = Wkj Aj + k
j =1

(6.25)

e a funo de ativao por

Ak = g k ( Pk )

(6.26)

Para simplicar, no grco abaixo, consideramos apenas um


neurnio de entrada e um de sada.
x

Pj = W j x + j

Aj = g j ( Pj )

P = W j Aj +

y = A = g ( P)

j =1

Figura 6.8. Rede neural.

Na fase de treinamento, isto , para um conjunto conhecido de


valores de entrada e sada ajustam-se os pesos de forma que o erro seja
aceitvel. Seja k o erro do k-simo elemento de sada, o erro total

1 m 2
Ep = k
2 k =1

(6.27)

deve ento ser reduzido a cada iterao. Isto conseguido atualizando-se os pesos tanto da camada intermediria como da camada
de sada. As frmulas seguintes do as regras de atualizao respectivas (camadas de sada e intermediria), baseadas no mtodo
do gradiente para minimizar o erro quadrtico mdio. O mtodo
do gradiente um mtodo de otimizao que busca o mnimo de
uma funo percorrendo o seu domnio na direo oposta ao seu
gradiente.
(6.28)
(6.29)

54

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

uma constante de acelerao que deve car entre 0 e 1; g a


derivada da funo de ativao.
Aprendizado por Retropropagao de erros
1 Aplicar o vetor X em todos os elementos da camada de entrada
2 Calcular os valores de propagao da camada intermediria
3 Calcular os valores de sada da camada intermediria
4 Calcular os valores de propagao da camada de sada
5 Calcular as respectivas sadas
6 Calcular os erros para cada elemento de sada
7 Calcular os erros para cada elemento intermedirio
8 Atualizar os pesos da camada de sada
9 Atualizar os pesos da camada intermediria
10 Calcular o erro total
11 Se o erro for aceitvel, encerrar. Caso contrrio, passar para outro
conjunto de treinamento retornando ao passo 1.
A m de ilustrar a aplicao do mtodo apresentado, considere
o seguinte exemplo de rede:
1

4
6

5
3
X1, X2, X3 so as variveis de entrada e Y a varivel de resposta.
Wij, i = 1, 2, 3 e j = 4, 5 so os ponderadores de propagao para a
camada intermediria.
Wij, i = 4, 5 e j = 6 so os ponderadores multiplicativos de propagao
para a camada de sada.
Ti, i = 4, 5, 6 so ponderadores aditivos de propagao para as camadas intermediria e de sada.
Oi, i = 1, 2, 3, 4, 5, 6 so os ns da rede.

Vamos supor, para ns de inicializao, que os seguintes valores


tenham sido assumidos pelas variveis e ponderadores:

Introduo Minerao de Dados

55

PERTENCE A NOME DO CLIENTE

X1

X2

X3

W14

W15

W24

W25

0,2

-0,3

0,4

0,1

W34

W35

W46

W56

-0,5

0,2

-0,3

-0,2

-0,4

0,2

0,1

Com base nesta tabela podemos calcular os valores que chegam


nos ns 4 e 5, aps a entrada dos valores 1, 0 e 1 nos ns 1, 2 e 3:
P4:X1*W14+X2*W24+X3*W34+4=1*0,2+0*0,4+1*(-0,5)+(-0,4)= 0,7
P5:X1*W15+X2*W25+X3*W35+5=1*(-0,3)+0*(0,1)+1*0,2= 0,1

Aps a aplicao da funo de ativao g(x) = 1/ (1+exp(-x)) a


cada n, obtemos os valores de sada respectivos:
A4 = g(P4)=1/(1+exp(0,7)) = 0,332
A5 = g(P5)=1/(1+exp(-0,1)) = 0,525

Calculamos agora os valores propagados da camada intermediria para a camada de sada que s tem o n 6:
P6: A4*W46+A5*W56+6=0,332*(-0,3)+0,525*(-0,2)+0,1= 0,105
A6 = g(P6) = 1/(1+exp(0,105)) = 0,474

Clculo do erro:
Comparando-se com o valor observado que 1, tem-se que o
erro = (1-0,474)
Vamos agora recalcular os ponderadores para as camadas de
sada a partir do erro e da derivada da funo de ativao (mtodo
do gradiente), vai-se utilizar uma constante de acelerao = 0,9:
W46(t+1)=W46(t) + **g(P6)*A4= 0,3+0,9*0,526*0,249*0,332=
0,261
W56(t+1)= W56(t) + **g(P6)*A5= 0,138

Aplicando-se agora a frmula (6.29) obtm-se a atualizao dos


demais ponderadores. O usurio pode estabelecer diversos critrios de
parada, tais como tolerncia de erro, nmero de tempos, ndice de acertos. No exemplo, a seguir, descrevemos uma aplicao do mtodo.
Uma rede neural constituda por um nico neurnio denominada de perceptron de camada nica e equivalente regresso
logstica univariada. Aps a fase de treinamento, a rede est pronta
para predizer a categoria de um novo vetor X. No livro de S. Haykin,
sobre Redes Neurais, listado na bibliograa, encontra-se uma ampla
exposio sobre esta teoria.

56

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Exemplo
A metodologia citada foi utilizada para reconhecimento de letras latinas
e algarismos arbicos com inclinaes mltiplas. Para cada caracter
foram geradas 13 imagens com inclinaes mltiplas de 15 graus variando de 90 a 90 graus, mais detalhes podem ser encontradas na tese
de Varella L. E. citada na Bibliograa. A tabela abaixo d o percentual
de reconhecimento versus o nmero de camadas intermedirias.
Camadas

% Reconh.

Camadas

% Reconh.

Camadas

% Reconh.

10

2,56

108

61,53

216

71,79

16

2,56

120

66,66

230

82,05

32

10,25

130

79,48

260

87,17

40

7,69

140

71,79

280

84,61

56

25,64

150

74,35

300

79,48

68

30,76

170

79,48

80

51,28

186

71,79

92

48,71

200

82,05

Tambm foram feitos testes em separado para cada letra e algarismo, obtendo-se:

Introduo Minerao de Dados

57

PERTENCE A NOME DO CLIENTE

*Ac. Reconhecimento positivo (conrma que ).


Rej. Reconhecimento negativo (conrma que no ).
Obs.: As camadas foram sendo acrescentadas at que pelo menos um dos percentuais casse acima de 90%. Fonte: Varella L. E.
(1992).

No anexo IV apresentado um estudo de caso que utiliza redes


neurais para classicao supervisionada em aplicaes a doadores
potenciais de uma organizao no-governamental.
ANLISE DISCRIMINANTE
Anlise discriminante linear uma tcnica estatstica para a classicao de elementos em grupos previamente estabelecidos. A anlise se
baseia em combinaes lineares das variveis independentes que do
uma espcie de score do objeto observado, obtendo-se em seguida
uma probabilidade daquele objeto pertencer a um dos grupos.
X2
A
B
XXX
XXXXXXX
++++++++
X XXXXX
++++++++
XXXXXX+++++++
XXX
XXXXXX++++++
XXXX
++++

A
X1
B

Funo discriminante Y

Figura 6.9. Funo discriminante.

58

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Duas condies precisam ser observadas: as variveis independentes devem ter uma distribuio multinormal e a matriz de varincias-covarincias das variveis independentes devem ser iguais
em cada grupo. A analogia com a anlise de regresso apenas
supercial. Na anlise de regresso a meta predizer o valor mdio
da varivel dependente, enquanto que na anlise discriminante o
objetivo determinar uma combinao linear das variveis independentes de tal forma que a probabilidade de classicar erroneamente o elemento seja mnima. O modelo de regresso busca gerar
coecientes que tenham determinadas propriedades estatsticas, a
anlise discriminante, por outro lado, busca classicar elementos
em grupos. Para o caso de dois grupos, a obteno dos coecientes
seria dada pelas seguintes frmulas, aonde os vetores so colunas
e seus transpostos linhas:
Vetores de observaes dos dois grupos,cujas componentes so
as mdias amostrais de cada atributo dentro do grupo i:

xi ' = ( xi1 , xi 2 ,..., xip ) i = 1, 2

(6.30)

Matriz conjunta dos dois grupos:

S=

1
( x1 x1' + x2 x2' )
n1 + n2 - 2

(6.31)

Coecientes da funo discriminante:

b = S 1 ( x1 x2 )

(6.32)

Exemplo
Considere dois grupos G1 e G2 e dois vetores observados em cada
um deles
X\GRUPO

x1
x2
x3

G1

G2

1,96

1,29

1,27

1,79

0,65

0,38

Introduo Minerao de Dados

59

PERTENCE A NOME DO CLIENTE

A matriz S :
0,13
-0,052
-0,0037

-0,052
0,12
-0,0021

-0,0037
-0,0021
0,3211

E os coecientes da funo discriminante so:

b ' = S 1 ( x1 x2 ) = [2, 042 1,19 0, 41]


Y = 2, 042 X 1 1,19 X 2 + 0, 41X 3
Valores maiores de Y esto associados ao grupo 1, alis y1 = 2, 77
e y2 = 0, 67 . Uma regra de classicao dada por:

| b '( x x1 ) | | b '( x x2 ) | x G1
| b '( x x2 ) | | b '( x x1 ) | x G2

(6.33)

No exemplo o vetor [1,1,1] pertence ao grupo 2 porque est mais


prximo via funo discriminante do grupo 2 do que do grupo 1:

| b '( x x2 ) |= 0,19 <| b '( x x1 ) |= 1, 49


Estas idias podem ser generalizadas para K grupos, a obteno
de b dada por:

(W 1 B I )b = 0
aonde
W = W1 + W2 + ... + Wk
(6.34)

ni

Wi = ( xij xi )( xij xi ) '


j =1

ni

T = ( xij x )( xij x ) ' n = ni


i =1 j =1

B = T W
b ' Bb

=
b 'Wb
60

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Neste caso so geradas no mximo k-1 funes discriminantes,


seu poder discriminatrio dado pelo ndice descritivo de importncia relativa:

i
j

(6.35)

Podendo-se utilizar a mesma desigualdade apresentada para


dois grupos agora generalizada para k grupos isto :

| b '( x xi ) | | b '( x x j ) | j i

j = 1,..., k 1

(6.36)

para classicar um vetor x.


O mtodo de anlise discriminante pode ser relacionado ao
mtodo de regresso logstica. A probabilidade de um elemento,
descrito pelo vetor de atributos x, pertencer a um grupo dada pela
equao de regresso logstica. Os mtodos de anlise discriminante
que foram apresentados so lineares. Existem tambm as funes
discriminantes no lineares, como a quadrtica. Entretanto, neste
caso, os coecientes da funo discriminante so calculados implicitamente, o que prejudica interpretaes dos resultados alcanados.
No livro de Malhotra,N.K. sobre pesquisa de marketing, citado na
bibliograa o leitor poder saber mais sobre esta tcnica.
ANLISE DE SIMILARIDADE E DE CONGLOMERADOS
Todos os mtodos apresentados previamente foram mtodos de
predio ou de classicao supervisionada mtodos preditivos
no jargo da minerao de dados. A anlise de similaridade e de
conglomerados pertencem a outra categoria a dos mtodos de
classicao no supervisionada mtodos descritivos no jargo
da minerao de dados. Nesse problema no se sabe quais so os
grupos, nem mesmo quantos so.
a) Medidas de Similaridade permitem comparar n elementos
diferentes a partir de p atributos observados. Estas medidas
agrupam-se em duas grandes categorias:
Medidas baseadas na distncia utilizadas quando os atributos
so quantitativos.

Introduo Minerao de Dados

61

PERTENCE A NOME DO CLIENTE

Embora o termo distncia possa ser identicado com o comprimento do vetor entre dois pontos no espao, a denio de distncia
vai muito alm disto, permitindo uma innidade de frmulas. Basta
que sejam satisfeitas as seguintes propriedades:

d ( X ,Y ) 0

Positividade

d ( X , Y ) = d (Y , X )

Simetria
Desigualdade triangular

d ( X , Y ) + d (Y , Z ) d ( X , Z )

Uma famlia vlida de distncias, aonde os duplos sub-ndices


representam respectivamente a k-sima coordenada dos vetores Xi
e Xj, da forma:
1/ r

dij = | X ik Xjk |r
k =1

(6.37)

Quando r=2 obtemos a usual distncia euclideana, j para r=1,


obtemos a distncia do mdulo (ou mtrica do quarteiro). Um
problema da mtrica euclideana a sua dependncia em relao
mudana de escalas. Por exemplo se tivermos os atributos peso e
altura medidos para trs pessoas A, B e C inicialmente em libras e
ps e, depois em libras e polegadas, as distncias relativas entre as
pessoas apresentaro ordenaes diferentes, como se depreende
do que se segue:
Pessoa

Peso(libras)

Altura(ps)

Altura(polegadas)

160

5,5

66

163

6,2

74,4

165

6,0

72

No caso das alturas medidas em ps temos:


dBC=2,01 < dAB= 3,08 < dAC= 5,02

J para polegadas as distncias se alteram


dBC= 3,12 < dAC = 7,81 < dAB = 8,92

62

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Uma outra medida de similaridade o coeciente de correlao,


porm, na presena de multicolinearidade os resultados podem ser
de pouca utilidade, por exemplo:
Pessoa\Atributos

X1

X2

X3

X4

10

RAB=1 porque B=3*A + 1 e RAC=0,82, no entanto, bvio que A e C


so quase idnticos. Este problema pode comprometer, inclusive,
mtodos j vistos como a regresso linear, se no fsse a propriedade
de Mahalanobis que permite calcular um tipo de distncia que leva
em conta a correlao entre as variveis:

d Mahalanobis = ( X i X j ) ' S 1 ( X i X j )

(6.38)

No exemplo acima ao calcular S-1 necessariamente algum atributo teria de ser descartado, no caso X3 ou X4.
Medidas baseadas na coincidncia utilizadas quando os atributos so qualitativos. Embora, a princpio, qualquer varivel
quantitativa possa ser codicada simbolicamente e tornar-se
qualitativa. Por exemplo atravs de um valor limiar pode-se dizer
que um objeto ou elemento tem ou no determinada caracterstica. Aps esta codicao, constroem-se estatsticas tais como:
(1-1) os dois objetos tm o mesmo atributo
(1-0) um dos objetos tem o atributo e o outro no
(0-1) vice-versa
(0-0) os dois objetos no tm o atributo
Exemplo
Casado 1
empresrio 1 casa prpria 1
Solteiro 0
empregado 0 casa alugada 0
Cliente 1: (casado, empregado, casa prpria) 101
Cliente 2: (casado, empresrio, casa alugada) 110

Introduo Minerao de Dados

63

PERTENCE A NOME DO CLIENTE

Cliente 1 /Cliente 2
1
0

1
1
1

0
1
0

Com base nas freqncias observadas nas clulas podem ser


construdos vrios ndices:
Coincidncia simples:

O11 + O22
= 1/ 3
O11 + O12 + O21 + O22

(6.39)

Sokal e Sneath:

2(O11 + O22 )
= 2/5
2(O12 + O21 ) + O11 + O22

(6.40)

Russell e Rao:

O11
= 1/ 3
O11 + O12 + O21 + O22

(6.41)

Os ndices se diferenciam pela importncia do tipo de coincidncia, alguns priorizando a presena do atributo, outros a ausncia,
ou ambas as coincidncias.
b) Anlise de Agrupamento Uma vez selecionada a medida de similaridade preciso estabelecer como os grupos sero formados. Duas
grandes classes de mtodos podem ser consideradas: mtodos hierrquicos e mtodos de particionamento. Os mtodos hierrquicos
promovem uma seqncia de fuses (aglomerativos) ou divises. Os
mtodos aglomerativos iniciam com n agrupamentos aonde n o
nmero de elementos. Dois agrupamentos que estejam prximos
o suciente so fundidos reduzindo o nmero de agrupamentos
para n-1. O procedimento continua at julgar-se que o nmero
de grupos atende aos objetivos da anlise. Existem trs critrios
mais comuns de proximidade: ligao simples (ou distncia
mnima); ligao completa (ou distncia mxima) e associao
mdia.

64

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Ligao simples

Ligao completa

Mdia do grupo

Figura 6.10. Anlise de agrupamento.

Exemplo
Considere cinco elementos cujas distncias estejam representadas
na matriz

A
B

C
D

A B C D E

0 1 5 6 8
1 0 3 8 7

5 3 0 4 6
6 8 4 0 2

8 7 6 2 0

A menor distncia entre A e B (pelo critrio da ligao simples).


O primeiro agrupamento seria ento constitudo pelo grupo AB.
Refazendo a matriz de distncias, obteramos:

AB
C

D
E

AB C
0 3
3
6
7

0
4
6

D E
6 7
4
0
2

6
2
0

A menor distncia agora entre D e E o que leva a um novo


agrupamento DE:

Introduo Minerao de Dados

65

PERTENCE A NOME DO CLIENTE

AB C DE

AB
0
3
6

C
3 0 4

DE
6
4
0

O processo continuaria at que todos os pontos estariam fundidos em um s grupo. Uma representao destas etapas pode ser
feita pelo dendograma:
5
4
3
2
1

Figura 6.11. Dendograma.

As tcnicas de particionamento, por outro lado, supem que


o nmero de grupos conhecido, buscando-se por algum critrio
particionar o conjunto de pontos de tal forma que a subdiviso
em k grupos seja tima segundo algum critrio. Um dos mtodos
mais conhecidos desta categoria o agrupamento baseado nas
k mdias. Inicialmente so selecionados k elementos, a cada um
deles so associados os elementos mais prximos, formando-se k
grupos. Para cada um destes grupos calculado o centride, cujas
coordenadas so as mdias de cada atributo ou varivel dentro do
grupo. Repete-se para cada centride o processo de determinao
dos elementos mais prximos, gerando-se novamente k grupos.
Calculam-se os centrides para estes grupos e assim por diante at
que os grupos se estabilizem. As principais denies do mtodo
esto sumarizadas a seguir:
P(n, K): partio dos n elementos em K grupos

X (l , j ) : mdia da varivel j no l-simo cluster, j=1,2,...,p


X(i, j): valor da varivel j para o i-simo elemento

66

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

D(i, l ) = ( [ X (i, j ) X (l , j )]2 )1/ 2


j =1

: distncia do elemento i

ao cluster l
k

E[ P(n, K )] = D[i, l j ]
j =1 i =1

(6.42)

soma das distncias de cada elemento i a cada cluster


Os k grupos so escolhidos de modo que E[P(n,K)] seja mnimo,
garantindo que os grupos no sejam nem muito grandes nem muito
pequenos. Evidentemente, dependendo do conjunto de dados os
resultados podem no ser satisfatrios, fazendo-se necessria a
utilizao de outros critrios alm da distncia. O mtodo funciona
bem para conjuntos convexos cujos sub-grupos iniciais sejam de
tamanhos semelhantes. No livro de Han e Kamber, j citado anteriormente, pode-se encontrar outros mtodos para agrupamento.

X2

X2

X2

??
X1
(a)

X1
(b)

X1
(c)

Figura 6.12. Mtodo das K-mdias.


(a) cinco observaes de dois atributos; (b) clculo da
distncia a cada centride; (c) alocao a um dos grupos

Exemplo
Considere um conjunto de cinco objetos dos quais dois atributos
foram observados com os valores seguintes: A(0,0); B(1,0); C(1,1);
D(5,1) e E(8,0). Queremos classificar estes elementos em dois
grupos. O critrio de proximidade que ser utilizado a distncia
euclideana.
Inicialmente sero arbitrados dois objetos como denidores dos
grupos 1 e 2, a saber, respectivamente os objetos D e E, designados
como M1 e M2. Aps calcular as distncias entre estes pontos e
Introduo Minerao de Dados

67

PERTENCE A NOME DO CLIENTE

os demais, associamos a cada grupo os objetos mais prximos de


objeto referncia.
D(A,M1)=5,1

D(B,M1)= 4,12

D(C,M1)=4

D(D,M1)=0

D(A,M2)=8

D(B,M2)= 7

D(C,M2)=7,07

D(E,M2)=0

Com base nesta iterao os grupos cam:


G1: D,A,B,C

G2:E

Calculam-se agora os centrides de cada grupo que passam a


ser os novos objetos de referncia:
M1=(1,75 0,5)

M2=(8,0)

Recalculam-se as distncias de todos os objetos aos novos centrides:


D(A,M1) =1,82

D(B,M1)=0,9

D(C,M1)=0,9

D(D,M1)=3,29

D(A,M2)=8

D(B,M2)=7

D(C,M2)=7,07

D(D,M2)=3,16

Com base nesta iterao os grupos cam


G1:A,B,C

G2:E,D

Calculam-se agora os centrides de cada grupo que passam a


ser os novos objetos de referncia:
M1=(0,66 0,33)

M2=(6,5 0,5)

Recalculam-se as distncias de todos os objetos aos novos centrides:


D(A,M1)=0,74
D(E,M1)=7,34

D(B,M1)=0,47

D(C,M1)=0,74

D(D,M1)=4,38

D(A,M2)=6,52
D(E,M2)=1,58

D(B,M2)=5,52

D(C,M2)=1,58

D(D,M2)=3,16

Com base nesta iterao os grupos continuam os mesmos da


iterao anterior:
G1:A,B,C

G2:E,D

Aceita-se ento esta classicao como a melhor para o conjunto de objetos. Outro critrio de parada o clculo da soma das
distncias aos centrides de cada cluster E[P(n,k)]. Na primeira

68

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

iterao este valor 59, na Segunda iterao cai para 15,02 e ao nal
para 6,31. No Anexo IV h um estudo de caso sobre categorizao
de clientes em uma instituio nanceira que faz uso do mtodo
das k-mdias.
ANLISE DE AFINIDADE
Busca relaes entre elementos em um conjunto de dados. Basicamente h trs classes de critrios que so levados em conta: tipos
de valores (binrio, categrico, quantitativo); dimensionalidade
(quantidade versus idade) e nvel de abstrao (biscoito, leite ou
produtos matinais). A intensidade da associao pode ser expressa
pelos seguintes ndices:
suporte: proporo de vezes em que a relao ocorre
conana: proporo de vezes em que dado que um evento
ocorre, ento outro evento ocorre
alavancagem: fator que d a intensidade de anidade de um
evento B com outro evento A
Exemplo
suporte: 75% dos clientes em um supermercado consomem leite e
po (tipo booleano, bi-dimensional,mesmo nvel de abstrao)
conana: 80% dos clientes que consomem leite consomem po
(idem)
conana: 75% dos clientes que consomem po consomem leite
(idem)
alavancagem: um cliente que consome leite consumir po com
um fator igual a cinco (idem)
alavancagem: um cliente que consome po consumir leite com
um fator igual a dois (idem)
Quando se observa a ordem em que os eventos ocorreram
pode-se observar padres de compra. Isto muitas vezes determina
como os produtos, por exemplo, em um supermercado devem estar
dispostos em funo do percurso mais provvel do cliente. Isto
tambm considerado em sites de compra na Internet. Em funo
dos hbitos de navegao, pode-se dispor as diferentes janelas de
modo a favorecer uma seqncia de compras.

Introduo Minerao de Dados

69

PERTENCE A NOME DO CLIENTE

Pginas Secundrias

Pgina Principal
HOME PAGE
News
Downloads
Classifieds
$50

SITE
AAA
News
Downloads
Classifieds

Acessos

Figura 6.13. Caminhos em sites.

As medidas de suporte, alavancagem e conana tambm podem ser calculados, por exemplo, a tabela abaixo d o nmero de
visitantes para as pginas mais requisitadas de um site durante um
perodo determinado.
Pginas mais requisitadas

Visitas

% do total

http://www.rocknet.com.br/index.html

11.472

49,74

2 http://www.rocknet.com.br/conectar.html

2.694

11,68

http://www.rocknet.com.br/news.html

1.533

6,64

4 http://www.rocknet.com.br/como.html

1.477

6,40

974

4,22

18.150

78,69

http://www.rocknet.com.br/clube.html
total

Fonte: Construo de Websites Comerciais, Andr Valle, FGV-EPGE.


Caminhos mais percorridos

% do total

http://www.rocknet.com.br/index.html

http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/conectar.html

8,17

http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/news.html

5,87

http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/como.html

1,10

http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/como.html
http://www.rocknet.com.br/instalando.html

0,88

total

49,02

65,06

Fonte: Construo de Websites comerciais, Andr Valle, FGV-EPGE.

70

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Para se calcular os ndices de suporte, conana ou alavancagem


necessrio fazer uma varredura sobre os dados disponveis, ilustraremos a seguir como isto feito, para isto considere a amostra
seguinte, aonde temos as listas de compras de nove clientes:
1

Po,ovo,leite

Ovo,ch

Ovo,caf

Po,ovo,ch

Po,caf

Ovo,caf

Po,caf

Po,ovo,caf,leite

Po,ovo,caf

A m de no construirmos muitas listas, vamos arbitrar um


suporte mnimo igual a 2, ou seja, produtos que tenham sido comprados por menos de 2 clientes, no sero considerados.
Contagem (C1)

Seleo (L1)

Po

Po

Ovo

Ovo

Caf

Caf

Ch

Ch

Leite

Leite

Passando para dimensionalidade 2, vamos listar e selecionar


pares de produtos.
Contagem (C2)

Seleo (L2)

Po, ovo

Po, caf

Po, ch

Po, leite

Ovo, caf

Ovo, ch

Ovo, leite

Caf, ch

Caf, leite

Ch, leite

Passando para dimensionalidade 3, vamos listar e selecionar


trios de produtos. Apresentaremos somente L3.

Introduo Minerao de Dados

71

PERTENCE A NOME DO CLIENTE

Seleo (L3)
Po,ovo,caf

Po,ovo,leite

E, finalmente para dimensionalidade 4, no h quadruplas


selecionadas porque no atendem o suporte mnimo. De posse
destas tabelas podemos caluclar os ndices desejados. Por exemplo,
o suporte de {po,caf} igual a 4/9, j a conana de que compre
{caf} dado que compra {po} igual a 4/6. As associaes podem
combinar mais de dois itens, assim poder-se determinar a conana
de que compre {caf,leite} dado que compra {ovo,po}, neste caso
o valor seria 1/4.
No Anexo IV apresentado um estudo de caso sobre anlise de
anidade em um site de notcias.
Mtodos para cada Categoria de Problema
Predio variveis quantitativas entrada/sada: regresso linear,
regresso no linear.
Predio varivel quantitativa entrada, qualitativa sada (classicao supervisionada): regresso logstica, anlise discriminante, rvore de classicao, redes neurais.
Classicao no supervisionada varivel quantitativa/qualitativa entrada, qualitativa sada: anlise de agrupamento.
Associao anlise de anidade.
Considerando os mtodos apresentados neste captulo, escolha
um ou mais para resolver o problema proposto ao nal do captulo
A construo de modelos no processo KDD/DM.

72

Mtodos para Modelagem

PERTENCE A NOME DO CLIENTE

Plano de Prototipagem

PROBLEMA >...> SELEO DO MTODO > PLANO DE


PROTOTIPAGEM, PROTOTIPAGEM E DESENVOLVIMENTO
DO MODELO
Um projeto de minerao de dados produz dois tipos de modelo: os
preditivos e os descritivos. Um modelo uma representao formal
de um sistema. Estas descries podem se apresentar de diferentes
formas analtica, verbal, grca, matemtica etc. O objetivo do
modelo descrever as relaes entre as entradas e sadas do sistema.
Entradas podem ser entendidas como condies correntes e sadas
como predies ou consultas. De uma forma geral, um modelo descritivo prov informao sobre o estado atual do sistema, e um modelo
preditivo sobre estados futuros do sistema. A palavra futuro deve ser
entendida em senso amplo, isto , no necessariamente numa escala
temporal. Por exemplo, uma predio pode representar a receita no
prximo ano, mas tambm a pontuao de um cliente potencial. As
nalidades de um modelo em minerao de dados, em geral, incidem
em uma das seguintes classes: suporte a descoberta de relacionamentos, deciso, predio e melhoria de processos. A sistemtica como
se chega a um modelo segue o mtodo cientco: dados hipteses
testes sobre as hipteses. Hiptese uma armao ou proposio
no comprovada a respeito de um sistema. Modelos so consolidados
a partir do exame das hipteses que os constituem.
Plano de Prototipagem, portanto, a etapa de desenvolvimento
das hipteses de trabalho para a anlise, baseada nas metas denidas pela empresa e da construo de um plano para test-las
(seleo de ferramentas, formulao dos experimentos, cronologia,
metodologia etc.).

Introduo Minerao de Dados

73

PERTENCE A NOME DO CLIENTE

Por exemplo, suponha que o problema seja estabelecer um critrio que dena para quais clientes enviar material promocional.
Estabelecer a hiptese de que para limiares inferiores de freqncia (f), recncia (r) e valor monetrio (v) de cada cliente o retorno
esperado no recomenda a remessa de material promocional.
Propor um plano que determine o uso de trs diferentes tcnicas
de classicao supervisionada (dois grupos recebe o material e o
que no recebe): regresso logstica, anlise discriminante e rvore de
deciso para comparar os resultados e conrmar ou no a hiptese.
A hiptese seria negada caso se encontrassem nmero signicativo
de clientes que aps receberem a oferta de promoo passassem a
dar um retorno expressivo para a empresa mesmo tendo as variveis
f, r e v a nveis baixos.
Execuo do plano, a etapa mais identicada (erradamente)
como sendo o trabalho em minerao de dados. Nesta etapa os
dados de treinamento so utilizados mas, nunca os dados de validao. Diferentemente de outros processos de desenvolvimento de
modelos, o analista de minerao de dados no deve acreditar que
o primeiro modelo o denitivo. A prototipagem em minerao de
dados segue um paradigma denominado em espiral, em oposio
ao paradigma seqencial ou em cascata. Isto signica que os passos na prototipagem podem ser rearranjados, ajustados quanto ao
seu alcance e repetidos quantas vezes forem necessrios. Portanto,
vrios modelos podem ser construdos at se chegar a um ou mais
modelos satisfatrios. Em minerao de dados constroem-se incrementalmente modelos mais robustos.
A modelagem matemtica, necessariamente, passa por trs etapas:
a) Formulao do modelo (especicao)
b) Ajuste do modelo (estimao)
c) Checagem do modelo (validao)
O item c) ser objeto do prximo captulo. Em relao aos itens
a) e b) importante lembrar que existem muitas teorias e mtodos
para b) mas relativamente muito pouco sobre a). A escolha do modelo se faz com base na tradio da rea de aplicao ou em funo
de alguma inovao baseada em motivao heurstica. Entretanto,
a amostra que serviu de base deciso de escolher um determinado modelo no deve ser a mesma que servir para a estimao
74

Plano de Prototipagem

PERTENCE A NOME DO CLIENTE

do modelo, e a validao dever ainda ser feita sobre uma terceira


amostra diferente das duas anteriores. Preferencialmente, estas
trs amostras devem ser obtidas de uma considerada partio da
populao, ao invs de serem obtidas de toda a populao. Para
exemplicar o que acabou de ser armado, considere o problema
de estimativa da mdia de uma populao. A amostra que serviu
para avaliar a eventual aderncia da populao a uma distribuio
normal, no deve ser a mesma amostra utilizada para calcular a
estimativa desta mdia.
De uma maneira geral deve-se admitir a possibilidade da incerteza do modelo e fazer dedues com base em vrias alternativas
plausveis, ou escolhendo um procedimento que no force uma
forma particular de modelo sobre os dados.
A questo crtica a generalizao do modelo, um modelo muito
complexo pode se ajustar bem aos dados de treinamento e, no entanto, no ter um bom desempenho para outros dados. Por outro
lado, modelos muito simples podem no prever adequadamente o
comportamento da varivel alvo (target).
No caso de modelos preditivos, vimos que os mtodos permitem
avaliar as estimativas dos parmetros, alm destas avaliaes podese avaliar o modelo como um todo. Assim, alm das estatsticas R2
e F j apresentadas no captulo Mtodos para Modelagem, iremos
considerar trs estatsticas para o caso de ajuste quadrtico:
Erro mdio quadrtico

SQE
n p

(7.1)

Erro de predio de Akaike

SQE (n + p )
n( n p )

(7.2)

Critrio de Bayes
SBC =

n ln( SQE / n) + p ln (n)

(7.3)

Onde n representa o nmero de observaes, SQE a soma dos


quadrados dos erros e p o nmero de parmetros.
Outro critrio para avaliar o ajuste de modelos o de mxima
verossimilhana de . Baseado na funo de verossimilhana exIntroduo Minerao de Dados

75

PERTENCE A NOME DO CLIENTE

pressa o quanto o modelo ajusta os dados, pois, contm todas as


informaes do experimento. Para uma amostra de tamanho n de
2
uma populao normal com varincia a funo de verossimilhana :
n

1
1
l ( ) =
ex
p
2

2
2
2

2
(
)
X

i
i =1

(7.4)

usual representar a funo calculando-se o logaritmo:

n
1 n

2
log l ( ) = log (2 ) 2 ( X i X ) 2 + n( X ) 2
2
2 i =1

(7.5)

Alm dos critrios clssico e de mxima verossimilhana, h


tambm o enfoque bayesiano. Neste caso mostra-se facilmente que a
melhor estimativa para a mdia da populao a mdia da amostra.
Evidentemente, para parmetros de modelos mais complexos, no
to fcil determinar a melhor estimativa por este critrio. Por outro
lado, devido aos avanos nos mtodos computacionais, pode-se
encontrar solues aproximadas.
No enfoque bayesiano o parmetro tem uma distribuio que
dever ser determinada de modo a maximizar a probabilidade a
posteriori condicional aos dados. Diferentemente dos mtodos
clssicos que estimam um valor para o parmetro e o erro associado (intervalo de conana), os mtodos bayesianos incorporam a
incerteza sobre o valor do parmetro a uma distribuio a priori
que depois atualizada com a informao disponvel, obtendo-se
uma distribuio a posteriori que permite construir intervalos de
credibilidade para o parmetro desejado. No artigo de D. V. Lindley,
sobre a losoa da estatstica, citado na bibliograa, encontra-se
uma interessante discusso sobre os mtodos bayesianos.
Conclumos, recomendando que o plano de prototipagem envolva mais de um conjunto de dados sempre que possvel, e que se
ajuste mais de um modelo. O artigo de C. Chateld, sobre modelagem em minerao de dados, d o estado da arte sobre preparao
e anlise de dados.

76

Plano de Prototipagem

PERTENCE A NOME DO CLIENTE

Estabelea um plano de prototipagem/desenvolvimento do


modelo para o seu projeto. Especique quais mtodos sero utilizados, quais variaes dos parmetros do modelo sero testadas.
Descreva os resultados.

Introduo Minerao de Dados

77

PERTENCE A NOME DO CLIENTE

Validao do Modelo

PROBLEMA > ... > PROTTIPO > VALIDAO


A validao deve ser entendida aqui como a etapa em que a efetividade do modelo ser posta prova. As seguintes questes podem
ser levantadas:
I. O que deu errado?
II. Por que deu errado?
III. Como validar?
I. Basicamente considera-se que um modelo de minerao de
dados falhou quando um dos dois eventos ocorre:
No identica padres relevantes que realmente esto presentes
nos dados e poderiam ser generalizados.
Identica padres que no generalizam, no so relevantes ou
no esto presentes nos dados.
Obviamente, uma etapa crtica do processo, porm, no necessariamente denitiva, pois, a rejeio de um modelo pode ser
uma importante etapa no processo de descoberta do conhecimento.
Fazendo-se necessrio refazer etapas anteriores.
II. Se um modelo no validado a razo poder ser encontrada nos
dados; num ajuste inadequado ou ainda em algum problema com
a seleo das tcnicas.
Problemas tpicos com os dados: arredondamento inadequado; codicao simblica ou numrica imprpria; dados faltantes;
dados replicados (por exemplo, o mesmo cliente contado mais de
uma vez).

Introduo Minerao de Dados

79

PERTENCE A NOME DO CLIENTE

Problemas tpicos com o ajuste: extrao de caractersticas


e/ou realce insuciente (por exemplo desenvolver um modelo
de classicao baseado em atributos com pequena variao para
o conjunto de dados disponvel); populaes com classes muito
desiguais (por exemplo clientes fraudadores so a minoria no
conjunto de clientes); dependncia linear entre os atributos de
entrada (por exemplo a varivel compras estar expressa em duas
moedas diferentes).
Problemas tpicos com a seleo da tcnica: muitas vezes o
problema com o ajuste devido seleo da tcnica. Os critrios
de ajuste de um modelo geralmente incidem sobre seus parmetros, mas os objetivos de previso ou classicao vo ser validados sobre as variveis de sada (target) e no h necessariamente
biunivocidade entre os dois aspectos. Quanto menos aderente ao
problema o modelo for, maiores sero as diferenas entre ajuste e
validao.
III. A validao vai ser conduzida diferentemente para o caso de
um problema estritamente preditivo ou classicatrio. Quando o
mtodo envolve a estimao de parmetros de um modelo, como
o caso dos modelos de regresso, a estimativa pode ser avaliada
para diferentes amostras, utilizando-se os mtodos de reamostragem explicados a seguir. A validao pode tambm ser aplicada na
instncia do resultado obtido, comparando-se a predio do valor
da varivel alvo com o valor observado da amostra teste. Outra forma de validao a tabela de confuso, explicamos a seguir o uso
destas tcnicas.
Suponhamos que tenha sido feito um modelo ajustado de regresso logstica para prever se um cliente ir responder positivamente a
uma promoo. A partir dos dados de validao, calculamos o valor
da funo de regresso para cada observao, ordenamos crescentemente a amostra em funo deste valor. Dividimos em seguida
esta amostra em decis. Para cada decil temos a probabilidade de
resposta em funo da regresso logstica e tambm conhecemos

80

Validao do Modelo

PERTENCE A NOME DO CLIENTE

se a observao corresponde a um cliente que aceitou a promoo


(1) ou rejeitou (0). A mdia sobre os valores 0-1 observados naquele decil permite fazer a comparao com o predito pelo modelo.
Considera-se que, havendo uma diferena de at 10% entre os
valores preditos e os valores observados para mais, seja indicador
de um bom ajuste.
Exemplo
Decil
prb.est

0,46 0,24 0,18 0,13

prp.obs 0,40 0,22 0,19 0,14

0,11 0,092 0,077 0,064 0,051 0,034


0,12 0,088

0,11

0,071 0,058 0,060

prb.est: mdia das previses no decil


prp.obs: proporo de respostas observadas no decil

Reamostragem originariamente um mtodo para estimao


de parmetros que no supe uma distribuio terica a priori.
A partir de amostras obtidas por reamostragem constri-se uma
distribuio emprica das estimativas, permitindo-se assim uma
avaliao da estabilidade dos valores encontrados. Duas tcnicas
mais usuais para reamostragem so:
Jacknife para um total de N observaes, exclui-se aleatoriamente uma observao. A predio feita com base nas N 1
observaes restantes e compara-se com o valor conhecido da
observao excluda. O processo repetido e a distribuio dos
erros valida ou no o modelo. No caso de grandes amostras, ao
invs de se retirar uma observao, retiram-se aleatoriamente
50% das observaes.
Bootstrap a partir das N observaes extraem-se amostras com
reposio. Da mesma forma a predio feita com base nestas
amostras e comparada com o valor conhecido.
Os resultados da validao obtidos a partir da comparao dos
valores conhecidos com os estimados podem ser apresentados em
uma tabela denominada matriz de confuso.

Introduo Minerao de Dados

81

PERTENCE A NOME DO CLIENTE

Exemplo

Tamanho do
grupo
verdadeiro

Percentual de
classificao
verdadeira

22

25

88

20

25

80

Tamanho do
Grupo predito

27

23

50

84*

Grupo

Predito

Grupo verdadeiro

(nmero de classicaes corretas/nmero total de observaes) x


100 = [(22+20)/50]x100 = 84%

Caso seja necessrio, pode-se estabelecer pesos diferentes para


as freqncias obtidas em cada uma das clulas. Isto ser particularmente til para a anlise de retorno de investimento como veremos
no captulo Retorno do Investimento (ROI). Nos estudos de caso, no
Anexo IV, h diversos exemplos desta etapa.
Esquematize o procedimento de validao para o projeto em
desenvolvimento dos captulos anteriores.

82

Validao do Modelo

PERTENCE A NOME DO CLIENTE

Implementao

PROBLEMA > ... > VALIDAO > IMPLEMENTAO


Esta etapa corresponde preparao do modelo para utilizao.
H algumas coisas bvias que, no entanto, devem ser lembradas.
Documentao tcnica sobre as propriedades, caractersticas e
condies de uso do modelo. Exemplos e benchmarks so essenciais
para o usurio se sentir seguro de que est fazendo a coisa certa.
As condies de uso devem ser bem explcitas. Minerao de dados
trabalha com comportamento, e um modelo de avaliao de risco
para crdito pode ser acurado para avaliar clientes nos distritos de
classe mdia de uma cidade e totalmente inadequado para distritos
habitados por trabalhadores.
Quando se abriu a primeira agncia bancria na favela da Rocinha
havia uma grande insegurana quanto ao comportamento dos correntistas. Entretanto, ocorreu exatamente o contrrio, tendo a agncia se tornado uma dentre as de menor ndice de inadimplncia.
A alimentao de dados no modelo deve ser muito criteriosa.
Tanto quanto aonde voc abastece seu carro. Dados demogrcos,
por exemplo, por acaso so oriundos de um levantamento equivalente aos que foram utilizados para construir o modelo? Por mais
paradoxal que parea no h modelo certo ou errado (se as etapas
anteriores foram corretamente cumpridas), h o uso certo e errado
de um modelo.
Inviabilidade temporal para determinar modelos baseados em
dados correntes. Por exemplo: diculdade em desenvolver modelos
para criminalidade baseados em dados dirios.
Inconsistncia do Projeto de Minerao de Dados. Por exemplo:
no prever um datawarehouse o que torna reformulaes do datamart extremamente demorado.

Introduo Minerao de Dados

83

PERTENCE A NOME DO CLIENTE

Um projeto de minerao de dados no diferente em seus


aspectos gerais de um projeto em tecnologia da informao, assim
na sua fase inicial necessrio denir os seguintes aspectos que
viabilizam a execuo do projeto:
escopo
necessidades
custo
cronograma
equipe
Estabelea para o projeto em desenvolvimento os cinco itens
mencionados acima. No Anexo I so listados alguns repositrios de
dados para testes. No Anexo II so apresentados alguns produtos
para Minerao de Dados. No Anexo III encontra-se um anteprojeto
de Minerao de Dados incluindo todas as etapas vistas at aqui.

84

Implementao

PERTENCE A NOME DO CLIENTE

Retorno do Investimento (ROI)

sta atividade feita aps o uso do modelo proposto durante um


perodo compatvel com o ciclo do problema em tela. Nesta
fase o impacto nanceiro do projeto calculado em termos
de percentagem do custo do projeto. Assim, se um projeto para
deteco de fraude evitou perdas de um milho de reais e o projeto
de minerao custou 100 mil reais, ento, o ROI de 900%! Nas empresas aonde no se praticava a minerao de dados estes retornos
tendem a ser elevados. Por este motivo, os pacotes de datawarehouse
e datamining so caros e representam um investimento de peso em
sua fase inicial. Pela sua natureza este tipo de atividade tem que ser
aprovado pela alta gerncia da organizao, que assim prover os
recursos e a receptividade fundamentais para o xito do projeto. A
grosso modo, a frmula bsica para se avaliar o ROI :

ROI =

resultado custo
100
custo

(10.1)

Entretanto, pode-se fazer uma anlise relacionando as metas de


previso com o ajuste do modelo mediante o conceito de funo
de perda (loss function). Os problemas de minerao de dados no
so problemas abstratos mas aplicados. Portanto, uma classicao
errnea ou uma subestimao podem ter efeitos bastante diferentes, uma funo de perda L(, d) d a perda associada se o valor do
parmetro associado for e a deciso tomada for d. Suponha, em
particular, que a deciso d seja atribuir o valor a ao parmetro ,
ento uma funo de perda possvel dada em (10.2). A deciso d
pode representar de uma maneira geral um estimador para o parmetro . A funo risco R(,d) a mdia da funo de perda.

Introduo Minerao de Dados

85

PERTENCE A NOME DO CLIENTE

Exemplos

L( , d ) = L( , a ) = (a ) 2

(10.2)

R( , d ) = R ( , a ) = E ( L( , a ))

(10.3)

Neste caso, obtemos o conhecido critrio de mnimos quadrados


(perda quadrtica), no entanto o conceito permite lidar com outras
situaes.

k se | a |
L( , a ) =

<
0
se
|

a
|

(10.4)

Para o qual o resultado ser o valor mais freqente do parmetro


(moda). J, para um problema de classicao, a funo de perda
poderia ser:

0 se gi

L( , gi ) =

c
caso
contrario
i

(10.5)

Desta forma podemos relacionar o efeito do ajuste ao resultado


nanceiro da aplicao do modelo.
Exemplo
Para um cadastro de 2.000 clientes deseja-se a partir das suas caractersticas decidir para quais ser enviado um catlogo de ofertas.
Sabendo-se, que o custo unitrio do envio do material de R$ 2,70 e
que a compra mdia de R$ 15,00, qual o ROI se pelo modelo adotado foram enviados 797 catlogos e somente 271 clientes zeram
aquisies? A utilizao do modelo d um ROI maior do que se os
catlogos tivessem sido enviados para todos os clientes, baseandose num retorno de 30%?
Com o modelo
Despesas: 797 x 2,70 = 2.151,90
Receita: 271 x 15 = 4.065,00
ROI: (4.065,00 2.151,90)/2.151,90 x 100 = 88,90%
Sem o modelo
Despesas: 2.000 x 2,70 = 5.400,00
Receita: 600 x 15 = 9.000,00
ROI: (9.000,00 5.400,00)/5.400,00 x 100 = 66,67%
86

Retorno do Investimento (ROI)

PERTENCE A NOME DO CLIENTE

Mostrando a superioridade do modelo.


Nos estudos de caso do anexo IV so feitas diversas anlises de
ROI.
Fazer uma estimativa da ROI para o projeto que voc desenvolveu
nos captulos anteriores.

Introduo Minerao de Dados

87

PERTENCE A NOME DO CLIENTE

Exemplos

A PARTIR DE UMA BASE DE CLIENTES, PARA QUAIS ENVIAR UM


NOVO CATLOGO?
Iniciaremos nossa anlise a partir de trs variveis: recncia, freqncia e valor monetrio. A base para o clculo destas variveis
seria o seguinte:
Recncia nmero de meses desde a ltima compra
Freqncia nmero de compras nos ltimos 36 meses
Valor compras em unidades monetrias nos ltimos 36 meses
Para cada uma destas variveis, procede-se da seguinte forma:
Ordena-se o conjunto com respeito a cada um dos atributos
mencionados e divide-se em cinco grupos baseados nos vintis.
Para cada um dos grupos determina-se a proporo dos clientes
que fz alguma compra aps o ltimo envio de catlogo (taxa de
resposta). Comparam-se as tabelas e decide-se qual varivel ser
adotada para orientar o prximo envio de catlogos. Um resultado
possvel seria:
Recncia

Taxa de
Resposta

Freqncia

Taxa de
Resposta

Valor
Monetrio

Taxa de
Resposta

Q1

0,14

Q1

0,12

Q1

0,089

Q2

0,041

Q2

0,051

Q2

0,055

Q3

0,025

Q3

0,027

Q3

0,037

Q4

0,021

Q4

0,022

Q4

0,026

Q5

0,008

Q5

0,011

Q5

0,018

Nesta tabela podemos concluir que em termos de discriminao,


a melhor varivel a recncia. por este motivo, que comum enviar
um novo catlogo ou lanamento juntamente com a aquisio.
Introduo Minerao de Dados

89

PERTENCE A NOME DO CLIENTE

PENETRAO NO MERCADO
Este tipo de anlise permite perceber a forma como uma empresa
est conquistando o mercado. A anlise pode ser feita para cada
atributo selecionado, por exemplo, idade, tempo de residncia,
estado civil etc. claro que para a aplicao desta tcnica preciso
dispor de censos sobre a populao geral, ou o que seria ideal sobre
a populao relativa ao mercado daquele produto. A tabela poderia
car da seguinte maneira:
Idade

# Clientes

%Clientes

Mercado

%Mercado

Penetrao

725

2,04

117.062

2,06

99

35-39

3.455

9,67

387.464

6,81

142

40-44

10.440

29,32

1341.725

23,58

124

45-49

11.795

33,12

2.084.676

36,63

90

50-54

5.005

14,06

900.779

15,83

89

55-64

3.435

9,65

726.869

12,77

76

65+

765

2,15

131.835

2,32

93

Total

35.610

<34

5.690.410

O ndice ideal ca em torno de 100, valores abaixo indicam que


a empresa est captando menos do que poderia em relao quela
faixa etria. Na tabela acima isto ocorre para clientes com mais de
45 anos. O que poder orientar um esforo de marketing para faixas
de clientes mais maduros.
CLASSIFICAO PARA CLIENTES DE UM CARTO DE CRDITO
Baseando-se nas variveis risco, idade, tempo de residncia, nmero
de lhos, renda, sexo e retorno, uma anlise de agrupamento ou de
rvore de classicao poderia apresentar o seguinte resultado para
o centride de cada um dos quatro grupos estabelecidos:
Clientes Lucrativos

Clientes de Risco

Retorno Mdio: Alto

Retorno Mdio: Alto

Risco: Baixo

Risco: Alto

Idade Mdia: 43 anos

Idade Mdia: 34 anos

Tempo mdio de residncia: 87 meses Tempo mdio de residncia: 55 meses


Nmero mdio de filhos: 1,95

90

Nmero mdio de filhos: 2,11

Exemplos

PERTENCE A NOME DO CLIENTE

Clientes Lucrativos

Clientes de Risco

Renda mdia: Alta

Renda mdia: Mdia

Proporo de homens: 55%

Proporo de homens: 49%

Clientes Regulares

Clientes Crticos

Retorno Mdio: Baixo

Retorno Mdio: Baixo

Risco: Baixo

Risco: Alto

Idade Mdia: 48 anos

Idade Mdia: 32 anos

Tempo mdio de residncia: 78 meses Tempo mdio de residncia: 40 meses


Nmero mdio de filhos: 1,97

Nmero mdio de filhos: 2,13

Renda mdia: Alta

Renda mdia: Mdia

Proporo de homens: 50%

Proporo de homens: 46%

PREVISO DE VENDAS PARA UMA CAMPANHA PROMOCIONAL


Para predizer o retorno em vendas de uma campanha sobre a base de
clientes pode-se ajustar um modelo de regresso sobre um conjunto
de variveis preditoras. As fases seguintes devem ser executadas:
Levantamento das variveis preditoras quantitativas e qualitativas. No caso destas ltimas, proceder codicao numrica.
Seleo das variveis preditoras que iro integrar o modelo
reduo de variveis.
Ajuste do modelo usando dados de vendas para o ltimo ano
dividindo-se o conjunto de treinamento em decis poderamos
chegar a uma tabela, como a que se segue, baseada na varivel
predita (retorno de vendas):
Decil

X10%

X20%

X30%

X40%

X50%

X60%

X70%

X80%

X90%

X100%

Retorno
Predito (decil)

19,23

33,07

42,47

49,62

56,06

62,9

70,04

76,4

82,41

90,53

Percentagem
de Retorno
Observada no
decil

28,19

39,21

44,49

47,09

48,05

55,0

57,56

61,18

63,41 70,47

Nas extremidades, no h proximidade entre os valores observados e preditos (no so a mesma coisa, apenas deveriam variar
proximamente).

Introduo Minerao de Dados

91

PERTENCE A NOME DO CLIENTE

MODELANDO RISCO
Pode-se construir um modelo de regresso (logstica) para risco
de conceder crdito a um cliente, com base nos dados observados
(treinamento), durante um certo perodo. Inicia-se, com o maior
nmero possvel de atributos at se reduzir queles com maior poder
explicativo e, posteriormente, compara-se com o que foi observado
para um outro conjunto (validao) de clientes.
Decil

X10%

X20%

X30%

X40%

X50%

X60%

X70%

X80%

X90%

X100%

Probabilidade
Predita (decil)

0,014

0,016

0,017

0,019

0,022

0,027

0,033

0,043

0,064

0,096

Risco
Observado
no decil

0,013

0,016

0,015

0,018

0,021

0,025

0,037

0,043

0,066

0,092

A aderncia razovel neste caso, note-se que o valor a ser predito pequeno porque a minoria de clientes que apresenta risco.
A visualizao desta probabilidade de risco difcil, por este motivo
criou-se um ndice de risco cuja frmula a seguinte:
Risco = Scorebase + 100*p*log((1p)/p)

Aonde p a probabilidade predita (risco) e Scorebase o valor


mnimo da escala, por exemplo, Scorebase = 480, ento, para p = 0,5
risco = 480 + 50* log(1) = 480, j para p = 0,2 ento risco = 480 + 20*
log(0,8/0,2) = 560. Quanto maior o ndice menor a probabilidade
do cliente fazer default.
Outras aplicaes permitem prever perda de clientes e tambm
o ciclo de vida de um cliente assim como seu valor para a empresa.
No Anexo IV, oito estudos de caso detalhados so apresentados.

92

Exemplos

PERTENCE A NOME DO CLIENTE

Bibliograa

AFIFI, A. A.; CLARK, V. Computer aided multivariate analysis. Chapman & Hall/CRC, 1999.
ALMEIDA, A. C. Como so feitas as pesquisas eleitorais e de opinies.
FGV editora, 2002.
BRAGA,L.P.V.(Coordenador). Tpicos em minerao de dados II.
Relatrio Tcnico no 180, Departamento de Mtodos Estatsticos,
Universidade Federal do Rio de Janeiro, 2004.
BRAGA, L. P. V. (Coordenador). Tpicos em minerao de dados.
Relatrio Tcnico n 169, Departamento de Mtodos Estatsticos,
Universidade Federal do Rio de Janeiro, 2003.
CARVALHO, L. A. V. DATAMINING: A minerao de dados no marketing, medicina, economia, engenharia e administrao. rica, 2001.
CHATFIELD, C. Model uncertainty, data mining and statistical inference. J. R. Statistical Society A., vol. 158, n 3, pp. 419-466, 1995.
COSTA, M. B. A. Tcnicas de Minerao de Dados (Data Mining) na
identicao de padres de acesso s pginas do site MSNBC. Projeto
Final de Bacharelado em Estatstica. UFRJ, 2004.
DE VILLE, B. Microsoft data mining. Digital Press, 2001.
DELMATER, R.; HANCOCK, M. Data mining explained. Digital
Press, 2001.
DINIZ, C. A. R. Data mining: uma introduo. Associao Brasileira
de Estatstica, 14 SINAPE, 2000.
FIGUEIREDO, R. (Organizador) et al. Marketing poltico e persuaso
eleitoral. Fundao Konrad Adenauer, 2000.
FREITAS, A. A. Data mining and knowledge discovery with evolutionary algorithms. Springer, 2002.
Introduo Minerao de Dados

93

PERTENCE A NOME DO CLIENTE

GANTI, V.; GEHRKE, J.; RAMAKRISHNAN, R. Mining very large databases. Computer, vol. 32, n 8, pp. 38-45, 1999.
GIUDICI, P. Data Mining: metodi statistici per le applicazioni aziendali. McGraw-Hill, 2001.
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate data analysis. Prentice Hall, 1998.
HAMILTON, S. E-commerce for the 21st Century. Computer, May
1997, vol. 30, n 5, pp. 44-47, 1997.
HAN, J.; KAMBER, M. Data mining: concepts and techniques. Academic Press, 2001.
HAND, D. J. Data mining: statistics and more? The American Statistician, May 1998 vol. 52, n 2, pp. 112-118, 1998.
HAYKIN, S. Redes neurais: Princpios e prtica. Traduo Engel, P.
M. Bookman, 1999.
KELLER, V.; BASTOS, C. L. Aprendendo lgica. Editora Vozes, 2002.
KUHN, T. S. A estrutura das revolues cientcas. Traduo Boeira,
B. V.; Boeira, N., Editora Perspectiva, 2001.
LINDLEY, D. V. The philosophy of statistics. The American Statistician,
vol. 49, n 3, pp. 293-337, 2000.
MALHOTRA, N. K. Pesquisa de marketing: uma orientao aplicada.
Traduo Montigelli, N.; Farias A. A. Bookman, 2001.
PEREIRA, J. C. P. Anlise de dados qualitativos. EDUSP, 2001.
RAMAKRISHNAN, N.; GRAMA, A. Y. Data mining: From serendipity
to science. Computer, vol. 32, n 8, pp. 34-37, 1999.
REZENDE, J. Fatores que inuenciaram a ocorrncia de acidentes de
trabalho em uma regio de produo de petrleo. Tese de Mestrado.
Escola Nacional de Cincias Estatsticas (ENCE), 2003.
RUD, O. P. Data Mining Cookbook. John Wiley & Sons Inc., 2001.
SAS Institute Inc. Data mining using entrepise minerTM software: a
case study approach. SAS Institute Inc., 2000.
SILVA, N. N. Amostragem probabilstica. EDUSP, 2001.
SWIFT, R. CRM, customer relationship management: o revolucionrio
marketing de relacionamento com o cliente. Editora Campus, 2001.
VARELLA, L. E. S. Reconhecedor de elementos grcos digitalizados via
scanners. Tese de Mestrado. Instituto Militar de Engenharia, 1992.
94

Bibliograa

PERTENCE A NOME DO CLIENTE

Anexo I Repositrios de
Dados na Internet

DELVE DATASETS
So colees de dados para o desenvolvimento, avaliao e comparao de mtodos de minerao de dados. O endereo do site
: <http://www.cs.toronto.edu/~delve/data/datasets.html>. Os
arquivos esto divididos em arquivos para validao (assessment
datasets), treinamento (development datasets) e tpicos (historical datasets). Por outro lado, cada categoria est subdividida em
arquivos para regresso (regression datasets) e para classicao
(classication datasets).
MLNET OIS
Mlnet OIS o acrnimo para Machine Learning network On line
Information Service desenvolvido pela Universidade de Magdeburg
com o apoio da Comunidade Europia. Em seu site: <http://www.
mlnet.org> encontram-se alm de dados, bibliograa, cursos e
programas em minerao de dados.
STATLIB DATASETS ARCHIVE
Inclui uma vasta coleo de arquivos de dados com nfase em dados
biomdicos. Pode ser acessado no endereo: <http://lib.stat.cmu.
edu/datasets>. O site tambm aceita a submisso de arquivos de
dados para serem includos.
DATASETS
Outro repositrio de dados incluindo temas variados. O endereo
: <http://www.liacc.up.pt/ML/statlog/datasets.html>.

Introduo Minerao de Dados

95

PERTENCE A NOME DO CLIENTE

UCI KDD ARCHIVE


Vasto repositrio de dados da Universidade da California em Irvine.
Os arquivos esto agrupados em duas grandes categorias: data sets
e task les. E cada uma das categorias compreende subcategorias
por tipo, rea de aplicao, nome, data etc. O endereo do site :
<http://kdd.ics.uci.edu/>.

96

Anexo I

PERTENCE A NOME DO CLIENTE

Anexo II Pacotes Computacionais


em Minerao de Dados

CLEMENTINE
o programa de minerao de dados do SPSS. O site pode ser acessado no endereo: <http://www.spss.com/spssbi/clementine/>.
DBMINER
Desenvolvido pela companhia com o mesmo nome, no site <http://
www.dbminer.com/>.
DB2 INTELLIGENT MINER FOR DATA
A IBM disponibilizou para seus usurios uma soluo em minerao
de dados. O site <http://www-3.ibm.com/software/data/imine/
fordata/>.
ENTERPRISE MINER
Os usurios do SAS tm no Enterprise Miner sua opo para minerao de dados. O endereo do site : <http://www.sas.com/products/miner/index.html>.
MICROSOFT SQL SERVER 2000 ANALYSIS SERVICE
A MICROSOFT dentre vrias solues para inteligncia empresarial
oferece uma em dm: <http://www.microsoft.com/ofce/business/
intelligence/default.asp>.
STATISTICA DATA MINER
A soluo da STATSOFT inclui as funes tpicas para minerao de
dados a qual pode ser encontrada em <http://www.statsoft.com>.

Introduo Minerao de Dados

97

PERTENCE A NOME DO CLIENTE

WEKA
Pacote grtis oferecido pela Universidade de Waikato, da Nova Zelndia, no endereo <http://www.cs.waikato.ac.nz/ml/weka/>

98

Anexo II

PERTENCE A NOME DO CLIENTE

Anexo III Anteprojeto


de Minerao de Dados

PREVISO DE ABANDONO DE CURSO


Adaptado do trabalho apresentado por Ftima Luciana Contim
Figueiredo (UERJ) no curso de extenso em Minerao de Dados
do Departamento de Mtodos Estatsticos, da Universidade Federal
do Rio de Janeiro, em Novembro de 2002.
ETAPA 1) PROBLEMA E ESCOPO
rea de atuao da empresa: Educao
Problema: Dado um aluno, prever se ele vai abandonar ou no a
instituio ou o curso a partir de determinados atributos (classicao supervisionada). O modelo de previso permitir uma
orientao acadmica mais efetiva, assim como a identicao
de motivos para o trancamento de matrcula.
ETAPA 2) ESPECIFICAO DO REPOSITRIO DE DADOS
Dados: registros de alunos do primeiro ano, cerca de 3.600.
Atributos: curso, idade, sexo, endereo, motivo do abandono/
permanncia.
Particionamento: amostragem por cotas, separando-se 70% para
treinamento e 30% para validao, tamanho da amostra igual a
10% da populao.
Tratamento de erros: a maior parte dos atributos qualitativa o
que facilita a triagem dos erros.
Tratamento de dados faltantes: usar a moda.

Introduo Minerao de Dados

99

PERTENCE A NOME DO CLIENTE

ETAPA 3) EXTRAO DE CARACTERSTICAS E REALCE


Codicao das variveis: codicao numrica para curso e
sexo; estabelecimento de faixas de idade e posterior codicao
numrica das faixas; insero dos endereos em zonas residenciais e posterior codicao numrica das zonas; o motivo do
abandono/permanncia inclui mudana de curso, de universidade, de bairro, de cidade, horrio etc., fazendo-se posteriormente a codicao numrica.
ETAPA 4) SELEO DO MTODO
Optou-se pela regresso logstica pelas possibilidades que o mtodo
oferece para interpretao e previso da varivel target abandono
ou no.
ETAPA 5) PLANO DE PROTOTIPAGEM
Vrios modelos incluindo parte das variveis (passo a passo) e interao entre elas sero consideradas. A regresso logstica apresenta
a vantagem de se dispor de detalhada metodologia para a anlise
de resultados.
ETAPA 6) VALIDAO
A taxa de evaso em universidades pblicas tem sido da ordem de
7%, se o modelo for capaz de identicar 90% dos trancamentos
pode-se considerar que estar atingindo os objetivos esperados.
ETAPA 7) IMPLEMENTAO
Infra-estrutura: material, equipamento, software etc.
Recursos humanos: descrio da equipe.
Cronograma:

Definio do problema

2 semanas

Avaliao dos dados

3 semanas

Extrao de caractersticas

1 semana

Plano de prototipagem

2 semanas

Avaliao do modelo

2 semanas

Implementao

2 semanas

ROI (estimativa e verificao)

1 ano

100

Anexo III

PERTENCE A NOME DO CLIENTE

Oramento
ETAPA 8) RETORNO DO INVESTIMENTO ROI
Estima-se o gasto anual de um estudante de graduao na universidade pblica em torno de R$ 10.000,00. Se o modelo ajudar a reduzir
a evaso tem-se a base para o clculo do retorno do mesmo.

Introduo Minerao de Dados

101

PERTENCE A NOME DO CLIENTE

Anexo IV Estudos de Caso

aseados em trabalhos de alunos de graduao dos cursos de


Estatstica e de Aturia e de alunos de ps-graduao do curso
de Informtica do Instituto de Matemtica/Ncleo de Computao Eletrnica (IM/NCE), desenvolvidos na disciplina Minerao
de Dados, ministrada por mim em 2003 e 2004, e que foram publicados nos Relatrios Tcnicos nmeros 169/2003 e 180/2004 do
Departamento de Mtodos Estatsticos (DME).
Classicao de doadores potenciais da Paralyzed Veterans of
Amrica
Adriano Moutinho, Airam Carlos P.B. Marques e Jorge Leonardo
Lima Barboza
Identicao de padres no acesso s pginas do site MSNBC
Alissandra Evangelista Martins
Identicao de pers em base de dados de acidentes de trabalho
Geraldo Oliveira Santos, Jorge de Rezende e Marcelo Amorim
Bastos
Aquisio de Seguros
Alexandra Ribeiro Mendes de Almeida (DME-IM) e Anderson
Scot de Mello (DME-IM)
Categorizao de Clientes de uma Instituio Financeira
Fernando Tamberlini Alves (DCC-IM/NCE) Raimundo Jos Macrio Costa (DCC-IM/NCE) e Telma S. Par (DCC-IM/NCE)
Classicao supervisionada de crdito em um banco na Alemanha
Maria de Ftima da Graa Conceio (DME-IM), Guido Alberti
Moreira (DME-IM) e Samuel Martins de Souza (DME-IM)

Introduo Minerao de Dados

103

PERTENCE A NOME DO CLIENTE

Predio do Interesse pela Compra de Seguro de Trailers


Sergio Ellery Giro Barroso (DME-IM)
Sistema de Deteco de Intruso
Artur Versiani Scott Varella (DCC-IM /NCE) e Antonio Anibal de
Souza Teles (DCC-IM/NCE)
AIV.1 CLASSIFICAO DE DOADORES POTENCIAIS DA
PARALYZED VETERANS OF AMERICA
Adriano Moutinho, Airam Carlos P. B. Marques e Jorge Leonardo
Lima Barboza, coordenao Luis Paulo Vieira Braga, RT 169, DME/
IM/UFRJ.
O Problema
A Paralyzed Veterans of Amrica (PVA) possui um sistema de envio
de requerimentos de doaes por correio. O problema reside no fato
de que dos cerca de 95 mil candidatos que constam do cadastro,
aproximadamente cinco mil j efetuaram doaes. O objetivo
identicar, baseado em informaes pessoais, econmicas, sociais
e demogrcas sobre um determinado candidato, se ele , ou no,
um potencial doador. Atingido este objetivo seria possvel reduzir
em larga escala os custos de envio de correio e maximizar a arrecadao da organizao.
Os dados
O conjunto de dados utilizado foi obtido na internet no endereo
<http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html>,
constitudo de 95.412 registros com 481 campos. Foi um dos conjuntos de teste na competio KDD Cup 1998.
Amostragem
Foi realizada uma amostragem simples da base de dados. Dos aproximadamente 90.000 registros correspondentes a no-doadores, foram
sorteados seis mil. J dos cerca de cinco mil registros referentes a
doadores, foram sorteados dois mil, totalizando oito mil registros.
Particionamento dos dados
Tendo em vista as fases de ajuste (treinamento) e validao a amostra
foi particionada em dois grupos, conforme a Tabela a seguir:

104

Anexo IV

PERTENCE A NOME DO CLIENTE

Treinamento

Validao

Doadores

1.500

500

No-Doadores

4.500

1.500

Total

6.000

2.000

Tratamento de dados faltantes e aberrantes


Cada atributo recebeu um tratamento especco para o problema
de dados faltantes. Por exemplo, NUMCHLD (nmero de crianas) recebeu o valor zero caso nada constasse. J INCOME (renda
familiar) recebeu o valor mdio calculado sobre a renda de outras
famlias naquela vizinhana.
No caso desta amostra no foram identicados valores aberrantes.
Atributos considerados
O nmero de campos no deve ser confundido com o de atributos,
embora, caso se deseje detalhar ao extremo as informaes, possa se
fazer esta identicao. Ocorre que o instrumento para a coleta de
dados, por exemplo, no caso de funcionrio pblico usa trs variveis
para caracterizar o tipo de funcionrio: LOCALGOV funcionrio
pblico municipal (0/1), STATEGOV funcionrio pblico estadual
(0/1), FEDGOV funcionrio pblico federal (0/1). O motivo para se
proceder assim reside na preocupao em introduzir uma codicao
numrica articial para o atributo tipo de funcionrio pblico 1, 2 e 3.
O preo que se paga por isto o aumento do nmero de variveis. Alm
de atributos medidos diretamente do potencial doador, so medidos
atributos relativos ao ambiente do mesmo. Isto possvel a partir de
surveys demogrcos e econmicos oferecidos por instituies governamentais ou no. Por exemplo, a varivel ETH refere-se porcentagem
tnica da populao na regio aonde habita o potencial doador.
Listam-se a seguir alguns atributos considerados:
ODATEDW data da primeira doao feita pela pessoa PVA.
AGE idade
HOMEOWNR indicativo de propriedade de imvel
NUMCHLD nmero de lhos
INCOME renda familiar
VET status em relao s foras armadas (ativo, veterano II
Guerra, Coria etc.)
Introduo Minerao de Dados

105

PERTENCE A NOME DO CLIENTE

GOV tipo de funcionrio pblico (municipal, estadual, federal)


ETH porcentagens tnicas da regio da pessoa (branco, afro,
hispnico etc.)
AGE904 idade mdia da populao na vizinhana
HVP porcentagens de faixas de valores dos imveis na vizinhana
IC5 renda per capita na vizinhana
SEC percentagens de nveis de instruo na regio
NUMPROM nmero de cartes recebidos
CARDPM12 nmero de cartes recebidos nos ltimos 12 meses
RAMNT_13 total em dlares da doao para a promoo 95FS
RFA_2 status do doador na promoo 97NK
RAMNTALL total de doaes at hoje
NGIFTALL nmero de doaes at hoje
MINRAMNT total da menor doao feita
MAXRAMNT total da maior doao feita
LASTGIFT total da doao mais recente
TIMELAG nmero de meses entre a primeira e segunda doao
Entre outras e,
TARGET_B varivel alvo: indicativo binrio do sucesso da doao
TARGET_D varivel alvo: total doado em dlares
A Tabela abaixo apresenta os nmeros finais em termos de
atributos:
Nmero de campos no arquivo original

481

Nmero de campos removidos

303

Nmero de campos novos

23

Nmero de campos removidos aps transformao

24

Nmero final de campos

174

Particionamento dos dados (continuao)


Como se sabe, um projeto de minerao de dados inclui uma fase
de treinamento e outra de validao ou teste. A Tabela seguinte
apresenta as dimenses de cada conjunto, a seleo dos registros

106

Anexo IV

PERTENCE A NOME DO CLIENTE

ser feita por amostragem aleatria. Denominaremos a este particionamento com corte
Particionamento com corte
Diviso no-ordenada dos dados

Treinamento

Teste

Doadores

1.500

500

No-doadores

4.500

1.500

Total

6.000

2.000

A m de testar melhor a robustez dos modelos, procedeu-se outros particionamentos. A partir do atributo ODATEW foi feita uma
separao entre conjunto de treinamento e validao a partir da
data da primeira doao. A escolha desta data foi feita de modo s
propores de doadores, no-doadores, treinamento e teste serem
aproximadamente as mesmas do particionamento aleatrio noordenado. A data de corte foi 8901 (ano 89 e ms 01), resultando no
seguinte particionamento:
Particionamento sem corte
Diviso no-ordenada dos dados

Treinamento

Teste

Doadores

1.391

606

No-doadores

4.461

1.534

Total

5.852

2.140

Alm destes dois particionamentos, tambm optou-se por criar


mais dois que consistiram na aplicao do mtodo de anlise de
componentes principais (pca) aos dois particionamentos anteriores,
eliminando-se todo atributo cuja varincia fosse menor que 0,001.
Antes da aplicao do pca, as variveis foram padronizadas. O pca
permitiu a reduo para 108 variveis no particionamento com corte
e 110 no particionamento sem corte.
Prototipagem
Sero obtidos vrios modelos para cada um dos particionamentos.
O mtodo escolhido baseia-se em redes neurais, em particular o
modelo de rede utilizado foi o Multi Layer Perceptron (MLP). Como
no existe um mtodo exato que diga qual a arquitetura ideal para
cada problema, nem o melhor algoritmo de treinamento a ser utilizaIntroduo Minerao de Dados

107

PERTENCE A NOME DO CLIENTE

do, optou-se por selecionar um grupo de arquiteturas e algoritmos,


selecionando ao nal a rede com melhor rendimento.
Arquiteturas de rede testadas:
Rede de 2 camadas: 75 x 2 (75 neurnios na camada escondida
e 2 neurnios na camada de sada)
Rede de 2 camadas: 25 x 2
Rede de 3 camadas: 75 x 30 x 2
Rede de 3 camadas: 25 x 10 x 2
Todos os neurnios possuem funo de propagao logstica
(sigmide). Alm das alternativas de arquitetura, escolheram-se
dois algoritmos de treinamento:
Backpropagation Simples (BPS)
Backpropagation com Gradiente Conjugado (BPGC)
Desta forma, cada uma das quatro arquiteturas foi treinada para
cada algoritmo de treinamento, gerando um total de oito redes. No
entanto, ambos os algoritmos de treinamento so parametrizados,
os valores utilizados para cada um foram:
Erro mnimo (EM): 10-3
Nmero de pocas (NE): 1.000 e 2.000
Taxa de aprendizado (TA): 0,4
Momentum (M): 0,5
No total a prototipagem envolve o teste de 64 redes em quatro
conjuntos de dados. Todas as redes possuem dois neurnios na camada de sada, N1 e N2. Cada rede treinada para ter como resposta
de sada N1 = 1 e N2 = 0 caso a pessoa seja um potencial doador, e
N1 = 0 e N2 = 1 caso a pessoa no seja um potencial doador.
A interpretao das sadas das redes foram realizadas de acordo
com dois mtodos Winner Takes All (WTA) e a Limiarizao (L).
O mtodo WTA, quando aplicado a um vetor de sada, leva o maior
valor de todos a um, e o restante a zero. J o mtodo L estabelece um
valor mnimo a ser atingido por uma determinada sada para que a
mesma seja conrmada. Neste estudo, adotou-se o limiar 0,4. Para
ser doador o neurnio deveria estar valorado acima do limiar, caso
contrrio o indivduo seria considerado no-doador.
Tanto o treinamento, como a validao, foram conduzidos segundo a metodologia Jacknife.

108

Anexo IV

PERTENCE A NOME DO CLIENTE

Resultado do treinamento
WTA

Treinamento sem corte

95%

83%

Treinamento sem corte com PCA

99%

99%

Treinamento com corte

76%

76%

Treinamento com corte com PCA

98%

98%

WTA

Validao sem corte

75%

75%

Validao sem corte com PCA

74%

67%

Validao com corte

71%

71%

Validao com corte com PCA

67%

63%

Resultados da validao

importante notar que, embora o percentual de acerto da rede


seja considerado para a avaliao de sua performance, devido a
particularidade do problema a escolha da rede mais apropriada no
est relacionada ao seu ndice de acerto, mas sim sua matriz de
confuso. Neste aspecto, a rede escolhida foi aquela treinada com
conjunto com corte, com aplicao de PCA e Limiarizao, a qual
obteve 60% de desempenho mas com o maior ndice de acerto de
doadores.
A Tabela de confuso para esta rede a seguinte:
Observado
Doador
Estimado

No-doador

Doador

271

526

No-doador

335

1.008

Estimativa de retorno de investimento (ROI)


Neste caso a anlise de ROI ser feita comparando-se os custos
adotando-se o procedimento supervisionado ou no. Para o clculo
do custo total, considerou-se os seguintes custos unitrios:
Envelope (uma unidade): U$ 0,30
Papel (uma folha): U$ 0,10
Envio de uma carta: U$ 0,50
Introduo Minerao de Dados

109

PERTENCE A NOME DO CLIENTE

Doao mdia: U$ 15,00


Segundo a matriz de confuso, seriam enviadas 797 cartas das
quais 271 teriam retorno e 526 no teriam. O custo do envio seria:
797 x (0,30+0,10+0,50) = U$ 717

O retorno seria:
271 x 15 = U$ 4.065

A diferena entre retorno e custo seria de U$ 3.348


No caso de se enviar para os 2.000 componentes da amostra, o
custo seria de:
2.000.(0,30+0,10+0,50) = U$ 1.800

E o retorno sobre 601 = 271 + 335 seria de:


606 x 15 = U$ 9.090

A diferena entre retorno e custo seria de U$ 7.290, menor que


U$3.348.
Ao aumentar o nmero de envios, o procedimento supervisionado continua pior que o simples envio de todos os pedidos,
supondo-se para isto uma subestimao do acerto em 30% e uma
superestimao do erro em 50%.
Diferena entre retorno e custo enviando-se para os 95 mil doadores e assumindo cinco mil doadores:
85.500 75.000 = U$ 10.500

Diferena entre retorno e custo enviando-se para 46.500 doadores selecionados pelo modelo, assumindo-se a estimativa de 30%
de acerto:
22.500 41.850 = U$ 19.350

O modelo, portanto, no foi validado! Isto signica que o seu treinamento precisa ser melhorado. Deve-se formular um outro plano
de prototipagem envolvendo variveis, modelos e amostras.
AIV.2 IDENTIFICAO DE PADRES NO
ACESSO S PGINAS DO SITE MSNBC
Alissandra Evangelista Martins, coordenao Luis Paulo Vieira Braga,
RT 169, DME/IM/UFRJ.
O Problema
O site <http://www.MSNNBC.com> disponibiliza um servio de
revista eletrnica na qual as informaes so organizadas segundo
categorias, tais como: negcios, tecnologia, esportes, viagens, entre

110

Anexo IV

PERTENCE A NOME DO CLIENTE

outras. O objetivo deste trabalho analisar a navegao feita pelos


usurios por meio das pginas do site e identicar algum padro
de navegao segundo essas categorias. Ou seja, identicar quais
conjuntos de categorias so acessados e correlaciona-los. As pginas
podem ser classicadas segundo as categorias: Front page, News,
Tech, Local, Opinion, On-air, Misc, Weather, Health,
Living, Business, Sports, Summary, bbs, travel, msn-news
e msn-sports.
Os dados
O conjunto de dados utilizado neste trabalho o log dos acessos
s pginas do site MSNNBC feitos no dia 28 de setembro de 1999,
extrado do repositrio UCI KDD, ver Anexo V. Cada registro do log
possui os seguintes atributos:
remotehost: IP da mquina a partir da qual veio o pedido;
rfc931: login do usurio remoto caso este usurio pertena a um
sistema de multiusurios. Na maioria das vezes apresenta
como valor;
authuser: caso o documento seja protegido por senha, este campo possui o login do usurio no servidor;
date: data do acesso;
request: URL do arquivo requisitado pelo cliente, incluindo os
parmetros de consulta caso existam e o mtodo utilizado na
requisio;
status: identica se o pedido foi resolvido e devolvido ao cliente
com sucesso;
bytes: a quantidade de bytes enviados ao usurio;
referrer: pgina a partir da qual o usurio fez o pedido, poder ser
caso o acesso tenha sido feito mediante a digitao da URL
no browser;
user-agent: tipo do browser utilizado pelo cliente.
Os valores de interesse para permitir esta anlise encontram-se
nos atributos: date (ltrar os acessos do dia 28/9/1999), status (vericar se a pgina solicitada foi acessada corretamente) e request
(para identicar, por meio do nome da pgina, a qual categoria ela
pertence).

Introduo Minerao de Dados

111

PERTENCE A NOME DO CLIENTE

O log do servidor web no qual estas pginas esto armazenadas


foi tratado e o arquivo disponibilizado no repositrio UCI KDD
composto por linhas representando a seqncia de pginas acessadas durante uma sesso de usurio conforme a Tabela 1. Neste
arquivo, a cada categoria apresentada na seo anterior foi atribudo
um nmero de acordo com a ordem de apresentao acima. Por
exemplo, Frontpage 1, News 2, Tech 3 e assim por diante. Este
arquivo composto por 989.818 linhas, cada linha representando
uma sesso de usurio. A mdia de pginas acessadas por sesso
5,7 pginas/sesso, e o nmero de URLs (Uniform Resource Locator)
por categoria de 10 a 5.000.
Tabela 1
9

12

14

14

14

14

14

14

14

14

14

14

14

10

10

12

10

10

10

10

15

10

15

14

10

Pr-processamento dos dados:


Excluem-se os registros cujo campo status seja diferente do valor
200, este valor indica sucesso na requisio da pgina. A excluso
destes registros evita que uma determinada pgina seja contabilizada como acessada mesmo que tenha havido erro.
Pginas com guras, arquivos de multimdia ou grcos geram
um registro adicional no log para cada um dos itens referenciados
na pgina. Estes registros geram, portanto, duplicidade, devendo
ser eliminados de modo que apenas a pgina acessada seja contabilizada.

112

Anexo IV

PERTENCE A NOME DO CLIENTE

Particionamento dos dados


Foi adotado o procedimento de amostragem sistemtica (ver captulo Tratamento de Dados para DM). O conjunto foi dividido ao
meio, utilizando-se uma das metades para treinamento e a outra
para validao. Para cada metade os registros foram divididos em
grupos de 100 tomando-se o primeiro registro de cada grupo. Ao
nal as amostras para treinamento e validao tinham cada uma
4.949 registros.
Atributos considerados e realce
A regra EMBED Equation.DSMT4 aonde A e B representam um ou
mais produtos descrita por meio de trs estatsticas: suporte, conana e alavancagem. O suporte da regra a freqncia de clientes
que adquirem A e B. A conana a freqncia de clientes que tendo
optado por A, tambm optaram por B. A alavancagem expressa a conana em termos da proporo da aquisio de B em funo da aquisio de A. As regras cujos suportes e conanas satiszerem valores
mnimos so denominadas de regras fortes. O processo de minerao
baseado em regras de associao dividido em duas etapas:
a) Encontrar todos os conjuntos de dados freqentes.
b) Gerar as regras de associao fortes a partir dos conjuntos de
itens freqentes.
Prototipagem/Treinamento
Para proceder a anlise de anidade no conjunto descrito foi utilizado
o algoritmo Integrao de Regras de Classicao e Associao e sua
implementao a ferramenta CBA, disponvel em <http://www.comp.
nus.edu.sg/~dm2/> e apresentado na 4 Conferncia Internacional
de KDD cujo contedo se encontra em <http://www. comp.nus.edu.
sg/~dm2/publications.html>.
Neste caso no foi avaliada a alavancagem, mas somente o suporte e a conana. Tambm foi estabelecido um suporte mnimo de
1% e conana mnima de 50%. Os eventos avaliados so compostos
de combinaes k a k dos eventos disponveis, comeando-se com
k = 1 e assim por diante. Para eventos com um s item os resultados
com maior suporte na amostra de treinamento foram:

Introduo Minerao de Dados

113

PERTENCE A NOME DO CLIENTE

Suporte

Regra

31,06%

front page

22,27%

on-air

17,78%

news

12,49%

local

11,96%

sports

Para eventos com dois itens os resultados com maior suporte na


amostra de treinamento foram:
Suporte

Regra

7,23%

front page, news

4,08%

on-air, front page

4,06%

front page, local

4,02%

front page, misc

3,84%

front page, business

Para eventos com trs itens os resultados com maior suporte na


amostra de treinamento foram:
Suporte

Regra

1,66%

local, front page, misc

1,64%

news, front page, on-air

1,62%

local, news, front page

1,37%

news, front page, tech

1,29%

news, front page, business

Para a medida de conana, as cinco melhores freqncias dentre


todas as combinaes observadas foram:
Confiana (A=>B)

Suporte (A)

Regra (A=>B)

74,03%

1,56%

living, news => front page

65,31%

1,98%

news, business =>front page

61,18%

1,72%

news, sports =>front page

60,42%

1,94%

news, misc =>front page

59,38%

1,94%

news, misc =>local

114

Anexo IV

PERTENCE A NOME DO CLIENTE

Os resultados do treinamento evidenciam a importncia da front


page pois tem o maior suporte individual e tambm aparece dentre
os maiores suportes com dois e trs itens. Alm disso para front
page que mais se retorna como se pode observar dos resultados
relativos conana (o sexto lugar para news, on-air => Front
page com 59,12%).
Validao
A validao consistiu na aplicao do CBA amostra de validao.
Para eventos com um s item, os melhores resultados para o suporte foram semelhantes aos observados na amostra de treinamento
(sports cou em stima posio com 11,56%):
Suporte

Regra

32,23%

front page

22,13%

on-air

18,51%

news

12,79%

local

11,92%

tech

Para eventos com dois itens, os cinco mais freqentes foram os mesmos observados no treinamento, embora, no na mesma ordem:
Suporte

Regra

7,86%

news, front page

4,65%

front page, business

4,63%

on-air, front page

4,22%

local, front page

3,94%

misc, front page

Para eventos com trs itens, os percentuais foram mais elevados


e houve menos coincidncias entre os eventos.
Suporte

Regra

1,92%

news, front page, business

1,84%

news, front page, on-air

1,80%

local, news, front page

1,80%

news, front page, tech

1,74%

local, front page, misc

Introduo Minerao de Dados

115

PERTENCE A NOME DO CLIENTE

A medida de conana apresentou os seguintes resultados para


os cinco mais freqentes:
Confiana

Suporte (A)

Regra (A=>B)

81,18%

1,72%

living,news => frontpage

72,64%

2,14%

news,health=>frontpage

70,37%

2,73%

news,business=>frontpage

68,49%

1,48%

tech,business=>frontpage

66,37%

2,28%

news,misc=>frontpage

Em linhas gerais observou-se o mesmo comportamento para


front page tanto na amostra de treinamento como na validao.
Observe-se que aqui no se est fazendo predio, portanto, no
cabe construir a matriz de confuso. No entanto, poderia se aplicar
a idia da reamostragem para aplicar o CBA s diversas amostras
geradas e estudar o comportamento do suporte e conana.
Alm dos testes com uma amostra de treinamento e outra de validao, foram aplicadas as tcnicas de bootstraping e jackniving,
descritas no captulo sobre Validao, para avaliar a distribuio das
propores (suporte) de algumas pginas do site, em Costa, M.B.A.
podem ser encontrados mais detalhes. No caso do bootstraping
foram geradas 100 amostras com repetio de 1000 elementos cada
a partir da amostra original de validao. Para algumas pginas pode
se aceitar a normalidade da distribuio amostral do suporte, dentre
elas, FRONTPAGE e OPINION, os valores estimados dos parmetros
mdia e desvio padro foram respectivamente: 29,2 e 1,3; 3,0 e 0,4. No
caso do jackniving foram geradas 100 amostras de tamanho 900,
sendo que 100 elementos da amostra original foram retirados aleatoriamente. Para algumas pginas pode se aceitar a normalidade da
distribuio amostral do suporte, dentre elas, FRONTPAGE e NEWS,
os valores estimados dos parmetros mdia e desvio-padro foram,
respectivamente: 29,8 e 1,1; 16,7 e 1,0. Entretanto, para a maioria
das pginas as distribuies amostrais dos suportes no passaram
no teste de Kolmogorov de normalidade, mas os valores mnimos e
mximos foram bastante prximos.
Estimativa de retorno de investimento (ROI)
Uma deciso crtica para o administrador de um site a determinao
do que deve ser gratuito e o que deve ser cobrado. Da anlise anterior
116

Anexo IV

PERTENCE A NOME DO CLIENTE

conclui-se que o front page um ponto estratgico nesta questo,


pois os usurios tendem a retornar a esta pgina. News e on-air
tambm so objeto de procura pelos internautas desta pgina. Possivelmente qualquer requisio de cadastro ou contribuio deveria
ser feito aps a segunda ou terceira passagem pela front page.
AIV.3 IDENTIFICAO DE PERFIS EM BASE
DE DADOS DE ACIDENTES DE TRABALHO
Geraldo Oliveira Santos, Jorge de Rezende e Marcelo Amorim Bastos,
coordenao Luis Paulo Vieira Braga, RT 169, DME/IM/UFRJ.
O Problema
Reduzir o nmero global de acidentes de trabalho em uma indstria
mediante aes de treinamento junto a funcionrios que sejam potenciais vtimas de acidentes. Para isto vai se construir um modelo
baseado no histrico de acidentes para aplic-lo ao conjunto de
funcionrios, identicando-se assim os mais propensos a sofrerem
acidentes. O trabalho se baseia na tese de mestrado de Jorge Rezende, citada na bibliograa.
Os dados
Considerando as no conformidades ocorridas na companhia, utilizar as bases de dados relativos aos acidentes e dados de trabalhadores. Essa busca visa detectar correlaes entre no conformidades
e fatores diversos tais como:
temporais
ambientais
cultura formal
capacitao tcnica
conhecimento de normas e procedimentos
Foram considerados os registros de 25 mil funcionrios durante
o ano de 1999, o arquivo de uso restrito e no pode ser divulgado.
Os seguintes atributos foram considerados:
a) sexo
b) tempo na empresa
c) tempo no cargo
d) nvel (mdio ou superior)
e) idade
Introduo Minerao de Dados

117

PERTENCE A NOME DO CLIENTE

f) regime de trabalho (administrativo, turno, sobreaviso)


g) tempo no cargo (em dias)
h) ocorrncia de qualquer tipo de acidente (binrio)
Pr-processamento dos dados
Os registros com valores inconsistentes ou incompletos foram
descartados.
Particionamento dos dados
Foi feito utilizando-se amostragem aleatria simples com cerca de
30% do conjunto de dados.
Atributos considerados/Realce
O objetivo do trabalho possibilitar a descrio de como se compe
o risco de um empregado sofrer acidente no perodo de um ano,
em determinada regio de produo, pelas caractersticas deste
empregado e dos grupos a que pertence.
Vai-se considerar como varivel resposta (target) a proporo
de empregados acidentados segundo o grupo ao qual pertence
e, como variveis explicativas as co-variveis e variveis dummy
correspondentes aos nveis dos fatores. A funo de ligao (link
function) entre a mdia da varivel-resposta e o previsor linear ser
a funo logstica.
A seleo das variveis que comporo o modelo ser feita via
teste da razo de verossimilhana, que utiliza o log da razo de verossimilhana (deviance) com uma probabilidade de erro de 0,05
(5%) com o objetivo de identicar quais variveis e/ou interaes
so estatisticamente signicantes.
Foi utilizado o modelo geral de regresso logstica como base
para construo de trs modelos:

p
i = logit ( pi ) = log i
pi1

(AIV.1)

Prototipagem/Treinamento
Modelo I As variveis idade, tempo de empresa e tempo no cargo
foram transformadas em fatores, i.e., denidoras de grupos. As Tabelas a seguir mostram os sucessivos testes, os quais foram selecionando uma a uma as variveis, at se chegar a trs variveis.

118

Anexo IV

PERTENCE A NOME DO CLIENTE

Tabela 1 Teste 1
Varivel

Log (raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var.?

Sexo

334,63

8,42

0,0037

Sim

Gr_T_empresa

335,30

7,75

0,3548

No

Gr_T_cargo

335,56

7,50

0,3791

No

Nvel

316,69

26,36

<0,0001

Sim

Gr_Idade

334,23

8,83

0,2653

No

40,15

<0,0001

Sim

Regime

Incluir a varivel Regime.


Tabela 2 Teste 2
Varivel

Log (raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var.?

Sexo

302,37

0,53

0,4649

No

Gr_T_empresa

296,51

6,40

0,4943

No

Gr_T_cargo

293,67

9,24

0,2362

No

12,86

<0,0003

Sim

9,41

0,2246

No

Nvel
Gr_Idade

293,49

Incluir a varivel Nvel.


Tabela 3 Teste 3

Incluir a varivel Gr_T_cargo.


Tabela 4 Teste 4
Varivel

Log(raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var.?

Sexo

269,78

1,29

0,2569

No

Gr_T_empresa

265,85

5,22

0,6330

No

Gr_Idade

261,11

9,96

0,1908

No

Introduo Minerao de Dados

119

PERTENCE A NOME DO CLIENTE

Foram selecionadas, portanto, as variveis Regime, Nvel e


Gr_T_Cargo. Consideraram-se tambm as interaes entre estas
variveis.
Tabela 5 Teste 5
Varivel

Log (raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var.?

Regime x Nvel

247,74

23,33

<0,0001

Sim*

Regime x Gr_T_cargo

266,09

12

4,98

0,9585

No

Nvel x Gr_T_cargo

266,17

4,90

0,4283

No

Tabela 6 Teste 6
Varivel

Log (raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var.?

Regime x Gr_T_cargo

242,69

12

5,05

0,9564

No

Nvel x Gr_T_cargo

242,87

4,87

0,4318

No

O Modelo I com as variveis selecionadas da seguinte forma:

ijkl = log( pijlk /(1 pijlk )) = + i + j + l + ( * )ij + eijlk

(AIV.2)

pijlk

: probabilidade do k-simo empregado, do i-simo regime, do jsimo nvel funcional, do l-simo grupo tempo sofrer acidente.

i : efeito do regime i = 1 sobreaviso; i = 2 turno; i = 3 administrativo.

: efeito do nvel funcional j = 1 mdio; j = 2 superior.

l : grupo tempo de cargo j = 1, 0 a 2 anos; j = 2, 3 a 5 anos; j = 3, 6


a 8 anos; j = 4, 9 a 11 anos; j = 5, 12 a 14 anos; j = 6, 15 a 17 anos;
j = 7, 18 a 20 anos; j = 8, 21 a 23 anos.

( )ij
: efeito da interao entre o fator regime e o fator funcional.
eijlk

: erro aleatrio.
Apesar do modelo ter sido aceito para um teste de hiptese sobre
o logaritmo da razo de verossimilhana, o teste dos parmetros
do modelo a um nvel de signicncia de 5% indicou que somente

, , ( ) e ( )

11
21 foram considerados estatistios parmetros 1 2
camente diferentes de zero. Vericou-se tambm que uma grande

120

Anexo IV

PERTENCE A NOME DO CLIENTE

quantidade de resduos est fora do intervalo de conabilidade. O


modelo ser portanto rejeitado.
Modelo II Neste modelo sero utilizadas todas as variveis do
Modelo I, porm sem utilizar fatores para as variveis idade, tempo
de empresa e tempo no cargo. Da mesma forma procede-se uma
anlise da signicncia de cada varivel.
Tabela 7 Teste 1
Varivel

Log (raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var.?

Sexo

1.304,52

8,42

0,0037

Sim

T_empresa

1.311,75

1,18

0,2765

No

T_cargo

1.307,96

4,97

0,0257

Sim

Nvel

1.286,57

26,36

<0,0001

Sim

Idade

1.312,24

0,70

0,2653

No

40,15

<0,0001

Sim*

Regime

A exemplo do que foi feito anteriormente, os testes indicaram


ao nal que as variveis sexo, T_ empresa e idade no contribuem
signicativamente para o modelo.
Tabela 8 Teste 4 (nal)
Varivel

Log (raz. ver.)

G. L.

Valor X2

Pr > X2

Inclui var.?

Sexo

1.248,39

1,03

0,3101

No

T_ empresa

1.247,56

1,86

0,1731

No

Idade

1.248,52

0,90

0,3429

No

Obs.: os testes intermedirios no foram includos.

Tambm foram feitos testes para a interao entre as variveis Nvel, T_Cargo e Regime, incluindo-se somente a interao
Regime*Nvel. O Modelo II ser ento representado por:

ijkl = log( pijlk /(1 pijlk )) = + i + j + X + ( * )ij + eijlk

(A.IV.3)

pijlk

: probabilidade do k-simo empregado, do i-simo regime,


do j-simo nvel funcional, considerando o tempo de cargo de
um empregado sofrer acidente.

i : efeito do regime i = 1 sobreaviso; i = 2 turno; i = 3 administrativo


j

: efeito do nvel funcional j=1 mdio; j=2 superior

Introduo Minerao de Dados

121

PERTENCE A NOME DO CLIENTE

X: tempo de cargo

( )ij

: efeito da interao entre o fator regime e o fator funcional

eijlk

: erro aleatrio
O modelo foi aceito para o teste de hiptese sobre o logaritmo
da razo de verossimilhana, o teste dos parmetros do modelo a
um nvel de signicncia de 5% indicou que somente os parmetros 1 , 2 , ( )11 e ( ) 21 foram considerados estatisticamente
diferente de zero. Vericou-se tambm que uma grande quantidade
de resduos est fora do intervalo de conabilidade. O modelo II
tambm ser rejeitado.
Modelo III Objetivando melhorar o modelo, no que tange a
varivel tempo no cargo, observa-se que a varivel logit oscila muito
para tempos maior que quatro, talvez porque a quantidade de dados
seja menor. Decidiu-se, ento, atribuir os valores 0, 1, 2, 3 e maior
do que 4. Repetiram-se a seguir os procedimentos para seleo de
variveis e interao entre elas.
Tabela 9 Teste 4 (nal)
Obs. os testes intermedirios no foram includos.
Varivel

Log (raz. ver.)

G.L.

Valor X2

Pr > X2

Inclui var. ?

Sexo

1.159,87

0,70

0,4040

No

T _empresa

1.159,96

0,61

0,4346

No

Idade

1.160,03

0,54

0,4605

No

Para a interao entre variveis s se incluiu Regime x Nvel.


Tabela 10 Teste 6 (nal)
Varivel

Log (raz. ver.)

G. L.

Valor X2

Pr > X2

Inclui var.?

Regime x cargo

242,69

12

5,05

0,9564

No

Nvel x cargo

242,87

4,87

0,4318

No

O Modelo III ser ento representado por:

ijkl = log( pijlk /(1 pijlk )) = + i + j + X + ( * )ij + eijlk

122

(AIV.4)

Anexo IV

PERTENCE A NOME DO CLIENTE

pijlk

: probabilidade do k-simo empregado, do i-simo regime,


do j-simo nvel funcional, considerando o tempo de cargo de
um empregado sofrer acidente.

i : efeito do regime i = 1 sobreaviso; i = 2 turno; i = 3 administrativo

: efeito do nvel funcional j = 1 mdio; j = 2 superior

X: tempo de cargo com os valores 0, 1, 2, 3 e maior que 4

( )ij

: efeito da interao entre o fator regime e o fator funcional

eijlk

: erro aleatrio
A exemplo dos modelos anteriores o modelo foi aceito no teste
de ajuste. Para os parmetros, os resultados foram melhores que os

, , , , , ( ) , ( )

1
2
1
11
21 foram considerados
anteriores, pois
estatisticamente diferentes de zero, com uma probabilidade de erro
de 5%. Reduziram-se signicativamente os resduos fora do intervalo de conabilidade. A Tabela seguinte d o resumo da anlise da
estimativa de parmetros.

Tabela 11
Param.

G.L.

Estim.

Err.Pad. I.C. min I.C. max

Intercep.

-6,51

0,60

-7,68

Quiquad

Pr>qui

-5,34

118,57

<0,0001

Regime

rsobre

2,61

0,65

1,34

3,89

16,12

<0,0001

Regime

rtur

-20,05

0,19

-20,42

-19,69

11.691,00

<0,0001

Regime

zadm

0,32

0,045

0,23

0,41

50,85

<0,0001

T_carg
Nivel

2,41

0,61

1,22

3,59

15,71

<0,0001

Nivel

0,00

0,00

0,00

0,00

reg*niv

rsobrem

-2,20

0,68

-3,53

-0,86

10,33

0,0013

reg*niv

rsobres

0,00

0,00

0,00

0,00

reg*niv

rturm

20,84

0,00

20,84

20,84

reg*niv

rturs

0,00

0,00

0,00

0,00

Introduo Minerao de Dados

123

PERTENCE A NOME DO CLIENTE

Validao
A Tabela a seguir d a freqncia observada (%) de um empregado
sofrer acidente, considerando tempo no cargo, nvel e turno:
Tabela 12
Nvel
Anos

Mdio

Superior

Adm

Turno

Sobre

Adm

Turno

Sobre

0,0067

0,0064

0,0091

0,00

0,00

0,00

0,037

0,071

0,055

0,00

0,00

0,00

0,070

0,090

0,059

0,00

0,00

0,057

0,071

0,071

0,065

0,00

0,00

0,00

>=4

0,046

0,072

0,058

0,0078

0,00

0,067

A mesma Tabela estimada pelo modelo III seria:


Tabela 13
Nvel
Anos

Mdio

Superior

Adm

Turno

Sobre

Adm

Turno

Sobre

0,016

0,035

0,025

0,0015

0,00

0,020

0,022

0,048

0,034

0,0028

0,00

0,027

0,031

0,065

0,046

0,0028

0,00

0,037

0,042

0,088

0,062

0,0039

0,00

0,051

>=4

0,057

0,12

0,084

0,0054

0,00

0,069

As diferenas so inferiores a 0,1. A coluna mais crtica a relativa


a nvel mdio, regime turno. Pois aquela com maiores chances de
acidente, o modelo foi mais conservador em trs situaes (anos 0,
3 e > = 4) e menos conservador para anos 1 e 2.
Outra anlise que se pode fazer aquela baseada na razo de
chances, ver expresso (6.18) no captulo Mtodos para Modelagem.
A razo de chances relaciona um evento com outro evento exclusivo
por meio do logaritmo da proporo das chances de um evento
sobre as chances do outro evento (logit). Quanto maior for o valor
de logit mais chance tem de ocorrer em relao ao outro evento. A
Tabela a seguir d as vantagens, i.e. (p/1-p), para cada evento, tendo
sido derivada da Tabela 13.

124

Anexo IV

PERTENCE A NOME DO CLIENTE

Tabela 14
Nvel
Anos

Mdio

Superior

Adm

Turno

Sobre

Adm

Turno

Sobre

0,017

0,036

0,025

0,0015

0,00

0,020

0,023

0,050

0,035

0,0021

0,00

0,028

0,032

0,069

0,048

0,0028

0,00

0,037

0,044

0,096

0,066

0,0039

0,00

0,051

>=4

0,060

0,13

0,091

0,0054

0,00

0,069

Como se pode ver as chances de ocorrerem acidentes com


empregados de nvel superior em turno com relao aos demais
eventos praticamente nula. J a Tabela seguinte, obtida a partir da
Tabela 14 d a razo de chances, xando-se o evento nvel superior
administrativo com menos de 1 ano de servio sobre as chances
dos demais eventos.
Tabela 15
Nvel
Anos

Mdio

Superior

Adm

Turno

Sobre

Adm

Turno

Sobre

10,90

23,56

16,42

0,00

13,37

14,96

32,10

22,46

1,37

0,00

18,33

20,48

43,54

30,63

1,90

0,00

25,05

27,96

58,68

41,57

2,62

0,00

34,11

>=4

38,01

78,42

56,09

3,61

0,00

46,22

A Tabela destaca ainda mais o que foi observado na Tabelas 12


e 13, que os segmentos mais sensveis a acidentes so o de turno e
sobreaviso para o nvel mdio.
Estimativa de Anlise de ROI (Retorno de Investimento)
Neste caso o registro de acidentes no especicou a gravidade dos
mesmos. Evidentemente um acidente fatal ou com leso ter mais
impacto do que um acidente leve. A NBR 14280 da ABNT detalha
este assunto e contabiliza a perda por acidente em termos de dias
perdidos. Morte corresponde a seis mil dias; perda de membro de
50 a 4.500 dias e perturbao funcional de 600 a seis mil dias.

Introduo Minerao de Dados

125

PERTENCE A NOME DO CLIENTE

Tomando-se como base que 0,1% dos empregados se acidentam em um ano; que as faixas de tempo de casa sejam igualmente
distribudas; que as faixas de nvel sejam, tambm, igualmente
distribudas; que as faixas de gravidade de acidentes sejam, tambm,
proporcionais a 1/6, 2/6 e 3/6 respectivamente; que treinamentos
preventivos correspondam a 12 dias por ano e que treinamentos
reduzam em 50% a chance de ter acidente. Teramos a seguinte
estimativa de ROI para o segmento nvel mdio em turno para a
empresa considerada com 25 mil funcionrios:
Perda em horas sem treinamento (sem o modelo)
Nmero de funcionrios no segmento nvel mdio em turno:
25.000 x 1/6 = 4.167
Nmero mdio de horas perdidas por morte:
4.167 x 0,1 x 1/6 x 6.000 = 416.700 horas
Nmero mdio de horas perdidas por perda de membro:
Obs.: 2.275 = (4500 + 50)/2
4.167 x 0,1 x 2/6 x 2.275 = 315.997 horas
Nmero mdio de horas perdidas por perturbao funcional:
Obs.: 3.300 = (6.000 + 600)/2
4.167 x 0,1 x 3/6 x 3.300 = 687.555 horas
Total = 1.420.252 horas
Perda em horas com treinamento (com o modelo)
Subtotal perdido em acidentes = 710.126 horas (1.420.252 x 0,5)
Subtotal perdido em treinamento = 4.167 x 12 x 8 = 400.032
Total = 1.110.158 horas
Mostrando-se assim um ganho de 310.094 horas.
AIV.4 AQUISIO DE SEGUROS
Alexandra Ribeiro Mendes de Almeida (DME-IM) e Anderson Scot
de Mello (DME-IM)
Introduo
O objetivo deste trabalho tentar descobrir quem estaria interessado
em adquirir seguros para trailers.

126

Anexo IV

PERTENCE A NOME DO CLIENTE

Enviar correspondncias a consumidores potenciais uma maneira


bastante ecaz de lanar um produto ou servio no mercado. Entretanto, a maioria dessas correspondncias podem vir a no interessar a
quem as recebe, gerando gastos desnecessrios s companhias.
Se a companhia puder ter conhecimento mais apurado de quais
seriam seus potenciais consumidores, os gastos se reduziriam.
Os dados
Os dados referem-se a informaes sobre os clientes, as quais consistem em 86 variveis. Estas incluem informaes sociodemogrcas
como classe social, nmero mdio de cmodos, rendimentos...,
derivadas de uma mesma regio postal (CEP), e sobre aquisio de
produtos, como por exemplo aplices de seguro de vida, incndio,
carro...
Foram fornecidos dois conjuntos de dados: um para treinamento,
contendo 5.822 registros e outro de teste contendo 4.000 registros.
O conjunto de treinamento inclui a informao se o cliente possui
ou no o seguro de trailer. O conjunto de teste possui os mesmos
atributos contidos no conjunto de treinamento, com exceo da
informao sobre ter ou no seguro.
O conjunto de dados foi fornecido pela Dutch datamining company Sentient Machine Research. Baseado em dados reais provenientes do mundo dos negcios.
As variveis possuam valores dentro dos intervalos provveis
propostos, no havendo de incio a presena de dados faltantes ou
extremos.
A nica irregularidade observada foi a repetio de um atributo,
optando-se por uma das duas variveis repetidas.
Reduo de variveis
Para eliminar os atributos pouco relevantes, usamos o teste do
qui-quadrado em todas as variveis e optamos por retirar as 31
mostradas posteriormente no Quadro 3.
Resumo da movimentao de entrada e sada das variveis:
Banco de dados original com 86 variveis
1 Retirada de uma das duas variveis de mesmo sentido.
2 Desmembramento de duas variveis:
Introduo Minerao de Dados

127

PERTENCE A NOME DO CLIENTE

A varivel MSCLIENTIP subtipo de clientes foi desmembrada


em 41 variveis do tipo dummy (ver Quadro 1).
A varivel MPCLIENTIP tipo principal de clientes foi desmembrada em 10 variveis do tipo dummy (ver Quadro 2)
Houve, portanto, nessa operao, um acrscimo de 49 variveis.
3 Teste de independncia: retirada de 30 variveis (ver Quadro 3).
Banco de dados atual com 104 variveis

Quadro 1 MSCLIENTIP (subtipo de clientes) desmembrada


Subcategorias

Nome

Significado

MSTCRNDALT

Renda alta, criana cara/consumista

MSTCPRMTIM

Provncia muito importante

MSTCMADALT

Maduro de alta posio social

MSTCAPTMPR

Apartamentos de maduros prsperos

MSTCDIVMAD

Diversos tipos de pessoas maduras

MSTCPRVOLU

Profisso e voluntrio

MSTC2RNDCR

Dois rendimentos, sem crianas

MSTCFLCLMD

Famlia de classe mdia

MSTCMDFLCM

Moderno, famlia completa

10

MSTCFMLEST

Famlia estvel

11

MSTCFLRCFR

Famlias recm-formadas

12

MSTCJVMFLPR

Jovens famlias prsperas

13

MSTCFLJVAME

Famlia de jovens americanos

14

MSTCCOSMJV

Cosmopolita jovem

15

MSTCCOSMAD

Maduro cosmopolita

16

MSTCESTAPT

Estudantes em apartamentos

17

MSTCJVPRCID

Jovem professor em cidade

18

MSTCJVSOLT

Jovem solteiro

19

MSTCJVSUBR

Jovem suburbano

20

MSTCETNDIV

Etnia diversa

21

MSTCJVURDS

Jovens urbanos despossudos

22

MSTCMAPDIV

Moradores de apartamento misturados

23

MSTCJVPRSP

Jovem e prspero

24

MSTCJVPCED

Jovem de pouca educao

25

MSTCSEJVCID

Seniors jovens nas cidades

26

MSTCANCSPR

Antiga casa prpria

27

MSTCSENAPT

Seniors em apartamentos

128

Anexo IV

PERTENCE A NOME DO CLIENTE

Subcategorias

Nome

Significado

28

MSTCRESANT

Residncia antiga

29

MSTCVARPEQ

Casas sem ptio, com varanda pequena

30

MSTCIDSLTRL

Idoso solteiro religioso

31

MSTCATBXRND

Catlicos de baixo rendimento

32

MSTCDIVMAD

Diversos tipos de pessoas maduras

33

MSTCGFBXCL

Grandes famlias de classe baixa

34

MSTCFGCCEM

Famlias grandes com crianas empregadas

35

MSTCRNDALT

Famlias de vilas

36

MSTCCSADCF

Casais adolescentes com filhos

37

MSTCDIVCDPQ

Habitantes misturados de cidade pequena

38

MSTCFLTRD

Famlias tradicionais

39

MSTCGRFLRL

Grandes famlias religiosas

40

MSTCFZGRFL

Fazenda de grandes famlias

41

MSTCDIVRUR

Diversos tipos de pessoas rurais

Quadro 2 MPCLIENTIP (tipo principal de clientes) desmembrada


Subcategorias

Nome

Significado

MPTCHEDSC

Hedonista de sucesso (uso do trailer por lazer)

MPTCMORTR

Morador do trailer

MPTCFLMED

Famlia mdia

MPTCAUTON

Autnomo

MPTCAVENT

Aventureiro

MPTCMDGSV

Maduros que gostam de viajar

MPTCTRIDRS

Terceira idade reservado

MPTCFLCAD

Famlia com adultos

MPTCFLCNS

Famlias conservadoras (poupadores)

10

MPTCFAZEN

Fazendeiros

Quadro 3 Relao das variveis eliminadas pelo teste do Qui-quadrado


Nome

Qui-quadrado

P-valor

Significado

MPTCFLCAD

0.2398

0.6243

Famlia com adultos

MPTCFLCNS

0.0802

0.7770

Famlias conservadoras (poupadores)

MSTC2RNDCR

0.0069

0.9339

Dois rendimentos, sem crianas

MSTCAPTMPR

0.1277

0.7208

Apartamentos de maduros prsperos

MSTCCOSMAD

0.1441

0.7042

Maduro cosmopolita

MSTCCSADCF

0.3640

0.5564

Casais adolescentes com filhos

MSTCDIVCDPQ

0.3460

0.5564

Habitantes misturados de cidade


pequena

Introduo Minerao de Dados

129

PERTENCE A NOME DO CLIENTE

Nome

Qui-quadrado

P-valor

Significado

MSTCDIVMAD

0.0377

0.8460

Diversos tipos de pessoas maduras

MSTCESTAPT

0.2323

0.6299

Estudantes em apartamentos

MSTCETNDIV

0.0000

0.9962

Etnia diversa

MSTCFGCCEM

0.0937

0.7595

Famlias grandes com crianas


empregadas

MSTCFLJVAME

0.3325

0.5642

Famlia de jovens americanos

MSTCFLRCFR

0.0150

0.9024

Famlias recm-formadas

MSTCFLTRD

0.3575

0.5499

Famlias tradicionais

MSTCFMLEST

0.0146

0.9039

Famlia estvel

MSTCGFBXCL

0.0007

0.9794

Grandes famlias de classe baixa

MSTCGRFLRL

0.2789

0.5974

Grandes famlias religiosas

MSTCJVPRCID

0.0029

0.9574

Jovem professor em cidade

MSTCJVSOLT

0.3797

0.5378

Jovem solteiro

MSTCJVURDS

0.1871

0.6654

Jovens urbanos despossudos

MSTCMAPDIV

0.3405

0.5596

Moradores de apartamento misturados

MSTCPRMTIM

0.0789

0.7788

Provncia muito importante

NAPOLCAMIND

0.5789

0.9654

Nmero de aplices de caminhonete


de distribuio

NAPOLCAMINH

0.5730

0.9026

Nmero de aplices de caminho

NAPOLMOTOC

0.8560

0.8360

Nmero de aplices de motocicleta

NSCACIDPRIV

0.0719

0.7886

Nmero de aplices de seguro contra


acidente privado

NSCTEREMPR

0.0691

0.9660

Nmero de seguros contra terceiros


(empresas)

PAPOLACPR

0.8344

0.9911

Contribuio de aplice de seguro


contra acidente privado

PAPOLCADIS

0.8331

0.8415

Contribuio de aplices de
caminhonete de distribuio

PAPOLCAMIN

0.5730

0.9026

Contribuio de aplices de caminho

Plano de prototipagem
Prototipagem e desenvolvimento do modelo:
O objetivo do modelo descrever as relaes entre as entradas (condies correntes) e sadas (predies ou consultas) do sistema
Objetivos de um modelo em minerao de dados:
Suporte descoberta de relacionamentos, deciso, predio e melhoria de processos.

130

Anexo IV

PERTENCE A NOME DO CLIENTE

Sistemtica:
Dados _Hipteses _Testes sobre as hipteses
Plano de prototipagem:
Etapa de desenvolvimento das hipteses de trabalho para a anlise,
baseada em certas metas e da construo de um plano para test-las
(seleo de ferramentas, metodologias); podendo ter seus passos
rearranjados, ajustados quanto ao seu alcance e repetidos o nmero
necessrios de vezes.
Foi utilizado o software WEKA [Witten 00]
Esse software permite as escolhas de diversos mtodos para
construo do modelo a ser utilizado na predio de compra de
seguros para trailer.
Todos os atributos presentes nos dados fornecidos eram originalmente numricos
Diversos mtodos foram testados. Alguns exigiam que os atributos apresentassem valores no numricos (nominais).
Desta forma zemos alteraes nos valores da seguinte maneira:
trocamos 0A; 1B ... 9J.
Dentre todos os mtodos utilizados, o que apresentou o melhor
resultado foi o presente no classicador lazy.IBk.
Este classicador compreende a famlia de mtodos que integram o paradigma de aprendizado de mquina conhecido como IBL
(Instance Based Learning). Os algoritmos conhecidos dessa famlia
so IB1, IB2, IB3, IB4 e IB5.
A famlia de algoritmos chamada IBL (Instance Based Learning)
caracterizada por expressar o conceito como o prprio conjunto
de exemplos de treinamento.
Os algoritmos da famlia IBL armazenam exemplos na memria
como pontos no espao n-dimensional, denido pelos n atributos
que descrevem os exemplos, e nunca mudam a representao
desses pontos.
As duas decises mais relevantes tomadas pelos vrios algoritmos
dessa famlia so quais pontos armazenar e qual mtrica adotar para
medir a similaridade entre os exemplos.
Todas as variantes usam a tcnica de vizinho mais prximo
para classicar novos exemplos. Esta abordagem de aprendizado

Introduo Minerao de Dados

131

PERTENCE A NOME DO CLIENTE

pode ser considerada como uma extenso do algoritmo NN (Nearest


Neighbor) [Cover 67].
Uma descrio do conceito baseada em instncias constituda
pelo conjunto de instncias de treinamento armazenadas e, eventualmente, por alguma informao com relao ao desempenho
anterior dessas instncias, durante o processo de classicao. Esse
conjunto de instncias pode mudar aps cada instncia de treinamento ter sido processada. Cada instncia representada por um
conjunto de pares atributo-valor e de uma classe associada.
Em princpio, todas as instncias so descritas pelo mesmo conjunto de n atributos. Cada instncia xi um vetor n-dimensional.
Atributos com valores ausentes sero tolerados. Na descrio do
conceito, uma classe constituda pelo conjunto de todas as instncias que tm o mesmo valor para o atributo classe. Os algoritmos
IBL assumem que instncias similares tm classicaes similares.
Isso implica o uso de uma heurstica local para a classicao de
novas instncias, de acordo com a classicao do vizinho mais
semelhante.
O Algoritmo IB1
O IB1 praticamente idntico ao algoritmo NN [Cover 67]; entretanto, tem a mais as seguintes caractersticas:
Normaliza o escopo dos atributos.
Processa as instncias incrementalmente.
Tem uma poltica de tolerncia a valores de atributos ausentes.
O IB1 armazena todas as instncias de treinamento, que so
processadas incrementalmente.
Para uma abordagem mais completa do mtodo utilizado, consultar os seguintes endereos:
O Modelo de Aprendizado Baseado em Instncias Algoritmo IB1
<http://www.inf.ufsc.br/~simon/rp/O%20modelo%20de%20
aprendizado%20baseado%20em%20instancias%20-%20ib1.pdf>
A Famlia de Algoritmos Instance Based Learning (IBL) <http://
www.inf.ufsc.br/~simon/rp/Ibl.pdf>
O mtodo utilizado apresentou o seguinte resultado na fase de
treinamento:

132

Anexo IV

PERTENCE A NOME DO CLIENTE

=== Run information ===


Scheme:
weka.classiers.lazy.IBk K 1 W 0
Relation:
Training Desagreg Elim Alfa.csv
Instances:
5822
Attributes:
103
[list of attributes omitted]
Test mode:
evaluate on training data
=== Classier model (full training set) ===
IB1 instance-based classier
using 1 nearest neighbour(s) for classication
Time taken to build model: 0.05 seconds
=== Evaluation on training set ===
=== Summary ===
Correctly Classied Instances
Incorrectly Classied Instances
Kappa statistic
Mean absolute error

5769
53
0.9135
0.0102

Root mean squared error


Relative absolute error
Root relative squared error
Total Number of Instances

0.0709
9.0625 %
29.8991 %
5822

99.0897 %
0.9103 %

=== Detailed Accuracy By Class ===


TP Rate FP Rate Precision Recall F-Measure Class
0.999
0.144
0.991
0.999 0.995
A
0.856
0.001
0.99
0.856 0.918
B
=== Confusion Matrix ===
a
b
< classied as
5471
3|
a=A
50
298 |
b=B

Validao do modelo
Denido o modelo para classicao dos clientes quanto possibilidade
de aquisio do seguro. Prosseguimos com a validao do mesmo.
Todas as alteraes realizadas com as variveis na base de dados
de treinamento foram repetidas na base de dados de validao, para
manter a compatibilidade como o modelo proposto.

Introduo Minerao de Dados

133

PERTENCE A NOME DO CLIENTE

Resultados da validao
=== Re-evaluation on test set ===
User supplied test set
Relation:
Valid data set Alfa.csv
Instances: 4.000
Attributes: 103
=== Summary ===
Correctly Classied Instances
Incorrectly Classied Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances

3.653
91.325%
347
8.675%
0.0736
0.1003
0.2998
89.4976%
126.7507 %
4.000

=== Detailed Accuracy By Class ===


TP Rate FP Rate Precision Recall F-Measure Class
0.965
0.903 0.944
0.965 0.954
A
0.097
0.035 0.148
0.097 0.117
B
=== Confusion Matrix ===
a
b
< classied as
3.630 132 |
a=A
215
23 |
b=B

ROI
Nesta fase, calcula-se o impacto nanceiro do projeto.
Empregamos o modelo escolhido na amostra total, e vericamos
a matriz de confuso:
No compram
Compram

Class. como no compram

Class. como compram

9.101

135

265

321

Estimamos o gasto de envio de correspondncias a clientes


como sendo de R$3,00, e a aplice de seguro para trailer como
R$3.500,00.
Assim, utilizamos o ROI como forma de avaliar a lucratividade
do emprego de tcnicas de data mining, denido por:

134

Anexo IV

PERTENCE A NOME DO CLIENTE

ROI =

Receita Despesa
x100
Despesa

Considerando os valores supostos acima, obtemos um valor


para receita equivalente a R$1.123.500,00 e despesa como sendo
R$1.368,00.
Assim, nosso ROI calculado foi de 82.027 (19%).
Para fazer uma anlise comparativa, vamos supor que em vez
de todo processo empregado para deteco de possveis compradores, delegssemos esta quantidade 30% da amostra, ou seja, se
no usssemos qualquer tipo de modelagem e tivssemos como
premissa que 30% das pessoas para as quais fossem enviadas as
correspondncias comprassem de fato a aplice, teramos um ROI
de 34.900,00%.
O que mostra a superioridade e renamento das tcnicas empregadas.
Bibliograa
[Aha 91] AHA, D. W.; KIBLER, D.; ALBERT, M. K. Instance Based Learning Algorithms. Machine Learning 6(1), 1991, p 37-66.
[Cover 67] CIVER, T.; HART, P. Nearest neighbor pattern classication.
IEEE Transactions on Information theory 13, 1967, p. 21-27.
[Witten 00] WITTEN, I. H.; FRANK, E. Data Mining: Practical learning tools with java implementations. Ed. Morgan Kaufmann. So
Francisco, 2000.
AIV.5 PROJETO DE MINERAO DE DADOS PARA
CATEGORIZAO DE CLIENTES DE UMA INSTITUIO
FINANCEIRA
Fernando Tamberlini Alves (DCC-IM/NCE), Raimundo Jos Macrio
Costa (DCC-IM/NCE) e Telma S. Par (DCC-IM/NCE)
Introduo
A minerao de dados pode ser entendida como a explorao e anlise de grandes quantidades de dados, de forma automtica ou semiautomtica, com o objetivo de descobrir padres e regras relevantes.
Para uma empresa, o conhecimento desses padres permite melhorar
a sua estratgia de marketing, personalizar seu atendimento, aprimoIntroduo Minerao de Dados

135

PERTENCE A NOME DO CLIENTE

rar seu relacionamento com os consumidores etc. Para uma entidade


pblica, os conhecimentos adquiridos por uma minerao de dados
podem subsidiar as suas aes polticas. Para o sistema nanceiro,
objeto deste estudo, o conhecimento gerado pela base de dados de
seus clientes permite obter critrios objetivos com vistas a discriminar e classicar clientes rentveis e clientes no rentveis.
Minerao de dados uma fase na descoberta de conhecimento
em bancos de dados (KDD) que procura por uma srie de padres
escondidos nos dados, freqentemente envolvendo uma aplicao
iterativa e repetitiva de mtodos de minerao de dados particulares.
O objetivo de todo o processo de KDD tornar os padres compreensveis s pessoas, visando facilitar uma melhor interpretao dos
dados existentes.
A minerao de dados caracteriza-se como uma atividade
multidisciplinar, envolvendo principalmente as reas de Banco de
Dados, Inteligncia Articial e Estatstica. Tambm deve envolver
conhecimentos especcos sobre os dados a serem minerados e os
objetivos da entidade interessada na minerao, o que pode caracteriz-la tambm como uma rea da Administrao.
O problema
Atualmente, qualquer instituio nanceira tem disponvel uma
grande carteira de servios para os seus clientes. No entanto, um
servio X pode ser bom para o cliente A e no ser bom para o Cliente
B. Nesse sentido, faz-se necessrio a anlise dos dados segundo duas
propostas: a primeira seria a determinao do perl de cada cliente
(propor o melhor servio para o cliente) e a segunda seria vericar
se o servio rentvel ou no para a instituio.
Soluo
Para a primeira proposta utiliza-se uma classicao no supervisionada dos clientes para determinar cada categoria de cliente. E a
segunda seria a utilizao de uma previso. Neste trabalho s abordaremos a primeira proposta (classicao no supervisionada).
Classicao no supervisionada
uma tarefa de minerao de dados bastante conhecida que vem
sendo estudada nas comunidades de aprendizado de mquina e

136

Anexo IV

PERTENCE A NOME DO CLIENTE

estatstica por um longo tempo. Seu objetivo classicar casos em


diferentes classes, baseado em propriedades (atributos) comuns entre
um conjunto de objetos em uma base de dados. O modelo de classicao no supervisionada construdo utilizado para predizer classes
de novos casos que sero includos em um banco de dados. Aplicaes
adequadas para classicao incluem diagnstico mdico, avaliao
de risco de crdito, deteco de fraude e propaganda direcionada.
Entre os algoritmos de classicao no supervisionada existem:
redes neurais, tcnicas estatsticas e mtodos de categorizao
(clustering).
Projeto
Este projeto visa apresentar uma classicao no supervisionada
em cima de dados nanceiros de uma instituio nanceira e dados
demogrcos da regio dos clientes dessa instituio. Sendo assim,
o objetivo deste projeto descobrir algum conhecimento a partir
da minerao desses dados.
Os dados
O conjunto de dados utilizado foi obtido na internet do PKDD99
Discovery Challenge Guide to the Financial Data Set, no endereo
http://lisp.vse.cz/pkdd99/.
Nesta base de dados esto disponveis informaes sobre os clientes e as suas contas, os servios j contratados pelos mesmos e as informaes demogrcas das regies nas quais os clientes residem.
Repositrio de dados
Relao account (4.500 objetos no arquivo ACCOUNT.ASC) cada
registro descreve as caractersticas estticas da conta.
Relao client (5.369 objetos no arquivo CLIENT.ASC) cada
registro descreve as caractersticas do cliente.
Relao disposition (5.369 objetos no arquivo DISP.ASC) cada
registro relaciona o cliente com sua conta, ou seja, essa relao
descreve os direitos do cliente para operar a conta.
Relao permanent order (6.471 objetos no arquivo ORDER.ASC)
cada registro descreve as caractersticas da ordem de pagamento. Nesta base de dados esto disponveis informaes sobre os

Introduo Minerao de Dados

137

PERTENCE A NOME DO CLIENTE

clientes e as suas contas, os servios j contratados pelos mesmos


e as informaes demogrcas das regies nas quais os clientes
residem.
Relao transaction (1.056.320 objetos no arquivo TRANS.ASC)
cada registro descreve uma transao em uma conta.
Relao loan (682 objetos no arquivo LOAN.ASC) cada registro
descreve um emprstimo autorizado para uma dada conta.
Relao credit card (892 objetos no arquivo CARD.ASC) cada
registro descreve um carto de crdito associado a uma conta.
Relao demographic data (77 objetos no arquivo DISTRICT.ASC)
cada registro descreve as caractersticas demogrcas do distrito.
Particionamento dos dados
Tendo em vista as fases de ajuste (treinamento e validao), a
amostra foi particionada da seguinte forma: 70% para treinamento
e 30% para validao.
Relao nal
Esta relao nal foi obtida mediante sucessivas junes que foram
feitas utilizando um SGBD.
Relao Final 4.500 registros e 80 atributos
Nome

Descrio

Mdia

D. Padro

Mnimo

Mximo

ACCOUNT_TEMPO

Tempo de conta

8,902

1,484

11

ACCOUNT_MENSAL

Conta mensal

0,926

0,262

ACCOUNT_SEMANAL

Conta semanal

0,053

0,225

0,021

0,142

ACCOUNT_TRANSACAO Transao de conta


CLIENT_IDADE

Idade do cliente

50,115

17,086

22

86

CLIENT_MASC

Sexo masculino

0,509

0,5

CLIENT_FEMI

Sexo feminino

0,491

0,5

DISP_INDI

Conta individual

0,807

0,395

DISP_CONJ

Conta conjunta

0,193

0,395

CARD_TIPO

Tipo de carto

0,384

0,804

CARD_EMISSO

Tempo de emisso
do carto

1,356

2,769

11

LOAN_TEMPO

Tempo de emprstimo

1,177

2,843

11

LOAN_QUANTIA

Valor do emprstimo

22.947,053

69.957,636

590.820,00

LOAN_PRAZO

Prazo do emprstimo

5,531

14,677

60

LOAN_PRESTACOES

Valor das prestaes

635,118

1.732,597

9.910,00

138

Anexo IV

PERTENCE A NOME DO CLIENTE

Nome

Descrio

LOAN_SITUAO

Situao do emprstimo

PORDER_SEGURO

Ordem de pagamento
de seguro

PORDER_HIPOTECA

Mdia

D. Padro

Mnimo

Mximo

0,476

1,161

152,65

734,11

12.504

Ordem de pagamento
de hipoteca

3.103,426

3.034,396

14.882,00

PORDER_LEASING

Ordem de pagamento
de leasing

168,784

673,127

4.975,2

PORDER_EMPRESTIMO

Ordem de pagamento
de emprstimo

674,485

1.787,582

9.910,00

PORDER_OUTROS

Ordem de pagamento
no classificado

618,208

1.531,41

12.925,00

DISTRICT_CBOHEMIA

Distrito central
da Bohemia

0,127

0,333

DISTRICT_LBOHEMIA

Distrito leste da Bohemia

0,124

0,329

DISTRICT_NBOHEMIA

Distrito norte
da Bohemia

0,104

0,305

DISTRICT_NMORAVIA

Distrito norte da Moravia

0,172

0,378

DISTRICT_PRAGUE

Distrito de Praga

0,122

0,327

DISTRICT_SBOHEMIA

Distrito sul da Bohemia

0,083

0,276

DISTRICT_SMORAVIA

Distrito sul da Moravia

0,174

0,379

DISTRICT_OBOHEMIA

Distrito oeste
da Bohemia

0,095

0,294

DISTRICT_NHABIT

Nmero de habitantes

3,023

0,867

DISTRICT_NCIDADES

Nmero de cidades

DISTRICT_PURBANO

Taxa de habitantes
urbanos

2,46

0,96

DISTRICT_SALMED

Salrio mdio

2,373

0,71

DISTRICT_DESEMP95

Taxa de desemprego
em 1995

1,946

0,947

DISTRICT_DESEMP96

Taxa de desemprego
em 1996

2,221

0,956

DISTRICT_EMPREND

Nmero de
empreendedores por
1.000 habitantes

121,114

23,041

81

167

DISTRICT_CRIMES95

Nmero de crimes
cometidos em 1995

2,275

1,077

DISTRICT_CRIMES96

Nmero de crimes
cometidos em 1996

2,255

1,106

DISTRICT_LOCALR

Abriu conta na regio


em que reside

0,909

0,287

DISTRICT_LOCALNR

Abriu conta fora da


regio em que reside

0,091

0,287

TRANS_SALDO1T

Saldo aps transao


no 1 trimestre

24.153,868

11.363,84

1.760,00

66.530,956

TRANS_SALDO2T

Saldo aps transao


no 2 trimestre

28.854,081

13.652,448

2.869,197

79.785,437

TRANS_SALDO3T

Saldo aps transao


no 3 trimestre

31.499,995

14.804,183 -1.650,193

81.631,78

Introduo Minerao de Dados

139

PERTENCE A NOME DO CLIENTE

Nome

Descrio

Mdia

D. Padro

Mnimo

Mximo

TRANS_SALDO4T

Saldo aps transao


no 4 trimestre

36.234,802

15.923,154

2.606,507

89.164,559

TRANS_PAGSEG1T

Pagamento de seguro
no 1 trimestre

145,16

722,67

12504

TRANS_PAGSEG2T

Pagamento de seguro
no 2 trimestre

148,74

730,076

12504

TRANS_PAGSEG3T

Pagamento de seguro
no 3 trimestre

149,15

730,556

12504

TRANS_PAGSEG4T

Pagamento de seguro
no 4 trimestre

149,42

730,72

12504

TRANS_PAGBOL1T

Pagamento de boleto
no 1 trimestre

16,298

12,688

100

TRANS_PAGBOL2T

Pagamento de boleto
no 2 trimestre

16,761

12,745

100

TRANS_PAGBOL3T

Pagamento de boleto
no 3 trimestre

16,803

12,726

100

TRANS_PAGBOL4T

Pagamento de boleto
no 4 trimestre

16,82

12,713

100

TRANS_CREJUR1T

Crdito de juros no 1
trimestre

134,276

61,873

408,733

TRANS_CREJUR2T

Crdito de juros no 2
trimestre

146,598

64,398

436,1

TRANS_CREJUR3T

Crdito de juros no 3
trimestre

145,523

63,911

363,333

TRANS_CREJUR4T

Crdito de juros no 4
trimestre

154,373

66,797

374,7

TRANS_PAGHIP1T

Pagamento de hipoteca
no 1 trimestre

3.039,748

3.188,89

15.857,143

TRANS_PAGHIP2T

Pagamento de hipoteca
no 2 trimestre

3.143,157

3.191,489

15.600,00

TRANS_PAGHIP3T

Pagamento de hipoteca
no 3 trimestre

3.145,323

3.188,325

16.500,00

TRANS_PAGHIP4T

Pagamento de hipoteca
no 4 trimestre

3148,52

3187,91

15.200,00

TRANS_PAGJUR1T

Pagamento de juros no
1 trimestre

0,425

4,521

168,967

TRANS_PAGJUR2T

Pagamento de juros no
2 trimestre

0,54

6,851

258,167

TRANS_PAGJUR3T

Pagamento de juros no
3 trimestre

0,65

7,332

261,733

TRANS_PAGJUR4T

Pagamento de juros no
4 trimestre

0,57

6,58

211,4

TRANS_CREPEN1T

Crdito de aposentadoria no 1 trimestre

908,002

2.076,934

6.998,00

TRANS_CREPEN2T

Crdito de aposentadoria no 2 trimestre

908,002

2.076,934

6.998,00

TRANS_CREPEN3T

Crdito de aposentadoria no 3 trimestre

908,002

2.076,934

6.998,00

TRANS_CREPEN4T

Crdito de aposentadoria no 4 trimestre

908,002

2.076,934

6.998,00

TRANS_PAGEMP1T

Pagamento de emprstimo no 1 trimestre

527,144

1.599,533

9.910,00

140

Anexo IV

PERTENCE A NOME DO CLIENTE

Nome

Descrio

Mdia

D. Padro

Mnimo

Mximo

TRANS_PAGEMP2T

Pagamento de emprstimo no 2 trimestre

568,689

1.652,702

9.910,00

TRANS_PAGEMP3T

Pagamento de emprstimo no 3 trimestre

601,387

1.695,42

9.910,00

TRANS_PAGEMP4T

Pagamento de emprstimo no 4 trimestre

629,481

1.723,56

9.910,00

TRANS_CREOUT1T

Outros crditos no 1
trimestre

12.393,02

10.422,844

49.875,00

TRANS_CREOUT2T

Outros crditos no 2
trimestre

14.171,044

11.902,784

58.187,333

TRANS_CREOUT3T

Outros crditos no 3
trimestre

12.653,905

10.533,782

49.795,00

TRANS_CREOUT4T

Outros crditos no 4
trimestre

14.316,305

11.902,931

58.187,333

TRANS_PAGOUT1T

Outros pagamentos no
1 trimestre

5.302,821

4.788,692

37.650,00

TRANS_PAGOUT2T

Outros pagamentos no
2 trimestre

8.326,47

6.593,825

39.400,00

TRANS_PAGOUT3T

Outros pagamentos no
3 trimestre

7.164,433

6.289,78

38.000,00

TRANS_PAGOUT4T

Outros pagamentos no
4 trimestre

6.809,238

5.817,785

30.100,00

Seleo do mtodo
Dentre os mtodos de classicao no supervisionada destacamse rvore de classicao, redes neurais articiais e os mtodos de
categorizao. Embora neste trabalho possam ser utilizadas redes
neurais articiais (modelos ART e SOM), optamos por utilizar o
mtodo de Categorizao (Clustering): K-means ou C-means. Alm
disso, a rvore de classicao caria muito grande.
Plano de prototipagem
1a Hiptese:
O problema consiste em identicar os clientes RENTVEIS e os
clientes NO-RENTVEIS.
Um cliente rentvel o cliente que utiliza muitos servios do
banco e/ou no cliente inadimplente.
Um cliente no rentvel o cliente inadimplente e/ou o cliente
que utiliza poucos servios do banco.
2a Hiptese:
Outra possibilidade segmentar os clientes em trs categorias:
bsica, intermediria e preferencial.

Introduo Minerao de Dados

141

PERTENCE A NOME DO CLIENTE

Bsica o cliente com baixo saldo mdio trimestral e poucos


servios contratados.
Intermediria o cliente que possui maior saldo mdio trimestral
e mais servios contratados.
Preferencial o cliente com saldo mdio trimestral alto e mais
servios contratados.
Na primeira hiptese utiliza-se o mtodo C-Means disponvel
no sistema de aplicativos matemticos MatLab, ver <http://www.
mathworks.com/>, e na segunda hiptese utiliza-se o mtodo KMeans disponvel no sistema para minerao de dados WEKA, ver
Anexo VI.
Resultado e validao
Na implementao da 1 hiptese utilizamos o mtodo C-means da
ferramenta MatLab e obtivemos o seguinte resultado:
Categoria 1
Centro

Categoria 2

Centro Real

Centro

Centro Real

ACCOUNT_TEMPO

0,000003644800

8,901783186300

-0,000003644800

8,901772369300

ACCOUNT_MENSAL

-0,000009879100

0,925997413600

0,000009879100

0,926002586400

0,000009265300

0,053335415400

-0,000009265200

0,053331251200

ACCOUNT_SEMANAL

0,000003544000

0,020667170900

-0,000003544100

0,020666162400

CLIENT_IDADE

ACCOUNT_TRANSACAO

-0,000016082100

50,114614112300

0,000016082100

50,115163665600

CLIENT_MASC

0,000000404800

0,509333535700

-0,000000404800

0,509333131000

CLIENT_FEMI

-0,000000404800

0,490666464300

0,000000404800

0,490666869000

DISP_INDI

0,000002000100

0,806889678500

-0,000002000000

0,806888099300

DISP_CONJ

-0,000002000100

0,193110321500

0,000002000000

0,193111900700

CARD_TIPO

0,000022565300

0,383795926500

-0,000022564900

0,383759629400

CARD_EMISSO

0,000022795200

1,356507559600

-0,000022794800

1,356381330300

LOAN_TEMPO

0,000014960300

1,176931417000

-0,000014960200

1,176846360800

LOAN_QUANTIA

0,000011903900

22.947,886102810400

-0,000011903900

22.946,220563595400

LOAN_PRAZO

0,000013274900

5,530861501800

-0,000013274900

5,530471831500

LOAN_PRESTACOES

0,000013501500

635,141837045700

-0,000013501500

635,095051855000

LOAN_SITUAO

0,000015042900

0,476017467800

-0,000015042900

0,475982532200

PORDER_SEGURO

0,000002669200

152,652403903300

-0,000002669300

152,648484885200

PORDER_HIPOTECA

0,000012198600

3.103,463015408100

-0,000012198500

3.103,388984919400

PORDER_LEASING

0,000009549200

168,790227755300

-0,000009549100

168,777372163200

PORDER_EMPRESTIMO

0,000013218600

674,509074380500

-0,000013218600

674,461815799000

PORDER_OUTROS

0,000006301300

618,218094396300

-0,000006301400

618,198794365300

DISTRICT_CBOHEMIA

-0,000002532600

0,909110383000

0,000002532700

0,909111839200

DISTRICT_LBOHEMIA

0,000002532600

0,090889617000

-0,000002532700

0,090888160800

DISTRICT_NBOHEMIA

-0,000000133500

0,126666622300

0,000000133500

0,126666711100

142

Anexo IV

PERTENCE A NOME DO CLIENTE

Categoria 1
Centro
DISTRICT_NMORAVIA

Categoria 2

Centro Real

Centro

Centro Real

-0,000000952400

0,123555242100

0,000000952400

0,123555869000

0,000000111900

0,103555589600

-0,000000111900

0,103555521500

DISTRICT_SBOHEMIA

-0,000001089100

0,172221811000

0,000001089100

0,172222633500

DISTRICT_SMORAVIA

0,000003079800

0,121556562100

-0,000003080000

0,121554549000

DISTRICT_PRAGUE

0,000000900000

0,083333582100

-0,000000900000

0,083333084500

DISTRICT_NHABIT

DISTRICT_OBOHEMIA

-0,000000689500

0,173777516500

0,000000689600

0,173778039100

DISTRICT_NCIDADES

-0,000000881800

0,095333074400

0,000000881700

0,095333592300

DISTRICT_PURBANO

0,000000929000

3,022889693900

-0,000000929000

3,022888083800

DISTRICT_SALMED

1,000000000000

1,000000000000

1,000000000000

1,000000000000

DISTRICT_DESEMP95

0,000001746300

2,460446121700

-0,000001746400

2,460442767100

DISTRICT_DESEMP96

0,000002785200

2,372668644200

-0,000002785400

2,372664689000

DISTRICT_EMPREND

-0,000000563500

1,945999466300

0,000000563500

1,946000533700

DISTRICT_CRIMES95

-0,000001440200

2,221109734800

0,000001440200

2,221112487500

DISTRICT_CRIMES96

0,000002279200

121,113608070600

-0,000002279300

121,113503038200

DISTRICT_LOCALR

0,000001965200

2,274891005100

-0,000001965400

2,274886772500

DISTRICT_LOCALNR

0,000001681200

2,254668526600

-0,000001681400

2,254664806600

TRANS_PAGSEG1T

0,000002852700

145,162209732700

-0,000002852900

145,158086466800

TRANS_PAGSEG2T

0,000002866100

148,742314694800

-0,000002866200

148,738129650300

TRANS_PAGSEG3T

0,000002867200

149,152316880500

-0,000002867300

149,148127464100

TRANS_PAGSEG4T

0,000002877200

149,422275283000

-0,000002877400

149,418070296100

TRANS_PAGBOL1T

0,000006977300

16,298355526500

-0,000006977300

16,298178477200

TRANS_PAGBOL2T

0,000006791200

16,760753565900

-0,000006791300

16,760580454100

TRANS_PAGBOL3T

0,000006882800

16,803465708900

-0,000006882800

16,803290534500

TRANS_PAGBOL4T

0,000006881700

16,819687834400

-0,000006881700

16,819512854300

TRANS_CREJUR1T

0,000038360800

134,278622668700

-0,000038360400

134,273875694900

TRANS_CREJUR2T

0,000039522100

146,600763494700

-0,000039521700

146,595673230700

TRANS_CREJUR3T

0,000039802000

145,525639837400

-0,000039801600

145,520552286600

TRANS_CREJUR4T

0,000039614200

154,375978451800

-0,000039613800

154,370686229800

TRANS_PAGHIP1T

0,000014549200

3.039,794472011900

-0,000014549100

3.039,701680469200

TRANS_PAGHIP2T

0,000014427000

3.143,202891229000

-0,000014426900

3.143,110804102300

TRANS_PAGHIP3T

0,000014453300

3.145,369217855300

-0,000014453200

3.145,277054810600

TRANS_PAGHIP4T

0,000014491800

3.148,566087106800

-0,000014491700

3.148,473690109300

TRANS_PAGJUR1T

0,000001464000

0,425118328100

-0,000001464100

0,425105090100

TRANS_PAGJUR2T

0,000001058300

0,540058441900

-0,000001058300

0,540043940600

TRANS_PAGJUR3T

0,000001201500

0,650218412500

-0,000001201600

0,650200792300

TRANS_PAGJUR4T

0,000000906900

0,569566724100

-0,000000907000

0,569554788700

TRANS_CREPEN1T

-0,000024603700

907,950455227700

0,000024603700

908,052655743200

TRANS_CREPEN2T

-0,000024603700

907,950455227700

0,000024603700

908,052655743200

TRANS_CREPEN3T

-0,000024603700

907,950455227700

0,000024603700

908,052655743200

TRANS_CREPEN4T

-0,000024603700

907,950455227700

0,000024603700

908,052655743200

TRANS_PAGEMP1T

0,000012241900

527,163381740900

-0,000012241900

527,124218967600

TRANS_PAGEMP2T

0,000012688000

568,709490461000

-0,000012688000

568,667551556800

TRANS_PAGEMP3T

0,000013087300

601,408722182800

-0,000013087300

601,364345321300

TRANS_PAGEMP4T

0,000013473000

629,503888676500

-0,000013473000

629,457445538600

Introduo Minerao de Dados

143

PERTENCE A NOME DO CLIENTE

Categoria 1
Centro

Categoria 2

Centro Real

Centro

Centro Real

TRANS_CREOUT1T

0,000040366800

12.393,440734770400

-0,000040366400

12.392,599265179000

TRANS_CREOUT2T

0,000040426400

14.171,524721453000

-0,000040426000

14.170,562352836100

TRANS_CREOUT3T

0,000040726000

12.654,334485002700

-0,000040725700

12.653,476490456100

TRANS_CREOUT4T

0,000040979800

14.316,792525024700

-0,000040979500

14.315,816969028800

TRANS_PAGOUT1T

0,000031064300

5.302,969848044000

-0,000031064000

5.302,672334945000

TRANS_PAGOUT2T

0,000034938300

8.326,700480836500

-0,000034938000

8.326,239728609090

TRANS_PAGOUT3T

0,000034180600

7.164,648335182600

-0,000034180300

7.164,218360171300

TRANS_PAGOUT4T

0,000035629400

6.809,445448262300

-0,000035629000

6.809,030882492300

TRANS_SALDO1T

0,000037552100

24.154,294440766100

-0,000037551700

24.153,440973813800

TRANS_SALDO2T

0,000037870800

28.854,597868748100

-0,000037870400

28.853,563816555300

TRANS_SALDO3T

0,000038056200

31.500,558115302300

-0,000038055700

31.499,431341069300

TRANS_SALDO4T

0,000039399600

36.235,429059951700

-0,000039399200

36.234,174334161900

Analisando os graus de incluso de cada elemento para cada


categoria, percebemos que cada elemento est associado a cada
categoria com a mesma intensidade, ou seja, no se consegue distinguir em qual categoria est o elemento. Assim no h possibilidade
de extrair algum conhecimento.
Na implementao da 2 hiptese utilizamos o mtodo K-means
da ferramenta WEKA e obtivemos o seguinte resultado:
Categoria 1
Centro

D.
Padro

Categoria 2
Centro
Real

ACCOUNT_TEMPO

-0,0028 1,0099

ACCOUNT_MENSAL

-0,0246 1,0398

0,9196

0,0474 1,0900

0,0640

ACCOUNT_TRANSACAO

-0,0296 0,8949

0,0165

CLIENT_IDADE

-0,0230 0,9806

CLIENT_MASC
CLIENT_FEMI
DISP_INDI

-0,0480 1,0364

DISP_CONJ

0,0480 1,0364

CARD_TIPO

0,0911 1,0639

CARD_EMISSO

0,0826 1,0402

LOAN_TEMPO

D.
Padro

Centro

D.
Padro

Centro
Real

-0,0001 0,9946

0,0001 0,0998

0,9263

0,0055 0,9912

0,9274

-0,0015 0,0970

0,0500

0,0015 1,0032

0,0537

0,0021 0,1069

0,0237

-0,0125 0,9570

0,0189

49,7219

-0,0057 0,0977

49,1444

0,0611 1,0237

51,1588

0,0051 1,0007

0,5119

-0,1019 0,0000

0,0000

0,9814 0,0000

1,0000

-0,0051 1,0007

0,4881

0,1019 0,0000

1,0000

-0,9814 0,0000

0,0000

0,7879

0,0002 0,0998

0,8078

0,0108 0,9917

0,8112

0,2121 -0,0002 0,0998

0,1922 -0,0108 0,9917

0,1888

0,4570

-0,0034 0,0965

0,3565

0,0079 1,0145

0,3901

1,5851

-0,0031 0,0975

1,2706

0,0075 1,0119

1,3772

-0,0153 0,9917

1,1334

0,0017 0,1017

1,2241 -0,0119 0,9864

1,1431

LOAN_QUANTIA

-0,0079 1,0304

22.394,3880

0,0020 0,1033

24.360,1976

LOAN_PRAZO

-0,0495 0,9052

4,8042

0,0021 0,1032

5,8359

-0,0066 0,9927

5,4338

LOAN_PRESTACOES

0,0070 1,0474

647,2466

0,0018 0,1026

665,4389

-0,0188 0,9608

602,5456

LOAN_SITUAO

-0,0053 1,0122

0,4698

0,0011 0,1008

0,4889

-0,0093 0,9898

0,4652

PORDER_SEGURO

0,1146 1,4830

236,7795

-0,0041 0,0767

122,7721

0,0081 1,0333

158,5967

PORDER_HIPOTECA

0,0279 0,9595

3.188,0856

-0,0035 0,0978

2.996,3118

0,0265 1,0303

3.183,8375

PORDER_LEASING

0,0844 1,1668

225,5957

-0,0038 0,0916

143,3396

0,0135 1,0274

177,8710

PORDER_EMPRESTIMO

0,0002 1,0413

674,8430

0,0011 0,1015

693,6126

-0,0104 0,9740

655,8946

144

0,0009 1,0033

Centro
Real
89,0311

ACCOUNT_SEMANAL

8,8976

Centro

Categoria 3

-0,0173

8,9016

0,9591 21.736,7862

Anexo IV

PERTENCE A NOME DO CLIENTE

Categoria 1
Centro

D.
Padro

Categoria 2
Centro
Real

Centro

D.
Padro

755,7291 -0,0017 0,0945

Categoria 3
Centro
Real

Centro

D.
Padro

592,1745 -0,0080 1,0105

Centro
Real

PORDER_OUTROS

0,0898 1,1389

605,9572

DISTRICT_CBOHEMIA

0,0364 0,9469

0,9196

-0,0021 0,1029

0,9031

0,0101 0,9855

0,9120

DISTRICT_LBOHEMIA

-0,0364 0,9469

0,0804

0,0021 0,1029

0,0969

-0,0101 0,9855

0,0880

DISTRICT_NBOHEMIA

-0,3808 0,0000

0,0000

0,0058

0,1061

0,1458

0,0480 1,0516

0,1426

DISTRICT_NMORAVIA

-0,3754 0,0000

0,0000

0,0052 0,1057

0,1406

0,0520 1,0566

0,1407

DISTRICT_PRAGUE

-0,3398 0,0000

0,0000

0,0061 0,1075

0,1221

0,0337 1,0425

0,1138

DISTRICT_SBOHEMIA

-0,4561 0,0000

0,0000

0,0030 0,1025

0,1834

0,0954 1,0756

0,2082

DISTRICT_SMORAVIA

2,6880 0,0000

1,0000

-0,0372 0,0000

0,0000

-0,3719 0,0000

0,0000

DISTRICT_OBOHEMIA

-0,3015 0,0000

0,0000

0,0062 0,1088

0,1005

0,0222 1,0328

0,0895

DISTRICT_NHABIT

-0,4586 0,0000

0,0000

0,0089

0,2076

0,0385 1,0320

0,1884

DISTRICT_NCIDADES

-0,3246 0,0000

0,0000

0,0016 0,1022

0,0999

0,0731 1,0938

0,1168

DISTRICT_PURBANO

1,1275 0,0000

4,0000

-0,0157 0,0964

2,8867

-0,1549 0,9734

2,8887

DISTRICT_SALMED

0,0000 0,0000

1,0000

0,0000 0,0000

1,0000

0,0000 0,0000

1,0000

DISTRICT_DESEMP95

1,6030 0,0000

4,0000

-0,0223 0,0850

2,2463 -0,2207

DISTRICT_DESEMP96

2,2920 0,0000

4,0000

-0,0317 0,0550

2,1474

-0,3170 0,5646

2,1476

DISTRICT_EMPREND

-0,9988 0,0000

1,0000

0,0133 0,0988

2,0716

0,1436 0,9932

2,0820

DISTRICT_CRIMES95

-1,2777 0,0000

1,0000

0,0167 0,0944

2,3802

0,1868

0,9341

2,3996

DISTRICT_CRIMES96

1,9915 0,0000

115,0215 -0,2864 0,7095

114,5146

0,1071

167,0001 -0,0264 0,0724

0,8631

2,2485

DISTRICT_LOCALR

1,6020 0,0000

4,0000

-0,0233 0,0849

2,0237

-0,2105 0,8644

2,0482

DISTRICT_LOCALNR

1,5777 0,0000

4,0000

-0,0225

0,0861

2,0062

-0,2122 0,8663

2,0199

TRANS_PAGSEG1T

0,1118

-0,0037 0,0775

118,2046

0,0056 1,0257

149,2071

TRANS_PAGSEG2T

0,1099 1,4726

228,9755 -0,0040 0,0769

119,9022

0,0082 1,0357

154,7268

TRANS_PAGSEG3T

0,1093 1,4716

229,0000

-0,0040 0,0769

119,8549

0,0089 1,0365

155,6522

TRANS_PAGSEG4T

0,1089 1,4713

228,9956

-0,0040 0,0769

119,8991

0,0094 1,0367

156,2889

TRANS_PAGBOL1T

-0,0122 0,8390

16,1435

0,0017 0,1070

16,5140

-0,0131 0,9697

16,1321

TRANS_PAGBOL2T

-0,0193 0,8704

16,5147

0,0017 0,1067

16,9710

-0,0107 0,9660

16,6243

TRANS_PAGBOL3T

-0,0185 0,8683

16,5680

0,0014 0,1068

16,9866

-0,0088 0,9658

16,6914

TRANS_PAGBOL4T

-0,0177 0,8673

16,5946

0,0015 0,1067

17,0090

-0,0096 0,9662

16,6976

TRANS_CREJUR1T

0,0217 0,9393

135,6189

-0,0013 0,1010

133,4595

0,0068 1,0063

134,6970

TRANS_CREJUR2T

0,0170 0,9702

147,6930

-0,0022 0,0996

145,2072

0,0162 1,0118

147,6415

TRANS_CREJUR3T

0,0345 0,9809

147,7280

-0,0019 0,1004

144,3216

0,0088

1,0011

146,0855

TRANS_CREJUR4T

0,0603 0,9597

158,4012 -0,0018 0,1006

153,1910

0,0007 1,0050

154,4201

TRANS_PAGHIP1T

0,0340 0,9363

3.148,1703

-0,0022 0,0995

2.970,5492

0,0117 1,0212

3.077,0581

TRANS_PAGHIP2T

0,0218 0,9393

3.212,7313

-0,0022 0,0992

3.071,6675

0,0157 1,0240

3.193,2632

TRANS_PAGHIP3T

0,0196 0,9373

3.207,8143

-0,0022 0,0993

3.075,8177

0,0157 1,0227

3.195,3798

TRANS_PAGHIP4T

0,0204 0,9353

3.213,5533

-0,0023 0,0992

3.075,1980

0,0166 1,0247

3.201,4392

TRANS_PAGJUR1T

0,0072 0,8922

0,4577

-0,0001 0,1074

0,4219

-0,0013 0,9533

0,4192

1,4871

225,9546

TRANS_PAGJUR2T

-0,0002 0,7012

0,5387

0,0003 0,1147

0,5592 -0,0026 0,9140

0,5222

TRANS_PAGJUR3T

0,0246 1,0414

0,8306

0,0003 0,1130

0,6700

-0,0093 0,8436

0,5820

TRANS_PAGJUR4T

0,0148 1,0016

0,6669

-0,0002 0,0923

0,5557

-0,0020 1,0694

0,5564

TRANS_CREPEN1T

-0,0109 1,0026

885,3630

0,0001 0,1002

910,7016

0,0017 0,9982

911,5323

TRANS_CREPEN2T

-0,0109 1,0026

885,3630

0,0001 0,1002

910,7016

0,0017 0,9982

911,5323

TRANS_CREPEN3T

-0,0109 1,0026

885,3630

0,0001 0,1002

910,7016

0,0017 0,9982

911,5323

TRANS_CREPEN4T

-0,0109 1,0026

885,3630

0,0001 0,1002

910,7016

0,0017 0,9982

911,5323

Introduo Minerao de Dados

145

PERTENCE A NOME DO CLIENTE

Categoria 1
Centro

D.
Padro

Categoria 2
Centro
Real

Centro

D.
Padro

Categoria 3
Centro
Real

Centro

D.
Padro

Centro
Real

TRANS_PAGEMP1T

0,0044 1,0402

534,1817

0,0019 0,1030

558,0148

-0,0198 0,9590

495,4730

TRANS_PAGEMP2T

0,0102

1,0401

585,5461

0,0022

0,1031

605,3785

-0,0241 0,9576

528,8584

TRANS_PAGEMP3T

0,0007 1,0362

602,5733

0,0024 0,1034

642,4157

-0,0235 0,9556

561,5442

TRANS_PAGEMP4T

0,0104 1,0529

647,4057

0,0016 0,1022

657,2300

-0,0183 0,9630

597,9395

TRANS_CREOUT1T

0,0519 1,0052

12.933,9656

-0,0017 0,0989

12.220,0008

0,0019 1,0094

12.412,8234

TRANS_CREOUT2T

0,0542

1,0061 14.816,1744

-0,0013 0,0992

14.016,3073

-0,0022 1,0063

14.144,8574

TRANS_CREOUT3T

0,0582 0,9918

13.266,9716

-0,0023 0,0988

12.414,7886

0,0060 1,0130

12.717,1082

TRANS_CREOUT4T

0,0692 1,0127

15.139,9876

-0,0012 0,0990

14.175,8502

TRANS_PAGOUT1T

0,0207 0,9947

5.401,9470

-0,0003 0,0999

5.288,9339

-0,0028 1,0026

5.289,4128

TRANS_PAGOUT2T

0,0341 0,9678

8.551,3195

-0,0022 0,0983

8.180,7466

0,0121 1,0244

8.406,2554

TRANS_PAGOUT3T

0,0428 0,9793

7.433,6359

-0,0025

0,0981

7.007,8178

0,0124 1,0230

7.242,4266

TRANS_PAGOUT4T

0,0567 0,9888

7.139,1066

-0,0028 0,0977

6.645,1766

0,0118 1,0245

6.877,8880

TRANS_SALDO1T

-0,0092 0,9318

24.049,3204

0,0001 0,1016

24.160,6860

0,0020 1,0027

24.176,5954

TRANS_SALDO2T

0,0230 0,9735

29.168,0872

-0,0001 0,1011

28.839,0631

-0,0051 0,9966

28.784,4534

-0,0075 1,0055 14.227,0328

TRANS_SALDO3T

0,0381 0,9783

32.064,0341 -0,0003 0,1010

31.449,6605

-0,0071 0,9963

31.394,8850

TRANS_SALDO4T

0,0504 0,9639

37.037,3286

36.086,7164

-0,0047 1,0016

36.159,9629

-0,0009 0,1008

Treinamento

Teste

Categoria 0

397 12,6%

204 15%

Categoria 1

1.338 42,4%

235 17%

Categoria 2

1.415 45%

911 67%

3.150

1.350

Analisando as categorias geradas percebemos que as coordenadas dos centros de cada categoria so prximos entre si e que o
desvio-padro de cada categoria relativamente alto. Sendo assim,
as categorias possuem alta disperso e no so bem separadas o que
impossibilita descobrir alguma associao entre os dados.
Retorno de investimento ROI
Como a minerao de dados no atendeu aos objetivos estipulados
nas hipteses, este projeto no seria usado como um sistema de
deciso, portanto, no haveria retorno de investimento
Bibliograa
BRAGA, Luis Paulo Vieira. Introduo minerao de dados. 1. ed.
E-Papers Servios Editoriais: Rio de Janeiro, 2004.

146

Anexo IV

PERTENCE A NOME DO CLIENTE

BUSSAB, W. O.; MORETTIN, P. A. Estatstica bsica. 5. ed. Editora


Saraiva: So Paulo, 2004.
CUEVAS, A., FEBRERO, M.; FRAIMAN, R. Estimating the number of clusters. The Canadian Journal of Statistics, v. 28, n. 2, p. 367-382, 2000.
HAND, D. J. Data mining: statistics and more?. The American Statistician, v. 52, n. 2, p. 112-118, maio de 1998.
PKDD99 Discovery Challenge Guide to the Financial Data Set. Disponvel em: <http://lisp.vse.cz/pkdd99/>. Acessado em agosto de 2004.
Descrio dos dados
Relao Conta (account)
Item

Descrio

Observao

Account_id Identificao da conta


District_id

Identificao do Estado

Date

Data de abertura da
conta

Na forma YYMMDD

Frequency

Freqncia de emisso
das indicaes

"POPLATEK MESICNE" emisso mensal


"POPLATEK TYDNE" emisso semanal
"POPLATEK PO OBRATU" emisso aps a transao

Atributo

Transformao

Acount_id

Atributo eliminado

District_id

Atributo eliminado

Date

Atributo transformado

Frequency

Atributo transformado

Atributo

Transformao

Acount_data

Atributo codificado Tempo de conta 01/01/2004

Account_mensal

Atributo codificado
Se POPLATEK MESICNE assume valor igual a 1 seno igual a 0

Account_semanal

Atributo codificado
Se POPLATEK TYDNE assume valor igual a 1 seno igual a 0

Account_transacao

Atributo codificado
Se POPLATEK PO OBRATU assume valor igual a 1 seno igual a 0

Introduo Minerao de Dados

147

PERTENCE A NOME DO CLIENTE

Dados estatsticos Tempo de Conta x Freqncia


Quantidade

POPLATEK MESICNE

POPLATEK TYDNE

POPLATEK PO OBRATU

898

831

50

17

1.363

1.267

68

28

661

614

33

14

10

439

399

27

13

11

1.139

1.056

62

21

Total

4.500

4.167

240

93

Relao Cliente (client)


Item

Descrio

Observao

Client_id

Identificador do cliente

Birth number Data de nascimento e sexo

District_id

O nmero na forma YYMMDD para


homens,O nmero na forma YYMM+50DD
para mulheres,onde YYMMDD a data de
nascimento

Endereo do cliente

Atributo

Transformao

Client_id

Atributo eliminado

District_id

Atributo eliminado

Birth_number

Atributo transformado em 3 novos atributos: client_idade,


client_masc e client_femi

Atributo

Transformao

Client_idade

Atributo codificado Idade (anos) do cliente em 01/01/2004

Client_masc

Atributo codificado Se o cliente for do sexo masculino assume


valor igual a 1 seno igual a 0

Client_femi

Atributo codificado Se o cliente for do sexo feminino assume


valor igual a 1 seno igual a 0

Dados Estatsticos Sexo x Idade


Quantidade

Mdia

Mediana

Sexo
Masculino

2724 50,7%

51,1935

51

18

93

37

64,5

Sexo
Feminino

2645 49,3%

50,3981

50

17

90

36

63

5369

50,8016

50

17

93

36

64

Total

148

Mnimo Mximo 1 Quartil

3 Quartil

Anexo IV

PERTENCE A NOME DO CLIENTE

Relao Cliente x Conta (disposition)


Item

Descrio

Disp_id

Identificador de registro

Client_id

Identificao do cliente

Account_id

Identificao da conta

Type

Tipo de conta
(titular/dependente)

Observao

S o titular pode emitir ordens e responder


por um emprstimo

Relao Ordem Permanente (permanent order)


Item

Descrio

Order_id

Identificador de registro

Account_id

Identificador da conta
debitada

Bank_to

Banco do cedente

Observao

Cada banco tem cdigo nico de duas letras

Account_to Conta do cedente


Amount

Quantia debitada

K_symbol

"POJISTNE" pagamento de seguro "SIPO"


Finalidade do pagamento pagamento de hipoteca "LEASING" pagamento de
leasing "UVER" pagamento de emprstimo

Atributo

Transformao

Order_id

Atributo eliminado

Account_id

Atributo eliminado

Bank_to

Atributo eliminado

Account_to

Atributo eliminado

Amount

Atributo mantido

K_symbol

Atributo transformado em 5 novos atributos: order_seguro,


order_hipoteca, order_leasing, order_emprestimo e order _outro

Atributo

Transformao

Order_quantia

Atributo no modificado

Order_seguro

Atrib. cod. Se a ordem for para pagamento de seguro assume


valor igual a 1 seno igual a 0

Order_hipoteca

Atrib. cod. Se a ordem for para pagamento de hipoteca assume


valor igual a 1 seno igual a 0

Order_leasing

Atrib. cod. Se a ordem for para pagamento de leasing assume


valor igual a 1 seno igual a 0

Order_emprestimo

Atrib. cod. Se a ordem for para pagamento de emprestimo


assume valor igual a 1 seno igual a 0

Order_outros

Atrib. cod. Se a ordem for para outras finalidades assume valor


igual a 1 seno igual a 0

Introduo Minerao de Dados

149

PERTENCE A NOME DO CLIENTE

Dados estatsticos Tipo de Ordem x Valor


Quantidade

Mdia

Soma

Mnimo

Mximo

532 8%

1.291,22

686.927

12.504

3502 54%

3.987,84

13.965.417

14.882

341 5%

2.227,35

759.527

397

4.975,2

Order_emprestimo

717 11%

4.233,17

3.035.184

304

9.910

Order_outros

1379 22%

2.017,36

2.781.938

12.925

Order_seguro
Order_hipoteca
Order_leasing

Relao Transao (transaction)


Item

Descrio

Trans_id

Identificador da transao

Observao

Account_id Identificador da conta


Date

Data da transao

Na forma YYMMDD

Type

Tipo da transao

"PRIJEM" crdito "VYDAJ" dbito

Operation

Modalidade da transao

"VYBER KARTOU" saque com carto de crdito


"VKLAD" depsito em dinheiro
"PREVOD Z UCTU" crdito de outro banco
"VYBER" saque em dinheiro
"PREVOD NA UCET" remessa para outro banco

Amount

Quantia de dinheiro

Balance

Saldo depois da transao

K_symbol

Finalidade da transao

"POJISTNE" para pagamento de seguro


"SLUZBY" para pagamento de boleto
"UROK" crdito de juros
"SANKC. UROK" dbito de juros
"SIPO" para pagamento de hipoteca
"DUCHOD" crdito de aposentadoria
"UVER" pagamento de emprstimo

Bank

Banco do terceiro

Cada banco tem cdigo nico de duas letras

Account

Conta do terceiro

Relao Emprstimo (loan)


Item

Descrio

Loan_id

Identificador do emprstimo

Observao

Account_id Identificao da conta


Date

Data quando o emprstimo


foi concedido

Amount

Quantia de dinheiro

Duration

Durao do emprstimo

Payments

Pagamentos mensais

Status

150

Situao do emprstimo

Na forma YYMMDD

'A' contrato finalizado, sem problemas,


'B' contrato finalizado, emprstimo no pago,
'C' contrato ativo, OK
'D' contrato ativo, cliente em dbito

Anexo IV

PERTENCE A NOME DO CLIENTE

Atributo

Transformao

Atributo

Transformao

Loan_id

Atributo eliminado

Duration

Atributo mantido

Account_id

Atributo eliminado

Payments

Atributo mantido

Date

Atributo transformado

Status

Atributo transformado

Amount

Atributo mantido

Atributo

Transformao

Loan_tempo

Atributo codificado Tempo do emprstimo em 01/01/2004

Loan_quantia

Atributo mantido

Loan_prazo

Atributo mantido

Loan_prestacao

Atributo mantido

Loan_situacao

Atributo codificado A = 4, B = 1, C = 3 e D = 2

Dados Estatsticos Situao x (Quantia Prazo Prestaes)


Amount
Qtd

Mdia

A (4) 203 30%


B (1)
C (3)

31 4%

45 7%

Total

682

Payments

Mnimo Mximo Mdia Mnimo Mximo

91.641,46

Mdia

Mnimo Mximo

4.980 323.472 22,22

12

60 4.264,13

319

9.736

140.720,90 29.448 464.520 25,54

12

60 5.396,25

1.671

8.308

5.148 590.820 43,44

12

60 3.938,53

304

9.910

249.284,53 36.204 541.200 46,00

12

60 5.286,64

1.728

9.698

151.410,18

12

60 4.190,66

304

9.910

403 59% 171.410,35

D (2)

Duration

4.980 590.820 36,49

Relao Carto de Crdito (Credit Card)


Item

Descrio

Observao

Card_id

Identificador do carto

Disp_id

Identificador conta-cliente

Type

Tipo de carto

Carto "jnior", "clssico" ou "ouro"

Issued

Data de emisso

Na forma YYMMDD

Atributo

Transformao

Atributo

Transformao

Card_id

Atributo eliminado

Type

Atributo transformado

Disp_id

Atributo eliminado

Issued

Atributo transformado

Atributo

Transformao

Card_tipo

Atributo codificado Jnior = 1, classic = 2 e gold = 3

Card_emissao

Atributo codificado Tempo de carto em 01/01/2004

Introduo Minerao de Dados

151

PERTENCE A NOME DO CLIENTE

Dados Estatsticos Tipo x Emisso


Quantidade

Mdia

Mnimo

Mximo

Jnior (1)

145 16%

7,02

10

Classic (2)

659 74%

6,84

11

88 10%

6,54

892

6,84

11

Gold (3)
Total

Relao Dado Demogrco (demographic data)


Item

Descrio

Observao

A1 = district_id Cdigo do distrito


A2

Nome do distrito

A3

Regio

A4

Nmero de habitantes

A5

Nmero de municpios com habitantes < 499

A6

Nmero de municpios com habitantes 500-1.999

A7

Nmero de municpios com habitantes 2.000-9.999

A8

Nmero de municpios com habitantes >10.000

A9

Nmero de cidades

A10

Percentual habitantes urbanos

A11

Salrio mdio

A12

Taxa de desemprego de 1995

A13

Taxa de desemprego de 1996

A14

Nmero de empreendedores por 1.000 habitantes

A15

Nmero de crimes cometidos de 1995

A16

Nmero de crimes cometidos de 1996

Escala das Variveis


Nome do Atributo

Range

A4 Nmero de habitantes

(1) < 50.000


(2) 50.000 100.000

(3) 100.000 150.000


(4) > 150.000

A10 Taxa de habitantes urbanos

(1) < 500


(2) 500 700

(3) 700 900


(4) > 900

A11 Salrio mdio

(1) < 9.000


(2) 9.000 10.000

(3) 10.000 11.000


(4) > 11.000

A12 Taxa de desemprego at 1995


A13 Taxa de desemprego at 1996

(1) < 200


(2) 200 400

(3) 400 600


(4) > 600

A15 Nmero de crimes de 1995


A16 Nmero de crimes de 1996

(1) <= 2.500


(2) 2.500 5.000

(3) 5.000 10.000


(4) > 10.000

152

Anexo IV

PERTENCE A NOME DO CLIENTE

Atributo

Transformao

A1

Atributo eliminado

A2

Atributo eliminado

A3

Atributo transformado Criados 8 novos atributos para cada regio

A4

Atributo transformado Criado uma escala para este atributo

A5

Atributo eliminado

A6

Atributo eliminado

A7

Atributo eliminado

A8

Atributo eliminado

A9

Atributo mantido

A10

Atributo transformado Criado uma escala para este atributo

A11

Atributo transformado Criado uma escala para este atributo

A12

Atributo transformado Criado uma escala para este atributo

A13

Atributo transformado Criado uma escala para este atributo

A14

Atributo mantido

A15

Atributo transformado Criado uma escala para este atributo

A16

Atributo transformado Criado uma escala para este atributo

Dados Estatsticos Por Regio


Central
Bohemia

East
Bohemia

North
Bohemia

1.234.781 1.178.977

North
Moravia

Prague

South
Moravia

West
Bohemia

700.595 2.054.989

859.306

A4

1.105.234

A5

752

705

269

217

555

837

409

A6

320

291

161

311

133

496

161

A7

56

66

52

96

46

114

53

A8

19

21

21

28

21

13

A9

66

86

70

60

48

82

69

A10

524,41

629,45

802,00

651,00

1.000,00

610,50

548,64

656,90

A11

9.357,25

8.611,18

9.334,2

9.049,18 12.541,00

8.831,50

8.728,50

9.015,40

A12

246,41

236,63

480,20

484,20

29,00

227,13

322,78

213,80

A13

287,83

298,36

585,70

569,72

43,00

281,37

382,85

264,60

A14

129,75

116,45

112,3

102,81

167,00

122,38

113,35

111,70

A15

3.385,33

2.765,45

4.863,40

6.779,30 85.677,00

2.240,87

3.370,00

2.476,90

A16

3.620,58

2.786,00

4.838,00

6.174,27 99.107,00

2.271,62

3.845,78

2.586,30

Introduo Minerao de Dados

1.970.302 1.2049.53

South
Bohemia

153

PERTENCE A NOME DO CLIENTE

Junes das relaes


A) Juno I
Relaes
Account 4.500 registros e 4 atributos
Disp

5.369 registros e 4 atributos

Client
5.369 registros e 3 atributos
Existem 4.500 titulares e 869 dependentes, cada conta possui
apenas um dependente ou nenhum dependente. A relao resultante possui 4.500 registros e 9 atributos.
Juno I 9 Atributos
ACCOUNT_TEMPO

CLIENT_MASC

ACCOUNT_MENSAL

CLIENT_FEMI

ACCOUNT_SEMANAL

DISP_INDI

ACCOUNT_TRANSACAO

DISP_CONJ

CLIENT_IDADE

B) Juno II
Relaes
Juno I 4.500 registros e 9 atributos
Card
892 registros e 4 atributos
Existem 892 cartes emitidos. Um conta possui apenas um
carto ou no possui nenhum. Existem 3.608 contas sem carto,
por conseqncia surgem 3608 valores nulos que so substitudos
por zero.
Juno II 11 Atributos
JUNO I
CARD_TIPO
CARD_EMISSO

C) Juno III
Relaes
Juno II 4.500 registros e 11 atributos
Loan
682 registros e 7 atributos
Existem 682 emprstimos e cada conta possui no mximo
apenas um emprstimo. Existem 3.818 contas sem emprstimos,
154

Anexo IV

PERTENCE A NOME DO CLIENTE

por conseqncia surgem 3.818 valores nulos que so substitudos


por zero.
Juno III 16 Atributos
JUNO II
LOAN_TEMPO
LOAN_QUANTIA
LOAN_PRAZO
LOAN_PRESTACOES
LOAN_SITUAO

D) Juno IV
Relaes
Juno III

4.500 registros e 16 atributos

POrder
6.471 registros e 6 atributos
Existem 6.471 ordens de pagamentos. Uma conta possui de 0 a
5 ordens emitidas. Existem 3.758 contas que j emitiram ordens e
748 contas que nunca emitiram ordens de pagamento.
Juno IV 21 Atributos
JUNO III
PORDER_SEGURO
PORDER_HIPOTECA
PORDER_LEASING
PORDER_EMPRESTIMO
PORDER_OUTROS

E) Juno V
Relaes
Juno IV

4.500 registros e 21 atributos

District
77 registros e 16 atributos
Existem 77 distritos. O distrito est relacionado com local de residncia do cliente e o local de abertura da conta. Do total das 4.500
contas, 4.091 foram abertas no mesmo local de residncia do cliente
e 409 contas foram abertas em local diferente da residncia.

Introduo Minerao de Dados

155

PERTENCE A NOME DO CLIENTE

Juno V 40 Atributos
JUNO IV

DISTRICT_SMORAVIA

DISTRICT_DESEMP96

DISTRICT_CBOHEMIA

DISTRICT_OBOHEMIA

DISTRICT_EMPREND

DISTRICT_LBOHEMIA

DISTRICT_NHABIT

DISTRICT_CRIMES95

DISTRICT_NBOHEMIA

DISTRICT_NCIDADES

DISTRICT_CRIMES96

DISTRICT_NMORAVIA

DISTRICT_PURBANO

DISTRICT_LOCALR

DISTRICT_PRAGUE

DISTRICT_SALMED

DISTRICT_LOCALNR

DISTRICT_SBOHEMIA

DISTRICT_DESEMP95

F) Juno VI
Relaes
Juno V

4.500 registros e 40 atributos

Trans
1.056.320 registros e 10 atributos
Existem 1.056.320 trasaes. As transaes foram consolidadas
pela mdia de cada trimestre, ou seja, calculou-se o total de movimentos dos quatros trimestre de cada ano e depois tirou-se a mdia.
E foi considerado a mdia do ltimo saldo de cada trimestre.
Juno VI 80 Atributos
JUNO V

TRANS_PAGJUR1T..4T

TRANS_SALDO1T..4T

TRANS_CREPEN1T..4T

TRANS_PAGSEG1T..4T

TRANS_PAGEMP1T..4T

TRANS_PAGBOL1T..4T

TRANS_CREOUT1T..4T

TRANS_CREJUR1T..4T

TRANS_PAGOUT1T..4T

TRANS_PAGHIP1T..4T

AIV.6 CLASSIFICAO SUPERVISIONADA DE


CRDITO EM UM BANCO NA ALEMANHA
Maria de Ftima da Graa Conceio (DME/IM), Guido Alberti Moreira (DME/IM) e Samuel Martins de Souza (DME/IM)
Introduo ao problema
Mil clientes de um banco na Alemanha pediram o uso de crditos
ao banco, e, uma vez que o cliente pagou (ou no) sua dvida ao
banco, recebeu um rtulo. Esses rtulos pertencem a uma varivel
binria, podendo assumir o valor de crdito bom ou crdito ruim,
indicando se o cliente em questo pagou sua dvida ou no.

156

Anexo IV

PERTENCE A NOME DO CLIENTE

Fonte de dados: <http://www.liacc.up.pt/ML/statlog/datasets.html>


Descrio dos dados: <http://www.liacc.up.pt/ML/statlog/datasets/german/german.descri.html>
Tamanho da amostra: 1.000
Nmero de co-variveis nos dados: 20
Nmero de co-variveis usadas: 14
Iniciamos o projeto com o objetivo de ajustar um modelo que
fosse capaz de prever o rtulo para os clientes do banco, para que
este pudesse decidir se ia conceder o emprstimo ou no. Para tal,
dispnhamos de 20 variveis explicativas.
Foram elas:
1. Saldo da conta existente qualitativa
2. Idade da conta (em meses) numrica
3. Histrico do crdito qualitativa
4. Propsito do crdito qualitativa
5. Quantidade de crdito disponvel numrica
6. Dinheiro em poupana qualitativa
7. Tempo no presente emprego qualitativa
8. Taxa de parcelamento em relao renda lquida numrica
9. Sexo e estado civil qualitativa
10.

Existncia de co-devedor ou ador qualitativa

11.

Tempo na corrente residncia numrica

12.

Pertences qualitativa

13.

Idade em anos numrica

14.

Outros planos de parcelamento qualitativa

15.

Housing qualitativa

16.

Nmero de crditos existentes no banco numrica

17.

Emprego qualitativa

18.

Nmero de pessoas conveis a procurar em caso de emergncia numrica

19.

Telefone qualitativa

20.

Trabalhador estrangeiro qualitativa

Introduo Minerao de Dados

157

PERTENCE A NOME DO CLIENTE

Note que nem todas as co-variveis numricas so contnuas.


Amostragem e estudo das co-variveis
Como discutido, a amostra inicial tinha mil elementos e 20 co-variveis. Das mil observaes, 70% tinham rtulo de crdito bom e os
30% restantes tinham o rtulo de crdito ruim.
Para medir a capacidade preditiva do modelo separamos uma
amostra de validao, enquanto os dados restantes (amostra de
treinamento) foram usados para ajustar o modelo. Escolhemos
que a amostra de treinamento deveria ter tamanho 900 para que
fosse representativa. Ainda com esse intuito sorteamos a amostra
de validao por amostragem estraticada, ou seja, escolhemos de
forma que, das 100 observaes, 70% teriam rtulo de crdito bom,
enquanto as 30% restantes teriam rtulo de crdito ruim.
Limpeza dos dados
Os dados obtidos do stio na internet so relativamente limpos, ou
seja, so (em sua maioria) consistentes e bem organizados. Contudo,
houve questes com relao varivel 9 (sexo e estado civil). Para
essa varivel, no foi observado o caso mulher/solteira. Como isso
difcil de ser vericado em uma amostra de tamanho 900, exclumos
essa varivel por ser dado esprio. Alm disso, observamos que
quarta varivel (propsito do pedido do emprstimo) tambm faltavam observaes de uma categoria. Nenhum dos clientes pediu
emprstimo para frias, mas como existiam 11 categorias para a
varivel, consideramos tal evento como outlier de probabilidade
baixa.
Seleo de variveis
Para o processo de seleo de variveis, tentamos diversos mtodos. Primeiramente transformamos todas as variveis qualitativas
em dummies, ou seja, criamos tantas variveis quanto categorias e
atribumos a elas valores 0 ou 1. Ao fazer isso, obtemos a vantagem
de no colocar uma ordenao nos dados. Tal ordenao seria forada nos dados caso crissemos uma varivel discreta com tantos
valores quanto categorias. Apesar disso, no ganhamos a vantagem
da normalidade, requisitada por diversos mtodos.

158

Anexo IV

PERTENCE A NOME DO CLIENTE

Assim, tentamos os mtodos:


1. ACP (Anlise de Componentes Principais).
2. Anlise Discriminante Cannica.
3. Teste de dependncia entre resposta e co-variveis.
Note que nesse ltimo caso, no usamos as variveis dummies
para facilitar a criao de Tabelas de contingncia. Como os dois
primeiros mtodos exigem que os dados sigam distribuio Normal,
no foram muito ecientes. Assim, s usamos o teste de dependncia entre resposta e co-variveis.
Escolhemos aquelas co-variveis que eram consideradas dependentes da resposta, sem nos preocuparmos com as dependncias
interco-variveis, uma vez que j tnhamos poucas variveis explicativas no modelo. Usamos dois tipos de testes para vericar a
dependncia da co-varivel com a resposta:
Se a varivel qualitativa ou discreta, usamos teste de X de independncia. Se fosse rejeitada a hiptese de independncia, no
retiraramos a varivel do modelo.
Se a varivel contnua, usamos teste de Kolmogorov-Smirnof
para vericarmos se a distribuio da co-varivel com o rtulo crdito bom igual distribuio da co-varivel com o rtulo crdito
ruim. Caso fosse rejeitada a hiptese, consideraramos a varivel e
a resposta dependentes.
Ao analisarmos os p-valores, no usamos um nvel de signicncia xo. Os critrios adotados foram:
Se o p-valor = 0 mantm a varivel no modelo
Se o p-valor < 0,15, a incluso decidida baseada no bom senso
Se o p-valor > 0,15 a varivel retirada do modelo
Em um dos casos, obtemos um p-valor de 0,30, mas uma premissa do teste X no foi satisfeita (valor esperado > 5), o que deixa
o p-valor duvidoso. Ao discutirmos o modelo, decidimos que ela
deveria ser deixada no modelo.

Introduo Minerao de Dados

159

PERTENCE A NOME DO CLIENTE

Varivel

Teste

Valor

p-valor

Concluso

Descrio

x2

120,3351

mantem

Saldo conta

KS

0,1852

mantem

Idade conta

52,5004

mantem

Hist. credito

x2

24,4648

0,0007

mantem

Propos. credito

KS

0,1767

mantem

Quant. cred. disp.

x2

36,7335

mantem

$ em poupana.

x2

17,9272

0,0013

mantem

Tempo emprego

2,0783

0,5563

sai

Tx. parcelam.

x2

dadosespurios

Sexo/est. civil

10

4,3455

0,1138

mantem

Exist. co-dev. fiad.

11

x2

1,0777

0,7824

sai

Tempo residenc.

12

x2

21,8525

0,0001

mantem

Pertences

13

KS

0,1556

0,0002

mantem

Idade em anos

14

x2

11,3059

0,0035

mantem

Outros planos

15

12,5006

0,0019

mantem

Housing

16

x2

3,5870

0,3096

mantem

#creds.no banco

17

x2

2,3611

0,5009

sai

Emprego

18

x2

0,1336

0,7147

sai

#referncias

19

x2

0,6842

0,4081

sai

Telefone

20

5,5951

0,0180

mantem

Trabalh. estrang.

As variveis retiradas (independentes com a resposta) foram: 8,


11, 17, 18 e 19. A varivel 9 foi retirada por ser considerada contendo
dados esprios. Ao nal desta etapa, tnhamos 14 variveis.
Ajuste e validao
Para a etapa de ajuste e validao, tnhamos uma amostra de treinamento (n=900), uma amostra de validao (m=100) e 14 variveis
explicativas. comum num projeto de minerao de dados se ajustar
diversos modelos, mas neste caso s estaremos ajustamos um: o de
regresso logstica, onde p a probabilidade do cliente ser um bom
pagador. Temos ento, a funo de ligao e a mdia:

( p ) = ln

p
1 p
49

E ( ) = 0 + i X i
1

160

Anexo IV

PERTENCE A NOME DO CLIENTE

Por causa de algumas singularidades na matriz durante o


algoritmo de ajuste do modelo linear generalizado (glm), alguns
coecientes no puderam ser calculados. Os valores encontrados
foram:
o

A11

A12

A13

A14

A30

A31

A32

A33

A34

A40

A41

A42

-4,07

1,11

0,82

0,59

NA

0,02

1,08

0,78

0,37

0,06

NA

1,01

0,04

0,53

A43

A44

A45

A46

A47

A48

A49

A410

A61

A62

A63

A64

A65

0,55

0,75

0,93

1,15

NA

-0,02

0,56

NA

4,5e-5

0,5

0,35

0,26

-0,15

NA

A71

A72

A73

A74

A75

A101

A102

A103

A121

A122 A123 A124

10

A141

0,09

0,16

0,01

-0,35

NA

0,54

0,74

NA

-0,34

-0,15 -0,19

-0,01 0,39

A142

A143

A151

A152

A153

13

A201

A202

0,35

NA

0,27

0,06

NA

0,14

0,81

NA

NA

Uma vez previstos os ps para cada observao na amostra de


validao, devemos escolher o melhor ponto de corte para os ps, ou
seja, denir 0 < p0 < 1, tal que, se pi > p0, cliente i classicado como
bom pagador, e classicado como mau pagador em caso contrrio.
Como muito difcil escolher p0, criamos uma progresso aritmtica comeando em 0,01 e com razo 0,01 (valor nal 0,95). A partir
desses ps, calculamos as respectivas matrizes de confuso.
Previsto\
observado

Crdito
bom

Crdito
ruim

Crdito bom

BB

BR

Crdito ruim

RB

RR

Como difcil analisar todas, usamos dois mtodos de comparao. Um deles foi o erro = (BR + RB)/100. O outro foi o mtodo
conhecido como ROI (Return of Investment), para o qual, criamos
diversas hipteses ctcias.
Os resultados do critrio erro foram de tal forma que ps pequenos
resultavam em pouco erro, enquanto ps grandes resultavam em
erros grandes. Alm disso, em um intervalo que comea em torno
de 0,2 e termina em torno de 0,7, o erro foi constante. Apesar de
no parecer fazer muito sentido, notamos que no h valores de p
previstos entre esses valores. O erro mnimo encontrado foi com p
= 0,04 => erro = 27%.

Introduo Minerao de Dados

161

PERTENCE A NOME DO CLIENTE

ROI
Para o ROI, vamos supor que:
Um cliente devolve o dinheiro (com os juros) no prazo mdio de
um ano.
A taxa de juros de 5% ao ms.
Um bom pagador pede em mdia 3.476 DM.
Um mau pagador pede em mdia 3.001 DM.
NB o nmero de pessoas classicadas como bom pagador.
NR o nmero de pessoas classicadas como mau pagador.
Assim, temos que

NB *3476*(1 + 0, 05)12 ( N *3476 + NR *3001)


ROI =
NB *3476 + NR *3001
Para p no intervalo referido anteriormente, temos, por exemplo, que o ROI foi 38,39%, ou seja, 38,39% do dinheiro investido foi
lucrado. Mais uma vez, ps pequenos resultam em ROIs pequenos
enquanto ps grandes resultam em ROIs grandes, com o intervalo
entre 0,2 e 0,7 constante. O ponto de maior retorno do investimento
foi encontrado com p = 0,89 => ROI = 48,42%
A partir desses resultados, vemos que os dois critrios no concordam. Para errar menos, devemos escolher um p pequeno, ou seja,
emprestar mais (classicar mais clientes como bom pagador). No
caso do ROI, melhor escolher um p grande, emprestando menos
para no desperdiar dinheiro, e assim, maximizar o lucro com
relao s despesas.
O mtodo CART tambm foi ajustado, mas nos xamos nos
resultados da regresso logstica.
Bibliograa
PINHEIRO, J. I. D. Anlise Estatstica Multivariada. Publicao
Interna, DME, 2004.
BRAGA, L. P. V. Introduo Minerao de Dados. 1. ed. E-papers
Servios Editoriais: Rio de Janeiro, 2004.

162

Anexo IV

PERTENCE A NOME DO CLIENTE

AIV-7 PREDIO DO INTERESSE PELA COMPRA


DE SEGURO DE TRAILERS
Sergio Ellery Giro Barroso (DME-IM)
Denio do problema
Prever quais dos clientes cadastrados tm uma boa chance de comprar um seguro de casas mveis (trailers).
A empresa faz venda por mala direta. Se for possvel distinguir
os clientes que tm uma boa chance de comprar o seguro, ela pode
restringir a mala direta e economizar substancialmente as despesas
de vendas.
Fonte de dados
Dados originrios de problema real, fornecidos pela Sentient Machine Research (ver ao nal do trabalho), para uma competio
internacional (CoIL Challenge 2000 datamining competition). A
competio consistia de duas tarefas:
Predizer que clientes esto interessados na aplice de seguro.
Descrever os clientes atuais ou potenciais, e procurar explicar
porque esses clientes compram uma aplice de seguro.
Descrio dos dados
Foram fornecidos dois conjuntos de dados: o primeiro, com 5.822
registros, contm pers completos de clientes, incluindo a informao sobre a compra ou no de uma aplice de seguro, em um total
de 86 variveis para cada cliente; os de teste contm 4.000 descries
de clientes, com as mesmas variveis, exceto a informao sobre
compra da aplice.
A proposta do concurso usar o primeiro conjunto para treinamento e validao de um modelo do comportamento dos clientes,
e o segundo para realizar uma previso dos 800 clientes mais promissores. O nmero real de compradores de aplices, no segundo
conjunto, seria contado, dando uma nota para cada participante. A
lista de compradores do segundo conjunto tambm foi fornecida.

Introduo Minerao de Dados

163

PERTENCE A NOME DO CLIENTE

Arquivos relevantes
TICDATA2000.txt: (Conjunto 1)
Tm 5.822 registros de clientes. Cada registro consiste de 86 atributos. O atributo 86 a varivel-alvo (0 = no comprou seguro, 1 =
comprou seguro).
TICEVAL2000.txt: (Conjunto 2)
Tm 4.000 registros de clientes, com o mesmo formato do conjunto
2.
TICTGTS2000.txt:
Valores da varivel alvo para o conjunto 2.
Avaliao dos dados
Resumo do dicionrio de dados
Foi fornecido um dicionrio de dados, com a descrio de cada
uma das 86 variveis. Considerando a descrio de cada varivel,
os dados foram agrupados em blocos, conforme abaixo (citao
parcial).
Bloco 1: Tipo, idade, religio, estado civil, nivel de educao

01 MOSTYPE Customer Subtype see L0 (L0 contm 41 categorias)


02 MAANTHUI Number of houses 1 10
03 MGEMOMV Avg size household 1 6
04 MGEMLEEF Avg age see L1
05 MOSHOOFD Customer main type see L2
06 MGODRK Roman Catholic see L3
10 MRELGE Married
16 MOPLHOOG High level education
18 MOPLLAAG Lower level education
Bloco 2: Indicadores de nvel socioeconmico

19 MBERHOOG High status


20 MBERZELF Entrepreneur
24 MBERARBG Unskilled labourer
25 MSKA Social class A
29 MSKD Social class D
30 MHHUUR Rented house
32 MAUT1 1 car
35 MZFONDS National Health Service

164

Anexo IV

PERTENCE A NOME DO CLIENTE

37 MINKM30 Income <30000


43 MKOOPKLA Purchasing power class
Bloco 3: Dados relativos a seguros

44 PWABEDR Contribution private third party insurances see L4


(10 nveis)
55 PLEVEN Contribution life insurances
56 PPERSONG Contribution private accident insurance policies
64 PBYSTAND Contribution social security insurance policy
65 AWAPART Numer of third party insurance 1-12
76 ALEVEN Number of life insurances
85 ABYSTAND Number of social security insurance policies
86 CARAVAN Number of mobile home policies 0 1
Formatao
Todos os dados so apresentados por nmeros inteiros, que indicam
uma codicao. Em alguns casos, a codicao est expressa por
Tabelas fornecidas explicitamente (so as Tabelas L0 a L4, expostas
no nal do trabalho).
Em um exame preliminar, vericamos que no h dados faltantes.
Comentrios adicionais sobre os dados
Como ambos os conjuntos contm os valores da varivel-alvo, decidimos usar o primeiro apenas para treinamento e o segundo para
teste (validao e avaliao do retorno do investimento). Tambm
no ser necessrio amostrar os dados para reduzir eventual nmero
excessivo de registros. Dada a natureza da varivel-alvo, e o baixo
percentual de casos positivos, sero usadas as duas amostras, em
sua totalidade, cada uma para sua nalidade.
Comparando as distribuies de frequncias dos dados de treinamento e teste, verica-se que, em alguns casos, o limite superior
nos dados de teste foi maior do que nos dados de treinamento. No
caso especco da varivel 68, o limite superior foi de 7 nos dados
de treinamento e 12 nos dados de teste. A observao com valor 12
ocorre apenas uma vez, e no ocorrem observaes superiores a 7,
o que permite classicar como outlier a observao com valor 12.
Por ocasio do teste, esta observao ser reclassicada como 9.
Introduo Minerao de Dados

165

PERTENCE A NOME DO CLIENTE

Extrao de caractersticas e realce


Tendo em vista a natureza do problema, foi feita uma opo inicial
de metodologia: usar regresso logstica para prever a probabilidade de compra do seguro; ordenar os registros pela probabilidade
projetada; tomar os 800 primeiros casos. A etapa de extrao de
caractersticas e realce foi orientada por esta opo inicial.
Foram realizadas, na seqncia indicada, as seguintes etapas:
a) Identicao das variveis mais signicativas, usando a tcnica
de anlise de Tabelas de contingncia de cada varivel versus a
varivel-alvo.
b) Usar a tcnica de anlise de Tabelas de contingncia para analisar a relao entre variveis explicativas identicadas como
signicativas na etapa anterior, optando pela mais signicativa,
ou pela mais parcimoniosa, no caso de forte dependncia; os
pares de variveis explicativas foram escolhidos em funo de
sua natureza, inferida a partir da descrio.
c) Codificar as variveis significativas em termos de variveis
0-1 (dummies), admitindo o nvel mnimo como bsico; (se
n=nmero de nveis, e k=valor da varivel, sero criadas n-1
variaveis x[j], com x[k]=1 se k>minimo, e x[j]=0 se j k;)
d) Usar a tcnica de regresso logstica tomando a varivel-alvo
como dependente e cada varivel explicativa (representada pelas
n-1 variveis 0-1) como independente, para estimar os efeitos dos
diversos nveis da varivel explicativa e vericar a signicncia
dos mesmos.
e) Repetir o passo anterior com grupos de variveis explicativas que
os passos anteriores, ou as descries, sugerem ter seus efeitos
confundidos.
f ) Examinando os resultados das etapas d) e e), estabelecer nova
codicao das variveis explicativas consideradas signicativas, juntando nveis cujos efeitos, aparentemente, no diferem
signicativamente.
Resultados da anlise de Tabelas de contingncia
Os resultados da anlise dos cruzamentos x vs x86 esto resumidos
no Quadro 1, em que p=p-valor obtido a partir da estatstica quiqua-

166

Anexo IV

PERTENCE A NOME DO CLIENTE

drado. Na coluna Falta esto indicados valores de x que no foram


encontrados (nmero de valores e valores x) na amostra de treinamento.Posteriormente, foram feitos cruzamentos entre variveis
explicativas, cujos resultados encontram-se tambm no Quadro 1.
As variveis explicativas foram caracterizadas, para efeito das etapas seguintes, como denitivamente no signicativas (Inclui=0,
se 100p>5,0), pouco signicativas (Inclui=1, se 2,5<100p<5,0 ou se
depender fortemente de outra variavel com p-valor mais baixo), e
muito signicativas (Inclui=2, se 100p<2,5 e no depende fortemente
de outra varivel com p-valor mais baixo).
Quadro 1 Resultados da anlise de Tabelas de contingncia
Anlise de Tabela de contingncia x vs x86
Var

min

max

100p

Faltas

Inclui

x01

41

0.0

x02

10

90.0

19

x03

5.3

x04

65.5

x05

10

0.0

x06

42.6

x07

0.8

x08

3.9

x09

2.2

x10

0.0

x11

34.7

x12

0.1

x13

3.6

x14

66.7

x15

19.9

x16

0.0

x17

2.8

x18

0.0

x19

0.0

x20

48.5

x21

1.7

x22

0.3

x23

0.0

x24

0.5

x25

0.0

x26

1.3

Introduo Minerao de Dados

167

PERTENCE A NOME DO CLIENTE

168

Var

min

max

100p

Faltas

Inclui

x27

89.7

x28

0.0

x29

0.1

18

x30

0.0

x31

0.0

x32

0.0

x33

98.2

x34

0.0

x35

0.0

x36

2.9

x37

0.0

x38

72.1

x39

0.0

x40

0.1

x41

80.0

268

x42

0.0

x43

0.0

x44

0.0

x45

68.9

x46

41.6

x47

0.0

3123

x48

84.2

41234

x49

0.0

212

x50

90.2

x51

54.6

x52

41.7

x53

85.5

x54

2.5

11

x55

32.4

x56

99.1

x57

0.0

11

x58

9.0

x59

0.0

x60

3.0

12

x61

0.0

x62

2.9

x63

47.1

x64

0.0

11

x65

0.0

x66

96.6

x67

10.4

x68

0.0

15

x69

96.5

x70

83.6

Anexo IV

PERTENCE A NOME DO CLIENTE

Var

min

max

100p

Faltas

Inclui

x71

90.2

x72

52.4

x73

76.9

x74

85.5

x75

0.3

x76

0.0

3567

x77

51.7

x78

1.0

x79

1.9

x80

0.0

16

x81

4.6

x82

0.0

x83

1.3

x84

30.9

x85

0.0

Cruzamentos de
x01 e x05: p=0
x06 e x07: p=0
x35 e x36: p=0
x42 e x43: p=0
x47 e x68: p=0
x54 e x75: p=0
x57 e x78: p=0
x59 e x80: p=0
x60 e x81: p=0
x61 e x82: p=0
x62 e x83: p=0
x63 e x84: p=0

variveis explicativas com descries semelhantes


(customer subtype and main type)
(catholic and protestant)
(national service and private health insurance)
(avg income and purchasing power class)
(contribution and number car policies)
(contribution and number moped policies)
(contribution and number family accident policies)
(contribution and number re policies)
(contribution and number surfboard policies)
(contribution and number boat policies)
(contribution and number bycicle policies)
(contribution and number property policies)

Resultados da regresso logstica


As etapas usando regresso logstica foram realizadas apenas com
as variveis que, no Quadro 1, foram codicadas como Inclui=2,
sendo analisados casos de uma mesma varivel em todos os seus
nveis e casos de grupos de variveis considerados a priori como
possivelmente interdependentes.
Como resultado, foi refeito o Quadro 1, por eliminao de variveis e por recodicao dos nveis. Os novos critrios esto no
Quadro 3. A coluna Inclui2 o nvel de signicncia, para as novas
etapas de anlise. Para as variveis com Inclui2=1 ou Inclui2=2,
foram estabelecidas novas codicaes.

Introduo Minerao de Dados

169

PERTENCE A NOME DO CLIENTE

Para exemplicar: considerar a varivel x05, que anteriormente


tinha 10 nveis, renumerados de 0 a 9.
O resultado da anlise pelo modelo logstico est dado a seguir.
*** Generalized Linear Model ***
glm(formula = x86 ~ x051 + x052 + x053 + x054 + x055 +
x056 + x057 + x058 + x059, family = binomial(link = logit),
data = dvanseg3, na.action = na.exclude,
control = list(epsilon = 0.0001, maxit = 50, trace = F))
Coefcients:
(Intercept) x051
-2.351375 0.4633878
x055
x056
-1.565634 -0.9257695

x052
-0.288892
x057
-0.4557234

x053
-4.850341
x058
-0.3487068

x054
-1.257739
x059
-1.641304

Analysis of Deviance Table


Terms added sequentially (rst to last)

NULL
x051
x052
x053
x054
x055
x056
x057
x058
x059

Df

Deviance

1
1
1
1
1
1
1
1
1

39.37455
3.68510
5.32168
9.57265
6.67804
5.51516
0.58903
0.00673
17.71378

Resid.Df
5821
5820
5819
5818
5817
5816
5815
5814
5813
5812

Resid. Dev
2635.540
2596.166
2592.481
2587.159
2577.586
2570.908
2565.393
2564.804
2564.798
2547.084

Os nveis 1 e 9 contm quase toda a capacidade de discriminao


(cada termo contm a parcela da deviance explicada, ajustada aps
a incluso dos anteriores). Parece razovel codicar os 9 nveis em
apenas 2. Como o efeito de x051 positivo, e os demais so negativos,
foi feita a correspondncia do novo nvel 1 com o antigo, e de todos
os demais nveis com o novo nvel 2.
Para uso posterior, na etapa de teste, foram tambm alterados os
nveis mximos das variveis, tomando-se o maior entre o observado
nos dados de treinamento e de teste. Apenas no caso da varivel 68,
cujo valor mximo nos dados de teste foi considerado um outlier,
foi adotado um nvel menor (no caso, 9).

170

Anexo IV

PERTENCE A NOME DO CLIENTE

PROTOTIPAGEM
Usando os resultados da etapa anterior, foi usada a tcnica de regresso logstica para estimar os parmetros do modelo e prever os
resultados para as amostras de treinamento e de teste.
Resultados com a amostra de treinamento
Para o ajuste do modelo, foram obtidos os resultados abaixo.
glm(formula = x86 ~ x051 + x052 + x161 + x162 + x231 +
x232 + x233 + x251 + x252 + x253 + x301 + x302 +
x303 + x321 + x322 + x371 + x372 + x373 + x431 +
x432 + x441 + x471 + x472 + x473 + x651 + x652 +
x681 + x682 + x821, family = binomial (link = logit)
Coefcients: (2 not dened because of singularities)
(Intercept)
x051
x052
x161
x162
x231
x232
x233
x251
x252
x253
x301
x302
x303
x321
x322
x371
x372
x373
x431
x432
x441
x471
x472
x473
x651
x652

Value
-7.81855401
0.19340705
-0.31288441
0.34746763
0.62299278
0.16173551
-0.07657738
0.99464330
-0.17101158
-0.20136942
-2.22291466
-0.42989832
-0.28771520
-0.27883030
-0.59343378
3.98045355
0.27703375
-0.31185284
-4.70209113
0.27084770
0.38734996
-5.29114105
-3.20376506
-1.58515096
-7.73739993
5.80875075
NA

Introduo Minerao de Dados

Std. Error
7.6031488
0.2162826
0.2132921
0.1763691
0.2321602
0.1631694
0.1812613
0.5827010
0.1798522
0.2141710
1.0480349
0.1882266
0.1803856
0.2539479
12.0132189
7.5972981
0.1607426
0.1793971
4.7983890
0.2616320
0.2949878
14.7920676
11.0055613
11.0017595
11.9179630
14.7920236
NA

t value
-1.0283311
0.8942330
-1.4669295
1.9701165
2.6834608
0.9912123
-0.4224696
1.7069532
-0.9508449
-0.9402271
-2.1210311
-2.2839403
-1.5950013
-1.0979822
-0.0493984
0.5239302
1.7234618
-1.7383383
-0.9799312
1.0352239
1.3131052
-0.3577012
-0.2911042
-0.1440816
-0.6492217
0.3926948
NA

171

PERTENCE A NOME DO CLIENTE

x681
x682
x821

3.05228088
NA
2.42776418

11.0013665
NA
0.394300

0.2774456
NA
6.1571476

Analysis of Deviance Table


Terms added sequentially (rst to last)
NULL
x051
x052
x161
x162
x231
x232
x233
x251
x252
x253
x301
x302
x303
x321
x322
x371
x372
x373
x431
x432
x441
x471
x472
x473
x651
x652
x681
x682
x821

Df

Deviance

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
0
1

39.3745
12.2207
0.0400
16.0030
3.8351
1.2838
3.2140
0.6756
0.6142
8.8456
0.0000
2.7927
6.9007
1.0551
2.1249
14.3426
5.0474
4.3945
0.0464
2.2424
42.4271
17.1129
137.9819
2.7222
1.0841
0.0000
0.1268
0.0000
30.4859

Resid. Df
5821
5820
5819
5818
5817
5816
5815
5814
5813
5812
5811
5810
5809
5808
5807
5806
5805
5804
5803
5802
5801
5800
5799
5798
5797
5796
5796
5795
5795
5794

Resid. Dev
2635.540
2596.166
2583.945
2583.905
2567.902
2564.067
2562.783
2559.569
2558.894
2558.280
2549.434
2549.434
2546.641
2539.741
2538.685
2536.561
2522.218
2517.171
2512.776
2512.730
2510.487
2468.060
2450.947
2312.965
2310.243
2309.159
2309.159
2309.032
2309.032
2278.546

A reduo na deviance foi de 2.635,54 para 2.278,54 (reduo


= 357,0), um resultado no muito animador, porque mostra que a
maior parte da variabilidade atribuvel aos efeitos puramente aleatrios. Aparentemente, as variveis explicativas mais importantes
so: x05 (customer main type), x25 (social class A), x30 (rented house),

172

Anexo IV

PERTENCE A NOME DO CLIENTE

x37 (income<30.000) x44 (contribution third party insurance), x47


(contribution car policies) e x82 (number of boat policies).
Anlise das singularidades
Modelo ajustado com as variveis que apresentaram singularidades:
Call: glm(formula = x86 ~ x651 + x652 + x681 + x682
Coefcients:
Value
-3.8930621
0.6083348
-3.2881453
1.2937749
-2.3066239

(Intercept)
x651
x652
x681
x682

Std. Error
0.1292645
0.1132121
5.4189822
0.1345921
5.1037111

t value
-30.1170185
5.3734095
-0.6067828
9.6125636
-0.4519503

Terms added sequentially (rst to last)


NULL
x651
x652
x681
x682

Df

Deviance

1
1
1
1

46.9408
0.4928
109.1218
0.2537

Resid. Df
5821
5820
5819
5818
5817

Resid. Dev
2635.540
2588.600
2588.107
2478.985
2478.731

Concluso
As singularidades devem-se a colinearidades dos nveis indicados
com nveis de outras variveis, no a singularidade da prpria varivel. Observar ainda que essas duas variveis, quando consideradas
isoladamente, so signicativas.
Obteno da matriz de confuso
Para efeito de previso, foram usados os valores ajustados de px =
probabilidade de que um cliente com vetor x de variveis explicativas
compre um seguro. Admitindo que o custo de envio da mala direta
seja de R$5, e que a margem de lucro do seguro seja de R$25,00,
deve ser enviada a mala direta quando px > 5/30 = 0,167. Usando
este valor como critrio para classicao, foi obtida a matriz de
confuso a seguir.

Introduo Minerao de Dados

173

PERTENCE A NOME DO CLIENTE

Matriz de confuso, dados de treinamento


Observao
Previso

No compra

Compra

Total

5.134

235

5.369

340

113

453

5.474

348

5.822

No compra
Compra
Total

Resultados com a amostra de teste


O modelo ajustado foi usado para prever px tambm na amostra de
teste. Os resultados foram tabulados e reordenados pelo valor de
px. Admitindo que sejam tomados os 800 casos mais promissores,
conclumos que o ponto de corte ocorre em pxlimite = 0,09.
O quadro a seguir ilustra o formato de arquivo com os resultados
das predies e experincia real, exibidos na ordem natural (primeiras duas colunas) e na ordem decrescente de px (duas ltimas
colunas).
Trecho de Tabela comparativa Predio vs Real, dados de teste
Predio

Real

Predio

Real

0.02

0.77

0.30

0.74

0.15

0.69

0.04

0.61

0.01

0.57

0.02

0.56

0.14

0.47

0.11

0.40

0.03

0.40

0.06

0.40

0.01

0.40

0.14

0.40

0.03

0.38

0.09

0.36

0.01

0.36

Comparando os resultados obtidos com as observaes reais,


resulta a matriz de confuso a seguir (corresponde ao ponto de
corte 0,09).

174

Anexo IV

PERTENCE A NOME DO CLIENTE

Matriz de confuso, dados de teste


Observao
Previso
No compra
Compra
Total

No compra

Compra

Total

3.069

131

3.200

693

107

800

3.762

238

4.000

IMPLEMENTAO
Recodicao
A anlise foi refeita considerando uma recodicao das variveis,
com a nalidade de incluir mais informaes.
Uma recodicao abrangente (incluindo variveis que antes
tinham sido excludas, e aumentando o nmero de nveis associados
a cada varivel) permitiu reduo na deviance para 2.148,13, mas
esbarrou em limites do software (no foi possvel predizer os valores
da amostra de teste, porque o limite de bytes alocveis foi excedido).
Como este valor apenas um pouco melhor do que o obtido na
prototipagem, temos uma idia do ganho que pode ser obtido com
um modelo mais completo. Esta avaliao permitiu considerar um
meio termo, que foi obtido com uma nova codicao.
Resultados com a amostra de treinamento
Resultados do modelo mais completo
Considerando o modelo mais completo (que no permitiu a predio dos valores de teste) foram obtidos os resultados a seguir.
Call: glm(formula = x86 ~ x051 + x052 + x053 + x054 + x101 +
x102 + x103 + x161 + x162 + x181 + x182 + x183 +
x211 + x212 + x213 + x221 + x222 + x223 + x224 +
x231 + x232 + x233 + x234 + x241 + x242 + x243 +
x244 + x251 + x252 + x253 + x254 + x261 + x262 +
x263 + x264 + x281 + x282 + x283 + x301 + x302 +
x303 + x304 + x311 + x312 + x321 + x341 + x342 +
x343 + x344 + x351 + x352 + x353 + x371 + x372 +
x373 + x391 + x392 + x393 + x394 + x401 + x402 +
x403 + x404 + x405 + x431 + x432 + x433 + x434 +
x441 + x442 + x471 + x472 + x473 + x474 + x651 +
x652 + x681 + x682 + x683 + x684 + x751 + x752 +

Introduo Minerao de Dados

175

PERTENCE A NOME DO CLIENTE

x761 + x762 + x763 + x764 + x781 + x791 + x792 +


x801 + x802 + x821 + x822 + x831 + x832 + x851 +
x852
Coefcients: (3 not dened because of singularities)

(Intercept)
x051
x052
x053
x054
x101
x102
x103
x161
x162
x181
x182
x183
x211
x212
x213
x221
x222
x223
x224
x231
x232
x233
x234
x241
x242
x243
x244
x251
x252
x253
x254
x261
x262
x263
x264
x281
x282
x283
x301

176

Value
-3.7582641460
0.0005989323
-0.2831099593
-6.4635597083
-1.2309945039
-0.8142552864
-0.1819447200
0.0929436191
0.1726991508
0.4340060451
-0.5085006857
-0.7232849244
-1.2964002657
-0.2221929018
-0.4924651455
-4.7856895221
-0.2493797846
0.1928179986
-6.6935455526
0.7671566822
0.3713848403
0.2131307565
-0.0596480499
0.3999991652
-0.0797345976
0.1938663919
0.8033784459
-5.6084952599
-0.0409361387
0.1858053054
0.5721765888
-1.4918276736
0.0339664880
0.7323954463
-6.6044110111
0.9941639572
0.6196040584
0.6675811621
1.0117266704
-0.1288714210

Std. Error
1.3645286
0.2920916
0.2359992
7.8370109
0.4146196
0.9949432
0.8794173
0.8488375
0.1739082
0.3306711
0.3643819
0.3680269
0.5577790
0.1732903
0.7705367
11.1779912
0.2395581
0.4211303
15.2659797
0.5527461
0.2201042
0.2240018
0.2335595
0.7357125
0.1540550
0.7904119
1.2380641
11.1991468
0.2063920
0.2599181
0.4743408
1.1095058
0.1813133
0.6235293
12.2216282
1.2690311
0.4074978
0.4061259
0.4621141
0.2547848

t value
-2.754258272
0.002050495
-1.199622695
-0.824748087
-2.968973481
-0.818393722
-0.206892364
0.109495186
0.993047617
1.312500635
-1.395515791
-1.965304467
-2.324218561
-1.282200339
-0.639119683
-0.428135022
-1.040999308
0.457858310
-0.438461578
1.387900742
1.687313839
0.951468933
-0.255386929
0.543689478
-0.517572410
0.245272618
0.648898885
-0.500796655
-0.198341740
0.714860950
1.206256229
-1.344587550
0.187335846
1.174596706
-0.540387165
0.783403914
1.520508889
1.643778995
2.189343832
-0.505805077

Anexo IV

PERTENCE A NOME DO CLIENTE

x302
x303
x304
x311
x312
x321
x341
x342
x343
x344
x351
x352
x353
x371
x372
x373
x391
x392
x393
x394
x401
x402
x403
x404
x405
x431
x432
x433
x434
x441
x442
x471
x472
x473
x474
x651
x652
x681
x682
x683
x684
x751
x752
x761
x762
x763
x764
x781

-0.3784132314
-0.4862006300
-0.1131141339
0.0435323097
NA
1.0273776295
0.0338790029
-0.5752014688
1.6155972276
-4.7245433698
-6.7043965547
-0.3910435149
-0.2077979471
0.1469615979
0.1957883615
-5.0551315234
-0.0435543877
0.2237337253
0.2409500712
-0.3925751525
0.3694950538
0.0690697745
0.4378821465
-6.3789041307
3.4694662777
-0.6641168281
-0.8892120087
-0.5708429869
-1.1996067933
-6.3781539169
-6.1014292320
-8.8399235165
-3.8379605977
-2.1790570937
-9.6461822436
6.4101582164
NA
3.5395394968
4.0085734591
3.7491670599
NA
-0.5053519411
-5.4341665928
-0.8877684017
0.0348837182
0.7453149488
2.1487121427
0.2318352906

Introduo Minerao de Dados

0.2054271
0.3783170
0.2857119
0.1886578
NA
0.6596756
0.1578220
0.3140252
0.8719409
11.0982402
13.9108362
0.5046221
0.5325355
0.1750787
0.2728786
7.2816542
0.2494906
0.2388701
0.5109042
0.5443336
0.1522953
0.2974995
0.3120358
14.9966373
1.3903070
0.3834520
0.4408616
0.4769497
0.4804648
22.3195189
22.3217319
62.8838492
17.3904978
17.3880681
19.0710046
22.3211414
NA
17.3877621
17.3887432
17.4269286
NA
0.3801150
15.9053806
0.3878655
0.3635619
0.8472579
0.8303853
0.5449323

-1.842080238
-1.285167226
-0.395902728
0.230747486
NA
1.557398156
0.214665864
-1.831704814
1.852874628
-0.425702030
-0.481954965
-0.774923432
-0.390204901
0.839403269
0.717492432
-0.694228454
-0.174573295
0.936633584
0.471614950
-0.721203290
2.426175780
0.232167695
1.403307228
-0.425355631
2.495467714
-1.731942644
-2.016986833
-1.196861917
-2.496763020
-0.285765744
-0.273340315
-0.140575420
-0.220692969
-0.125319103
-0.505803572
0.287178783
NA
0.203564983
0.230526922
0.215136422
NA
-1.329471170
-0.341655866
-2.288856181
0.095949885
0.879678909
2.587608548
0.425438668

177

PERTENCE A NOME DO CLIENTE

x791
x792
x801
x802
x821
x822
x831
x832
x851
x852

1.8318112482
-5.5927816264
0.3273218234
-5.8320271698
2.5688131257
2.3324249120
0.5345000403
2.8345123531
0.5629752886
-7.2973052907

0.6413102
27.2834578
0.1628014
15.1159116
0.4390844
1.5312936
0.3221782
1.6633726
0.3331252
60.4322533

2.856357432
-0.204988006
2.010558626
-0.385820408
5.850385993
1.523172884
1.659019868
1.704075413
1.689981279
-0.120751832

Null Deviance: 2635.54 on 5821 degrees of freedom


Residual Deviance: 2148.137 on 5727 degrees of freedom
Terms added sequentially (rst to last)

NULL
x051
x052
x053
x054
x101
x102
x103
x161
x162
x181
x182
x183
x211
x212
x213
x221
x222
x223
x224
x231
x232
x233
x234
x241
x242
x243
x244
x251
x252
178

Df

Deviance

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

39.3745
9.7578
4.4112
30.8670
1.8720
3.8434
0.6213
2.5579
9.7544
6.0879
0.0356
3.2586
5.5679
5.9198
1.8851
3.2674
4.0016
2.5870
0.6380
6.6725
2.5292
0.0000
1.9612
0.2160
0.0331
0.8253
1.5598
0.0577
0.6778

Resid. Df
5821
5820
5819
5818
5817
5816
5815
5814
5813
5812
5811
5810
5809
5808
5807
5806
5805
5804
5803
5802
5801
5800
5799
5798
5797
5796
5795
5794
5793
5792

Resid. Dev
2635.540
2596.166
2586.408
2581.997
2551.130
2549.258
2545.414
2544.793
2542.235
2532.481
2526.393
2526.357
2523.099
2517.531
2511.611
2509.726
2506.459
2502.457
2499.870
2499.232
2492.559
2490.030
2490.030
2488.069
2487.853
2487.820
2486.995
2485.435
2485.377
2484.699
Anexo IV

PERTENCE A NOME DO CLIENTE

x253
x254
x261
x262
x263
x264
x281
x282
x283
x301
x302
x303
x304
x311
x312
x321
x341
x342
x343
x344
x351
x352
x353
x371
x372
x373
x391
x392
x393
x394
x401
x402
x403
x404
x405
x431
x432
x433
x434
x441
x442
x471
x472
x473
x474
x651
x652
x681

1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1

1.9375
5.0388
0.0542
1.2250
4.0307
0.0221
0.1006
0.6988
9.1478
0.2616
0.2632
3.9253
1.1326
0.0580
0.0000
1.8399
1.1460
5.4060
4.0184
0.4228
3.9631
0.1146
0.0497
1.1775
0.0015
1.8063
1.2017
1.0417
0.0000
0.2421
5.3597
0.0088
0.7872
2.0388
2.4068
0.0341
0.1795
4.0019
7.2025
0.0794
44.2642
0.1061
17.9515
124.7416
2.7816
0.7082
0.0000
5.2395

Introduo Minerao de Dados

5791
5790
5789
5788
5787
5786
5785
5784
5783
5782
5781
5780
5779
5778
5778
5777
5776
5775
5774
5773
5772
5771
5770
5769
5768
5767
5766
5765
5764
5763
5762
5761
5760
5759
5758
5757
5756
5755
5754
5753
5752
5751
5750
5749
5748
5747
5747
5746

2482.762
2477.723
2477.669
2476.444
2472.413
2472.391
2472.290
2471.592
2462.444
2462.182
2461.919
2457.994
2456.861
2456.803
2456.803
2454.963
2453.817
2448.411
2444.393
2443.970
2440.007
2439.892
2439.843
2438.665
2438.664
2436.857
2435.656
2434.614
2434.614
2434.372
2429.012
2429.003
2428.216
2426.177
2423.770
2423.736
2423.557
2419.555
2412.352
2412.273
2368.009
2367.903
2349.951
2225.210
2222.428
2221.720
2221.720
2216.480

179

PERTENCE A NOME DO CLIENTE

x682
x683
x684
x751
x752
x761
x762
x763
x764
x781
x791
x792
x801
x802
x821
x822
x831
x832
x851
x852

1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

0.1343
0.1186
0.0000
2.9972
0.7176
6.0418
0.0019
0.6230
6.5251
0.8394
6.2463
0.2314
4.2926
1.0402
28.0641
2.5351
2.5699
2.4093
2.6807
0.2749

5745
5744
5744
5743
5742
5741
5740
5739
5738
5737
5736
5735
5734
5733
5732
5731
5730
5729
5728
5727

2216.346
2216.227
2216.227
2213.230
2212.513
2206.471
2206.469
2205.846
2199.321
2198.481
2192.235
2192.004
2187.711
2186.671
2158.607
2156.072
2153.502
2151.093
2148.412
2148.137

Os resultados deste modelo foram utilizados na recodicao:


por exemplo, foi possvel ver que o nvel 3 da varivel x10 no era necessrio, que os nveis 1 e 2 da varivel x25 no era necessrio etc.
Resultados com a codicao nal adotada
glm(formula= x86 ~ x051 + x052 + x053 + x054 + x101 +
x102 + x161 + x162 + x181 + x182 + x211 + x212
x213 + x221 + x222 + x223 + x231 + x232 + x233
x251 + x252 + x261 + x262 + x281 + x301 + x302
x341 + x342 + x343 + x344 + x401 + x402 + x403
x404 + x431 + x432 + x441 + x442 + x471 + x472
x473 + x681 + x761 + x762 + x791 + x801 + x802
x821 + x822

+
+
+
+
+
+

Coefcients:
(Intercept)
x051
x052
x053
x054
x101
x102

180

Value
-3.71376325
0.02355104
-0.29862596
-5.21363786
-0.81892398
-0.79326984
0.06149131

Std. Error
0.8794021
0.2704901
0.1954351
4.7409075
0.2487726
0.9447965
0.7901097

t value
-4.223054705
0.087068031
-1.528006025
-1.099713061
-3.291857744
-0.839619765
0.077826286

Anexo IV

PERTENCE A NOME DO CLIENTE

x161
x162
x181
x182
x211
x212
x213
x221
x222
x223
x231
x232
x233
x251
x252
x261
x262
x281
x301
x302
x341
x342
x343
x344
x401
x402
x403
x404
x431
x432
x441
x442
x471
x472
x473
x681
x761
x762
x791
x801
x802
x821
x822

0.28490999
0.59918468
-0.22922221
-0.97215499
-0.26716235
-0.91718193
-4.36375231
-0.16151776
0.32299736
0.17123917
0.42541852
0.07109768
0.71095332
0.25376848
-1.70901760
0.07773106
0.74368715
0.40128015
-0.20674736
0.13622427
-0.08324574
-0.88819093
0.54627119
-5.13517002
0.35161761
0.37579313
-5.83149814
2.88215620
0.30693586
-0.25775162
0.36937343
1.36693182
4.34545727
6.02268427
-0.36641573
-4.57115203
-0.39297092
2.22351633
1.41224427
0.31672335
-5.29912966
2.46355648
2.82307609

0.1585587
0.2910429
0.2813465
0.4949005
0.1644088
0.7459344
6.9504968
0.2218628
0.3622845
0.4713192
0.2008460
0.1866990
0.6067053
0.3900953
1.0708175
0.5415759
1.1840309
0.1848870
0.2851240
0.2273716
0.1413991
0.2928898
0.5261142
6.6474350
0.1336747
0.2908706
9.6399819
1.3511558
0.2371325
0.2355894
0.1496256
0.8625582
36.6587432
36.6576688
37.0331216
36.6577912
0.2528727
0.8092800
0.6002204
0.1563555
9.3896963
0.4232243
1.4835215

1.796873383
2.058750591
-0.814732755
-1.964344176
-1.624988186
-1.229574519
-0.627833150
-0.728007435
0.891557275
0.363318902
2.118132758
0.380814546
1.171826377
0.650529467
-1.595993323
0.143527529
0.628097736
2.170407183
-0.725113973
0.599126167
-0.588728975
-3.032509343
1.038312994
-0.772503984
2.630398089
1.291959933
-0.604928331
2.133104208
1.294364284
-1.094071217
2.468651261
1.584741497
0.118538086
0.164295343
-0.009894271
-0.124697967
-1.554026393
2.747524001
2.352876269
2.025661715
-0.564355811
5.820923803
1.902955937

Null Deviance: 2635.54 on 5821 degrees of freedom


Residual Deviance: 2208.273 on 5772 degrees of freedom

Introduo Minerao de Dados

181

PERTENCE A NOME DO CLIENTE

Terms added sequentially (rst to last)


NULL
x051
x052
x053
x054
x101
x102
x161
x162
x181
x182
x211
x212
x213
x221
x222
x223
x231
x232
x233
x251
x252
x261
x262
x281
x301
x302
x341
x342
x343
x344
x401
x402
x403
x404
x431
x432
x441
x442
x471
x472
x473
x681
x761

182

Df

Deviance

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

39.3745
9.7578
4.4112
30.8670
1.8720
0.5220
1.9900
9.3106
0.7393
1.6858
7.2367
5.7474
1.6915
4.1004
4.3933
0.0181
7.6566
0.0372
2.2309
1.5900
5.4862
0.0126
0.0021
4.1358
4.1763
0.5549
0.6893
11.6021
0.9796
1.6177
4.1473
0.8093
2.8052
2.1245
5.2485
1.9198
44.5676
3.5618
17.5600
127.4810
2.6601
0.0610
2.5404

Resid. Df
5821
5820
5819
5818
5817
5816
5815
5814
5813
5812
5811
5810
5809
5808
5807
5806
5805
5804
5803
5802
5801
5800
5799
5798
5797
5796
5795
5794
5793
5792
5791
5790
5789
5788
5787
5786
5785
5784
5783
5782
5781
5780
5779
5778

Resid. Dev
2635.540
2596.166
2586.408
2581.997
2551.130
2549.258
2548.736
2546.746
2537.435
2536.696
2535.010
2527.773
2522.026
2520.335
2516.234
2511.841
2511.823
2504.166
2504.129
2501.898
2500.308
2494.822
2494.809
2494.807
2490.671
2486.495
2485.940
2485.251
2473.649
2472.669
2471.051
2466.904
2466.095
2463.290
2461.165
2455.917
2453.997
2409.429
2405.867
2388.307
2260.826
2258.166
2258.105
2255.565

Anexo IV

PERTENCE A NOME DO CLIENTE

x762
x791
x801
x802
x821
x822

1
1
1
1
1
1

6.0466
4.6312
4.4786
1.5245
27.6719
2.9391

5777
5776
5775
5774
5773
5772

2249.518
2244.887
2240.409
2238.884
2211.212
2208.273

Como seria de se esperar, as variveis que foram recodicadas


em menos nveis foram responsveis por uma reduo menor na
deviance do que tinha sido obtido com o modelo mais completo.
Em vez de reduzir a deviance para 2.148,13, a reduo aqui obtida
foi para 2.208,27.
Usando os valores previstos, foi possvel calcular a matriz de
confuso. Os resultados abaixo correspondem ao limite px = 5/30,
usado na prototipagem.
Matriz de confuso, dados de treinamento (ponto de corte = 5/30)
Observao
Previso
No compra
Compra
Total

No compra

Compra

Total

5.112

224

5.336

362

124

486

5.474

348

5.822

Para comparao, considerar o resultado obtido na prototipagem:


Matriz de confuso, dados de treinamento (prototipagem com corte
em 5/30)
Observao
Previso
No compra
Compra
Total

No compra

Compra

Total

5.134

235

5.369

340

113

453

5.474

348

5.822

O nmero de falsos positivos aumentou e diminuiu o nmero de


falsos negativos. A quantidade passou de 575 para 586 (na realidade
aumentou). O custo total de mailing passou de 2.265 para 2.430. A
receita aumentou de 2.825 para 3.100. Portanto, o lucro passou de
560 para 670.
Considerando outros pontos de corte, obteramos as matrizes
de confuso a seguir.

Introduo Minerao de Dados

183

PERTENCE A NOME DO CLIENTE

Matriz de confuso, dados de treinamento (ponto de corte = 0.09)


Observao
Previso

No compra

Compra

Total

No compra

4.434

128

4.562

Compra

1.040

220

1.260

Total

5.474

348

5.822

Matriz de confuso, dados de treinamento (ponto de corte =0.20)


Observao
Previso

No compra

Compra

Total

5.232

251

5.483

242

97

339

5.474

348

5.822

No compra
Compra
Total

Resultados com a amostra de teste


Os dados abaixo foram extrados de arquivo em que esto listados
os 800 mais promissores, conforme solicitados. O ponto de corte
necessrio para atingir exatamente este nmero 0,094.
Ordem:
nlista:
posits:
previsto:
observ:

184

nmero de ordem no arquivo de teste


nmero de casos com previsto>0.094 at o nmero de ordem
nmero de positivos corretos
probabilidade de compra prevista pelo modelo
1 = compra, 0 = no compra

ordem

nlista

posits

previsto

observ

0.20943

0.09624

0.10546

12

0.13052

21

0.10228

23

0.13788

24

0.19102

27

0.09734

36

0.09831

39

10

0.32307

3.898

790

113

0.16968

3.900

791

113

0.10605

3.903

792

113

0.12661

3.905

793

113

0.16958

3.911

794

113

0.21945

Anexo IV

PERTENCE A NOME DO CLIENTE

ordem

nlista

posits

previsto

observ

3.915

795

113

0.21442

3.916

796

113

0.14723

3.919

797

113

0.16967

3.922

798

113

0.18686

3.940

799

113

0.10117

3.942

800

113

0.20182

O maior valor previsto foi de 0,8675.


As matrizes de confuso, para vrios pontos de corte, esto dadas
a seguir.
Matriz de confuso, dados de teste (ponto de corte 0,094)
Observao
Previso
No compra
Compra
Total

No compra

Compra

Total

3.072

128

3.200

690

110

800

3.762

238

4.000

Se considerarmos a estrutura de custos especicada na prototipagem (R$5,00 por mailing, receita lquida de R$25,00 por compra),
teramos:
Custo de mailing = 800 x 5 = 4.000
Lucro de vendas = 110 x 25 = 2.750
Portanto, haveria prejuzo.
O ponto de corte 0,094 no coerente com esta estrutura de
custos. Este ponto de corte seria timo se, sendo o custo de mailing
R$5,00 por unidade, a receita lquida por venda fosse dada por:
0,094 = 5,00/(5,00 + receita lquida por venda),

portanto
receita lquida por venda = 5/0,094 5 = 48,19.
Caso fosse esta a estrutura de custos, teramos:
Custo de mailing = R$4.000,00
Receita lquida de vendas = 110 x R$48,19 = R$5.301,06.

Introduo Minerao de Dados

185

PERTENCE A NOME DO CLIENTE

O lucro lquido seria de 32,52% sobre o custo de mailing.


Outros pontos de corte esto ilustrados abaixo.
Matriz de confuso, dados de teste (ponto de corte = 0,08)
Observao
Previso
No compra
Compra
Total

No compra

Compra

Total

2.961

117

3.078

801

121

922

3.762

238

4.000

Matriz de confuso, dados de teste (ponto de corte = 0,15)


Observao
Previso
No compra
Compra
Total

No compra

Compra

Total

3.456

183

3.639

306

55

361

3.762

238

4.000

AVALIAO DO RETORNO DO INVESTIMENTO


As consideraes feitas no item 5.3 demonstram que, se a estrutura
de custos for coerente com a especicao do concurso (indicar os
800 mais promissores para receberem a oferta por correspondncia),
o retorno do investimento (medido pelo custo do mailing) seria
positivo (lucro de 32,5% sobre o custo de mailing), usando o ponto
de corte 0,094.
Este clculo foi feito admitindo que a empresa de seguros s tem
o custo do prprio produto quando ele for efetivamente vendido,
i.e., que no h encalhe, e que os impostos j foram computados.
Para empresa de seguro, esta hiptese parece razovel.
Se a estrutura de custos fosse compatvel com a hiptese inicial
(receita lquida por venda = R$25,00), o retorno seria negativo.
Caso o modelo no tivesse sido desenvolvido, a empresa poderia selecionar 800 clientes por amostragem simples, e esperar uma
resposta de 5,98% (estimativa a priori obtida a partir dos dados de
treinamento). Portanto, dos 800 mailings enviados (ao custo de
R$4.000,00) deveria esperar 47,84 vendas (com receita lquida de
47,84 x R$48,19 = R$2.305,40), levando a um prejuzo esperado.
Considerando que a frao de positivos observada nos dados
de teste de 238/4.000 = 5,95%, a receita lquida esperada dessa

186

Anexo IV

PERTENCE A NOME DO CLIENTE

estratgia, j considerando os dados de teste, seria de R$2.293,84,


tambm levando a um prejuzo esperado.
A deciso comercial correta, caso fosse determinado tomar a
deciso sem o modelo logstico, seria por no enviar o mailing,
com lucro zero.
INFORMAES COMPLEMENTARES
The Insurance Company (TIC) Benchmark:
Original Problem Task Description
Direct mailings to a companys potential customers junk mail to
many can be a very effective way for them to market a product or
a service. However, as we all know, much of this junk mail is really
of no interest to the people that receive it. Most of it ends up thrown
away, not only wasting the money that the company spent on it, but
also lling up landll waste sites or needing to be recycled.
If the company had a better understanding of who their potential
customers were, they would know more accurately who to send it
to, so some of this waste and expense could be reduced. Therefore, following a successful CoIL competition last year (See Synergy
Issue 1, Winter 1999), CoIL has just announced a new competition
challenge for 2000:
Can you predict who would be interested in
buying a caravan insurance policy and give an
explanation why?
The competition consists of two tasks:
Predict which customers are potentially interested in a caravan
insurance policy.
Describe the actual or potential customers; and possibly explain
why these customers buy a caravan policy.
Participants need to provide a solution for both tasks. For both
tasks only one winner will be chosen.
We want you to predict whether a customer is interested in a caravan insurance policy from other data about the customer. Information about customers consists of 86 variables and includes product
usage data and socio-demographic data derived from zip area codes.
The data was supplied by the Dutch data mining company Sentient
Introduo Minerao de Dados

187

PERTENCE A NOME DO CLIENTE

Machine Research and is based on a real world business problem.


The training set contains over 5000 descriptions of customers,
including the information of whether or not they have a caravan
insurance policy. A test set contains 4000 customers of whom only
the organisers know if they have a caravan insurance policy.
For the prediction task, the underlying problem is to the nd the
subset of customers with a probability of having a caravan insurance
policy above some boundary probability. The known policyholders
can then be removed and the rest receives a mailing. The boundary
depends on the costs and benets such as of the costs of mailing and
benet of selling insurance policies. To approximate this problem,
we want you to nd the set of 800 customers in the test set that contains the most caravan policy owners. For each solution submitted,
the number of actual policyholders will be counted and this gives
the score of a solution. Only the indexes of the selected records
need to be sent in, assuming that the rst record has index number
1 (e.g. 1,7,24,,3980,4000). Please also mention the technique or
algorithm used. The candidate winner for the prediction task will
need to motivate his or her approach in a short paper (right after the
closing of the deadline and before the CoIL Symposium).
The purpose of the description task is to give a clear insight to why
customers have a caravan insurance policy and how these customers
are different from other customers. Descriptions can be based on regression equations, decision trees, neural network weights, linguistic
descriptions, evolutionary programs, graphical representations or
any other form. The descriptions and accompanying interpretation
must be comprehensible, useful and actionable for a marketing
professional with no prior knowledge of computational learning
technology. Since the value of a description is inherently subjective,
submitted descriptions will be evaluated by the jury and an expert
in insurance marketing.
Disclaimer
This dataset is owned and supplied by the Dutch datamining company Sentient Machine Research, and is based on real world business data. You are allowed to use this dataset and accompanying
information for non commercial research and education purposes

188

Anexo IV

PERTENCE A NOME DO CLIENTE

only. It is explicitly not allowed to use this dataset for commercial


education or demonstration purposes. For any other use, please
contact Peter van der Putten, info@smr.nl.
This dataset has been used in the CoIL Challenge 2000 datamining competition. For papers describing results on this dataset, see
the TIC 2000 homepage: http://www.wi.leidenuniv.nl/~putten/library/cc2000/
Reference
P. van der Putten and M. van Someren (eds). CoIL Challenge 2000:
The InsuranceCompany Case.
Published by Sentient Machine Research, Amsterdam. Also a Leiden
Institute of Advanced Computer Science Technical Report 2000-09.
June 22, 2000.
RELEVANT FILES
TICDATA2000.txt
Dataset to train and validate prediction models and build a description (5822 customer records). Each record consists of 86 attributes,
containing sociodemographic data (attribute 1-43) and product
ownership (attributes 44-86).The sociodemographic data is derived
from zip codes. All customers living in areas with the same zip code
have the same sociodemographic attributes. Attribute 86, CARAVAN:Number of mobile home policies, is the target variable.
TICEVAL2000.txt
Dataset for predictions (4000 customer records). It has the same
format as TICDATA2000.txt, only the target is missing. Participants
are supposed to return the list of predicted targets only. All datasets
are in tab delimited format.
The meaning of the attributes and attribute values is given below.
TICTGTS2000.txt
Targets for the evaluation set.

Introduo Minerao de Dados

189

PERTENCE A NOME DO CLIENTE

DATADICTIONARY
Nr
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

190

Name
MOSTYPE
MAANTHUI
MGEMOMV
MGEMLEEF
MOSHOOFD
MGODRK
MGODPR
MGODOV
MGODGE
MRELGE
MRELSA
MRELOV
MFALLEEN
MFGEKIND
MFWEKIND
MOPLHOOG
MOPLMIDD
MOPLLAAG
MBERHOOG
MBERZELF
MBERBOER
MBERMIDD
MBERARBG
MBERARBO
MSKA
MSKB1
MSKB2
MSKC
MSKD
MHHUUR
MHKOOP
MAUT1
MAUT2
MAUT0
MZFONDS
MZPART
MINKM30
MINK3045
MINK4575
MINK7512
MINK123M
MINKGEM
MKOOPKLA
PWAPART

Description Domain
Customer Subtype see L0
Number of houses 1 10
Avg size household 1 6
Avg age see L1
Customer main type see L2
Roman catholic see L3
Protestant ...
Other religion
No religion
Married
Living together
Other relation
Singles
Household without children
Household with children
High level education
Medium level education
Lower level education
High status
Entrepreneur
Farmer
Middle Management
Skilled labourers
Unskilled labourers
Social class A
Social class B1
Social class B2
Social class C
Social class D
Rented house
Home owners
1 car
2 cars
No car
National Health Service
Private health insurance
Income < 30.000
Income 30-45.000
Income 45-75.000
Income 75 122.000
Income > 123.000
Average income
Purchasing power class
Contribution private third party insurance see L4

Anexo IV

PERTENCE A NOME DO CLIENTE

45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86

PWABEDR
PWALAND
PPERSAUT
PBESAUT
PMOTSCO
PVRAAUT
PAANHANG
PTRACTOR
PWERKT
PBROM
PLEVEN
PPERSONG
PGEZONG
PWAOREG
PBRAND
PZEILPL
PPLEZIER
PFIETS
PINBOED
PBYSTAND
AWAPART
AWABEDR
AWALAND
APERSAUT
ABESAUT
AMOTSCO
AVRAAUT
AAANHANG
ATRACTOR
AWERKT
ABROM
ALEVEN
APERSONG
AGEZONG
AWAOREG
ABRAND
AZEILPL
APLEZIER
AFIETS
AINBOED
ABYSTAND
CARAVAN

Contribution third party insurance (rms) ...


Contribution third party insurane (agriculture)
Contribution car policies
Contribution delivery van policies
Contribution Motorcycle/scooter policies
Contribution lorry policies
Contribution trailer policies
Contribution tractor policies
Contribution Agricultural Machines policies
Contribution Moped policies
Contribution life insurances
Contribution private Accident insurance policies
Contribution family Accidents insurance policies
Contribution disability insurance policies
Contribution re policies
Contribution surfboard policies
Contribution boat policies
Contribution bicycle policies
Contribution property insurance policies
Contribution social security insurance policies
Number of private third party insurance 1 12
Number of third party insurance (rms) ...
Number of third party insurane (agriculture)
Number of car policies
Number of delivery van policies
Number of Motorcycle/scooter policies
Number of lorry policies
Number of trailer policies
Number of tractor policies
Number of Agricultural Machines policies
Number of Moped policies
Number of life insurances
Number of private Accident insurance policies
Number of family Accidents insurance policies
Number of disability insurance policies
Number of re policies
Number of surfboard policies
Number of boat policies
Number of bicycle policies
Number of property insurance policies
Number of social security insurance policies
Number of mobile home policies 0 1

L0:
1
2
3

High Income, expensive child


Very Important Provincials
High status seniors

Introduo Minerao de Dados

191

PERTENCE A NOME DO CLIENTE

4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

Afuent senior apartments


Mixed seniors
Career and childcare
Dinkis (double income no kids)
Middle class families
Modern, complete families
Stable family
Family starters
Afuent young families
Young all american family
Junior cosmopolitan
Senior cosmopolitans
Students in apartments
Fresh masters in the city
Single youth
Suburban youth
Etnically diverse
Young urban have-nots
Mixed apartment dwellers
Young and rising
Young, low educated
Young seniors in the city
Own home elderly
Seniors in apartments
Residential elderly
Porchless seniors: no front yard
Religious elderly singles
Low income catholics
Mixed seniors
Lower class large families
Large family, employed child
Village families
Couples with teens Married with children
Mixed small town dwellers
Traditional families
Large religous families
Large family farms
Mixed rurals

1
2
3
4
5
6

20-30
30-40
40-50
50-60
60-70
70-80

L1:

192

years
years
years
years
years
years

Anexo IV

PERTENCE A NOME DO CLIENTE

L2:
1
2
3
4
5
6
7
8
9
10

Successful hedonists
Driven Growers
Average Family
Career Loners
Living well
Cruising Seniors
Retired and Religeous
Family with grown ups
Conservative families
Farmers

0
1
2
3
4
5
6
7
8
9

0%
1 10%
11 23%
24 36%
37 49%
50 62%
63 75%
76 88%
89 99%
100%

0
1
2
3
4
5
6
7
8
9

f
f
f
f
f
f
f
f
f
f

L3:

L4:
0
1 49
50 99
100 199
200 499
500 999
1000 4999
5000 9999
10.000 19.999
20.000 ?

AIV-8 SISTEMA DE DETECO DE INTRUSO


Artur Versiani Scott Varella (DCC-IM / NCE) e Antonio Anibal de
Souza Teles (DCC-IM / NCE)
Denio do problema
Programas de deteco de intruso servem para proteger uma rede
de computadores do acesso no autorizado de usurios e de ataques
de negao de servio.

Introduo Minerao de Dados

193

PERTENCE A NOME DO CLIENTE

Nosso problema consiste em construir um modelo preditivo


que seja capaz de distinguir as conexes ruins, relativas a ataques
ou intruses, das conexes normais.
Aquisio e avaliao dos dados
Utilizamos os dados de um conhecido site direcionado para descoberta de conhecimento e minerao de dados, chamado KDDCUP
<http://kdd.ics.uci.edu/>. Este stio contm desaos e grandes
bases de dados. Os dados originais podem ser encontrados em
<http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html>.
Um conjunto de dados foi coletado de um programa de pesquisa
em deteco de intruso chamado DARPA. Estes dados foram gerados em uma rede de alta segurana simulando a rede da fora area
americana. A rede foi operada como se fosse realmente um ambiente
da fora area, mas com a presena de vrios tipos de ataques.
Os dados foram pr-processados gerando algo em torno de dois
milhes de registros de conexes. Uma conexo uma seqncia
de pacotes TCP, de um endereo IP para outro sob algum protocolo
denido, que iniciam e nalizam em um tempo bem denido.
Cada conexo nomeada como normal ou um ataque, sendo
especicado o tipo do ataque. Os ataques podem ser classicados
em quatro grandes categorias:
Negao de servio, como syn ood.
Acesso no autorizado de uma mquina remota, como adivinhar
uma senha.
Acesso no autorizado ao super usurio local, como buffer overow.
Procura de vulnerabilidades, como a varredura de portas.
Possumos algo em torno de 2 milhes de registros de conexes
e para cada conexo temos trs subcategorias de variveis:
Caractersticas bsicas de uma conexo TCP.
Caractersticas de contedo, sugeridas por um conhecimento
do domnio.
Caractersticas de trfego, computadas utilizando uma janela de
dois segundos.
Foram selecionados para o nosso trabalho apenas os tipos de ataques referentes a acessos no autorizados por serem semelhantes.
Os outros dois tipos requerem uma anlise diferenciada.
194

Anexo IV

PERTENCE A NOME DO CLIENTE

Depois de efetuados os cortes relativos aos registros das duas outras


categorias, o banco de dados cou com 98.455 registros de conexes.
Destas, 97.277 so de conexes normais e 1.178 de conexes consideradas ruins, por corresponderem a algum tipo de ataque.
Amostragem
Foi criada uma amostra com 8.126 registros. Foram mantidos todos
os 1.178 registros correspondentes a intruses. Os demais, 6.948
registros, foram obtidos atravs de amostragem sistemtica, na
proporo 1:14, dos 97.277 registros de conexes boas.
Tratamento dos erros
Foi encontrado apenas um dado faltante, que se encontrava na
coluna target. O registro no qual se encontrava o dado foi excludo
devido a sua insignicncia.
Particionamento
Da amostra com 8.126 registros foram criados conjuntos de treinamento e validao, na proporo aproximada de 70% e 30%,
respectivamente.
A Tabela abaixo resume a quantidade de registros presentes
nos dados originais, na amostra e nos conjuntos de treinamento
e validao.

Nome das tabelas

Tipo dos registros

N de Registros

98.455

Tabela Original
Registros-alvo
Registros no-alvo
Tabela Amostra
(1/14 dos No Alvos)

1.178
97.277
8.126

Registros-alvo

1.178

Registros no-alvo

6.948
5.687

Tabela Treinamento (70%)


Registros-alvo
Registros no-alvo

Registros-alvo
Registros no-alvo

Introduo Minerao de Dados

70%

824
4.863
2.439

Tabela Validao (30%)

8,25%

30%

354
2.085

195

PERTENCE A NOME DO CLIENTE

Extrao de caractersticas e realce


Atributos considerados
Os 41 campos presentes na Tabela original foram considerados, a
princpio, dos atributos dos candidatos. Estes 41 campos encontravam-se agrupados em trs categorias.
Caractersticas bsicas das conexes TCP
Duration

Flag

Protocol_type

Land

Service

Wrong_fragment

Src_bytes

Urgent

Dst_bytes

Caractersticas de contedo sugeridas pelo domnio


Hot

Num_file_creations

Num_failed_logins

Num_shells

Loged_in

Num_access_files

Num_compromised

Num_outbound_cmds

Root_shell

Is_host_login

Su_attempted

Is_guest_login

Num_root

Caractersticas de trfego (janela de dois segundos)


Count

Dst_host_srv_count

Serror_rate

Dst_host_same_srv_rate

Rerror_rate

Dst_host_diff_srv_rate

Same_srv_rate

Dst_host_same_src_port_rate

Diff_srv_rate

Dst_host_src_diff_host_rate

Srv_count

Dst_host_serror_rate

Srv_serror_rate

Dst_host_srv_serror_rate

Srv_rerror_rate

Dst_host_rerror_rate

Srv_diff_host_rate Dst_host_srv_rerror_rate
Dst_host_count

Os campos protocol_type, service e ag correspondiam a dados


qualitativos. Foram ento criados 18 novos atributos que, substituindo os trs anteriores, deram origem a 56 atributos.

196

Anexo IV

PERTENCE A NOME DO CLIENTE

Os atributos foram analisados um a um. Inicialmente a inteno


era uma anlise supercial de seus domnios, com o intuito de se
ganhar alguma intimidade com eles.
Protocol_TCP

Flag_RSTO

Protocol_UDP

Flag_RSTOS0

Protocol_ICMP

Flag_RSTR

Service_ftp

Flag_S0

Service_ftp_data

Flag_S1

Service_telnet

Flag_S2

Service_outros

Flag_S3

Flag_OTH

Flag_SF

Flag_REJ

Flag_SH

Em seguida foi aplicada a estatstica do qui-quadrado sobre cada


um dos atributos. O resultado da estatstica permitiu a reduo de
variveis, excluindo-se aquelas que denitivamente eram independentes do objetivo. Exemplos da aplicao da estatstica so
mostrados no Anexo V. De posse desse resultado foram excludas
as variveis:
Land

Flag_RSTOS0

Wrong_fragment

Flag_S0

Num_outbound_cmds Flag_S1
Protocol_UDP

Flag_S2

Protocol_ICMP

Flag_SH

Flag_OTH

Is_host_login

Flag_REJ

Como o processo de minerao de dados emprega uma abordagem de prototipao em espiral, alguns outros atributos acabaram,
posteriormente, sendo retirados. Todos apresentaram um valor
baixo na estatstica do qui-quadrado e no tinham sido retirados
anteriormente devido a uma postura, digamos, conservadora. A
retirada desses atributos acabou sendo realizada aps j se ter feito
uma validao do modelo e a inteno foi vericar o comportamento
sem a presena deles, o que acabou justicando sua retirada. Ficamos ento com 30 atributos, alm do atributo target, que passaram
a ser as variveis do nosso modelo.

Introduo Minerao de Dados

197

PERTENCE A NOME DO CLIENTE

Flag_RSTR

Same_srv_rate

Flag_S3

Diff_srv_rate

Flag_SF

Dst_host_same_srv_rate

Urgent

Dst_host_diff_srv_rate

Su_attemted

Dst_host_serror_rate

Rerror_rate

Dst_host_srv_serror_rate

Srv_rerror_rate

Transformao dos dados


Diversas tcnicas foram empregadas neste quesito. Conforme
visto anteriormente, para cada varivel qualitativa, onde cada
valor correspondia a uma categoria, foram criadas tantas variveis
quanto o nmero de categorias. J a varivel target, que tambm
era categrica indicando o tipo de ataque, foi substituda por outra
que passou a indicar simplesmente se o registro correspondia, ou
no, a um ataque.
A maioria das variveis correspondia a um valor lgico, indicando se aquela caracterstica estava presente na conexo. As demais
variveis correspondiam a valores inteiros.
Em um primeiro estudo tentou-se, para cada uma dessas variveis, agrupar seus valores em categorias a m de vericar a
distribuio das freqncias desses valores e a dependncia com
o atributo objetivo. Em seguida, foram criadas novas variveis por
meio da aplicao de transformaes matemticas que evidenciaram os agrupamentos estudados e que separaram os agrupamentos
relativamente mais relacionados ao objetivo dos agrupamentos
menos relacionados a ele. Um quadro contendo as transformaes
empregadas encontra-se no Anexo VI.
Desenvolvimento do modelo
Prototipagem
Devido ao problema em questo se tratar de uma previso, ou seja,
de uma classicao supervisionada, optamos por utilizar um modelo de Redes Neurais. Do ponto de vista da arquitetura, utilizamos
redes MLP com diferentes nmeros de neurnios tanto na camada
intermediria quanto na camada de sada.
Antes de iniciarmos a prototipagem do modelo, zemos uma
anlise das componentes principais (PCA), avaliando o nvel de

198

Anexo IV

PERTENCE A NOME DO CLIENTE

informao de cada componente mediante a utilizao de autovetores e autovalores.

Do ponto de vista da arquitetura, empregamos 24 modelos. Utilizamos 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40 e 50 neurnios na camada
escondida e 1 e 2 neurnios na camada de sada. A princpio, deveramos optar pela arquitetura com um nmero menor de neurnios
que apresentasse um resultado satisfatrio tanto no treinamento
quanto na validao.
Treinamento
O treinamento constou em se avaliar cada arquitetura por meio
de um lote de 10 treinamentos. A meta dos treinamentos, medida
pelo erro quadrtico mdio, foi xada em 0,001. O nmero mximo
de pocas foi relativamente grande (1.500) para podermos avaliar
problemas inerentes falta de convergncia em um treinamento.
Problemas como estes ocorrem em funo da inicializao aleatria
dos pesos.
Durante a fase de treinamento todas as arquiteturas analisadas
apresentaram desempenho satisfatrio. Entretanto, em arquiteturas
mais pobres foi comum observar treinamentos em que a meta no
era alcanada, em alguns deles o gradiente mnimo era atingido, ou

Introduo Minerao de Dados

199

PERTENCE A NOME DO CLIENTE

um grande nmero de pocas era necessrio para atingir a meta.


Em particular, as redes com 20 ou mais neurnios na camada
escondida apresentaram um timo rendimento, sempre alcanando
a meta em um nmero no muito alto de pocas (tipicamente 300
pocas).
Avaliao do modelo
A rede que escolhemos como modelo foi uma MLP com 20 neurnios na camada escondida e 1 neurnio na camada de sada. O
treinamento destas redes foi sempre muito bom e os resultados da
avaliao, em termos de taxa de acertos, apresentou sempre uma
mdia superior a 99% para as 10 execues de um lote.
Surpreendentemente a utilizao de um segundo neurnio na
camada de sada no melhorou o desempenho, como era de se esperar.
O quadro a seguir sumariza a validao dos modelos considerados.
Nmero de
Neurnios

Taxa de Acerto na
Validao

99,09 %

10

99,30 %

15

99,24 %

20

99,29 %

25

99,24 %

30

99,29 %

40

99,22 %

50

99,21 %

A m de evitar que variveis tivessem papel mais signicativo s


pelo fato de possurem valores mais elevados, todas passaram por
uma transformao linear que as mapeou no intervalo [-1, 1].
Embora no colabore com o desempenho de um modelo em
termos de taxa de acertos, um fator considerado foi o tipo dos erros.
No caso em questo, melhor haver um prognstico de intruso
quando na realidade isto no ocorreu do que o inverso. Analisando
as matrizes de confuso geradas pelas execues do modelo, optamos por considerar a sada produzida de forma assimtrica.
A funo de transferncia do neurnio de sada a funo logstica, que produz valores no intervalo [0, 1]. Interpretamos o valor 0

200

Anexo IV

PERTENCE A NOME DO CLIENTE

como indicativo de uma conexo boa e o 1 como uma intruso. A


assimetria citada constou em considerar um valor de corte diferente
do centro do intervalo, ou seja, 0,5. Na realidade utilizou-se o valor
0,2 como ponto de corte. Desta forma, um valor no intervalo [0 0,2]
foi considerado como 0 (conexo boa) e um valor no intervalo [0,2
1] como 1 (intruso). Com esta assimetria foi possvel obter uma
pequena diminuio dos casos em que o modelo considera uma
intruso como sendo uma conexo boa.
A arquitetura de rede escolhida como modelo para este sistema
composta de 20 neurnios na camada escondida e 1 na de sada,
pois a menor rede na qual obtivemos elevada taxa de acerto e boa
assimetria em relao aos erros cometidos.
No Anexo VII so mostradas as matrizes de confuso e as taxas
mdias de acerto de algumas validaes realizadas.
Avaliao do retorno do investimento
O impacto de uma intruso proporcional importncia e ao valor
das informaes mantidas nos sistemas de computao da organizao. Ou seja, se a organizao no possui rede, se tabalha s
com uma rede local ou se nos seus sistemas de computao esto
guardadas apenas informaes de pouca relevncia, tanto para a
empresa quanto para seus clientes, no h motivo para a implantao de um sistema de deteco de intruso.
O retorno do investimento deve ser calculado tambm em termos do aumento de conabilidade e segurana das informaes, j
que este fator de grande importncia. Uma organizao como um
banco, alm sofrer drasticamente com uma intruso pode perder a
conana de seus clientes e de empresas parceiras.
Para organizaes que no tm, em prtica, procedimentos de
segurana para suas informaes, o sistema de deteco dever ser
um componente de uma poltica de segurana mais ampla. Ser
necessrio gastar mais tempo e dinheiro.
Para as organizaes nas quais estas polticas j vigoram, o
sistema pode ser implantado, necessitando apenas de uma equipe
voltada para sua manuteno e utilizao. pressuposto que esta
equipe tenha informao e conhecimento sucientes para combater
e responder aos ataques.

Introduo Minerao de Dados

201

PERTENCE A NOME DO CLIENTE

Custos de implantao de um sistema de deteco


Custos iniciais
1. Desenvolvimento ou compra de software especializado em deteco de intruso/data mining US$40.000,00
2. Servidor dedicado a anlise, construo das bases de dados e
deteco de intruso US$4.000,00
Custos mensais
1. Consultoria de um especialista em segurana e em sistemas de
deteco (uma vez por ms) US$3.000,00
2. Tcnicos treinados para responder a ataques. Esta equipe
ser responsvel pela manuteno e utilizao do sistema
US$6.000,00
Custo inicial = 40.000 + 4.000 = US$44.000,00
Custo anual = 12 * (3.000 + 6.000) = US$108.000,00
Avaliao do retorno
O NBSO o Grupo de Resposta a Incidentes para a Internet brasileira, mantido pelo Comit Gestor da Internet no Brasil, responsvel
por receber, analisar e responder a incidentes de segurana em
computadores, envolvendo redes conectadas Internet brasileira. A
Tabela abaixo refere-se a vrios tipos de ataques e suas freqncias
nos meses de abril, maio e junho do ano passado.
Incidentes Reportados ao NBSO abril a junho de 2004
Ms/
Incidente

Worm

Af

Dos

Invaso

Aw

Scan

Fraude

Abril

2.496 (52%)

36 (0%)

2 (0%)

14 (0%)

81 (1%)

1.946 (40%) 188 (3%)

Maio

2.260 (41%)

38 (0%)

2 (0%)

19 (0%)

58 (1%)

2.913 (53%) 181 (3%)

Junho

3.752 (57%)

24 (0%)

3 (0%)

6 (0%)

26 (0%)

2.498 (38%) 193 (2%)

Total

8.508 (50%)

98 (0%)

7 (0%)

39 (0%) 165 (0%)

7.357 (43%) 562 (3%)

Legenda:
Worm:
af:
dos:
aw:

202

Cdigo malicioso
Ataque ao usurio nal
Denial of Service
Ataque a servidor Web

Anexo IV

PERTENCE A NOME DO CLIENTE

Nosso trabalho correspondeu aos ataques de intruso a servidores Web e a usurios nais, nos quais o intruso consegue acesso
mquina alvo, seja remota ou localmente. Vericando o ms de
junho de 2004, apenas 56 dos 6.502 ataques reportados ao NBSO
correspondem aos ataques por ns analisados.
Depois que o intruso consegue algum acesso privilegiado ele
pode causar algum dano, roubar informaes condenciais ou utilizar-se da mquina como uma ponte para atacar outras mquinas.
Vamos supor que:
1) Causar dano (brincadeiras) ocorra na porcentagem de 70%
(38 em junho) e que o servidor neste caso que fora do ar por
12 horas em mdia.
2) Roubar informaes ocorra na porcentagem de 10% (6 em junho). Neste caso seu servidor no sai fora do ar mas sua empresa
ca comprometida, causando queda na conabilidade.
3) Ponte ocorra na porcentagem de 20% (12 em junho). Sua mquina ca comprometida mas o intruso no tem nenhum interesse
em seus dados ou em danicar seus arquivos.
Vamos analisar apenas o primeiro caso, por ser de observao
instantnea. A probabilidade de sermos atacados com uma intruso
de 0,86% (com relao aos outros ataques) e em 70% das vezes a
intruso vai tirar o servidor do ar por 12 horas.
O faturamento de uma grande empresa web pode ser muito alto.
Veja o exemplo abaixo:
Apesar de o Google ter avisado que no daria muitas pistas sobre resultados futuros, j especulava-se que ele deveria obter boa margem
de lucro no ltimo trimeste do ano, com um faturamento estimado
em US$786,8 milhes para o ltimo trimestre do ano.
<http://www.estadao.com.br/tecnologia/internet/2004/ago/23/78.
htm>
No caso hipottico da empresa ter um faturamento trimestral de
US$786 milhes, temos cerca de US$8,73 milhes por dia e US$4,36
milhes por 12 horas. Considerando-se tambm a hiptese de que
no primeiro ano os servidores sem o sistema serem atacados com
sucesso uma nica vez, teremos:

Introduo Minerao de Dados

203

PERTENCE A NOME DO CLIENTE

Investimento = US$108.000,00 + US$44.000,00 = US$152.000,00.


Prejuzo = US$4.360.000,00 com o ataque.
Com apenas US$152.000,00 poderia-se prevenir a perda de
US$4.360.000,00 e, neste caso, o retorno do investimento seria de
absurdos 2.868%!
Bibliograa
BRAGA, Luis Paulo Vieira. Introduo minerao de dados. 1. ed.
E-papers Servios Editoriais: Rio de Janeiro, 2004.
HAN, J.; KAMBER, M. Data mining: Concepts and techniques. Academic Press, 2001.
HAYKIN, S. Redes neurais Princpios e prtica. Bookman, 2001.
BRAGA, A. P.; B. LUDERMIR, T. B. Redes neurais articiais Teoria e
aplicaes. LTC, 2002.

204

Anexo IV

PERTENCE A NOME DO CLIENTE

Anexo V Estatstica do Quiquadrado


para alguns
Atributos

Atributo candidato: ag_OTH


Coluna flag_OTH
Flag_OTH

TargetRN

Freq

4.863

824
5.687

Atributo candidato: ag_S0


Coluna flag_S0

Quiquadrado

Flag_S0

TargetRN

Freq

Esp

X2

4.860

4.860

0,0000

824

824

0,0000

0,0000

0
5.687

5.687

Atributo candidato: ag_RSTR


Coluna flag_RSTR

Quiquadrado

Flag_RSTR

TargetRN

Freq

Esp

X2

4.860

4.858

0,0008

821

823

0,0049

0,8000

4,0000

5.687

5.687

4,805684

Introduo Minerao de Dados

205

PERTENCE A NOME DO CLIENTE

Atributo candidato: ag_REJ


Coluna flag_REJ

Quiquadrado

Flag_REJ

TargetRN

Freq

Esp

X2

4.594

4.633

0,3283

824

785

1,9376

269

230

6,6130

39

39,0000

5.687

5.687

47,87892

Atributo candidato: duration


Coluna duration
duration
0 10

10 100

100 1.000

1.000 10.000

10.000 100.000

Quiquadrado
target

freqncia

esp

X2

4.522

4.459

0,8901

693

756

5,2500

91

121

7,4380

50

20

45,0000

27

36

2,2500

15

13,5000

196

210

0,9333

50

36

5,4444

27

37

2,7027

16

16,6667

5.687

5.687

100,0753

Atributo candidato: protocol_TCP


Coluna protocol_TCP

Quiquadrado

protocol_TCP

target

freqncia

esp

X2

1.015

869

24,5293

147

145,0068

3.848

3.994

5,3370

823

677

31,4860

5.687

5.687

206,3591

206

Anexo V

PERTENCE A NOME DO CLIENTE

Anexo VI Transformaes
matemticas

Varivel Antiga

Nova Varivel

Transformao

Duration

Nduration

Nduration = log10 (duration + 1)

Srcbytes

Nsrcbytes

Nsrcbytes = se srcbytes < 1 ento log10


(srcbytes + 1) seno (log10 (srcbytes + 1) + 2)
mod 3 + 1

Dstbytes

Ndstbytes

Ndstbytes = abs (2,5 - log10 (dstbytes))

Hot

Nhot

Nhot = log2 (hot + 1)

Numcompromised

Nnumcomp

Nnumcomp = se numcompromised = 0
ento 0 seno 1

Numroot

Nnumroot

Nnumroot = se numroot = 0 ento 0 seno 1

Numfilecreations

Nnumfile

Nnumfile = se numfilecreations = 0
ento 0 seno 1

Count

Ncount

Ncount = se count <= 2ento 0 seno 1

Srvcount

Nsrccount

Nsrvcount = se srvcount <= 2 ento 0 seno 1

Dsthostcount

Ndsthostcount

Ndsthostcount = log2 (dsthostcount + 1) - 1

Dsthostsrvcount

Ndsthostsrvcount

Ndsthostsrvcount = 3,5 - abs (4,5 - log2


(dsthostsrvcount))

Introduo Minerao de Dados

207

PERTENCE A NOME DO CLIENTE

Anexo VII Exemplos de taxas de


acerto e matrizes de confuso

Modelo 5 neurnios na camada escondida


Taxa mdia de acertos: 99,09%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.070,6

14,4

Intruso

7,8

346,2

Modelo 10 neurnios na camada escondida


Taxa mdia de acertos: 99,30%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.074,8

9,9

Intruso

7,2

346,8

Modelo 15 neurnios na camada escondida


Taxa mdia de acertos: 99,24%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.072,4

12,6

Intruso

5,9

348,1

Introduo Minerao de Dados

209

PERTENCE A NOME DO CLIENTE

Modelo 20 neurnios na camada escondida


Taxa mdia de acertos: 99,29%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.072,2

12,8

Intruso

4,6

349,4

Modelo 25 neurnios na camada escondida


Taxa mdia de acertos: 99,24%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.071,4

13,6

Intruso

349

Modelo 30 neurnios na camada escondida


Taxa mdia de acertos: 99,29%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.072,3

12,7

Intruso

4,7

349,3

Modelo 40 neurnios na camada escondida


Taxa mdia de acertos: 99,22%
Matriz de confuso:
Previsto

Real

210

Normal

Intruso

Normal

2.070,8

14,2

Intruso

4,8

349,2

Anexo VII

PERTENCE A NOME DO CLIENTE

Modelo 50 neurnios na camada escondida


Taxa mdia de acertos: 99,21%
Matriz de confuso:
Previsto

Real

Normal

Intruso

Normal

2.070

15

Intruso

4,3

349,7

Introduo Minerao de Dados

211