Академический Документы
Профессиональный Документы
Культура Документы
Monografia apresentada como requisito parcial para obteno do diploma de Bacharel em Engenharia da Computao pela Escola Politcnica de Pernambuco Universidade de Pernambuco.
Dedico este trabalho aos meu pais Amaro Romo e Ana Celina, a meu irmo Andr Batista, minha noiva Georgina Marafante e a meus tios Romo e Lcia
Agradecimentos
Agradeo primeiramente a Deus por ser a causa de todas as coisas e por transitividade ter sido tambm a causa de eu ter chegado at a este ponto no curso de Engenharia da Computao. Aos meus pais Amaro e Ana, por todo o apoio e suporte para que eu pudesse chegar aqui me dando as condies necessrias para que isso acontecesse minha noiva Georgina por estar comigo sempre me apoiando como fez em mais esta etapa da minha vida. Ao professor Meuser por aceitar me orientar me ajudando a atingir os objetivos esperados. Por fim Universidade de Pernambuco por ter disponibilizado a estrutura necessria para que eu passasse estes anos da minha vida aprendendo a me tornar um bom profissional.
Resumo
Nas companhias que tm como finalidade a obter lucro, tomar decises com rapidez e qualidade representa um grande desafio experienciado pela pelo responsvel pela gesto do negcio. Para superar este desafio, h a necessidade de tais empresas aperfeioarem seus processos de tomada de deciso. Essa necessidade pode ser justificada por tais otimizaes possibilitarem redues de custo ou elevaes de receita, conseqentemente com aumento de lucro. Como uma das respostas da Tecnologia da Informao para solucionar tais necessidades se baseia nos conceitos de Business Intelligence e Data Mining, este trabalho objetiva, atravs da pesquisa, entender o conceito e as caractersticas em Business Intelligence. Alm disso, visa compreender as relaes entre BI e Data Mining para, em seguida, aplicar tal conhecimento na construo de um processo de implantao de Data Mining usando-se os conceitos de Business Intelligence obtendo-se como resultado um ambiente de BI com conhecimento capaz de auxiliar a empresa a tomar decises de negcios com mais garantia e sucesso.
Abstract
In companies that are intended to make a profit, make decisions with speed and quality is a major challenge experienced by the person responsible for managing the business. To overcome this challenge, there is a need for such companies improve their processes of decision making. This need can be justified by such optimizations make possible cost reductions or revenue increases, and consequently with increased profit. As one of the responses of Information Technology to address those needs based on the concepts of Business Intelligence and Data Mining, this paper aims, through research, understand the concept and features in Business Intelligence. It also seeks to understand the relationships between BI and Data Mining, and then apply this knowledge to build an implementation process of Data Mining using the concepts of Business Intelligence was obtained as a result of a BI environment with knowledge that assist the company to make business decisions with greater accuracy and success.
ii
Sumrio
Resumo ................................................................................................... 4 Abstract..................................................................................................... ii Sumrio ................................................................................................... iii ndice de Figuras ..................................................................................... v Tabela de Smbolos e Siglas ................................................................... vi Introduo ................................................................................................ 7 Captulo 1 Conceitos.............................................................................. 10 1.1 Data Mining e tica....................................................................... 13
Captulo 2 - Processo de KDD (Knowledge Discovery in Databases) ... 14 2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.1.7 2.1.8 2.2 2.3 Pr-processamento ...................................................................... 14 Seleo ..................................................................................... 14 Limpeza ..................................................................................... 15 Codificao ................................................................................ 15 Enriquecimento.......................................................................... 16 Normalizao ............................................................................ 16 Construo de atributos ............................................................ 16 Correo de Prevalncia ........................................................... 16 Partio do Conjunto de dados ................................................. 16 Minerao dos dados ................................................................... 17 Validao dos resultados / interpretao das informaes ........... 18
Captulo 3 - Algoritmos de minerao .................................................... 19 3.1 3.1.1 3.2 Algoritmo de Associao .............................................................. 20 Funcionamento do algoritmo ..................................................... 20 Algoritmo de Naive Bayes............................................................. 21
iii
3.3
Captulo 4 - Estudo de Caso .................................................................. 22 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.1.7 4.1.8 4.2 4.3 4.4 Pr-processamento ...................................................................... 24 Seleo de Dados ..................................................................... 24 Codificao ................................................................................ 24 Enriquecimento.......................................................................... 25 Normalizao de Dados ............................................................ 25 Construo de Atributos ............................................................ 25 Correo de Prevalncia ........................................................... 26 Partio do Conjunto de Dados ................................................. 26 Extrao de dados..................................................................... 26 Aplicao do Cluster ..................................................................... 28 Aplicao do Shopping Basket (Associao)................................ 31 Aplicao do Influenciadores Chave (Naive Bayes) ................... 35
iv
ndice de Figuras
Figura 1. Figura 2. Figura 3. Figura 4. Figura 5. Figura 6. Figura 7. Figura 8. Figura 9. Modelagem do banco de dados ........................................................... 24 Dados do banco de dados na planilha .................................................. 27 Outra viso dos dados na planilha ........................................................28 Parametros do algoritmo de Cluster .....................................................29 Parametros do algoritmo de Cluster .....................................................29 Parametros do algoritmo de Associao .............................................. 32 Parametros do algoritmo de Associao .............................................. 32 Progresso de execuo do algoritmo ...................................................33 Divisao de vendas algoritmo de Associao ......................................... 33
Figura 10. Recomendaes do algoritmo de Associao ...................................... 34 Figura 11. Parametros do algoritmo de Naive Bayes ............................................. 35 Figura 12. Resultado do algoritmo de Naive Bayes (Bar Boteco) ..........................36 Figura 13. Resultados algoritmo Naive Bayes (segmento) .................................... 36 Figura 14. Resultados algoritmo Naive Bayes (volume) ........................................ 37 Figura 15. Resultado algoritmo Naive Bayes (volume) .......................................... 38
vi
Introduo
Falando-se das empresas com fins lucrativos, o principal desafio vivenciado pelo indivduo que est responsvel pela gesto do negcio tomar decises com rapidez e qualidade. Com isto, no meio corporativo, existe a necessidade das empresas aperfeioarem seus processos de tomada de deciso. Dentre os motivos para justificar tal necessidade encontra-se o fato de tais otimizaes viabilizarem aumento de lucro que, conforme Peter Drucker - respeitado autor da rea de Administrao de Empresas, representa um dos principais objetivos perseguidos por empresas privadas. importante lembrar que estas decises so baseadas em
componentes racionais e emocionais cuja intensidade e direo dependem do fator informao. Nesse contexto, profissionais de Tecnologia da Informao (TI), especificamente de reas como Banco de Dados e Sistemas de Suporte a Deciso, trabalham com conceitos, tcnicas e ferramentas que tanto atendem s necessidades citadas acima quanto organizam e valorizam o patrimnio de informaes de negcios das empresas que implantam solues tecnolgicas desta natureza. Sendo assim temos que destacar os conceitos de Business Inteligence e Data Mining. Business Intelligence, segundo a definio clssica de Howard Dresner considerado o pai do termo, tendo o inventado em 1989 o processo com o intuito de explorar e analisar informaes estruturadas e especficas de um domnio para enxergar tendncias ou padres e, atravs disto, produzir percepes e tirar concluses. Domnios incluem clientes, fornecedores, produtos, servios e concorrentes. Data Mining, de acordo com o dicionrio o processamento de dados usando sofisticadas capacidades de busca de dados e algoritmos estatsticos para descobrir padres e correlaes em grandes bancos de dados preexistentes; uma forma de descobrir novos significados dos dados. Podemos exemplificar com um caso bastante conhecido e difundido de aplicao de Data Mining em grandes empresas que o caso da rede de supermercados norte-americana Wall-Mart. Procurando por relaes entre 7
vendas e dias da semana, perceberam que nas sextas-feiras, o consumo de cerveja aumentava assim como o de fraldas. Logicamente isso no indicava crianas bebendo cerveja, mas depois de uma anlise mais profunda revelou que quando os pais iam comprar fraldas para seus filhos, aproveitavam e compravam cerveja para o fim de semana. Desta forma, o supermercado poderia por exemplo, sabendo que homens no costumam demorar muito dentro do supermercado, neste dia colocar estes produtos juntos e prximos entrada do supermercado, aumentando a quantidade de vendas. Outro caso interessante o da PUC do Rio de Janeiro aps a anlise da informao de vrios alunos de vestibular, identificou que boa parte dos candidatos do sexo feminino, que trabalhavam e tiveram aprovao com boa nota no vestibular, no efetivava a matrcula. Refletindo sobre esta situao chegou-se a concluso que mulheres na idade de vestibular e trabalhavam porque precisavam trabalhar, sendo assim provavelmente tambm fez matrcula na universidade pblica, e como obteve boas notas, deve ter passado na pblica, efetivando a matrcula nesta. Logicamente existem excees, mas a grande maioria obedece regra. Neste caso temos a tecnologia para nos ajudar a entender o meio ambiente onde se encontra a empresa.
Objetivos e contexto
O objetivo deste trabalho , atravs da pesquisa, entender os conceitos e as caractersticas de Business Intelligence e Data Mining e aplicar o conhecimento adquirido para tentar descobrir informaes escondidas dentro de uma base dados de uma fabrica de refrigerantes, mostrando que esta tecnologia acessvel e pode ajudar aos tomadores de deciso e gestores de empresas a conseguir melhor desempenho das suas empresas. Com este trabalho, ser possvel ter uma aplicao prtica da tcnica ajudando analistas de negcio e de sistemas a fazer uma implantao desta tcnica na sua empresa. Foram escolhidas as ferramentas Microsoft, para a demonstrao desta tcnica, pois elas apresentam uma boa interface amigvel, atravs da incorporao de bons recursos de anlise de dados s ferramentas j conhecidas como a Microsoft Office System onde a complexidade do processo oculta, apresentando visualizaes simples e assistentes que facilitam o 8
trabalho do usurio levando as informaes relevantes diretamente s pessoas responsveis pela tomada de decises. Sero usados neste trabalho os SQL Server Add-ins para Office 2007 que um conjunto de ferramentas fceis de usar de minerao de dados que permitem anlises preditivas em um desktop. Podendo usar os algoritmos de minerao do SQL Server Analisys Services, que o servio responsvel por criar modelos de data mining que possibilitaro descobrir informaes escondidas nos dados, no ambiente j bastante conhecido do Office, os usurios do negcio, pode ter facilmente dicas valiosas advindas de dados complexos, pois foram desenvolvidos tendo como objetivo o usurio final habilitando-os a ter estas anlises avanadas diretamente no Microsoft Excel. Das ferramentas importantes adicionadas por este Add-in, podemos destacar as duas a seguir [1] : Table Analysis Tools for Excel: Possibilita ao usurio final que tem o a ter analises poderosas em dados presentes em planilhas. Data Mining Client for Excel: Oferece um modelo complete de minerao dentro do Excel 2007.
Captulo 1 Conceitos
Aqui sero apresentados os conceitos apresentados neste trabalho e suas respectivas definies para que possamos obter um bom entendimento do trabalho. Os principais conceitos necessrios so: Business Intelligence; Data Mining; Microsoft Office System; SQL Server;
Para definirmos Business Intelligence (BI), importante que trata-se de um termo guarda-chuva. Vrios autores se referem ao conceito como sendo um guarda-chuva em que estariam includos outros conceitos como: Data Warehouse, Data Mart, Data Warehousing, ETL, DSS, EIS (Executive Information System), OLAP e data mining. Cabe agora salientar tambm que tal conceito apresenta-se definido de formas variadas. A explicao para tal fato que diferentes pessoas e empresas criaram e adotaram diferentes definies do conceito. Partindo-se finalmente para uma definio, dentre as principais definies da rea, destaca-se a definio clssica de Howard Dresner, considerado o pai do termo, que em seu trabalho afirma que BI o processo com o intuito de explorar e analisar informaes estruturadas e especficas de um domnio para enxergar tendncias ou padres e, atravs disto, produzir percepes e tirar concluses. Domnios incluem clientes, fornecedores, produtos, servios e concorrentes. Cabe ressaltar que complementarmente definio usando linguagem de negcios de Dresner, mais formada por termos de Tecnologia da Informao, na qual Business Intelligence uma categoria ampla de 10
aplicativos e tecnologias para captar, armazenar, analisar e prover acesso aos dados corporativos de forma a auxiliar os tomadores de deciso a tomarem melhores decises de negcio. Tambm conhecida como Prospeco de Dados ou Minerao de Dados, o processo de processar grandes quantidades de dados procura de padres, como regras de associao, ou seqncias temporais, para detectar relacionamentos entre variveis, detectando novos subconjuntos de dados. Trata-se de um conceito recente na rea de tecnologia da informao que para atingir seus resultados, utiliza tcnicas da estatstica, reconhecimento de padres e inteligncia artificial. Esta minerao se d pela aplicao de tcnicas de ferramentas que atravs de algoritmos de classificao e aprendizagem baseados em redes neurais e estatsticas, nos permitem explorar os dados nos ajudando na descoberta de conhecimento que se d pela descoberta de padres. Este processo tambm conhecido por Descobrimento de
Conhecimento em Bancos de Dados (KDD em ingls). Este termo foi criado por Gregory Piatetsky-Shapiro em 1989 para descrever o processo de descobrir dados interessantes, interpretados e teis. Este processo consiste de trs passos que so pr-processamento dos dados, em seguida executar a minerao propriamente dita e a interpretao dos resultados. Estes passos sero explicados mais a frente no trabalho. Os humanos desde sempre aprenderam observando padres, criando e testando hipteses para verificar a efetividade delas. O computador facilitou bastante no que diz respeito ao armazenamento dos dados, que chegou a um ponto de serem necessrios novos mtodos para que esses dados possam ser processados. Empresas hoje acumulam uma grande quantidade de dados, e em se tratando de uma empresa de vendas, por exemplo, Business Intelligence pode ser praticada apenas verificando as estatsticas de venda no dia, por exemplo,
11
que produto saiu mais para que os estoques deste produto sejam repostos com mais freqncia e fique sempre com um nvel mais alto para se ter menos dependncia do fornecedor, ou identificar que produto gerou mais lucro no dia. Mas se fizermos uma anlise mais aprofundada tentando encontrar a relao entre as variveis, estaremos praticando a Minerao de Dados, tentando identificar que tipo de cliente leva um produto ou quando um produto levado, existe muita chance de que um outro tambm seja comprado. Podemos ento classificar Business Intelligence e Data Mining em dois nveis. O primeiro ajuda, com informaes teis, na tomada de decises. O segundo ajuda, no plano estratgico, a apresentar aos tomadores de deciso informaes novas a respeito do meio ambiente em que a empresa atua. As tecnologias de minerao de dados possibilitam a anlise de dados atravs da aplicao de algoritmos e anlises estatsticas de dados para que seja possvel descobrir idias e oportunidades importantes tais como a determinao de segmentos ou a realizao de uma anlise de mercado para prever a probabilidade de uma promoo de um certo produto aumentar as vendas de outro. Pode ser necessrio trabalho de processamento dos dados extensivo antes que as informaes possam aparecer. Usando ferramentas mais amigveis pode tornar mais fcil o trabalho do tomador de decises ajudando-o a prever tendncias e relaes entre os dados. Microsoft Office System uma sute de aplicativos bastante difundida da fabricante Microsoft que possibilita a integrao de vrios recursos e compartilhamento de arquivos facilitando o trabalho dos usurios corporativos com aplicativos de escritrios como editor de texto (Microsoft Word), planilha de clculos (Microsoft Excel) entre outros. Este ltimo ser o mais utilizado neste trabalho por apresentar plug-ins que fazem a integrao como SQL Server e funciona bem como front-end e fonte de dados para a minerao de dados.
12
SQL Server um SGBD (Sistema de Gerenciamento de Bandos de Dados) produzido pela Microsoft que teve sua primeira verso em 1988 passando por vrias verses atingindo um alto nvel de maturidade para aplicao em empresas de nvel mundial respondendo bem aos requisitos de desempenho e segurana que este tipo de corporao exige.
13
compreensveis, vlidos, novos e potencialmente teis a partir de grandes conjuntos de dados [3]. O KDD constitudo de trs passos bsicos que so o prprocessamento, a minerao propriamente dita e o ps-processamento ou interpretao dos resultados. Vemos ento que o termos mais conhecido, Minerao de Dados, na verdade uma das etapas do processo de descobrimento de conhecimento em bancos de dados. Vejamos mais detalhadamente cada um dos passos do KDD:
2.1 Pr-processamento
Como o processo de data mining pode descobrir informaes que j esto nos dados, o conjunto de dados deve ser grande o suficiente para conter estas informaes e pequeno o suficiente para que possa ser processado em um tempo aceitvel. Este conjunto de dados precisa ser limpo para que sejam removidos rudos e dados inconsistentes. Este passo tem etapas intermedirias que precisam ser bem executadas para que tenhamos bons resultados. Vamos ver cada uma delas com sua funo.
2.1.1 Seleo nesta etapa que identificamos quais dados de que bancos de dados sero utilizadas para o processo de KDD. 14
Geralmente a origem destes dados so bancos de dados transacionais, de sistemas que esto em produo durante o dia todo, ou seja, esto sendo utilizados e atualizados constantemente com novas informaes, novos clientes, clientes alterados, novos pedidos, novos produtos ou quaisquer outras informaes, sendo assim, sempre recomendado que para iniciarmos o processo, tenhamos uma cpia do banco de dados, para que as tarefas de minerao no interfiram de forma alguma nos processos do dia a dia da empresa. Isto se justifica ainda pelo fato de que a maioria dos mtodos de minerao [3] pressupe que os dados estejam em apenas uma nica tabela. aqui tambm que escolhemos os atributos e os registros que sero utilizados, eliminando atributos que no sejam relevantes. Essa eliminao deve ser feita com conhecimento do negcio da empresa.
2.1.2 Limpeza No mundo real com aplicaes reais, muito comum os que os dados presentes bancos de dados apresentem inconsistncias, rudos. Estes dados apresentam erros e podem conter valores divergentes contendo discrepncias semnticas. Uma limpeza bem feita nos dados, conseqentemente leva a uma boa qualidade destes. Esta qualidade extremamente necessria, pois devemos ter em mente que eles sero intensivamente usados para descobrirmos informaes e conhecimento deles. A melhor forma de evitarmos esta poluio nos dados sem dvida a validao da entrada deles no banco de dados do sistema de produo, mas estas validaes nem sempre so bem projetadas ou at mesmo esto disponveis.
2.1.3 Codificao Na codificao dizemos como os dados sero apresentados. Para a escolha desta apresentao devemos sempre ter em mente as necessidade do algoritmo que ser aplicado.
15
Esta codificao deve ser feita com bastante ateno, pois ela influencia diretamente nos conhecimentos extrados dos dados. 2.1.4 Enriquecimento Os dados precisam nos revelar conhecimentos. Por isso, precisamos dot-los de poder para tal. Isso feito quando agregamos mais informaes aos registros existentes.
2.1.5 Normalizao Atributos com valores diferentes do normal podem influenciar negativamente no processo. Sendo assim os registros com estes valores discrepantes devem ser removidos do conjunto de dados submetido ao processo para que no influenciem tendenciosamente nos resultados.
2.1.6 Construo de atributos Com esta operao podemos gerar novos atributos tomando como base os j existentes. Estes atributos derivados nos ajudam a expressar relaes entre os atributos existentes, podendo inclusive diminuir o conjunto de dados a ser processado pois pode resumir mais de um atributo. Trata-se de uma operao muito comum no processo de KDD.
2.1.7 Correo de Prevalncia uma tarefa muito til em procedimentos de classificao, corrigindo desequilbrios na distribuio dos registros. Diferentemente do processo de normalizao dos dados que se limita a excluir registros com atributos discrepantes, esta correo os exclui semanticamente. Por exemplo, se temos um produto que tem poucas vendas efetuadas e momentaneamente no foco principal da empresa, as vendas deste produto devem ser excludas para que no influenciem nos percentuais de vendas dos produtos foco.
16
Devemos sempre garantir a qualidade dos dados e dos resultados que podemos obter deles, sendo assim, e pela necessidade dos algoritmos de serem treinados para poderem gerar informaes, se faz necessrio que tenhamos um conjunto de dados para treinamento. Este conjunto subconjunto do todo que temos para a aplicao da minerao. Portanto devemos particionar o conjunto que inicial que temos para submetermos ao algoritmo para que ele seja treinado. Alem disso, devemos em seguida, testar o treinamento do algoritmo com outro subconjunto dos dados. Estes dois subconjuntos devem necessariamente ser diferentes para que a avaliao seja isenta.
17
18
A ferramenta onde o trabalho foi desenvolvido disponibiliza vrios algoritmos para uso. Algoritmos de terceiros tambm podem ser usados desde que sejam compatveis com sua tecnologia. Dentre os disponibilizados por padro, podemos destacar os tipos a seguir: Algoritmos de classificao Algoritmos de regresso Algoritmos de segmentao Algoritmos de associao Algoritmos de anlise de seqncias Neste trabalho sero usadas implementaes de algoritmos de associao e de
19
3.1.1 Funcionamento do algoritmo O algoritmo varre dos dados procurando por itens que aparecem juntos em um nmero mnimo transaes. Este nmero dado por um parmetro de entrada do algoritmo que define este valor. O algoritmo recebe tambm como entrada, o campo da tabela ou da consulta que define o identificador da transao e o identificador do item. Desta forma ele gera as regras para os conjuntos de dados. Estas regras so usadas para prever a presena de um produto baseado na presena de um outro produto identificado como importante pelo algoritmo, ou seja, com maior relevncia. A implementao que iremos analisar deste algoritmo, baseado no algoritmo Apriori. O algoritmo Apriori no analisa padres, em vez disto, ele gera e conta conjuntos de itens candidatos. Tipos comuns de variveis lgicas representando Sim ou No, ou Existente ou No Presente, so atribudos a cada atributo, como o descrio do produto. A anlise de cesta de compras um exemplo da aplicao deste algoritmo que usa variveis lgicas para representar a presena ou ausncia de um produto na cesta de compras de um cliente 20
Para cada conjunto de itens, o algoritmo cria pontuaes para representar o suporte e a confiana que so usados para produzir um ranking e novas e interessantes regras. Suporte, Probabilidade, e Importncia Tambm referido como freqncia [5] representa a porcentagem de transaes de um banco de dados de transaes onde a regra se verifica. Somente os itens que tem no mnimo a quantidade especificada, podem ser includos no modelo. Podemos chamar de conjunto de itens freqente, uma poro de itens que tem suporte acima do limite especificado no parmetro
MINIMUM_SUPPOR. Por exemplo, se o conjunto itens {A,B,C} e o parmetro MINIMUM_SUPPORT 10, cada item A, B, C individualmente, deve aparecer em pelo menos 10 casos e a combinao deles, tambm deve aparecer em no mnico 10 casos para que esta regra possa ser includa no modelo. Tambm podemos limitar a quantidade de regras baseado na probabilidade ou confiana de uma regra. Por exemplo, se o conjunto {A, B, C} aparece em 50 casos, o conjunto {A, B, D} em outros 50 e o conjunto {A, B} no podemos afirmar que {A, B} necessariamente leva a {C} ento podemos calcular a probabilidade de {A, B} -> {C} dividindo o suporte de {A, B, C} pelo suporte de todos os conjuntos de dados relacionados. O valor de probabilidade pode ser configurado no parmetro MINIMUM_PROBABILITY. Portanto, seja I = {i1, i2, i3, ..., in} um conjunto de atributos binrios chamados de itens, e D = {t1, t2, t3, ..., tn} um conjunto de transaes, cada transao em D tem um identificador que contm um subconjunto de itens tem I. Uma regra definida como uma implicao lgica de X -> Y onde X, Y contm I e X interseo Y = conjunto vazio.
21
leva em conta as dependncias que possam existir entre os dados e sendo assim chamado de Naive, ou seja, ingnuo. No se trata de um algoritmo to intenso computacionalmente [6] quanto os outros, por isso, pode ser usado para termos modelos de minerao rpidos para descobrir relacionamentos entre colunas de entrada e colunas onde tentamos fazer uma previso. usado para fazer uma minerao inicial dos dados. De acordo com as sada deste algoritmo, podemos aplicar outro que seja mais preciso.
22
que fizermos alguma anlise, precisaremos filtr-la para que tenhamos apenas os itens, pois neles temos todas as informaes necessrias. Na figura 1 podemos ver as tabelas utilizadas no processo.
Figura 1
Vejamos como foram feitos os passos de KDD para o caso da fbrica de refrigerantes:
4.1 Pr-processamento
4.1.1 Seleo de Dados Identificamos como informaes a serem consideradas, informaes de vendas da fbrica aos seus clientes. Neste ponto geralmente faz-se necessrio a cpia dos dados atualmente em produo na empresa, geralmente em seu banco de dados relacional, para um banco de testes onde estes dados possam ser consultados e alterados sem interferir nos processos da empresa. E assim, foi feita uma cpia das tabelas envolvidas para um servidor de testes. Limpeza Foram encontrados produtos de clientes que no tinham informaes de perfil. Estes pedidos foram excludos da anlise por no poderem ser representativos para o nosso objetivo.
4.1.2 Codificao 24
Temos disponveis informaes sobre pedidos de compras realizados por clientes fbrica de refrigerantes. interessante dizer que tambm dispomos de um perfil, ainda que resumido, dos clientes e dos produtos vendidos. Portanto a anlise foi feita considerando as vendas e os perfis disponveis. E neste ponto de codificao escolhemos como os dados sero representados. No foi necessria nenhuma transformao de dados, pois no estado em que se encontram, j esto prontos para serem usados pelos algoritmos escolhidos.
4.1.3 Enriquecimento Os dados de vendas foram enriquecidos com as informaes de perfis do cliente e do usurio. Adicionalmente foi includa a informao de Rota de venda do cliente. Esta rota constitui a separao geogrfica dos clientes j que clientes que se encontram prximos participam da mesma rota de vendas. Infelizmente, a informao de que rota representa cada bairro ou localidade no nos foi disponibilizada. As rotas so necessrias para guiar os vendedores da empresa durante suas atividades do dia. Sendo assim ele, no comeo do dia, j sabe por que clientes passar apenas seguindo sua rota.
4.1.4 Normalizao de Dados Para esta nossa anlise, os dados j se encontravam normalizados no sendo necessria nenhuma tarefa neste sentido. Foi apenas necessrio um filtro na tabela de pedidos, j que para esta modelagem apresentada, esta tabela contm tanto informaes de cabealho como de detalhes dos produtos vendidos em um pedido. Sendo assim foram filtrados para que tivssemos apenas as informaes dos itens vendidos. O cabealho no apresenta informaes importantes para este tipo de anlise.
4.1.5 Construo de Atributos Este processo consiste em gerarmos atributos a partir dos j existentes nos dados. Para o nosso caso, apenas um atributo novo foi gerado que se trata do preo de venda do produto. Esta informao foi encontrada atravs da diviso 25
do preo de venda do produto e sua quantidade vendida, que por sua vez estavam includas em um campo texto que continha vrias outras informaes que no sero consideradas.
4.1.6 Correo de Prevalncia Para o nosso caso, esta empresa tem a venda de refrigerantes de cola muito superior que a de qualquer outro sabor. Neste passo de correo, pede-se uma correo de um eventual desequilbrio entre os dados com certas
caractersticas. Logicamente veramos um desequilbrio grande entre a venda de refrigerantes de cola e de outros sabores, ento foi decidido no aplicar nenhuma tcnica neste sentido, para que pudssemos ver esta diferena e, quem sabe poder sugerir aes de venda para impulsionar a venda dos outros sabores.
4.1.7
A partio dos dados em conjuntos distintos de treinamento e testes feita aleatoriamente pelo algoritmo em uso que tem parmetros para configurar a porcentagem do total dos dados que ser utilizada para os dois conjuntos.
4.1.8
Extrao de dados
Para termos informaes pertinentes para a aplicao dos algoritmos de minerao, a extrao dos dados foi feita com a consulta SQL abaixo:
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. select p.NumPedido Pedido, p.Data, pr.NomeProduto Produto, t.DescricaoTamanho, p.Rota, cs.NomeClasseSocial, s.NomeSegmento Segmento, v.NomeVolume Volume from Pedidos p inner join Cliente_Total ct on ct.CodigoUnidade = p.Unidade and ct.CodigoCliente = p.CodCli inner join ClasseSocial cs on cs.CodigoClasseSocial = ct.CodigoClasse inner join Segmento s on s.CodigoSegmento = ct.CodigoSegmento inner join Volume v on v.CodigoVolume = ct.CodigoVolume inner join Produto pr on pr.CodigoUnidade = p.Unidade
26
18.
and pr.CodigoProduto = p.NumProduto where p.NumId = 7 and pr.CodigoMarca in ('d','A','B','C','D','E','F','G','K','P','Q','R','8','g','i','k',' l') order by Data, NumPedido
O resultado desta consulta foi carregado diretamente em uma planilha Excel. Quando a selecionvamos tnhamos acesso s abas especiais de Data Mining. A linha 16 corresponde ao filtro, j comentado anteriormente, para termos apenas os detalhes ou itens de cada pedido. Na linha 17 do cdigo acima, existe um filtro para que sejam apenas mostrados produtos refrigerantes, j que esta fbrica tambm distribui cervejas e sucos e foram escolhidos apenas os produtos refrigerantes j que so os principais e alm de distribu-los ela tambm fabrica. Estes produtos tm uma alta representatividade no total de produtos. Para conseguirmos os dados necessrios Na figura 2 a representao dos dados carregados em uma planilha. Estes dados foram carregados utilizando a consulta explicada mais acima. Detalhes de como esta importao de dados foi feita sero omitidos por no serem foco do trabalho.
Figura 2
Temos tambm uma outras viso que pode ser usada para alguns algoritmos incluindo o valor do produto e agregando os campos de descrio
27
Figura 3
28
Figura 4
Quando pedido que o algoritmo seja executado, tambm pedido que se escolha a porcentagem dos dados que sero escolhidos aleatoriamente a base de treinamento do algoritmo. Sendo assim, ele mesmo j efetua o treinamento e o teste em seguida, nos dando como sada um grfico dividindo as categorias pelos atributos escolhidos, que neste caso foram apenas, o produto, tamanho da embalagem do produto e classe social, segmento e volume do cliente. Na figura 5 podemos ver resultado gerado sobre os dados de pedidos.
Figura 5
Analisando o resultado gerado, podemos inferir algumas informaes importantes para a empresa. Isto pode levar criao de aes e promoes a 29
fim de atingir os objetivos. Devemos lembrar que os clusters esto ordenados pela quantidade de vezes que so encontrados nos dados. Nos nmeros gerais, disponveis na coluna Population, podemos ver que a empresa tem uma clara diviso de vendas para parceiros e no parceiros, com uma boa quantidade de produtos diferentes, sempre dando nfase no refrigerante de cola, mas com uma boa variedade de segmentos e tamanhos. Tambm existe uma diviso entre alto e baixo volume de vendas. Entretanto analisando clusters individualmente podemos encontrar algumas informaes interessantes. Vejamos algumas delas: Em se tratando do mix de produtos (quantidade de produtos diferentes) podemos notar que no cluster 2 temos um baixo mix, dando muita nfase ao refrigerante de cola. Vendo os outros atributos, vemos que os clientes do cluster 2 em sua maioria so no parceiros e so de baixo volume. Em se tratando do cluster 2, vemos que existe uma grande quantidade, ou pelo menos a segunda mais significativa, de clientes no parceiros, de baixo volume e com baixo mix de produtos, ou seja, exatamente o que a empresa precisa mudar nos trs atributos. Temos que notar que para este cluster temos uma grande quantidade de Segmento Bar-Lanchonete, que tradicionalmente, no apresenta um alto volume. Portanto temos que ter em mente que quando uma ao ou promoo foi feita para que estes ndices apresentados no cluster sejam alterados, provavelmente o atributo de volume pode no ser alterado. Sem dvida com o marketing agindo, pode-se aumentar o mix de produtos, o que interessa ao fabricante, pois ter mais produtos diferentes sendo consumidos por clientes e seu nome mais conhecido. Tambm deve focar em tornar os clientes em parceiros, pois desta forma, o cliente tem mais descontos na compra dos produtos e conseqentemente, aumentando o volume vendas. Comparando os clusters 4 e 7, vemos que tendo eles as mesmas caractersticas de classe social e volume, apresentam uma diferena entre os outros atributos. Existe uma informao interessante nestes dados. Vejamos que no cluster 4 com tamanhos variados principalmente menores que 2000ml e uma grande quantidade de refrigerante de cola. J no cluster 7, vemos que existe uma predominncia de refrigerante de guaran e uma grande quantidade de vendas de produtos de 2000ml. Daqui podemos ver uma boa 30
separao entre refrigerante de cola com baixos tamanhos e de guaran com altos tamanhos. Neste ramo dizemos que baixos tamanhos so essencialmente para consumo individual enquanto os de grandes tamanhos, a partir de 1000ml, so de consumo familiar e vemos que necessrio dar mais ateno a este tipo de cliente incentivando tanto a venda de produtos familiares de cola quanto a produtos individuais de guaran.
31
Figura 6
Tambm nos permitido escolher o valor de suporte e probabilidade (probability) que sero aplicados ao algoritmo. Neste caso foram escolhidos os valores de 10 itens para suporte e 50% para probabilidade. Quanto maior a probabilidade menos regras sero geradas e teremos mais facilidade de entender os resultados.
Figura 7
32
Quanto terminamos de selecionar os parmetros o algoritmo pode ser executado nos mostrando cada passo da execuo como vemos abaixo.
Figura 8
Logo aps a execuo ele nos apresenta 2 planilhas recm criadas com informaes interessantes. A primeira delas para nos mostrar a diviso das vendas baseadas nas regras recm encontradas, como vemos na figura 9.
Figura 9
Vemos que, sem dvida, o refrigerante de cola o mais vendido. Na verdade as vendas dele so praticamente o dobro do prximo segundo produto que o de laranja. Logo em seguida comeamos com uma variao maior dos produtos nos pedidos com o aparecimento de mais de um produto (coluna size) por pedido. Existe uma boa diviso entre os pedidos de tamanho 2 e 3. Tambm possvel ver que os maiores valores alcanados so necessariamente pelos refrigerantes de cola, mas que os de laranja, 33
especialmente os de tamanhos individuais tem grande potencial. Entretanto os de guaran no aparecem na parte de cima da lista. Isso se d principalmente pelo fato de que existe um grande concorrente neste sabor e vemos que necessrio alguma ao no sentido de alavancar as vendas deste refrigerante.
Figura 10 O algoritmo
recomendaes. Em sua maioria, levam o refrigerante de cola, pois fica claro que este sabor, pode alavancar as vendas de vrios outros. Mas devemos atentar para o potencial do de guaran em tamanhos familiares. Ou seja, uma ao no sentido de favorecer as vendas do guaran em tamanhos familiares atrelados aos de cola pode fazer com que este produto fique cada vez mais conhecido e aceitado no mercado, levando indiretamente tambm a vendas mais altas nos tamanhos individuais. Isto se d pelo fato conhecido do perfil de consumo de clientes de refrigerantes que se acostumam com o sabor do j conhecido e evitam provar outros sabores inclusive outras marcas. Desta forma pode-se difundir o refrigerante em tamanhos familiares para aumentar as suas vendas como um todo. Vemos tambm que a maioria das regras sugere a venda associada de produtos de mesmo tamanho ou prximo, ou seja, apenas individuais ou apenas familiares, mas devemos dar ateno s sugestes para tamanhos diferentes tambm para que possam ser difundidos mais tamanhos para a o mercado, diversificando o mercado e atingindo mais consumidores.
34
Figura 11
Aps a execuo do algoritmo temos disponveis filtros que nos ajudam no entendimento dos resultados. Isto pode ser visto na figura 12
35
Figura 12
Fazendo o filtro pela coluna values para BAR BOTECO vemos que a maior parte das vendas feita para produtos individuais o que caracteriza o negcio do ponto de venda, que como o prprio nome j diz trata-se de um ponto onde os clientes se servem neles durante um lanche ou refeio.
Figura 13
J na figura 13 um filtro foi feito apenas trazendo os segmentos TRADICIONAIS que so supermercados e vemos que agora esse tipo de 36
segmento no definitivo termos apenas um tipo de produto. Vemos com mais freqncia os produtos familiares, que o normal vermos quando vamos a supermercados mas sabemos que este tipo de estabelecimento tambm vende produtos individuais com a presena dos tamanhos de 350ml que so as latas de metal no retornveis. Agora analisando por volume de vendas podemos ver que na figura 14 vemos que mais uma vez, este atributo por si s no define nem sabor nem tamanho dos produtos entretanto vemos que pela primeira vez vemos a presena do sabor UVA que apareceu apenas nos clientes de ALTO VOLUME
Figura 14
J com relao aos clientes de BAIXO volume, podemos ver (figura 15) que predominantemente temos a presena de produtos individuais. Ou seja, necessrio transformar estes clientes em alto volume, principalmente tornandoos parceiros com isso disponibilizando descontos para que eles passem a aumentar o seu volume de compras e quantidade de tamanhos diferentes.
37
Figura 15
Como j havia sido dito antes, este algoritmo nos d apenas informaes fazendo com que tenhamos uma boa viso da distribuio de produtos entre seus perfis Uma anlise nestes resultados feita por uma funcionrio de marketing da empresa inevitavelmente traria mais informaes que podem ajudar a empresa a melhorar suas vendas.
38
Captulo 5 Concluso
Com este trabalho ficou claro que este tipo de tecnologia est acessvel para as empresas e que se trata de uma tcnica que realmente pode trazer resultados muito interessantes, ajudando a aumentar os lucros. Foi muito importante a demonstrao em um aplicativo j muito difundido e de grande aceitao, tornando ainda menos problemtico a assimilao dos conceitos aqui definidos, podendo mostrar a profissionais de vendas, financeiro, marketing que sempre possvel melhorar os ndices da empresa em que trabalha em que nem sempre isso significa gastos extraordinrios com ferramentas computacionais. importante lembrar que estas anlises foram feitas pelo autor do trabalho apenas com a viso adquirida nos dois anos de servios prestados a esta fbrica, passando por projetos de vendas e marketing, tendo inclusive contato com funcionrios de marketing dos quais alguns conhecimentos foram adquiridos. No temos como objetivo dizer que este tipo de aplicao da tcnica de Minerao de Dados pode resolver todos os problemas de lucro, penetrao de produtos e outros, mas sem dvida norteia as aes para que estes problemas sejam sanados. O uso desta aplicao no exclui alguma outra mais especializada, flexvel e adaptvel ao negocio do usurio, mas tambm aqui pode direcionar anlises feitas por esta outra aplicao mais complexa poupando tempo, j que a aplicao foco do trabalho muito simples de ser implementada e pode ser utilizada de vrias maneiras para que se encontre os caminhos para atingir os objetivos da empresa.
39
Bibliografia
[1] MICROSOFT. Introducing the SQL Server 2005 Data Mining Addins for Office 2007. Disponivel em:
<http://www.sqlserverdatamining.com/ssdm/Home/DataMiningAddinsLaunch/ta bid/69/Default.aspx>. Acesso em: 14 ago. 2009. [2] WITTEN, H. I.; EIBE, F. Data Mining - Practical Machine Learning Tools and Techniques. 2 Edio. ed. San Francisco: Elsevier, v. 1, 2005. [3] RONALDO, G.; EMMANUEL, P. Data Mining - Um Guia Prtico. Rio de janeiro: Elsevier, v. 1, 2005. [4] Reference. MICROSOFT. Microsoft Association Algorithm Technical
Disponivel
em:
<http://msdn.microsoft.com/en-
us/library/cc280428.aspx>. Acesso em: 20 out. 2009. [5] AMO, S. D. Tcnicas de Minerao de Dados, Uberlndia. [6] MICROSOFT. Microsoft Naive Bayes Algorithm Technical Reference. Disponivel em: <http://msdn.microsoft.com/en-
us/library/cc645902.aspx>. Acesso em: 21 out. 2009. [7] MICROSOFT. Microsoft Clustering Algorithm. Disponivel em: <http://msdn.microsoft.com/en-us/library/ms174879.aspx>. Acesso em: 15 out. 2009.
40