Академический Документы
Профессиональный Документы
Культура Документы
Stanley Loh
1a edio
Porto Alegre
Stanley Loh
2014
Contedo
BI na Era do Big Data para Cientistas de Dados ............................................................ 1
indo alm de cubos e dashboards .................................................................................. 1
na busca pelos porqus, explicaes e padres .............................................................. 1
1
Introduo ........................................................................................................... 10
1.1
1.2
BI X Sistemas Gerenciais.............................................................................. 12
1.3
1.4
1.5
2.2
2.3
2.4
2.5
2.6
2.7
3.2
3.3
4.2
4.3
4.4
4.5
4.5.1
4.5.2
4.5.3
Generalizaes e Especializaes........................................................... 39
4.5.4
4.5.5
4.6
4.6.1
4.6.2
Dependncias funcionais........................................................................ 43
4
4.7
4.8
Data Warehouse............................................................................................ 45
Associao .......................................................................................................... 49
Correlao ........................................................................................................... 51
Correlao assncrona ......................................................................................... 53
Anlise de Regresso e Modelos de Predio ...................................................... 53
Mdia .................................................................................................................. 55
Deteco de desvios (outliers) ............................................................................. 55
Sequncia de tempo............................................................................................. 56
Sries Temporais ................................................................................................. 57
Classificao (categorizao) .............................................................................. 59
Induo ............................................................................................................... 60
Clusterizao ou Agrupamento (clustering) ......................................................... 60
5.2
6
6.2
6.3
6.4
6.5
8.2
8.3
8.3.1
8.3.2
8.3.3
8.3.4
8.3.5
8.3.6
8.3.7
8.3.8
8.4
8.5
8.5.1
8.5.2
8.6
8.7
Retroalimentao .......................................................................................... 97
9.3
9.6
11
11.2
11.3
11.4
11.5
12
11.1
Lista de Figuras
Figura 1: Dados X Informao X Conhecimento ......................................................... 13
Figura 2: Processo Geral de Descoberta de Conhecimento .......................................... 28
Figura 3: Grfico para mostrar discretizao de forma intuitiva ................................... 44
Figura 4: biorritmo num determinado dia .................................................................... 48
Figura 5: biorritmo para vrios dias............................................................................. 49
Figura 6: Associaes de valores entre 2 campos para Data Mining ............................ 50
Figura 7: Comparao de valores entre campos para Data Mining ............................... 51
Figura 8: Planilha de vetores e grau de correlao ....................................................... 52
Figura 9: Grficos semelhantes indicando correlao entre variveis ........................... 52
Figura 10: Correlao assncrona entre duas variveis ................................................. 53
Figura 11: Tcnica de Modelo de Predio .................................................................. 54
Figura 12: Tcnica da Mdia ....................................................................................... 55
Figura 13: Deteco de desvios (outliers) .................................................................... 56
Figura 14: Tcnica de anlise de sequncia temporal ................................................... 57
Figura 15: Exemplo de anlise de sries temporais - dentro da mesma srie ................ 58
Figura 16: Exemplo de anlise de sries temporais - comparao entre sries.............. 58
Figura 17: Sries temporais com diferena no momento de incio da srie................... 59
Figura 18: Exemplo de clustering ................................................................................ 60
Figura 19: Comparao de esquemas relacional X multidimensional para DWH ......... 62
Figura 20: Comparao de esquemas relacional X multidimensional para DWH ......... 62
Figura 21: Dados multidimensionais - exemplo para 3 dimenses ............................... 62
Figura 22: Estrutura de dados flat - todos atributos como colunas ............................... 63
Figura 23: Estrutura multidimensional - mquina X tipo de problema ......................... 64
Figura 24: Estrutura multidimensional - operador X hora em que ocorreu a falha ........ 64
Figura 25: Estrutura multidimensional - mquina + tipo de problema X hora .............. 65
Figura 26: Anlise OLAP com somente uma dimenso ............................................... 65
Figura 27: Mdia X Tendncia .................................................................................... 68
Figura 28: Mdia de gastos de clientes num supermercado, por perfil ......................... 68
Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de
gasto ........................................................................................................................... 69
Figura 30: Venda de laranjas num supermercado ........................................................ 71
Figura 31: Teoria do Mundo Fechado ......................................................................... 72
Figura 32: exemplos de dashboards ............................................................................. 76
Figura 33: Anlise de vendas, utilizando contagem de registros .................................. 81
Figura 34: Anlise de vendas, utilizando soma de valores ........................................... 81
Figura 35: Valores percentuais por linha ..................................................................... 82
Figura 36: Valores percentuais por coluna ................................................................... 82
Figura 37: total de carrinhos com brinquedos - por perfil ............................................ 83
Figura 38: carrinhos com ou sem brinquedos - valor absoluto ..................................... 83
Figura 39: carrinhos com e sem brinquedos - % por linha ........................................... 83
Figura 40: Google Trends sobre Gripe A e Dengue no Brasil ...................................... 90
Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul................... 90
Figura 42: Grfico de Pareto ..................................................................................... 108
Figura 43: Diagrama de Ishikawa (causa-efeito ou espinha-de-peixe)........................ 118
Figura 44: Mapa Conceitual sobre Fatos e Dimenses............................................... 130
Figura 45: grafo para anlise de causas ..................................................................... 131
Figura 46: grafos combinados com hierarquias.......................................................... 132
Figura 47: Grafo de comunicao entre membros de equipes .................................... 133
8
1 Introduo
O melhor exemplo para explicar o que Business Intelligence (BI) para um leigo o
caso da GM e o sorvete de baunilha. Conta a lenda que um consumidor comprou um
carro da GM e depois mandou uma carta se queixando. A queixa era a seguinte: quando
ele ia na sorveteira e pegava o sorvete de baunilha, ele voltava para o carro e este
demorava a dar partida; se ele pegasse qualquer outro sabor de sorvete, ele voltava para
o carro e este "pegava" de primeira.
Conta ainda a lenda que isto virou piada na GM, uma vez que ningum imaginava o que
o sabor de um sorvete teria a ver com o problema no carro. Acredita-se que um
engenheiro foi investigar o caso. Apresentou-se ao cliente e juntos foram testar a teoria
que o cliente alegava. Foram at a sorveteria e compraram o sorvete de baunilha.
Voltaram para o carro e realmente o carro no deu partida na primeira tentativa nem nas
seguintes. Esperaram um pouco, e tentaram de novo. A sim o carro ligou. Voltaram
para a casa e depois de comerem o sorvete fizeram o mesmo teste s que pegando um
sorvete de sabor diferente. Quando voltaram para o carro, a surpresa: o carro "pegou" de
primeira. Bom, mas poderia ser acaso ou coincidncia. Ento testaram diversas vezes,
usando mtodos estatsticos e o resultado ... sempre o mesmo.
O engenheiro sabia que o sabor do sorvete no poderia influenciar o problema, mas
certamente ali havia algum fator que estaria associado ao problema. E este fator tinha a
ver com o sabor. Ento ele descobriu que o sorvete de baunilha ficava na entrada da
sorveteria, enquanto que os demais ficavam nos fundos. Ao entrar e comprar o sorvete
de baunilha, o dono do carro demorava menos que se pegasse outro sabor. Havia uma
pea no carro que precisava resfriar para o carro poder ligar. Menos tempo na
sorveteria, menos tempo para a pea resfriar e o carro no ligava. Desta forma, o
engenheiro descobriu a causa para o problema.
Eu sempre cito isto como um exemplo de BI, mesmo tendo sido feito manualmente, isto
, sem ajuda de bancos de dados e software (tecnologias da informao). Mas este caso
ilustra bem o objetivo de um processo de BI e como ele pode ser feito, no s para
leigos mas tambm para analistas de BI experientes.
Hoje em dia h diversas definies para BI e muitas vezes profissionais dizem estar
fazendo BI quando na verdade esto gerando informaes com sistemas de informaes
gerenciais, ou seja, atravs de ferramentas para gerao de dashboards, grficos,
relatrios e anlises visuais (visualizao de informaes).
A seguir, explicarei um pouco melhor o que entendo de BI e qual sua diferena para
sistemas gerenciais. Tambm falaremos da buzzword Big Data, o que significa e o que
implica para processos de BI.
O livro tem o objetivo primeiro de explicar tcnicas e mtodos que ajudem processos de
BI. Mas vamos procurar dar nfase ao que ainda no foi dito em outros livros do
gnero. Por isto, vamos enfatizar que o objetivo principal de um processo de BI
encontrar causas, explicaes e padres.
Estaremos trazendo conhecimentos de outras reas. Em muitas partes do livro, o leitor
talvez imagine estar lendo um livro sobre investigaes e descobertas cientficas. Isto
10
no est errado. No o nico enfoque, mas uma das formas de se ver o BI. Temos
muito a aprender com a histria dos grandes cientistas da Humanidade. A diferena
talvez no esteja nos mtodos, apesar de que eles tambm evoluem. Mas hoje temos
muito mais dados e mais complexos (Big Data) e ferramentas mais avanadas,
principalmente ferramentas de software. Por isto, o termo Cientista de Dados to atual.
Por isto, vamos enfatizar que os dados so muito importantes para o processo, incluindo
a forma e as condies como so coletados e armazenados. No basta discutirmos as
formas de anlise se os dados analisados no tiverem qualidade (garbage in, garbage
out).
O leitor se quiser poder pular algumas sees, conforme seu interesse. Os captulos no
esto numa sequncia de aprendizado. Dentro dos captulos sim, a ideia manter uma
certa ordem de leitura.
12
Em resumo, SIGs ajudam a entender o que aconteceu ou o que est acontecendo (ex.:
totais de venda no ms anterior, qual a taxa de crescimento de nossas vendas); BI
procura por causas ou explicaes (ex.: por que as vendas esto caindo).
Ambos os tipos de sistemas de informao (SIGs e BI) procuram auxiliar na tomada de
deciso, uma vez que este o objetivo geral de qualquer sistema de informao.
Entretanto, a forma de apoio que diferente em cada tipo.
Cliente
Idade
Saldo Mdio
Cidade
Jos
35
9000
SP
Joo
30
4000
Santos
Ana
25
8600
Rio
Maria
23
3000
Ribeiro Preto
Carlos
34
9700
SP
conhecimento que tem e as conexes que faz em seu crebro. Isto inteligncia, ou seja,
saber resolver problemas utilizando o conhecimento que possui. E isto se aplica tambm
a poder resolver problemas novos, usando adaptaes, analogias, etc.
BI ento, como o nome "inteligncia" indica, deve ajudar pessoas e organizaes a
resolverem seus problemas e alcanarem seus objetivos.
14
16
faa vendas no exterior, pode querer comparar seu desempenho com empresa similares
em outros pases.
Portanto, um modelo deve obrigatoriamente permitir comparaes. Eventos ou valores
absolutos no dizem nada. E um modelo s funciona no contexto onde foi identificado.
Se conseguirmos extrair de um caso real um modelo matemtico que simule e explique
como duas populaes de espcies diferentes (por exemplo, lobos e ovelhas) iro se
comportar, tal modelo s ir funcionar no contexto em que foi identificado. Se foi numa
ilha, que tipo de ilha e com que recursos. Qual o nmero inicial de cada populao e
quais as caractersticas de cada componente dos grupos. O modelo no ir funcionar se
colocarmos os mesmos grupos junto com outros.
gerar um novo modelo mais moderno e preciso. Kuhn (2011) discute os paradigmas
cientficos e conclui que a existncia de excees pressupe o surgimento de um novo
paradigma (leia-se, modelo).
Uma vez que s capturam parte da realidade, os modelos nunca so completos. Esta
falta de dados, entretanto, no impede o uso e os benefcios dos modelos. Se no puder
ajudar a prever eventos futuros com exatido, pelo menos nos daro tendncias (em
cima de probabilidades). E assim que as pessoas tomam decises. Nenhuma empresa
deixa de produzir um produto s porque as vendas caram durante os ltimos dias. Se
houver uma tendncia de retomada das vendas, ou seja, se houver uma certa
probabilidade (aceita por alguma razo) de que as vendas iro subir novamente, a
empresa segue no mesmo caminho.
Por outro lado, reduzir sistemas complexos a sistemas simples ou a um conjunto de
regras simples pode ser perigoso. Podemos estar fazendo suposies erradas, julgando
com critrios errados em cima de fatos no observados ou mal interpretados. E o
resultado pode ser desastroso, como na caa s bruxas e na ascenso de ditadores. Daqui
a pouco vamos estar categorizando e estereotipando todas as pessoas, como fazemos
com grupos musicais e criaes artsticas. O perigo do rtulo no conseguir sair dele.
Esta uma tendncia perigosa do ser humano: criar um modelo ou teoria e sair
procurando casos que confirmem a sua validade, tentando encaixar tudo no modelo. E
se algo no se encaixar ? Foraremos o encaixe ou mudaremos nosso modelo ?
Tem sido assim ao longo da Histria da Humanidade e da Cincia. Teorias surgem mas
aps anos elas podem ser refinadas ou mesmo refutadas, devido a novas descobertas,
novos fatos ou novas formas de interpretar os velhos fatos. No incio, o ser humano
achava que todos os planetas e o sol giravam ao redor da Terra. Depois, descobriu-se a
teoria heliocntrica. Agora j h um pesquisador dizendo que a Terra o centro do
Universo. E est sendo tachado de louco, como j foram classificados Kepler e Galileu.
Ento o que existe um modelo mais aceito pela maioria das pessoas (estudiosos,
cientistas, ou mesmo pessoas comuns). A Teoria de Newton, que fazia isto (apesar de
tantos acertos) caiu. A de Einstein, sucessora da de Newton, tambm possui lacunas. As
leis da macro Fsica no se ajustam aos comportamentos no mundo micro, os quais so
regidos por outras leis. Mas ambas so aceitas at que uma nova teoria consiga reunir e
acomodar casos de ambos os grupos, provavelmente a partir de novas regras.
saber que caractersticas so comuns a todos. Se quisermos diminuir gastos com peas
defeituosas, vamos procurar pelas causas mais frequentes. Se estamos precisando
diminuir desperdcios de energia, vamos olhar para os casos mais frequentes. A nossa
busca ento por repeties.
E a que entra a estatstica, nos permitindo separar repeties interessantes das que no
so significativas. Mas como os modelos no so perfeitos, precisam ser aperfeioados
ou corrigidos. Isto pode ser feito por retroalimentao, aprendendo por experincia, por
exemplo, com os erros cometidos e pela medio da incerteza (Stewart, 2000).
a maioria das pessoas est fazendo, e assim poder prever resultados ou entender o que
est acontecendo. Por exemplo, o Google Trends usado para monitorar epidemias nos
EUA. Quando h muitas pesquisas no Google, vindas de uma mesma regio, por
palavras-chave relacionadas a uma determinada doena, isto significa que o nmero de
casos desta doena est aumentando nesta regio. H um experimento do Google
(http://www.google.org/flutrends/br/#BR) para monitorar casos de gripe. O artigo de
Dugas et al. tambm trata do mesmo assunto.
A anlise de redes sociais virou uma maneira fcil de observar as multides. Um artigo
de 2011 (Bollen et al.), conseguiu provar a correlao entre o tipo de humor nas
postagens do twitter e o ndice Dow Jones da bolsa de valores americana. Outros artigos
provaram ser possvel prever receitas de filmes, aumento no nmero de turismo e
mesmo prever eventos futuros analisando postagens ou buscas (Asur et al. 2010;
Mishne, 2006; Radinsky & Horvitz, 2013; Choi & Varian, 2012). Spink e colegas
(2001) analisam o comportamento de multides em mecanismos de busca para realizar
diversas inferncias.
Sargut e McGrath (2011) sugerem a gestores estabelecer um modelo que agregue trs
tipos de informao preditiva:
informaes passadas: dados sobre o que j aconteceu, incluindo indicadores
financeiros e de desempenho;
informaes presentes: alternativas de caminhos, aes, estratgias, oportunidades
ou decises que podem ser tomados;
informaes futuras: o que pode acontecer como consequncia das alternativas,
incluindo respostas do meio-ambiente ou mudanas internas.
O modelo deve integrar estes 3 tipos de informaes. Geralmente, so usados modelos
matemticos, ou seja, preciso reduzir as informaes para valores quantitativos
(nominais, categricos ou numricos) e a forma de interligao entre as variveis so
frmulas matemticas.
O fato que as novas tcnicas esto permitindo predizer com maior preciso alguns
valores e ainda verificar a interligao entre eventos ou variveis. Desta forma,
possvel saber se uma determinada ao vai impactar positivamente ou negativamente
em algum contexto futuro. E quanto ir impactar. Por exemplo, se aumentarmos a
exposio do produto em X dias na mdia convencional, quanto teremos de aumento de
vendas e, com base nos custos desta estratgia, o quanto teremos de retorno financeiro
(ou lucro).
Se tivssemos como prever o futuro, poderamos evitar problemas futuros (como no
filme Minority Report, dirigido por Steven Spielberg e estrelado por Tom Cruise). Ou
poderamos indicar melhores alternativas ou mesmo saber se uma certa alternativa daria
certo ou no. Mas isto no existe. Nenhuma deciso certa. Ningum tem como saber
se uma escolha vai funcionar ou no.
Mas nem por isto (porque vivemos na incerteza) vamos tomar decises sem critrios.
Justamente, as tcnicas, os padres, os dados, nos ajudam a diminuir a incerteza e com
isto melhorar nossas decises e consequentemente seus resultados. H alguns autores
que so contra as tcnicas de planejamento, porque acreditam que no vale a pena
planejar, pois o futuro nunca acontece como planejado. Entretanto, se no planejamos,
23
se no tomamos decises e aes, temos grandes chances de chegar onde estamos agora
ou pior, chegar em algum lugar que no queremos.
claro que os planos e caminhos, e digamos os modelos e padres, no contexto deste
livro, devem ser ajustados com retroalimentao durante a jornada. Mas uma viagem
sem planos tem mais probabilidade de dar errado ou chegar num destino no desejado.
O modelo utilizado por Maltz e Klosak-Mullany (2000) para prever comportamento de
jovens delinquentes justamente permite que aes sejam tomadas para modificar um
futuro muito provvel e ruim na vida daqueles jovens. Resumindo os modelos permitem
entender o passado e o presente, para que tomemos melhores decises para um futuro
melhor.
24
27
3 Processo Geral de BI
BI tem a ver com descobrir conhecimento, para poder gerar inteligncia e resolver
problemas, como discutido no captulo anterior. O objetivo final ento poder gerar
conhecimento novo e til.
Vrios autores descrevem o processo geral de descoberta de conhecimento
conhecimento como o
descrito na Figura 2.. A entrada do processo um banco de dados e a sada um conjunto
de conhecimentos. A etapa principal a de Minerao ou Anlise
Anlise dos Dados (Data
Mining). A anlise nunca feita sobre todos os dados e sim sobre amostras. Para tanto,
necessrio ter antes uma etapa de preparao dos dados, a partir da base de entrada.
Nesta etapa, os dados sero tratados (limpeza, integrao, deduplicidade)
deduplicidade) e amostras
diferentes sero geradas, como ser discutido adiante.
A etapa de anlise tem como entrada uma amostra dos dados e gera como sada padres
estatsticos. Mas estes padres no so conhecimento. Eles precisam ser interpretados
dentro do contexto da organizao ou do domnio, para a sim se tornarem
conhecimento. Por exemplo, uma anlise de pacientes com diabetes descobriu que 95%
dos pacientes com diabetes do tipo 1 recebiam o medicamento X. Isto, para um mdico
especialista da rea, no novidade nenhuma, pois o tratamento usual dado a
pacientes deste tipo. O conhecimento interessante e novo est nas excees, nos 5% que
tem o mesmo tipo de diabetes mas no recebe o mesmo medicamento. Pode ser que
tenham alguma outra caracterstica que os impede de tomar tal medicao.
O processo de descoberta de conhecimento
conheciment iterativo e interativo. Iterativo (ou cclico)
porque precisa ser feito vrias vezes
vezes,, com diferentes amostras ou at mesmo com
diferentes tcnicas e ferramentas. Os padres estatsticos so, na maioria das vezes,
hipteses de causas, devendo ser melhor avaliados. Isto muito em razo da Teoria do
Mundo Fechado, que ser discutida mais adiante. O processo tambm iinterativo,
porque precisa interveno humana.
humana. Para realizar a preparao dos dados e depois a
interpretao dos resultados,, pessoas com conhecimento
conhecimento sobre o domnio precisam
28
29
histrico para nos preparar para o futuro (ou tentar prever o futuro), poderemos ter
surpresas bem desagradveis.
Alm disto, a separao em amostrar permite comparar os padres encontrados nas
amostras. Separando dados por dias da semana, talvez possamos descobrir um padro
diferente para cada dia da semana.
Tcnicas e mtodos de anlise
Utilizar a tcnica correta fundamental. Por isto, discutiremos neste livro vrias
tcnicas de anlise e alguns cuidados na interpretao dos resultados.
Recuperao e disseminao do conhecimento
O processo de BI s se completa quando o conhecimento descoberto chega at as
pessoas que precisam dele, no formato correto e no tempo exato. Se o processo demorar
demais, se o resultado chegar num formato no adequado, o processo de deciso (razo
da existncia das informaes) ser comprometido.
30
32
33
A mdia e a interpolao tambm podem ser utilizadas, mas isto pode gerar distores
drsticas nos resultados se os valores faltantes justamente destoavam da maioria (eram
outliers). Se o conjunto de registros compunha uma minoria, os resultados finais tero
um desvio muito pequeno.
Outra possibilidade utilizar regras de classificao coletadas fora da empresa. Por
exemplo, se no tivermos a renda de um cliente, podemos usar dados estatsticos sobre a
renda da cidade onde ele mora. Se no tivermos o estado civil, podemos supor se ele
casado ou solteiro analisando outros dados referentes a esta pessoa.
do prefeito, etc. Isto pode ajudar a encontrar padres como por exemplo o tipo de
produto mais comprado para cada perfil de cidade. Podemos hipoteticamente descobrir
que clientes de cidades grandes compram em maior quantidade ou que cidades
litorneas no fazem pedidos nas sextas-feiras. At mesmo a renda mdia da cidade
pode ser usada para completar a renda dos clientes, em caso de valores nulos.
Se formos analisar pacientes de um hospital, talvez seja interessante acrescentar
informaes sobre o ambiente familiar e profissional de cada paciente, seus hbitos
alimentares e cotidianos, e at mesmo a histria pregressa de doenas suas e de seus
familiares.
Para aumentar as chances de haver padres estatsticos, pode-se gerar novos campos a
partir dos existentes. Por exemplo, um hospital possui dados de baixa e alta de pacientes
que foram internados. Mas o dado mais importante para este hospital o nmero de dias
que o paciente ficou internado (tempo de permanncia). Uma simples subtrao entre
datas.
claro que isto aumenta o volume de dados, mas certamente tambm aumenta a
probabilidade de encontramos padres. Em geral, utilizada uma tabela no
normalizada para agilizar as anlises, uma vez que no preciso passar de uma tabela
para outra atravs de chaves estrangeiras (cdigos que relacionam registros).
de um bairro ou quadra; uma regio, geralmente menor que um bairro mas podendo
abranger partes de 2 bairros, que foi pesquisada pelo censo do IBGE. Ento, h
informaes estatsticas sobre cada setor especfico. Imagine que a empresa ento
possui os seguintes dados sobre uma pessoa: o nome Jos da Silva e mora na Rua X,
n.41. Bom, usando um sistema de GIS simples, pode-se saber o setor censitrio onde ela
mora. Depois, procuram-se dados estatsticos sobre este setor e, digamos, temos que
neste setor:
etc.
Agora, de posse destas informaes estatsticas, podemos estimar alguns dados sobre
Jos da Silva. Que ele tem 3 TVs, com 100% de chances, que h 98% de chances de ele
ter 2 banheiros em casa, e assim por diante.
Ento, desta forma, uma empresa combina a lista telefnica com dados censitrios e
poder obter um banco de dados de clientes potenciais.
Empresas parceiras tambm costumam compartilhar dados sobre clientes, por exemplo,
administradoras de cartes de crdito, instituies financeiras, redes de varejo, escolas,
postos de gasolina, editoras, etc. E h empresas que vendem este tipo de informao
(cadastros).
E a cada pesquisa que participamos, com o objetivo de concorrer a prmios, estamos
fornecendo mais dados sobre ns.
Mas no precisa ser s enriquecimento de dados sobre pessoas. Se tivermos o campo
cidade em alguma base de dados, podemos incorporar dados sobre as cidades, tais como
nmero de habitantes, geografia, economia principal, nvel de escolaridade, renda per
capita, ndices scio-culturais como IDH e outros.
Neste caso, pode-se cruzar a cidade do cliente com dados dos produtos adquiridos. Isto
nos permitir, por exemplo, descobrir que tipo de cidade compra mais um certo tipo de
produto. Num caso real, uma empresa de comrcio eletrnico descobriu que somente
clientes de cidades pequenas (com menos de 50 mil habitantes) compravam produtos
eletrnicos mais caros (depois descobriu-se que a razo era porque naquelas cidades no
havia lojas fsicas vendendo tais produtos; enquanto que em cidades maiores, o preo do
produto estava muito alto em relao a um concorrente com loja fsica).
36
37
tipos de clientes, mas vai excluir quem s veio uma vez por ano ou quem comprou num
valor muito abaixo da mdia de gasto.
Amostras estratificadas
Esta a forma correta de gerar amostras. Para tanto, precisa-se identificar que variveis
podem interferir na anlise. Por exemplo, no caso da loja, atributos como sexo, idade,
classe scio-econmica, bairro e cidade, valor gasto e forma de pagamento podem fazer
diferena para entender os tipos de clientes. E talvez altura, peso e escolaridade no
sejam diferenciais para campanhas de marketing ou para entender comportamentos de
compra.
Depois de identificadas as variveis, precisa-se saber a proporo de elementos no
universo todo para cada varivel. Por exemplo, digamos que h 60% de mulheres e 40%
de homens entre todos os clientes da loja, e que 25% so da classe A, 50% da classe B e
25% da classe C, e assim por diante nas demais variveis.
Ento, a amostra ser definida com a mesma proporo que a diviso no universo. Ou
seja, a amostra deve conter 60% de mulheres, 40% de homens, 25% de pessoas da
classe A, 50% de pessoas da classe B, 25% da classe C e assim por diante.
4.5.2 Como separar amostras (subcolees ou subconjuntos)
Para agilizar o processo de anlise, pode-se separar subconjuntos dos dados. Alm de
tornar o processo mais rpido, evita tambm a descoberta de padres com suporte muito
baixo.
A formao de subconjuntos pode ser feita por corte vertical ou horizontal. O corte
vertical significa selecionar alguns atributos para anlise, eliminando outros. O corte
horizontal trata de selecionar alguns registros, eliminando outros.
O corte vertical (feature selection) ser discutido mais adiante. Para o corte horizontal,
as amostras podem ser definidas por tempo (ano a ano, ms a ms, etc) ou por algum
outro atributo que permita separar os dados com significado e no aleatoriamente. Podese pegar um atributo especfico e fazer a separao (ex: sexo, tipo de cliente, produto ou
tipo de produto). Por exemplo, separar uma base de clientes em homens X mulheres,
separar para anlise somente produtos de um certo setor ou faixa de preo, classificar
empresas por porte e analisar em separado cada grupo.
Ou ento separar um conjunto de dados por outros dados relacionados. Por exemplo,
pode-se comparar as vendas feitas por homens X vendas feitas por mulheres, compras
de adultos X jovens X 3a idade, vendas separadas por tipo de produto ou por loja ou por
regio, etc.
Mas qual o melhor campo para separar em subcolees ? Utilizar apenas um campo ou
uma combinao de vrios campos (amostra estratificada) para separar a coleo toda
em subconjuntos ? A escolha deve ser feita por humanos ou automaticamente, como na
tcnica de clustering ?
Bom, no vi ainda uma regra que d estas respostas. Normalmente, um processo de
tentativa e erro, utilizando feeling do analista, pela sua experincia.
38
39
destas relaes. A soluo utilizar um dos atributos de cada vez, em cada ciclo de
anlise.
Agora note que, se usarmos o atributo mais genrico (neste exemplo, o pas), a
probabilidade de encontramos padres maior, pois h menos valores possveis para
este atributo. Entretanto, pode haver predomnio de um ou dois valores, e como j
comentamos antes isto tambm no bom.
Se usarmos o atributo mais especfico (no exemplo, bairro), pode ser que no haja
repeties e o suporte das regras encontradas seja muito baixo (ou mesmo no
encontremos padres).
A navegao por uma hierarquia d nome s operaes de drill-down e drill-up (ou rolldown e roll-up), seja para analisar os dados com mais detalhes ou para se ter uma viso
mais superficial dos dados.
Bom, o que foi dito acima vale tambm para outros tipos de hierarquias como datas
(ano ms dia), classificaes de produtos (tipo do produto "brick" marca
embalagem), pedidos e vendas (carrinho item do carrinho), etc.
40
Muitas vezes, a granularidade alta (unidade menor, como por exemplo a hora) pode
dificultar a interpretao dos resultados. O que significa um padro de vendas que
ocorre s 9 horas todos os dias, mas no ocorre s 8 horas nem s 10 horas ? Que
estratgias devem ser usadas para aquela hora especfica e que no valem a pena ser
usadas uma hora antes ou depois ? E tambm trabalhar com hora e minuto pode gerar
padres muito especficos, que at podem ser interessantes mas como traar estratgias
de aes para um minuto especfico ?
Outra dificuldade a seleo de dados por estaes climticas. No h como analisar as
vendas feitas no inverno. Porque no sabemos exatamente quando o inverno comea e
termina. No podemos usar as datas tradicionais, porque muitas vezes o frio comea
antes, ou s chega bem depois, ou a estao mais curta ou mais extensa. Neste caso, o
melhor seria associar a temperatura como uma atributo. Entretanto, deve-se cuidar que
alguns eventos s so desencadeados um certo tempo aps seu estmulo. Por exemplo,
propagandas na TV no geram vendas no mesmo dia, nem talvez no dia seguinte. Isto
quer dizer que se uma onde de calor acontecer no meio do inverno, no significa que as
pessoas vo correr para as lojas para comprar roupas de vero. Em alguns casos, a
reao quase imediata: se a temperatura sobe, as vendas de sorvete sobem quase que
instantaneamente.
Mais adiante discutiremos a correlao entre variveis com comportamentos
semelhantes mas em perodos de tempo diferentes (correlao assncrona).
O importante na anlise temporal entender o comportamento do grfico
correspondente, incluindo subidas, descidas, plats, e as caractersticas destes tipos de
acidentes (altura ou profundidade, a frequncia com que ocorrem, o comprimento do
perodo). Tambm interessante analisar padres que podem ser encontrados nas
sequncias: por exemplo, sempre depois de um plat e uma pequena queda, ocorre uma
subida ao dobro do plat.
No devemos tambm negligenciar padres que ocorrem com frequncias maiores que
meses. Por exemplo, para uma revenda de carros pode ser interessante descobrir que um
cliente troca de carro a cada 3 ou 4 anos. As lojas de varejo j descobriram que nos anos
de Copa do Mundo (a cada 4 anos ento), as vendas de TVs aumentam muito.
Os registros feitos ao longo do tempo formam uma srie temporal. Como discutiremos
adiante, a tcnica de minerao mais apropriada a de anlise de sries temporais.
4.5.5 Tamanho da amostra - quantidade de elementos na amostra
Como determinar o nmero ideal de elementos numa amostra ? Se olharmos para as
pesquisas para presidente do Brasil, a amostra normalmente composta por
aproximadamente 2 mil pessoas. Isto quer dizer que cada pessoa representa em torno de
50 mil outras.
O clculo estatstico do tamanho da amostra depende do erro amostral (a diferena entre
o valor estimado pela pesquisa e o verdadeiro valor e isto pode ser um valor
estabelecido como meta); do nvel de confiana (a probabilidade de que o erro amostral
efetivo seja menor do que o erro amostral admitido pela pesquisa); da populao
(nmero de elementos existentes no universo da pesquisa, valor que pode no ser
41
43
31
32
33
34
35
36
37
38
39
40
Uma sada para isto utilizar a lgica difusa (fuzzy). Ela permite que um elemento seja
classificado em diferentes grupos mas com graus de pertinncia diferentes. Isto significa
que algum pode dizer que hoje est frio e quente ao mesmo tempo. Mas a pessoa dir
que est frio com grau 0,7 (por exemplo) e est quente com grau (0,3). Ento, no caso
do jovem com 14 anos, ele poder ser classificado tanto como criana como adolescente
(o mesmo com o jovem de 15 anos). Para efeitos de marketing, isto bom, porque as
campanhas no iro perder a oportunidade de atingir certas pessoas por dvida na
classificao.
Para realizar a discretizao, h tcnicas estatsticas e softwares que fazem isto
automaticamente. Para entender intuitivamente como ocorre a discretizao, vejamos a
44
Figura 3. Ela apresenta o nmero de pessoas (eixo vertical "y") que possuem uma
determinada idade (eixo horizontal "x").
Algum poderia dividir este grupo de pessoas em 2 ou 3 grupos. No caso de 2 grupos,
teramos pessoas com idade entre 30 e 32 (inclusive) num grupo e pessoas de 34 a 40
anos num segundo grupo. Se quisermos podemos dividir ainda o segundo grupo em 2,
um com idade entre 34 e 37 e outro com idades entre 38 e 40.
45
48
Nem sempre os nmeros so melhores que nossas intuies e sentimentos. Nate Silver
relata que olheiros humanos tiveram melhores desempenhos que as estatsticas do
sistema Pecota em vrios casos no baseball (Silver, 2013). Apesar de Lewis (2004)
relatar alguns casos contrrios, (em Moneyball, as estatsticas foram melhores que
olheiros), a concluso que ambos devem se ajudar. A prova disto que a equipe de
Obama mesclou dados e sentimentos das pessoas para fazer uma campanha vitoriosa
(Moraes, 2012).
50
Correlao
A tcnica de correlao procura avaliar a similaridade entre duas variveis numricas.
Este tipo de anlise no indica causalidade,
causalidade, ou seja, no diz se um atributo leva a outro,
se causa de outro (ou se um consequncia de outro). Apenas indica que h uuma forte
relao entre os atributos, pelos seus valores quantitativos. A anlise de correo pode
inclusive indicar a fora da correlao.
Esta fora de correo pode ser medida numa escala de 1 a -1.
1. O valor 1 indica que as
variveis esto fortemente correlacionadas.
correlacionadas. O valor zero indica que no h nenhum
relao entre elas, e o valor -11 indica uma relao inversa (quanto o valor de uma
varivel alto, o valor da outra baixo).
A Figura 8 apresenta um exemplo com diversos vetores com valores numricos. Os
vetores de V2 a V6 sero comparados com o vetor base V1, tendo as seguintes
caractersticas em relao ao vetor base:
V2: metade dos valores so iguais e outros bem
be diferentes;
V3: valores muito prximos (para mais ou a menos);
V4: valores exatamente iguais;
V5: valores bem diferentes;
V6: valores pela metade.
Pode-se
se notar que o vetor V4 tem um grau de correlao igual a 1 em relao ao vetor
V1, pois todos os valores
ores so idnticos. J o vetor V3, com valores muito prximos, tem
um a correlao em mais de 99%. O vetor V2 tem correlao de 97,4% porque metade
dos valores so iguais ao vetor V1. O vetor V6 com valores pela metade tem correlao
de 88,7% e por fim o vetor
etor V5 com valores bem diferentes tem s 14,2% de correlao
com o vetor V1.
Esta tcnica til para verificar se h uma relao entre atributos quantitativos
quantitativos, por
exemplo, temperatura e vendas. Como os valores de temperatura oscilam entre 0 e 50 e
as vendas possuem valores bem diferentes, preciso fazer uma normalizao, ou seja,
levando ambas as faixas de valores para o mesmo intervalo (por exemplo, entre 0 e 1).
51
Uma maneira de fazer isto dividir o intervalo original por um valor base (por exemplo,
temperatura dividida por 100) ou fazer a transposio proporcional de valores mnimos
e valores mximos, mantendo a proporcionalidade entre os valores.
V1
40
120
60
300
150
200
80
180
correlao=
V2
V3
70
39
120
123
80
62
300
301
120
148
200
202
60
79
180
179
0,974583 0,999773
V4
40
120
60
300
150
200
80
180
1
V5
V6
20
20
300
120
120
30
150
150
80
75
90
100
140
40
100
90
0,142469 0,887595
52
Correlao assncrona
Podemos ver na Figura 9, os grficos em cor preta e vermelha so muito parecidos.
Provavelmente, se usarmos a tcnica de correlao iremos verificar um alto grau de
similaridade entre estas duas variveis.
Agora veja a Figura 10. H correlao entre estes 2 grficos ? Talvez sim, se
posicionarmos eles de forma diferente, fazendo coincidir os picos.
Pode haver correlao entre duas variveis mas utilizando como marco zero momentos
diferentes no tempo. Steven D. Levitt (Freakonomics) sugere haver uma relao entre a
reduo de crimes verificada no Natal de 1989 nos EUA e a legalizao do aborto
naquele pas 20 anos antes. Quando h uma relao de causa-efeito, nem sempre o
efeito imediato.
53
A principal
ipal vantagem de poder determinar a relao entre duas variveis poder
realizar previses sobre o comportamento futuro das variveis, calculando um valor
quantitativo futuro ou at mesmo podendo prever acontecimentos (eventos) que ainda
no ocorreram.
Por exemplo, Thomas Morus equacionou o crescimento da populao como uma funo
exponencial enquanto que previu o crescimento linear da produo de alimentos,
chegando ento concluso que iria faltar comida no futuro. Os servios de
meteorologia utilizam modelos matemticos desta forma, juntando diversas variveis
para poder prever o tempo (temperatura, se vai chover ou no, o quanto vai chover, qual
ser a velocidade do vento, etc.).
Outra forma de aplicao dos modelos construdos desta forma poder fazer
simulaes, fornecendo como entrada dados ainda no observados. Imagine que h um
modelo que representa a relao entre nmero de vagas nas escolas, nmero de
empregos e que tenhamos informaes sobre a idade e nvel de escolaridade de cada
pessoa num
m pequeno pas. E que ainda seja possvel determinar a taxa de crescimento da
populao, vagas nas escolas e empregos. Ento, usando a anlise de regresso seria
possvel ter uma funo matemtica relacionando estas variveis. Isto seria til para
prever ass quantidades futuras destas variveis, assumindo uma linearidade. E tambm
claro assumindo que outras variveis no interferissem (no haver evaso, migraes,
repeties de ano, etc.). Outro benefcio do modelo seria poder avaliar eventos futuros
caso alguma varivel tivesse alterao de comportamento. Por exemplo, e se o nmero
de nascimentos aumentasse muito (acima do esperado), e se o nmero de vagas de
emprego no crescesse tanto quanto esperado (acima do linear), e assim por diante.
A relao entre as variveis pode ser funcional
f
(por exemplo, a rea de um crculo em
relao medida do raio deste crculo) ou estatstica.. A relao pode existir mas no
necessariamente ser exata. Por exemplo, a idade das pessoas em relao altura
altura; so
funes lineares
neares que progridem juntas com uma certa relao at certo ponto. Mas
talvez no seja possvel identificar uma funo matemtica que, a partir de uma, seja
possvel calcular o valor de outra.
Outro exemplo a relao (hipottica) inversa entre o aumento das vendas de TVs num
determinado pas e o ndice de mortalidade infantil neste mesmo pas. At podemos
encontrar uma funo matemtica que relacione os ndices, ou seja, pode haver uma
forte correlao
orrelao estatstica (como discutido na tcnica anterior) mas certamente uma
varivel no causa de outra. E este tipo de correlao que pode desviar a anlise de
causa-efeito,
efeito, como discutiremos mais adiante.
54
investigar por que somente uma pessoa comprou o produto Y no ltimo ms, por que
um vendedor no atingiu a meta (o normal seria premiar o melhor vendedor e descobrir
o que os melhores fizeram dee bom e em comum para que tais melhores prticas sejam
repetidas).
Estas peas fora do padro so chamadas
chamadas de Outliers. Em alguns casos, eles so mais
importantes que os casos normais. Por exemplo, analisando sadas de um determinado
material do almoxarifado
ado de uma empresa, tem-se
tem se uma padro de sada (uma quantidade
mdia ou intervalo normal),, como na Figura 13.. Entretanto, num determinado ms,
houve muito mais sadas que o normal. Isto deveria gerar um alerta na empresa. Isto
pode estar acontecendo por roubo ou pode estar indicando uma tendncia que a empresa
no soube prever.
A tcnica de deteco de desvios utiliza funes ou intervalos mdios (padres), mas
seu objetivo
etivo estar atento ao que se desvio dos valores mdios, os outliers.. Em alguns
casos, eles so mais importantes que os casos normais.
Sequncia de tempo
Esta tcnica analisa sequncias de eventos. Por exemplo, a tcnica de associao pode
identificar que fraldas so compradas em conjunto com cerveja, mas na mesma
transao. Agora, se muitas
uitas pessoas compra um TV fina hoje e voltam depois de 3
meses para comprar um home theater,
theater, isto funo da tcnica de sequncia de tempo.
A Figura 14 apresenta um exemplo. Imaginem que so pacientes com suas linhas de
tempo, e cada forma colorida indica um determinado evento importante na sade desta
pessoa. Podemos prever que h grande probabilidade de ocorre um evento do tipo
"bolinha vermelha" na linha
nha de tempo da paciente Ana, logo no incio do ano de 2006,
56
j que todos os pacientes que tiveram eventos do tipo "tringulo amarelo" no incio de
um ano, tiveram "bolinha vermelha" no incio do ano seguinte. claro que isto s um
exemplo e a probabilidade
idade deve ser levada em conta e no somente um nmero pequeno
de casos.
Maltz e Klosak-Mullany
Mullany (200) utilizaram a tcnica de sequncia de tempo (um tipo de
Data Mining) para encontrar padres estatsticos no comportamento de jovens
delinquentes nos EUA e antever eventos ruins em suas vidas, para intervir antes que
aconteam.
Sries Temporais
Quando no possvel encontrar uma funo que descreve o comportamento de uma
varivel (por exemplo, valor das aes de uma empresa ao longo do tempo), pode
pode-se
tentar prever pelo menos valores futuros num pequeno espao de tempo. No ca
caso das
aes, por exemplo, pode-se
se querer saber se vo descer ou subir no dia seguinte.
Uma das formas de se fazer isto analisando repeties de sries ao longo do tempo.
Para isto, utilizam-se
se valores numricos registros em sequncia por vrios perodo
perodos de
tempo (a unidade de tempo no fixa).
A Figura 15 apresenta o comportamento de uma varivel ao longo do tempo, com seus
altos e baixos. Imagine que se deseje saber
saber o que vai acontecer aps a linha contnua
(mais direita). Pode-se
se notar que um segmento deste grfico repete-se.
repete se. Ento,
possvel que o segmente que se repete seja maior e com isto saberamos que a linha ir
subir (como no trecho pontilhado).
aro que as sries temporais so baseadas na premissa de que os comportamentos se
claro
repetem, pelo menos em parte (trechos ou momentos ao longo do tempo). Se isto no
acontecer, no h por que usar sries temporais. Entretanto no se sabe qual o tamanho
57
de cadaa repetio. Alm disto, h a premissa que outros fatores no iro influenciar o
comportamento. Por exemplo, no caso das aes, uma notcia ou evento relevante pode
influenciar o comportamento de compra e venda das aes, e o que era esperado (subir
ou descer)
cer) pode no acontecer devido a isto.
58
Classificao (categorizao)
A tcnica de classificao tem por objetivo encontrar a classe de um elemento. Note que
por "classe", pode-se
se at mesmo entender uma ao (por exemplo, aprovar ou rejeitar
um pedido de emprstimo). Para que a tcnica funcione, as classes devero j existir
previamente.
O processo de avaliar a qual classe pertence um elemento novo pode fazer uso de regras
determinsticas, probabilsticas, heursticas, rvores de deciso, tabelas de deciso ou
RBC (baseado em exemplos), conforme discutido no captulo sobre S
Sistemas
Especialistas.
59
Induo
O objetivo desta tcnica a identificao de um modelo para classificao, ou seja, a
descoberta das regras de classificao. Isto feito atravs do chamado "aprendizado
supervisionado", onde exemplos de treino so avaliados
avaliados para identificar padres. Os
algoritmos clssicos para induo incluem ID3 e C4.5.
Tambm possvel identificar, ao invs de regras, apenas as caractersticas de cada
classe. Para isto, pode-se
se calcular o "centride" da classe, que um elemento
elemento hipottico
h
que representa a classe,, tendo a mdia das caractersticas dos elementos da classe ou um
elemento hipottico que tenha todas as caractersticas
caractersticas de todos os elementos da classe
classe.
Clusterizao ou Agrupamento
grupamento (clustering)
A tcnica de Clustering recebe um grupo de elementos e da identifica as classes. Ou
seja, diferentemente da tcnica de classificao, as classes no existem ainda ou no so
conhecidas.
O princpio bsico da tcnica colocar no mesmo grupo os elementos mais similares e
em grupos
os diferentes os elementos pouco similares. Este agrupamento feito por
algoritmos automticos como o kk-Means
Means e algoritmos baseados em grafos como Stars,
Single-link,
link, Strings e Cliques.
Mas para entender o processo, observe a Figura 18.. Este grfico posiciona clientes num
plano que relaciona a idade da pessoa e o nmero de horas que passa na Internet por
ms. Os smbolos no meio do grfico representam o tipo de produto
produto adquirido pelo
cliente (quadrado, crculo ou tringulo) e a forma de pagamento (vermelho
(vermelho = carto;
azul = boleto; amarelo = depsito bancrio).
60
Visualmente pode-se verificar que clientes de mais idade e que passam menos horas na
Internet (quadrante mais esquerda e em cima), dominado por clientes que pagam por
boleto bancrio (cor azul). Clientes que compram por depsito bancrio (cor amarela),
s compram produtos do tipo crculo. Os clientes de menos idade tendem a passar mais
horas na Internet e pagar com carto (cor vermelha).
Uma empresa de telefonia segmentou seu portflio de 70 aparelhos em quatro grupos,
correspondendo a quatro categorias de clientes. A anlise de perfis foi feita com base
em atitudes dos clientes e resultou em 4 grupos de clientes: o "descomplicado",
"multifuncional", "fashion" e "high tech".
O cliente "descomplicado" o que pretende apenas falar ao telefone, sensvel a preo
e no se importa com marcas, quer um aparelho de boa qualidade, durvel e fcil de
usar. O "multifuncional" faz questo de aproveitar todas as funcionalidades, como
agenda, emails, vdeo, foto e tudo o mais que o aparelho oferecer para facilitar seu
trabalho. O "fashion" aquele que busca personalizao, quer que o seu celular se
identifique com ele, unindo as funes do anterior ao aspecto de esttica. Por fim, o
"hight tech" aquele que faz questo de ter o aparelho mais sofisticado, com bluetooth,
cmera com alta resoluo, e tudo o que a tecnologia oferecer. Em geral no se importa
com preos.
Esta segmentao atitudinal no tem nada a ver com o poder aquisitivo do cliente.
A separao foi feita manualmente mas poderia ter utilizado ferramentas automticas de
clustering.
Loja
Produto
Quantidade
10
15
25
20
30
10
20
PRODUTOS
10
15
25
20
30
10
20
LOJAS
X
1
1
1
2
3
2
3
2
X
10
25
10
10
X
10
25
10
25
Y
15
20
-
10
Y
15
Y
15
20
-
20
Z
30
Z
-
30
20
30
20
20
Imagine agora que se queira acrescentar uma 3a dimenso, por exemplo, o cliente. As
vendas de cada cliente formariam uma matriz e assim teramos tantas matrizes quanto
forem os clientes. Assim, teramos o esquema da Figura 21. Isto d a ideia de 3a
62
dimenso como visto na imagem. Se for necessrio acrescentar mais dimenses (por
exemplo, vendedor), isto ser feito nas estruturas internas de armazenamento, pois no
ser possvel ao ser humano imaginar visualmente tal estrutura (4 dimenses).
Se olharmos melhor, esta imagem lembra a de um cubo, por isto, muitas vezes os dados
multidimensionais so tambm conhecidos como dados cbicos (ou sua representao
conhecida como cubo de dados).
A vantagem dos dados cbicos acelerar as anlises e dar respostas mais rapidamente
para usurios que tomam decises. Alm disto, a visualizao de dados em duas ou
mais dimenses ajuda a ver padres que so difceis de identificar em tabelas
normalizadas (flat).
Por exemplo, se tivermos uma base de dados sobre falhas que ocorreram em mquinas
numa empresa, provavelmente a estrutura ser similar que pode ser vista na Figura 22,
onde todos os atributos das falhas esto como colunas: identificao da mquina, setor
onde ocorreu a falha, quem era o operado no momento da falha, data e hora da
ocorrncia, tipo de problema que ocorreu, quantas horas a mquina ficou parada devido
falha, custo por hora da mquina parada e prejuzo total que a falha gerou,
multiplicando-se as horas paradas pelo custo-hora.
Neste tipo de estrutura, fica difcil verificar quais os problemas que mais ocorrem com
cada mquina, qual o total de falhas por operador, etc., especialmente se so muitas
falhas (muitas linhas ou registros).
Por isto, uma estrutura multidimensional, como a apresentada na Figura 23, permite
mais rapidamente verificar padres. Na estrutura multidimensional, os atributos podem
aparecer como linhas ou colunas. Isto permite relacionar atributos entre si e encontrar
padres que no podem ser verificados nas estruturas unidimensionais (tipo "flat").
63
Na Figura 24, estamos relacionando o operador com a hora em que a falha ocorreu.
Aqui a estrutura multidimensional permite visualizar que as falhas com o operador
Beltro s ocorrem s 9h da manh e que o operador Rudinei s teve falhas no incio do
dia (entre 7 e 8h da manh). Tambm pode-se notar que as falhas com o operador Joo
Maria ocorrem mais frequentemente de manh, enquanto que para Menezes e Otto as
falhas so mais frequentes tarde. A estrutura multidimensional tambm d uma viso
diferenciada das falhas que ocorreram com o operador Jos Carlos: elas ocorrem em
ambos os turnos, mas acontecem mais no incio dos turnos. Este tipo de anlise no
poderia ser feita com dados na estrutura flat.
64
A anlise OLAP tambm pode ser feita com uma dimenso somente, como no caso da
Figura 26, onde h somente o atributo "tipo de problema" e a anlise feita pela soma
de horas paradas.
No link abaixo, h uma animao mostrando como fazer anlises multidimensionais
com tabelas dinmicas no software MS Excel:
http://www.youtube.com/watch?v=4hZN2YWKuy8
65
66
Outro cuidado que devemos ter que os dados so influenciados por eventos externos e
assim a interpretao dos resultados deve entender que eventos aconteceram ou esto
acontecendo. Por exemplo, no famoso caso da associao entre fraldas e cervejas, o tal
supermercado tomou atitudes aps esta descoberta. Ou eles colocaram os produtos
prximos ou colocaram bem longe. E isto deve ter influenciado o padro, aumentado
seu percentual ou talvez at acabando com ele. Ento o tal supermercado precisa refazer
o processo de anlise e comparar os novos resultados com os anteriores. A interpretao
no pode estar dissociada do tempo em que os fenmenos ocorrem e de seu contexto.
Um certo manual de investigao criminal aponta algumas falhas na interpretao de
dados, descritas a seguir:
medido so mdias por ano e levando em conta todas as medies pelo mundo todo.
Realmente, pode acontecer que, em algumas regies, a mdia pode ter baixado de um
ano para outro. Mas nem isto mesmo argumento contrrio. O filme de Al G
Gore, "Uma
verdade inconveniente", mostra claramente este grfico. E a tendncia de subida. Ou
seja, temos que usar a tcnica correta.
Com relao ao aquecimento global, muitos acreditam que estamos nos aproximando de
uma era de temperaturas altas. Entre os anos 1000 e 1200 d. C., tivemos uma poca com
mdia de temperatura 6 graus acima da mdia atual. Foi assim que os Vikings fizeram
fazendas na Groenlndia e chegaram at a Amrica. E isto pode estar novamente
acontecendo. Por outro lado, ssegundo alguns
guns estudiosos, h tambm ciclos de eras
glaciais e possvel que estejamos a algumas dezenas de anos de uma pequena era do
gelo. Ento, talvez at este tipo de acontecimentos pode ser regido por padres. Mas
bom deixar claro que ainda no li nenhum estudo que comprovasse
provasse que h um padro.
Nate Silver conta que j tentaram encontrar padres
padres temporais ou sazonais em
terremotos e os resultados no foram bons, pois deixaram de prever os grandes que
aconteceram na Itlia em 2006 (LAquila) e no Japo em 2011
201 (Fukushima).
Bom, para completar um pouco a discusso e ver tambm o outro lado, a ONU divulgou
recentemente (em setembro de 2013) um relatrio apontando que uma das causas para
as mudanas climticas a ao do Homem sobre a natureza.
Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de gasto
custos para realizar a venda: um vendedor X pode ter vendido 100 mil reais no ms
mas ter gerado um custo de 70 mil para a empresa (lucro de 30 mil), enquanto que o
vendedor Y faturou apenas 50 mil mas teve um custo de apenas 10 mil (lucro de 40
mil); ento a lucratividade talvez seja um melhor indicador;
69
tempo despendido: um vendedor talvez tenha faturado menos que outros porque
teve mais tempo de deslocamento ou porque teve que realizar mais tarefas
burocrticas; se ele tivesse o mesmo tempo para dedicar aos clientes em contato
direto, talvez pudesse ter o mesmo ndice de vendas;
nmero de clientes a visitar: muitas empresas determinam os clientes que os
vendedores devem visitar; o mais correto neste caso, seria avaliar a mdia de vendas
por cliente;
nmero de clientes novos: alguns vendedores acumulam tarefas de prospeco, ou
seja, precisam, alm de concretizar vendas, encontrar novos clientes; alguns
realmente conseguem conquistar novos clientes, mas que talvez no gastem to alto,
justamente por serem novos; mas estes novos clientes talvez sejam repassados para
outros vendedores no prximo ms e a as vendas futuras subsequentes sero
contabilizadas para outro vendedor;
desistncias de clientes: avaliar vendedores somente por pedidos feitos pode ser
perigoso se os pedidos no se concretizarem; da mesma foram, avaliar somente
pelas vendas concretizadas pode deixar de fora desistncias, principalmente quando
os pagamentos dos clientes so realizados a prazo; a inadimplncia dos clientes
tambm deveria ser somada (ou subtrada) aos respectivos vendedores.
71
aplicao
Conhecimento
observaes
coleta
interpretao
anlise
Figura 31: Teoria do Mundo Fechado
Entretanto, no h como coletar todos os dados; por isto, nosso mundo no fechado.
At o planeta Terra troca energia e matria com resto do Universo. E o acelerador de
partculas do CERN na Sua precisa de algum para ligar (e h sensores tambm).
Desta forma, temos que ter cincia de que os resultados das anlises dizem respeito to
somente aos dados analisados, isto , s amostras analisadas. O conhecimento
descoberto ento uma hiptese ou tendncia, que dever ser confirmada analisando o
mundo real ou atravs de tentativa e erro.
Boston, onde uma bomba foi feita com uma panela de presso e colocada numa
mochila.
Vrios casos de correlaes estranhas so listadas em
http://www.tylervigen.com/ e voc pode fazer a sua prpria escolhendo variveis.
Max Gunther (no livro O Fator Sorte) conta o caso de um sujeito que costumava tocar
clarim e abanar uma bandeira verde numa esquina, dizendo que servia para espantar
girafas. Quando perguntado se dava certo, ele respondia dizendo que nenhuma girafa
havia passado por ali.
Muitas vezes os padres podem dar certo talvez pelo efeito placebo: achamos que
vamos ter melhor rendimento usando certos padres ou supersties. A, repetimos o
padro e o resultado acontece como esperado. Neste caso, h relao entre duas
variveis mas uma no implica na outra. pura coincidncia ou sorte. como regular
sua alimentao e ver efeitos positivos, e ento acreditar que descobriu um novo
mtodo. E isto a vira sabedoria popular e vai passando de boca em boca. Como os
sacrifcios humanos para os deuses ou para ajudar na agricultura e clima (a civilizao
Maia fazia isto).
Outro engano tpico supor relaes de causa e efeito em variveis que possuem
comportamentos similares. A correlao existe porque os valores so similares ao longo
do tempo, mas no necessariamente pode haver uma relao entre elas. Por exemplo,
vendas de sorvete e vendas de mais aumentam no vero e diminuem no inverno, mas
uma varivel no implica na outra. Neste caso, h uma causa comum (a temperatura ou
estaes) que determina estes comportamentos mas no h relao direta entre os dois
tipos de vendas.
Muitas vezes, ocorrem coincidncias. Gunther tambm fala da Sincronicidade. Segundo
a Wikipedia, Sincronicidade " um conceito desenvolvido por Carl Gustav Jung para
definir acontecimentos que se relacionam no por relao causal e sim por relao de
significado. Desta forma, necessrio que consideremos os eventos sincronsticos no
a relacionado com o princpio da causalidade, mas por terem um significado igual ou
semelhante. A sincronicidade tambm referida por Jung de 'coincidncia significativa'
". Um exemplo o caso de um americano que lutou na Guerra da Coria e teve um filho
por l. Mas nem sabia disto. O filho foi trabalhar nos EUA e no sabia nada do pai, a
no ser seu nome. Um dia, aquele americano estava andando dirigindo pela estrada e
resolveu parar num restaurante que no costumava. Quando foi pagar em carto, o
atendente viu o nome e adivinhem: era seu pai. Uma grande coincidncia, uma
sincronicidade: tais eventos so comuns de ocorrer; o que determina sua relevncia
que aconteceu com pai e filho que no se conheciam.
Max Gunther, no seu livro "O Fator Sorte" diz que h duas leis estatsticas: (a) tudo
pode acontecer e (b) se algo pode acontecer, vai acontecer algum dia, pelo grande
volume de casos (por exemplo, cair 5 vezes o mesmo nmero na roleta em algum
cassino do mundo, algum dia).
Descobrir correlaes entre variveis fcil; h mtodos matemticos/estatsticos para
isto, inclusive nas planilhas eletrnicas. O problema saber se um fator determina outro
(implica em outro), ou seja, se h uma relao de causa-efeito entre duas variveis. Para
73
cliente. Bom, estes fatores parecem exigir uma qualificao melhor dos funcionrios. E
isto tudo exige orientaes e cursos para funcionrios. Desta forma, o fator-chave, a
causa-raiz talvez seja o treinamento dos funcionrios.
Sobre a anlise de causa-raiz, discutiremos mais adiante neste livro.
75
7 Processo de BI reativo
Normalmente o processo de BI (Business Intelligence) recebe como entrada solicitaes
para gerar como resultado indicadores quantitativos tais como nveis
nveis de venda,
venda custos e
lucratividade (por produto, loja, vendedor, departamento, etc). Neste caso, o objetivo do
BI apresentar graficamente os indicadores e monitor-los,
monitor
atualizando-os
os em tempo
real. Estes indicadores so tambm chamados KPI (Key Performance
Performance Indicators), um
termo que vem da metodologia de planejamento e gesto chamada BSC (Balanced
Scorecard).
Para apresentar tais indicadores, ento so utilizados os famosos DASHBOARDS, que
so painis visuais (como na Figura 32).
). Nestes painis, os indicadores so apresentados
de diferentes formas grficas (linhas, barras, mostradores, mapas, etc). O interessante
que os dados podem ser apresentados em diferentes granularidades
granularidades de tempo, ou seja,
por semana, ms, semestre, ano, etc, e os painis podem usar mostradores diferentes
para cada perodo (por exemplo, ano a ano). o que permite ao usurio comparar
indicadores temporais (ex.: comparar as vendas nos ltimos 5 anos,, apresentando
indicadores ano a ano).
Tambm possvel comparar indicadores entre si. Por exemplo, analisar as vendas na
semana anterior ao Dia das Mes em comparao s vendas na semana anterior ao Dia
dos Namorados. Ou ento comparar a lucratividade de cada produto com o grau de
satisfao dos clientes em relao a cada produto.
Os indicadores podem ser apresentados como nmeros (ex. total de vendas), escalas
numricas ou nominais (ex.: bom, mdio, ruim, inclusive com cores tais como verde,
amarelo e vermelho), direcionais (ex.: setas indicando tendncia de subida ou descida
no nmero de clientes), mapas (ex: cores indicando nveis de venda por regio)
regio). Menos
comuns mas tambm teis podem ser representaes de variveis qualitativas, como por
exemplos as tag clouds (ex.: palavras mais frequentes nas reclamaes dos clientes).
76
Este tipo de abordagem pode ser considerada reativa, pois h uma entrada ou objetivo
bem definido e o analista de BI sabe exatamente o que procurar e o que apresentar para
o cliente.
A minha crtica a este tipo de processo de BI que ele apenas uma evoluo dos
antigos SIGs (Sistemas de Informaes Gerenciais) e dos EISs (Executive Information
Systems). A meu ver, o verdadeiro processo de BI deve procurar causas para o que est
acontecendo.
Deixemos claro que os SIGs tm seu valor pois ajudam a apontar qual o produto mais
vendido, em que pocas saem mais ou menos, qual o melhor vendedor, qual o setor que
mais gasta, etc. Mas o verdadeiro BI deve procurar encontrar o porqu de um produto
vender mais que outro, de sair mais numa poca que noutra, o porqu de um vendedor
ser melhor que outro.
A ento que entram as tcnicas de anlise multidimensional ou cbica (OLAP) e as
tcnicas de Data Mining. Mas o processo passa a ser um processo de descoberta, como
uma investigao ou pesquisa cientfica. Em outro captulo, metodologias para tal
processo sero abordadas.
Outra forma de fazer BI reativo analisando a organizao, conversando com clientes e
usurios e da ento definindo os indicadores. Isto acontece porque muitas vezes o
cliente no sabe exatamente o que deve monitorar. Ele tem objetivos ou preocupaes
(aumentar vendas, diminuir custos, reduzir reclamaes de clientes, etc) mas no sabe
bem por onde comear. A o trabalho do analista de BI procurar entender que tipo de
informaes seriam teis para o gestor atingir seus objetivos. Neste caso,
conhecimentos prvios do analista sobre a empresa podem ajudar mas tambm
informaes do ramo (por exemplo, coletadas por benchmarking).
77
78
79
80
Nate Silver conta de uma piada onde um estatstico afogou-se num rio que tinha, em
mdia, 1 metro de profundidade. Ou seja, havia partes mais rasas e outras bem mais
fundas.
J comentamos sobre enganos com a mdia (Figura 27 e Figura 28). Continuemos com
este exemplo, das vendas em um supermercado. A Figura 33 apresenta o total de
carrinhos (ou vendas ou notas fiscais) para cada perfil de cliente (dentro de uma
determinada amostra). Note que os carrinhos de "famlias" so menos da metade dos
carrinhos de pessoas "sozinhas".
Para a mesma amostra, a Figura 34 apresenta a soma de gastos de cada perfil. Agora
podemos ver que a diferena diminui. Isto porque famlias gastam mais (o que pode ser
visto na Figura 28).
A concluso que devemos utilizar diferentes tcnicas e comparar os resultados. No h
uma tcnica melhor que outra. As tcnicas existem para apresentar pontos de vista
diferentes. O melhor saber escolher a melhor tcnica para cada objetivo ou problema.
Se no souber qual a melhor, utilize vrias e compare os resultados.
81
No exemplo dado, a contagem de carrinhos permite descobrir que a maioria dos clientes
vm sozinhos ao supermercado. J a mdia de gastos permite ver que famlias gastam
mais que os demais perfis. E a soma de gastos pode nos dizer qual o tipo de cliente que
mais impacta na receita.
8.3.3 Percentual por linha X por coluna
A Figura 35 abaixo apresenta pedidos de produtos por cidade e por dia da semana. Os
valores foram definidos pelo percentual da linha, ou seja, mostra a proporo com que
os pedidos foram feitos em cada dia da semana, mas dentro de cada cidade (por isto os
100% esto no total da linha). Este tipo de anlise permite descobrir qual o dia da
semana com mais incidncia de pedidos dentro de cada cidade.
Por exemplo, podemos notar que, na cidade de Uruguaiana, a maioria dos pedidos
feita na 3a-feira, enquanto que na cidade de Itaqui os pedidos predominam na 5a-feira e
j na cidade de Bag h um empate entre 4a e 5a-feira. Tambm podemos notar que a
nica cidade que tem predominncia na 2a-feira a cidade de Dom Pedrito.
J a Figura 36 apresenta os valores percentuais mas por coluna. Isto significa separar os
pedidos de cada dia da semana entre as cidades, para ver a proporo dos pedidos entre
as cidades (100% est no total da coluna). Isto permite verificar, por exemplo, que na
6a-feira a cidade onde mais so feitos pedidos a cidade de Uruguaiana (apesar de este
no ser o dia de mais pedidos nesta cidade).
Cidade
Bag
Alegrete
Uruguaiana
Itaqui
Marau
Dom Pedrito
2a-feira
18,2%
19,4%
16,9%
16,0%
20,0%
24,4%
3a-feira
21,2%
22,2%
26,8%
18,0%
20,0%
17,1%
4a-feira
22,7%
19,4%
16,9%
20,0%
24,0%
19,5%
5a-feira
22,7%
16,7%
18,3%
24,0%
20,0%
22,0%
6a-feira
15,2%
22,2%
21,1%
22,0%
16,0%
17,1%
Total
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
Cidade
Bag
Alegrete
Uruguaiana
Itaqui
Marau
Dom Pedrito
Total
Os 2 tipos de anlise de percentuais, tanto por linha quanto por coluna, so importantes,
pois cada um mostra um padro diferente.
82
Aqui mostramos o exemplo de vendas por cidade e dia da semana. Mas imagine ter uma
base de clientes e cruzar dados como faixa etria (linhas) X bairro (colunas). Podemos
fazer o percentual por linha e analisar em que bairro predomina cada faixa etria (por
exemplo, jovens esto mais localizados no bairro Praia enquanto que 3a idade est mais
no bairro Centro). Ou ento fazer o percentual por coluna e assim saber qual a faixa
etria que predomina em cada bairro (por exemplo, no bairro XYZ predominam jovens,
enquanto que no bairro KLM predominam adultos).
Na amostra do supermercado, extramos o total de carrinhos que tm algum tipo de
brinquedo e classificamos por perfil. O resultado est na Figura 37. Podemos notar que
pessoas sozinhas compram mais brinquedos (inclusive que as famlias).
Contar de brinquedos
Acompanhado
amigos
casal
familia
sozinho
Total geral
Total
3
2
19
25
49
Entretanto, devemos lembrar que h mais clientes com perfil "sozinho" e isto gera uma
tendncia. Por isto, fizemos outra tabela, apresentada na Figura 38, onde podemos ver
duas colunas referentes a brinquedos: uma que indica o nmero de carrinhos que tinha
algum brinquedo (valor 1) e os que no tinham brinquedos (vazio).
Para facilitar a comparao, a mesma tabela foi reformatada para apresentar valores
percentuais (por linha), como est na Figura 39. Agora pode-se ver mais claramente que
12,5% das famlias compra brinquedos enquanto que apenas 7,06% das pessoas
sozinhas compram brinquedos.
Contar de CD
Acompanhado
amigos
casal
familia
sozinho
Total geral
brinquedos
1
3
2
19
25
49
(vazio)
121
136
133
329
719
Total geral
124
138
152
354
768
Contar de CD
Acompanhado
amigos
casal
familia
sozinho
Total geral
brinquedos
1
2,42%
1,45%
12,50%
7,06%
6,38%
(vazio)
97,58%
98,55%
87,50%
92,94%
93,62%
Total geral
100,00%
100,00%
100,00%
100,00%
100,00%
83
a minoria. Mas as propagandas so todas machistas. Ento pode estar a uma nova
oportunidade de promoo. So os chamados Nichos de mercado, a estratgia do
Oceano Azul. Steve Jobs no perguntou se as pessoas queriam um iPad. Ele fez e foi o
maior sucesso.
Terceiro, mas no esgotando as possibilidades, o que raro pode fazer uma enorme
diferena no mundo competitivo. Saber o que ningum mais sabe, pode ser uma
vantagem econmica (veja os investidores nas Bolsas de Valores). H uma lenda de um
ingls que ficou sabendo, durante a guerra entre Inglaterra e Frana, que a Inglaterra iria
vencer. Ento ele voltou s pressas para seu pas e comeou a vender tudo o que tinha.
As pessoas, sabendo que ele voltava do campo de batalha, tambm comearam a vender
tudo, achando que a Inglaterra tinha perdido. A ele ento passou a comprar tudo por
baixssimos preos.
Agir de forma diferente pode chamar ateno (produtos personalizados, novos estilos de
moda). O novo gnio do xadrez, o noruegus Magnus Carlsen (o "Mozart do Xadrez")
no usa tcnicas usuais. Todos grandes jogadores conhecem todas as estratgias. Ento
o noruegus costuma fazer algo inesperado, fora dos padres, e isto desconcerta os
adversrios, que no entendem o padro, no conseguem prever as prximas jogadas e
ficam nervosos. Foi assim que ele deixou nervoso o grande campeo Gary Kasparov.
Na batalha por segurana de informao, para impedir invases de sistemas
computacionais, analistas de segurana com softwares de Data Mining procuram
padres. Mas uma ao nova pode ser uma nova estratgia de ataque.
Por isto, processos de BI devem procurar padres com alta frequncia ou probabilidade
estatstica, mas os analistas de BI devem tambm estar atentos a momentos raros,
eventos pouco frequentes.
8.3.6 Investigar padro normal e excees ou minorias
Uma variao da estratgia descrita no item anterior, seria analisar valores minoritrios
ou separar um subgrupo de registros com valores que menos aparecem. No caso de
valores numricos, os valores minoritrios (outliers) podem ser os valores acima ou
abaixo da mdia ou intervalo mdio. Por exemplo, se temos uma base de clientes com
mdia de idade num intervalo entre 20 e 60 anos, poderamos analisar a minoria que tem
idade abaixo de 20 ou acima de 60.
Como discutido anteriormente, a anlise de excees ou minorias pode ajudar a
encontrar hipteses de novos conhecimentos. Excees podem alertar para novos
padres ou especializaes dos padres existentes. Por exemplo, num caso de anlise de
pacientes com diabetes, foi descoberto um padro: 95% dos pacientes que tinham o tipo
1 de diabetes estavam recebendo o mesmo tratamento. Um especialista no viu nada de
interessante neste padro, pois o procedimento normal. O interessante estava
justamente com os 5% que eram exceo, ou seja, que tinham o mesmo tipo de diabetes
mas no tinham o mesmo padro de tratamento.
Outro caso interessante de anlise de minorias ou excees (outliers) aconteceu numa
revenda de carros. A revenda, analisando dados de seus clientes, relacionou
85
estatisticamente o perfil do cliente com o tipo de carro adquirido. O perfil inclua tipos
como mulheres jovens, casais, jovens homens solteiros, etc.
Quando uma exceo ocorre, por exemplo um jovem homem solteiro comprando um
carro tipicamente de casais, isto chama ateno, mas ningum costuma investigar pois
uma exceo. Entretanto, este caso isolado pode ser uma hiptese para novo tipo de
comportamento, quem sabe levantando a possibilidade de novas propagandas para atrair
novos pblicos.
Outro caso interessante aconteceu num site de comrcio eletrnico que descobriu que
havia muitos homens comprando chapinha (para alisar cabelos). Apesar de ser uma
minoria que faz isto (a grande maioria dos clientes que compra chapinha de mulheres),
o site resolveu investigar o caso. Constatou-se que eles estavam comprando para
presente, mas isto no ficava explcito na hora da compra. Este tipo de informao pode
at influenciar de forma errada as campanhas de marketing e os sistemas de
recomendao que traam perfis de clientes. O site ento inclui uma opo para o
cliente poder dizer que estava comprando para dar de presente (e no era para uso do
prprio cliente). O mais interessante entretanto que o site passou a gerar campanhas
no dias dos namorados para homens comprarem o tal produto para darem de presente
para suas namoradas (e a campanha trouxe bons resultados).
Em vrias situaes, as excees so at mais importantes que a regra. Numa
investigao criminal, o fato de haver somente uma ligao entre um suspeito e outra
pessoa (um possvel cmplice) pode ser mais til que o caso de o mesmo suspeito ter
feito diversas ligaes para uma mesma pessoa (por exemplo, um familiar).
Um modo de observar com mais detalhe os chamados outliers tentar relacion-los
com eventos do mundo real. Os picos (subida ou descida) em valores numricos, como
por exemplo os valores extremos em grficos de vendas, podem ser indicativos
importantes para se entender por que as vendas subiram ou cairam tanto. Neste caso,
notcias publicadas ou eventos ocorridos no mesmo perodo (mesmo dia ou dia anterior)
podem ajudar a explicar o ocorrido. O ideal seria analisar se tais correlaes ocorrem
mais vezes, para evitar analisar coincidncias ou sincronicidades.
8.3.7 Qual probabilidade mnima interessante
Se encontramos um padro estatstico, como vamos saber se ele interessante ou no ?
Um padro com probabilidade acima de 90% certamente interessante. Mas pode no
ser novo (como o caso do diabetes, relatado antes).
E uma probabilidade de 80% ? E de 70% ? No caso de um valor aparecer em 50% dos
registros, isto pode ser interessante, se forem vrios valores (por exemplo, cidade do
cliente num site de comrcio eletrnico que vende para todo o Brasil). Mas se
estivermos falando do atributo sexo, 50% no interessante porque se espera
justamente esta diviso num conjunto normal de pessoas.
A sugesto comear procurando por padres com alta probabilidade (para no gerar
muitos resultados) e depois ir diminuindo. Um valor mnimo ideal no existe. Se houver
86
um atributo que no tenha um valor com alta frequncia (por exemplo, que no aparea
em 40% ou mais dos registros), ento a probabilidade de 30% pode ser interessante.
Alm da probabilidade, importante ficar atento ao chamado suporte (nmero de
registros onde o padro ocorre). Por exemplo, uma empresa descobriu um padro que
dizia que 100% (probabilidade) dos distribuidores de uma mesma cidade estavam
atrasando 10 dias o pagamento. O problema que s havia um distribuidor nesta cidade,
ou seja, 100% se referia a uma nica empresa.
Eu costumo usar o seguinte caso como piada e exemplo: um supermercado descobriu
que 100% dos clientes que compravam sapatos de tamanho 48 tambm compravam o
xampu de abacate. Ao saber disto, o pessoal de marketing j comeou a pensar em
campanhas para aumentar este tipo de venda cruzada. Entretanto, a regra aparecia
somente num caso (suporte = 1), ou seja, era somente um cliente que tiha este
comportamento.
8.3.8 Medidas de Interestingness
O interessante, em geral, o evento inesperado, que contradiz as expectativas. Pode ser
um padro (ordem) para a maioria dos casos ou simplesmente algo que sai do padro,
como uma exceo.
Descobrir que a maioria dos clientes de um supermercado compra em mdia 2 kg de
feijo interessante. Mas tambm interessante observar quem est comprando abaixo
ou acima disto. O que sai da mdia, o que est fora do previsto, tambm pode ser
interessante.
Para tanto, precisamos de um sistema de crenas, com conceitos bsicos ou primitivos
ou atmicos que formem um senso comum (ou conhecimento comum ou ordinrio).
Alguma coisa que, quando solta no ar, sobe contradiz nossos conhecimentos sobre
gravidade. Isto algo interessante que merece ser investigado.
Os povos so cheios de crenas populares e supersties (sabedoria popular). Isto
poderia ser incorporado num sistema de crenas, para ajudar a descobrir contradies ou
excees. Ou ento a empresa poderia gerar um conjunto de regras de negcio e
comparar com padres encontrados em seus dados. Por exemplo, houve o caso de uma
empresa de BPM (Business Process Management) que aplicou Data Mining em nas
medies de processos. Ela descobriu uma sequncia muito frequente de tarefas que ia
contra suas regras de negcio. Ela admitia excees em alguns processos, mas a
exceo ser mais frequente que a regra, isto sim era interessante.
Geng e Hamilton (2006) prope 9 critrios para determinar se um padro interessante
ou no. A vo eles:
conciso: um padro que trata de poucos atributos mais interessante porque mais
fcil de ser entendido; por exemplo, o que se entende uma regra que diz que 89%
dos clientes que compram refrigerante, carne, salada e leite num supermercado,
tambm compram queijo ? Agora, se a regra for 89% dos clientes que compram
presunto tambm compram queijo, a fica mais fcil de se entender o padro e
tomar algumas atitudes;
87
tempo. Por exemplo, podemos trocar tempo por espao e assim comparar padres em
regies geogrficas diferentes. Ou at mesmo combinar vrios atributos. Por exemplo,
comparar doenas entre pases de hemisfrio Sul e Norte a cada ano.
Cada grupo ou amostra pode ser analisado separadamente, mas o interessante poder
comparar os padres encontrados para cada grupo (internamente) com os padres de
outros grupos ou mesmo com o padro da coleo toda.
Por exemplo, um processo de anlise de reclamaes de clientes de uma empresa de TV
por assinatura dividiu os clientes (e seus reclamaes) por perfil (plano adquirido) e por
tipo de programao preferida (pelo canal mais assistido). Esta separao, e a posterior
comparao dos padres entre os grupos, permitiu descobrir que os clientes que mais
reclamavam do custo do servio eram os que tinham o plano mais barato. Da mesma
forma, os clientes que menos reclamavam da programao de filmes eram os que
tinham como canal preferido algum de filme (os que mais reclamavam dos filmes
preferiam notcias ou esportes).
A comparao de padres entre subcolees pode ser feita avaliando o que predomina
em cada subgrupo ou ento buscando saber a probabilidade (ou frequncia) de cada
padro em cada subgrupo. Podemos descobrir que um padro aparece com
probabilidade de 90% num subgrupo e com apenas 50% noutro. Ou ento podemos
verificar o tipo de valor para um determinado atributo que predomina em cada
subgrupo. Por exemplo, podemos descobrir que num subgrupo h mais homens e noutro
mais mulheres, ou ento ficar sabendo que a faixa etria predominante num subgrupo
de jovens enquanto que em outro subgrupo predomina a faixa etria mais velha.
Isto significa tomar cada atributo e avaliar os padres encontrados para cada um deles
em cada grupo e a comparar os resultados entre os grupos.
Outra possibilidade descobrir regras de associao (ex.: Se cliente do sexo X, Ento
valor gasto est na faixa Y) e a comparar a probabilidade da regra em cada subgrupo.
Mas tambm podemos comparar os padres encontrados em cada grupo com o padro
da coleo toda. Por exemplo, pelo Google Trends, comparamos as buscas pelos termos
"dengue" e "gripe A", feitas no Brasil todo, com buscas originadas no Rio Grande do
Sul, sobre os mesmos termos e no mesmo perodo. O resultado est nas Figura 40 e
Figura 41.
Os grficos tm certas semelhanas em alguns perodos, mas so bem diferentes em
outros. Pode-se notar que a preocupao com Dengue no to grande no Rio Grande
do Sul, em nenhuma poca, enquanto que no Brasil teve um pico em abril de 2013. Por
outro lado, no h no Brasil, como um todo, grandes variaes nas quantidades de
buscas pelo termo "gripe A", enquanto que no Rio Grande do Sul pode-se ver um
perodo de maior preocupao anterior a outubro de 2012.
89
Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul
90
91
Aqui, no podemos juntar as regras (c) e (d) porque no sabemos se os casos do Rudinei
so comuns aos casos ocorridos s 7 horas ou no.
Como mostra a figura abaixo, pode mesmo acontecer de no haver casos ocorridos com
Rudinei e s 7 horas, ou seja, no haver interseco entre as duas condies (nenhum
caso do Rudinei aconteceu s 7 horas e todos os casos que aconteceram s 7 horas no
eram com o Rudinei).
Torno
Turno = manh
Joo
Aqui pode ocorrer de as regras no terem probabilidade 100%, mas o tipo de anlise
segue o mesmo.
92
Torno
Turno = manh
Joo
Mas pode acontecer, por exemplo, que a regra mais genrica seja
"100% das falhas do Joo ocorreram no turno da manh"
mais genrica que a regra
"70% das falhas do Joo que ocorreram no turno da manh foram no torno"
Note que a probabilidade das regras (genrica X especfica) no necessariamente deva
ser maior numa ou noutra.
93
Uma das maneiras de testar hipteses fazer novas observaes no mundo real. Por
exemplo, se descobrimos um padro que a maioria dos clientes homens com mais de
30 anos adquire o produto X, basta observar se este padro aparece em novos casos.
Seria a mesma situao que fazer uma previso (o prximo cliente homem com mais de
30 anos ir comprar o produto X) e verificar se ela ocorre ou no.
Este tipo de validao era muito feita por cientistas no incio do mtodo cientfico e com
o surgimento de teorias cientficas, segundo Losee). Por exemplo, se temos 3
observaes tais que:
A1 P
A2 P
A3 P
podemos inferir uma regra tal que "Todo A P".
Para validar a regra, temos que saber se todos A realmente so P. Isto significa procurar
por As que no so P. Se houver um A que no seja P, ento a regra invlida. Mas
como testar com todos os casos ? Isto pode ser muito custoso. Alm disto, como vamos
saber se conseguimos testar todos os casos ?
Outro problema com este tipo de abordagem, segundo Losee, que podemos encontrar
concluses verdadeiras mas as premissas serem falsas. Estaremos validando premissas
ou regras invlidas. Ento teramos que validar todas as premissas antes.
Mas ter que validar todas as premissas anteriores pode ser muito trabalhoso (validar a
premissa da premissa e assim por diante). Para evitar tais problemas, a Humanidade
utiliza conceitos e princpios bsicos. So definies estabelecidas e aceitas pela
comunidade cientfica. O que Thomas Kuhn chamou de "paradigma". Isto evita ter que
fazer regresses infinitas e explanaes de todos os princpios. Mas a surge outro
problema (que ser discutido adiante), que justamente no haver mais discusso sobre
conceitos bsicos. Mas e se eles estiverem errados ? E se at hoje no tivssemos
questionado o heliocentrismo ?
Para testar as novas observaes, devemos manter as mesmas condies de quando a
regra foi descoberta, ou seja, o mesmo contexto. Por exemplo, no caso anterior, se a
inflao subir muito, ento possvel que a regra no valha mais. Assim, iramos
considerar a regra invlida, quando na verdade ela vale mas somente numa determinada
situao (por exemplo, com a condio de que a inflao esteja baixa). Lembra do
famoso padro em supermercado que dizia que clientes que compravam fraldas
tambm compravam cerveja ? E se o supermercado mudar a disposio dos produtos e
coloc-los em locais prximos, o padro ir se manter ?
possvel que uma hiptese s valha em certas situaes (por exemplo, para alguns
tipos de clientes ou produtos, ou somente em alguns perodos de tempo, ou at mesmo
s tenham sido verdadeiras no passado, no valendo mais no presente). Ento devem ser
determinadas as condies ou premissas para validade de uma hiptese.
95
descobre que todos os pacientes que so tratados na ala sul do hospital recebem, como
procedimento cirrgico, uma cesariana. Se conseguirmos encontrar um paciente do sexo
masculino que foi tratado na ala sul, a regra ento no mais vlida.
Assim, uma forma de invalidar uma regra encontrar um caso que seja exceo, ou
seja, onde a regra no se aplica. Entretanto, excees existem aos montes e a
estaramos simplesmente desconsiderando a regra. O que pode acontecer diminuir a
probabilidade da regra. Por exemplo, se encontrarmos uma regra que diz que clientes
homens entre 20 e 30 anos praticam algum tipo de esporte, talvez ela no valha para
100% dos casos. Se houver excees neste caso, elas no invalidam a regra mas
somente diminuem sua fora.
Conforme Popper, fcil obter confirmaes ou casos positivos; basta procur-los.
Entretanto, as confirmaes (casos positivos) s devem ser consideradas como prova se
resultarem de predies arriscadas ou pouco provveis. Popper tambm argumenta que
toda teoria ou modelo de certa forma uma proibio (ela probe certas coisas de
acontecerem). E assim, quanto mais a teoria ou modelo probe, melhor ela . Popper
encerra dizendo que a Astrologia e algumas teorias psicolgicas aceitam e explicam
tudo, e portanto no devem ser consideradas teorias cientficas.
Uma anomalia na refutao de padres ou teorias eliminar tambm alguns efeitos
positivos. Houve um caso numa empresa que descobriu que certas reunies eram
desnecessrias para atingir alguns objetivos. Ento, para diminuir custos, aquele tipo de
reunio foi cancelada. Os objetivos continuaram a ser alcanados e os custos
diminuram. Entretanto, as tais reunies traziam benefcios paralelos e ajudam em
outros objetivos, os quais tiveram perdas com o fim destas reunies. Apenas aps
alguns meses, a tal anomalia foi detectada. A soluo no foi trazer de volta aquelas
reunies mas utilizar outros tipos de procedimentos para substituir as reunies e obter os
mesmos resultados paralelos.
O problema todo que vivemos num mundo cada vez mais complexo. H muitos
padres, mas tambm muitas excees. H muitos efeitos colaterais, positivos e
negativos. Conseguir mapear todas estas influncias uma tarefa muito difcil.
Um perigo na avaliao de hipteses querer acomodar fenmenos (dados observados)
no modelo proposto. John Losee e muitos cientistas chamam a isto de "salvar as
aparncias". Isto pode ser feito distorcendo dados e observaes para confirmarem
hipteses, ou mesmo escondendo ou minimizando excees. H o famoso caso de um
vidente que previu tantas catstrofes, que precisou forjar algumas para no passar
ridculo.
8.7 Retroalimentao
Todo processo de descoberta e investigao cclico, ou seja, alguns passos ou mesmo
o processo todo devem ser refeitos. Quando hipteses so descobertas, necessrio
valid-las. Confirmadas ou no, necessrio voltar e refazer o processo para descoberta
de novas hipteses e continuar o ciclo.
97
Muitas vezes, at mesmo para validar uma hiptese necessrio refazer o processo, mas
a utilizando uma abordagem reativa e no proativa.
Em outros casos, necessrio refazer o processo vrias vezes para gerar um conjunto
grande de hipteses ou mesmo de conhecimentos j validados, para que possam ser
combinados (j discutimos anteriormente como integrar e combinar padres ou regras).
98
para os processos de descoberta. Isto , o processo deve ser de construo e guiado por
um especialista humano. A construo forma-se a partir de fundamentos, que podem ser
dados novos ou conhecimentos e teorias prvias. E vai se desenvolvendo com
aprendizados, erros e correes. Os caminhos podem ser refeitos, os objetivos
redirecionados, hipteses novas podem surgir, anteriores podem ser refinadas, refeitas
ou mesmo descartadas. As concluses iniciais devem ser validadas. As primeiras nunca
devem ser tomadas como verdadeiras de imediato.
Este captulo se concentra no problema de descoberta de hipteses iniciais.
101
Silver declara que um dos maiores riscos na era da informao que a massa de
conhecimento no mundo est aumentando (e exponencialmente). Ento a diferena
entre o que sabemos e o que pensamos saber pode estar aumentando. E como
consequncia temos um crescente aumento de stress, porque as pessoas querem e
precisam saber e armazenar mais informaes e conhecimento.
A observao direcionada, seletiva
Segundo Darwin, "ningum pode ser bom observador se no tiver uma teoria antes".
preciso direcionar o foco da observao, porque pode haver muita informao. Isto no
significa apaixonar-se pela teoria e no enxergar outros caminhos. Darwin mesmo tinha
algumas teorias iniciais (vindas de Lamarck) que acabou refutando com suas
descobertas.
Se estivermos numa aula e pedirmos aos alunos para "observarem", eles perguntaro
"observar o qu ?". Se estivermos numa cidade nova com fome, a observao ser para
encontrar algum lugar para comer. Se estivermos sem compromisso, talvez nos
interessemos pela arquitetura e pelo ambiente. Se estamos procurando uma pessoa, s
vamos olhar para pessoas. O ser humano recebe muitas informaes pelos 5 sentidos,
externas e internas, mas no d relevncia a tudo. E nem pode. Para evitar a sobrecarga,
preciso fazer filtros e selecionar dados.
Koestler diz que o "bom observador" aquele que direciona suas observaes. Popper
diz que usamos quadros de referncia. Somos condicionados pelas necessidades e
vontades, primeiro momentneas, depois relativas a nossa expectativa de futuro, mas
isto tudo moldado pelo nosso passado. O passado pode ajudar, acelerando buscas,
eliminando lixos. Mas pode nos condicionar por um vcio de interesse e fechar nossos
olhos a novas observaes. A filtragem pode ser boa para evitar o acmulo de grande
volume de dados. Mas pode ser ruim, por deixar coisas importantes de fora da anlise.
Por isto, devemos usar tcnicas e nossa experincia para saber selecionar e filtrar dados.
Um dos auxlios pode ser o uso de ferramentas de software, para ajudar no
armazenamento, recuperao e seleo de dados. O ser humano possui limitaes para
estas tarefas. O computador no to inteligente. Mas a parceria de ambos pode ser
uma soluo tima.
Bancos de dados e planilhas so teis para armazenar dados estruturados. H formas
diferentes de recuperao, comeando pelas mais tcnicas como a linguagem SQL ou
XQUERY ou XPATH (para XML), mas tambm podemos usar classificaes
(taxonomias) e consultas por palavras-chave (como o Google). A grande dificuldade
est em lidar com dados no estruturados (discutida mais adiante), tais como textos,
imagens e sons.
As ferramentas para visualizao de dados ajudam a gerar resumos e filtros visuais. H
diversas formas diferentes de ver os mesmos dados. Isto nos d pontos de vista
diferentes, como j discutido antes, quando falamos de dados multidimensionais. No
link abaixo, a Universidade de Maryland apresenta diversas tcnicas que esto sendo
pesquisadas para visualizao de informaes.
http://www.cs.umd.edu/hcil/research/
102
consciente. Por exemplo, se voc pedir para um pianista explicar que sequncia de
teclas ele usa numa msica que saiba tocar sem partitura (de memria ou de cabea),
dificilmente ele conseguir explicar, ou pelo menos, levar um bom tempo tentando
relembrar. Mas no momento de tocar a msica, a sequncia vem sem ele precisar pensar
sobre isto.
A intuio tambm utilizada, segundo Gunther, sem a necessidade de pressa. Ela no
deve ser confundida com caminho mais fcil (preguia). Gunther no recomenda confiar
na primeira impresso, mas sugere que coletemos muitos dados.
O hbito e a experincia para seleo de dados
A experincia, o hbito pode ajudar a aprimorar o uso de intuies, tanto para filtragem
do que coletar quanto para seleo de hipteses ou causas provveis.
O hbito uma vantagem quando no h tempo para raciocinar. Ele nos ajuda a tomar
as decises certas. Mas deve ser treinado, para no ser usado como sorte ou preguia.
Por exemplo, o jogador que assume a funo de lbero num time de vlei, quando ele
faz uma defesa, ele no pensa conscientemente. A reao em milsimos de segundos.
Mas seu crebro precisa tomar decises quanto a posicionamento do corpo (pernas,
braos, mos, etc.), para rebater a bola para frente, em direo ao meio da quadra, sem
passar a rede e sem ficar muito perpendicular a ele mesmo. Para tanto, ele vai dispor
braos, mos e restante do corpo, mas a deciso no consciente. As decises rpidas (e
acertadas) neste caso vm devido a treino (a fora do hbito). como digitar um texto
num computador sem olhar para o teclado. Se perguntarmos a uma pessoa que digite
textos rapidamente onde fica uma determinada letra, ele ter que parar para pensar. Mas
se pedirmos para ele digitar uma palavra, esta sair rapidamente. O mesmo com um
piloto de corrida. As decises so tomadas rapidamente, parecendo ser instinto, mas na
verdade um hbito que foi muito treinado.
Outro exemplo de hbito ou habilidade muito treinado o caso de Ayrton Senna
correndo na chuva. No incio de carreira, no kart, ele no sabia andar na chuva. Ento
comeou a treinar exaustivamente at que pudesse fazer disto um hbito, ou seja, uma
habilidade que ele desempenhava sem precisar pensar (eram decises rpidas).
Kahneman fala da importncia de praticar o hbito. Ele afirma que os grandes jogadores
de xadrez no veem o mesmo tabuleiro como um novato. Eles conseguem visualizar
jogadas possveis pela fora do hbito. O treino gera uma habilidade para acessar mais
rapidamente certas informaes no crebro e organiz-las melhor. Gladwell, no seu
livro sobre Outliers (2011), chega a um nmero mgico de 10 mil horas de treino, que
distingue os grandes campees dos demais. Ele v isto em grandes msicos e jogadores.
Se uma pessoa treinar 8 horas por dia, todos os dias, sem folgas, precisar de 3,4 anos
para chegar a este nmero. por isto que podemos notar que grandes campees de
esportes ou msicos virtuoses comearam com pouca idade.
Duhigg (2012) diz que podemos instalar hbitos em nossos crebros. Eles ficam
armazenados em reas especficas do crebro e podem ser recuperados de forma
inconsciente. Comea com um estmulo que manda o crebro entrar em modo
automtico, e indica qual hbito deve ser usado. As recompensas (dor, prazer, etc.)
104
ajudam o crebro a saber se vale a pena memorizar este hbito para o futuro ou no. A
sugesto definir um plano para uma rotina que traga a mesma recompensa. Para o
lbero do vlei, seria treinar exaustivamente defesas e recompensar com felicidade ou
tristeza cada resultado. Recompensas diferentes ajudam o crebro a diferenciar aes
boas de ruins.
Heursticas para seleo de dados
Regras heursticas orientam decises mesmo sem garantir resultados. No so
algoritmos ou procedimentos. Devem ser usadas conforme a situao do momento.
Em muita decises, no h informaes suficientes para uma boa escolha. Por exemplo,
ao chegarmos a uma encruzilhada, no caminho em direo a um destino, e se no
tivermos um mapa, vamos usar heursticas para escolher o caminho a seguir. Talvez
algum olhe para o cu, e mesmo sem saber orientar-se por ele, tenha um lampejo de
informao, lembrando de uma situao semelhante em que ficou perdido. Outros
olharo para o cho, lembrando situaes que viram num filme (nunca experimentaram
a mesma situao mas reusaro solues que foram teis para outras pessoas).
Algumas heursticas esto enraizadas no ser humano como hbito ou instinto. Por
exemplo, segurar coisas que caem, fugir do fogo ou de animais que rosnam. Mas as
heursticas tambm so usadas para acelerar a soluo de problemas. Conforme,
Gigerenzer e Gaissmaier (2011), uma heurstica uma estratgia que ignora parte da
informao com o objetivo de fazer decises mais rpidas do que mtodos complexos.
Em casos onde no h tempo para pensar, as heursticas podem funcionar.
Por outro lado, como as heursticas so usadas sem conscincia, podem gerar resultados
catastrficos, quando seria melhor raciocinar sobre alternativas. Gladwell no livro Blink
(2011) descreve o caso de um bombeiro que sobreviveu a um incndio na floresta
parando para pensar numa soluo, enquanto que seus companheiros no tiveram a
mesma sorte porque seguiram seus instintos (ou heursticas).
Lenat (1982) diz que as heursticas podem ser construdas por especializao ou por
generalizao. Por exemplo, se uma deciso foi til numa caminhada por uma floresta,
possvel que tambm seja til em qualquer tipo de caminhada (generalizao) ou em
caminhadas menores (especializao). A fora das heursticas est na analogia que
proporcionam. Se uma heurstica H foi til numa situao S, ento heursticas similares
a H sero teis em situaes similares a S (analogia). Entretanto, se o ambiente muda
rapidamente, as heursticas possuem pouco tempo de vida.
Em resumo, as heursticas funcionam bem para ajudar o raciocnio, eliminando
alternativas quando h muitas e no h tempo ou recursos suficientes para avaliar todas.
das pessoas. Se as pessoas souberem que esto sendo avaliadas ou observadas, mudam
seu comportamento (para melhor ou pior).
Hoje em dia se discute muito no Brasil se as pesquisas de opinio para eleies
influenciam ou no os que votam. Conforme vamos coletando dados e formando
hipteses, nosso conhecimento vai mudando, vai-se moldando. No h como impedir tal
modificao. Isto pode nos direcionar na coleta de mais dados, fazendo-nos eliminar
certas hipteses ou circunstncias, ou fazendo com que nos atenhamos mais a certos
detalhes.
Como j dito antes, no errado formular hipteses iniciais. O problema s ficar com
estas e descartar outras possibilidades.
cada cliente. E os elementos podem ser produtos, lojas, vendedores, etc. Em geral, o
Grfico de Pareto ento se assemelha a uma curva descendente.
Para identificar caractersticas comuns, preciso formar um grupo para anlise ou
separar por grupos usando tcnicas de discretizao. Por exemplo, pode-se trabalhar
somente com os mais bem posicionados no ranking ou os intermedirios ou aqueles
posicionados mais embaixo (a curva ABC funciona assim para classificar clientes).
Pode-se definir um limiar numrico para os valores do atributo sendo considerado para
corte dos elementos ou considerar os N primeiros elementos ou separar o grupo todo em
N partes iguais.
Uma variao do mtodo seria trabalhar com valores fuzzy para classificar elementos.
Por exemplo, se estamos classificando pessoas por faixa etria, temos a tendncia de
definir limites. Poderia ser assim: jovens so pessoas menores de 24 anos, adultos tm
entre 25 e 40, sniors tm entre 41 e 60 anos e a 3a idade formada por pessoas com
mais de 60 anos. Mas o que acontece com pessoas prximas das fronteiras (por
exemplo, algum com 24 anos e alguns meses) ? A lgica fuzzy permite classificar um
mesmo elemento em duas classes distintas mas com graus de pertinncia diferentes.
Ento, se uma empresa for fazer campanhas de marketing para clientes segmentados por
idade, usando o raciocnio fuzzy, a empresa no perde oportunidades deixando clientes
das fronteiras somente numa campanha.
Depois, tendo um grupo selecionado e separado, pode-se:
a) procurar mdias de valores para um determinado atributo (pode no ser o utilizado
para montar o ranking);
b) um limiar mnimo para um atributo;
c) um atributo comum ao grupo selecionado;
d) uma combinao de atributos comuns.
Por exemplo, se foi utilizado o total de itens para montar o ranking de clientes, pode-se
descobrir:
a) que a mdia de itens comprados entre eles era X;
b) que a idade mnima era 23 anos;
c) que todos os clientes do grupo selecionado tinham residncia na cidade;
d) que todos estes clientes selecionados tinham renda acima de Y salrios mnimos e
moravam em residncia prpria.
tipos de grupos e ento analisar o que h de comum internamente a cada grupo. Depois
ento, os atributos que caracterizam cada grupo so comparados em busca das
diferenas.
Um problema que pode acontecer se no forem encontradas caractersticas comuns em
cada grupo. Ento, pode-se analisar algumas amostras de cada grupo. Por exemplo, ao
se analisar um grupo de mquinas que falhavam antes do tempo previsto, no se
encontrou nenhuma caracterstica comum. Entretanto, cada uma delas tinha uma
caracterstica nica, que a distinguia das demais deste grupo. Comparando 1 caso onde
o defeito ocorreu com 1 caso onde no houve o defeito, chegou-se a uma caracterstica
que havia no primeiro e no ocorria no segundo. Esta foi uma tomada ento como uma
hiptese de diferena entre os grupos. Ento fez-se uma anlise estatstica para saber a
frequncia da presena ou ausncia da caracterstica em cada grupo. A probabilidade
no era 100% em cada grupo mas bastante significativa.
Este o Mtodo da Diferena de William of Ockham (segundo Losee).
O grande defeito seguir por caminhos errados, levando a perda de tempo e esforos.
Imagine pegar justamente as excees. Mas muitas vezes, so caminhos que devem ser
trilhados na falta de hipteses.
Benchmarking e Analogias
Uma maneira de levantar hipteses iniciais utilizando benchmarking, ou seja, vendo o
que j havia acontecido antes com outras empresas ou em situaes semelhantes. Este
o princpio das heursticas, j comentado antes. Muitas vezes podemos reutilizar
solues que deram certo em outra rea. A tcnica de benchmarking significa olhar e
aprender com outras empresas. A soluo de um programa de computador que no
"roda" pode vir de uma ideia de um brinquedo que no funciona. A causa para defeitos
num processo de produo pode vir da anlise de defeitos em carros. claro que
pessoas, empresas e mercados so diferentes, so organismos vivos. E por isto, talvez
seja necessrio alguma adaptao na soluo, pois ela provou funcionar em outro
contexto ou rea, mas pode no funcionar neste exatamente igual numa nova situao.
Por isto, um esquema visual importante, pois podemos visualizar problemas e
solues. Se compararmos dois casos com informaes diferentes, talvez o padro
visual seja o mesmo. Mapas mentais, anagramas, grafos podem ajudar (adiante veremos
um caso com mapas mentais).
E tambm preciso ter informaes e conhecimentos diversos. Por isto to importante
conhecer vrios assuntos e no ser um "especialista burro".
O perigo das analogias, segundo Popper, generalizar demais ou de forma errada. Ele
conta o caso de cachorros que foram aterrorizados com cigarros. Aps, cada vez que um
destes via um papel branco enrolado, ele fugia. No caso, o fator real (causa raiz) era o
fumo e no o papel que enrolava o fumo. Mas at mesmo o ser humano confunde as
causas.
110
111
Quebra de Paradigmas
J comentamos que os hbitos so bons para filtrar opes e economizar tempo. Mas h
o perigo de ficar preso a solues pr-determinadas ou tradicionais. H heursticas (no
comprovadas cientificamente) que acabam guiando as nossas decises. Por exemplo,
muitos executivos demitem funcionrios para reduzir custos. a soluo mais comum,
mais tradicional e muita vezes mais fcil para quem faz (no para quem demitido).
Outro exemplo: muitas empresas pensam que no se investe na crise; mas o livro de
Carlos Domingos (Oportunidades Disfaradas) conta justamente casos de sucesso que
contrariaram esta regra.
Muitas vezes, a soluo passa por quebrar paradigmas. Segundo Thomas Kuhn, no seu
famoso livro A estrutura das revolues cientficas, paradigmas so realizaes
cientficas universalmente reconhecidas que, durante algum tempo, fornecem problemas
e solues modulares para uma comunidade de praticantes de uma cincia. O paradigma
orienta pesquisas de um grupo; um modelo ou padro aceito.
Um paradigma uma maneira de ver o mundo. E isto pode mudar. Kuhn comenta o
experimento de utilizar um culos que inverte a imagem (descrito por Harvey Carr). As
pessoas se acostumam e conseguem viver normalmente.
A quebra de paradigma uma nova forma de ver as mesmas coisas talvez at com os
mesmos instrumentos. Foi o que aconteceu em vrias quebras de paradigma na
Astronomia. Em muitos casos, o mesmo instrumento (luneta) era utilizado focando no
mesmo lugar no espao. Mas as hipteses eram diferentes. E a novos detalhes
aparecem, fazendo ento a teoria se modificar.
Entretanto, uma teoria pode ser aceita mesmo sem explicar todos os fenmenos.
Quando surgem contra-exemplos, a teoria no deve ser rejeitada mas adaptada. Para
rejeitar uma teoria, preciso ter outra para substitu-la.
As revolues cientficas so justamente episdios de desenvolvimento no cumulativo,
nos quais um paradigma mais antigo total ou parcialmente substitudo por um novo,
incompatvel com o anterior. O pr-requisito para a substituio o funcionamento
defeituoso do modelo. Uma nova teoria no precisa estar em conflito com a antiga; pode
tratar de assunto novo (como a fsica quntica) ou ser de maior grau (englobar outras
menores).
claro que h propriedades inatas e irredutveis, as quais no so nunca questionadas e
no precisam ser constantemente avaliadas, o que tornaria o raciocnio muito mais lento.
Em cada empresa, h princpios bsicos irredutveis. Por exemplo, algumas empresas de
varejo definem posies de estoque mnimo e no voltam a question-las. Setores de
RH definem critrios de avaliao de pessoal e nunca os rediscutem. Departamentos de
venda definem ndices para premiar vendedores e so sempre os mesmos que ganham.
112
114
Gladwell comenta sobre o poder dos boatos, que podem ajudar ou atrapalhar. Ele
comenta o caso de um boato espalhado entre americanos para resistncia aos ingleses, e
que acabou tendo uma forte influncia na independncia americana.
O importante saber juntar os sinais fracos, entender suas relaes, seu poder de
conjunto e para onde apontam. Para Nate Silver, havia dados suficientes para prever o
ataque terrorista de 11 de setembro. O problema no era a carncia de informaes, mas
sim que as peas no foram corretamente juntadas (exatamente como aconteceu nos
ataques a Pearl Harbor). O que faltava era exatamente uma teoria que pudesse explicar
os dados em conjunto, um padro que indicasse um evento significativo ou mesmo uma
hiptese por menos provvel que fosse.
Lesca (2003) apresenta uma metodologia para anlise de dados sobre mercado
competitivo, onde os chamados "sinais fracos" so tambm considerados. Isto inclui
opinies e at mesmo boatos. A ideia no descartar nada. A metodologia de Lesca
interessante porque demonstra como conectar dados e sinais fracos, para gerar
hipteses. Talvez o conjunto final de dados possa mostrar uma tendncia que os
nmeros no apresentavam. Parte desta metodologia ser discutida adiante.
Outro exemplo: uma empresa no sabia mais como lidar com quebras em suas
mquinas. J havia investigado tudo: fornecedores, tempo de uso, qualidade dos
operadores, qualidade das peas que substituam outras, temperatura durante o uso, as
variaes de temperatura (uso X descanso) e at mesmo a temperatura ambiente. E nada
de encontrar um padro. A algum suspeitou que a trepidao das mquinas era
diferente. Colocaram sensores para medir o quanto cada mquina trepidava.
Descobriram que as medidas eram diferentes mas no havia um padro. No encontram
um motivo para haver diferenas nas trepidaes, analisando as variveis j descritas
antes. A, outro algum suspeitou que a diferena nas trepidaes poderia estar no tipo
de piso usado na empresa. Nada. Eram todos iguais. A outro algum, analisando onde
ficavam as mquinas que mais davam problemas, descobriu que o andar onde estava
que fazia a diferena. Mquinas em andares mais altos tinham histrico maior de falhas
e quebras. Concluindo: as diferenas na estrutura do prdio eram a causa dos problemas.
sanduche ficasse pronto primeiro, ele seria o mais vendido ? o velho problema de o
que vem primeiro: o ovo ou a galinha ? Gladwell, no livro O ponto da virada, comenta
a relao entre pessoas confiantes e o ato de fumar. O que gera o qu ? a confiana
que faz a pessoa fumar ou o ato de fumar que deixa a pessoa mais confiante.
A primeira tarefa identificar causas de efeitos avaliar a correlao entre as variveis ou
eventos. A correlao uma tcnica estatstica que avalia a similaridade entre 2 vetores
de nmeros, 2 grficos ou 2 sries. O coeficiente de Pearson um dos mtodos mais
utilizados. Quanto mais prximos os nmeros na ordem, maior o grau de correlao
entre os vetores. Para uma empresa importante avaliar a correlao entre suas aes e
os resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na
atitude comportamental dos empregados implicava em 1,3 ponto de incremento na
satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa.
Tal descoberta permite empresa avaliar onde investir e o quanto. Neste exemplo, se
ela quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos
colaboradores.
Como j discutimos antes, correlao entre eventos ou variveis no necessariamente
implica em que um seja causa de outro. Conforme Hans Reichenbach, citado por
Tsamardinos e Sofia Triantafillou (2011), se A e B esto correlacionados, ou A causa B,
ou B causa A, ou eles compartilham uma causa comum. Eu ainda acrescentaria que
pode ser uma sincronicidade, como discutido antes, caso no haja uma frequncia
mnima. O famoso teste de Granger pode ajudar a identificar se h uma relao causal
numa correlao.
Alm disto, uma causa pode ser direta ou indireta. Em muitas empresas, costuma-se
relacionar os ndices de venda ao desempenho dos vendedores. Mas muitas vezes so
esquecidas causas indiretas. Por exemplo, as propagandas feitas pela empresa podem
ajudar um vendedor e prejudicar outro. Os tipos de clientes ou regies pelas quais cada
vendedor ficou responsvel pode ser o determinante, isentando o vendedor e suas
atitudes do resultado final. Outro exemplo: a causa para o custo elevado de um produto
pode estar na raiz da cadeia de suprimentos.
Causas indiretas podem gerar o evento mas com muitos laos intermedirios. Imagine o
caso de uma virose que deixa vrias pessoas com problemas estomacais. Se todos
comeram no mesmo restaurante, isto pode ser uma causa comum e direta. Entretanto,
pode ter ocorrido de uma pessoa ter comido algo e depois passado o vrus para outro
que passou para outro e assim por diante.
Na rea de sade, muito comum confundir sintoma com causa. A causa vem primeiro
e os sintomas ou sinais aparecem depois. Mas h casos complexos onde fica difcil
determinar o que causa e o que efeito. Por exemplo, gua no pulmo consequncia
ou causa de problemas cardacos ? e diabetes, causa ou consequncia de problemas de
m circulao ?
Outra questo a cuidar que a causa pode ter ocorrido logo antes do evento efeito ou
muito tempo antes. Uma promoo publicada num jornal talvez gere resultados no
mesmo dia. Mas uma campanha nas redes sociais talvez demore mais tempo para gerar
resultados positivos. Levitt e Dubner (no livro Freakonomics) levantam a possibilidade
de a liberao de abortos ser uma das causas para diminuio de crimes nos EUA no
final de 1989. Mas os 2 eventos estariam relacionados numa diferena de tempo de 20
anos. Esta a chamada correlao assncrona que j foi discutida antes neste livro.
116
Anlise de causa-raiz
Gladwell, no livro Outliers, comenta que acidentes com avies acontecem por acmulo
de erros triviais e pequenos. Ele comenta o caso de uma companhia area que precisou
treinar sua tripulao para se comunicarem melhor em ingls com as torres de controle
em outros pases. Isto porque a m comunicao gerava outros pequenos erros e da
poderia at mesmo causar um grave acidente.
117
Alm disto, na maioria dos casos, no h uma causas nica e simples; pode haver
causas mltiplas ou multivariadas (como na regresso). Para tanto, necessrio analisar
conjuntos de dados e no dados isolados.
Muitos fenmenos tm como causa um conjunto de eventos anteriores, ou seja, uma
combinao de causas menores. Um usurio acessando um sistema computacional e
errando a senha um evento corriqueiro e normal. Agora, este mesmo usurio errando
diversas vezes a senha, pode ser indcio de tentativa de fraude.
Em outros casos, a causa pode ser um volume grande de eventos do mesmo tipo. Veja a
moda por exemplo. Uma pessoa sozinha usando uma marca ou um tipo especfico de
acessrio no gera efeito, mas vrias fazendo isto gera um efeito exponencial. Este tipo
de fenmeno chamado de ponto da virada, muito bem descrito no livro de Malcolm
Gladwell.
Um dos desafios extrair significado (a chamada abstrao semntica) a partir de um
conjunto de dados aparentemente desconexos. Uma pessoa comprando plstico que
pode ser usado para fazer bombas no significa nada, um evento isolado. Mas se ela
tambm comprar uma mochila, uma passagem de avio e estiver indo para um lugar
onde no tem nenhum conhecido, pode ser algo significativo.
Uma empresa descobriu que suas mquinas s tinham problemas quando a temperatura
no ambiente passava dos 30 graus e um operador inexperiente (menos de 1 ano de
trabalho) estava manipulando a mquina. Notem: eu frisei o E. Ambos os fatores
deveriam estar juntos para gerar o problema.
A abstrao pode ser feito de duas formas: por Generalizao ou por Agregao,
conforme Smith e Smith (1977). Generalizar formar conceitos de mais alto nvel a
partir de fatores menores. Um exemplo de generalizao seria notar que todos os
problemas com uma determinada mquina industrial ocorreram com operadores que
tinham menos de 20 anos. A agregao seria compor eventos mais complexos a partir
de fatores menores. Por exemplo, o mesmo caso (operadores jovens) mas somente em
mquinas adquiridas h menos de um ano (mquinas novas, de modelos novos).
Em alguns casos, os fatores talvez no apaream simultaneamente mas em sequncia.
Ento a causa uma sequncia especfica de eventos. E a ordem pode ser importante. Se
os mesmos eventos ocorrerem em uma sequncia diferente talvez no gerem o efeito.
Ento, resumindo, uma causa pode ser identificada:
pela presena de algum evento especfico; exemplo: um vendedor melhor que
outro porque visita seus clientes enquanto que os outros no o fazem;
pela frequncia de eventos; exemplo: o melhor vendedor visita cada cliente toda
semana (os outros s uma vez por ms);
pela ordem dos eventos; exemplo: o melhor vendedor liga aps visitar seus clientes,
enquanto que os demais ligam e depois visitam.
importante lembrar que, quando estamos falando de causa-efeito, nem sempre
estamos s preocupados com efeitos ruins. Um objetivo um efeito desejado. E
procurar por suas causas tambm importante.
119
120
Mtodo Cartesiano
O mtodo de Ren Descartes, que ficou conhecido como mtodo Cartesiano, possui os
seguintes passos ou preceitos:
1.
Busca pela verdade: nunca aceitar algo como verdadeiro sem conhecer; receber
as informaes com ceticismo, examinando sua racionalidade e sua justificao;
2.
Anlise, ou diviso do assunto em tantas partes quanto possvel e necessrio:
dividir cada uma das dificuldades em tantas partes quanto for possvel e necessrio para
melhor entend-las e resolv-las;
3.
Sntese, ou elaborao progressiva de concluses abrangentes e ordenadas a
partir de objetos mais simples e fceis at os mais complexos e difceis.
4.
Enumerar e revisar minuciosamente as concluses, garantindo que nada seja
omitido e que a coerncia geral exista.
Mtodo Cientfico
Os passos do mtodo cientfico, de forma geral:
1. Fazer observaes, sistemticas e controladas
2. Levantar hipteses
3. Montar um modelo ou teoria cientficas
4. Realizar novos experimentos e fazer novas observaes
5. Avaliar se as novas observaes corroboram a teoria
6. Caso no corroborem, reciclar as hipteses ou refazer a teoria.
121
Mtodo de Galileu
Galileu revolucionou o modo como a Astronomia era feita. De seus aprendizados, surge
um mtodo para construo de teorias. Os passos so:
1. Fazer a observao do fenmeno;
2. Resolver a complexidade do fenmeno, identificando elementos, relaes,
quantidades, medidas, etc;
3. Elaborar uma hiptese explicativa;
4. Verificar a hiptese atravs de experimentaes ou novas observaes.
Raciocnio Abdutivo
Segundo Charles Sanders Peirce: "a abduo o processo para formar hipteses
explicativas. A deduo prova algo que deve ser; a induo mostra algo que atualmente
operatrio; j a abduo faz uma mera sugesto de algo que pode ser. Para
apreender ou compreender os fenmenos, s a abduo pode funcionar como mtodo.
O raciocnio abdutivo so as hipteses que formulamos antes da confirmao (ou
negao) do caso."
A abduo funciona assim:
122
124
Tal princpio tambm pode ser entendido atravs da frase O todo no a mera soma
das partes. Um bom exemplo a gua (cuja frmula H2O). Se estudarmos cada parte
isoladamente, teremos que as molculas de hidrognio se encontram na natureza em
estado gasoso, e o mesmo acontecendo com o oxignio. Mas quando esta partes se
juntam formam uma substncia cujo estado natural lquido.
A sinergia tambm explica por que, muitas vezes, uma equipe de futebol com um
jogador a menos consegue ganhar de outra com maior nmero de jogadores. A resposta
est na integrao entre as partes, que conseguem gerar algo novo.
O pensamento sistmico considerado a Quinta Disciplina, segundo Peter Senge. As
demais so: Domnio pessoal, Modelos mentais, Objetivo comum (viso compartilhada)
e Aprendizado em grupo.
Abordagem Sistmica
A abordagem sistmica uma maneira de resolver problemas sob o ponto de vista da
Teoria Geral de Sistemas. Muitas solues surgem quando observamos um problema
como um sistema e, desta foram, sendo formado por elementos, com relaes, objetivos
e um meio-ambiente.
A vo algumas dicas da abordagem sistmica:
a) dividir para conquistar
Procure dividir o problema em problemas menores. Algum que quer ir de uma cidade a
outra, divide o caminho em partes por onde deve passar (estradas a tomar, sadas,
entradas, conexes).
b) identificar todas as partes do sistema
Procure identificar tudo o que faz parte do sistema. Algumas partes podem fazer a
diferena. Um exemplo clssico o cavalo de tria na guerra entre gregos e troianos. Se
os gregos vissem o problema apenas como uma cidade (Tria) com muros altos e fortes
portes, no teriam conseguido entrar. A diferena aconteceu porque eles entenderam
que o sistema ainda era composto de pessoas e, neste caso, supersticiosos e religiosos
(que no poderiam rejeitar um presente dos deuses).
c) atentar para detalhes
A falta de uma caneta pode gerar o insucesso de um sistema automatizado. Os analistas
se preocupam geralmente com as coisas grandes como computadores, redes e software
de banco de dados. Mas num supermercado, se no houver uma caneta para o cliente
assinar o cheque, de nada ter adiantada gastar milhares de dlares com hardware,
software e treinamento de pessoal.
d) olhar para o todo (viso holstica)
Se algum est perdido numa floresta, sobe numa rvore para poder enxergar onde est
a sada. O mesmo acontece com labirintos. A viso do todo permite entender como as
partes se relacionam.
125
e) analogias
A analogia consiste em utilizar uma soluo S num problema P, similar a uma soluo
S que j teve sucesso num problema P similar a P. Ou seja, o reuso de solues em
problemas similares, com alguma adaptao da soluo. No a toa que o Homem criou
o avio observando os pssaros voarem.
O famoso "Unabomber", que enviava cartas bomba para cientistas com o intuito de
parar a evoluo tecnolgica, foi identificado por suas prprias cartas: seu estilo de
escrita denunciou sua formao, detalhes do papel e da impresso indicaram o tipo de
mquina que usava e ainda os locais de postagem. Mas a dica final veio de um familiar.
Mtodo do Sherlock Holmes
Investigar causas como investigar um crime. Sherlock Holmes tinha seu mtodo,
utilizado em vrios livros deste personagem mas descrito primeiramente no livro Um
estudo em vermelho de Doyle.
Holmes usava dedues baseado em princpios universais. Por exemplo, no seu
primeiro livro, Holmes infere a altura da pessoa que escreveu uma mensagem na parede,
usando como fundamento o princpio (a regra) de que as pessoas costumam escrever na
altura dos olhos.
Em outros casos, ele mesmo gerava suas regras, segundo o mtodo indutivo.
Mas muitas vezes, o mtodo de Sherlock Holmes era o mtodo abdutivo e no o
dedutivo. Em alguns casos, ele tinha um fato confirmado (um evento j ocorrido) e
utilizava uma regra universal de causalidade. A partir de relaes de causa-efeito, ele
supunha causas para os eventos ocorridos.
Holmes tambm usava os mtodos de anlise e sntese, o mtodo cartesiano, e outros.
Mas talvez seu grande diferencial estivesse na sua forma nica de coletar informaes e
fazer observaes que nenhum outro conseguia repetir. Como j discutimos antes em
outra seo, o mtodo de coleta e observao importante para a anlise de causas.
Holmes criticava as pessoas que atulhavam o crebro com detalhes inteis, soterrando
hipteses promissoras. O personagem ressalta a importncia tambm do estudo
meticuloso e sistemtico, aconselhando evitar formar teorias antes de possuir todos os
indcios, pois isto poderia distorcer o raciocnio.
Holmes tambm aconselha utilizar o raciocnio retrospectivo, reconstruindo passo a
passo os acontecimentos e sua ordem. Ele complementa dizendo que mais fcil
raciocinar para frente, na direo do tempo, mas isto pode fazer esquecer o processo
inverso.
Quanto s circunstncias fora do comum, ele diz que constituem mais uma orientao
do que um obstculo.
Diagnstico Mdico
O processo de diagnstico mdico tem por objetivo primeiro identificar a doena
(causa) para as queixas de pacientes (e depois ento prescrever tratamentos). Para tanto,
preciso analisar sinais (visveis ao mdico), sintomas (informaes prestadas pelo
paciente sobre o que est sentindo) e tambm exames tcnicos (imagens, radiografias,
etc.).
127
128
inclusive apresenta uma cpia do manuscrito original, onde o orientador de Tim escreve
a mo: "vago mas excitante ...".
b) Juno de contextos diferentes
Koestler fala em bissociao de matrizes (bisociation of matrices); Johnson, em coliso
de ideias (collision of hunches). Koestler descreve como passar repentinamente de um
plano (assunto) para outro (como Arquimedes), conectando as partes e gerando uma
soluo nova. Johnson diz que preciso completar nossas teorias com as ideias de
outros.
preciso tambm ter conhecimentos generalizados, alm dos especializados. Darwin
foi influenciado pelo trabalho do economista Thomas Malthus sobre o crescimento da
populao, a falta de alimento e a possvel morte de pessoas por causa desta
disparidade. E Darwin iniciou sua jornada de estudos investigando pedras (na rea de
geologia). Steve Jobs revolucionou as interfaces homem-computador, criando telas
encantadoras. Boa parte deste sucesso se deve a seus estudos de caligrafia, que o
ajudaram a criar as fontes de textos.
129
Como um mapa mental, podemos ver os fatores que influenciam a venda. Diretamente,
temos clima, loja, marca, propaganda, data hora e vendedor. Entretanto, o esquema
mostra que o vendedor influenciado pela sua motivao e pelo treinamento que
recebeu. E o treinamento possui 3 fatores que influenciam.
Desta forma, podemos pensar nas causas para ndices de vendas bons ou ruins
analisando as causas diretas ou indiretas. O diferencial deste tipo de visualizao
poder descobrir uma causa distante. Por exemplo, um baixo ndice de vendas pode estar
associados a quem ministrou o treinamento (que influencia a qualidade do treinamento,
que por sua vez influencia o desempenho do vendedor, que finalmente influencia as
vendas). Ou quem sabe o aumento das vendas pode ser devido atitude dos vendedores,
que por sua vez receberam um bom treinamento, e este foi de qualidade porque o
ambiente do treinamento foi especial (quando e onde).
Uma rede de varejo estava tendo muitos problemas com mercadorias defeituosas, e
queria diminuir tal prejuzo. Estes problemas foram detectados em todas as lojas. Ento
130
Uma constatao importante foi que as mercadorias defeituosas tinham sido entregues
por apenas 3 transportadores: a 2, a 3 e a 4. Ento procurou-se saber o que havia de
comum entre estes transportadores. Nada foi encontrado. Pois estes 3 transportadores
utilizam diferentes tipos de caminhes. Utilizando informaes de rastreamento, ou
seja, caminho percorrido pelas mercadorias defeituosas, procurou-se saber se algum tipo
especfico de caminho havia sido utilizado para as mercadorias defeituosas. De novo,
nada foi encontrado, pois as mercadorias defeituosas chegavam com diferentes tipos de
caminhes.
Ento, algum teve a ideia de fazer um grafo, representando os caminhos percorridos e,
incluir no grafo os diferentes tipos de caminhes utilizados. A Figura 45 representa o
grafo gerado. Os crculos em roxo representam os fornecedores, os azuis representam as
transportadoras, os verdes os CDs e os crculos amarelos so as lojas. As flechas
representam o fluxo de mercadorias (todos os tipos), desde os fornecedores at as lojas.
Nesta figura, esto marcados em vermelho os caminhos que geraram mercadorias
defeituosas. Ento notou-se um padro: 2 tipos de caminhes (X e Z) levaram as tais
mercadorias. Mas estes caminhes levaram tambm mercadorias do mesmo tipo das
131
Ontologia
Engenharia de
Software
Teste de
Software
Engenharia de
Requisitos
132
Banco de
Dados
Inteligncia
Artificial
Data
Warehouse
Data Mining
Outro tipo de anlise interessante sobre mapas mentais faz-los representando fluxos
de informaes, ou seja, quem fornece informao para quem (ver Formanski et al.).
Nodos representam pessoas e arestas (setas) representam o fluxo de informao de uma
pessoa para outra. As cores indicam o departamento ou setor de cada pessoa. A largura
da seta representa o quanto de informao que passou naquela via. A Figura 47 mostra
um exemplo.
133
d) a pessoa identificada por 9 est isolada, tendo somente contato com a pessoa
identificada por 10. Pode ser que 9 seja um aprendiz, que deve ser "sombra" de 10.
e) fora a pessoa 9, a rede azul a mais conectada, pois todos as pessoas deste setor
interagem entre si. J na sub-rede vermelha, o nodo 4 no interagem com 6 e 7. H que
se investigar o porqu disto, se planejado assim ou se um problema.
Determinismo X probabilismo
As arestas num grafo podem representar relaes determinsticas de, por exemplo,
causa-efeito. Mas tambm podemos usar grafos de probabilidades. Neste caso, as
relaes so provveis e no h certeza absoluta. As Redes de Markov e as Redes
Bayesianas utilizam o conceito de probabilidade para marcar relaes entre nodos num
grafo. As Redes Neurais Artificiais tambm utilizam pesos probabilsticos para as
conexes entre os neurnios artificiais.
Num grafo de relaes causais, as relaes entre conceitos (causas e efeitos) recebem
pesos numricos indicando a probabilidade da relao. Isto permite raciocnio lgico
(crisp ou fuzzy) sobre qual a causa mais provvel, independente se a causa est direta ou
indiretamente conectada ao efeito.
Os grafos ponderados (com pesos nas relaes) tambm so teis para que se possa
identificar quais relaes so de maior interesse para anlise. Pesos muito altos podem
sugerir relaes mais importantes num contexto e relaes com pesos muito baixos
podem ser eliminadas por insignificncia (principalmente para limpar um grafo com
muitas conexes).
Descobrir novas ligaes
Um dos casos mais interessantes de descoberta por minerao foi feita por Swanson e
Smalheiser (1997). Eles conseguiram encontrar uma possvel relao entre 2 textos de
assuntos distintos. O texto 1 falava que ...o leo de peixe bom para a circulao do
sangue.... O texto 2 dizia que ... a sndrome de Raynaud est associada com a vasoconstrio nas pessoas .... A partir da leitura destes 2 textos, eles chegaram hiptese
de que o leo de peixe poderia ajudar no tratamento da sndrome de Raynaud.
Entretanto, no havia na literatura mdica cientfica nenhum texto que falasse de tal
hiptese. Ento eles partiram para experimentos prticos e os resultados comprovaram a
hiptese.
Este problema pode ser esquematizado utilizando-se um mapa mental (ou grafo).
Considerando os seguintes conceitos e suas relaes:
Sndrome de Raynaud vaso-constrio (relao de causa-efeito);
leo de peixe boa circulao (relao de causa-efeito);
vaso-constrio boa circulao (relao de associao).
O mapa pode levantar a hiptese que h uma relao entre a Sndrome de Raynaud e o
leo de peixe. Generalizando, poderamos construir um autmato que sugere novas
ligaes (a serem investigadas) a partir de grafos.
134
no sabia a real causa. Aps posicionar num mapa da cidade todos os casos, Dr. Snow
percebeu que havia mais mortes prximas de uma fonte de gua. Sua hiptese ento era
de que a gua seria o meio de transmisso. A anlise temporal da disseminao de casos
fortaleceu ainda mais a hiptese, pois os casos aumentavam com o tempo a partir da
fonte de gua. Por fim, as hipteses do doutor foram confirmadas e muitas vidas salvas.
O trabalho de concluso de Robson Jardim resultou num sistema automatizado para o
registro colaborativo de casos de doenas e a gerao posterior de relatrios de evoluo
da doena. Usurios cadastrados podem registrar o local onde o caso ocorreu, o tipo de
doena e a data. O sistema permite aos usurios comparar a evoluo e o deslocamento
de casos de doenas em mapas ao longo do tempo. Na Figura 49, h um exemplo de
como podemos ver o surgimento de novos casos em dois momentos diferentes,
permitindo inferir uma direo de deslocamento da doena.
Hoje em dia, com a constante preocupao com novos vrus e a disseminao cada vez
mais rpida de epidemias, uma ferramenta visual pode apoiar anlises e dar subsdios
para decises de entidades de sade e governos.
itos ou grupos e
O passo 4 consiste em analisar a consistncia do mapa, revisando conceitos
suas relaes, eliminando conexes sem significado
si
ou sem incio ou fim.
J no passo 5, devemos validar o mapa e suas informaes.. Neste ponto, deve
deve-se revisar
as conexes e os tipos e at mesmo a importncia e veracidade dos conceitos. Pode-se
Pode
inclusive colocar um grau de certeza nas informaes
informae e relaes.
Por fim, o passo 6 refere-se
se descoberta e anlise. O objetivo identificar hipteses no
mapa, identificar conhecimento novo e tambm identificar o que est faltando. Aqui
tambm possvel incluir novas relaes e mesmo verificar a falta de conexes (e
incluir se for necessrio). Deve-se
Deve se interpretar o conjunto de informaes e tirar as
primeiras concluses. Tambm as contradies devem ser resolvidas aqui (podendo
(podendo-se
eliminar informaes no verificadas). A Figura 52 mostra o surgimento de um novo
conceito ("novo servio"), como uma nova hiptese e um conceito ("retrao de
mercado") que foi eliminado pois se verificou no ser verdade.
O mapa como um quebra-cabea
cabea (puzzle). Em alguns casos, pegamos uma unidade de
informao separada e procuramos encaix-la
encaix la no mapa. Em outros momentos,
verificamos a falta
alta de alguma pea (conceito ou conexo) e vamos em busca de novas
informaes.
138
139
10 Business Analytics
A evoluo da rea de BI gerou a chamada Business Analytics. O objetivo poder
prever acontecimentos ou predizer valores para variveis. Por exemplo, "neste ritmo de
vendas, alcanaremos a meta no dia ...". A ideia no nova, apenas teve uma nova
roupagem. Os sistemas de apoio deciso (SAD ou DSS, em ingls) j h muitos anos
vm ajudando os tomadores de deciso. O funcionamento simples: a partir de dados
de entrada (parmetros) e utilizando um modelo de deciso, pode-se prever valores
futuros. Os modelos de deciso geralmente so do tipo what-if ("e se eu fizer isto, o que
vai acontecer"), e utilizam tcnicas como projeo, regresso e simulao.
O processo de BI est mais inclinado para explicaes ou explanaes e no tanto para
previso ou predio. H uma diferena entre tentar explicar o que aconteceu e prever o
que vai acontecer. As explicaes, principalmente de causas, podem ser usadas para as
previses. Em geral, as previses so baseadas em dados histricos e na construo de
modelos de previso.
Mas no pode haver confuso. O barmetro permite prever chuva mas no causa do
tempo. O pluvimetro mede ndices de chuva mas tambm no so causas (e no
servem para fazer previses, mas seus registros podem ser utilizados para tal). No o
ato de fumar que causa cncer mas sim as substncias que esto no cigarro.
Business Analytics (BA) complementa BI uma vez que os padres encontrados no
passado podem ser testados no futuro. Por exemplo, uma rede de varejo identificou por
BI que um aumento de 1% no preo final de produtos de um setor sempre reduzia as
vendas totais deste setor em 0,5%. Uma etapa posterior de BA poderia avaliar as
mudanas no lucro final da empresa para um perodo futuro, considerando que as
demais condies no mudem. claro que so utilizados simuladores (software) para
fazer as previses futuras e estes simuladores so baseados em modelos matemticos
(frmulas sobre dados quantitativos).
Previses
Como j dito antes, as previses ajudam as empresas no seu planejamento e no seu dia a
dia. Uma empresa que trabalhe com estoques que consiga prever quanto vai vender nos
prximos dias, pode produzir ou comprar somente a quantidade que ir vender. Estoque
parado prejuzo porque a empresa precisa pagar infraestrutura para armazenar (local,
pessoas, climatizao, etc.) e se no vender o produto pode deteriorar (perder prazo de
validade, estragar por condies climticas adversas, etc.). Dizem que a Amazon ser
capaz de prever vendas e com isto antecipar sua logstica. Ou seja, se ela predizer que
um determinado cliente vai comprar um certo livro dentro de um ms, ela j vai enviar
este livro para um local prximo ao cliente.
E as previses tambm servem para validar hipteses. Faa uma previso a partir de um
modelo e verifique se os eventos previstos acontecem. Isto permite refinar um modelo
ou descart-lo.
140
Mas o que uma previso boa ? Ela precisa acertar tudo, sempre e nos mnimos
detalhes ? A qualidade de uma previso dada pela preciso. Mas nem sempre os
valores ou eventos acontecem realmente como previstos, pode haver um certo desvio,
que chamamos de margem de erro. A tendncia que os modelos e suas previses
errem mais no incio e com o passar do tempo vo melhorando. Para isto preciso fazer
mais previses e refinar o modelo a partir da avaliao das causas dos erros.
Tambm podemos avaliar os modelos e suas previses pelo seu valor. Talvez a previso
erre, mas a margem de erro pode ser aceitvel e a previso ajude a tomar decises.
Imagine tambm uma indstria de refrigerantes. Deixar produto estocado perda na
certa. Ela precisa produzir quase como just-in-time. Ento talvez uma previso boa no
precise de um valor exato para quanto ela vai vender (quanto as pessoas vo consumir
ou comprar), mas um intervalo de valores j ajude.
A previso tem que ser honesta, como nos aconselha Nate Silver. Ela no deve suscitar
a fama pela sua grandiosidade. Ela precisa ser a melhor previso que poderia ter sido
feita. claro que a previso do clima para uma semana intil. Ela precisa ser boa para
o dia corrente e no interessa se errar para mais dias, pois ela poder ser refeita.
Nate Silver distingue previso de projeo. Uma previso uma declarao definitiva e
especfica sobre quando e como acontecer um evento (por exemplo, um terremoto de
grandes propores atingir tal cidade no dia tal). J uma projeo uma declarao
probabilstica (por exemplo, h 60% de chance de ocorrer um terremoto em tal cidade
nos prximos trinta anos).
Os grandes desafios dos modelos de previso so:
1) construir o modelo e refin-lo;
2) determinar os dados ou parmetros que influenciam as previses;
3) coletar estes dados a tempo de poder predizer e no s explicar os ocorridos.
E como j discutido no incio deste livro, os modelos de comportamento que se aplicam
a um determinado contexto talvez no funcionem em outros contextos ou pocas. Uma
pequena mudana nas condies pode inviabilizar um modelo. As analogias, como
discutido antes, precisam ser adaptadas.
Estas pequenas variaes podem ser rudos, como discutido por Nate Silver, ou podem
ser variaes do ambiente real. A Teoria do Caos (discutida no livro de James Gleick)
diz que uma borboleta batendo asas no Brasil pode influenciar o clima no Japo. Esta
ideia veio de um artigo apresentado em 1972, por Edward Lorenz. Lorenz descobriu que
truncar um dado na terceira casa decimal fazia uma enorme diferena. A concluso
que uma pequena mudana nas condies iniciais (o bater de asas de uma borboleta no
Brasil) pode produzir uma divergncia grande e inesperada nos resultados (um tornado
no Japo). No significa que o comportamento do sistema seja aleatrio, como o termo
caos talvez possa sugerir. Significa apenas que muito difcil prever a atuao de
certos tipos de sistemas, pois seria necessrios coletar todas as variveis que implicam
no resultado e saber seu valor com muita preciso em tempo hbil.
141
Raposas X Porcos-espinhos
Nate Silver diz que h 2 tipos de pessoas que fazem previses: as raposas e os porcosespinhos.
Porcos-espinhos so personalidades que acreditam em grandes ideias, em princpios
bsicos ou leis que regeriam o mundo (como as leis da fsica) e que sustentam
praticamente todas as interaes que ocorrem na sociedade.
Raposas, por outro lado, so criaturas que vivem de fragmentos, que acreditam numa
infinidade de pequenas ideias que juntas produzem algo maior. Tendem a ser mais
tolerantes em relao incerteza e s opinies discordantes. Se os porcos-espinhos so
caadores e esto sempre em busca de uma grande presa, as raposas so animais
coletores.
Previses grandiosas e ousadas podem levar os porcos-espinhos TV. Mas informaes
em excesso se tornam um mau negcio pois h mais variaes. Porcos-espinhos
constroem histrias que so mais ntidas e mais coerentes do que o mundo real, com
protagonistas e viles, vencedores e perdedores, clmax e desfechos, e, geralmente, um
final feliz para o time pelo qual torcem.
Raposas usam mais dados. Porcos-espinhos usam poucos ndices (reduzir algo
complexo a poucas variveis).
143
144
c) voc uma pessoa muita atarefada e no tem tempo nem para cozinhar.
A coleta por inferncia ento quando o sistema gera informaes novas a partir de
outras. O nvel de inferncia subjetivo de cada organizao e certamente aumenta a
incerteza sobre a veracidade da informao. Mas muitas empresas assumem o risco
desta incerteza, porque mais incerto ainda no saber nada sobre o cliente.
Tempos atrs surgiram alguns artigos falando sobre Phenomenal Data Mining. Que
significa tentar inferir eventos ou atributos de entidades a partir de colees de dados.
na prtica e com seriedade fazer aquela brincadeira de analisar os restos no lixo de
algum. A voc saber que tipo de pessoa , pelo que compre e consome (marcas, tipos
de produtos, faixas de preos, etc). Assim, se voc compra Xampu feminino e
desodorante feminino juntos na mesma compra, voc uma mulher. Se comprar Xampu
para carro, esponja para lavar carro e creme para polimento de carro, voc certamente
tem um carro. claro que h margem para erros.
E utilizando a sabedoria das massas, se numa loja de supermercado a venda de gua
mineral foi muito acima do normal, porque faltou gua neste bairro. E se na mesma
cidade, vrias farmcias esto vendendo antigripal, porque h um surto de gripe. E
provavelmente a temperatura tambm esfriou ou a umidade aumentou.
E isto j chegou Internet. O Facebook j consegue inferir nossa orientao sexual e
tendncia poltica s analisando nossas "curtidas" (ler a reportagem "Estudo mostra que
boto Curtir do Facebook revela muito mais do que se imagina sobre o usurio
http://oglobo.globo.com/tecnologia/estudo-mostra-que-botao-curtir-do-facebook-revelamuito-mais-do-que-se-imagina-sobre-usuario-7812419).
Um exemplo caso aconteceu em algumas sinaleiras de grandes cidades. Uma pessoa
passava pelos carros perguntando ao motorista se queria ganhar um brinde. A grande
maioria das pessoas dizia que sim, mesmo que desconfiadas. Ento o "entrevistador de
sinaleiras" pedia o nome e o telefone do motorista, alegando que depois entraria em
contato.
A princpio, parece que s foi utilizada a coleta explcita (perguntas e respostas). Mas se
pararmos para pensar, a pessoa s se dirigia a certos tipos de carros. Alm disto, anotava
mais que o nome e o telefone. Ela anotava o tipo de carro e outros dados que
conseguisse coletar (adesivos informando que h bebs no carro, sobre estacionamentos
hospitalares, associaes e clubes, etc). Ento este um tipo de coleta implcita, por
observao.
Alm disto, os dados iam para centrais onde eram ento analisados. A partir dos dados
coletados explcita ou implicitamente, algum iria fazer uma inferncia. Por exemplo, a
partir do selo de estacionamento de mdicos num hospital, pode-se inferir a profisso de
mdico; da tem-se o perfil de pessoas com boa renda e alto senso crtico. Se o carro
tinha cadeira de bebs, infere-se que h uma famlia por trs.
146
147
Se o usurio puder ser identificado, seja por login, cookies ou outra forma, possvel
saber quantas revisitas so feitas ao site, inferir o interesse do usurio e tambm
enriquecer tais dados com informaes vindas de outras bases, tais como cadastros em
lojas fsicas.
Hal Varian, economista-chefe do Google, na sede da empresa em Mountain View,
Califrnia diz que eles podem prever o nmero de pedidos iniciais de segurodesemprego com mais antecedncia porque, se correrem boatos de que haver
demisses em alguma empresa, as pessoas vo comear a pesquisar onde e como dar
entrada no seguro-desemprego e termos afins (citado no livro de Nate Silver).
Para mais detalhes sobre esta tecnologia ver o meu livro sobre 31 tipos de sistemas de
informao.
Ento, a estratgia mais apropriada para Text Mining identificar conceitos (contextos
ou temas ou assuntos) nos textos e aplicar as tcnicas estatsticas sobre os conceitos.
Para identificar os conceitos, deve-se usar uma base ou ontologia de conceitos, na qual
esto definidas as diferentes formas de um conceito aparecer num texto (sinnimos,
expresses, etc).
Por exemplo, a presena de sintomas de alcoolismo em pronturios mdicos pode ser
verificado pela presena de uma das seguintes expresses: lcool, hlito etlico, faz uso
de bebidas, bebe imoderadamente.
Ento o conceito "alcoolismo" ser definido de forma a serem analisadas estas
expresses. Se uma delas aparecer, o texto estar tratando deste conceito.
Uma vez que as palavras formam a unidade bsica de informao dos textos e sobre elas
ser feito o text mining, necessrio algum tratamento prvio antes de aplicar
estatstica. Por exemplo, corretores ortogrficos ajudam a eliminar variaes incorretas
de palavras.
Text Mining utiliza as mesmas tcnicas de Data Mining que podem ser aplicadas a
variveis nominais ou qualitativas, tais como classificao, clustering, associao,
sequncia temporal e anlise de distribuio. Alm disto, h nova tcnicas como anlise
de diferenas e similaridade entre textos e a tcnica de gerao automtica de resumos
de textos.
Para mais detalhes sobre esta tecnologia ver o meu livro sobre 31 tipos de sistemas de
informao.
150
151
12 Concluso
Ao fazer BI, o cientista ou analista deve ter em mente que preciso ter um objetivo.
Como j discutimos durante o livro, talvez o objetivo no esteja muito claro no incio
(esta a abordagem proativa), mas ir se delinear durante o processo. Portanto, no h
como terminar um processo de BI sem se ter avaliado se algum objetivo foi alcanado.
Muitas empresas coletam todos os tipos de dados possveis, sem mesmo saber se vo
usar ou no. Outras fazem todo tipo de anlise sem bem saber qual o objetivo por trs
disto. Empresas analisam perfis de clientes, coletam dados pessoais e privativos,
invadem privacidade, mas para qu ?
O Big Data pode ser analisado com tcnicas e ferramentas. Mas ser que precisamos de
tantos dados ? Isto muitas vezes causa a sobrecarga e depois o estresse de quem faz. E
tambm pode causar problemas para clientes. Muitas empresas so coletando dados
demais sobre as pessoas, como invaso de privacidade. O que temos que nos perguntar
se o que estamos fazendo ir trazer mais resultados positivos ou negativos. Ou seja,
vai fazer mais mal ou bem ? E para quem.
Outro cuidado para o cientista de dados querer encontrar padro em tudo. Isto pode
virar um TOC (transtorno obsessivo-compulsivo). Popper (1980, p.17) nos diz: "...
fenmeno psicolgico do pensamento dogmtico ou, de modo geral, do comportamento
dogmtico: esperamos encontrar regularidades em toda parte e tentamos descobri-las
mesmo onde elas no existem; os eventos que resistem a essas tentativas so
considerados como 'rudos de fundo'; somos fis a nossas expectativas mesmo quando
elas so inadequadas - e deveramos reconhecer a derrota. O mundo catico por
natureza. Em alguns casos a gente v padres, mas na maioria parece uma baguna
mesmo. E da ? O importante conseguir viver neste contexto. Foi isto que causou a
evoluo dos seres vivos, justamente a capacidade de adaptar-se a ambientes diferentes.
Isto implicou no desenvolvimento de habilidades melhores e a consequente
sobrevivncia por mais tempo.
Um conselho final aproveitar o que os nmeros podem nos dar mas no acreditar que
os nmeros sempre sero melhores que nossas intuies e sentimentos.
O Futuro do BI
O futuro do BI provavelmente est no 4o paradigma: o uso intensivo de dados (dataintensive science) com novos mtodos cientficos, com sistemas de software mais
poderosos, com mais semntica a partir dos dados, mas acima de tudo com o intelecto e
a sensibilidade de humanos.
Sistemas inteligentes podero sugerir novas conexes, descobrir novas regras, padres,
hipteses e conhecimentos. Mas somente humanos podero incorporar tcnicas de
criatividade e conhecimentos para a integrao de diferentes disciplinas, para anlise de
novos cenrios, para soluo de problemas, para identificao de causas.
152
Bibliografia
AGRAWAL, Rakesh; IMIELINSKI, Tomasz. Database mining: a performance
perspective. IEEE Transactions on Knowledge and Data Engineering, v.5, n.6,
Dezembro de 1993.
ANDEL, Pek Van. Anatomy of the Unsought Finding. Serendipity: Origin, History,
Domains, Traditions, Appearances, Patterns and Programmability. The British Journal
for the Philosophy of Science, v.45, n.2, Junho, 1994, p.631-648.
ANSOFF, H. Igor. Strategic issue management. Strategic Management Journal, v.1, n.2,
April/June 1980, p.131148.
ASUR, Sitaram; HUBERMAN, Bernardo A. Predicting the Future with Social Media.
Proceedings WI-IAT '10 IEEE/WIC/ACM International Conference on Web
Intelligence and Intelligent Agent Technology - v.1, 2010, p. 492-499.
BARABASI, Albert-Laszlo; BONABEAU, Eric. Scale-free networks. Scientific
American, n.288, Maio de 2003, p.50-59.
BARABASI, Albert-Laszlo. Linked: How Everything Is Connected to Everything Else
and What It Means for Business, Science, and Everyday Life. Plume, 2003.
BARAN, Paul. On Distributed Communications Networks. the Rand Corporation,
Setembro de 1962.
BERTIN, Jacques. Semiology of Graphics: Diagrams, Networks, Maps. University of
Wisconsin Press, 1983.
BLANCO, S.; CARON-FASAN, M. L.; ,LESCA, H. Developing capabilities to create
collective intelligence within organizations. Journal of Competitive Intelligence and
Management, v.1, n.1, Spring 2003.
BOLLEN, Johan; MAO, Huina; ZENG, Xiao-Jun. Twitter mood predicts the stock
market. Journal of Computational Science, 2(1), March 2011, 1-8.
CARON-FASAN, Marie Laurence; JANISSEK-MUNIZ, Raquel. Anlise de
informaes de inteligncia estratgica antecipativa coletiva: proposio de um mtodo,
caso aplicado e experincias. Revista de Administrao, So Paulo, v.39, n.3, jul/ago/set
2004, p.205-219.
CHOI, H.; VARIAN, H. Predicting the Present with Google Trends. Economic Record,
special issue selected Papers from the 40th Australian Conference of Economists, v. 88,
n.1, p.29, June 2012.
CHOUDHURY, Vivek; SAMPLER, Jeffrey L. Information specificity and
environmental scanning: an economic perspective. MIS Quarterly, Maro de 1997.
153
CLARKE, Ronald V.; ECK, John E. Crime analysis for problem solvers in 60 small
steps. Center for Problem-Oriented Policing, U.S. Department of Justice.
DAWKINS, Richard. O Gene Egosta. Companhia das Letras, 2007.
DESCARTES, Ren. O discurso do mtodo. So Paulo: Martins Fontes, 2001. (original:
Discours de la methode, 1637)
DOMINGOS, Carlos. Oportunidades disfaradas: histrias reais de empresas que
transformaram problemas em grandes oportunidades. Sextante, 2009.
DOYLE, Arthur Conan. Um Estudo em Vermelho. Traduo de Hamlcar de Garcia.
Publicado em "As Aventuras de Sherlock Holmes, Volume I". Crculo do Livro.
(Original: A Study in Scarlet. Almanaque Beeton's Christmas Annual, novembro,
1887).
DUGAS, A. F. et al. Influenza Forecasting with Google Flu Trends. Online Journal of
Public Health Informatics, v.8, n.2, Fevereiro de 2013.
DUHIGG, Charles. O Poder do Hbito - Por que fazemos o que fazemos na vida e nos
Negcios. Objetiva, 2012.
EKMAN, Paul; ROSENBERG, Erika L. (ed.) What the Face reveals - basic and applied
studies of spontaneous expression using the Facial Action Coding System (FACS). New
York: Oxford University Press Inc., 1997.
EKMAN, P.; FRIESEN, W.V.; HAGER, J.C. FACS - the Facial Action Coding System.
2a. ed. Salt Lake City: Research Nexus eBook. London: Weidenfeld & Nicolson, 2002.
FEIGENBAUM, E. A.. Toward the Library of the Future. Long Range Planning, v. 22,
n. 1, 1989, p.118-123.
FORMANSKI, Jos Gilberto; FORMANSKI, Filipi Naspolini; RODRIGUEZ y
RODRIGUEZ, Martius Vicente. A contribuio da anlise de redes sociais na
identificao dos conhecimentos crticos em uma organizao: um estudo de caso.
Anais do KM Brasil 2012. So Paulo: SBGC, agosto 2012.
FORSTER, Malcolm R. Probabilistic Causality and the Foundations of Modern
Science. Ph.D. Thesis, University of Western Ontario. 1984.
GENG, Liqiang; HAMILTON, Howard J. Interestingness Measures for Data Mining: A
Survey. ACM Computing Surveys, v.38, n.3, 2006.
GHANI, Rayid; SIMMONS, Hillery. Predicting the End-Price of Online Auctions.
International Workshop on Data Mining and Adaptive Modelling Methods for
Economics and Management held in conjunction with the 15th European Conference on
Machine Learning (ECML/PKDDD), Pisa, Itlia, 2004.
154
155
KUHLTHAU, Carol C. Inside the search process: information seeking from the user's
perspective. Journal of the American Society for Information Science, v.42, n.5, June
1991.
KUHN, Thomas S. A Estrutura das Revolues Cientficas. 10.ed. So Paulo:
Perspectiva, 2011 (original: 1962).
LENAT, Douglas B. The nature of Heuristics. Artificial Intelligence, v.19, n.2, Outubro
de 1982, p.189-249.
LESCA, Humbert. Veille stratgique: la mthode L.E.SCAnning. Colombelles: Editions
SEM, 2003.
LEWIS, Michael. Moneyball: The Art of Winning an Unfair Game. W. W. Norton &
Company, 2004.
LEVITT, Steve. D.; DUBNER, S. J. Freakonomics: A Rogue Economist Explores the
Hidden Side of Everything. William Morrow Paperbacks, 2009.
LOH, Stanley. 31 tipos de sistemas de informao - 31 maneiras de a tecnologia da
informao ajudar as organizaes. Porto Alegre, 2014.
LOSEE, John. A Historical Introduction to the Philosophy of Science. 4a.ed. New York:
Oxford University Press, 2001. (original 1972)
MALTZ, Michael D.; KLOSAK-MULLANY, Jacqueline. Visualizing Lives: New
Pathways for Analyzing Life Course Trajectories. Journal of Quantitative Criminology,
v.16, n.2, June 2000, p.255-281.
MAATHUIS, Marloes H.; COLOMBO, Diego; KALISCH, Markus; BHLMANN,
Peter. Predicting causal effects in large-scale systems from observational data. Nature
Methods 7, April 2010, p.247248.
MILLER, George A. The Magical Number Seven, Plus or Minus Two: Some Limits on
OurCapacity for Processing Information. The Psychological Review, v. 63, 1956, p. 8197.
MISHNE, Gilad. Predicting movie sales from blogger sentiment. In AAAI Spring
Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW)
2006.
MORAES, Maurcio. Big Brother Obama. Revista Info, Editora Abril, n.324, dezembro
de 2012.
MORIN, Edgar. Os Sete Saberes Necessrios Educao do Futuro. 2.ed. So Paulo:
Cortez; Braslia: UNESCO, 2000.
MOSCAROLA, Jean; BOLDEN, Richard. From the data mine to the knowledge mill:
applying the principles of lexical analysis to the data mining and knowledge discovery
process. Note de Recherche n 98-15, Universit de Savoie. Setembro de 1998.
156
OARD, Douglas W.; MARCHIONINI, Gary. A conceptual framework for text filtering.
Technical Report, University of Maryland. Maio de 1996.
ORTONY, A.; CLORE, G. L.; COLINS, A. The Cognitive Structure of Emotions.
Cambridge University Press. 1988.
PARSAYE, Kamran et alli. Intelligent databases: object-oriented, deductive hypermedia
technologies. New York: John Wiley & Sons, 1989.
POPPER, Karl. The logic of scientific discovery. Londres: Hutchinson & Co., 1959.
POPPER, Karl. Conjecturas e Refutaes. Braslia: Editora da UnB. 1980.
PORTO, Celmo Seleno. Semiologia Mdica. 5.ed. Guanabara Koogan, 2005.
RADINSKY, Kira; HORVITZ, Eric. Mining the web to predict future events.
Proceedings WSDM '13 Proceedings of the sixth ACM international conference on Web
search and data mining, 2013, p. 255-264.
SARGUT, Gke; McGRATH, Rita Gunther. Learning to Live with Complexity.
Harvard Business Review, special issue on Complexity, September 2011.
SENGE, P. The Fifth Discipline: The art & practice of the learning organization. New
York: Doubleday, 1990.
SENGE, P. et al. A Quinta Disciplina: Caderno de Campo. Rio de Janeiro: Qualitymark,
1995.
SILVA, Ricardo. Causality. Encyclopedia of Machine Learning, Springer, 2010, p.159166.
SILVER, Nate. O sinal e o rudo: por que tantas previses falham e outras no. Rio de
Janeiro: Intrnseca, 2013.
SIMON, Herbert A. "Theories of Bounded Rationality". In McGUIRE, C.B. &
RADNER, R. (ed.). Decision and Organization. Amsterdam: North-Holland Publishing
Company, 1972.
SMITH, John Miles; SMITH, Diane C. P. Database abstractions: aggregation and
generalization. ACM Trans. on Database systems, v.2, n.2, junho, 1977, p.105-133.
SPINK, Amanda; WOLFRAM, Dietmar; JANSEN, Major B. J.; SARACEVIC, Tefko.
Searching the web: The public and their queries. Journal of the American Society for
Information Science and Technology, v. 52, n.3, 2001, p. 226234.
STEWART, Thomas R. Uncertainty, judgment and error in prediction. In: SAREWITZ,
D.; PIELKE, R. A.; BYERLEY, R. Prediction: Science, Decision Making and the
Future of Nature. Washington: Island Press, 2000, p. 41-57.
157
158