Вы находитесь на странице: 1из 130

ANA ROCO CRDENAS MAITA

Um estudo da aplicao de tcnicas de


inteligncia computacional e de aprendizado
de mquina em minerao de processos de
negcio

So Paulo
2016
ANA ROCO CRDENAS MAITA

Um estudo da aplicao de tcnicas de inteligncia


computacional e de aprendizado de mquina em
minerao de processos de negcio

Verso corrigida

Dissertao apresentada Escola de


Artes, Cincias e Humanidades da Uni-
versidade de So Paulo para obteno do
ttulo de Mestre em Cincias pelo Programa
de Ps-graduao em Sistemas de Informao.

rea de concentrao: Metodologia e


Tcnicas da Computao

Verso corrigida contendo as alteraes


solicitadas pela comisso julgadora em 04
de dezembro de 2015. A verso original
encontra-se em acervo reservado na Biblio-
teca da EACH-USP e na Biblioteca Digital
de Teses e Dissertaes da USP (BDTD), de
acordo com a Resoluo CoPGr 6018, de 13
de outubro de 2011.

Orientador: Prof. Dr. Marcelo Fantinato


Coorientador: Profa. Dra. Sarajane Marques
Peres

So Paulo
2016
Dissertao de autoria de Ana Roco Crdenas Maita, sob o ttulo Um estudo da apli-
cao de tcnicas de inteligncia computacional e de aprendizado de mquina
em minerao de processos de negcio, apresentada Escola de Artes, Cincias
e Humanidades da Universidade de So Paulo, para obteno do ttulo de Mestre em
Cincias pelo Programa de Ps-graduao em Sistemas de Informao, na rea de concen-
trao Metodologia e Tcnicas da Computao, aprovada em 04 de dezembro de 2015 pela
comisso julgadora constituda pelos doutores:

Profa. Dra. Adriana Backx Noronha Viana


Presidente
Faculdade de Economia e Administrao da Universidade de So Paulo

Profa. Dra. Lucinia Heloisa Thom


Instituto de Informtica da Universidade Federal do Rio Grande do Sul

Prof. Dr. Luciano Antonio Digiampietri


Escola de Cincias Artes e Humanidades da Universidade de So Paulo
A minha me por ter me apoiado sempre na busca dos meus objetivos, e que com amor e
carinho me impulsa cada dia a dar o melhor de mim.
Agradecimentos

Agradeo a minha famlia, pela fora e apoio incondicional na realizao desse


sonho, desde antes de vir para o Brasil e em cada momento dessa etapa parte da minha
vida acadmica.
Meus agradecimentos sinceros aos meus orientadores Prof. Marcelo Fantinato e
Profa . Sarajane Marques Peres pelo apoio, pacincia e compreenso pessoal durante toda
esta etapa de estudo. Alm do direcionamento cuidadoso durante a realizao do projeto e
suas valiosas contribuies a minha formao acadmica e profissional. Ficarei sempre grata
a eles por terem me dado a oportunidade de ser parte desse programa de ps-graduao,
conhecer o mundo da pesquisa e apresentado um caminho que pretendo continuar.
Aos professores do PPgSI, especialmente queles com quem tive a oportunidade de
cursas as disciplinas e trabalhar diretamente: Prof. Marcos Chaim, Prof. Joo Bernardes,
Prof. Edmir Prado, Prof. Luciano Arajo, Profa . Ariane Machado, Prof. Marcelo Eler, e
Prof. Luciano Digiampietri, cujos ensinamentos foram muito valiosos para a culminao
deste trabalho.
Agradeo tambm aos rgos de fomento, especialmente Fundao de Amparo
Pesquisa do Estado de So Paulo (Fapesp) pelo financiamento deste trabalho por meio de
processo 2013/17520-7, Coordenao de Aperfeioamento de Pessoal de Nvel Superior
(Capes), e Universidade de So Paulo.
No podemos resolver problemas pensando da mesma maneira que quando os criamos.
(Albert Einstein, 1879-1955)
Resumo

MAITA, Ana Roco Crdenas. Um estudo da aplicao de tcnicas de inteligncia


computacional e de aprendizado de mquina em minerao de processos de
negcio. 2016. 129 f. Dissertao (Mestrado em Cincias) Escola de Artes, Cincias e
Humanidades, Universidade de So Paulo, So Paulo, 2015.

Minerao de processos uma rea de pesquisa relativamente recente que se situa entre
minerao de dados e aprendizado de mquina, de um lado, e modelagem e anlise de
processos de negcio, de outro lado. Minerao de processos visa descobrir, monitorar e
aprimorar processos de negcio reais por meio da extrao de conhecimento a partir de
logs de eventos disponveis em sistemas de informao orientados a processos. O principal
objetivo deste trabalho foi avaliar o contexto de aplicao de tcnicas provenientes das
reas de inteligncia computacional e de aprendizado de mquina, incluindo redes neurais
artificiais1 e mquinas de vetores de suporte, no contexto de minerao de processos.
Considerando que essas tcnicas so, atualmente, as mais aplicadas em tarefas de minerao
de dados, seria esperado que elas tambm estivessem sendo majoritariamente aplicadas
em minerao de processos, o que no tinha sido demonstrado na literatura recente e foi
confirmado por este trabalho. Buscou-se compreender o amplo cenrio envolvido na rea
de minerao de processos, incluindo as principais caratersticas que tm sido encontradas
ao longo dos ltimos dez anos em termos de: tipos de minerao de processos, tarefas de
minerao de dados usadas, e tcnicas usadas para resolver tais tarefas. O principal enfoque
do trabalho foi identificar se as tcnicas de inteligncia computacional e de aprendizado de
mquina realmente no estavam sendo amplamente usadas em minerao de processos, ao
mesmo tempo que se buscou identificar os principais motivos para esse fenmeno. Isso foi
realizado por meio de um estudo geral da rea, que seguiu rigor cientfico e sistemtico,
seguido pela validao das lies aprendidas por meio de um exemplo de aplicao. Este
estudo considera vrios enfoques para delimitar a rea: por um lado, as abordagens,
tcnicas, tarefas de minerao e ferramentas comumente mais usadas; e, por outro lado,
veculos de publicao, universidades e pesquisadores interessados no desenvolvimento da
rea. Os resultados apresentam que 81% das publicaes atuais seguem as abordagens
tradicionais em minerao de dados. O tipo de minerao de processos com mais estudo
Descoberta 71% dos estudos primrios. Os resultados deste trabalho so valiosos para
profissionais e pesquisadores envolvidos no tema, e representam um grande aporte para a
rea.

Palavras-chaves: BPM. Gesto de Processos de Negcio. Minerao de dados. Minerao de


processos. Minerao de workflows. Inteligncia computacional. Aprendizado de mquina.

1
Para fins de simplificao, denominadas no restante deste texto apenas como redes neurais.
Abstract

MAITA, Ana Roco Crdenas. A study of the application of computational


intelligence and machine learning techniques in business process mining. 2016.
129 p. Dissertation (Master of Science) School of Arts, Sciences and Humanities,
University of So Paulo, So Paulo, 2015.

Mining process is a relatively new research area that lies between data mining and
machine learning, on one hand, and business process modeling and analysis, on the other
hand. Mining process aims at discovering, monitoring and improving business processes by
extracting real knowledge from event logs available in process-oriented information systems.
The main objective of this masters project was to assess the application of computational
intelligence and machine learning techniques, including, for example, neural networks and
support vector machines, in process mining. Since these techniques are currently widely
applied in data mining tasks, it would be expected that they were also widely applied
to the process mining context, which has been not evidenced in recent literature and
confirmed by this work. We sought to understand the broad scenario involved in the process
mining area, including the main features that have been found over the last ten years
in terms of: types of process mining, data mining tasks used, and techniques applied to
solving such tasks. The main focus of the study was to identify whether the computational
intelligence and machine learning techniques were indeed not being widely used in process
mining whereas we sought to identify the main reasons for this phenomenon. This was
accomplished through a general study area, which followed scientific and systematic rigor,
followed by validation of the lessons learned through an application example. This study
considers various approaches to delimit the area: on the one hand, approaches, techniques,
mining tasks and more commonly used tools; and, on the other hand, the publication
vehicles, universities and researchers interested in the development area. The results show
that 81% of current publications follow traditional approaches to data mining. The type
of mining processes more study is Discovery 71% of the primary studies. These results
are valuable for practitioners and researchers involved in the issue, and represent a major
contribution to the area.

Keywords: BPM. Business Process Management. Process Mining. Workflow Mining. Data
Mining. Computational Intelligence. Machine Learning.
Lista de figuras

Figura 1 Ciclo de vida de BPM proposta 1 . . . . . . . . . . . . . . . . . . . . 25


Figura 2 Ciclo de vida de BPM proposta 2 . . . . . . . . . . . . . . . . . . . . 25
Figura 3 Tipos bsicos de minerao de processos em termos de entradas e sadas 46
Figura 4 Problemas e desafios decorrentes da anlise de logs de eventos . . . . . 48
Figura 5 Modelo de processo descoberto aps a aplicao do algoritmo no log
de eventos da tabela 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 6 Etapas seguidas durante a realizao deste trabalho . . . . . . . . . . . 56
Figura 7 Passos seguidos na identificao de estudos primrios . . . . . . . . . . 67
Figura 8 Distribuio dos estudos primrios por ano . . . . . . . . . . . . . . . . 68
Figura 9 Classificao resumida dos estudos primrios considerando tipos de
minerao de processos contra tipos de tarefas de minerao de dados e
tcnicas usadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Figura 10 Distribuio de estudos primrios por ano (Mapeamento sistemtico) . 79
Figura 11 Tipos de minerao de processos, quando tratados individualmente . . 84
Figura 12 Distribuio dos estudos primrios considerando os tipos de minerao
de processos identificados . . . . . . . . . . . . . . . . . . . . . . . . . 84
Figura 13 Tipos de minerao de processos, quando tratados juntos no mesmo
estudo primrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Figura 14 Tarefas de minerao de dados identificadas nos estudos primrios de
minerao de processos . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Figura 15 Distribuio por ano, no perodo de 2004 a 2014, de tarefas de minerao
de dados aplicadas em minerao de processos . . . . . . . . . . . . . . 87
Figura 16 Anlise cruzada entre tipos de minerao de processos e tarefas de
minerao de dados identificadas nos estudos primrios . . . . . . . . . 87
Figura 17 Tarefas de minerao de dados mais amplamente usadas em combinao
com outras tarefas quando aplicadas em um mesmo estudo primrio
minerao de processos . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Figura 18 Tcnicas em minerao de dados aplicadas identificadas nos estudos
primrios de minerao de processos . . . . . . . . . . . . . . . . . . . 90
Figura 19 Principais agrupamentos dos tipos de tcnicas em minerao de dados
aplicadas em minerao de processos identificadas nos estudos primrios 90
Figura 20 Tcnicas de inteligncia computacional e de aprendizado de mquina
aplicadas em minerao de processos identificadas nos estudos primrios 91
Figura 21 Anlise cruzada entre tipos de minerao de processos e tcnicas de
minerao de dados, identificadas nos estudos primrios . . . . . . . . . 92
Figura 22 Domnios de aplicao em minerao de processos . . . . . . . . . . . 93
Figura 23 Ferramentas usadas em minerao de processos . . . . . . . . . . . . . 94
Figura 24 Adeso dos resultados s definies usadas neste estudo . . . . . . . . . 95
Figura 25 Exemplo de um trecho no log de eventos original do sistema EVC . . . 98
Figura 26 Exemplo de um trecho do log de eventos do sistema EVC aps pr-
processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Figura 27 Exemplo do conjunto A . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Figura 28 Exemplo do conjunto B . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Figura 29 Exemplo do modelo de processo gerado usando o plug-in Heuristic
Miner da ferramenta ProM . . . . . . . . . . . . . . . . . . . . . . . . 105
Figura 30 Processo seguido pelo grupo de alunos com desempenho Excelente . 107
Figura 31 Processo seguido pelo grupo de alunos com desempenho Regular . . 108
Figura 32 Processo seguido pelo grupo de alunos com desempenho Insatisfatrio 109
Figura 33 Perspectivas dos resultados alcanados neste trabalho . . . . . . . . . . 114
Lista de tabelas

Tabela 1 Fragmento de um arquivo de logs de eventos . . . . . . . . . . . . . . . 29


Tabela 2 Taxonomia de tcnicas de inteligncia computacional e de aprendizado
de mquina usada neste trabalho . . . . . . . . . . . . . . . . . . . . . 37
Tabela 3 Conjunto de atividades sequenciais gerado a partir do log de eventos
da tabela 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Tabela 4 String de busca genrica para a reviso sistemtica . . . . . . . . . . . 59
Tabela 5 Critrios de avaliao da qualidade . . . . . . . . . . . . . . . . . . . . 61
Tabela 6 String de busca genrica para o mapeamento sistemtico . . . . . . . . 64
Tabela 7 Lista final de estudos primrios para reviso sistemtica . . . . . . . . 68
Tabela 8 Lista final de estudos primrios para reviso sistemtica . . . . . . . . 69
Tabela 9 Classificao dos estudos primrios com base no tipo de arquitetura da
redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Tabela 10 Classificao dos estudos primrios considerando as variaes de m-
quinas de vetores de suporte . . . . . . . . . . . . . . . . . . . . . . . . 70
Tabela 11 Classificao dos estudos primrios considerando os tipos de aprendizado
de redes neurais e de mquinas de vetores de suporte . . . . . . . . . . 70
Tabela 12 Classificao dos estudos primrios considerando as tarefas de minerao
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Tabela 13 Classificao dos estudos primrios em relao ao tipo de minerao de
processos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Tabela 14 Classificao resumida dos estudos primrios considerando todos os
aspectos avaliados juntos . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Tabela 15 Dezessete conferncias com maior nmero de publicaes em minerao
de processos nos ltimos dez anos . . . . . . . . . . . . . . . . . . . . . 80
Tabela 16 Sete peridicos com maior nmero de publicaes em minerao de
processos nos ltimos dez anos . . . . . . . . . . . . . . . . . . . . . . 81
Tabela 17 Dezessete pases com maior nmero de publicaes em minerao de
processos nos ltimos dez anos . . . . . . . . . . . . . . . . . . . . . . 82
Tabela 18 Doze instituies de pesquisa com maior nmero de publicaes em
minerao de processos nos ltimos dez anos . . . . . . . . . . . . . . . 82
Tabela 19 Dezesseis pesquisadores com maior nmero de publicaes em minerao
de processos nos ltimos dez anos . . . . . . . . . . . . . . . . . . . . . 83
Tabela 20 Estrutura original de um registro de log de eventos do sistema EVC . . 97
Tabela 21 Estrutura de um registro de log do sistema EVC aps pr-processamento101
Tabela 22 Parmetros usados na rede neural Multilayer Perceptron . . . . . . . . 111
Tabela 23 Medidas de avaliao para o classificador (261 instncias positivas e
30 instncias negativas no conjunto A; 70 instncias positivas e 30
instncias negativas no conjunto A aps amostragem) . . . . . . . . . . 112
Lista de abreviaturas e siglas

BPM Gesto de Processos de Negcio Business Process Management

BPMN Notao e Modelo de Processos de Negcio Business Process Model


and Notation

EPCs Cadeias de Processos Dirigida por EventosEvent-driven Process Chains


Event-driven Process Chains

KDD Descoberta de conhecimento a partir de dados Knowledge Discovery


from Data

LTL Lgica Temporal Linear Linear Temporal Logic

SOA Arquitetura Orientada a Servios Service-oriented Architecture

SVM Mquinas de vetores de suporte Support Vector Machine

SOM Mapas Auto-organizados Self Organized Map

UML Linguagem Unificada de Modelagem Unified Modeling Language

WS-BPEL Linguagem de Execuo de Processos de Negcio para Servios Web


Web Services Business Process Execution Language

WSDL Linguagem de descrio de Servios Web Web Service Description


Language
Lista de smbolos

Letra grega Alfa

Letra grega Beta

Letra grega Gama

Letra grega Teta


Sumrio

1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Motivao e justificativa . . . . . . . . . . . . . . . . . . . . . . 18
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Estrutura do documento . . . . . . . . . . . . . . . . . . . . . . 22

2 Fundamentao terica . . . . . . . . . . . . . . . . . . . . 23
2.1 Gesto de processos de negcio . . . . . . . . . . . . . . . . . 23
2.1.1 Ciclo de vida de BPM . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2 Modelagem e implementao de processos de negcio . . 26
2.1.3 Logs de eventos de processos de negcio . . . . . . . . . . . . 27
2.2 Minerao de dados, inteligncia computacional e apren-
dizado de mquina . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Tarefas de minerao de dados . . . . . . . . . . . . . . . . . . 30
2.2.2 Tcnicas de inteligncia computacional e de aprendizado
de mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.3 Tcnicas tradicionais para minerao de dados . . . . . . . 39
2.3 Minerao de processos de negcio . . . . . . . . . . . . . . 42
2.3.1 Tipos de minerao de processos . . . . . . . . . . . . . . . . . 44
2.3.2 Perspectivas e problemas de minerao de processos . . . 46
2.3.3 Algoritmos e ferramentas usados . . . . . . . . . . . . . . . . . 49
2.3.4 Exemplo ilustrativo de minerao de processos . . . . . . . 51
2.4 Consideraes finais . . . . . . . . . . . . . . . . . . . . . . . . . 53

3 Mtodo de pesquisa . . . . . . . . . . . . . . . . . . . . . . 54
3.1 Protocolo resumido da reviso sistemtica (especfica) 57
3.1.1 Questes de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.2 Fontes de dados e estratgia de busca . . . . . . . . . . . . . . 59
3.1.3 Seleo de trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.1.3.1 Critrios de incluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.1.3.2 Critrios de excluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Protocolo resumido do mapeamento sistemtico (geral) 61
3.2.1 Questes de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.2 Fontes de dados e estratgia de busca . . . . . . . . . . . . . . 64
3.2.3 Seleo de trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.3.1 Critrios de incluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.3.2 Critrios de excluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4 Resultados alcanados . . . . . . . . . . . . . . . . . . . . . 66
4.1 Reviso sistemtica (especfica) . . . . . . . . . . . . . . . . . 66
4.1.1 Resultados da reviso sistemtica . . . . . . . . . . . . . . . . 67
4.1.2 Anlise dos resultados da reviso sistemtica . . . . . . . . 72
4.2 Mapeamento sistemtico (geral) . . . . . . . . . . . . . . . . 78
4.2.1 Resultados do mapeamento sistemtico . . . . . . . . . . . . 78
4.2.1.1 Tipos de minerao de processos atendidos por minerao de dados 83
4.2.1.2 Tarefas de minerao de dados em minerao de processos . . . . 85
4.2.1.3 Tcnicas usadas para tratar as tarefas de minerao de dados no
contexto de minerao de processos . . . . . . . . . . . . . . . . . . 89
4.2.1.4 Anlises adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3 Um exemplo de aplicao em minerao de processos 95
4.3.1 Explorao do domnio de aplicao . . . . . . . . . . . . . . . 96
4.3.2 Definio das tcnicas, tarefas e tipos de minerao . . . . 97
4.3.3 Pr-processamento e criao dos conjuntos de dados . . . 100
4.3.4 Resultados: ferramentas Disco Fluxicon e ProM . . . . . . 104
4.3.5 Resultados: predio categrica - Multilayer Perceptron 111
4.4 Lies aprendidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.4.1 Lies aprendidas da reviso sistemtica . . . . . . . . . . . . 113
4.4.2 Lies aprendidas do mapeamento sistemtico . . . . . . . . 114
4.4.3 Lies aprendidas do exemplo de aplicao . . . . . . . . . . 117

5 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Referncias2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

2
De acordo com a Associao Brasileira de Normas Tcnicas. NBR 6023.
17

1 Introduo

Gesto de Processos de Negcio (BPM Business Process Management) inclui


mtodos, tcnicas e ferramentas para apoiar o projeto, a realizao, a gesto e a anlise de
processos de negcio; os quais so uma evoluo dos anteriormente chamados workflows
de negcio, ou apenas workflows (AALST; HOFSTEDE; WESKE, 2003). Workflow se refere
automao de processo de negcio, em que documentos, informaes ou tarefas so
passadas de um participante para o outro de acordo com um conjunto de regras de
procedimentos para se atingir um objetivo de negcio (HOLLINGSWORTH, 1995). J o
ciclo de vida de BPM vai alm e inclui as seguintes fases: (i) modelagem de processos;
(ii) instanciao de modelos de processo; (iii) execuo e administrao de instncias de
processo; (iv) monitoramento e auditoria de instncias de processo em execuo; e (v)
avaliao e melhoria de modelos de processo (WESKE, 2012). Nessa ltima fase, o histrico
de execuo das instncias de processo pode ser avaliado visando a sua otimizao, por
meio dos dados de registro dos resultados das etapas de execuo e de monitoramento de
processos gerados para cada instncia de processo colocado em execuo. Tais dados so
conhecidos como log de eventos, registro de eventos, ou simplesmente log 1 .
De acordo com Han e Kamber (2006), minerao de dados se refere extrao
ou minerao de conhecimento de grandes quantidades de dados. Alm disso, minerao
de dados pode ser vista como uma fase de um processo maior chamado Descoberta de
Conhecimento (KDD Knowledge Discovery from Data). Nesse processo maior, dados
provenientes de um contexto especfico so coletados, transformados e organizados antes de
sofrer a minerao. Depois da minerao, o resultado deve ser organizado em uma estrutura
acessvel interpretao direta por humanos. Existem diferentes tarefas a serem tratadas
em minerao de dados e para cada uma delas existem diferentes tcnicas que podem
ser aplicadas. Dentre essas tcnicas, aquelas provenientes de inteligncia computacional
so comumente usadas (WANG; FU, 2006; STAHL; JORDANOV, 2012; CRTES; PORCARO;
LIFSCHITZ, 2002). Tcnicas de inteligncia computacional tm se apresentado eficientes
na resoluo de tarefas de minerao de dados, pois possuem boa capacidade de lidar
com dados provenientes de contextos no definidos, j que a gerao de modelos rgidos e
altamente precisos e restritos so impraticveis, o que frequentemente encontrado em
dados provenientes de problemas do mundo real (ABONYI; FEIL; ABRAHAM, 2005). Assim,
1
Neste trabalho, o termo log de eventos usado preferencialmente para se referir a esses dados
18

tcnicas de inteligncia computacional que lidam com raciocnio aproximado (como lgica
fuzzy e raciocnio probabilstico), raciocnio indutivo (como redes neurais e mquinas de
vetores de suporte) e raciocnio evolutivo (como tcnicas de computao evolutiva) so
altamente adequadas para minerao de dados, visto que seu contexto envolve conhecimento
emprico e comportamental, em que a informao imprecisa, incompleta e imperfeita
(ABONYI; FEIL; ABRAHAM, 2005). Alm disso, tcnicas de aprendizado de mquina so
amplamente usadas em diversas tarefas de minerao, conseguindo timos resultados na
resoluo de problemas complexos. De acordo com o paradigma de aprendizado, tais tcnicas
podem ser classificadas como: aprendizado supervisionado (tais como: k-nearest neighbor
classification, Nave Bayes, e rvores de deciso); e aprendizado no supervisionado tais
como: k-means e EM (expectation maximization). Algumas dessas tcnicas so classificadas
entre as melhores para minerao de dados (WU et al., 2008).
Com a juno das duas reas BPM e minerao de dados estabeleceu-se um
novo campo de estudo, chamado minerao de processos de negcio, ou apenas minerao
de processos (AALST, 2011). Trata-se de aplicar tarefas de minerao de dados sobre dados
provenientes do ciclo de vida de BPM. O objetivo extrair conhecimento dos logs de eventos
provenientes do trabalho realizado nas diferentes fases de um processo de negcio, buscando
melhorar tal processo, por meio da descoberta de associaes entre variveis, padres de
comportamento ou desvios de comportamento (AALST, 2011). Busca-se, assim, encontrar
informaes inerentes relacionadas ao processo real. Diversas abordagens, tcnicas e
algoritmos foram propostos para resolver esse tipo de situao. Especificamente em relao
a tcnicas de inteligncia computacional e de aprendizado de mquina, pesquisadores com
trabalhos importantes dentro da rea j propuseram, por exemplo, abordagens baseadas
em computao evolutiva (VERGIDIS et al., 2007; MEDEIROS; WEIJTERS, 2005) e lgica
fuzzy (GNTHER; AALST, 2007), obtendo resultados satisfatrios na descoberta de processo;
j para tcnicas baseadas em redes neurais, poucos trabalhos j foram apresentados, como
a proposta de um mtodo baseado em redes neurais que poderia ter bons resultados, mas
ainda h pouca maturidade para sua aplicao na prtica (COOK; WOLF, 1998).

1.1 Motivao e justificativa

Atualmente, h um crescimento explosivo de dados de uma ampla variedade de


fontes de dados provenientes de sistemas em muitos domnios e aplicaes (BOSE; MANS;
19

AALST, 2013), facilitando a criao de histricos de processos gerados por sistemas de


informao (GANTZ; REINSEL, 2010). Por outro lado, existe uma maior necessidade por
parte das organizaes de melhorar seus processos em ambientes competitivos e de rpida
evoluo (AALST, 2011). Minerao de processos foi introduzida h aproximadamente 20
anos, e recentemente tem sido consideravelmente aprimorada. De acordo com Aalst (2013),
o incremento da disponibilidade e o crescimento do volume de dados de eventos sugere
que o importante crescimento de minerao de processos ser continuo nos prximos anos.
De acordo com Tiwari e Turner (2008), o principal motivador para o desenvolvimento
e o crescente uso de tcnicas de minerao de processos a necessidade das organizaes
aprender sobre seus prprios processos. Como minerao de processos deriva principalmente
da minerao de dados, essa rea foi aprimorada e adaptada para trabalhar sobre registros
de dados que contm dados de execuo de processos. Esses registros so os log de eventos
de execuo, que so tipicamente armazenados em sistemas de BPM, embora eles tambm
possam ser acessados por meio de outros sistemas relacionados ao processo. Alm disso,
tcnicas e algoritmos personalizados foram desenvolvidos especificamente para atender s
necessidades de especialistas em minerao de processos.
No trabalho de Tiwari e Turner (2008), alguns problemas caractersticos da rea de
minerao de processos so categorizados, e tcnicas para suas resolues so apresentadas,
incluindo algumas tcnicas de inteligncia computacional e de aprendizado de mquina.
O resultado desse trabalho indicou a seguinte proporo de aplicao das principais
abordagens em minerao de processos, para pouco mais de 50 trabalhos analisados:
tcnicas e algoritmos personalizados (28%), tcnicas baseadas em redes de Petri (21%),
tcnicas gerais de minerao de dados (7%), cadeias de processos dirigida por eventos
(5%), cadeias de Markov (3%), anlise de agrupamentos (3%), algoritmos genticos (3%),
e redes neurais (2%). Porm, no so apresentados detalhes sobre o uso dessas tcnicas,
como possveis vantagens ou desvantagens para cada caso. Alm disso, destaca-se o baixo
uso de tcnicas de inteligncia computacional e de aprendizado de mquina, tais como
redes neurais e algoritmos genticos (totalizando apenas quatro trabalhos). Pela anlise
realizada nesse trabalho, as tcnicas de minerao de processos mais empregadas so as
baseadas em heursticas, que so regras de ouro, baseadas no conhecimento prvio a
aproximadamente padres comuns de negcio, e normalmente usadas em minerao de
dados para resoluo de problemas mais triviais.
20

J Yue et al. (2011) descrevem abordagens de minerao de processos considerando


apenas as propostas por pesquisadores representativos na rea. Os principais so: (i) Wil
van der Aaslt algoritmo (alpha) e (beta) para descobrir processos por meio de redes
de Petri, e ferramentas Little Thumb, EMIT e ProM, que esto entre as mais usadas na
rea; (ii) J. E. Cook e A. L. Wolf uso de mquinas de estado, redes neurais, e cadeias
de Marcov; (iii) R. Agrawal, D. Gunopulos e F. Leymann uso de expresses booleanas
para tratamento de rudo e estruturas paralelas; (iv) J. Herbst mtodos MergeSeq,
SplitSeq e SplitPar usando grafos de tarefas estocsticas, para tratar tarefas duplicadas;
(v) G. Schimm algoritmo para lidar com modelos de workflow de estrutura hierrquica, e
ferramenta Process Miner que gera modelos de processo por meio da construo de blocos;
e (vi) J. Wainer mtodos para reescrever modelos. De fato, os trabalhos relacionados no
estudo de Yue et al. (2011) derivam, em geral, de abordagens inicialmente desenvolvidas
pelo pesquisador Wil van der Aaslt, atualmente o principal pesquisador desta rea, em
termos de citaes em seus trabalhos. Uma desvantagem comum em muitos desses trabalhos
a presena de valores atpicos e excepcionais (conhecidos como rudo) no resultado.
Segundo a definio apresentada por Aalst (2011), minerao de processos situa-se
entre aprendizado de mquina e minerao de dados, por um lado, e modelagem e
anlise de processos, por outro lado. Busca-se, ento, aproveitar conceitos e tcnicas j
existentes na rea de aprendizado de mquina, assim como tcnicas afins provenientes da
rea de inteligncia computacional, a fim de melhorar os resultados atualmente obtidos
em minerao de processos. Alm disso, a complexidade dos dados usados em minerao
de processos demanda tcnicas cada vez mais poderosas para realizar essa minerao.
Tcnicas atuais j so capazes de lidar com log de eventos massivos. Porm, apesar dos
avanos alcanados em minerao de processos, de acordo com Aalst (2011), novos desafios
surgiram, tais como: (i) integrao e melhoria da qualidade dos dados de eventos; (ii)
tratamento de logs de eventos complexos e com caractersticas especficas; (iii) criao de
valores de referncia para estabelecer pontos de comparao; (iv) tratamento de desvios
do conceito de processo; (v) melhoria na representao de resultados para a descoberta
de processos; (vi) melhoria no equilbrio entre a qualidade dos critrios como robustez,
simplicidade, preciso e generalizao; e (v) melhoria da usabilidade e na compreenso
para os que no so especialistas.
A avaliao exploratria inicial realizada no contexto deste trabalho encontrou
que j havia algumas abordagens usando tcnicas de inteligncia computacional e de
21

aprendizado de mquina para tentar atingir alguns dos desafios mencionados por Aalst
(2011), conforme apresentado por Tiwari e Turner (2008) e Yue et al. (2011). Embora ainda
em pequeno nmero, esses trabalhos se apresentam importantes, principalmente os que
usam tcnicas de aprendizado de mquina, uma vez que a prpria definio de minerao
de processos, de acordo com Aalst (2011), situa essa rea entre minerao de dados e
aprendizado de mquina, de um lado, e modelagem e anlise de processos de negcio,
de outro lado. Alm disso, tcnicas de inteligncia computacional e de aprendizado de
mquina tm sido muito usadas para tratar problemas diversos de minerao de dados de
forma geral, devido a suas numerosas aplicaes bem sucedidas na resoluo de tarefas de
minerao de dados (WU et al., 2008) e a forma de lidar com problemas de grande volume
de dados em diversas reas (CHEN; ZHANG, 2014).
Considerando esse contexto, uma avaliao do estado atual da rea de minerao
de processos, incluindo suas caractersticas e limitaes, por meio da anlise qualitativa e
quantitativa via reviso sistemtica da literatura, podem contribuir para o entendimento
das lacunas e dos problemas atuais existentes dentro do contexto de aplicao de tcnicas
de inteligncia computacional e de aprendizado de mquina nesse contexto, assim como
estabelecer as bases para trabalhos futuros. As lies aprendidas com esse estudo podem
representar uma importa/nte contribuio para os pesquisadores e profissionais da rea.

1.2 Objetivos

Considerando que tcnicas de inteligncia computacional e de aprendizado de


mquina so amplamente aplicadas de forma satisfatria em tarefas de minerao de
dados, em contextos gerais, seria esperado que elas tambm estivessem sendo amplamente
aplicadas em minerao de processos, o que no tem sido demonstrado na literatura recente.
Assim, o principal objetivo deste trabalho foi investigar o cenrio geral de minerao de
processos, enfatizando o uso de tcnicas de inteligncia computacional e de aprendizado
de mquina. Para alcanar esse objetivo geral, os seguintes objetivos especficos foram
buscados:

Realizar uma anlise quantitativa e qualitativa da aplicao de tcnicas de inteligncia


computacional e de aprendizado de mquina no contexto de minerao de processos,
em comparao a outras tcnicas tradicionais no consideradas inteligentes.
22

Analisar os possveis motivos pelos quais essas tcnicas de inteligncia computa-


cional e de aprendizado de mquina no estariam sendo amplamente usadas no
contexto de minerao de processos, em comparao a outras tcnicas tradicionais
no consideradas inteligentes.

Busca-se, com a realizao deste trabalho, oferecer como resultado a pesquisadores


e profissionais da rea de minerao de processos uma srie de benefcios para seus
trabalhos futuros, incluindo uma compilao de lies aprendidas. Trata-se de um trabalho
de pesquisa interdisciplinar com o objetivo de contribuir com a rea de minerao de
processos por meio do oferecimento de uma viso ampla de vantagens e desvantagens da
aplicao das tcnicas mais modernas de inteligncia computacional e de aprendizado de
mquina.

1.3 Estrutura do documento

Esta dissertao est dividida em cinco captulos, considerando esta introduo. Os


demais captulos esto organizados da seguinte forma:

o captulo 2 contextua o tema em estudo, apresentando os principais conceitos rela-


cionados a gesto de processos de negcio, minerao de dados incluindo inteligncia
computacional e de aprendizado de mquina, e minerao de processos de negcio;
o captulo 3 expe de forma resumida o mtodo de pesquisa, incluindo o protocolo
de reviso sistemtica e protocolo de mapeamento sistemtico, que foram seguidos
durante a realizao deste trabalho;
o captulo 4 apresenta uma anlise qualitativa e quantitativa dos resultados alcanados
com as revises aprofundadas da literatura e com um exemplo de aplicao.
o captulo 5 apresenta a concluso deste trabalho, com destaque s principais
contribuies do estudo e as possibilidades de extenso do mesmo.
23

2 Fundamentao terica

Este captulo apresenta conceitos bsicos envolvidos na realizao deste trabalho,


incluindo: gesto de processos de negcio, minerao de dados, tcnicas de inteligncia
computacional e de aprendizado de mquina, e minerao de processos .

2.1 Gesto de processos de negcio

Gesto de Processos de Negcio (BPM) visa organizar a realizao do trabalho nas


organizaes visando assegurar resultados consistentes e a aproveitar as oportunidades de
melhoria. BPM no se preocupa com a realizao de atividades individuais, mas apenas
com a gesto de cadeias inteiras de eventos, atividades e decises chamadas de processos
de negcio, buscando acrescentar valor s organizaes e aos clientes (DUMAS et al., 2013).
Segundo Weske (2012), um processo de negcio consiste em um conjunto de tarefas
realizadas em uma sequncia especfica para alcanar um objetivo comum. BPM apresenta-
se como um conjunto de conceitos, abordagens e ferramentas que, com o apoio da Tecnologia
da Informao (TI), podem transformar os processos das organizaes. Com base em BPM,
possvel atingir mais facilmente o alinhamento estratgico entre reas de negcio e a
rea de TI, gerenciando e aprimorando as solues tecnolgicas a partir de processos que
agregam valor significativo para as organizaes. Assim, BPM pode ser vista como uma
vantagem competitiva para as organizaes (FANTINATO; SOUZA; TOLEDO, 2010).
De acordo com Aalst (2011), BPM pode ser considerada uma extenso de sistemas
e abordagens clssicas de gesto de processos, incluindo workflows. Porm, BPM tem um
alcance ainda maior, desde a automao e a anlise de processos at a gesto de processos
e o trabalho organizacional. Assim, BPM inclui mtodos, tcnicas e ferramentas para
apoiar a concepo, a representao, a gesto e a anlise de processos.

2.1.1 Ciclo de vida de BPM

O ciclo de vida de processos de negcio consiste em fases organizadas em uma


estrutura sequencial que apresenta a dependncia lgica entre elas. Segundo a viso
de Weske (2012), o ciclo de vida de BPM composto pelas seguintes fases (conforme
24

representado na figura 1). Busca-se realizar esse ciclo de vida de forma rpida devido aos
ambientes dinmicos das organizaes em que BPM usada.

Projeto e anlise: primeiramente, ocorre o projeto do processo de negcio, que


consiste no levantamento de como o trabalho realizado na organizao e na
modelagem do processo. Durante a modelagem do processo de negcio, as prticas
organizacionais so definidas, estipuladas e formalizadas em modelos de processos,
isto , artefatos grficos que, por meio de alguma notao (conforme apresentadas
na seo 2.1.2), definem o fluxo das tarefas envolvidas no processo. Por fim, durante
a anlise do processo, o modelo de processo deve ser validado, simulado e verificado
para garantir que ele represente realmente o processo correto desejado.
Configurao: o modelo de processo de negcio definido usado para realizar
a implementao do processo. Seleciona-se o sistema a ser usado para apoiar a
implementao do processo, que podem incluir diferentes plataformas e ferramentas,
ou at mesmo uma soluo individual e especfica para cada caso. Por fim, o processo
de negcio implementado deve ser testado para posteriormente ser implantado no
ambiente de produo.
Execuo: a realizao de processos acompanhada e monitorizada em tempo
de execuo. Alm disso, deve ocorrer tambm a manuteno dos processos em
execuo. Os processos em execuo podem ser auxiliados por meio de previses e
recomendaes baseadas em modelos originrios de dados histricos.
Avaliao: os dados gerados durante a execuo de processos so avaliados para
verificar se os objetivos organizacionais esto sendo atingidos de maneira satisfatria.
Assim, eventuais ineficincias no processo podem ser identificadas possibilitando
que aprimoramentos nos processos possam ocorrer. aqui quando o histrico de
execuo analisado por meio das tcnicas de minerao de processos. Isso pode
levar remodelagem de processos, de forma a reiniciar o ciclo de vida novamente.

H outras propostas para definir e representar o ciclo de vida de BPM com algumas
variaes, embora todas sejam bastante similares. Aalst (2011), por exemplo, descreve
o ciclo de vida de BPM em relao ao apoio fase de operao, como ilustrado na
figura 2. Nesse ciclo de vida, as fases de (re)Projeto, Configurao/Implementao, Exe-
cuo/Monitoramento, so similares s descritas anteriormente. No entanto, de acordo
com Aalst (2011), uma nova fase considerada a fase de Ajuste. No se faz nenhum
25

redesenho nem criao de software, apenas os critrios j predefinidos so usados para


realizar algumas adaptaes necessrias. J na fase Diagnstico/Requisitos, os processos
operacionais so analisados e monitorados para identificar problemas, o que pode ser usado
nas novas iteraes para tomar decises sobre o redesenho de processo.

Figura 1 Ciclo de vida de BPM proposta 1

Fonte: Traduzido de Weske (2012)

Figura 2 Ciclo de vida de BPM proposta 2

Fonte: Traduzido de Aalst (2011)


26

2.1.2 Modelagem e implementao de processos de negcio

Um modelo de processo de negcio uma representao grfica do processo que


descreve as dependncias entre atividades que precisam ser executadas coletivamente para
a realizao de um objetivo especfico (WESKE, 2012). Modelagem de processos de negcio
tem, por sua vez, o objetivo de oferecer um instrumento formal para uma descrio precisa
de processos de negcio usando uma linguagem com sintaxe e semntica bem definidas
(DUMAS; AALST; HOFSTEDE, 2005). Diversas linguagens de modelagem e especificao
foram propostas para ser usadas em BPM, sendo Business Process Model and Notation
(BPMN) atualmente a mais usada (GROUP, 2011). BPMN destinada ao uso comum para
ambas as reas de negcio e de TI de uma organizao, visto que suas propriedades visuais
facilitam sua compreenso. Os modelos de processo so representados via um fluxograma,
com flexibilidade e legibilidade. No entanto, outras linguagens tambm tm sido usadas
para modelar processos de negcio, tais como: diagramas de atividades da Linguagem de
Modelagem Unificada (UML Unified Modeling Language), que permitem representar
um sistema de forma padronizada (RUSSELL et al., 2006; ZHANG; DUAN, 2008); e Cadeias
de Processos Dirigidos a Eventos (EPC Event-driven Process Chains), que oferece uma
notao grfica dedicada a processos (DUMAS; AALST; HOFSTEDE, 2005).
No contexto de minerao de processos, redes de Petri a linguagem de modelagem
mais usada (TIWARI; TURNER, 2008). De uma forma geral, uma rede de Petri um grafo
bipartido que representa tarefas por meio de transies (retngulos) e estados distribudos
por um conjunto de lugares (crculos) (WESKE, 2012). Segundo Dumas, Aalst e Hofstede
(2005), redes de Petri podem ser vistas de vrias formas: como uma linguagem e um
formalismo de modelagem; como um mtodo apoiado por um conjunto de ferramentas
desenvolvidas por um fabricante comercial e por instituies acadmicas; como uma teoria
de grande tradio e centenas de teoremas; como uma disciplina cientfica; e, at mesmo,
como uma filosofia. A diferena entre redes de Petri do ponto de vista de linguagem
visual, ou de teoria matemtica ou ainda de linguagem formal importante para compar-
la e combin-la a outras abordagens. Quando usadas como linguagem de modelagem,
redes de Petri so uma linguagem visual; quando usadas sob semnticas de alguma outra
linguagem, elas so consideradas uma teoria matemtica; quando usadas para representar
uma simulao, de forma precisa e ilustrativa, e para a anlise de informao de controle
do fluxo de componentes recorrentes e de atividades sincronizadas, elas so consideradas
27

uma linguagem formal (DUMAS; AALST; HOFSTEDE, 2005). Esta ltima a definio
normalmente usada para minerao de processos (AALST, 2011).
Outras classes de redes de Petri tambm podem ser usadas em minerao de proces-
sos, incluindo aquelas definidas por alguma restrio estrutural, com alguma interpretao
semntica, tais como: mquinas de estado; marked graph; free-choice nets; redes de Petri
coloridas; e redes de workflow, conhecidas como WF-nets (DUMAS; AALST; HOFSTEDE,
2005). WF-nets, por exemplo, bastante usadas em minerao de processos, tm uma sintaxe
simples e uma notao dedicada ao incio e ao fim de um processo (DUMAS et al., 2013).
WF-nets tambm incorporam locais que representam condies e tokens para representar
o ponto na execuo de processo. Tais tokens mudam de posio segundo os dados da
aplicao. WF-nets podem ser estruturas hierrquicas; assim, a estrutura interna de uma
atividade complexa realizada por meio de outra WF-net dedicada (WESKE, 2012).
A fim de realizar a gesto e a integrao de possveis processos de negcio, conside-
rando o ponto de vista tcnico, diferentes tecnologias tm sido propostas. Tecnologias de
middleware foram propostos e usados, tais como CORBA, DCOM e Java-RMI (ALONSO et
al., 2004); os quais puderam ser adequadamente usadas em contextos intra-organizacionais.
medida que a necessidade de interoperabilidade evolui para as cooperaes interorgani-
zacionais, as solues existentes deixaram de atender seus objetivos. Esse problema foi
minimizado com o surgimento da Arquitetura Orientada a Servios (SOA Service-
oriented Architecture) e da tecnologia de servios web, que oferecem novas perspectivas
para a necessidade de interoperabilidade de BPM. SOA e servios web proporcionam,
por exemplo, a composio de servios web por meio da linguagem WS-BPEL (Web
Services Business Process Execution Language) (JORDAN; EVDEMON, 2007), que integrada
linguagem WSDL (Web Service Description Language) (JORDAN; EVDEMON, 2007),
permite a execuo de processos de negcio. WS-BPEL tem sido considerada a linguagem
padro para a implementao de processos, via composio de servios web descritos
usando WSDL.

2.1.3 Logs de eventos de processos de negcio

Um log de eventos basicamente uma tabela contendo os registros dos eventos que
relatam a execuo das atividades do processo de negcio (DUMAS; AALST; HOFSTEDE,
2005). Por exemplo, um log pode registrar informaes sobre quando um usurio faz login
28

ou quando um erro encontrado. Dependendo do tipo de processo a ser executado, um log


podem registrar informaes referentes a: eventos de aplicativo ou de programa (ex.: um
erro ou um aviso); eventos relacionados a segurana (ex.: auditorias a usurios ou registros
de acesso); eventos de instalao; eventos do sistema, entre outros. Especificamente para
este trabalho, so considerados os logs gerados durante a fase de execuo e monitoramento
no ciclo de vida de BPM, como dados para conduzir as atividades de minerao de
processos. assumida aqui a estrutura de log de eventos apresentada por Dumas, Aalst e
Hofstede (2005) e Aalst (2011), que consideram possvel registrar os eventos de forma que:
(i) cada evento refere-se a uma atividade (ex.: uma etapa bem definida dentro de processo);
(ii) cada evento refere-se a um caso (ex.: uma instncia de processo); (iii) cada evento
pode ter um usurio, tambm referido como originador (ou seja, pessoa que executa ou
inicializa a atividade); (iv) cada evento tem um timestamp (ou seja, o horrio em que foi
executado); e (v) todos os eventos dentro do log esto totalmente ordenados.
Na tabela 1, ilustra-se um fragmento curto de um log de eventos gerado por um
sistema de pago de compensaes. Tal exemplo usado posteriormente na seo 2.2.3,
como parte de um exemplo de minerao de processos. Cada linha dentro do arquivo
que armazena o log de eventos representa informaes sobre um evento: identificador do
caso; data e hora de ocorrncia; atividade associada ao evento; e usurio da atividade. O
identificador de caso agrupa os eventos executados em uma mesma instncia de processo.
Por exemplo, o caso 1 possui cinco eventos associados. O primeiro evento do caso 1
representa a execuo da atividade Registrar requerimento, executada no dia 30-12-
2010 s 11 h e 2 min, por Pete. Cada evento nico, ou seja, uma mesma pessoa
no poderia executar duas atividades pertencentes ao mesmo caso, no exatamente mesmo
timestamp. Outros tipos de informaes podem ser registrados para cada evento, a depender
do sistema e do interesse para o negcio. Por exemplo: hora de incio e fim da atividade,
estado da atividade, recursos usados, custo de execuo, etc.

2.2 Minerao de dados, inteligncia computacional e aprendi-


zado de mquina

Organizaes em geral tm se apresentado eficientes em capturar, organizar e


armazenar dados. Contudo, ainda h dificuldade em transformar essa grande quantidade
de dados em conhecimento til. Nesse contexto, minerao de dados usada para encontrar
29

Tabela 1 Fragmento de um arquivo de logs de eventos


IdCaso Timestamp Atividade Usurio
1 30-12-2010:11.02 Registrar requerimento Pete
1 31-12-2010:10.06 Analisar o detalhe Sue
1 05-01-2011:15.12 Verificar bilhete Mike
1 06-01-2011:11.18 Decidir Sara
1 06-01-2011:11.18 Rejeitar requerimento Pete
2 30-12-2010:11.32 Registrar requerimento Mike
2 30-12-2010:12.12 Verificar bilhete Mike
2 30-12-2010:14.16 Analisar informalmente Pete
2 05-01-2011:11.22 Verificar bilhete Sara
2 08-01-2011:12.05 Pagar compensao Ellen
3 30-12-2010:14.32 Registrar requerimento Pete
3 30-12-2010:15.06 Analisar informalmente Mike
3 30-12-2010:16.34 Verificar bilhete Ellen
3 06-01-2011:09.18 Decidir Sara
3 06-01-2011:12.18 Reiniciar requerimento Sara
3 06-01-2011:13.06 Analisar o detalhe Sean
3 08-01-2011:11.43 Verificar bilhete Pete
3 09-01-2011:09.55 Decidir Sara
3 09-01-2011:09.55 Pagar compensao Ellen
4 06-01-2011:15.02 Registrar requerimento Pete
4 07-01-2011:12.06 Verificar bilhete Mike
4 08-01-2011:14.43 Analisar a profundidade Sean
4 09-01-2011:12.02 Decidir Sara
4 12-01-2011:15.44 Rejeitar requerimento Ellen
5 06-01-2011:09.02 Registrar requerimento Ellen
5 07-01-2011:10.16 Analisar informalmente Mike
5 08-01-2011:11.22 Verificar bilhete Pete
5 10-01-2011:13.28 Decidir Sara
5 11-01-2011:16.18 Reiniciar requerimento Sara
5 14-01-2011:14.33 Verificar bilhete Ellen
5 16-01-2011:15.50 Analisar informalmente Mike
5 19-01-2011:11.18 Decidir Sara
5 20-01-2011:12.48 Reiniciar requerimento Sara
5 21-01-2011:09.06 Analisar informalmente Sue
5 21-01-2011:11.34 Verificar bilhete Pete
5 23-01-2011:13.12 Decidir Sara
5 24-01-2011:14.56 Rejeitar requerimento Mike
6 06-01-2011:15.02 Registrar requerimento Mike
6 06-01-2011:16.06 Analisar informalmente Ellen
6 07-01-2011:16.22 Verificar bilhete Mike
6 07-01-2011:16.52 Decidir Sara
6 16-01-2011:11.47 Pagar compensao Mike
Fonte: Adaptao de Aalst (2011)
30

conhecimento til, e muitas vezes inesperado, a partir da anlise dos dados produzidos
nos mais diversos tipos de sistemas e processos, por meio da revelao de padres de
comportamento que podem servir como base para a tomada de deciso com alto nvel de
valor estratgico (NAZEM; SHIN, 2002). Dessa forma, minerao de dados uma atividade
para explorar e analisar dados, de forma automtica ou semiautomtica, visando descobrir
padres relevantes, ocultos base de dados.
Existem vrias aplicaes para minerao de dados, em diversas reas. Alguns
exemplos so: (i) agrupamento de clientes por perfis para gesto do relacionamento com os
clientes; (ii) predio de sries temporais hidrolgicas a partir de redes neurais (TAMPELINI
et al., 2009); e (iii) classificao (incio de um mdulo de reconhecimento de padres)
na Lngua Brasileira de Sinais (LIBRAS) (PERES et al., 2010). Alm disso, h diversos
exemplos de aplicao de minerao de dados em reas tais como marketing, vendas,
manufatura, finanas, sade e energia.
Um problema associado minerao de dados, e a KDD de uma forma geral,
que alm da possibilidade de garimpar relacionamentos inteis, o nmero de correlaes
possveis de serem obtidas tende a ser muito grande, o que impede a anlise exaustiva
de cada uma (THOM, 2002). Apesar de existirem diversas ferramentas para auxiliar na
execuo das tcnicas de minerao, os resultados ainda precisam de anlise humana.
Porm, ainda assim, a minerao de dados contribui de forma significativa no processo de
descoberta de conhecimento, permitindo aos especialistas concentrarem esforos apenas
em partes mais significativa dos dados (CAMILO; SILVA, 2009).
Minerao de dados comumente classificada considerado sua capacidade em
realizar determinadas tarefas (GRZYMALA-BUSSE, 2008). Para cada tarefa de minerao
de dados, diferentes tcnicas podem ser aplicadas (HAN; KAMBER, 2006; WU et al., 2008),
incluindo aquelas das reas de inteligncia computacional e de aprendizado de mquina
(WANG; FU, 2006). A seguir so apresentadas as principais e mais comuns tarefas dentro
do contexto deste trabalho. Enquanto que, as tcnicas mais usadas para cada uma dessas
tarefas so descritas nas sees subsequentes.

2.2.1 Tarefas de minerao de dados

As tarefas a serem executadas em minerao de dados visam a construo de


modelos matemticos ou heursticos que permitem a definio de mapeamentos e regras
31

capazes de revelar conhecimento novo sobre um domnio. Essas tarefas podem prever
tendncias e comportamentos, permitindo tomar decises com base em conhecimento
acumulado, e frequentemente desprezado, contido nos prprios bancos de dados. Assim,
durante a resoluo das tarefas de minerao de dados, padres e relacionamentos existentes,
porm desconhecidos, podem ser identificados, levando gerao de hipteses teis ao
usurio. A seguir, so apresentadas descries das seguintes principais tarefas existentes
para minerao dados segundo as definies de (HAN; KAMBER, 2006): (i) predio
categrica (ou classificao), predio numrica (tipo regresso), e predio numrica
(tipo identificao de tendncias); (ii) anlise de agrupamentos; (iii) descoberta de
padres frequentes, regras de associao e correlao; (iv) anlise de outliers e rudo; (v)
anlise de evoluo; e (v) anlise de dados estruturados.

Predio: trata-se da construo de um modelo de predio com base em exemplos


(contidos em uma base histrica). A construo do modelo, segundo essa tarefa,
pressupe o conhecimento prvio das possveis classes (ou rtulos) e a correta
classificao dos exemplos usados na modelagem. Existem vrias aplicaes para
esse tipo de abordagem; em anlise de risco, por exemplo, o objetivo pode ser o
de classificar um potencial cliente entre as classes de excelente, bom ou mau
pagador. Segundo Han e Kamber (2006), h trs tipos de predio:

Predio categrica (ou classificao): consiste em buscar uma funo que


classifique uma determinada ocorrncia em uma categoria dentre um conjunto
finito e predefinido de classes. As principais tcnicas que podem ser usadas para
esse tipo de predio so rvores de deciso e redes neurais.
Predio numrica (do tipo regresso): consiste em buscar uma funo
que represente, de forma aproximada, o comportamento apresentado pelo
fenmeno em estudo. Esse modelo estatstico relaciona uma ou mais variveis
independentes (ou variveis de predio) e variveis dependentes (ou variveis
de resposta), as quais tm valores contnuos. A varivel de resposta representa
o que se quer predizer. A mais conhecida a regresso linear; por exemplo, uma
reta que minimiza o erro mdio entre todos os valores considerados. Entretanto,
a regresso no linear mais til em problemas reais. Uma das principais
tcnicas que podem ser usadas para esse tipo de predio so as redes neurais.
32

Predio numrica (do tipo identificao de tendncias): envolve


uma componente temporal, isto , representa problemas em que o interesse
prever o valor futuro de uma determinada varivel (mono-varivel) ou em
valores anteriores da varivel de interesse e de outras variveis (multi-varivel).
As principais tcnicas que podem ser usadas nesse tipo de predio so mtodos
estatsticos, mquinas de vetores de suporte e redes neurais.

Anlise de agrupamentos: consiste em buscar similaridades entre dados para


definir um conjunto finito de grupos de dados, organizando os dados em agrupamentos
de forma a maximizar a similaridade intra-agrupamentos e minimizar a similaridade
interagrupamentos. Consiste tambm em determinar um conjunto no conhecido de
classes para os dados de forma tambm a descrev-los. Um exemplo de aplicao
para essa tarefa descobrir grupos homogneos de clientes, que pode ajudar na
definio de uma estratgia de marketing a ser adotada. As principais tcnicas que
podem ser usadas para essa tarefa so os mtodos estatsticos e as redes neurais.
Descoberta de padres frequentes, regras de associao e regras de cor-
relao: consiste em identificar ocorrncias frequentes que possam estar direta ou
indiretamente associados (ou correlacionados) na ocorrncia de eventos ou transaes.
Essa estratgia geralmente usada em aplicaes em que se busca identificar itens
que possam ser colocados juntos em um mesmo pacote de negociao. Por exemplo,
a constatao de que vendas de cerveja e de fraldas descartveis apresentam um
comportamento ascendente s sextas-feiras pode levar construo de uma hiptese
que associe ambos os itens a um tipo especial de cliente. Regras de associao tambm
podem ser usadas para avaliar a existncia de algum tipo de relao temporal entre
os itens constantes em uma base de dados. Podem ser usadas para essa tarefa, por
exemplo, mtodos estatsticos.
Anlise de outliers e de rudo: uma base de dados pode conter objetos que no
obedecem ao comportamento geral do modelo dos dados, os quais so chamados
outliers. Em muitos casos, a minerao de dados descarta os outliers como rudo ou
excees. No entanto, para aplicaes como deteco de fraude, esses eventos raros
podem ser mais importantes do que as ocorrncias regulares. Os outliers podem ser
detectados usando, por exemplo: (i) mtodos estatsticos que assumem um modelo
de distribuio de probabilidades para os dados; (ii) modelos de distncia em que os
33

objetos que so substancialmente distantes de qualquer outro grupo so considerados


outliers; ou mtodos baseados em desvio que examina deferncias nas principais
caractersticas dos objetos no grupo.
Anlise de evoluo: descreve modelos regulares e tendncias de objetos, os quais
mudam de comportamento no tempo. Apesar desse tipo de anlise poder ser includo
em tarefas como Descoberta de padres frequentes, regras de associao e regras
de correlao, Predio (classificao, regresso ou identificao de tendncias)
ou Anlise de agrupamentos de dados quando relacionados ao tempo, existem
caractersticas prprias que os diferenciam, incluindo: anlise de dados de sries
temporais; unio de padres em sequncias ou periodicidades; e anlise de dados
baseada em similaridade. As principais tcnicas que podem ser usadas para essa
tarefa so: mtodos para lidar com sliding windows model, minerao de padres
frequentes em fluxos de dados, minerao de padres sequenciais em bases de dados
transacionais, e algoritmo GSP (baseado em gerao-e-teste para um novo candidato).
Anlise de dados estruturados: minerao de dados foi inicialmente concebida
para ser usada com base em repositrios estruturados de dados, tais como arquivos,
banco de dados, e data warehouse. Porm, atualmente, os dados so representados
por diversos formatos no estruturados, tais como: espacial e temporal, multimdia,
web, entre outros. Assim, existe uma necessidade crescente de minerao de dados
nesses tipos de dados no estruturados. As principais tcnicas aplicveis a essa tarefa
so: minerao de sub-grafos frequentes e minerao baseada em restries. Alguns
exemplos especficos so apresentados a seguir:

Grafos: usados na modelagem e na minerao de estruturas complexas tais


como: circuitos, imagens, protenas, redes biolgicas, redes sociais, processos,
documentos XML, etc. Um tipo de subestrutura frequente em grafos so
os padres bsicos, que podem ser descobertos em uma coleo de grafos,
como cliques ou componentes conexas. Tais padres so teis para caracterizar
conjuntos de grafos, discriminar diferentes grupos de grafos, classificar e agrupar
grafos, e buscar similaridades em bases de grafos.
Relacionamentos: baseados na anlise de redes sociais, em que representado
o relacionamento entre as entidades envolvidas (que similar a uma estrutura
de grafos). As redes sociais so conjuntos de dados heterogneos e relacionais
34

representados por grafos. Elas no esto necessariamente em um contexto social,


podendo estar relacionadas especificamente ao contexto de tecnologia, negcios,
economia, entre outros.

2.2.2 Tcnicas de inteligncia computacional e de aprendizado de m-


quina

Atualmente, no existe consenso na literatura para definir tanto a rea de inteligncia


computacional quanto a rea de aprendizado de mquina. Para este trabalho, foram
adotadas algumas das premissas dadas pelos principais autores e instituies relacionados
a esse contexto, conforme apresentadas a seguir.
Inteligncia computacional um ramo do estudo da inteligncia artificial. A comu-
nidade internacional de lderes profissionais e pesquisadores em inteligncia computacional
IEEE Computational Intelligence Society sinala que a inteligncia computacional visa
o uso de aprendizado, adaptativo ou de computao evolutiva para criar software que ,
em algum sentido, inteligente (IEEE, 2008). Uma coleo de paradigmas computacionais
com inspirao biolgica e lingustica, em que a teoria, o modelo, a implementao e o
desenvolvimento de redes neurais (incluindo tambm mquinas de vetores de suporte, por
semelhana), algoritmos evolutivos, sistemas baseados em lgica fuzzy e sistemas inteli-
gentes hbridos, so considerados dentre esta rea (ONG; LIM; CHEN, 2010). Abordagens
de inteligncia computacional tm sido usadas com sucesso para resolver problemas em
diferentes reas, tais como: negcios, gesto, diagnstico mdico, engenharia, entre outras.
Recentemente, inteligncia computacional vem sendo usada em tarefas de auxlio em
sistemas de tomada de deciso para selecionar aes em tempo real, reduzindo a sobrecarga
de informao, permitindo a atualizao dos dados e lidando com incerteza em problemas
de deciso (PHILLIPS-WREN; ICHALKARANJE; JAIN, 2008).
Em relao rea de aprendizado de mquina, uma definio apresentada por
Tom Mitchell em seu livro Machine Learning (MITCHELL, 1997). Mitchell define que um
programa de computador aprende se ele capaz de melhorar seu desempenho em uma
determinada tarefa, sob alguma medida de avaliao, a partir de experincias passadas.
Alternativamente, Faceli et al. (2011) definem aprendizado de mquina como um processo
de induo de uma hiptese (ou aproximao de uma funo) a partir da experincia
passada. Ambas as definies tem como base um tipo de raciocnio indutivo. No raciocnio
35

indutivo, entende-se que as explicaes para os fenmenos surgem a partir da observao


de fatos e, assim, como definido por Russell e Norving (2004), uma tarefa de induo pode
ser definida da seguinte forma: Dada uma coleo de exemplos de uma funo F, deve-se
retornar uma funo H que se aproxime de F. Nessa definio, a funo H uma hiptese
e a funo F desconhecida. Nesse sentido, pode-se afirmar que um processo algortmico
capaz de processar um conjunto de observaes e formular uma regra geral que as explique
pode ser considerado uma tcnica de aprendizado de mquina. Isso torna muito complexa a
tarefa de enumerar as tcnicas que implementam o paradigma de aprendizado de mquina.
De forma mais geral, as tcnicas de aprendizado de mquina podem ser classificadas
em dois tipos de estratgica de aprendizado: aprendizado supervisionado e aprendizado
no supervisionado (HAYKIN, 2009), tal como definido a seguir:

Aprendizado de mquina supervisionado: estratgia para inferir uma funo


a partir de dados de treinamento rotulados. Os dados de treinamento consistem
de um conjunto de exemplos de treinamento. Cada exemplo um par constitudo
por um objeto de entrada (tipicamente um vetor) e um valor de sada desejado
(tambm chamado de sinal de controle). O algoritmo analisa os dados de treinamento
e produz uma funo inferida, que pode ser usada para o mapeamento de novos
exemplos. Um cenrio ideal permitiria que o algoritmo determinasse corretamente os
rtulos de classe para instncias ocultas. Isso exige que o algoritmo de aprendizado
possa generalizar a partir dos dados de treinamento para situaes ocultas em uma
forma razovel. Exemplos de tcnicas usadas para tratar o aprendizado de mquina
supervisionado so: redes neurais; mquinas de vetores de suporte; rvores de deciso;
classificador Nave Bayes; e algoritmo K-Nearest Neighbour (KNN).
Aprendizado de mquina no supervisionado: estratgia para encontrar uma
estrutura oculta em dados no rotulados. Considerando que os exemplos dados para
o algoritmo no so rotulados, no h nenhum sinal de erro ou recompensa para
avaliar uma soluo em potencial. Isso distingue o aprendizado no supervisionado do
aprendizado supervisionado. Exemplos de tcnicas usadas para tratar o aprendizagdo
de mquina no supervisionado so: Self-Organizing Map (SOM) um tipo de redes
neurais; k-means; Partitioning Around Medoids (PAM); Agrupamento hierrquico; e
algoritmo Expectation-Maximization (EM).
36

Para fins de delimitao neste trabalho, foram consideradas tcnicas de aprendizado


de mquina apenas aquelas que, por princpio, possuem estratgias de explorao do
espao de hipteses baseadas no uso da informao presente diretamente no conjunto
de observaes (ou seja, no conjunto de dados). Por exemplo, a tcnica de aprendizado
no supervisionado k-means implementa anlise das relaes existentes entre os dados de
um conjunto de dados (vetores) para inferir sua hiptese, que representada na mesma
forma dos dados um vetor prottipo. J um algoritmo gentico (tcnica estudada
em inteligncia computacional), embora possa ser usado para resolver uma tarefa de
aprendizado de mquina, tem suas estratgias baseadas na otimizao de uma funo
(projetada para avaliar uma hiptese sob um conjunto de observaes no caso da resoluo
de uma tarefa de aprendizado de mquina), por meio de operadores probabilsticos
independentes das relaes existentes entre as observaes. Assim, entende-se que a
primeira, k-means, implementa aprendizado de mquina de forma direta, enquanto a
segunda tcnica, algoritmos genticos, o implementa de forma indireta, no sendo, portanto,
considerada uma tcnica de aprendizado de mquina no escopo deste trabalho.
Sendo assim, considerando as definies apresentadas para as reas de inteligncia
computacional e de aprendizado de mquina, a tabela 2 resume a taxonomia que foi
estabelecida para as tcnicas consideradas neste trabalho. Alm de considerar as definies
apresentadas para cada rea, apenas as tcnicas que foram identificadas em pelo menos
um dos trabalhos analisados, presentes na literatura, foram includas neste trabalho. A
seguir, cada uma das onze tcnicas de inteligncia computacional e/ou aprendizado de
mquina consideradas so descritas.

Computao evolutiva: prope um paradigma computacional inspirado na sele-


o natural de Darwin, de 1859. Compreende um conjunto de tcnicas de busca
e otimizao, nas quais cria-se uma populao de indivduos que vo reproduzir e
competir pela sobrevivncia. Tais indivduos representam a soluo para o problema
sob estudo. Os melhores sobrevivem e transferem suas caractersticas a novas gera-
es. As tcnicas atualmente incluem: programao evolutiva, estratgias evolutivas,
algoritmos genticos e programao gentica (POZO et al., 2015).
Lgica fuzzy: uma forma de lgica multivalorada em que os valores verdade de
variveis podem ser qualquer nmero real entre 0 e 1, em contraposio lgica
booleana em que os valores verdade de variveis s podem ser 0 ou 1. A lgica fuzzy
37

Tabela 2 Taxonomia de tcnicas de inteligncia computacional e de aprendizado de


mquina usada neste trabalho

Tcnica / Inteligncia Aprendizado de mquina


Abordagem computacional supervisionado no supervisionado
Computao evolutiva X
Lgica fuzzy X
Mquinas de vetores de su- X X
porte
Redes neurais X X
SOM X X
rvores de deciso X
Classificador Nave Bayes X
k-Vizinho mais prximo X
Agrupamento hierrquico X
Algoritmo EM X
K-means X
PAM X
Fonte: Ana Roco Crdenas Maita, 2015

lida com o conceito de verdade parcial, em que o valor verdade pode variar entre
completamente verdadeira a completamente falsa. Alm disso, quando as variveis
lingusticas so usadas, esses graus podem ser geridos por funes especiais.
Redes neurais e mquinas de vetores de suporte (SVM Support-Vector
Machines): redes neurais e mquinas de vetores de suporte representam juntas um
poderoso conjunto de tcnicas amplamente usado na resoluo de tarefas de predio
e anlise de agrupamentos para minerao de dados. Ambas usam raciocnio indutivo,
e so similares tanto em relao forma de explorar um problema de minerao
de dados quanto em relao forma de fornecer a soluo, sendo consideradas
equivalentes em suas formas mais bsicas (CRISTIANINI; SHAWE-TAYLOR, 2000).
Mquinas de vetores de suporte, no entanto, apresentam caractersticas adicionais
no modelo de otimizao da soluo, j que elas consideram tambm a minimizao
do risco estrutural do modelo, alm da minimizao do risco emprico (VAPNIK,
2013). Ambas as tcnicas apresentam boa capacidade para realizar mapeamentos no
lineares complexos, comuns em contextos de minerao de dados, e por isso possuem
potencial para alcanar predies com alto grau de acuidade. Elas se constituem como
modelos a partir dos quais possvel extrair conhecimento, o que til em ambientes
de apoio tomada de deciso (CRTES; PORCARO; LIFSCHITZ, 2002). Ambas se
destacam dentre as tcnicas de inteligncia computacional (STAHL; JORDANOV, 2012;
38

CRTES; PORCARO; LIFSCHITZ, 2002). Mquinas de vetores de suporte, por exemplo,


foram includas entre os principais 10 algoritmos em minerao de dados de acordo
com a 6th IEEE International Conferncia on Data Mining ICDM 2006 (WU et
al., 2008).
Mapas Auto-organizados (SOM Self Organized Map): uma rede neural
no supervisionada, frequentemente usada em tarefas de agrupamento e visualizao
de dados. O objetivo encontrar um conjunto de valores de referncia e associar
cada objeto do conjunto de dados ao vetor de referncia mais prximo. O algoritmo
depende da inicializao dos vetores de referncia. O resultado consiste em um
conjunto de vetores de referncia que definem implicitamente os grupos (KOHONEN,
2001).
rvores de deciso: funcionam como um fluxograma em forma de rvore, em que
cada n (no folha) indica um teste feito sobre um valor. As ligaes entre os ns
representam os valores possveis do teste do n superior, e as folhas indicam a classe
(categoria) a qual o registro pertence.
Classificador Nave Bayes: esse algoritmo computa a probabilidade de um docu-
mento pertencer a uma determinada classe a partir da probabilidade a priori de um
documento ser dessa classe e das probabilidades condicionais de cada termo ocorrer
em um documento da mesma classe. Seu objetivo encontrar a melhor classe para
um documento, maximizando a probabilidade a posteriori conforme a uma equao
definida.
K-Vizinho mais prximo (kNN k-Nearest Neighbor): esse algoritmo arma-
zena os dados de treinamento e quando um novo objeto submetido para classificao,
o algoritmo procura os k registros mais prximos (medida de distncia) desse novo
registro. O novo registro classificado na classe mais comum entre todos os k registros
mais prximos.
Abordagens de agrupamento hierrquico: estes mtodos constroem recursi-
vamente uma organizao hierrquica de grupos, onde a cada nvel de abstrao
maior, so tambm maiores as diferenas entre elementos contidos em cada grupo.
Fraley e Raftery (1998) sugerem dividir estes mtodos em dois grupos principais:
agrupamento hierrquico aglomerativo, onde grupos aninhados so organizados como
uma rvore hierrquica, e agrupamento hierrquico divisivo, busca dividir o conjunto
39

de dados em um vrios grupos distintos entre si, maximizando as dissimilaridades


dos diferentes grupos.
Algoritmo EM (Expectation-Maximization): pode ser aplicado em situaes
em que se deseja estimar um conjunto de parmetros que descreve uma distribuio
de probabilidade. O algoritmo se baseia em estimar parmetros de mxima verossi-
milhana para problemas em que os estados das variveis no foram observados.
K-means: mtodo de agrupamento que objetiva particionar n observaes dentre
k grupos em que cada observao pertence ao grupo mais prximo da mdia. Isso
resulta em uma diviso do espao de dados em um diagrama de Voronoi. (HARTIGAN;
WONG, 1979).
Particionamento ao Redor de Medides (Partitioning Around Medoids):
tambm chamado de algoritmo K-Medides, foi desenvolvido como uma variao
do K-Means. A diferena bsica entre esses dois mtodos est na forma como essas
tcnicasn encontram o ponto de referencia, K-Means realiza o clculo de um centroide
como ponto de referncia para a formao dos agrupamentos, enquanto a tcnica
de K-Medoids busca um objeto, na posio mais cntrica possvel como ponto de
referncia.

2.2.3 Tcnicas tradicionais para minerao de dados

Especificamente no contexto deste trabalho, as tcnicas usadas em minerao de


dados, em geral, ou em minerao de processos, de forma especfica, mas que no so
diretamente relacionadas a inteligncia computacional ou a aprendizado de mquina, tal
como definido na seo 2.2.2 (ou seja, tcnicas que no so consideradas inteligentes),
so chamadas de tcnicas tradicionais. A seguir, as tcnicas tradicionais que foram
consideradas neste trabalhos so apresentadas e descritas brevemente. Apenas as tcnicas
tradicionais que foram identificadas em pelo menos um dos trabalhos analisados, presentes
na literatura, foram includas.

Algoritmo (alpha): o algoritmo um dos primeiros algoritmos desenvolvidos


especificamente para o contexto de minerao de processos. Proposto por Aalst
(2011), esse algoritmo visa descobrir um modelo de workflow baseado em redes de
Petri de dependncia do local entre os eventos e no uso de regras heursticas para a
40

definio do modelo. A ltima verso do algoritmo considera elementos temporais.


Existem muitas variaes desse algoritmo, as quais seguem o mesmo princpio.
Baseadas em agentes: conforme Bonabeau (2002) na modelagem baseada em
agentes, o sistema modelado como uma coleo de entidades autnomas de tomadas
de deciso chamadas agentes. Em relao aos outras tcnicas de modelagem, esta
tcnica permite capturar fenmenos emergentes, fornece uma descrio natural de
certos tipos de sistemas, e principalmente flexvel.
Baseadas em casos: tcnicas que buscam resolver novos problemas adaptando
solues usadas para resolver problemas anteriores. So caracterizadas por: extrao
do conhecimento a partir de casos (ou experincias) com que o prprio sistema se
depara (ou soluo); identificao das caractersticas mais significantes dos casos
apresentados a fim de devolver uma melhor soluo (resposta); e, armazenamento e
indexao do caso e sua respectiva soluo.
Baseadas em dados temporais: trata-se da anlise de estruturas complexas que
se baseiam no tempo ou na sequncia cronolgica de um evento, com o objetivo de
modelar e prever sries temporais. Muitas tcnicas so usadas nesse contexto, e em
minerao de processos destacam-se: fragmentao de processos com restries de
tempo; tcnicas para minerao de sequncias temporais; e Lgica Temporal Linear
(LTL Linear Temporal Logic).
Baseadas em distncia: usualmente, tcnicas baseadas em distncia so usadas
na tarefa de classificao, mas ao contrrio das outras abordagens, no ocorre a
construo de um modelo de classificao explcito. Novos exemplos so classificados
com base na comparao direta e similaridade aos exemplos de treinamento. Diferentes
medidas de similaridade, baseadas em funes de distncia, podem ser especificadas
para diferentes contextos de aplicao. Algumas das medidas de distncia tradicionais
so Euclidiana e Manhattan. Um exemplo de mtodo baseado em distncia o
mtodo baseado em distncia para deteco de outliers (CAMILO; SILVA, 2009).
Baseadas em estruturas de grafos: as estruturas chamadas de grafos so muito
importantes na modelagem de estruturas complexas, como circuitos, imagens, pro-
tenas, redes biolgicas, etc. No contexto de minerao de processos, as estruturas
usadas como tcnica de modelagem mais usadas so as redes de Petri, que permitem
representar sistemas usando como alicerce uma forte base matemtica. A estrutura
das redes de Petri um grafo dirigido com dois tipos de vrtices (lugares e transies),
41

os lugares so representados graficamente por crculos (ou por elipses) e as transies


por retngulos. Outra forma de usar os grafos em minerao de processos para
representar o modelo organizacional de processo como redes sociais, esse tipo de
grafo representa relaes (laos) entre agentes independentes (usurios).
Baseadas em heursticas: de maneira geral, os mtodos heursticos esto consti-
tudos por: princpios (sugestes para a soluo: analogia e reduo); regras (ajuda,
ou pistas, para encontrar maneiras de resolver problemas); e, estratgias (recursos
inerentes ao processo de resoluo, que podem ser: construtivo, de melhoria, trabalho
para a frente ou para trs). No contexto de minerao de processos, referem-se a
regras de ouro que so suposies a respeito de padres de processo (AALST, 2011).
Baseadas em lgica: abordagens cujo princpio de funcionamento se baseia em
lgica matemtica, em que essa lgica proporciona uma maneira de demonstrar se
uma questo verdadeira ou falsa.
Baseadas em regras: em geral, estas tcnicas usam as regras como uma forma
de representao do conhecimento. Essas regras tm uma estrutura na forma Se
(antecedente ou premissa ou condio) Ento (consequente ou concluso) que
relaciona informaes ou fatos (no antecedente) a alguma ao ou resultado (no
consequente). So fceis de criar e de interpretar. Em muitos casos, aparecem na
classificao de regras de negcio.
Baseadas em semntica: a semntica o estudo do significado, incide sobre a
relao entre significantes. Dependendo da concepo de significado que se tenha,
tm-se diferentes semnticas. As abordagens baseadas em semntica tratam de
extrair modelos semnticos, nos quais o conhecimento expresso em ontologias e
permite realizar a descrio semntica de processos a serem minerados. Algumas
dessas abordagens so: descrio de processos semnticos, anlise e minerao de
processos semnticos.
Operaes OLAP (Online Analytical Processing): Processamento Analtico
On-line uma classe de sistemas que suportam armazenamento, gesto e anlise de
dados histricos, geralmente derivados de diferentes fontes de dados, incluindo os
sistemas OLTP (Online Transaction Processing). Esses sistemas operam sobre bases
de dados histricas e multidimensionais a partir do uso de algoritmos especficos
para carga e anlise de dados multidimensionais (por exemplo, anlise de cubos de
dados). Tais algoritmos so aqui denominados como operaes OLAP.
42

Probabilidade e estatstica: se caracterizam por terem um modelo de probabili-


dade subjacente explcito, o qual proporciona uma probabilidade de um exemplo de
dado estar, por exemplo, em cada classe em vez de simplesmente uma classificao.
Por exemplo, so considerados dentro desse grupo: abordagens baseadas em teorias
de deciso, abordagens baseadas no modelo de Markov, e algoritmo Apriori.

Mesmo que uma tcnica de inteligncia computacional ou de aprendizado de


mquina (tal como apresentadas na seo 2.2.2) tambm seja baseada em princpios de
alguma dessas tcnicas classificadas aqui como tradicional, ela classificada, no contexto
deste trabalho, apenas como tcnica de inteligncia computacional ou de aprendizado de
mquina. Por exemplo, embora k-means seja uma tcnica baseada em distncia, ela
classificada aqui apenas como uma tcnica de aprendizado de mquina, uma vez que ela
implementa aprendizado a partir de experincia; da mesma forma, embora lgica fuzzy
seja uma tcnica baseada em lgica, ela classificada aqui apenas como uma tcnica de
inteligncia computacional, uma vez que implementa raciocnio aproximado.

2.3 Minerao de processos de negcio

Minerao de processos, ou minerao de workflows, uma rea de pesquisa


relativamente recente que se situa entre minerao de dados e aprendizado de mquina,
de um lado, e modelagem e anlise de processo, de outro lado (AALST, 2011). Minerao
de processos visa descobrir, monitorizar e melhorar processos reais, ou seja, um modelo de
processo construdo, avaliado ou melhorado de forma automtica por meio da extrao
de conhecimento a partir dos logs de eventos usualmente disponveis nos sistemas de
informao que apoiam a execuo dos processos de negcio (AALST, 2011). Apesar de
serem usados dados referentes a acontecimentos passados, os resultados podem ser aplicados
a casos em execuo e futuros. Por exemplo, o tempo de concluso de uma ordem de
compra em execuo pode ser previsto usando um modelo de processo.
Modelos de processo de negcio elaborados por humanos no necessariamente
representam o processo real. Atualmente, cada vez mais grandes volumes de dados so
registrados pelos sistemas de informao acerca da execuo de seus processos de negcio,
na forma de log de eventos. Assim, possvel combinar os pontos fortes de ambas as reas
minerao de dados (na qual modelos so frequentemente treinados para realizar previses
43

sobre casos futuros semelhantes em um mesmo contexto) e modelagem de processos (para


a construo de modelos mais prximos ao mundo real). Esses modelos de processo, por
serem mais prximos da realidade, constituem-se em uma grande fonte de discernimento
para a compreenso e a melhoria dos processos de negcio.
Minerao de processos pode ser vista como a ligao que faltava entre as reas de
minerao de dados e BPM tradicionais. Assim, minerao de processos no deveria ser
vista como simplesmente um tipo especfico de minerao de dados, uma vez que as tarefas
e tcnicas de minerao de dados no seriam aplicveis diretamente ao contexto de BPM.
Nesse caso, novas abordagens especficas para minerao de processos seriam necessrias.
Por exemplo, a maioria das tcnicas comumente usadas em minerao de dados, de uma
forma geral, no so orientadas a processos; havendo, portanto, dificuldade em descrever
caractersticas tais como concorrncia existente no contexto de processos. De acordo com
Aalst e Dustdar (2012), por exemplo, modelos de processo de negcio no so comparveis
s estruturas simples usadas em minerao de dados, tais como rvores de deciso e regras
de associao. Minerao de processos deve tratar modelos de processo de forma completa,
levando em considerao, por exemplo, aspectos temporais e considerando a execuo do
processo como uma sequncia de atividades que tm sido executadas.
Porm, a rea geral de minerao de dados bastante ampla, busca tratar dados de
todas as naturezas, de diferentes complexidades, e tem apresentado importante evolues
nos ltimos anos. Enquanto as tarefas de minerao de dados mais bsicas e tradicionais
poderiam ser consideradas muito simples para o contexto de minerao de processos (tais
como classificao, regresso, anlise de agrupamentos, e Descoberta de padres frequentes,
regras de associao e regras de correlao, conforme apresentadas na seo 2.2.1); por
outro lado, mais recentemente, outras tarefas tm sido tratadas em minerao de dados,
que visam justamente a lidar com tipos de dados mais complexos, em que os processos
de negcio parecem se encaixar de forma satisfatria (tais como anlise de outliers e de
rudo, anlise de evoluo e anlise de dados estruturados, conforme apresentadas na seo
2.2.1).
Uma comparao entre minerao de dados e minerao de processos pode ser feita
em relao a anlise de outliers e de rudo. Em minerao de dados, a generalizao
importante para evitar o que chamado de overfitting dos dados. Isso significa que,
normalmente, busca-se livrar-se de todos os dados que no combinam com a regra geral,
considerados rudos. Por outro lado, em alguns casos, importante observar que tais
44

dados destoantes se referem a outliers, e no rudos, ou seja, dados que no obedecem


ao comportamento geral do modelo dos dados mas que para o contexto em questo so
mais importante do que o prprio comportamento geral. Em minerao de dados, j houve
importantes avanos na proposta de abordagens, tcnicas e algoritmos para tratar essa
tarefa, incluindo o caso de dados de natureza complexa, tais como dados temporais (HAN;
KAMBER, 2006). O uso de tais tcnicas facilita a construo de modelos de processos de
qualidade, robustos, simples, precisos e genricos. De forma similar, em minerao de
processos, a generalizao tambm necessria para lidar com processos complexos e
entender os principais fluxos de processo. Apesar disso, tambm importante compreender
as excees ou casos particulares, para descobrir ineficincias e pontos de melhoria.
importante investigar o comportamento de variantes menos executadas, contrastando com
a verificao de conformidade. Rudo e dados incompletos transformam a descoberta do
modelo de processo em um desafio (AALST et al., 2012); para os quais tcnicas j usadas
na minerao de dados tradicional podem ser teis.

2.3.1 Tipos de minerao de processos

Aalst (2011) define trs tipos bsicos de minerao de processos: descoberta de


processos, conformidade de processos, e aprimoramento de processos. Cada um desses
tipos de minerao de processos est associado a diferentes objetivos de minerao e pode
estar relacionado a diferentes fases do ciclo de vida de BPM. os trs principais tipos de
minerao de processos so descritos a seguir:

Descoberta de processos: usa um log de eventos para produzir um modelo de


processo, sem basear-se em qualquer informao prvia. Diferentes algoritmos podem
ser aplicados para, com base em um nmero suficiente de execues de um processo,
analisar logs de eventos e construir o modelo que represente o comportamento desse
processo automaticamente. Alm do modelo de processo principal propriamente dito,
que se refere perspectiva de controle de fluxo, modelos adicionais que descrevem
outras perspectivas tambm podem ser produzidos. Por exemplo, se o log de eventos
contiver informaes a respeito de recursos, possvel descobrir modelos relacionados
a recursos, tal como uma rede social, mostrando como pessoas trabalham em conjunto
em uma organizao.
45

Conformidade de processos: compara um modelo de processo existente com o


modelo resultante de um log de eventos do mesmo processo em execuo. Pode
ser usada para validar se a realidade, refletida no log, est em conformidade com
o modelo de processo e vice-versa. Por exemplo, pode ser usada para mostrar se
alguma regra existente no modelo de processo foi ou no implementada e se est
ou no realmente sendo seguida pelos usurios. Auditorias podem ser beneficiadas
por esse tipo de minerao, j que fraudes podem ser buscadas ao se verificar, por
exemplo, se h aes obrigatrias de um processo que no esto sendo executadas.
Aprimoramento de processos: busca consertar ou melhorar um modelo de pro-
cesso j existente com base em informaes registradas em um log de eventos. O
aprimoramento pode ser aplicado para consertar um modelo de processo; ou seja,
alterar o modelo para que ele reflita melhor a realidade. Por exemplo, duas ativi-
dades que esto modeladas em paralelo mas que na verdade podem ser executadas
em qualquer ordem podem levar a um remodelo de processo. J o aprimoramento
aplicado para melhorar adiciona uma nova perspectiva ao modelo de processo.
Por exemplo, um modelo de processo pode ser estendido com dados de desempenho,
recursos, mtricas de qualidade, etc. Assim, usando referncias temporais dos logs,
possvel complementar o modelo de modo que informaes sobre nveis de servio,
tempos de execuo e frequncias sejam tambm consideradas para anlise.

Independentemente do tipo bsico de minerao, existe uma relao importante


entre os tipos de minerao de processos tanto com modelos de processo quanto com
log de eventos, conforme ilustrado com maior destaque na figura 3, que descreve os
trs principais tipos de minerao de processos em termos de entradas e sadas (AALST,
2011). A descoberta de processos usa como entrada um conjunto de logs de eventos e
produz como sada um modelo de processo. A verificao de conformidade de processos
usa como entrada tanto um conjunto de logs de eventos quanto um modelo de processo
exemplo e produz como sada informaes de diagnstico que identificam diferenas ou
semelhanas entre as duas entradas. O aprimoramento de processos tambm usa como
entrada um conjunto de logs de eventos e um modelo de processo, mas produz como sada
um novo modelo de processo estendido; ou seja, uma nova verso do modelo de processo
usado como entrada com base nas informaes existentes na outra entrada. Enquanto a
conformidade de processos determina o posicionamento entre o modelo e a realidade, o
46

aprimoramento de processos complementa ou melhora o modelo fornecido priori. J a


descoberta apenas cria um modelo que representa a realidade.

Figura 3 Tipos bsicos de minerao de processos em termos de entradas e sadas

Fonte: Adaptao de Aalst (2011)

2.3.2 Perspectivas e problemas de minerao de processos

Minerao de processos no est limitada aos tipos bsicos descoberta, conformidade


e aprimoramento de processos. Considerando que um log de eventos fornece dados sobre
a realidade de uma organizao, tais dados podem fornecer diferentes pontos de vista
sobre essa realidade e, consequentemente, proporcionar diferentes abstraes intencionais
de determinados comportamentos capturados em tais organizaes. Nesse sentido, para
um determinado log de eventos, pode haver mltiplos e diferentes pontos de vista teis.
Alm disso, diferentes partes interessadas podem pretender analisar diferentes pontos
de vista. Assim, diferentes modelos de processos podem ser orientados a determinadas
perspectivas, sendo descritos de formas diferentes, e enfatizando caractersticas relevantes
para determinados tipos de usurios.
Aalst (2011), por exemplo, apresenta, como um possvel conjunto de diferentes
perspectivas, as quatro seguintes:

Perspectiva de controle de fluxo: focada na ordenao de atividades, visando


encontrar uma boa caracterizao de todas as sequncias possveis. O resultado
47

expresso tipicamente em termos de uma rede de Petri ou alguma outra notao de


processo, tal como EPC, BPMN, ou diagramas de atividade da UML.
Perspectiva organizacional: focada em informaes implcitas no log de eventos
relacionadas a recursos, ou seja, a atores envolvidos (ex.: pessoas, sistemas, papis,
ou departamentos) e a como eles se relacionam entre si. Busca-se estruturar a
organizao via classificao de atores avaliando diferentes aspectos.
Perspectiva de caso: focada em aspectos especficos de casos individuais gerados
na execuo de um processo. Uma instncia pode ser caracterizada pelo seu percurso
no processo, pelos atores que a executam, ou por valores descritos nos dados. Por
exemplo, se uma instncia representa uma ordem de reposio de estoque, pode ser
importante saber qual o fornecedor ou o nmero de produtos requisitados.
Perspectiva temporal: focada na temporizao e na frequncia de eventos. Nesse
caso, referncias temporais so anotadas nos eventos, possibilitando: a descoberta de
gargalos; a medio de nveis de servio; o monitoramento do uso de recursos; e a
predio de tempo de processamento necessrio para concluir instncias existentes.

A descrio de processos considerando sua perspectiva de controle de fluxo a


espinha dorsal de qualquer modelo de processo. Algumas construes bsicas de fluxo
apoiadas pela generalidade das linguagens tradicionais so: sequncia, encaminhamento
paralelo (AND-split/AND-join), escolha (XOR-split/XOR-join), e ciclos. Tcnicas de
minerao de processos devem ser capazes de apoiar esses tipos de construes (AALST et
al., 2012). Porm, nem todas as tcnicas conseguem lidar com todos os casos, tal como
concorrncia em processos.
Devido natureza do processo e caractersticas de qualidade dos logs de eventos,
abordagens atuais em minerao de processos apresentam problemas para lidar com dados
reais, visto que esses dados tendem a ser incompletos, ruidosos e imprecisos. Alm disso,
processos atuais tendem a ser complexos e sujeitos a um grande nmero de variaes. Isto
tem como resultado logs de eventos com uma granularidade muito fina, heterogneos e
voluminosos. Bose, Mans e Aalst (2013) classificam os problemas e desafios decorrentes na
anlise de logs de eventos em duas categorias, descritas a seguir e apresentadas de forma
grfica na figura 4:

Caractersticas do processo: dado um conjunto de logs de eventos, algumas


mtricas bsicas podem ser extradas, tais como: nmero de casos, nmero de
48

Figura 4 Problemas e desafios decorrentes da anlise de logs de eventos

Fonte: Adaptao de Bose, Mans e Aalst (2013)

atividades nicas, e nmero de instncias de processo nicas. Dependendo como


essas mtricas apaream nos logs de eventos, alguns desafios podem ser encarados,
tais como:(i) nmeros voluminosos de casos ou eventos, por exemplo, sistemas de alta
tecnologia produzem grandes quantidades de dados, eventos so capturados em um
baixo nvel de execuo, como eventos no nvel de aplicao ou redes de comunicao;
(ii) nmeros grandes e heterogneos de casos e instncias diferentes, processos
atuais esto desenhados para ser flexveis, como resultado um log de eventos
contm uma mistura heterognea entre diversos cenrios de uso e comportamentos
no estruturados; (iii) nmeros altos de granularidade de eventos para atividades
diferentes, de um lado, processos so concebidos com muito de detalhe comprometem
a compreenso do seus modelos, en tanto que, analistas e usurios finais preferem
nveis de abstrao bem altos, encontrar um equilbrio entre esses dois nveis de
granularidade um dos maiores desafios em minerao de processos; (iii) processos
flexveis e sujeitos a mudanas, usualmente processos de negcio so executados em
entornos dinmicos, eles esto sujeitos a um amplo nmero de variaes, mudanas
nos processos podem se manifestar de forma latente no log de eventos, tais mudanas
podem ser evolucionrias ou momentnea dependendo sua durao.
49

Qualidade do log de eventos: estes problemas podem ser agrupados em quatro


categorias principais: (i) dados incompletos, corresponde ao cenrio onde diferentes
tipos de informaes so perdidas mesmo sendo obrigatrias; (ii)dados incorretos,
cenrio onde apesar de que os dados esto presentes no log de eventos, eles esto
baseados em contexto diferentes; (iii)dados imprecisos, as entradas registradas so
demasiado gerais e conduz a uma perda de preciso; e (iv)dados irrelevantes, cenrios
onde necessria uma filtragem e/ou transformao dos registros irrelevantes. Sendo
que, no necessariamente todos esses problemas aparecem juntos em um mesmo log
de evento.

2.3.3 Algoritmos e ferramentas usados

O resultado da minerao de processos depende principalmente da tcnica de


minerao usada. Segundo Aalst (2011), um grande desafio para tcnicas que tratam
minerao de processos com qualidade obter um equilbrio entre os critrios abaixo,
sendo que ainda no h tcnicas que os satisfazem de forma adequadamente equilibrada:

Robustez: um modelo de processo robusto se diversas variaes descritas nos logs


de eventos puderem ser reproduzidas no modelo, do incio ao fim.
Simplicidade: um modelo de processo simples se ele for capaz de explicar o
comportamento descrito no log de eventos.
Preciso: um modelo de processo preciso se ele no permitir variantes em excesso.
Generalizao: um modelo de processo deve generalizar os comportamentos descri-
tos no log de eventos, sem restringir o comportamento apenas aos dados registrados.

Um dos primeiros algoritmos propostos especificamente para minerao de processos,


para ser usado mais especificamente na descoberta de processos, e um dos ainda mais
importantes, o algoritmo , proposto por Aalst (2011). Ele foi desenvolvido visando lidar
de forma adequada com a concorrncia entre as atividades de processo. O algoritmo
recebe como entrada um log de eventos simples, procura padres particulares, baseando-se
em um conhecimento a priori sobre regras e estruturas usuais dentro do negcio. Produz,
como sada, um modelo de processo representado por uma rede de Petri que, espera-se,
possa refletir a realidade do processo (AALST, 2011). Por exemplo, se uma atividade a
seguida por b, e a atividade b nunca seguida por a, ento se presume que existe
50

uma dependncia causal entre a e b. Para refletir essa dependncia, a rede de Petri
correspondente deveria ter uma ligao de a at b.
A principal limitao do algoritmo que os processos geralmente podem conter
vrios tipos de construes que esse algoritmo no pode descobrir, como pequenos ciclos
de atividades e tarefas duplicadas (MEDEIROS et al., 2004). Para lidar com esse problema, o
algoritmo (beta) foi proposto, com capacidade de lidar com o problema de ciclos curtos e
concentrado mais em tarefas ocultas e duplicadas, e construes avanadas de roteamento.
Verses mais recentes do algoritmo j consideram tambm as variaes temporais nas
sequncias de atividades.
Yue et al. (2011) descrevem outras abordagens de minerao de processos, embora
a maioria delas sejam baseadas nas abordagens propostas inicialmente pelo pesquisador
Prof. Dr. Wil van der Aaslt, principal pesquisador em minerao de processos. Alguns
dos algoritmos descritos so: algoritmo para lidar com modelos de processos de estruturas
hierrquicas; mtodos de agrupamento para lidar com tarefas duplicadas; variaes do
algoritmo , como o algoritmo (gama) e o algoritmo (teta); mtodo de derivao e
estatstica; etc. Alm disso, algumas ferramentas adicionais so tambm mencionadas:
InWoLvE e Process Miner tool.
O algoritmo GeneticMiner foi proposto por Medeiros, Weijters e Aalst (2007) para
a descoberta de processos e baseado em tcnicas de computao evolutiva. Seu mtodo
de descoberta parte de uma populao inicial de indivduos (nesse caso, os processos
que so candidatos soluo); vrias iteraes so realizadas at estar mais prximo
da soluo apropriada, de forma que as solues encontradas vo sendo validadas por
meio de medies da preciso. Quando comparado aos demais algoritmos de minerao, o
GeneticMiner apresenta melhor preciso do modelo de processo extrado especialmente
para processos que apresentam comportamentos complexos. No entanto, ele normalmente
demanda alto tempo de processamento para chegar ao resultado.
Dentre as ferramentas especficas para minerao de processos, a mais conhecida
ProM (TU/E, 2015). Trata-se de uma plataforma extensvel e de cdigo aberto, que
apoia uma ampla variedade de tcnicas de minerao de processos sob a forma de plug-ins.
Ela foi desenvolvida pelo grupo da minerao de processos da Eindhoven University of
Technology (grupo liderado pelo Prof. Dr. Wil van der Aaslt) (TU/E, 2015). Ela possui
uma ampla variedade de tipos de modelos, como redes de Petri, redes heursticas, EPCs,
redes sociais, e YAWL. Tais modelos podem ser usados tanto como entradas quanto
51

como sadas para os plug-ins disponveis. E esses plug-ins podem ser do tipo: importao,
exportao, converso, filtro de log de eventos, minerao e anlise.
Disco Fluxicon outra ferramenta especfica para minerao de processos. Trata-se
de uma ferramenta comercial, cujos desenvolvedores trabalham em estreita colaborao com
a equipe da ProM. A Disco Fluxicon realiza a descoberta automtica do modelo de processo
com base em um arquivo de dados importado em formato Comma-separated values. O
algoritmo usa os fundamentos da abordagem Fuzzy Miner, e segundo seus criadores
implementa otimizao significativa do desempenho de processamento. A Disco Fluxicon foi
desenvolvida com foco em seu uso comercial, e apresenta um claro foco em questes como
usabilidade, mas no em facilidades para uso de diferentes algoritmos e tcnicas na forma
de plug-ins, como ocorre com a ProM. Na verdade, a Disco Fluxicon implementa apenas
uma verso de seu prprio algoritmo, sem divulgar detalhes de implementao, e busca
oferecer bons resultados nesse nico algoritmo, incluindo bons resultados de desempenho,
qualidade e usabilidade. Do ponto de vista de visualizao grfica dos resultados, por
exemplo, suas funcionalidades so muito melhores do que da ProM. Alm disso, ela
apresenta um conjunto completo de mtricas de processo para as atividades e caminhos no
processo, incluindo: frequncia absoluta, frequncia do caso, nmero mximo de repeties,
durao total, durao mdia, durao mxima. Ela permite ainda explorar cada Caso
ou conjunto de Casos relevantes, e inspecionar rapidamente o seu histrico, por meio de
uma tabela detalhada de atividades, recursos, tempos de incio, durao e um conjunto
completo de atributos para cada evento do Caso, fluxos de processo comuns, e outliers
(LABORATORIES, 2015).

2.3.4 Exemplo ilustrativo de minerao de processos

Esta seo apresenta um exemplo ilustrativo de minerao de processos, do tipo


descoberta de processo, visando esclarecer esse conceito, com base na proposta de Aalst
(2011). Considera-se, como ponto de partida para minerao de processos, o log de eventos
apresentado na tabela 1. Nesse exemplo, em particular, as atividades so consideradas
como atmicas, a durao das atividades no informada, e cada evento associado a uma
atividade. As colunas IdCaso, Atividade e Timestamp, representam os atributos
mnimos do log de eventos, necessrios para a minerao de processos. Inicialmente, na
tabela 1, apresenta-se uma viso do log de eventos focada nos eventos. Uma forma de
52

modelar esses dados a fim de aplicar uma tcnica de minerao de processos convertendo-
os em uma estrutura focada em instncias de execuo, de um ou vrios processos. Assim,
para facilitar a visualizao, possvel adotar a seguinte notao: a = Realizar requerimento;
b = Analisar informalmente; c = Analisar a detalhe; d = Verificar bilhete; e = Decidir;
f = Reiniciar requerimento; g = Pagar compensao; e, h = Rejeitar requerimento. Na
sequncia, seguindo a ordem de ocorrncia das informaes contidas nas colunas IdCaso e
Timestamp, obtm-se uma representao mais compacta, que apresentada na tabela 3.
Diversos algoritmos podem ser aplicados sobre tal estrutura. O resultado da aplicao do
algoritmo , por exemplo, a rede de Petri apresentada na figura 5.
Verifica-se que as seis instncias de processos contidos na tabela 3 esto contidos
tambm no modelo da figura 5. Como este um exemplo com poucos dados, possvel
encontrar de forma visual as seis instncias de processos dentro do modelo. Contudo,
em situaes reais quando trata-se com grandes volumes de registros nos log de evento,
realizar tal verificao no possvel; logo, algoritmos de minerao de processos devem dar
a confiabilidade de que o comportamento contido no log de eventos realmente representa
os principais processos de negcio. E no, um modelo to especfico que permite apenas
aqueles comportamentos casuais observados (este caso chamado de overfitting), nem
um modelo muito genrico e impreciso (este caso chamado de underfitting) (AALST,
2011).
Esse exemplo apresenta apenas um tipo de representao de modelo do processo.
Alm disso, em situaes reais, podem existir dezenas de atividades potencialmente
concorrentes. Assim, os modelos resultantes podem ser muito mais abstratos (ou seja,
podem refletir diversos tipos de comportamentos na execuo de processo); ou tambm,
eles podem ser extremamente complexos (por exemplo, comportamentos de atividades
concorrentes no so representados dentro do modelo).

Tabela 3 Conjunto de atividades sequenciais gerado a partir do log de eventos da tabela 3


IdCaso Sequencia de atividades
1 (a,b,d,e,h)
2 (a,d,c,e,g)
3 (a,c,d,e,f,b,d,e,g)
4 (a,d,b,e,h)
5 (a,c,d,e,f,d,c,e,f,c,d,e,h)
6 (a,c,d,e,g)
Fonte: Adaptao de Aalst (2011)
53

Figura 5 Modelo de processo descoberto aps a aplicao do algoritmo no log de


eventos da tabela 3

Fonte: Adaptao de Aalst (2011)

2.4 Consideraes finais

Neste captulo foram apresentados aspectos gerais das reas estritamente relaciona-
das minerao de processos, gesto de processos de negcio por um lado, e minerao de
dados, inteligncia computacional e de aprendizado de mquina do outro lado. A juno
dessas duas reas cria a rea de minerao de processos de negcio. O principal foco de
pesquisa da rea de minerao de processos a extrao de conhecimento a partir de um
log de eventos registrados durante as etapas do ciclo de vida de BPM, a fim de diminuir a
brecha existente entre o modelo proposto e a realidade do negcio.
Tambm foram apresentados conceitos relacionados aos algoritmos e tcnicas que
atualmente so os mais usados na rea de minerao de dados, principalmente aqueles
provenientes das reas de inteligncia computacional e de aprendizado de mquina, por ser
bem sucedidas para a resoluo de problemas complexos usando dados reais. Esse tipo de
problemas geralmente requerem alguma forma de aquisio automtica de conhecimento
a partir do domnio de aplicao e, portanto, no podem ser solucionados por tcnicas
computacionais convencionais. Por outro lado, uma das maiores dificuldades na rea
minerao de processos lidar com tal complexidade em dados provenientes de execues
de processos em situaes reais. Alm do mais, a maioria dos algoritmos e tcnicas
tradicionalmente usados em minerao de processos seguem as abordagens propostas por
Aalst (2011), deixando de lado o potencial que tem as tcnicas de inteligncia computacional
e de aprendizado de mquina para solucionar os problemas similares aos encontrados em
minerao de processos.
54

3 Mtodo de pesquisa

Este captulo visa descrever, em linhas gerais, o mtodo de pesquisa usado neste
trabalho a fim de atingir os objetivos.
Este trabalho visa estudar de forma ampla o contexto atual da rea de minerao
de processos, sendo necessrios o uso de mtodos de pesquisa formais e sistemticos. De
forma mais ampla, o mtodo de pesquisa usado enquadra-se como:

Natureza bsica: uma vez que objetiva gerar conhecimentos novos, teis para o
avano da cincia neste caso especfico, as reas de BPM, minerao de dados, e
minerao de processos; sem a previso imediata de uma aplicao prtica.
Gnero emprico: j que esse trabalho foi direcionado principalmente pela busca
de dados relevantes e convenientes obtidos por meio da experincia, da vivncia
de outros pesquisadores, publicadas por meio de trabalhos de pesquisa existentes
na literatura cientfica; tendo como objetivo chegar a novas concluses a partir da
maturidade experimental desses trabalhos avaliados.
Objetivos exploratrio e descritivo: primeiramente com carter explora-
trio por proporcionar maior familiaridade com o problema, que pode ainda ser
considerado novo, principalmente considerando o uso de tcnicas de inteligncia
computacional e de aprendizado de mquina, com vistas a torn-lo mais explcito ou
construir hipteses; mas tambm com carter descritivo por j possuir o objetivo
de descrever os fatos e/ou fenmenos da realidade estudada.
Abordagem mista qualitativa e quantitativa: em relao anlise e apre-
sentao dos resultados, sendo que, em alguns casos, os resultados podem ser mensu-
rado em nmeros, e ento classificados e analisados com estatstica descritiva bsica,
e, em outros, uma opinio crtica das lies aprendidas no processo sustentada com
bases nas teorias encontradas.

Como procedimento tcnico, esse trabalho foi baseado principalmente em uma


pesquisa do tipo bibliogrfica, em que os principais trabalhos j publicados na rea de
minerao de processos foram estudados; tendo como fonte de informao artigos cientficos
publicados nos principais veculos cientficos internacionais. A tcnica para coleta e anlise
de dados foi reviso sistemtica da literatura, conforme diretrizes estabelecidas por
Kitchenham (2007). Duas revises sistemticas foram conduzidas: a primeira focada em
55

duas tcnicas bem especficas de inteligncia computacional e de aprendizado de mquina


redes neurais e mquinas de vetores de suporte; e a segunda, mais geral, abordando todo
o contexto de minerao de processos independentemente do tipo de tcnica aplicada. De
fato, a segunda reviso sistemtica realizada, de acordo com a teoria seguida, se refere a
um mapeamento sistemtico da literatura dada a amplitude em que ele foi realizado.
De forma geral, o desenvolvimento deste trabalho compreendeu quatro etapas
importantes, sendo que em cada uma delas atividades para alcanar os objetivos especficos
foram realizas. Tais etapas so apresentadas resumidamente na figura 6 e descritas a seguir:

1. Reviso bibliogrfica estendida, por meio da reviso sistemtica e do mapeamento


sistemtico.
2. Delimitao da rea de minerao de processos, em relao s tcnicas e as tarefas
de minerao de dados, quando aplicados em tal contexto, buscando evidncias para
a justificativa ou no de uma maior ou menor aplicao de tcnicas provenientes
especificamente das reas de inteligncia computacional e de aprendizado de mquina.
3. Realizao de um exemplo de aplicao, como um meio para compreender e sustentar
argumentos sobre aplicaes reais na rea de minerao de processos, considerando
o ponto de vista tanto de tcnicas tradicionais quanto de tcnicas de inteligncia
computacional e de aprendizado de mquina.
4. Anlise dos resultados obtidos com um exemplo de aplicao visando generalizar as
concluses obtidas para cenrios diversos de minerao de processos, para contribuir
com o levantamento das lies aprendidas com este trabalho.

Inicialmente, previa-se realizar uma nica reviso sistemtica da literatura envol-


vendo todos os estudos existentes na rea de minerao de processos. Porm, com as
primeiras buscas exploratrias, verificou-se que o escopo dos trabalhos era consideravel-
mente maior que o planejado inicialmente. Assim, percebeu-se a necessidade de realizar
um mapeamento sistemtico da literatura de toda a rea de minerao de processos, e
uma reviso sistemtica detalhada focada apenas em algumas das tcnicas de importncia
para as reas de inteligncia computacional e de aprendizado de mquina, para as quais
foram escolhidas redes neurais e mquinas de vetores de suporte. Essas duas tcnicas
foram escolhidas por sugesto da especialista na rea de minerao de dados com uso de
tcnicas inteligentes a Profa. Dra. Sarajane Marques Peres, coorientadora deste trabalho,
56

Figura 6 Etapas seguidas durante a realizao deste trabalho

Fonte: Ana Roco Crdenas Maita, 2015

considerando os bons resultados que elas apresentam quando aplicadas em problemas


complexos da rea de minerao de dados (WU et al., 2008; STAHL; JORDANOV, 2012).
O mtodo de reviso sistemtica proposto por Kitchenham (2007) facilita o le-
vantamento bibliogrfico que consiste em identificar, avaliar e interpretar as pesquisas
relevantes dentro de uma determinada rea de pesquisa. O objetivo desse mtodo criar
uma organizao sistemtica para conduzir a reviso de forma que seja possvel documentar
todo o processo de levantamento bibliogrfico, possibilitando aos leitores a oportunidade de
avaliar a qualidade da reviso ou at mesmo reproduzi-la. Os conceitos apresentados pela
autora diferenciam esses dois tipos de reviso da literatura. Por um lado, o mapeamento
sistemtico centrado na classificao e na categorizao geral dos resultados, a fim de
ter uma viso mais ampla dos estudos primrios, aplicvel como caso deste trabalho
quando a rea em estudo possui muitos estudos primrios. J a reviso sistemtica visa
identificar, avaliar e interpretar todas as pesquisas disponveis relevantes para questes de
pesquisa definidas, de forma mais focada em um ponto especfico da rea de estudo.
Os dois tipos de reviso so necessrios como parte dos resultados para alcanar os
objetivos de pesquisa deste trabalho, no sendo tratadas como simples revises bibliogrfi-
cas, mas sim como estudos documentrios que permitem a obteno de uma viso mais
geral dos direcionamentos atuais da rea. A reviso sistemtica realizada permite verificar
que, embora haja interesse cientfico na rea de minerao de processos, pouco tem sido
investido especificamente em tcnicas como redes neurais e mquinas de vetores de suporte.
57

Por outro lado, o mapeamento sistemtico permitiu confirmar que as tcnicas usuais pro-
venientes das reas de inteligncia computacional e de aprendizado de mquina, realmente
vem sendo pouco aplicadas em minerao de processos, embora haja um crescimento de
tais tcnicas nos ltimos anos.
Nas seces seguintes, os protocolos resumidos, tanto para a reviso sistemtica
quanto para o mapeamento sistemtico, so apresentados, os quais se referem s principais
contribuies deste trabalho. Esses protocolos foram definidos seguindo as diretrizes esta-
belecidas por Kitchenham (2007), e compreendem basicamente trs fases: (i) planejamento,
que inclui o desenvolvimento de um protocolo de reviso, o qual especifica os mtodos
para executar a reviso, incluindo uma anlise exploratria para definio de conceitos, a
definio de strings de buscas, e o estabelecimento de critrios de incluso e de excluso
de estudos encontrados; (ii) conduo, que inclui a seleo dos estudos, a avaliao da
qualidade dos estudos selecionados, a extrao de dados, e a organizao da informao
extrada; e (iii) relatrio, que inclui a documentao dos resultados em relatrios tcnicos,
trabalhos de dissertao ou teses, e em artigos cientficos.
Uma descrio detalhada do protocolo definido e usado neste trabalho para a
realizao da reviso sistemtica est sendo submetida como parte de um artigo cientfico.
J para a realizao da reviso sistemtica, tal descrio encontra-se em um artigo j
publicado em um peridico internacional (MAITA et al., 2015).
A fim de ajudar no levantamento de possveis hipteses ou ento de comprovar
hipteses j levantadas durante o mapeamento sistemtico, um exemplo de aplicao
foi realizado. Um exemplo de aplicao foi realizado com dados provenientes de um log
de eventos registrados durante uso de um sistema de ensino a distncia de cursos de
especializao oferecidos pela Universidade de So Paulo em conjunto com a Universidade
Virtual do Estado de So Paulo.

3.1 Protocolo resumido da reviso sistemtica (especfica)

O objetivo da reviso sistemtica foi avaliar a aplicao das tcnicas redes neurais e
mquinas de vetores de suporte em tarefas de minerao de dados no contexto de minerao
de processos, com o objetivo de entender como tais tcnicas de inteligncia computacional
so aplicadas no contexto de minerao de processos.
58

3.1.1 Questes de pesquisa

As seguintes questes de pesquisa nortearam essa reviso sistemtica:

QP1. Que tipos de redes neurais ou de mquinas de vetores de suporte so usados


para implementar as tarefas de minerao de dados quando aplicados ao contexto de
minerao de processos?
Para responder essa pergunta, os seguintes tipos de classificao foram considerados.
Primeiro, em relao s redes neurais, elas podem ser classificadas em relao ao tipo
de arquitetura ou em relao ao tipo de aprendizado. Em relao ao tipo de arquitetura,
que se refere a como suas unidades de processamento (neurnios) so estruturadas, as
redes neurais podem ser classificadas como: feedforward com camada nica; recorrente
com camada nica; feedforward multicamada; recorrente com multicamada; e de camada
competitiva (HAYKIN, 2009). Em relao ao tipo de aprendizado, que se refere estratgia
usada pela tcnica para corrigir ou aproximar o modelo mapeado ou a superfcie de deciso
que est sendo procurada. As redes neurais podem ser classificadas como de aprendizado
supervisionado, aprendizado no supervisionado, aprendizado de reforo, e redes neurais
de pesos fixos (FAUSETT, 1994).
J em relao s mquinas de vetores de suporte, elas podem ser classificadas em
relao s suas variaes, juntamente com o tipo de aprendizado. O modelo bsico de
mquinas de vetores de suporte foi considerado, categorizada como aprendizado supervisi-
onado, adicionado de suas duas variaes: Regresso por Vetores Suporte (SVR Support
Vector Regression), categorizada como aprendizado supervisionado; e Agrupamento por
Vetores Suporte (SVC Support Vector Clustering), categorizada como aprendizado no
supervisionado (HAYKIN, 2009; CRISTIANINI; SHAWE-TAYLOR, 2000).

QP2. Quais tarefas de minerao de dados so tratadas nos trabalhos de minerao


de processos por meio da aplicao de redes neurais ou de mquinas de vetores de suporte?
Para essa questo de pesquisa, as principais tarefas de minerao de dados segundo
Han e Kamber (2006), foram consideradas: (i) predio categrica (ou classificao); (ii)
predio numrica (do tipo regresso); (iii) predio numrica (do tipo identificao de
tendncias); (iv) anlise de agrupamentos; e (v) Descoberta de padres frequentes, regras
59

de associao e regras de correlao; conforme apresentados na seo 2.2.1.

QP3. Quais tipos de minerao de processos so atendidos por redes neurais ou


mquinas de vetores de suporte, quando tais tcnicas so usadas para resolver tarefas de
minerao de dados?
Para essa questo de pesquisa, foram considerados os trs principais tipos de
minerao de processos: (i) descoberta de processos; (ii) conformidade de processos; e (iii)
aprimoramento de processos (AALST, 2011); conforme definidos na seo 2.3.1.

3.1.2 Fontes de dados e estratgia de busca

A um fim de maximizar o nmero de trabalhos candidatos encontrados, foram


escolhidas como fontes de dados de pesquisa as bases: Scopus e ISI Web of Science.
Essas duas bases juntas indexam a maioria dos artigos existentes nas mais importantes
bibliotecas digitais, tais como: IEEExplore, Biblioteca Digital ACM e SpringerLink. A
string de busca definida (Tabela 4) visa encontrar trabalhos que sejam relacionados a
minerao de processos usando apenas as tcnicas de redes neurais e de mquinas de
vetores de suporte. Essa string foi aplicada pela primeira vez em 2013, posteriormente
reaplicada ao final de 2014.

Tabela 4 String de busca genrica para a reviso sistemtica


((process mining OR processes mining OR workflow mining OR workflows
mining OR mining process OR mining processes OR mining workflow OR
mining workflows OR (business process OR business processes OR workflow
OR workflows) AND data mining)) AND ((neural OR SOM OR Self Organizing
OR Self-Organizing OR Organizing Map OR Organizing Maps OR MLP OR
Multilayer Perceptron OR Backpropagation OR Back-Propagation OR RBF OR
Radial Basis Function OR artmap OR Adaptive Resonance Theory OR hopfield OR
LVQ OR Learning Vector Quantization) OR (SVM OR SVR OR SVC OR Support
Vector OR Support-Vector))
Fonte: Maita et al. (2015)
60

3.1.3 Seleo de trabalhos

Foram especificados critrios de incluso e de excluso baseados no escopo e na


qualidade dos artigos encontrados para garantir que, ao final, fosse selecionados apenas
trabalhos realmente relacionados ao contexto desejado.

3.1.3.1 Critrios de incluso

CI-1: o artigo trata essencialmente minerao de dados, ou seja, minerao de


dados est diretamente relacionada ao escopo principal do trabalho em vez de ser
meramente mencionada de forma genrica.
CI-2: o artigo trata essencialmente processos de negcio (incluindo workflows de
negcio), ou seja, processos/ workflows esto diretamente relacionados ao escopo
principal do trabalho em vez de serem meramente mencionados de forma genrica.
CI-3: ambos, minerao de dados e processos de negcio, so tratadas em conjunto
no artigo para apresentar uma abordagem de minerao de processos em vez de cada
abordagem ser tratada de forma independente no artigo.
CI-4: a abordagem apresenta como objetivo principal o uso de redes neurais ou
mquinas de vetores de suporte como uma tcnica para implementar tarefas de
minerao de dados no contexto de minerao de processos.

3.1.3.2 Critrios de excluso

CE-1: o artigo no est disponvel eletronicamente na web;


CE-2: o artigo no apresentado inteiramente no idioma ingls;
CE-3: o artigo no est relacionado, principalmente, s reas de cincia da com-
putao ou de sistemas de informao. Por exemplo, o artigo est relacionado
principalmente s reas de medicina ou engenharia industrial;
CE-4: o registro de dados identificado na verdade no se refere a um artigo cien-
tfico, mas sim a alguma publicao sem reviso por pares, tais como: relatrios
tcnicos; livros e captulos de livros; prefcios de anais de conferncia; ou editoriais
de peridicos;
61

CE-5: o artigo apresenta algum tipo de avaliao de outros trabalhos, como uma
pesquisa ou alguma reviso sistemtica (ou seja, um estudo secundrio), e no os
resultados de algum trabalho de pesquisa especfica (ou seja, um estudo primrio);
CE-6: o artigo foi publicado h mais de 11 anos.

Alm, critrios de avaliao da qualidade so definidos a seguir na tabela 5, adap-


tados da proposta de Dyb e Dingsyr (2008) para ser aplicados nessa reviso.

Tabela 5 Critrios de avaliao da qualidade


Critrio Descrio
Relatrio Interessada com a qualidade da informao que est sendo relatada em
termos de uma lgica de estudo, objetivos e contexto
Rela.1 O estudo esta baseado em pesquisas (ou meramente um lies aprendi-
das relatrio com base na opinio de especialistas)?
Rela.2 Existe uma declarao clara dos objetivos da pesquisa?
Rela.3 Existe uma descrio adequada do contexto em que a pesquisa foi
realizada?
Rigor Interessada com a preciso dos mtodos de investigao usados para
estabelecer a validade de instrumentos de recolha de dados e os mtodos
de anlise e, portanto, a confiabilidade dos resultados
Rig.1 O projeto de pesquisa foi adequado para tratar os objetivos da pesquisa?
Rig.2 A estratgia de coleo era apropriada para os objetivos da pesquisa?
Rig.3 Houve um grupo de controle para comparar os tratamentos?
Rig.4 Os dados foram recolhidos, de tal maneira que eles tratam a questo de
pesquisa?
Rig.5 A anlise dos dados foi suficientemente rigorosa?
Credibilidade Interessada com a confiabilidade dos mtodos de estudo usados para
assegurar que os resultados sejam vlidos e significativos
Cre.1 A relao entre pesquisador e participantes foi considerada de forma
adequada?
Cre.2 Existe uma declarao clara dos resultados?
Relevncia Interessada com a avaliao da importncia do estudo para a indstria
de software em geral e da comunidade de investigao
Rele.1 O estudo de valor para a investigao ou para aplicao?
Fonte: Adaptao de Dyb e Dingsyr (2008)

3.2 Protocolo resumido do mapeamento sistemtico (geral)

De acordo com Kitchenham (2007), mapeamento sistemtico um tipo de reviso


sistemtica. Enquanto que uma reviso sistemtica tenta se aprofundar na anlise de
cada estudo primrio identificado, em um baixo nvel de granularidade; o mapeamento
sistemtico um estudo de escopo, ou seja, uma ampla reviso da estudos primrios em
62

uma rea de tpico especfico que tem o objetivo de identificar quais evidncias esto
disponveis sobre o tema. Um mapeamento sistemtico prefervel em vez de uma reviso
sistemtica quando o tema muito amplo, como a minerao de processos se mostrou.
Um mapeamento sistemtico permite coletar evidncias em um domnio para ser tratado
em um alto nvel de granularidade.
O principal objetivo do mapeamento sistemtico realizado neste trabalho foi identi-
ficar e avaliar todos os trabalhos que propem abordagens para minerao de processos
de negcio, independentemente do tipo de tcnica usada, mesmo que o foco de interesse
aqui seja as tcnicas de inteligncia computacional e de aprendizado de mquina. Para
compreender qual a importncia desse tipo de tcnica no contexto geral de minerao
de processos, necessrio conhecer o contexto completo, incluindo o uso das tcnicas
tradicionais.

3.2.1 Questes de pesquisa

As seguintes questes de pesquisa nortearam essa reviso sistemtica:

QP1. Quais tipos de minerao de processos so atendidos pelas tcnicas e tarefas


de minerao de dados?
Para essa questo de pesquisa, foram considerados os trs principais tipos de
minerao de processos: (i) descoberta de processos; (ii) conformidade de processos; e
(iii) aprimoramento de processos (AALST, 2011); conforme definidos na seo 2.3.1. O
objetivo desta pergunta foi identificar quais tipos de minerao de processos tm sido mais
amplamente aplicados no perodo avaliado, ou seja, nos ltimos dez anos. Com tal anlise,
possvel identificar, por exemplo, se houve alguma tendncia crescente ou decrescente em
termos de quais tipos de minerao tm sido tratados durante esse tempo. Alm disso,
possvel realizar anlises transversais considerando como as tarefas de minerao de dados
e as tcnicas usadas so tratadas pelos diferentes pesquisadores em relao aos diferentes
tipos de minerao de processos.

QP2. Quais tarefas de minerao de dados so aplicadas em minerao de processos?


A fim de direcionar essa questo de pesquisa, foram consideradas as tarefas de
minerao de dados de acordo com a taxonomia apresentada por Han e Kamber (2006): (i)
63

predio categrica (ou classificao), predio numrica (tipo regresso), e predio nu-
mrica (tipo identificao de tendncias); (ii) anlise de agrupamentos; (iii) Descoberta
de padres frequentes, regras de associao e regras de correlao; (iv) anlise de rudo e
de outliers; (v) anlise de evoluo; e (vi) anlise de dados estruturados. Em relao a
primeira reviso sistemtica, houve o acrscimo de algumas tarefas, para permitir uma
anlise mais completa. De forma ortogonal questo de pesquisa QP1, esta questo busca
identificar quais destas tarefas de minerao de dados tm sido aplicadas especificamente
para o contexto de minerao de processos.

QP3. Quais tcnicas so usualmente aplicadas para implementar as tarefas de


minerao de dados, no contexto de minerao de processos? Quais destas tcnicas so de
inteligncia computacional ou de aprendizado de mquina?
A fim de tratar essa pesquisa pergunta, foi considerado um vasto conjunto de tcnicas
normalmente usadas para resolver diferentes tarefas de minerao de dados. O conjunto de
tcnicas inclui: (i) tcnicas de inteligncia computacional, incluindo redes neurais, mquinas
de vetores de suporte, lgica fuzzy, e computao evolutiva; (ii) tcnicas de aprendizado de
mquina, incluindo aprendizado supervisionado e aprendizado no supervisionado; e (iii)
tcnicas tradicionais, incluindo: tcnicas baseadas em agentes; derivadas do algoritmo ;
tcnicas baseadas em casos; tcnicas baseadas em distncia; tcnicas baseadas em estruturas
de grafos; tcnicas baseadas em heurstica; tcnicas baseadas em lgica; operaes OLAP;
probabilidade e estatstica; tcnicas baseadas em regras; tcnicas baseadas em semntica;
e tcnicas baseadas em dados temporais. Complementarmente questo de pesquisa QP2,
o propsito desta questo identificar quais so as tcnicas aplicadas especificamente
ao contexto de minerao de processos . Na mesma linha de pensamento da questo de
pesquisa anterior, poderia se esperar que todas as essas tcnicas comumente aplicadas
em minerao de dados tambm estivessem sido aplicadas minerao de processos,
principalmente aquelas de campos de inteligncia computacional e de aprendizado de
mquina, uma vez que elas tm apresentado bons resultados para uma srie de problemas
de minerao de dados em geral.
64

3.2.2 Fontes de dados e estratgia de busca

Similarmente ao protocolo seguido na reviso sistemtica, as fontes de dados do


Scopus e ISI Web of Science foram usadas. A string de busca definida (Tabela 6)
visa encontrar trabalhos que sejam relacionados a minerao de processos de forma geral,
independentemente do tipo de tcnica usada. Essa string foi aplicada pela primeira vez
em 2013 e reaplicada no incio de 2015.

Tabela 6 String de busca genrica para o mapeamento sistemtico


(mining process OR process mining OR workflow mining OR workflows mining
OR mining process OR mining processes OR mining workflow OR mining work-
flows OR ((business process OR business processes OR workflow OR workflows)
AND data mining))
Fonte: Ana Roco Crdenas Maita, 2015

3.2.3 Seleo de trabalhos

Foram especificados critrios de incluso e de excluso baseados no escopo e na


qualidade dos artigos encontrados para garantir que, ao final, fosse selecionados apenas
trabalhos realmente relacionados ao contexto desejado. Tais critrios so muito similares
aos usados para a reviso sistemtica, conforme apresentados na seo 3.1.3. A seguir
apenas as diferenas especficas para esse mapeamento sistemtico so apresentados.

3.2.3.1 Critrios de incluso

Os seguintes critrios de incluso, includos na seo 3.1.3.1, tambm foram includos


aqui de forma idntica: CI-1, CI-2 e CI-3. O seguinte critrio de incluso, includos na
seo 3.1.3.1, no foi includo aqui: CI-4.

3.2.3.2 Critrios de excluso

Os seguintes critrios de excluso, includos na seo 3.1.3.2, tambm foram includos


aqui de forma idntica: CE-1, CE-2, CE-3, CE-4, CE-5 e CE-6. O seguinte critrio de
excluso, no includo na seo 3.1.3.2, foi includo para este caso:
65

CE-7: o artigo foi classificado pelo veculo de publicao dentro da categoria ar-
tigo curto (short paper); ou o artigo foi classificado pelo veculo de publicao,
explicitamente, como: work in progress, position paper, doctoral consortium, doctoral
workshop, keynote, ou poster.
66

4 Resultados alcanados

A partir do estudo realizado para a rea minerao de processos, considerando


uma anlise direcional considerado vrios pontos de vista para uma melhor delimitao e
entendimento das pesquisas atuais na rea, quatro pontos de vista so discutidos neste
trabalho: (i) quais tcnicas e tarefas originrias da rea de minerao de dados so
as mais usadas, quando aplicadas para resolver problemas de minerao de processos;
(ii) quais tipos de minerao de processos atualmente so os mais usados; (iii) o que
representa a quantidade de tcnicas provenientes das reas de inteligncia computacional
e de aprendizado de mquina, especificamente redes neurais e mquinas de vetores de
suporte, em proporo com outras tcnicas tradicionais, em minerao de processos; (iv)
quais veculos para publicao, pases, pesquisadores e universidades esto apresentam
maior interesse em estudar aspectos relacionados em essa rea. Considerando que os
conceitos tratados nos itens (i), (ii) e (iii) esto estreitamente relacionados, uma anlise
cruzada entre eles foi necessria para uma melhor apresentao dos resultados.
Este captulo est organizado da seguinte forma: na seo 4.1 e 4.2 os resultados da
reviso sistemtica (reviso especfica) e do mapeamento sistemtico (reviso expandida)
so apresentados; a seo 4.3 apresenta um exemplo de aplicao em minerao de
processos; por fim, as lies aprendidas com esses trs tipos de resultados so apresentadas
na seo 4.4.

4.1 Reviso sistemtica (especfica)

A reviso foi conduzida em duas etapas principais: (i) identificao e seleo dos
estudos primrios bem como a avaliao da qualidade dos estudos primrios; e (ii) extrao
e sntese dos dados dos estudos primrios. Esta seo apresenta um resumo dos resultados
alcanados na execuo de tais etapas. Os resultados completos dessa reviso sistemtica,
descritos com maior detalhe, encontram-se no artigo que j foi publicado Maita et al.
(2015).
67

4.1.1 Resultados da reviso sistemtica

A primeira etapa, de identificao e seleo dos estudos primrios, foi realizada


seguindo o mtodo sugerido por Chen e Babar (2011), em trs passos (i) identificao dos
registros relevantes nas bases de dados com a aplicao da string de busca, tendo sido
obtidos 188 resultados; (ii) aplicao dos critrios de incluso e de excluso propostos no
protocolo da reviso, resultando na seleo de 11 estudos primrios; (iii) aplicao dos
critrios de avaliao da qualidade: relatrio, rigor, credibilidade e relevncia para a rea,
(cf. 5). As etapas desta aplicao so apresentadas na figura 7.

Figura 7 Passos seguidos na identificao de estudos primrios

Fonte: Traduzido de Maita et al. (2015)

A tabela 7 apresenta a lista dos 11 estudos primrios, resultantes da aplicao dos


critrios de incluso e excluso, descritos no protocolo da reviso. Os dados apresentam que
sete dos 11 estudos primrios foram publicados em peridicos, e quatro em conferncias.
Os resultados da avaliao de qualidade para esses 11 estudos primrios esto
apresentados na tabela 8. Os dados apresentam a avaliao dos estudos primrios seleccio-
nados tendo em conta os atributos definidos na tabela 5. Cada sub-atributo foi avaliado e
pontuado como Completo 1,0 ponto, Parcial 0,5 ponto ou Nada 0 ponto. Os
estudos foram melhor avaliados em termos dos atributos relatrios e relevncia, com
taxas relativas de 91 e 82 por cento, respectivamente. Em contraste, foram pior avaliada
68

Tabela 7 Lista final de estudos primrios para reviso sistemtica


Tipo de
Ano ID Ttulo publicao
2004 J-1 An intelligent information infrastructure to support the stre- Peridico
amlining of integrated logistics workflow
2006 J-2 An intelligent production workflow mining system for continual Peridico
quality enhancement
C-1 Development of a distributed process mining system for reactive Conferncia
ion etching enhancement
C-2 A fuzzy paradigm approach for business process intelligence Conferncia
2011 J-3 KNNI-SVM: A hybrid algorithm integrating imputation and Peridico
support vector machine for real-time business process monito-
ring
C-3 Process optimization of candy production based on data mining Conferncia
2012 J-4 Mining event logs to support workflow resource allocation Peridico
2013 J-5 A comparative study of dimensionality reduction techniques to Peridico
enhance trace clustering performances
C-4 Data mining for big archives analysis: A case study Conferncia
2014 J-6 Active learning for sentiment analysis on data streams: Metho- Peridico
dology and workflow implementation in the ClowdFlows plat-
form
J-7 A dynamic understanding of customer behavior processes based Peridico
on clustering and sequence mining
Fonte: Traduzido de Maita et al. (2015)

em termos dos atributos credibilidade e rigor, com taxas relativas de 61 e 56 por cento,
respectivamente.
A figura 8 apresenta a distribuio temporal dos 11 estudos primrios (no perodo
de 2004 at 2014). Verifica-se uma concentrao dos estudos publicados (64%) nos ltimos
quatro anos do perodo avaliado.

Figura 8 Distribuio dos estudos primrios por ano

Fonte: Traduzido de Maita et al. (2015)

A anlise dos 11 estudos primrios selecionados resultou nas classificaes apresen-


tadas a seguir, especificamente relacionadas avaliao das questes de pesquisa.
69

Tabela 8 Lista final de estudos primrios para reviso sistemtica


Credi- Rele- ndice de
ID Relatrio Rigor bilidade vncia qualidade
Rel.1 Rel.2 Rel.3 Rig.1 Rig.2 Rig.3 Rig.4 Rig.5 Cre.1 Cre.2 Rele.1
J-1 C C C C P N P P P C C 8,0
J-2 C C P C C N C P P C C 8,5
C-1 C P P C N N C P N P P 5,5
C-2 C C P P N N P N N P P 4,5
J-3 C C C C N N P N N P P 5,5
C-3 C P P P N N P N N P P 4,4
J-4 C C C C C N C C P C C 9,5
J-5 C C C C C N C C C C C 10,0
C-4 C C C C C N C C C C C 10,0
J-6 C C C C P N C P P C C 8,5
J-7 C C C C C N C C P C C 9,5
Notas: C completo (1,0 ponto); P parcial (0,5 ponto); N nenhum (0 pontos)
Fonte: Traduzido de Maita et al. (2015)

QP1. Que tipos de redes neurais ou de mquinas de vetores de suporte so usados


para implementar as tarefas de minerao de dados quando aplicados ao contexto de
minerao de processos?
As tabelas 9, 10 e 11 apresentam um resumo do resultado da extrao e da
classificao dos dados dos 11 estudos primrios, escopo da reviso sistemtica, com o
objetivo de responder essa primeira questo de pesquisa. Em relao s abordagens identi-
ficadas nos estudos primrios que usam redes neurais, os dados da tabela 9 e da tabela 11
apresentam que a maioria delas apresentam arquitetura multicamada com aprendizado
supervisionado. J em relao s abordagens identificadas nos estudos primrios que usam
mquinas de vetores de suporte, os dados da tabela 10 e da tabela 11 apresentam que todos
os trabalhos usam o modelo bsico de mquinas de vetores de suporte para classificao
com aprendizado supervisionado.
QP2. Quais tarefas de minerao de dados so direcionadas em minerao de
processos quando aplicadas a redes neurais e mquinas de vetores de suporte?
Em relao s tarefas de minerao de dados, a tabela 12 mostra que para as
abordagens identificadas nos estudos primrios selecionados para esta reviso sistemtica,
trs das cinco categorias so cobertas quando se considera a sua resoluo com redes
neurais e mquinas de vetores de suporte. Assim, foram encontrados representantes para
as seguintes tarefas: previso categrica (ou classificao), previso numrica (do tipo
regresso), e anlise de agrupamentos. Nenhum estudo foi identificado para as outras
70

Tabela 9 Classificao dos estudos primrios com base no tipo de arquitetura da redes
neurais
Feedforward com Recorrente com Feedforward Recorrente Camada
ID camada nica camada nica multicamada multicamada competitiva
J-1 X
J-2 X
C-1 X
C-2 X
C-3 X
J-5 X
J-7 X
Fonte: Traduzido de Maita et al. (2015)

Tabela 10 Classificao dos estudos primrios considerando as variaes de mquinas de


vetores de suporte
Vetores suporte Regresso por Agrupamento por
ID para classificao vetores suporte vetores suporte
J-3 X
J-4 X
C-4 X
J-6 X
Fonte: Traduzido de Maita et al. (2015)

Tabela 11 Classificao dos estudos primrios considerando os tipos de aprendizado de


redes neurais e de mquinas de vetores de suporte
Aprendizado Aprendizado no Aprendizado Redes neurais
ID supervisionado supervisionado de reforo de pesos fixos
J-1 X
J-2 X
C-1 X
C-2 X
C-3 X
J-3 X
J-4 X
J-5 X
C-4 X
J-6 X
J-7 X
Fonte: Traduzido de Maita et al. (2015)
71

duas categorias: previso numrica (do tipo identificao de tendncias), e descoberta


de padres frequentes, regras associao e correlao. De fato, dois estudos envolvem a
tarefa de descoberta de padres frequentes, mas so resolvidos com outras tcnicas, assim,
no foram levadas em conta na tabela 12.

Tabela 12 Classificao dos estudos primrios considerando as tarefas de minerao de


dados
Descoberta de
Predio Predio numrica padres frequentes
categrica Identificao Anlise de regras de associao
ID (classificao) Regresso de tendncias agrupamentos e correlao
J-1 X
J-2 X
C-1 X
C-2 X
C-3 X
J-3 X
J-4 X
J-5 X
C-4 X
J-6 X
J-7 X
Fonte: Traduzido de Maita et al. (2015)

QP3. Quais tipos de minerao de processos so atendidos por redes neurais ou


mquinas de vetores de suporte quando tais tcnicas so usadas para tratar tarefas de
minerao de dados neste contexto?
Em relao ao tipo de minerao de processos, cujo objetivo verificar as aplicaes
de redes neurais e mquinas de vetores de suporte na rea de interesse, os dados da tabela 13
apresentam que dois estudos se referem ao tipo descoberta, trs ao tipo aprimoramento, e
seis ao tipo conformidade. Embora essa classificao tenha sido realizada considerando
as definies apresentadas por Aalst (2011), de fato, a maioria dos trabalhos no seguem
estritamente as definies propostas por esse especialista para a rea de minerao de
processos. Dessa forma, a classificao apresentada na tabela 13 se refere a uma aproximao
de essas propostas por Aalst (2011), levando em considerao a anlise realizada pelos
autores deste estudo.
72

Tabela 13 Classificao dos estudos primrios em relao ao tipo de minerao de


processos
ID Descoberta Conformidade Aprimoramento
J-1 X
J-2 X
C-1 X
C-2 X
C-3 X
J-3 X
J-4 X
J-5 X
C-4 X
J-6 X
J-7 X
Fonte: Ana Roco Crdenas Maita, 2015

4.1.2 Anlise dos resultados da reviso sistemtica

Com base nas informaes apresentadas na seo anterior, algumas anlises foram
realizadas, cujos resultados podem ser teis para a comunidade de pesquisadores interessa-
dos no uso de redes neurais ou mquinas de vetores de suporte para realizar minerao de
processos.
Primeiro, em relao ao nmero de estudos primrios identificados, ainda h um
nmero limitado de estudos sendo conduzidos com o objetivo de aplicar redes neurais
e mquinas de vetores de suporte em minerao de processos. Considerando que apro-
ximadamente 620 trabalhos foram inicialmente identificados na rea de minerao de
processos, os 11 estudos finais selecionados representam apenas 2% de todo o universo
de estudo. Com respeito a possveis em relao distribuio durante o perodo de 11
anos avaliado como se mostra na figura 8. Verifica-se que dois teros dos estudos foram
publicados nos ltimos quatro anos, depois de um perodo de quatro anos sem qualquer
publicao, o que pode indicar uma aparente retomada de pesquisa e interesse nesta rea.
Alm disso, nos estudos avaliados, os autores relatam geralmente impresses otimistas
em relao ao uso destas tcnicas no contexto de minerao de processos, incluindo os
salientes resultados numricos, apoiando a produo de conhecimento til para as reas
de negcio envolvidos nos estudos. No entanto, considerando o ponto de vista da rea de
inteligncia computacional, uma anlise dos testes e mtricas de estratgias para avaliar
os resultados quantitativos apresentados nestes estudos revela um grau de imaturidade
73

Figura 9 Classificao resumida dos estudos primrios considerando tipos de minerao


de processos contra tipos de tarefas de minerao de dados e tcnicas usadas

Fonte: Ana Roco Crdenas Maita, 2015

dessas obras na padronizao dos mtodos de avaliao e da disponibilidade de referncias


de conjuntos de dados que permitam a reprodutibilidade dos estudos.
A fim de apoiar as anlises e discusso alm das apresentadas aqui, a tabela 14
apresenta um resumo dos dados anteriormente apresentados nas tabelas 8 e 13. Ela permite
visualizar de forma integrada todos os 11 estudos primrios considerando todos os aspectos
avaliados juntos, como definidas por meio das trs questes de investigao, ou seja: tipos
de minerao de processos, tipos de tarefas de minerao de dados, e os detalhes das
tcnicas usadas. Por uma questo de simplicidade a tabela 14 apresenta apenas os atributos
e as combinaes de atributos existentes apresentadas nas tabelas anteriores. Tambm com
o objetivo de resumir todos os resultados em conjunto, a figura 9 apresenta uma anlise
cruzada considerando os tipos de minerao de processos contra os tipos de tarefas de
minerao de dados e algumas informaes sobre a tcnica usada em cada estudo preliminar.
As obras identificadas nesta reviso sistemtica compartilham um padro em relao aos
itens que ns pesquisamos por meio das perguntas de pesquisa especficas. A maioria dos
trabalhos so estudos que realizam alguma forma de aprimoramento de minerao de
processos, principalmente usando redes neurais. As anlises a seguir, apresentam para cada
uma das questes de pesquisa investigadas nesta reviso sistemtica, bem como alguns
anlises cruzados da reviso sistemtica.
74

Em relao ao tipo de minerao de processos tratados nos estudos primrios


avaliados, de acordo com a tabela 14 e figura 9, aproximadamente 55% dos artigos
referem-se ao tipo Aprimoramento, seguido por cerca de 27% que se referem ao tipo
Conformidade, e cerca de 18% referem-se ao tipo Descoberta. Embora esta classificao
leva em considerao as definies propostas por Aalst (2011), a maioria dos estudos
primrios identificados nesta reviso sistemtica no se aderiram totalmente aos conceitos
apresentados por este especialista em minerao de processos. Por exemplo, apenas quatro
dos 11 estudos primrios referem explicitamente ao termo minerao de processos (J-4,
J-5, C-1, C-2) e um deles refere-se explicitamente ao minerao de workflow (J-2). Assim,
pouco mais da metade dos estudos primrios identificados foram avaliados por referir-se
aplicao de minerao de dados no contexto de processos de negcio (ou workflow), o
que foi entendido indiretamente como minerao de processos. Alm disso, apenas cinco
dos 11 estudos mencionam explicitamente o uso de log de eventos (com diferentes termos)
na sua abordagem (J-2, J-3, J-4, J-5, C-1). Isso significa que pouco mais da metade dos
estudos primrios no so identificados com base na anlise de log de eventos para realizar
tarefas de minerao de dados e podem no representar exatamente o que definido como
minerao de processos. Finalmente, apenas cinco estudos explicitamente lidam com o
modelo de processos ou modelo de workflows, que considerado base para os trs tipos
de minerao de processos de acordo com Aalst (2011) (J-4 J-5, J-6, C-2, C-3). No geral,
apenas dois estudos atendem a essas trs caractersticas avaliadas em conjunto (J-4 e J-5)
(ou seja, 22%), enquanto trs estudos no cumprem quaisquer de tais caractersticas (J-1,
J-7, C-4) (ou seja, 33%).
Em relao aos tipos de redes neurais e mquinas de vetores de suporte usados
para implementar tarefas de minerao de dados, quando especificamente aplicadas no
contexto de minerao de processos, os dados presentados mostram que:

Enquanto 64% dos estudos usam redes neurais, apenas 36% deles usam mquinas de
vetores de suporte. Redes neurais so mais populares do que mquinas de vetores
de suporte em diversas reas de aplicao, dado que as mquinas de vetores de
suporte comearam a ser estudadas, de forma mais intensa, somente em meados
de 1990. Redes neurais, no entanto, tm sido estudada desde a dcada de 1940,
embora na maior parte da dcada de 1950 elas receberam muito pouca ateno do
meio acadmico. Dado que as mquinas de vetores de suporte tornaram-se populares
75

muito recentemente, perfeitamente normal que exista uma lacuna em seu uso
em comparao com redes neurais nas reas de aplicao, incluindo minerao de
processos, embora as duas tcnicas apresentam resultados semelhantes.
Em relao aos estudos que usam redes neurais, 71% usam a arquitetura feedforward
multicamadas com aprendizado supervisionado e apenas 29% usam a arquitetura de
camada competitiva com o aprendizado no supervisionado. O uso desses tipos de
redes neurais esperado, visto que eles so os mais populares na minerao de dados,
principalmente devido a seu potencial para a resoluo de problemas, desse modo,
uma maior disponibilidade de ferramentas computacionais de suporte a aplicaes.
No entanto, as arquiteturas de feedforward de camada nica, recorrentes de camada
nica, recorrentes multicamada, e tambm tipos de redes de aprendizado por reforo
e de pesos fixos no so usadas em nenhum dos estudos primrios selecionados. Isso
tambm era esperado, uma vez que, mesmo na rea de minerao de dados em geral,
esses tipos de redes neurais aparecem com menor frequncia, ou porque eles so
muito simples e limitados como a arquitetura de camada nica, ou porque eles so
s adequados para o tratamento tipos de problemas variados como o aprendizado
por reforo, altamente aplicveis em simuladores e robtica.
Em relao aos estudos que usam mquinas de vetores de suporte, todos eles usam a
classificao bsica do modelo de mquinas de vetores de suporte para classificao
(com aprendizado supervisionado); isto , as variaes de classificao por vetores
suporte e regresso por vetores suporte no so usadas em qualquer estudo. Isto
provavelmente porque redes neurais so mais populares, desde que classificao
por vetores suporte e redes neurais so igualmente aplicveis para contextos de
agrupamento, como mquinas de vetores de suporte e para contextos de regresso.
De qualquer forma, considerando um total de apenas 11 estudos primrios, a falta de
estudos que usam classificao por vetores suporte e regresso por vetores suporte
no representa necessariamente um padro para rea de minerao no processo, mas
sim apenas um indicativo.

Com relao s tarefas de minerao de dados que esto sendo tratados em estudos
de minerao de processos que usam redes neurais ou mquinas de vetores de suporte, os
dados apresentados mostram que: 55% dos estudos identificados tratam a tarefa predio
categrica (ou classificao); 27% tratam a tarefa previso numrica (considerando o tipo
76

de regresso); e 18% tratam a tarefa de anlise de agrupamentos. A tarefa predio


numrica (do tipo identificao tendncias) no referenciado em nenhum dos estudos.
Em relao tarefas de Descoberta de padres frequentes, regras de associao e regras
de correlao, dois estudos comentam sobre a resoluo de tais tarefas, no mbito de uma
abordagem mais global, combinada com a previso categrica (ou classificao), em um
dos estudos; e com a anlise de agrupamentos em outro estudo. No entanto, nesses casos,
essa tarefa no est diretamente ligada s atividades que as redes neurais ou mquinas de
vetores de suporte resolvem, portanto, no se inserem no mbito da anlise desta reviso
sistemtica.
A anlise cruzada apresentada na tabela 14 e figura 9 mostrou que dos seis estudos
que lidam com a tarefa predio categrica (ou classificao), quatro usam mquinas
de vetores de suporte, enquanto apenas dois usam redes neurais. Considerando a tarefa
de predio numrica (do tipo regresso) todos os estudos usam redes neurais. Dado
que as mquinas de vetores de suporte esto se tornando cada vez mais populares e,
tradicionalmente, o conhecimento das variaes classificao por vetores suporte e
regresso por vetores suporte ocorre somente mais tarde, provvel que os estudos na
rea de minerao o processo tambm comeassem a us classificao por vetores suporte
e regresso por vetores suporte, em vez de redes neurais, para estas duas tarefas que
at agora tm sido tratados apenas com redes neurais. Em geral, mquinas de vetores de
suporte muitas vezes provou ser superior a redes neurais, considerando o tratamento do
risco estrutural, alm do risco emprico que gera potencialmente resultados mais precisos
do que tratar apenas o risco emprico, como realizada pelas redes neurais.
Em geral, cerca de 80% dos estudos primrios avaliados nesta reviso sistemtica
apresentaram resultados positivos, com benefcios de minerao de processos, como o
aumento da produtividade e eficincia nos processos de negcio. No entanto, nem todos
estes resultados positivos podem ser atribudos ao uso de redes neurais e mquinas de
vetores de suporte, uma vez que a maioria dos estudos sugerem abordagens hbridas que
combinam uma srie de diferentes tcnicas e tecnologias.
Tabela 14 Classificao resumida dos estudos primrios considerando todos os aspectos avaliados juntos
(Tipo de
minerao de Descoberta Conformidade Aprimoramento
processos)
(Tipo de Predio Predio Predio Predio
minerao Anlise de categrica Categrica numrica Categrica
de dados) agrupamentos (ou classificao) (ou classificao) tipo Regresso (ou classificao)
(Tipo de Aprendizado no Aprendizado Aprendizado
aprendizado) supervisionado supervisionado supervisionado
(Tipo de Redes neurais Redes neurais Mquinas de Redes neurais Mquinas de
tcnica) artificiais artificiais vetores suporte artificiais vetores suporte
(Arquitetura de Mquinas de Mquinas de
redes neurais vetores vetores
/variao Camada Feedfordward suporte para Feedfordward suporte para ndice de
de mquinas de competitiva multicamada classificao multicamada classificao qualidade
vetores suporte)
J-1 X 8.0
J-2 X 8.5
C-1 X 5.5
C-2 X 4.5
C-3 X 5.5
J-3 X 4.0
J-4 X 9.5
J-5 X 10.0
C-4 X X 10.0
J-6 X 8.5
J-7 X 9.5
Fonte: Ana Roco Crdenas Maita, 2015
77
78

De acordo com a avaliao dos estudos primrios em relao sua qualidade, como
mostra a tabela 8, estes estudos foram geralmente bem avaliados, especialmente em relao
aos critrios de relatrio e relevncia. No entanto, apenas artigos publicados nos
ltimos trs anos foram completamente bem avaliados em relao maioria dos critrios,
incluindo tambm rigor e credibilidade, com exceo de um estudo publicado em 2006,
que em sete dos critrios foi bem avaliado. Os documentos menos recentes referem-se a
estudos mais bsicos, e que no apresentam claramente a aplicao, testes e verificao
dos resultados obtidos com as abordagens propostas. Estes concentram a maior parte dos
estudos publicados em anais de congressos, o que poderia explicar um pouco a avaliao
desfavorvel em termos de qualidade. Alm disso, os documentos mais antigos referem-se
ao perodo em que a minerao de processos estava ainda sendo divulgada, com o trabalho
de pesquisa focado em mostrar o seu potencial. A boa avaliao sobre a qualidade dos
trabalhos recm-publicados mostra que os pesquisadores esto mais preocupados com
a contribuio real das redes neurais e mquinas de vetores de suporte no contexto de
minerao de processos.

4.2 Mapeamento sistemtico (geral)

O mapeamento sistemtico foi conduzido de forma similar reviso sistemtica


apresentada na seo anterior, mas em um nvel de granularidade maior por ser um estudo
mais amplo e menos detalhado.

4.2.1 Resultados do mapeamento sistemtico

Estudos primrios foram identificados tambm com base na estratgia estabelecida


por Chen e Babar (2011). Tal estratgia consiste em trs etapas principais: (i) identificao
dos estudos relevantes em bancos de dados de pesquisa (resultado = 3.962 registros
encontrados); (ii) aplicao dos critrios de incluso e de excluso (resultado = 705 estudos
primrios selecionados); e (iii) avaliao da qualidade dos estudos primrios (resultado =
705 estudos primrios avaliados).
Em termos gerais, a figura 10 apresenta uma distribuio temporal dos 705 estudos
primrios relacionados a minerao de processos (de 2005 a 2014), classificados por tipo de
79

publicao (peridico ou conferncia). Destaca-se um aumento considervel e progressivo


no nmero de publicaes tanto em peridicos quanto em conferncias.

Figura 10 Distribuio de estudos primrios por ano (Mapeamento sistemtico)

Fonte: Ana Roco Crdenas Maita, 2015

Primeiramente, uma anlise foi realizada especificamente para a conferncia ou


peridico em que cada um dos 705 estudos primrios selecionados, procurando a existncia
de veculos que, devido a sua natureza, poderiam ter a publicao de um maior nmero de
trabalhos relacionados a minerao de processos. Considerando conferncias, 243 diferentes
veculos foram responsveis por publicar a totalidade de 473 trabalhos publicados em
anais de eventos. Por outro lado, considerando peridicos, 117 diferentes veculos foram
responsveis por publicar a totalidade de 232 estudos primrios publicados em peridicos.
Os dados detalhados relacionados com a conferncia ou peridico especfico em que foram
publicados esses estudos primrios so os seguintes:

Dezessete conferncias publicaram pelo menos cinco estudos primrios cada um,
conforme apresentado na tabela 15. Alm disso, estas 17 conferncias mais populares
foram em conjunto responsveis pela publicao de 183 documentos (que representam
39% dos 473 trabalhos publicados em anais de congressos, isto , quase a metade
deles). Os restantes 290 estudos foram espalhados entre 226 conferncias diferentes.
Sete revistas publicaram pelo menos cinco estudos primrios cada uma, conforme
apresentado na tabela 16. Alm disso, essas sete principais revistas mais populares
em conjunto foram responsveis pela publicao de 72 artigos (que representam 31%
80

dos 232 artigos publicados em revistas, isto , cerca de um tero deles). O resto,ou
seja, 160 estudos foram espalhados entre 110 revistas diferentes.

Tabela 15 Dezessete conferncias com maior nmero de publicaes em minerao de


processos nos ltimos dez anos
Pos Iniciais Ttulo da Conferncia # de estu-
dos prim-
rios
1 BPM International Conference on Business Process Management 61
2 CAiSE International Conference on Advanced Information Systems 16
Engineering
3 SIMPDA International Symposium on Data-Driven Process Disco- 11
very and Analysis
4 Petri International Conference on Application and Theory of 10
Nets Petri Nets and Concurrency
5 CIDM IEEE Symposium on Computational Intelligence and Data 9
Mining
6 SAC ACM Symposium on Applied Computing 8
6 BPMDS International Workshop on Business Process Modeling, De- 8
velopment and Support
8 CEC IEEE Congress on Evolutionary Computation 7
8 EDOC IEEE International Enterprise Distributed Object Compu- 7
ting Conference
8 ICT&KE International Conference on ICT and Knowledge Enginee- 7
ring
11 BIS International Conference on Business Information Systems 6
11 BPI International Workshop on Business Process Intelligence 6
11 ICDM IEEE International Conference on Data Mining 6
11 ICEIS International Conference on Enterprise Information Sys- 6
tems
15 CSCWD IEEE International Conference on Computer Supported 5
Cooperative Work in Design
15 ICEBE IEEE International Conference on e-Business Engineering 5
15 PAKDD Pacific-Asia Conference on Advances in Knowledge Disco- 5
very and Data Mining
Fonte: Ana Roco Crdenas Maita, 2015

Ainda em termos gerais, por meio de uma verificao manual nos dados de autoria
de cada estudo, encontrou-se que os 705 estudos primrios selecionados nesse mapea-
mento sistemtico foram produzidos por 1.275 autores diferentes, de 469 instituies de
pesquisa diferentes, localizadas em 61 pases diferentes. Esses nmeros representam o
quo generalizada a pesquisa relacionada a minerao de processos. Uma anlise foi
realizando levando-se em conta apenas os mais produtivos, para permitir uma anlise mais
81

Tabela 16 Sete peridicos com maior nmero de publicaes em minerao de processos


nos ltimos dez anos
Pos Iniciais Ttulo do peridico # de es-
tudos pri-
mrios
1 ESA Expert Systems with Applications 19
2 JIS Information Systems 17
3 DKE Data and Knowledge Engineering 9
4 DSS Decision Support Systems 8
4 IJBPIM International Journal of Business Process Integration and 8
Management
6 TKDE IEEE Transactions on Knowledge and Data Engineering 6
7 SMC IEEE Transactions on Systems, Man, and Cybernetics 5
Fonte: Ana Roco Crdenas Maita, 2015

aprofundada de onde o maior nmero de trabalhos nas reas de minerao de processos


tm sido desenvolvidos. Os seguintes dados foram levantamos:

Os principais pases na publicao de estudos primrios neste contexto, contriburam


com pelo menos 50 estudos cada um, e em conjunto contriburam com a produo
de 62% do total de 705 estudos primrios selecionados (ou seja, quase dois teros do
total), conforme apresentado na tabela 17.
As doze principais instituies de pesquisa, que contriburam com a produo de pelo
menos dez estudos primrios cada uma, como apresentado na tabela 18, contriburam
em conjunto de 34% do total de 705, ou seja, aproximadamente um tero do total.
Os dezesseis principais pesquisadores, que contriburam com a produo de, pelo
menos, dez estudos primrios cada um, como apresentado na tabela 19, contriburam
em conjunto com a produo de 29% do total de 705 estudos primrios selecionados,
ou seja, aproximadamente um quarto do total.

Nos trs casos anteriormente mencionados, um mesmo trabalho pode ser produzido
por autores de diferentes instituies ou mesmo diferentes pases. Assim, mais de uma
instituio ou mais de um pas pode ter contribudo para sua produo.
As sees a seguir apresentam os resultados relacionados s respostas das questes
de pesquisa estruturados nessa ordem.
82

Tabela 17 Dezessete pases com maior nmero de publicaes em minerao de processos


nos ltimos dez anos
Pos Pas # de estudos
primrios
1 Holanda 147
2 China 125
3 Alemanha 68
4 Estados Unidos de Amrica 67
5 Itlia 61
6 Reino Unido 39
7 Austrlia 36
8 Coreia do Sul 35
9 Espanha 34
10 Blgica 33
11 ustria 22
11 Brasil 22
11 Frana 22
14 Hong Kong 16
14 Portugal 16
16 ndia 15
17 Tailndia 10
Fonte: Ana Roco Crdenas Maita, 2015

Tabela 18 Doze instituies de pesquisa com maior nmero de publicaes em minerao


de processos nos ltimos dez anos
Pos Instituio de pesquisa Pas # de
estudos
primrios
1 Univ. Tecnolgica de Eindhoven Holanda 129
2 Univ. Catlica de Leuven Blgica 26
3 Univ. Politcnica da Catalunha Espanha 20
4 Univ. de Tsinghua China 18
5 Univ. Tecnolgica de Queensland Austrlia 16
5 Univ. da Calbria Itlia 16
7 Inst. de Computao de Alto Desempenho e Networking Itlia 15
8 Univ. Tcnica de Lisboa Portugal 14
8 Univ. de Southampton Reino Unido 14
10 Univ. de Twente Holanda 12
11 Univ. Politcnica de Hong Kong China 10
12 Univ. de Ulm Alemanha 10
Fonte: Ana Roco Crdenas Maita, 2015
83

Tabela 19 Dezesseis pesquisadores com maior nmero de publicaes em minerao de


processos nos ltimos dez anos
Pos Pesquisador Instituio de pesquisa Pas # de
estudos
primrios
1 W. M. P. Aalst Univ. Tecnolgica de Eindhoven Holanda 105
2 B. Baesens Univ. de Southampton Reino 20
Unido
2 J. Vanthienen Univ. Catlica de Leuven Blgica 20
4 B. F. van Dongen Univ. Tecnolgica de Eindhoven Holanda 19
5 J. Carmona Univ. Politcnica da Catalunha Espanha 18
6 M. Song Ulsan Inst. Nacional de Cincia e Tec- Coria do 15
nologia Sul
7 G. Greco Univ. de Calbria Itlia 14
7 A. Guzzo Inst. de Computao de Alto Desem- Itlia 14
penho e Networking
7 L. Pontieri Inst. de Computao de Alto Desem- Itlia 14
penho e Networking
7 J. Wang Univ. de Tsinghua China 14
11 D. R. Ferreira Univ. Tcnica de Lisboa Portugal 13
12 R. P. J. C. Bose Univ. Tecnolgica de Eindhoven Holanda 12
12 L. Wen Univ. de Tsinghua China 12
14 A. Rozinat Univ. Tecnolgica de Eindhoven Holanda 11
15 W. Gaaloul Inst. Nacional de Pesquisa em Infor- Frana 10
mtica e Automao
15 A. K. A. Medeiros Univ. Tecnolgica de Eindhoven Holanda 10
Fonte: Ana Roco Crdenas Maita, 2015

4.2.1.1 Tipos de minerao de processos atendidos por minerao de dados

De acordo com os dados apresentados na figura 11, evidncias da aplicaes dos


trs tipos de minerao de processos consideradas neste estudo foram coletadas. O tipo
Descoberta de processos foi o mais comum, encontrado em 71% dos estudos primrios;
seguido pelo tipo Conformidade de processos encontrado em 37% deles; e, o tipo
Aprimoramento de processos foi o menos comum, encontrado em apenas 17% deles.
A figura 12 apresenta o nmero de estudos publicados focados nos diferentes tipos de
minerao de processos distribudos por ano, considerando os ltimos dez anos. Essa figura
exibe que, apesar de que a aplicao dos trs diferentes tipos de minerao de processos
incrementou-se durante tal perodo, o incremento ocorreu em diferentes momentos com
maior intensidade para diferentes tipos de minerao. Por exemplo, o tipo Descoberta de
processos, alm de ser o tipo mais amplamente usado, tem aumentado consistentemente
84

Figura 11 Tipos de minerao de processos, quando tratados individualmente

Fonte: Ana Roco Crdenas Maita, 2015

desde 2008, exceto para o ltimo ano, em que os dados podem no estar completos ainda.
Seguido do tipo Conformidade de processos, o qual foi quase constante durante seis anos
(2005-2010) e h apenas dois anos teve um incremento (2011-2012). Por fim, um ano mais
tarde, isto , apenas em 2012, o tipo Aprimoramento de processos, a menos aplicada,
comeou a apresentar um incremento depois de um perodo de sete anos (2005-2011) de
praticamente um uso constante.

Figura 12 Distribuio dos estudos primrios considerando os tipos de minerao de


processos identificados

Fonte: Ana Roco Crdenas Maita, 2015

O nmero total de estudos primrios tanto na figura 12 quanto na figura 11 maior


que 705, pois em muitos casos o mesmo trabalho pode tratar dois ou at mesmo trs
diferentes tipos de minerao de processos. A figura 13 apresenta os nmeros detalhados de
155 estudos primrios nos quais aplicaes de mais de um tipo de minerao de processos
foram identificados, este nmero representa 22% dos 705 estudos em total, que aplicam
85

mais de um tipo de minerao de processos. A combinao mais comum tratar os tipos


Descoberta de processos e Conformidade de processos juntos, que foi encontrado em 90
estudos (ou seja, em 13% do total); as combinaes menos comuns foram Descoberta de
processos e Aprimoramento de processos juntas, encontradas em 24 estudos (ou seja,
3% do total), seguidas por Conformidade de processos e Aprimoramento de processos,
encontrado em apenas 16 estudos (ou seja, 2% do total). A combinao dos trs tipos de
minerao de processos tratados em conjunto no mesmo estudo foi encontrada em apenas
24 estudos (ou seja, 3% do total).

Figura 13 Tipos de minerao de processos, quando tratados juntos no mesmo estudo


primrio

Fonte: Ana Roco Crdenas Maita, 2015

4.2.1.2 Tarefas de minerao de dados em minerao de processos

Os dados apresentados na figura 14 representam evidncias da aplicao das oito


tarefas de minerao de dados consideradas neste estudo, e definidas na seo 2.2.1.
Verifica-se que predio categrica (ou classificao) foi a tarefa mais usada, identificada
em 25% dos estudos primrios; anlise de dados estruturados foi a segunda mais usada,
identificada em 23% dos estudos primrios; anlise de agrupamentos foi a terceira mais
usada, identificada em 21% dos estudos primrios; descoberta de padres frequentes,
regras de associao, e regras de correlao, com 10%, 8%, e 3% dos estudos, respetiva-
mente; seguidas pela tarefa mais comum anlise de evoluo, identificadas em 18% dos
estudos primrios; seguidas por anlise de rudo e de outliers, identificada em 10% dos
estudos primrios; finalmente, as tarefas menos comuns foram predio numrica (do tipo
86

regresso) e predio numrica (do tipo identificao de tendncias), identificados em


6% e 3% dos estudos primrios, respetivamente. Finalmente, Outras ou no identificadas,
contendo aqueles estudos onde no foi possvel uma definio da tarefa usada com os dados
informados pelo autor, isso representa apenas um 4% do total de estudos primrios.

Figura 14 Tarefas de minerao de dados identificadas nos estudos primrios de minera-


o de processos

Fonte: Ana Roco Crdenas Maita, 2015

A figura 15 mostra o nmero de estudos primrios considerando as diferentes tarefas


de minerao de dados distribudas por ano, durante a ltima dcada (com excepo
apenas da categoria Outras ou no identificadas). Cada barra vertical, de cada tarefa de
minerao de dados, representa um ano; isto , dez anos em total para cada tarefa. Esta
figura mostra um incremento nas aplicaes de todas as diferentes tarefas de minerao de
dados para a rea especfica de minerao de processos. Alguns pontos excepcionais podem
ser observados tais como, por exemplo, um grande incremento na aplicao da tarefa
anlise de agrupamentos. De igual forma, observa-se para a tarefa predio categrica
(ou classificao), em 2010, e para anlise de dados estruturados, em 2009.
A figura 16 representa a anlise cruzada entre as tarefas de minerao de dados e
os tipos de minerao de processos tratados, a fim de ver quais tarefas so mais aplicadas
em determinados tipos de minerao de processos. Verifica-se que o maior nmero de
ocorrncias se refere ao tratamento da tarefa de predio categrica (ou classificao) para
87

Figura 15 Distribuio por ano, no perodo de 2004 a 2014, de tarefas de minerao de


dados aplicadas em minerao de processos

Fonte: Ana Roco Crdenas Maita, 2015

Figura 16 Anlise cruzada entre tipos de minerao de processos e tarefas de minerao


de dados identificadas nos estudos primrios

Fonte: Ana Roco Crdenas Maita, 2015


88

resolver a descoberta de processos de negcio, representando 15% do total de combinaes.


Esse nmero bastante alto em comparao s combinaes de menor ocorrncia, ou seja,
a tarefa anlise de rudo e de outliers para resolver o aprimoramento de processos, ou a
tarefa predio numrica (do tipo regresso) para resolver a conformidade de processos,
que representam apenas 0,1% do total de combinaes cada uma delas. Destacam-se outras
combinaes mais representativas, principalmente para o tipo de descoberta de processo,
que o tipo mais usado, em conjunto com as cinco primeiras tarefas de minerao mais
usadas, na ordem do grfico (seguindo a mesma ordem da figura 14). Essas cinco maiores
combinaes em conjunto representam 60% do total de combinaes identificadas neste
grfico; ou seja, representam mais da maioria.
Ainda em relao s combinaes de tarefas de minerao de dados quando aplicadas
na minerao de processos, a figura 17 mostra que as tarefas mais amplamente aplicadas
puramente ou combinados com outras. Embora o uso de tarefas de minerao de dados
combinados com outras tarefas tem uma mdia de cerca de 42%, essa taxa varia entre 55%
(considerando a tarefa anlise de Outliers) para 16% (considerando a tarefa previso
numrica).

Figura 17 Tarefas de minerao de dados mais amplamente usadas em combinao com


outras tarefas quando aplicadas em um mesmo estudo primrio minerao de
processos

Fonte: Ana Roco Crdenas Maita, 2015


89

4.2.1.3 Tcnicas usadas para tratar as tarefas de minerao de dados no contexto


de minerao de processos

Para avaliar as tcnicas usadas nos estudos primrios selecionados, elas foram
agrupados em funo do princpio fundamental usado na soluo da tarefa de minerao.
Devido grande variedade de abordagens usadas, assim como de variaes dos algoritmos
propostos pelos autores, para essa classificao, houve uma forte necessidade do auxlio
dos conhecimentos da Profa. Dra. Sarajane Peres, quem a coorientadora deste trabalho
e especialista na rea de minerao de dados.
A figura 18 representa as evidncias de aplicao para 13 diferentes tcnicas
de inteligncia computacional e de aprendizado de mquina; assim como, 12 tcnicas
tradicionais em minerao de dados consideradas em estudo e definidas na seo 2.2.3.
O grfico est dividido em duas partes: no lado esquerdo, as ocorrncias das tcnicas
especficas das reas de inteligncia computacional ou aprendizado de mquina; e, no lado
direito, as ocorrncias das tcnicas consideradas neste trabalho como tradicionais para
este contexto. Note-se que um mesmo trabalho pode apresentar a ocorrncia de mais do
que uma tcnica sendo usada para resolver uma ou mais tarefas de minerao de dados;
assim, a quantidade total de tcnicas muito maior ao total de estudos primrios.
No total, so 1.253 ocorrncias de 25 classes de tcnicas em 705 estudos primrios,
234 de tais tcnicas so relacionadas s reas de inteligncia computacional e de aprendizado
de mquina, as quais representam um 19% do total encontrado; em contraste, 1019 tcnicas
so consideradas como tradicionais em minerao de dados, as quais representam um
71% do total encontrado. Alm do mais, considerando as tcnicas das reas puramente
de inteligncia computacional e de aprendizado de mquina, apenas trs delas isto ,
computao evolutiva, lgica fuzzy e rvores de deciso conseguiram mais do que 5% do
total encontrado. Entretanto, considerando as tcnicas tradicionais de minerao de dados,
a maioria delas, exceto por apenas trs isto , tcnicas baseados em agentes, operaes
OLAP e tcnicas baseadas em caso - conseguiram mais de 5% do total encontrado.
Ainda sobre os diferentes tipos de tcnicas a ser aplicadas, de acordo com os
dados apresentados na figura 19, do nmero total de estudos primrios selecionados no
mapeamento realizado 705, apenas 12% deles usam puramente (uma ou mais) tcnicas
de inteligncia computacional de aprendizado de mquina, exclusivamente. Por outro
lado, 72% deles usam puramente (uma ou mais) as tcnicas tradicionais de minerao de
90

Figura 18 Tcnicas em minerao de dados aplicadas identificadas nos estudos primrios


de minerao de processos

Fonte: Ana Roco Crdenas Maita, 2015

Figura 19 Principais agrupamentos dos tipos de tcnicas em minerao de dados aplicadas


em minerao de processos identificadas nos estudos primrios

Fonte: Ana Roco Crdenas Maita, 2015


91

Figura 20 Tcnicas de inteligncia computacional e de aprendizado de mquina aplicadas


em minerao de processos identificadas nos estudos primrios

Fonte: Ana Roco Crdenas Maita, 2015

dados, exclusivamente. Por ltimo, 16% dos estudos primrios usam ambos os tipos de
tcnicas em um mesmo trabalho: (uma ou mais) tcnicas de inteligncia computacional ou
aprendizado de mquina e (uma ou mais) tcnicas de minerao de dados tradicionais.
Ao todo, apenas 28% dos estudos primrios usam pelo menos uma tcnica de inteligncia
computacional ou o aprendizado da mquina; ou seja, 198 dos 705 estudos.
Especificamente em termos das 234 ocorrncias de tcnicas de inteligncia com-
putacional e de aprendizado de mquina, conforme apresentado na figura 18, a figura 20
apresenta uma viso detalhada segundo o tipo classificao principal usado; ou seja, inteli-
gncia computacional ou aprendizado de mquina, e neste ltimo caso, tambm em termos
de aprendizado, seja Aprendizado supervisionado ou Aprendizado no supervisionado. No
total, existem mais de 234 ocorrncias na figura 20 uma vez que trs das tcnicas so
classificadas como tcnicas de inteligncia computacional e de aprendizado de mquina,
ou seja, redes neurais, mquinas de vetores de suporte e SOM. Como resultado, os estudos
que usam essas tcnicas so contados duas vezes. Em linhas gerais, 140 estudos usam
alguma tcnica de inteligncia computacional, ou seja, 55% do montante total, ao passo
que 116 usam alguma tcnica de aprendizado de mquina, ou seja, 45% do montante total
(dos quais, 89 usam abordagens de aprendizado supervisionado e 27 usam aprendizado
no supervisionado, isto 35% e 11% do total, respectivamente).
A figura 21 mostra uma anlise cruzada entre as tcnicas de minerao de dados
(aquelas de inteligncia computacional e de aprendizado de mquina do lado esquerdo e as
tcnicas tradicionais do lado direito da imagem), quando aplicadas em cada um dos trs
tipos de minerao de processos. Em termos das combinaes tcnica usada com tipo de
minerao de processos, as quatro combinaes mais frequentes so: primeiro, Tcnicas
92

baseadas em estrutura de grafos e o tipo Descoberta de processos, identificada em 195


estudos; segundo, Tcnicas baseadas em estrutura de grafos e o tipo Conformidade de
processos, identificada em 116 estudos; terceiro, Probabilidade e estatstica e o tipo
Descoberta de processos, identificada em 90 estudos; quarto, Tcnicas baseadas em
dados temporais e o tipo Descoberta de processos, identificada em 86 estudos; e quinto,
Tcnicas baseadas em heursticas e o tipo Descoberta de processos, uma vez que juntas
representam o 41% do total. Em contraste, as combinaes menos usadas so K-means e
classificador Naive Bayes quando aplicada no tipo aprimoramento de processos, apenas
um artigo para cada caso, tratou essas combinaes. Destaca-se que redes neurais a
uma tcnica usada de forma quase similar tanto para Descoberta de processos como para
Aprimoramento de processos, embora estudos da aplicao dela em Conformidade no
foram encontrados.
Verifica-se que a proporo da figura 16 para tarefas e tcnicas de minerao de
processos, ainda se mantm, visto que o existe maior concentrao de estudos de tcnicas
de minerao de dados aplicadas no tipo Descoberta de processos cerca de 68% do total,
frente ao restante dividido entre a Conformidade e o Aprimoramento do processo.

Figura 21 Anlise cruzada entre tipos de minerao de processos e tcnicas de minerao


de dados, identificadas nos estudos primrios

Fonte: Ana Roco Crdenas Maita, 2015

4.2.1.4 Anlises adicionais

A fim de prover uma extensa perspetiva da rea de pesquisa de minerao de


processos, as seguintes trs anlises so presentadas: domnio de aplicao, ferramentas
usadas, aderncias s definies de minerao de processos.
93

Em relao aos domnios de aplicao, a figura 22 mostra as diversas reas em


que foram aplicados estudos de caso ou experimentos, quando identificados nos estudos
primrios analisados no mapeamento realizado. No total, 48% dos estudos primrios
relataram algum estudo de caso ou experimento. Os dados mostram que as trs reas em
que minerao de processos tm sido mais frequentemente aplicada so: Processos clnicos,
Manufatura/Produo e Auditoria com 34, 28 e 22 estudos primrios, respectivamente,
sendo que as trs juntas representam 12% do total de estudos. Outros domnios de aplicao
como Redes sociais, Sistemas empresariais, Componentes de servios web, Suporte de TI,
Medicina, Municipalidades, Telecomunicaes, Economia, Sistemas acadmicos, Fluxos de
trabalho transacional, Sistemas de e-mail, Comercio eletrnico, Logstica, Milcia, polcia
e seguridade social, e Sistemas bancrios aparecem em 11 estudos primrios em mdia
cada um. Para outros 85 estudos primrios, no foi possvel identificar a rea de aplicao
do estudo de caso ou experimento.

Figura 22 Domnios de aplicao em minerao de processos

Fonte: Ana Roco Crdenas Maita, 2015

Em termos de ferramentas usadas para aplicar as tcnicas de minerao de dados,


considerando os estudos que mencionaram o uso de alguma ferramenta de apoio 84% usou
a ProM, apenas 15% usaram outras ferramentas, entre elas Weka, identificada em 14
estudos; e a Disco Fluxicom, identificada em 12 estudos. Em relao ao total de estudos
analisados, 401 (dos 705) no apresentaram detalhes da ferramenta usada em sua proposta
(Figura 23).
94

Figura 23 Ferramentas usadas em minerao de processos

Fonte: Ana Roco Crdenas Maita, 2015

Com relao adeso s definies de minerao de processos proposto por Dumas


et al. (2013), a maioria dos estudos primrios identificados no mapeamento sistemtico
realizado no se aderem plenamente aos conceitos apresentados por este especialista em
minerao de processos como apresentado na figura 24. Por exemplo, a partir dos 705
estudos primrios, 518 estudos referem explicitamente ao termo minerao de processos
ou de minerao de workflow. Assim, cerca de 27% dos estudos primrios identificados
foram avaliados por referir-se aplicao de minerao de dados no contexto de processos
de negcio (ou workflow), o que foi entendido como minerao de processos indiretamente.
Alm disso, 400 estudos mencionaram explicitamente o uso de log em suas abordagens,
chamados log de eventos, log de processo, registros de instncia ou outros termos
similares. Isto significa que cerca de 43% dos estudos primrios identificados no so
explicitamente com base na anlise de log de eventos para realizar tarefas de minerao
de dados e podem no representar exatamente o que definido como a minerao de
processos. Finalmente, 449 estudos explicitamente lidam com modelos de processos ou
modelos de fluxo de trabalho, que considerado a base para os trs tipos de minerao
de processos de acordo com Aalst (2011). Portanto, 36% dos estudos primrios no trata
explicitamente modelos de processos ou modelos de fluxo de trabalho na sua abordagem
em qualquer tipo de minerao do processo descoberta, conformidade ou aprimoramento.
Em geral, apenas 259 estudos satisfazem estas trs caractersticas avaliadas em conjunto
(isto , 37%), que podia ser considerada totalmente aderente definio de minerao
95

de processos dada por Dumas et al. (2013). Por outro lado, 63 estudos no satisfazem
nenhuma de tais caractersticas (isto , 9%), e, portanto, pode ser considerada totalmente
no aderente a tal definio, embora eles satisfazem todos os critrios de incluso.

Figura 24 Adeso dos resultados s definies usadas neste estudo

Fonte: Ana Roco Crdenas Maita, 2015

4.3 Um exemplo de aplicao em minerao de processos

Esta seo apresenta um exemplo da execuo de minerao de processos, usando


diferentes tipos, tcnicas e tarefas, conforme apresentado nas sees anteriores deste
trabalho. Esse exemplo tem como propsito caracterizar com mais detalhes o cenrio
de aplicao de minerao de processos em um ambiente real visando facilitar tanto a
compreenso dos problemas envolvidos em tal cenrio quanto a gerao de hipteses que
justifiquem de forma emprica, pelo menos parcialmente, o contexto atual de minerao de
processos.
Tal facilitao proporcionada pela apresentao de lies aprendidas obtidas a
partir de duas estratgias: (i) aplicao de duas ferramentas (Disco Fluxicon e ProM),
nas quais tcnicas elaboradas, ou adaptadas, especialmente para resolver problemas de
minerao de processos so implementadas; e (ii) definio de um problema de predio
categrica (ou classificao) que foi concebido em dois diferentes nveis de complexidade, de
forma a proporcionar algumas reflexes referentes construo de modelos de classificao,
96

usando uma ferramenta em que tcnicas de inteligncia computacional e de aprendizado


de mquina so implementadas (neste caso, especificamente, a rede neural Multilayer
Perceptron disponvel na ferramenta Weka). Esses casos de minerao de processos
foram executados nos contextos de descoberta de processos e de conformidade de processos.
O ambiente real usado como domnio de aplicao se refere ao processo de negcio
apoiado pelo uso de um sistema de ensino a distncia por alunos de cursos de especializao
oferecidos pela Universidade de So Paulo em conjunto com a Universidade Virtual do
Estado de So Paulo. Trata-se de um processo no estruturado, em que os alunos no
precisam seguir um modelo pr-definido rgido e, portanto, tal modelo nunca foi formalizado
junto a qualquer entidade ligada ao curso, incluindo: alunos, coordenadores pedaggicos,
administradores de sistema, desenvolvedores de sistema, etc. Assim, o processo sendo
minerado est apenas implcito no log de eventos obtido durante o uso do sistema. Embora
o processo seja no estruturado, pode ser til para as entidades envolvidas no curso
o entendimento do processo sendo seguido pelos alunos a fim de verificarem diversas
informaes relativas a eles, incluindo: perfil de alunos versus perfil de processo sendo
realizado; ou se o processo esperado pelos coordenadores estaria sendo executado ou no.
Assim, o objetivo da minerao de processos executada nesse domnio , em termos gerais,
descobrir e verificar qual o processo seguido pelos alunos durante o uso da plataforma
virtual.
Como procedimento para construo do exemplo, as seguintes etapas foram definidas:
(i) explorao do domnio de aplicao; (ii) definio dos tipos, tcnicas e tarefas de
minerao a serem explorados; (iii) pr-processamento dos registros do log de eventos e
criao de conjuntos de dados para minerao; (iv) aplicao de tcnicas para minerao
de processos disponveis nas ferramentas Disco Fluxicon e ProM; (v) aplicao de uma
tcnica de inteligncia computacional e/ou aprendizado de mquina em minerao de
processos (considerando aquelas disponveis da ferramenta Weka); (vi) reflexo sobre as
lies aprendidas durante a execuo do exemplo.

4.3.1 Explorao do domnio de aplicao

O exemplo de aplicao de minerao de processos descrito aqui foi executado a


partir de registros de log de eventos referentes navegao realizada por alunos de cursos de
especializao em um sistema de ensino a distncia especialmente desenvolvido para apoiar
97

o processo de ensino e aprendizagem dos cursos tica, Valores e Cidadania na Escola


EVC. O sistema de apoio aos cursos (chamado aqui de sistema EVC) foi desenvolvido sobre
a plataforma Moodle, a qual, de forma nativa, realiza o armazenamento das interaes
dos usurios com os objetos de aprendizagem disponveis no sistema. Informaes mais
especficas sobre o sistema EVC e o processo de seu desenvolvimento so descritas por
Junior et al. (2013), PERES et al. (2012).
Aproximadamente 1.500 usurios (entre alunos, tutores e coordenadores pedaggi-
cos) interagiram com o sistema e com a plataforma Moodle durante a realizao desses
cursos. Para fins de desenvolvimento deste exemplo prtico de minerao de processos,
foram considerados 291 alunos matriculados no terceiro oferecimento do curso EVC, re-
alizado entre as datas de 23/08/2013 a 09/12/2014. As interaes dos usurios com o
sistema durante esse perodo resultaram em cerca de 300.000 registros em log de eventos.
A estrutura dos registros do log de eventos armazenados pela plataforma Moodle para
o sistema EVC descrita na tabela 20, e um trecho do arquivo de log de eventos
apresentado na figura 25.

Tabela 20 Estrutura original de um registro de log de eventos do sistema EVC


Rtulo do campo Descrio Tipo de dado
Curso Nomenclatura tcnica usada pelos desenvolvedores Texto
do sistema
Hora Momento em que o usurio executa cada ao no Data/hora
sistema
Endereo IP Endereo do Internet Protocol da mquina de acesso Mscara para
do usurio endereo IP
Nome completo Nome completo do usurio logado no sistema EVC Texto
Ao Identificao da ao do usurio na navegao no Texto
sistema EVC. Trata-se do acesso a um objeto de
aprendizagem no sistema
Informao Informao adicional sobre a ao realizada pelo Texto
usurio
Fonte: Ana Roco Crdenas Maita, 2015

4.3.2 Definio das tcnicas, tarefas e tipos de minerao

O exemplo de aplicao de minerao de processos foi dividido em duas grandes


partes: (i) primeiramente, por meio da aplicao de tcnicas de minerao disponveis em
ferramentas desenvolvidas especificamente para o contexto de minerao de processos, o
98

Figura 25 Exemplo de um trecho no log de eventos original do sistema EVC

Fonte: Ana Roco Crdenas Maita, 2015

que poderia levar aplicao de tcnicas tradicionais de acordo com o contexto tratado
neste trabalho; e (ii) depois, por meio da aplicao de tcnicas especificamente da rea
de inteligncia computacional e/ou aprendizado de mquina, o que demandaria o uso de
ferramentas mais gerais da rea de minerao de dados.
Considerando, a primeira parte do exemplo, os resultados do mapeamento sistem-
tico realizado neste trabalho sinalizam as ferramentas Disco Fluxicon e ProM como as mais
usadas em minerao de processos. A primeira, uma plataforma de cdigo aberto, possui
uma grande variedade de plug-ins disponveis para os trs tipos de minerao de processos.
J a Disco Fluxicon uma ferramenta comercial (porm com licenas especiais para uso
acadmico) exclusiva para o tipo de minerao de processos Descoberta de processos.
Essas duas ferramentas foram usadas no domnio de aplicao do sistema EVC a fim de
exemplificar a minerao de processos. Assim, essas duas ferramentas foram selecionadas
para uso neste exemplo.
Em relao aos tipos de minerao a serem usados, foram selecionados descoberta
de processos e conformidade de processos. minerao de processos se encaixa no domnio
de aplicao do sistema EVC visto que no existe um modelo de processo explicitamente
definido em tal contexto, embora pudesse ser til para os diversos atores envolvidos.
Assim, para esse caso especfico, o exemplo construdo consistiu em apresentar os log de
eventos, pr-processados de forma a atender aos requisitos de entrada de dados de ambas
ferramentas Disco Fluxicon e ProM, para resolver o tipo de minerao descoberta de
processos.
Alm da descoberta de processos, o tipo de minerao conformidade tambm foi
explorado nesse exemplo, uma vez que, alm de estar disponvel na ferramenta ProM, o
segundo tipo mais usado de acordo com o mapeamento realizado e tem potencial de trazer
99

informaes importantes para os atores do sistema EVC. Para isso, o conjunto completo
log de eventos pr-processado foi dividido em grupos (trs, nesse caso especfico) para
explorar a conformidade do processo entre diferentes grupos de usurios do sistema: assim,
primeiramente, um dos grupos seria usado para se descobrir o processo, e outros grupos
seriam usados para verificar a conformidade do processos que eles estavam executando
com o processo descoberto inicialmente para o primeiro grupo. As caratersticas usadas
para a separao dos usurios em grupos est apresentada na seo 4.3.3.
Para essa primeira parte do exemplo, no foi possvel haver uma definio prvia da
tcnica a ser usada e da tarefa de minerao de dados a ser resolvida assim como da tarefa
de minerao de dados a ser tratada. Isso ocorreu por limitao da abordagem seguida
que se baseava no uso das ferramentas Disco Fluxicon e ProM. Para o caso da ferramenta
Disco Fluxicon, por ser uma ferramenta comercial, e at onde foi possvel averiguar em um
trabalho de busca de informao em artigos cientficos, tcnicos e em websites correlatos ao
tema, no h informaes sobre o algoritmo ou a tcnica usada para resolver os problemas
de minerao de processos; mas apenas que essa ferramenta realiza uma anlise baseada
nas frequncias de ocorrncia de cada atividade. Em relao ferramenta ProM, ainda
seria necessrio executar uma explorao prtica dos diversos plug-ins nela disponveis,
pois so inmeros, com diferentes caractersticas e limitaes.
Na segunda parte do exemplo, para exercitar a aplicao de uma tcnica de inte-
ligncia computacional e/ou de aprendizado de mquina no contexto de minerao de
processos, considerando o domnio de aplicao do sistema EVC, optou-se por, primeira-
mente, escolher uma tarefa de minerao de dados a ser usada no exemplo, e ento definir
a tcnica a ser aplicada. Seguindo os resultados do mapeamento sistemtico realizado,
verificou-se que a tarefa de predio categrica (ou classificao) a mais frequentemente
usada; e, considerando que no domnio de aplicao do sistema EVC a resoluo da tarefa
de classificao potencialmente til, essa tarefa foi escolhida para ser tratada nesse
exemplo de aplicao.
No contexto do sistema EVC, o problema de predio categrica foi definido como
um problema binrio expresso em termos do resultado final do aluno no curso (aprovado;
reprovado) em relao ao seu comportamento em termos do processo seguido no sistema
EVC durante o curso. A ideia por trs dessa modelagem que seja possvel obter um
modelo capaz de predizer o resultado de final de aprovao ou reprovao do aluno com
base no processo que ele est seguindo no sistema EVC, assumindo que o comportamento
100

de alunos anteriores pode ser usado como uma generalizao do comportamento de novos
alunos em novos oferecimentos do curso.
A tcnica escolhida para resoluo dessa tarefa de classificao foi redes neurais,
mais especificamente, a arquitetura Multilayer Perceptron - uma arquitetura feedforward
multicamada presente na maioria dos trabalhos de minerao de processos que usam redes
neurais artificias, conforme identificado na reviso sistemtica realizada neste trabalho
(MAITA et al., 2015). Como apoio para a aplicao da rede neural no problema em questo,
foi escolhida a ferramenta Weka (Waikaito Environment for Knowledge Analysis), uma
ferramenta para processamento, minerao e anlise de dados escrita em Java (distribudo
sob GNU Public License).
O problema de classificao como definido aqui exigiu que o conjunto de dados gerado
a partir do pr-processamento do log de eventos passasse por mais alguns procedimentos de
adequao, o que gerou dois diferentes conjuntos que representaram dois nveis diferentes
de complexidade para o problema, como descrito na seo 4.3.3.

4.3.3 Pr-processamento e criao dos conjuntos de dados

Os dados originais que compem um log de eventos apresentavam problemas que


poderiam interferir no processo de minerao de dados. Durante a anlise dos registros, os
seguintes problemas foram encontrados:

inconsistncia: nomes de alunos e de atividades no padronizados;


incompletude: registros de log sem valores para alguns atributos;
rudo: registros de log referentes a navegao feita pelos desenvolvedores do sistema
durante os testes de desenvolvimento;
erro de usurio: erros de autenticao de sesso.

Todas essas imperfeies foram tratadas manualmente, ou por meio da correo


de valores ou por meio da excluso de registros. Aps essa limpeza, o conjunto de dados
foi reduzido a 254.161 registros de log de eventos e, a partir deles, os registros foram
transformados em nova organizao que mais bem se adequou a realizao da minerao
de processos. A estrutura do conjunto de dados obtido est apresentada na tabela 21, e
um trecho do conjunto de dados apresentado na figura 26.
101

Tabela 21 Estrutura de um registro de log do sistema EVC aps pr-processamento


Rtulo do campo Descrio Tipo de dado
IdCaso Identifica uma sequncia de eventos relacionados a Autocontador
uma sesso de uso do sistema EVC, representando
uma instncia de processo
Hora Data e hora de uma execuo da ao Data/hora
Usurio Identificao do usurio que executa a ao Texto
Atividade Descrio da ao executada pelo aluno no sistema Enumerado
EVC
Fonte: Ana Roco Crdenas Maita, 2015

Figura 26 Exemplo de um trecho do log de eventos do sistema EVC aps pr-


processamento

Fonte: Ana Roco Crdenas Maita, 2015

Os valores para o campo IdCaso foram criados baseados no seguinte procedimento:


um identificado nico foi criado, na forma de um autocontador, com base na informao do
campo Hora, de forma que aes realizadas em um intervalo de tempo com variaes de
at duas horas (entre o final de uma ao e o incio da prxima ao) fossem consideradas
como parte de uma mesma instncia de processo; ou seja, dentro de um mesmo IdCaso.
Por causa desse procedimento, o nmero de instncias de processo (valores para o atributo
IdCaso) totalizou 25.013.
Para o campo Atividade, foi realizado um procedimento de uniformizao e su-
marizao baseado no campo original dos registros de log Informao. Esse procedimento
102

reduziu o conjunto de 493 valores diferentes para o campo Informao para um conjunto
de 12 valores diferentes para o campo Atividade.
A fim de viabilizar a realizao de alguns teste com as ferramentas Disco Fluxicon
e ProM, o conjunto de dados foi dividido em trs subconjuntos, usando como atributo de
diviso uma informao externa aos registros de log: a nota final obtida por cada aluno
em uma das disciplinas. Apenas uma das disciplinas foi usada como exemplo de aplicao.
Foram criadas trs categorias de alunos com base nesse critrio de diviso:

excelente: alunos que obtiveram notas finais iguais ou maiores que 9,0, com 225.439
registros;
regular: alunos que obtiveram notas finais iguais ou maiores que 7,0 e menores que
9,0, com 20.489 registros;
insuficiente: alunos que obtiveram notas finais menores 7,0, com 6.233 registros.

Em relao resoluo da tarefa de predio categrica, os dados provenientes


dos registros de log de eventos no esto organizados na forma como esperado para
processamento por uma rede neural Multilayer Perceptron. Alm disso, para possibilitar
a superviso no processo de induo do modelo classificador, a informao referente
categoria qual cada dado pertence precisa estar presente. Assim, dois novos conjuntos
de dados foram gerados a partir das informaes presentes no conjunto de dados descrito
na tabela 21.
Os novos conjuntos de dados, embora gerados a partir de informaes do log
de eventos, so representaes centradas em alunos e no centradas em aes; ou seja,
enquanto nos logs de eventos cada registro diz respeito a uma ao de um aluno, esses novos
conjuntos de dados agrupam todas as informaes das instncias de processos referentes
s aes de cada aluno em um nico registro.
Os novos conjuntos de dados possuem diferentes nveis de complexidade em relao
descrio das instncias de processos. Para ambos, cada instncia de processo (ou seja,
um IdCaso) executada no sistema constitui um atributo descritivo de aluno. Os valores
assumidos para cada atributo em cada registro (cada aluno) o nmero de vezes que
aquele aluno executou aquela instncia do processo (zero ou mais vezes). A diferena entre
os dois conjuntos se refere na forma como as atividades em um instncia do processo so
agrupadas, conforme descrito a seguir:
103

conjunto A: as atividades executadas dentro da instncia de processo so listadas


desconsiderando a ordem de execuo, excluindo repeties (conforme exemplo na
figura 27). Esse conjunto possui 576 atributos e 94% de taxa de esparsidade.
conjunto B: as atividades executadas dentro da instncia de processo so listadas
na ordem de execuo, excluindo primeiramente repeties sequenciais e depois os
laos (conforme exemplo na figura 28). Esse conjunto possui 5.839 atributos e 99%
de taxa de esparsidade.

Figura 27 Exemplo do conjunto A

Fonte: Ana Roco Crdenas Maita, 2015

Figura 28 Exemplo do conjunto B

Fonte: Ana Roco Crdenas Maita, 2015

Por fim, para a categoria, uma distribuio binria foi obtida, conforme descrio a
seguir:

aprovado: alunos que obtiveram notas finais maiores ou iguais que 7,0, com 261
registros;
reprovado: alunos que obtiveram notas finais menores que 7,0, com 30 registros.
104

4.3.4 Resultados: ferramentas Disco Fluxicon e ProM

A ferramenta ProM disponibiliza uma srie de plug-ins, produzido por diferentes


pesquisadores autores, que permitem a realizao dos trs tipos de minerao de processos.
Apesar do grande nmero de plug-ins disponveis, h problemas de usabilidade e com-
plexidade no uso em grande parte deles, de forma que seu uso no trivial. Na maioria
dos casos, existe pouca documentao sobre caractersticas especficas do funcionamento
desses plug-ins, incluindo sobre a descrio dos tipos de dados de entrada e de sada,
embora na maioria dos casos os dados de entrada devam estar estruturados seguindo
estruturas e formatos particulares pr-definidos. A maioria desses plug-ins so apenas
citados e brevemente explicados em alguns artigos cientficos, mas no so encontrados
facilmente manuais de uso ou relatrios tcnicos de demonstrao ou outros tipos de
documentos desse tipo.
Vrios plug-ins da ferramenta ProM foram testados, mas as tentativas realizadas
com os plug-ins de descoberta do modelo Mine for a Petri Net using Alpha-algorithm e
Heuristic Miner foram os que permitiram a gerao de resultados grficos que permitissem
a melhor observao natural do modelo de processo descoberto. No entanto, a interpretao
de tais resultados se mostrou bastante complexa, o que levaria necessidade de um estudo
dos resultados ainda mais detalhado do que foi inicialmente definido como objetivo para
este exemplo. Contudo, para efeitos dos objetivos bsicos para este exemplo, a descoberta
do modelo de processo foi realizada usando o conjunto de dados excelente a partir da
aplicao do plug-in Heuristic Miner. O Heuristic Miner foi usado em preferncia ao
Mine for a Petri Net using Alpha-algorithm porque mostrou melhor visualizao dos
resultados.
A figura 29 apresenta o resultado do modelo de processo gerado para essa parte
do exemplo, considerando o uso do plug-in Heuristic Miner da ferramenta ProM, cuja
sada apresentada em termos de uma rede de Petri. Tal modelo representa as execues
dos processos mais frequentes seguidas pelos alunos da categoria excelente, os retngulos
de cor amarela representam atividades, entanto que os lazos entre elas representam os
caminhos nas execues do modelo. Embora tal detalhe na representao significa um
problema na compreenso visual do modelo, assim como a anlise do processo de negcio
em si.
105

Figura 29 Exemplo do modelo de processo gerado usando o plug-in Heuristic Miner


da ferramenta ProM

Fonte: Ana Roco Crdenas Maita, 2015


106

J para os testes de conformidade do modelo usando a ferramenta ProM, o plug-in


ET Conformance foi o nico que permitiu a execuo com os dados existentes. Todos os
demais no eram possveis de serem usados com os dados disponveis, ou apresentaram
erros que no puderam ser tratados por falta de documentao apropriada. O plug-in ET
Conformance permite medir a conformidade entre o arquivo de logs de eventos e sua rede
de Petri correspondente (o processo explcito (existente ou descoberto) para o sistema sobre
o qual os logs foram gerados). Os resultados, em funo de mtricas podem apresentar,
por exemplo, a qualidade de uma rede de Petri para representar o comportamento descrito
em um logs de eventos; ou quantificar a qualidade de um modelo descoberto em funo da
preciso dele com o respetivo arquivo de logs de eventos. H pouca documentao existente
sobre os detalhes tcnicos deste plug-in. Para a interpretao das medidas oferecidas por
tais mtricas, necessria uma anlise ainda mais aprofundada sobre o mtodo usado na
obteno de tais mtricas, alm do seu significado, o que no faz parte do escopo deste
projeto.
A ferramenta Disco Fluxicon realiza a descoberta do modelo do processo por meio
da interpretao das sequncias de atividades existentes em um arquivo de logs de eventos.
Seu maior beneficio, frente ferramenta ProM, em termos de usabilidade e de legibilidade
dos resultados apresentados. No entanto, poucas informaes esto disponveis sobre a
tcnica usada para a descoberta. O pouco de informao disponvel apenas leva concluso
de ser uma anlise baseada em frequncias de ocorrncia para cada atividade.
Para descoberta de processo com a ferramenta Disco Fluxicon, foram realizados
testes com os trs subconjuntos de dados: excelente, regular e insuficiente. A fer-
ramenta gera uma representao grfica do modelo que descreve o processo descoberto.
As figuras 30, 31, e 32 apresentam os trs modelos de processo gerados respectivamente
para os trs subconjuntos de dados excelente, regular e insuficiente. Nos grficos
apresentados, os retngulos representam atividades, a intensidade da cor dos retngulos
representam a frequncia com a qual as atividades foram acessadas (as mais escuras foram
as mais acessadas), as ligaes direcionadas entre os retngulos expressam a ordem de
execuo das atividades, e os nmeros associados s ligaes indicam o nmero de vezes
com o qual as ligaes foram seguidas.
Figura 30 Processo seguido pelo grupo de alunos com desempenho Excelente

Fonte: Ana Roco Crdenas Maita, 2015


107
Figura 31 Processo seguido pelo grupo de alunos com desempenho Regular

Fonte: Ana Roco Crdenas Maita, 2015


108
Figura 32 Processo seguido pelo grupo de alunos com desempenho Insatisfatrio

Fonte: Ana Roco Crdenas Maita, 2015


109
110

Uma completa e correta interpretao do processo descoberto deveria ser realizada


junto a especialistas no domnio do processo. No entanto, por se tratar de apenas um
exemplo de aplicao de minerao, os especialistas de domnio no foram consultados,
dada a ainda imaturidade dos resultados obtidos. Assim, nesse contexto, as anlises
realizadas apenas no escopo de exemplificao deste trabalho, foi possvel observar que:

atividades como Legenda vdeo-aula foram as mais acessadas nos trs grupos de
alunos, ou seja, independentemente de seu desempenho final;
alunos com desempenho excelente e regular acessam mais frequentemente as
atividades relacionadas a desenvolvimento de Projeto de pesquisa, Documentos
tutoriais e Avaliao do projeto, quando comparados aos alunos com desempenho
insuficiente;
Provavelmente alunos com desempenho insuficiente apresentam baixa frequncia
em relao ao acesso a essas atividades por no terem cumprido adequadamente tais
tarefas e por isso tiveram um desempenho abaixo do esperado.
Alunos com desempenho excelente, por exemplo, aparentemente mostraram ser
mais organizados em visitar as atividades relacionadas tanto s matrias, tais como:
Video de apoio, Convivncia democrtica, Educao especial/inclusiva, Pro-
fisso docente, Direitos humanos e Sade na escola, como quelas atividades
relacionadas ao acompanhamento do curso, tais como: Manual, Documentos e
tutoriais, Avaliao de projetos, Nota Portflio, etc. Por outro lado, alunos
com desempenho regular mostram menos conexes entre o fluxo de execuo de
atividades relacionadas s matrias ou acompanhamento do curso.

Um entendimento mais refinado sobre tais resultados poderia ainda considerar outras
perspectivas, tais como: quais outros erros cometeram os alunos de desempenho insuficiente;
ou se houve falhas de projeto de interface grfica no sistema EVC que dificultaram o acesso
a outros recursos. Essas questes indicam que necessria a realizao de trabalhos futuros
mais centrados em resolv-las. Embora, para o objetivo deste trabalho, os resultados
apresentam o potencial de minerao de processos para gerar processos alinhados com a
realidade que permitam a melhoria de processo de negcio.
111

4.3.5 Resultados: predio categrica - Multilayer Perceptron

A construo de modelos de classificao com a rede neural artificial Multilayer


Perceptron, usando a ferramenta Weka, foi realizada sob trs estratgias diferentes, con-
siderando o conjunto de dados A: resubstituio, holdout e validao cruzadas. Os
parmetros default sugeridos na ferramenta Weka (Tabela 22) para a rede neural em
questo foram mantidos, uma vez que vari-los no levou a melhorias significativas nos
resultados obtidos (Tabela 23).

Tabela 22 Parmetros usados na rede neural Multilayer Perceptron


Parmetros Descrio Valor default
Nmero de Controla do tempo de treinamento 500
pocas
Tamanho do Se diferente de 0, permite adiantar o trmino do treina- 0
conjunto de mento, se necessrio
validao
Normalizao Se aplicada (verdadeiro) coloca os valores dos atributos no Verdadeiro
dos atributos intervalo [-1,1]
Nmero de Influencia o tipo de mapeamento realizado na camada (# de atribu-
neurnios escondida da rede neural, determinando a dimensionalidade tos + # de
na camada do dado aps o mapeamento classes)/2
escondida
Taxa de Controla a intensidade com que as alteraes de pesos so 0.3
aprendizado aplicadas
inicial
Decaimento Escolha sobre usar (verdadeiro) ou no (falso) uma taxa Falso
da taxa de de aprendizado que muda de valor durante o treinamento
aprendizado da rede neural
Momentum Se usado influencia a alterao de pesos de forma que 0.2
mnimos locais possam ser evitados
Reset Se ativado (verdadeiro) reinicia o treinamento da rede com Verdadeiro
uma taxa de aprendizado menor caso a rede entre em um
processo de divergncia no treinamento
Fonte: Ana Roco Crdenas Maita, 2015

O primeiro classificador, obtido sob a estratgia de resubstituio (treino e teste


sobre a mesma amostra de dados) teve o objetivo de verificar a viabilidade de construo
de um modelo de deciso para o problema em questo. Resubstituio uma estratgia
de induo de classificadores otimista, e no fornece informaes sobre a capacidade de
generalizao do modelo. O resultado obtido mostra que a obteno da superfcie de deciso
112

factvel, mas que h uma dificuldade com a classificao da classe "reprovado"(classe


negativa), j que mesmo no teste otimista, falsos positivos so encontrados.
O segundo classificador, obtido sob a estratgia de validao cruzada com 10 pastas,
um modelo realista e sua capacidade de generalizao est aferida. Observando os
resultados percebe-se a grande dificuldade do modelo em aprender a classe negativa. Essa
dificuldade se d principalmente por conta do desbalanceamento das classes no conjunto
de dados h muito mais alunos aprovados do que alunos reprovados no contexto sob
anlise.
O terceiro classificador tem o objetivo de ilustrar uma possibilidade no contexto
onde o balanceamento das classes presente. Para realizao deste teste, o conjunto de
dados foi amostrado de forma a diminuir o desbalanceamento. A estratgia holdout foi
aplicada considerando 70% dos dados para treinamento do modelo e 30% dos dados para
teste do modelo. Os resultados mostram o sucesso do modelo, no entanto, se trata de um
teste em um conjunto de dados bastante reduzido.

Tabela 23 Medidas de avaliao para o classificador (261 instncias positivas e 30 instn-


cias negativas no conjunto A; 70 instncias positivas e 30 instncias negativas
no conjunto A aps amostragem)
Medida Resubstituio Validao cru- Holdout
zada
Nmero de instncias classificadas cor- 274 263 30
retamente
Nmero de instncias classificadas incor- 17 28 0
retamente
Nmero de verdadeiros positivos (acer- 261 248 26
tos na classe aprovado)
Nmero de verdadeiros negativos (acer- 13 15 4
tos na classe reprovado)
Nmero de falsos negativos (erros na 0 13 0
classe aprovado)
Nmero de falsos positivos (erros na 17 15 0
classe reprovado)
Preciso (ou preditividade positiva) 0,94 0,94 1,00
Preditividade negativa 1,00 0,54 1,00
Revocao (ou taxa de verdadeiros posi- 1,00 0,95 1,00
tivos)
Especificidade (taxa de verdadeiros ne- 0,43 0,50 1,00
gativos)
Fonte: Ana Roco Crdenas Maita, 2015
113

No foi possvel obter um classificador para o conjunto de dados B no ambiente de


desenvolvimento usado, pois trata-se de um conjunto de dados bastante grande em termos
de atributos (alta dimensionalidade) que torna a complexidade de treinamento tambm
bastante alta. Em algumas tentativas a ferramenta Weka acusou problema de falta de
memria computacional e em outras tentativas, embora a ferramenta tenha acusado o
trmino do treinamento, ela no informou os resultados. Um trabalho de explorao direta
sobre a implementao provida pela ferramenta, manipulando diretamente as variveis
da implementao, e o uso de um ambiente de teste mais robusto, poderiam levar a
possibilidade de obteno de resultados. Essa uma das oportunidades de trabalhos
futuros que este estudo possibilita, uma vez que a modelagem do problema e o conjunto
de dados j esto devidamente estruturados.

4.4 Lies aprendidas

Este trabalho alcanou resultados direcionados a quatro perspectivas a fim de


permitir uma anlise mais extensa e global da rea de minerao de processos. Tais
perspectivas so (cf. figura 33): (i) tipos de minerao de processos; (ii) tcnicas e
tarefas originrias de minerao de dados; (iii) quantidade de tcnicas especificamente de
inteligncia computacional (IC) e de aprendizado de mquina (AM); (iv) detalhamento
sobre aplicao de redes neurais e mquinas de vetores de suporte (SVM Support Vector
Machines); e (v) publicaes em relao a veculos, pases, pesquisadores e instituies.
As sees seguintes apresentam as lies aprendidas de cada etapa deste trabalho.

4.4.1 Lies aprendidas da reviso sistemtica

Os resultados da reviso sistemtica focada em redes neurais e mquinas de vetores


de suporte mostraram que essas tcnicas aparecem em apenas 2% de todos os estudos
publicados entre 2003 e 2013 na rea de minerao de processos. Esse cenrio identificado
para minerao de processos no reflete o contexto geral em minerao de dados, uma vez
que, neste segundo caso, redes neurais e mquinas de vetores de suporte so amplamente
usadas para resolver vrios tipos de problemas especficos. Esse baixo uso de redes neurais
e mquinas de vetores de suporte pode ser causado devido a uma falta de conhecimento
sobre sua capacidade potencial para este tipo de problema especificamente. Dada que a
114

Figura 33 Perspectivas dos resultados alcanados neste trabalho

Fonte: Ana Roco Crdenas Maita, 2015

rea de minerao de processos envolve conhecimentos multidisciplinares, isso poderia


eventualmente resultar da falta de especializao em determinadas reas de conhecimento
necessrias. Alm disso, os estudos encontrados no cobrem as vrias combinaes possveis
nesse contexto, ou seja, eles no exploram as diferentes possibilidades existentes em relao
aos tipos de minerao de processos ou aos tipos de arquitetura e de aprendizado de redes
neurais e s variaes de mquinas de vetores de suporte.
Alm disso, existe uma concentrao de estudos publicados nos ltimos quatro
anos, provavelmente porque neste ltimo perodo houve uma maior divulgao em estudos
relacionados a essa rea. Este resultado mostra tambm um maior interesse por parte dos
pesquisadores envolvidos, embora ainda haja imaturidade no desenvolvimento de trabalhos
que apliquem redes neurais e mquinas de vetores de suporte.

4.4.2 Lies aprendidas do mapeamento sistemtico

A distribuio temporal dos estudos primrios selecionados destaca um aumento


progressivo no nmero de publicaes de 2005 a 2014, com maior incremento desde 2008.
Tal interesse pela rea de minerao de processos corroborado pela diversidade de autores
115

e veculos para publicao (705 estudos primrios, produzidos por 1.275 autores, em
469 instituies de pesquisa, localizadas em 61 pases). A grande diversidade de autores,
instituies de pesquisa, e pases onde foram publicados esses artigos representam a
ampla abrangncia deste estudo e verifica-se, assim, um crescente interesse por parte dos
autores em realizar pesquisas na rea de minerao de processos. Apesar disso, conforme
apresentado nas tabelas 17, 18 e 19, ainda existe uma grande concentrao das pesquisas
em pases (17 pases contribuem com 62% do total), em instituies (12 instituies
contribuem com 34% do total), e em pesquisadores (16 pesquisadores contribuem com 29%
do total). Especificamente em termos de pesquisador individual, o mais produtivo Wil
van der Aaslt, quem responsvel por cerca de 15% dos estudos, enquanto que os prximos
trs pesquisadores mais populares foram responsveis por cerca de apenas 3% cada um.
Tais concentraes podem ser uma das responsveis por algumas das concluses deste
mapeamento em termos de, por exemplo, os tipos de tcnicas que esto sendo aplicadas
visto que, embora exista uma vasta gama de tcnicas aplicveis, natural que um grupo
especfico de pesquisadores se torne especializado em algum conjunto determinado de
tcnicas.
Em relao aos tipos de minerao de processos, dos trs tipos usados como
referncia neste projeto, descoberta de processos o mais usado (identificado em 70% dos
estudos). Embora a principal preocupao das organizaes pode ser o aprimoramento de
processos, um maior nmero de estudos que trata a descoberta de processos, isto pode
ser entendido como um fenmeno natural, uma vez que o tratamento de tais melhorias
depende da existncia prvia dos modelos de processos para ser melhorados. Alm disso,
conformidade de processos pode ser vista como um passo intermedirio necessrio para
encontrar problemas no processo que precisa de ser melhorado, tendo como uma entrada
o modelo de processo, o que poderia explicar que seja o tipo de minerao de processos
intermedirio em termos de ocorrncia, como indicado nos resultados deste mapeamento
sistemtico.
Em relao s tarefas de minerao de dados, verifica-se que h cinco tarefas
bastante usadas neste contexto, nesta ordem: predio categrica (ou classificao),
anlise de dados estruturados; anlise de agrupamentos, Descoberta de padres
frequentes, regras de associao e regras de correlao e Anlise de evoluo. As outras
trs tarefas so bem menos usadas neste contexto. Esse resultado no inesperado, j
que essas tarefas tambm no so uniformemente distribudas para a rea de minerao
116

de dados em geral. No entanto, as tarefas que tm um maior nmero de ocorrncias em


minerao de processos diferem daquelas em minerao de dados em geral. Por exemplo,
no caso especfico de minerao de processos, as tarefas de Anlise de evoluo e Anlise
de dados estruturados, que so aplicadas em cenrios com dados imprevistos, so to
amplamente usadas quanto as tarefas de Predio categrica, Anlise de agrupamentos,
e Descoberta de padres frequentes, regras de associao e regras de correlao, que so
comumente aplicadas em problemas clssicos de minerao de dados. Esse resultado era
tambm esperado, visto que as primeiras tarefas so necessrias para lidar com cenrios
no clssicos de minerao de dados tais como BPM. Anlise de dados estruturados, por
exemplo, uma das tarefas aplicadas em problemas no clssicos de minerao de dados,
foi classificada como a segunda mais amplamente aplicada em minerao de processos, e
pode ser vista como uma tarefa perfeitamente adequada para este contexto, uma vez que
ele trata de estruturas complexas como redes, grafos, etc. Complementarmente, Anlise
de evoluo, outra tarefa aplicada em problemas no clssicos de minerao de dados
(e classificada em quinto lugar no mapeamento realizado), tambm bem adequada em
minerao de processos, uma vez que o comportamento de processos de negcio permite
alteraes ao longo do tempo.
As outras trs tarefas aplicadas em menor frequncia em minerao de processos
so: anlise de outliers e anlise de rudo, previso numrica do tipo identificao
de tendncias e previso numrica do tipo regresso. Anlise de outliers e anlise
de rudo tem uma aplicabilidade significativa em minerao de processos e, portanto,
poderia ser ainda mais explorada. Em termos de outliers, excees ou casos particulares
devem ser cuidadosamente observados, a fim de encontrar ineficincias e oportunidades de
melhorias em processos de negcio, por exemplo, por meio da anlise do comportamento e
de excees nas execues dos processos ou de instncias de processos menos executadas.
Em termos de rudo, os dados brutos a serem minerados (ou seja, os logs de eventos) so
frequentemente compostos por dados irrelevantes, incompletos, inconsistentes e imprecisos,
gerados pelo uso indevido dos sistemas de informao. Por outro lado, previso numrica,
tem uma aplicabilidade menor em minerao de processos visto que, como qualquer
previso numrica, ela se refere a problemas de minerao que podem ser descritos por
uma funo (isto , uma frmula matemtica) capaz de predizer um valor numrico. Tais
problemas numricos atualmente so menos comuns em minerao de processos, embora o
tipo de predio identificao de tendncias, que envolve uma componente de tempo,
117

mais comum em minerao de processos quando comparado com o tipo regresso de


predio, o que diverge de minerao de dados em geral.
Em relao s tcnicas de minerao de dados aplicadas em minerao de processos,
1.253 ocorrncias de 25 classes de tcnicas foram encontradas nos 705 estudos primrios
selecionados; 19% de tais tcnicas so relacionadas s reas de inteligncia computacional
e de aprendizado de mquina, e 71% so consideradas como tradicionais em minerao de
dados. Em termos de tcnicas de inteligncia computacional e de aprendizado de mquina,
pode-se observar por meio dos dados apresentados na figura 21 que elas esto basicamente
concentradas em uma tcnica de aprendizado de mquina supervisionado (ou seja, rvores
de deciso) e duas tcnicas de inteligncia computacional (ou seja, computao evolutiva e
lgica fuzzy). rvores de deciso podem ser vistas como mais fceis de ser interpretadas
dentro das tcnicas de aprendizado de mquina. Computao evolutiva e lgica fuzzy j
foram implementadas em alguns plug-ins nas ferramentas desenvolvidas especificamente
para a minerao de processos, conforme apresentado na Seo 2.3.3.
Essas trs tcnicas tm sido usadas para resolver as oito tarefas de minerao de
dados em minerao de processos, embora o uso de cada uma tenha sido predominante
em tarefas especficas considerando suas particularidades. Por exemplo, rvores de deciso
so usadas principalmente para resolver a tarefa Previso categrica visto que esta
tcnica foi originalmente proposta para este fim assim como a maioria de seus algoritmos
destinada a resolver essa tarefa. Lgica fuzzy usada principalmente para resolver
tarefas de Descoberta de padres frequentes, regras de associao e regras de correlao
provavelmente porque esta tarefa implementada pela ferramenta Disco (a terceira
ferramenta mais usada em minerao de processos), que usa uma tcnica baseada em
lgica fuzzy. Computao evolutiva usada principalmente para resolver, por exemplo,
a anlise de evoluo. Embora, nenhuma razo forte tenha sido identificada para essa
correlao, a flexibilidade de modelos de computao evolutiva poderia ser visto como um
facilitador para lidar com caractersticas de problemas temporais.

4.4.3 Lies aprendidas do exemplo de aplicao

Finalmente, o exemplo de aplicao realizado permitiu mais bem compreender os


resultados obtidos com a reviso sistemtica e com o mapeamento sistemtico apresentados
em sees anteriores, assim como, oferecer subsdios para a anlise dos resultados de tais
118

estudos sistemticos, de forma retroalimentada. A avaliao inicial do estado da arte em


relao s ferramentas atualmente mais usadas (ou seja, Disco Fluxicon e ProM) assim
como suas aplicaes possibilitou a verificao de variedades de plug-ins e algoritmos
disponveis para serem aplicados em diversos contextos desta rea. Disco Fluxicon, por
um lado, permite realizar a descoberta do processo, embora no tenha se encontrado
informaes detalhadas acerca do algoritmo usado por ela. Alm disso, ela permite realizar
uma anlise baseada nas frequncias de ocorrncia de cada atividade. J a ferramenta
ProM contm inmeros plug-ins com caractersticas particulares em relao ao tipo de
minerao de processos a ser usada e ao tipo de dados de entrada e de sada desejados em
cada anlise em particular.
Especificamente em relao segunda parte do exemplo de aplicao, foi tratada
a resoluo da tarefa de predio categrica (ou classificao) por meio de redes neurais
com a funo Multilayer Perceptron da ferramenta Weka. Durante a etapa de pr-
processamento dos dados, algumas dificuldades foram encontradas em relao ao tipo de
dados representado em um log de eventos, visto que trata-se de um processo de negcio
com caractersticas particulares (expostas na seo 2.3.2) semanticamente importantes do
ponto de vista de BPM. No entanto, tais caractersticas podem representar uma limitao
do ponto de vista da rea de minerao de dados, pois no possvel aplicar o tratamento
usual aos dados. Assim, a anlise e o pr-processamento dos logs de eventos foram realizados
levando sempre em considerao o valor que eles representam neste contexto.
Com a aplicao da tcnica de classificao Multilayer Perceptron, os conceitos
apresentados na seo 2.3.2 sobre os problemas em minerao de processos foram veri-
ficados, especificamente as dificuldades existentes devido natureza do processo, tais
como: heterogeneidade de instncias de eventos, numerosas instncias de eventos, e alta
granularidade. De fato, a modelagem realizada tentou reduzir esses problemas, embora
os resultados alcanados mostraram que tal modelagem no foi suficiente para conseguir
resultados mais precisos. Esse tipo de dados deve ser tratado de forma mais aprofundada,
visto que modelar um problema em minerao de processos implica gerar um conjunto
de dados adequado para aplicar uma determinada tcnica de minerao de dados nesse
caso, uma tcnica de aprendizado de mquina ou inteligncia computacional. Porm, os
dados, ou seja, os logs de eventos, no devem perder a semntica do processo que eles
representam. Tal dificuldade pode ser uma das razes pelas quais essas tcnicas vem
sendo pouco usadas em minerao de processos como foi exposto com os resultados do
119

mapeamento sistemtico. Desta forma, verifica-se uma lacuna de pesquisa para trabalhos
futuros.
De forma geral, o exemplo de aplicao permitiu encontrar duas limitaes impor-
tantes ao aplicar tcnicas de inteligncia computacional e de aprendizado de mquina. Por
um lado, encontrou-se uma limitao em relao modelagem do problema em si; e, por
outro lado, a adaptao de tais tcnicas antes de serem aplicadas com esse tipo de dados.
Assim, provavelmente novas metodologias de pr-processamento dos logs de eventos devem
ser propostas assim como adaptaes nas abordagens de inteligncia computacional e de
aprendizado de mquina devem ser tratadas para serem aplicadas no contexto especfico
de minerao de processos. Ambas as lacunas so propostas de trabalhos futuros.
120

5 Concluso

Minerao de processos uma rea de pesquisa relativamente recente, de forma que


poucos trabalhos de pesquisa j realizaram estudos de reviso sistemtica a seu respeito.
Alm disso, os poucos trabalhos de reviso sistemtica existentes no trataram esse assunto
de forma to abrangente como foi realizada neste trabalho. O estudo cujos resultados so
apresentados aqui permitem visualizar a rea de minerao de processos de forma global
mostrando que em geral a maioria das publicaes entre 2005 e 2014 esto direcionadas
a tcnicas e algoritmos inicialmente formulados pelos primeiros pesquisadores da rea,
deixando de lado o conceito fundamental da minerao de processos que vir da juno
das principais potencialidades de duas reas BPM e minerao de dados. Dentro dessa
perspectiva interdisciplinar, seria esperado mais abordagens de minerao de processos que
usassem mais o potencial de tcnicas existentes da rea de minerao de dados, incluindo,
principalmente, as tcnicas de inteligncia computacional e de aprendizado de mquina.
No entanto, os resultados deste trabalho mostraram que apenas 19% dos 705 estudos
primrios analisados usam tais tcnicas.
Este estudo apresentou uma abordagem interdisciplinar, j que anlises tanto da
perspectiva de BPM quanto de minerao de dados foram apresentadas, seguindo uma
metodologia sistemtica com rigor cientfico. Assim, as principais contribuies para a
rea so: (i) o mtodo sistemtico seguido, incluindo os critrios de incluso e de excluso
aplicados, permite sua replicabilidade, de modo que as informaes apresentadas podem ser
reproduzidas e contrastveis por outros pesquisadores ou especialistas e (ii) as informaes
apresentadas na forma de quadros, tabelas e figuras sintetizam os principais resultados,
de modo a facilitar a descoberta de novas lacunas de pesquisa para projetos de pesquisa
futuros assim como a discusso dos resultados por meio de novos estudos aprofundados
em temas especficos.
Este trabalho teve como objetivo principal delimitar a rea de minerao de
processos por meio de um estudo bibliogrfico amplo, que mostrasse a rea de estudo
em questo considerando vrios enfoques: por um lado, as abordagens, tcnicas, tarefas
de minerao e ferramentas comumente mais usadas; e, por outro lado, veculos de
publicao, universidades e pesquisados interessados no desenvolvimento da rea. Assim,
as contribuies deste trabalho formam as bases para novos trabalhos de pesquisa na rea de
minerao de processos, principalmente aqueles que possuem o objetivo de aplicar tcnicas
121

de inteligncia computacional ou de aprendizado de mquina, servindo de referncia para


profissionais e pesquisadores melhorarem seu entendimento da rea.
Por meio da reviso sistemtica realizada para identificar e avaliar as trabalhos
que propem o uso de redes neurais ou mquinas de vetores de suporte no contexto da
minerao de processos verifica-se que, embora haja interesse cientfico na rea de minerao
de processos, pouco tem sido investido especificamente em redes neurais e mquinas de
vetores de suporte. Alm do nmero absoluto de estudos primrios identificados ter sido
relativamente baixo, eles no cobrem as diversas combinaes possveis nesse contexto, ou
seja, sem explorar as diferentes possibilidades existentes em relao aos tipos de minerao
de processos ou aos tipos de arquitetura e de aprendizado relacionados redes neurais ou
s variaes e aos tipos de aprendizado de mquinas de vetores de suporte.
Por outro lado, considerando que essas tcnicas tem sido amplamente usadas para
resolver uma srie de diferentes problemas em diferentes reas em termos de minerao
de processos, levanta-se aqui a hiptese, ainda a ser investigada com mais profundidade,
de que tais tcnicas tambm podem oferecer bons resultados para tarefas especficas
em minerao de processos. Um cenrio similar esperado para tcnicas similares de
inteligncia computacional e de aprendizado de mquina.
Embora poucos estudos primrios tenham sido identificados na reviso sistemtica,
as avaliaes realizadas para esses estudos indicaram que aproximadamente 80% desses
estudos que tiveram algum tipo de avaliao apresentaram resultados positivos. Isso ressalta
os benefcios de minerao de processos tais como aumento tanto da produtividade, como da
eficincia nos processos de negcio, quando usadas tcnicas de inteligncia computacional
e de aprendizado de mquina. Porm, de fato, nem todos esses resultados positivos podem
ser atribudos exclusivamente ao uso de redes neurais ou mquinas de vetores de suporte,
uma vez que a maioria dos trabalhos prope abordagens hbridas que mesclam uma srie
de diferentes tcnicas e tecnologias.
Essa parte das contribuies deste trabalho relacionada reviso sistemtica
realizada aparece no artigo j publicado Process mining through artificial neural networks
and support vector machines: a systematic literature review (MAITA et al., 2015).
J o mapeamento sistemtico, foi um estudo bem mais abrangente tratando
705 estudos primrios, enquanto que trabalhos realizados nos ltimos anos com algum
motivo similar tratou um escopo bem menor entre 7 a cerca de 50 trabalhos. Alm disso,
a grande maioria dos trabalhos de reviso existente na rea de minerao de processos
122

no teve o objetivo de ser um trabalho de reviso de abordagem sistemtica. Por fim,


nenhum trabalho tinha tido ainda o propsito de avaliar a contribuio de tcnicas de
inteligncia computacional e de aprendizado de mquina no contexto de minerao de
processos, embora essa rea seja comumente definida como uma juno de: (i) minerao
de dados e aprendizado de mquina, de um lado; e ii modelagem e anlise de processos
de negcio, de outro lado.
Assim, o trabalho de anlise da literatura realizado aqui apresenta um direciona-
mento maior em relao s tcnicas de inteligncia computacional tais como lgica fuzzy,
computao evolutiva, redes neurais, e mquinas de vetores de suporte e tcnicas de
aprendizado de mquina incluindo tanto aprendizado de mquina supervisionado como
aprendizado de mquina no supervisionado. Para apresentar uma viso mais clara do uso
de tais tcnicas, seu uso foi comparado em relao s tcnicas tradicionais de minerao
de dados sendo aplicadas em minerao de processos. Tal avaliao mostrou que aproxi-
madamente 81% das abordagens encontradas seguem tcnicas tradicionais em minerao
de dados e apenas aproximadamente 19% usam tcnicas de inteligncia computacional ou
de aprendizado de mquina.
Alm disso, como complemento, em relao s tarefas de minerao sendo usadas
em minerao de processos, as cinco mais usadas so: predio categrica (ou classificao)
(25%); anlise de dados estruturados (23%); anlise de agrupamentos (21%); descoberta de
padres frequentes, regras de associao, e regras de correlao (21%); e anlise de evoluo
(18%). J em relao aos tipos de minerao de processos, os mais usados de acordo com
os 705 estudos primrios avaliados so: descoberta de processos (71%); conformidade de
processos (37%); e aprimoramento de processos (17%).
Em termos de resultados gerais obtidos com o mapeamento sistemtico realizado,
verifica-se que o cenrio identificado para o contexto de minerao de processos no reflete
o contexto geral de minerao de dados. No contexto mais amplo de minerao de dados,
tcnicas de inteligncia computacional e de aprendizado de mquina so amplamente
aplicadas, considerando os bons resultados normalmente obtidos na resoluo de problemas
complexos que envolvem situaes reais. Apesar de a rea de minerao de processos
tambm lidar com problemas altamente complexos, com caractersticas muitas vezes
similares a outros problemas j tratados no contexto geral de minerao de dados, parece
haver uma falta de intercmbio entre as diferentes reas de forma que experincias bem
sucedidas em minerao de dados pudessem ser incorporadas pela minerao de processos.
123

O baixo uso de tcnicas de inteligncia computacional e de aprendizado de mquina


pode ser decorrncia de um possvel baixo conhecimento de suas potencialidades para esse
tipo de problema, uma vez que muitos pesquisadores de minerao de dados so advindo
da rea de BPM e no de minerao de dados. Considerando que a rea de minerao de
processos envolve uma srie de conhecimentos multidisciplinares, isso pode provocar, em
muitos casos, a falta de experincia em determinadas reas de conhecimento. Entretanto,
essa hiptese precisaria ser explorada de forma mais profunda como uma possvel causa
do cenrio identificado por esse trabalho.
Em termos de veculos de publicao, universidades e cientistas interessados no
desenvolvimento da rea, verifica-se que a maior parte dos trabalhos encontram-se concen-
trados em universidades de um pas especfico (na Holanda) com 126 publicaes, do total
de 705; sendo a seguinte universidade colocada na lista (na Blgica), com 26 publicaes.
A grande diferena entre a primeira e segunda pode ser explicada pelo fato de ter como
parte o grupo de pesquisa em minerao de processos dirigido pelo principal pesquisador
desta rea, Prof. Dr. W. van der Aalst; quem tambm co-autor do maio nmero de
publicaes, 105 do total de 705; seguido por um pesquisador do Reino Unido com 20
publicaes.
O nmero de 705 estudos primrios identificados nos ltimos dez anos (perodo de
2005 a 2014) no significa ser o nmero exato de trabalhos publicados nessa rea em toda
a literatura. De fato, o nmero real de trabalhos publicados nessa rea, para esse perodo,
tende a ser maior, principalmente por dois motivos: i dado o grande nmero de trabalhos
j publicados na rea, houve critrios de excluso que teve o objetivo de excluir trabalhos
publicados que indicassem dvida na qualidade do trabalho, incluindo trabalhos curtos
(short papers) e trabalhos que tivessem sido revisado por pares (ex: captulos de livros
convidados); e ii embora as duas bases de dados mais abrangentes disponveis atualmente
tenham sido usadas Scopus e ISI Web of Science, possvel que haja outros trabalhos de
qualidade que no tenham sido indexados por essas bases, ou que tenham sido indexados
porm que no tenham sido identificados por meio da estratgia de busca usada, por
alguma limitao existente, por exemplo, na string de busca.
Este trabalho permitiu verificar que o principal grupo de trabalhos da rea de
minerao de processos encontra-se centralizada a um nmero limitado de abordagens.
Um dos motivos para isso poderia ser a complexidade que exige a modelagem do problema
para a aplicao de tcnicas mais especficas para minerao de dados relacionadas a
124

inteligncia computacional e aprendizado de mquina, tais como redes neurais. Isso abre
uma srie de novas possibilidades de pesquisa para serem tratadas em mais profundidade
em futuros projetos, incluindo, por exemplo:

Analisar a detalhe as tcnicas de inteligncia computacional e de aprendizado de


mquina, buscando aplic-as ou adapt-as para este contexto. Estudar tcnicas de
modelagem de problemas complexos com dados estruturados em minerao de dados,
tentando aplic-as na modelagem deste tipo de problemas.
Pesquisar em profundidade sobre a natureza dos processos, para lidar situaes tais
como concorrncia, ciclos, execues de processos excepcionais, relao atividade-
recursos, entre outras que dificultam a aplicao de tcnicas j existentes para outros
contextos em minerao de processos. Plantear possveis variaes dos algoritmos
existentes em minerao de dados para eles conseguir melhores resultados no contexto
de minerao de processos.
Desenvolver tcnicas ou ferramentas que facilitem a visualizao do modelo de
processo de negcio gerado aps a aplicao de tcnicas de inteligncia computacional
e de aprendizado de mquina, j que essas tcnicas apenas produzem dados brutos
que podem ser usados na abstrao de modelos que descrevam processos de negcio,
mas no diretamente os modelos de processo propriamente ditos.
125

Referncias1

AALST, W. M. P. van der. Process Mining Discovery, Conformance and Enhancement


of Business Processes. 1. ed. [S.l.]: Springer, 2011. Citado 25 vezes nas pginas 18, 19, 20,
21, 23, 24, 25, 27, 28, 29, 39, 41, 42, 44, 45, 46, 49, 51, 52, 53, 59, 62, 71, 74 e 94.
AALST, W. M. P. van der. Mediating between modeled and observed behavior: the quest
for the right process. In: IEEE International Conference on Research Challenges in
Information Science. [S.l.: s.n.], 2013. p. 3143. Citado na pgina 19.
AALST, W. M. P. van der; DUSTDAR, S. Process mining put into context. Web-Scale
Workflow, IEEE Internet Computing, v. 16, n. 1, p. 8286, 2012. Citado na pgina 43.
AALST, W. M. P. van der; HOFSTEDE, A. T.; WESKE, M. Business process
management: A survey. International Conference on Business Process Management,
Springer, p. 112, 2003. Citado na pgina 17.
AALST, W. V. D. et al. Process mining manifesto. In: SPRINGER. Business process
management workshops. [S.l.], 2012. p. 169194. Citado 2 vezes nas pginas 44 e 47.
ABONYI, J.; FEIL, B.; ABRAHAM, A. Computational intelligence in data mining.
Informatica, v. 29, n. 1, p. 312, 2005. Citado 2 vezes nas pginas 17 e 18.
ALONSO, G. et al. Web Services Concepts, Architecture and Applications. [S.l.]:
Springer-Verlag, 2004. v. 1. 360 p. Citado na pgina 27.
BONABEAU, E. Agent-based modeling: Methods and techniques for simulating human
systems. Proceedings of the National Academy of Sciences, National Acad Sciences, v. 99,
n. suppl 3, p. 72807287, 2002. Citado na pgina 40.
BOSE, R. P. J. C.; MANS, R. S.; AALST, W. M. P. van der. Wanna improve process
mining results? In: Computational Intelligence and Data Mining (CIDM), 2013 IEEE
Symposium on. [S.l.]: IEEE, 2013. p. 127134. Citado 3 vezes nas pginas 19, 47 e 48.
CAMILO, C. O.; SILVA, J. C. da. Minerao de dados: Conceitos, Tarefas, Mtodos e
Ferramentas. [S.l.], 2009. Citado 2 vezes nas pginas 30 e 40.
CHEN, C. L. P.; ZHANG, C.-Y. Data-intensive applications, challenges, techniques and
technologies: A survey on big data. Information Sciences, Elsevier, v. 275, p. 314347,
2014. Citado na pgina 21.
CHEN, L.; BABAR, M. A. A systematic review of evaluation of variability management
approaches in software product lines. Information and Software Technology, Elsevier,
v. 53, n. 4, p. 344362, 2011. Citado 2 vezes nas pginas 67 e 78.
COOK, J. E.; WOLF, A. L. Discovering models of software processes from event-based
data. ACM Transactions on Software Engineering and Methodology (TOSEM), ACM, v. 7,
n. 3, p. 215249, 1998. Citado na pgina 18.
CRISTIANINI, N.; SHAWE-TAYLOR, J. An Introduction to Support Vector Machines
and Other Kernel-based Learning Methods. [S.l.]: Cambridge University Press, 2000.
Citado 2 vezes nas pginas 37 e 58.
1
De acordo com a Associao Brasileira de Normas Tcnicas. NBR 6023.
126

CRTES, S. da C.; PORCARO, R. M.; LIFSCHITZ, S. Minerao de dados


funcionalidades, tcnicas e abordagens. PUC-Rio Inf. MCC10/02, 2002. Citado 3 vezes
nas pginas 17, 37 e 38.

DUMAS, M.; AALST, W. M. P. van der; HOFSTEDE, A. ter. Process-aware information


systems: bridging people and software through process technology. [S.l.]: John Wiley &
Sons, Hoboken, New Yersey, 2005. Citado 3 vezes nas pginas 26, 27 e 28.

DUMAS, M. et al. Fundamentals of Business Process Management. [S.l.]: Springer-Verlag


Berlin, 2013. Citado 4 vezes nas pginas 23, 27, 94 e 95.

DYB, T.; DINGSYR, T. Strength of evidence in systematic reviews in software


engineering. In: ACM. [S.l.], 2008. p. 178187. Citado na pgina 61.

FACELI, K. et al. Inteligncia Artificial: Uma Abordagem de Aprendizado de Mquina. 1.


ed. [S.l.]: Editora LTC, 2011. Citado na pgina 34.

FANTINATO, M.; SOUZA, I. M. G. de; TOLEDO, M. B. F. Product line in the business


process management domain. Applied Software Product Line Engineering, Auerbach
Publications, p. 497530, 2010. Citado na pgina 23.

FAUSETT, L. Fundamentals of Neural Networks Architectures, Algorithms and


Applications. [S.l.]: Prentice Hall, Upper Saddle River, NJ, 1994. 461 p. Citado na pgina
58.

FRALEY, C.; RAFTERY, A. E. How many clusters? which clustering method? answers
via model-based cluster analysis. The computer journal, Br Computer Soc, v. 41, n. 8, p.
578588, 1998. Citado na pgina 38.

GANTZ, J.; REINSEL, D. The digital universe decade are you ready? IDC White Paper,
EMC Corporation, 2010. Citado na pgina 19.

GROUP, O. O. M. Business Process Model and Notation (BPMN) Version 2.0. 2011.
Http://www.omg.org/spec/BPMN/2.0/PDF/. Disponvel em: <http://www.omg.org-
/spec/BPMN/2.0/PDF/>. Citado na pgina 26.

GRZYMALA-BUSSE, J. W. Three approaches to missing attribute values: A rough set


perspective. In: Data Mining: Foundations and Practice. [S.l.]: Springer, 2008. p. 139152.
Citado na pgina 30.

GNTHER, C. W.; AALST, W. M. P. van der. Fuzzy miningadaptive process


simplification based on multi-perspective metrics. In: SPRINGER. Business Process
Management. [S.l.], 2007. Citado na pgina 18.

HAN, J.; KAMBER, M. Data mining: Concepts and Techniques. 2. ed. [S.l.]: Morgan
Kaufmann San Francisco, Calif, USA, 2006. Citado 6 vezes nas pginas 17, 30, 31, 44, 58
e 62.

HARTIGAN, J. A.; WONG, M. A. Algorithm as 136: A k-means clustering algorithm.


Applied statistics, JSTOR, p. 100108, 1979. Citado na pgina 39.

HAYKIN, S. Neural networks and learning machine. 3. ed. [S.l.]: Prentice Hall, 2009.
Citado 2 vezes nas pginas 35 e 58.
127

HOLLINGSWORTH, D. Workflow management coalition. The Workflow Reference Model,


Document Number WFMC-TC00-1003, Brussels, p. 2223, 1995. Citado na pgina 17.

IEEE. IEEE Computational Intelligence Society. 2008.


Http://ewh.ieee.org/r7/montreal/cis/. Disponvel em: <http://ewh.ieee.org/r7-
/montreal/cis/>. Citado na pgina 34.

JORDAN, D.; EVDEMON, J. Web Services Business Process Execution Language Version
2.0. 2007. Http://docs.oasisopen.org/wsbpel/2.0/OS/wsbpelv2.0OS.pdf. Disponvel
em: <http://docs.oasisopen.org/wsbpel/2.0/OS/wsbpelv2.0OS.pdf>. Citado na
pgina 27.

JUNIOR, M. P. S. et al. Experimenting with design thinking in requirements refinement


for a learning management system. Simpsio Brasileiro de Sistemas de Informao (SBSI),
p. 182193, 2013. Citado na pgina 97.

KITCHENHAM, B. Guidelines for Performing Systematic Literature Reviews in Software


Engineering. United Kingdom, 2007. Citado 4 vezes nas pginas 54, 56, 57 e 61.

KOHONEN, T. Self-organizing Maps. [S.l.]: Springer Berlin, 2001. Citado na pgina 38.

LABORATORIES, F. P. Disco Fluxicon. 2015. Disponvel em: <<http://fluxicon.com/>>.


Citado na pgina 51.

MAITA, A. R. C. et al. Process mining through artificial neural networks and support
vector machines: a systematic literature review. Business Process Management Journal,
Emerald Group Publishing Limited, v. 21, n. 6, 2015. Citado 10 vezes nas pginas 57, 59,
66, 67, 68, 69, 70, 71, 100 e 121.

MEDEIROS, A. K. A. de et al. Process mining: Extending the -algorithm to mine


short loops. Eindhoven University of Technology, Eindhoven, Department of Technology
Management, Eindhoven University of Technology, v. 19, p. 24, 2004. Citado na pgina
50.

MEDEIROS, A. K. A. de; WEIJTERS, A. J. M. M. Genetic process mining. In:


CITESEER. Applications and Theory of Petri Nets 2005, volume 3536 of Lecture Notes
in Computer Science. [S.l.], 2005. Citado na pgina 18.

MEDEIROS, A. K. A. de; WEIJTERS, A. J. M. M.; AALST, W. M. P. van der. Genetic


process mining: an experimental evaluation. Data mining and Knowledge Discovery
Journal, Springer, p. 245304, 2007. Citado na pgina 50.

MITCHELL, T. M. Machine Learning. 1. ed. [S.l.]: McGraw-Hill Science/Engineering/Math,


1997. Citado na pgina 34.

NAZEM, S. M.; SHIN, B. Data mining: New arsenal for strategic decision-making. In:
IRM PRESS. Data warehousing and web engineering. [S.l.], 2002. p. 103112. Citado na
pgina 30.

ONG, Y.-S.; LIM, M. H.; CHEN, X. Research frontier-memetic computationpast,


present & future. IEEE Computational Intelligence Magazine, v. 5, n. 2, p. 24, 2010.
Citado na pgina 34.
128

PERES, S. M. et al. Apoio ao aprendizado semipresencial: Uma aplicao no curso de


especializao tica, valores e sade na escola. In: Anais do Simpsio Brasileiro de
Informtica na Educao. [S.l.: s.n.], 2012. p. 81810. Citado na pgina 97.

PERES, S. M. et al. A committee machine implementing the pattern recognition


module for fingerspelling applications. In: 25TH ACM SYMPOSIUM ON APPLIED
COMPUTING SAC 2010. [S.l.], 2010. Citado na pgina 30.

PHILLIPS-WREN, G.; ICHALKARANJE, N.; JAIN, L. C. Intelligent decision making:


an AI-based approach. [S.l.]: Springer Science & Business Media, 2008. v. 97. Citado na
pgina 34.

POZO, A. et al. Computao evolutiva apostila. Material Didtico


<http://www.inf.ufpr.br/aurora/tutoriais/Ceapostila.pdf>, Departamento de
Informtica - Universidade Federal do Paran, 2015. Citado na pgina 36.

RUSSELL, N. et al. On the suitability of UML 2.0 activity diagrams for business process
modelling. In: Proceedings of the 3rd AsiaPacific Conference on Conceptual Modelling.
Hobart, Tasmania, Australia: Australian Computer Society, 2006. (APCCM 2005), p.
95104. Citado na pgina 26.

RUSSELL, S.; NORVING, P. Artificial intelligence. 2. ed. [S.l.]: Elsevier, 2004. Citado na
pgina 35.

STAHL, F.; JORDANOV, I. An overview of the use of neural networks for data mining
tasks. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Wiley
Periodicals, Inc. New York, USA, v. 2, n. 3, p. 193208, 2012. Citado 4 vezes nas pginas
17, 37, 38 e 56.

TAMPELINI, L. G. et al. Uma aplicao de redes de elman no tratamento e predio de


sries temporais hidrolgicas. In: IX CBRN CONGRESSO BRASILEIRO DE REDES
NEURAIS. [S.l.], 2009. Citado na pgina 30.

THOM, A. C. G. Redes neurais: uma ferramenta para kdd e data mining. Material
Didtico <http://equipe. nce. ufrj. br/thome/grad/nn/mat_didatico/apostila_kdd_mbi.
pdf>, Outubro, 2002. Citado na pgina 30.

TIWARI, A.; TURNER, C. J. A review of business process mining: State-o-the-art and


future trends. Business Process Management Journal, Emerald Group Publishing Limited,
v. 14, n. 1, p. 522, 2008. Citado 3 vezes nas pginas 19, 21 e 26.

TU/E, E. U. of T. Prom Tools. 2015. Disponvel em: <<http://www.promtools.org/>>.


Citado na pgina 50.

VAPNIK, V. The Nature of Statistical Learning Theory. [S.l.]: Springer Science & Business
Media, 2013. 314 p. Citado na pgina 37.

VERGIDIS, K. et al. Optimisation of business process designs: An algorithmic approach


with multiple objectives. International Journal of Production Economics, Elsevier, v. 109,
n. 1, p. 105121, 2007. Citado na pgina 18.

WANG, L.; FU, X. Data mining with computational intelligence. Berlin Heidelberg:
Springer, 2006. Citado 2 vezes nas pginas 17 e 30.
129

WESKE, M. Business Process Management. 2. ed. [S.l.]: Springer-Verlag Berlin Heidelberg,


2012. Citado 5 vezes nas pginas 17, 23, 25, 26 e 27.

WU, X. et al. Top 10 algorithms in data mining, knowledge information systems. Know
Inf Syst, Springer-Verlag, v. 1, n. 14, p. 137, 2008. Citado 5 vezes nas pginas 18, 21, 30,
38 e 56.

YUE, D. et al. A review of process mining algorithms. In: Business Management and
Electronic Information (BMEI), 2011 International Conference on. [S.l.]: IEEE, 2011. v. 5,
p. 181185. Citado 3 vezes nas pginas 20, 21 e 50.

ZHANG, M.; DUAN, Z. From business process models to web services orchestration:
The case of UML 2.0 activity diagram to BPEL. In: Proceedings of the 6th International
Conference on ServiceOriented Computing. Sydney, Australia: Springer Verlag, 2008.
(ICSOC 2008), p. 505510. Citado na pgina 26.

Вам также может понравиться