Академический Документы
Профессиональный Документы
Культура Документы
So Paulo
2016
ANA ROCO CRDENAS MAITA
Verso corrigida
So Paulo
2016
Dissertao de autoria de Ana Roco Crdenas Maita, sob o ttulo Um estudo da apli-
cao de tcnicas de inteligncia computacional e de aprendizado de mquina
em minerao de processos de negcio, apresentada Escola de Artes, Cincias
e Humanidades da Universidade de So Paulo, para obteno do ttulo de Mestre em
Cincias pelo Programa de Ps-graduao em Sistemas de Informao, na rea de concen-
trao Metodologia e Tcnicas da Computao, aprovada em 04 de dezembro de 2015 pela
comisso julgadora constituda pelos doutores:
Minerao de processos uma rea de pesquisa relativamente recente que se situa entre
minerao de dados e aprendizado de mquina, de um lado, e modelagem e anlise de
processos de negcio, de outro lado. Minerao de processos visa descobrir, monitorar e
aprimorar processos de negcio reais por meio da extrao de conhecimento a partir de
logs de eventos disponveis em sistemas de informao orientados a processos. O principal
objetivo deste trabalho foi avaliar o contexto de aplicao de tcnicas provenientes das
reas de inteligncia computacional e de aprendizado de mquina, incluindo redes neurais
artificiais1 e mquinas de vetores de suporte, no contexto de minerao de processos.
Considerando que essas tcnicas so, atualmente, as mais aplicadas em tarefas de minerao
de dados, seria esperado que elas tambm estivessem sendo majoritariamente aplicadas
em minerao de processos, o que no tinha sido demonstrado na literatura recente e foi
confirmado por este trabalho. Buscou-se compreender o amplo cenrio envolvido na rea
de minerao de processos, incluindo as principais caratersticas que tm sido encontradas
ao longo dos ltimos dez anos em termos de: tipos de minerao de processos, tarefas de
minerao de dados usadas, e tcnicas usadas para resolver tais tarefas. O principal enfoque
do trabalho foi identificar se as tcnicas de inteligncia computacional e de aprendizado de
mquina realmente no estavam sendo amplamente usadas em minerao de processos, ao
mesmo tempo que se buscou identificar os principais motivos para esse fenmeno. Isso foi
realizado por meio de um estudo geral da rea, que seguiu rigor cientfico e sistemtico,
seguido pela validao das lies aprendidas por meio de um exemplo de aplicao. Este
estudo considera vrios enfoques para delimitar a rea: por um lado, as abordagens,
tcnicas, tarefas de minerao e ferramentas comumente mais usadas; e, por outro lado,
veculos de publicao, universidades e pesquisadores interessados no desenvolvimento da
rea. Os resultados apresentam que 81% das publicaes atuais seguem as abordagens
tradicionais em minerao de dados. O tipo de minerao de processos com mais estudo
Descoberta 71% dos estudos primrios. Os resultados deste trabalho so valiosos para
profissionais e pesquisadores envolvidos no tema, e representam um grande aporte para a
rea.
1
Para fins de simplificao, denominadas no restante deste texto apenas como redes neurais.
Abstract
Mining process is a relatively new research area that lies between data mining and
machine learning, on one hand, and business process modeling and analysis, on the other
hand. Mining process aims at discovering, monitoring and improving business processes by
extracting real knowledge from event logs available in process-oriented information systems.
The main objective of this masters project was to assess the application of computational
intelligence and machine learning techniques, including, for example, neural networks and
support vector machines, in process mining. Since these techniques are currently widely
applied in data mining tasks, it would be expected that they were also widely applied
to the process mining context, which has been not evidenced in recent literature and
confirmed by this work. We sought to understand the broad scenario involved in the process
mining area, including the main features that have been found over the last ten years
in terms of: types of process mining, data mining tasks used, and techniques applied to
solving such tasks. The main focus of the study was to identify whether the computational
intelligence and machine learning techniques were indeed not being widely used in process
mining whereas we sought to identify the main reasons for this phenomenon. This was
accomplished through a general study area, which followed scientific and systematic rigor,
followed by validation of the lessons learned through an application example. This study
considers various approaches to delimit the area: on the one hand, approaches, techniques,
mining tasks and more commonly used tools; and, on the other hand, the publication
vehicles, universities and researchers interested in the development area. The results show
that 81% of current publications follow traditional approaches to data mining. The type
of mining processes more study is Discovery 71% of the primary studies. These results
are valuable for practitioners and researchers involved in the issue, and represent a major
contribution to the area.
Keywords: BPM. Business Process Management. Process Mining. Workflow Mining. Data
Mining. Computational Intelligence. Machine Learning.
Lista de figuras
1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Motivao e justificativa . . . . . . . . . . . . . . . . . . . . . . 18
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Estrutura do documento . . . . . . . . . . . . . . . . . . . . . . 22
2 Fundamentao terica . . . . . . . . . . . . . . . . . . . . 23
2.1 Gesto de processos de negcio . . . . . . . . . . . . . . . . . 23
2.1.1 Ciclo de vida de BPM . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2 Modelagem e implementao de processos de negcio . . 26
2.1.3 Logs de eventos de processos de negcio . . . . . . . . . . . . 27
2.2 Minerao de dados, inteligncia computacional e apren-
dizado de mquina . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Tarefas de minerao de dados . . . . . . . . . . . . . . . . . . 30
2.2.2 Tcnicas de inteligncia computacional e de aprendizado
de mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.3 Tcnicas tradicionais para minerao de dados . . . . . . . 39
2.3 Minerao de processos de negcio . . . . . . . . . . . . . . 42
2.3.1 Tipos de minerao de processos . . . . . . . . . . . . . . . . . 44
2.3.2 Perspectivas e problemas de minerao de processos . . . 46
2.3.3 Algoritmos e ferramentas usados . . . . . . . . . . . . . . . . . 49
2.3.4 Exemplo ilustrativo de minerao de processos . . . . . . . 51
2.4 Consideraes finais . . . . . . . . . . . . . . . . . . . . . . . . . 53
3 Mtodo de pesquisa . . . . . . . . . . . . . . . . . . . . . . 54
3.1 Protocolo resumido da reviso sistemtica (especfica) 57
3.1.1 Questes de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.2 Fontes de dados e estratgia de busca . . . . . . . . . . . . . . 59
3.1.3 Seleo de trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.1.3.1 Critrios de incluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.1.3.2 Critrios de excluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Protocolo resumido do mapeamento sistemtico (geral) 61
3.2.1 Questes de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.2 Fontes de dados e estratgia de busca . . . . . . . . . . . . . . 64
3.2.3 Seleo de trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.3.1 Critrios de incluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.3.2 Critrios de excluso . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4 Resultados alcanados . . . . . . . . . . . . . . . . . . . . . 66
4.1 Reviso sistemtica (especfica) . . . . . . . . . . . . . . . . . 66
4.1.1 Resultados da reviso sistemtica . . . . . . . . . . . . . . . . 67
4.1.2 Anlise dos resultados da reviso sistemtica . . . . . . . . 72
4.2 Mapeamento sistemtico (geral) . . . . . . . . . . . . . . . . 78
4.2.1 Resultados do mapeamento sistemtico . . . . . . . . . . . . 78
4.2.1.1 Tipos de minerao de processos atendidos por minerao de dados 83
4.2.1.2 Tarefas de minerao de dados em minerao de processos . . . . 85
4.2.1.3 Tcnicas usadas para tratar as tarefas de minerao de dados no
contexto de minerao de processos . . . . . . . . . . . . . . . . . . 89
4.2.1.4 Anlises adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3 Um exemplo de aplicao em minerao de processos 95
4.3.1 Explorao do domnio de aplicao . . . . . . . . . . . . . . . 96
4.3.2 Definio das tcnicas, tarefas e tipos de minerao . . . . 97
4.3.3 Pr-processamento e criao dos conjuntos de dados . . . 100
4.3.4 Resultados: ferramentas Disco Fluxicon e ProM . . . . . . 104
4.3.5 Resultados: predio categrica - Multilayer Perceptron 111
4.4 Lies aprendidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.4.1 Lies aprendidas da reviso sistemtica . . . . . . . . . . . . 113
4.4.2 Lies aprendidas do mapeamento sistemtico . . . . . . . . 114
4.4.3 Lies aprendidas do exemplo de aplicao . . . . . . . . . . 117
5 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Referncias2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
2
De acordo com a Associao Brasileira de Normas Tcnicas. NBR 6023.
17
1 Introduo
tcnicas de inteligncia computacional que lidam com raciocnio aproximado (como lgica
fuzzy e raciocnio probabilstico), raciocnio indutivo (como redes neurais e mquinas de
vetores de suporte) e raciocnio evolutivo (como tcnicas de computao evolutiva) so
altamente adequadas para minerao de dados, visto que seu contexto envolve conhecimento
emprico e comportamental, em que a informao imprecisa, incompleta e imperfeita
(ABONYI; FEIL; ABRAHAM, 2005). Alm disso, tcnicas de aprendizado de mquina so
amplamente usadas em diversas tarefas de minerao, conseguindo timos resultados na
resoluo de problemas complexos. De acordo com o paradigma de aprendizado, tais tcnicas
podem ser classificadas como: aprendizado supervisionado (tais como: k-nearest neighbor
classification, Nave Bayes, e rvores de deciso); e aprendizado no supervisionado tais
como: k-means e EM (expectation maximization). Algumas dessas tcnicas so classificadas
entre as melhores para minerao de dados (WU et al., 2008).
Com a juno das duas reas BPM e minerao de dados estabeleceu-se um
novo campo de estudo, chamado minerao de processos de negcio, ou apenas minerao
de processos (AALST, 2011). Trata-se de aplicar tarefas de minerao de dados sobre dados
provenientes do ciclo de vida de BPM. O objetivo extrair conhecimento dos logs de eventos
provenientes do trabalho realizado nas diferentes fases de um processo de negcio, buscando
melhorar tal processo, por meio da descoberta de associaes entre variveis, padres de
comportamento ou desvios de comportamento (AALST, 2011). Busca-se, assim, encontrar
informaes inerentes relacionadas ao processo real. Diversas abordagens, tcnicas e
algoritmos foram propostos para resolver esse tipo de situao. Especificamente em relao
a tcnicas de inteligncia computacional e de aprendizado de mquina, pesquisadores com
trabalhos importantes dentro da rea j propuseram, por exemplo, abordagens baseadas
em computao evolutiva (VERGIDIS et al., 2007; MEDEIROS; WEIJTERS, 2005) e lgica
fuzzy (GNTHER; AALST, 2007), obtendo resultados satisfatrios na descoberta de processo;
j para tcnicas baseadas em redes neurais, poucos trabalhos j foram apresentados, como
a proposta de um mtodo baseado em redes neurais que poderia ter bons resultados, mas
ainda h pouca maturidade para sua aplicao na prtica (COOK; WOLF, 1998).
aprendizado de mquina para tentar atingir alguns dos desafios mencionados por Aalst
(2011), conforme apresentado por Tiwari e Turner (2008) e Yue et al. (2011). Embora ainda
em pequeno nmero, esses trabalhos se apresentam importantes, principalmente os que
usam tcnicas de aprendizado de mquina, uma vez que a prpria definio de minerao
de processos, de acordo com Aalst (2011), situa essa rea entre minerao de dados e
aprendizado de mquina, de um lado, e modelagem e anlise de processos de negcio,
de outro lado. Alm disso, tcnicas de inteligncia computacional e de aprendizado de
mquina tm sido muito usadas para tratar problemas diversos de minerao de dados de
forma geral, devido a suas numerosas aplicaes bem sucedidas na resoluo de tarefas de
minerao de dados (WU et al., 2008) e a forma de lidar com problemas de grande volume
de dados em diversas reas (CHEN; ZHANG, 2014).
Considerando esse contexto, uma avaliao do estado atual da rea de minerao
de processos, incluindo suas caractersticas e limitaes, por meio da anlise qualitativa e
quantitativa via reviso sistemtica da literatura, podem contribuir para o entendimento
das lacunas e dos problemas atuais existentes dentro do contexto de aplicao de tcnicas
de inteligncia computacional e de aprendizado de mquina nesse contexto, assim como
estabelecer as bases para trabalhos futuros. As lies aprendidas com esse estudo podem
representar uma importa/nte contribuio para os pesquisadores e profissionais da rea.
1.2 Objetivos
2 Fundamentao terica
representado na figura 1). Busca-se realizar esse ciclo de vida de forma rpida devido aos
ambientes dinmicos das organizaes em que BPM usada.
H outras propostas para definir e representar o ciclo de vida de BPM com algumas
variaes, embora todas sejam bastante similares. Aalst (2011), por exemplo, descreve
o ciclo de vida de BPM em relao ao apoio fase de operao, como ilustrado na
figura 2. Nesse ciclo de vida, as fases de (re)Projeto, Configurao/Implementao, Exe-
cuo/Monitoramento, so similares s descritas anteriormente. No entanto, de acordo
com Aalst (2011), uma nova fase considerada a fase de Ajuste. No se faz nenhum
25
uma linguagem formal (DUMAS; AALST; HOFSTEDE, 2005). Esta ltima a definio
normalmente usada para minerao de processos (AALST, 2011).
Outras classes de redes de Petri tambm podem ser usadas em minerao de proces-
sos, incluindo aquelas definidas por alguma restrio estrutural, com alguma interpretao
semntica, tais como: mquinas de estado; marked graph; free-choice nets; redes de Petri
coloridas; e redes de workflow, conhecidas como WF-nets (DUMAS; AALST; HOFSTEDE,
2005). WF-nets, por exemplo, bastante usadas em minerao de processos, tm uma sintaxe
simples e uma notao dedicada ao incio e ao fim de um processo (DUMAS et al., 2013).
WF-nets tambm incorporam locais que representam condies e tokens para representar
o ponto na execuo de processo. Tais tokens mudam de posio segundo os dados da
aplicao. WF-nets podem ser estruturas hierrquicas; assim, a estrutura interna de uma
atividade complexa realizada por meio de outra WF-net dedicada (WESKE, 2012).
A fim de realizar a gesto e a integrao de possveis processos de negcio, conside-
rando o ponto de vista tcnico, diferentes tecnologias tm sido propostas. Tecnologias de
middleware foram propostos e usados, tais como CORBA, DCOM e Java-RMI (ALONSO et
al., 2004); os quais puderam ser adequadamente usadas em contextos intra-organizacionais.
medida que a necessidade de interoperabilidade evolui para as cooperaes interorgani-
zacionais, as solues existentes deixaram de atender seus objetivos. Esse problema foi
minimizado com o surgimento da Arquitetura Orientada a Servios (SOA Service-
oriented Architecture) e da tecnologia de servios web, que oferecem novas perspectivas
para a necessidade de interoperabilidade de BPM. SOA e servios web proporcionam,
por exemplo, a composio de servios web por meio da linguagem WS-BPEL (Web
Services Business Process Execution Language) (JORDAN; EVDEMON, 2007), que integrada
linguagem WSDL (Web Service Description Language) (JORDAN; EVDEMON, 2007),
permite a execuo de processos de negcio. WS-BPEL tem sido considerada a linguagem
padro para a implementao de processos, via composio de servios web descritos
usando WSDL.
Um log de eventos basicamente uma tabela contendo os registros dos eventos que
relatam a execuo das atividades do processo de negcio (DUMAS; AALST; HOFSTEDE,
2005). Por exemplo, um log pode registrar informaes sobre quando um usurio faz login
28
conhecimento til, e muitas vezes inesperado, a partir da anlise dos dados produzidos
nos mais diversos tipos de sistemas e processos, por meio da revelao de padres de
comportamento que podem servir como base para a tomada de deciso com alto nvel de
valor estratgico (NAZEM; SHIN, 2002). Dessa forma, minerao de dados uma atividade
para explorar e analisar dados, de forma automtica ou semiautomtica, visando descobrir
padres relevantes, ocultos base de dados.
Existem vrias aplicaes para minerao de dados, em diversas reas. Alguns
exemplos so: (i) agrupamento de clientes por perfis para gesto do relacionamento com os
clientes; (ii) predio de sries temporais hidrolgicas a partir de redes neurais (TAMPELINI
et al., 2009); e (iii) classificao (incio de um mdulo de reconhecimento de padres)
na Lngua Brasileira de Sinais (LIBRAS) (PERES et al., 2010). Alm disso, h diversos
exemplos de aplicao de minerao de dados em reas tais como marketing, vendas,
manufatura, finanas, sade e energia.
Um problema associado minerao de dados, e a KDD de uma forma geral,
que alm da possibilidade de garimpar relacionamentos inteis, o nmero de correlaes
possveis de serem obtidas tende a ser muito grande, o que impede a anlise exaustiva
de cada uma (THOM, 2002). Apesar de existirem diversas ferramentas para auxiliar na
execuo das tcnicas de minerao, os resultados ainda precisam de anlise humana.
Porm, ainda assim, a minerao de dados contribui de forma significativa no processo de
descoberta de conhecimento, permitindo aos especialistas concentrarem esforos apenas
em partes mais significativa dos dados (CAMILO; SILVA, 2009).
Minerao de dados comumente classificada considerado sua capacidade em
realizar determinadas tarefas (GRZYMALA-BUSSE, 2008). Para cada tarefa de minerao
de dados, diferentes tcnicas podem ser aplicadas (HAN; KAMBER, 2006; WU et al., 2008),
incluindo aquelas das reas de inteligncia computacional e de aprendizado de mquina
(WANG; FU, 2006). A seguir so apresentadas as principais e mais comuns tarefas dentro
do contexto deste trabalho. Enquanto que, as tcnicas mais usadas para cada uma dessas
tarefas so descritas nas sees subsequentes.
capazes de revelar conhecimento novo sobre um domnio. Essas tarefas podem prever
tendncias e comportamentos, permitindo tomar decises com base em conhecimento
acumulado, e frequentemente desprezado, contido nos prprios bancos de dados. Assim,
durante a resoluo das tarefas de minerao de dados, padres e relacionamentos existentes,
porm desconhecidos, podem ser identificados, levando gerao de hipteses teis ao
usurio. A seguir, so apresentadas descries das seguintes principais tarefas existentes
para minerao dados segundo as definies de (HAN; KAMBER, 2006): (i) predio
categrica (ou classificao), predio numrica (tipo regresso), e predio numrica
(tipo identificao de tendncias); (ii) anlise de agrupamentos; (iii) descoberta de
padres frequentes, regras de associao e correlao; (iv) anlise de outliers e rudo; (v)
anlise de evoluo; e (v) anlise de dados estruturados.
lida com o conceito de verdade parcial, em que o valor verdade pode variar entre
completamente verdadeira a completamente falsa. Alm disso, quando as variveis
lingusticas so usadas, esses graus podem ser geridos por funes especiais.
Redes neurais e mquinas de vetores de suporte (SVM Support-Vector
Machines): redes neurais e mquinas de vetores de suporte representam juntas um
poderoso conjunto de tcnicas amplamente usado na resoluo de tarefas de predio
e anlise de agrupamentos para minerao de dados. Ambas usam raciocnio indutivo,
e so similares tanto em relao forma de explorar um problema de minerao
de dados quanto em relao forma de fornecer a soluo, sendo consideradas
equivalentes em suas formas mais bsicas (CRISTIANINI; SHAWE-TAYLOR, 2000).
Mquinas de vetores de suporte, no entanto, apresentam caractersticas adicionais
no modelo de otimizao da soluo, j que elas consideram tambm a minimizao
do risco estrutural do modelo, alm da minimizao do risco emprico (VAPNIK,
2013). Ambas as tcnicas apresentam boa capacidade para realizar mapeamentos no
lineares complexos, comuns em contextos de minerao de dados, e por isso possuem
potencial para alcanar predies com alto grau de acuidade. Elas se constituem como
modelos a partir dos quais possvel extrair conhecimento, o que til em ambientes
de apoio tomada de deciso (CRTES; PORCARO; LIFSCHITZ, 2002). Ambas se
destacam dentre as tcnicas de inteligncia computacional (STAHL; JORDANOV, 2012;
38
uma dependncia causal entre a e b. Para refletir essa dependncia, a rede de Petri
correspondente deveria ter uma ligao de a at b.
A principal limitao do algoritmo que os processos geralmente podem conter
vrios tipos de construes que esse algoritmo no pode descobrir, como pequenos ciclos
de atividades e tarefas duplicadas (MEDEIROS et al., 2004). Para lidar com esse problema, o
algoritmo (beta) foi proposto, com capacidade de lidar com o problema de ciclos curtos e
concentrado mais em tarefas ocultas e duplicadas, e construes avanadas de roteamento.
Verses mais recentes do algoritmo j consideram tambm as variaes temporais nas
sequncias de atividades.
Yue et al. (2011) descrevem outras abordagens de minerao de processos, embora
a maioria delas sejam baseadas nas abordagens propostas inicialmente pelo pesquisador
Prof. Dr. Wil van der Aaslt, principal pesquisador em minerao de processos. Alguns
dos algoritmos descritos so: algoritmo para lidar com modelos de processos de estruturas
hierrquicas; mtodos de agrupamento para lidar com tarefas duplicadas; variaes do
algoritmo , como o algoritmo (gama) e o algoritmo (teta); mtodo de derivao e
estatstica; etc. Alm disso, algumas ferramentas adicionais so tambm mencionadas:
InWoLvE e Process Miner tool.
O algoritmo GeneticMiner foi proposto por Medeiros, Weijters e Aalst (2007) para
a descoberta de processos e baseado em tcnicas de computao evolutiva. Seu mtodo
de descoberta parte de uma populao inicial de indivduos (nesse caso, os processos
que so candidatos soluo); vrias iteraes so realizadas at estar mais prximo
da soluo apropriada, de forma que as solues encontradas vo sendo validadas por
meio de medies da preciso. Quando comparado aos demais algoritmos de minerao, o
GeneticMiner apresenta melhor preciso do modelo de processo extrado especialmente
para processos que apresentam comportamentos complexos. No entanto, ele normalmente
demanda alto tempo de processamento para chegar ao resultado.
Dentre as ferramentas especficas para minerao de processos, a mais conhecida
ProM (TU/E, 2015). Trata-se de uma plataforma extensvel e de cdigo aberto, que
apoia uma ampla variedade de tcnicas de minerao de processos sob a forma de plug-ins.
Ela foi desenvolvida pelo grupo da minerao de processos da Eindhoven University of
Technology (grupo liderado pelo Prof. Dr. Wil van der Aaslt) (TU/E, 2015). Ela possui
uma ampla variedade de tipos de modelos, como redes de Petri, redes heursticas, EPCs,
redes sociais, e YAWL. Tais modelos podem ser usados tanto como entradas quanto
51
como sadas para os plug-ins disponveis. E esses plug-ins podem ser do tipo: importao,
exportao, converso, filtro de log de eventos, minerao e anlise.
Disco Fluxicon outra ferramenta especfica para minerao de processos. Trata-se
de uma ferramenta comercial, cujos desenvolvedores trabalham em estreita colaborao com
a equipe da ProM. A Disco Fluxicon realiza a descoberta automtica do modelo de processo
com base em um arquivo de dados importado em formato Comma-separated values. O
algoritmo usa os fundamentos da abordagem Fuzzy Miner, e segundo seus criadores
implementa otimizao significativa do desempenho de processamento. A Disco Fluxicon foi
desenvolvida com foco em seu uso comercial, e apresenta um claro foco em questes como
usabilidade, mas no em facilidades para uso de diferentes algoritmos e tcnicas na forma
de plug-ins, como ocorre com a ProM. Na verdade, a Disco Fluxicon implementa apenas
uma verso de seu prprio algoritmo, sem divulgar detalhes de implementao, e busca
oferecer bons resultados nesse nico algoritmo, incluindo bons resultados de desempenho,
qualidade e usabilidade. Do ponto de vista de visualizao grfica dos resultados, por
exemplo, suas funcionalidades so muito melhores do que da ProM. Alm disso, ela
apresenta um conjunto completo de mtricas de processo para as atividades e caminhos no
processo, incluindo: frequncia absoluta, frequncia do caso, nmero mximo de repeties,
durao total, durao mdia, durao mxima. Ela permite ainda explorar cada Caso
ou conjunto de Casos relevantes, e inspecionar rapidamente o seu histrico, por meio de
uma tabela detalhada de atividades, recursos, tempos de incio, durao e um conjunto
completo de atributos para cada evento do Caso, fluxos de processo comuns, e outliers
(LABORATORIES, 2015).
modelar esses dados a fim de aplicar uma tcnica de minerao de processos convertendo-
os em uma estrutura focada em instncias de execuo, de um ou vrios processos. Assim,
para facilitar a visualizao, possvel adotar a seguinte notao: a = Realizar requerimento;
b = Analisar informalmente; c = Analisar a detalhe; d = Verificar bilhete; e = Decidir;
f = Reiniciar requerimento; g = Pagar compensao; e, h = Rejeitar requerimento. Na
sequncia, seguindo a ordem de ocorrncia das informaes contidas nas colunas IdCaso e
Timestamp, obtm-se uma representao mais compacta, que apresentada na tabela 3.
Diversos algoritmos podem ser aplicados sobre tal estrutura. O resultado da aplicao do
algoritmo , por exemplo, a rede de Petri apresentada na figura 5.
Verifica-se que as seis instncias de processos contidos na tabela 3 esto contidos
tambm no modelo da figura 5. Como este um exemplo com poucos dados, possvel
encontrar de forma visual as seis instncias de processos dentro do modelo. Contudo,
em situaes reais quando trata-se com grandes volumes de registros nos log de evento,
realizar tal verificao no possvel; logo, algoritmos de minerao de processos devem dar
a confiabilidade de que o comportamento contido no log de eventos realmente representa
os principais processos de negcio. E no, um modelo to especfico que permite apenas
aqueles comportamentos casuais observados (este caso chamado de overfitting), nem
um modelo muito genrico e impreciso (este caso chamado de underfitting) (AALST,
2011).
Esse exemplo apresenta apenas um tipo de representao de modelo do processo.
Alm disso, em situaes reais, podem existir dezenas de atividades potencialmente
concorrentes. Assim, os modelos resultantes podem ser muito mais abstratos (ou seja,
podem refletir diversos tipos de comportamentos na execuo de processo); ou tambm,
eles podem ser extremamente complexos (por exemplo, comportamentos de atividades
concorrentes no so representados dentro do modelo).
Neste captulo foram apresentados aspectos gerais das reas estritamente relaciona-
das minerao de processos, gesto de processos de negcio por um lado, e minerao de
dados, inteligncia computacional e de aprendizado de mquina do outro lado. A juno
dessas duas reas cria a rea de minerao de processos de negcio. O principal foco de
pesquisa da rea de minerao de processos a extrao de conhecimento a partir de um
log de eventos registrados durante as etapas do ciclo de vida de BPM, a fim de diminuir a
brecha existente entre o modelo proposto e a realidade do negcio.
Tambm foram apresentados conceitos relacionados aos algoritmos e tcnicas que
atualmente so os mais usados na rea de minerao de dados, principalmente aqueles
provenientes das reas de inteligncia computacional e de aprendizado de mquina, por ser
bem sucedidas para a resoluo de problemas complexos usando dados reais. Esse tipo de
problemas geralmente requerem alguma forma de aquisio automtica de conhecimento
a partir do domnio de aplicao e, portanto, no podem ser solucionados por tcnicas
computacionais convencionais. Por outro lado, uma das maiores dificuldades na rea
minerao de processos lidar com tal complexidade em dados provenientes de execues
de processos em situaes reais. Alm do mais, a maioria dos algoritmos e tcnicas
tradicionalmente usados em minerao de processos seguem as abordagens propostas por
Aalst (2011), deixando de lado o potencial que tem as tcnicas de inteligncia computacional
e de aprendizado de mquina para solucionar os problemas similares aos encontrados em
minerao de processos.
54
3 Mtodo de pesquisa
Este captulo visa descrever, em linhas gerais, o mtodo de pesquisa usado neste
trabalho a fim de atingir os objetivos.
Este trabalho visa estudar de forma ampla o contexto atual da rea de minerao
de processos, sendo necessrios o uso de mtodos de pesquisa formais e sistemticos. De
forma mais ampla, o mtodo de pesquisa usado enquadra-se como:
Natureza bsica: uma vez que objetiva gerar conhecimentos novos, teis para o
avano da cincia neste caso especfico, as reas de BPM, minerao de dados, e
minerao de processos; sem a previso imediata de uma aplicao prtica.
Gnero emprico: j que esse trabalho foi direcionado principalmente pela busca
de dados relevantes e convenientes obtidos por meio da experincia, da vivncia
de outros pesquisadores, publicadas por meio de trabalhos de pesquisa existentes
na literatura cientfica; tendo como objetivo chegar a novas concluses a partir da
maturidade experimental desses trabalhos avaliados.
Objetivos exploratrio e descritivo: primeiramente com carter explora-
trio por proporcionar maior familiaridade com o problema, que pode ainda ser
considerado novo, principalmente considerando o uso de tcnicas de inteligncia
computacional e de aprendizado de mquina, com vistas a torn-lo mais explcito ou
construir hipteses; mas tambm com carter descritivo por j possuir o objetivo
de descrever os fatos e/ou fenmenos da realidade estudada.
Abordagem mista qualitativa e quantitativa: em relao anlise e apre-
sentao dos resultados, sendo que, em alguns casos, os resultados podem ser mensu-
rado em nmeros, e ento classificados e analisados com estatstica descritiva bsica,
e, em outros, uma opinio crtica das lies aprendidas no processo sustentada com
bases nas teorias encontradas.
Por outro lado, o mapeamento sistemtico permitiu confirmar que as tcnicas usuais pro-
venientes das reas de inteligncia computacional e de aprendizado de mquina, realmente
vem sendo pouco aplicadas em minerao de processos, embora haja um crescimento de
tais tcnicas nos ltimos anos.
Nas seces seguintes, os protocolos resumidos, tanto para a reviso sistemtica
quanto para o mapeamento sistemtico, so apresentados, os quais se referem s principais
contribuies deste trabalho. Esses protocolos foram definidos seguindo as diretrizes esta-
belecidas por Kitchenham (2007), e compreendem basicamente trs fases: (i) planejamento,
que inclui o desenvolvimento de um protocolo de reviso, o qual especifica os mtodos
para executar a reviso, incluindo uma anlise exploratria para definio de conceitos, a
definio de strings de buscas, e o estabelecimento de critrios de incluso e de excluso
de estudos encontrados; (ii) conduo, que inclui a seleo dos estudos, a avaliao da
qualidade dos estudos selecionados, a extrao de dados, e a organizao da informao
extrada; e (iii) relatrio, que inclui a documentao dos resultados em relatrios tcnicos,
trabalhos de dissertao ou teses, e em artigos cientficos.
Uma descrio detalhada do protocolo definido e usado neste trabalho para a
realizao da reviso sistemtica est sendo submetida como parte de um artigo cientfico.
J para a realizao da reviso sistemtica, tal descrio encontra-se em um artigo j
publicado em um peridico internacional (MAITA et al., 2015).
A fim de ajudar no levantamento de possveis hipteses ou ento de comprovar
hipteses j levantadas durante o mapeamento sistemtico, um exemplo de aplicao
foi realizado. Um exemplo de aplicao foi realizado com dados provenientes de um log
de eventos registrados durante uso de um sistema de ensino a distncia de cursos de
especializao oferecidos pela Universidade de So Paulo em conjunto com a Universidade
Virtual do Estado de So Paulo.
O objetivo da reviso sistemtica foi avaliar a aplicao das tcnicas redes neurais e
mquinas de vetores de suporte em tarefas de minerao de dados no contexto de minerao
de processos, com o objetivo de entender como tais tcnicas de inteligncia computacional
so aplicadas no contexto de minerao de processos.
58
CE-5: o artigo apresenta algum tipo de avaliao de outros trabalhos, como uma
pesquisa ou alguma reviso sistemtica (ou seja, um estudo secundrio), e no os
resultados de algum trabalho de pesquisa especfica (ou seja, um estudo primrio);
CE-6: o artigo foi publicado h mais de 11 anos.
uma rea de tpico especfico que tem o objetivo de identificar quais evidncias esto
disponveis sobre o tema. Um mapeamento sistemtico prefervel em vez de uma reviso
sistemtica quando o tema muito amplo, como a minerao de processos se mostrou.
Um mapeamento sistemtico permite coletar evidncias em um domnio para ser tratado
em um alto nvel de granularidade.
O principal objetivo do mapeamento sistemtico realizado neste trabalho foi identi-
ficar e avaliar todos os trabalhos que propem abordagens para minerao de processos
de negcio, independentemente do tipo de tcnica usada, mesmo que o foco de interesse
aqui seja as tcnicas de inteligncia computacional e de aprendizado de mquina. Para
compreender qual a importncia desse tipo de tcnica no contexto geral de minerao
de processos, necessrio conhecer o contexto completo, incluindo o uso das tcnicas
tradicionais.
predio categrica (ou classificao), predio numrica (tipo regresso), e predio nu-
mrica (tipo identificao de tendncias); (ii) anlise de agrupamentos; (iii) Descoberta
de padres frequentes, regras de associao e regras de correlao; (iv) anlise de rudo e
de outliers; (v) anlise de evoluo; e (vi) anlise de dados estruturados. Em relao a
primeira reviso sistemtica, houve o acrscimo de algumas tarefas, para permitir uma
anlise mais completa. De forma ortogonal questo de pesquisa QP1, esta questo busca
identificar quais destas tarefas de minerao de dados tm sido aplicadas especificamente
para o contexto de minerao de processos.
CE-7: o artigo foi classificado pelo veculo de publicao dentro da categoria ar-
tigo curto (short paper); ou o artigo foi classificado pelo veculo de publicao,
explicitamente, como: work in progress, position paper, doctoral consortium, doctoral
workshop, keynote, ou poster.
66
4 Resultados alcanados
A reviso foi conduzida em duas etapas principais: (i) identificao e seleo dos
estudos primrios bem como a avaliao da qualidade dos estudos primrios; e (ii) extrao
e sntese dos dados dos estudos primrios. Esta seo apresenta um resumo dos resultados
alcanados na execuo de tais etapas. Os resultados completos dessa reviso sistemtica,
descritos com maior detalhe, encontram-se no artigo que j foi publicado Maita et al.
(2015).
67
em termos dos atributos credibilidade e rigor, com taxas relativas de 61 e 56 por cento,
respectivamente.
A figura 8 apresenta a distribuio temporal dos 11 estudos primrios (no perodo
de 2004 at 2014). Verifica-se uma concentrao dos estudos publicados (64%) nos ltimos
quatro anos do perodo avaliado.
Tabela 9 Classificao dos estudos primrios com base no tipo de arquitetura da redes
neurais
Feedforward com Recorrente com Feedforward Recorrente Camada
ID camada nica camada nica multicamada multicamada competitiva
J-1 X
J-2 X
C-1 X
C-2 X
C-3 X
J-5 X
J-7 X
Fonte: Traduzido de Maita et al. (2015)
Com base nas informaes apresentadas na seo anterior, algumas anlises foram
realizadas, cujos resultados podem ser teis para a comunidade de pesquisadores interessa-
dos no uso de redes neurais ou mquinas de vetores de suporte para realizar minerao de
processos.
Primeiro, em relao ao nmero de estudos primrios identificados, ainda h um
nmero limitado de estudos sendo conduzidos com o objetivo de aplicar redes neurais
e mquinas de vetores de suporte em minerao de processos. Considerando que apro-
ximadamente 620 trabalhos foram inicialmente identificados na rea de minerao de
processos, os 11 estudos finais selecionados representam apenas 2% de todo o universo
de estudo. Com respeito a possveis em relao distribuio durante o perodo de 11
anos avaliado como se mostra na figura 8. Verifica-se que dois teros dos estudos foram
publicados nos ltimos quatro anos, depois de um perodo de quatro anos sem qualquer
publicao, o que pode indicar uma aparente retomada de pesquisa e interesse nesta rea.
Alm disso, nos estudos avaliados, os autores relatam geralmente impresses otimistas
em relao ao uso destas tcnicas no contexto de minerao de processos, incluindo os
salientes resultados numricos, apoiando a produo de conhecimento til para as reas
de negcio envolvidos nos estudos. No entanto, considerando o ponto de vista da rea de
inteligncia computacional, uma anlise dos testes e mtricas de estratgias para avaliar
os resultados quantitativos apresentados nestes estudos revela um grau de imaturidade
73
Enquanto 64% dos estudos usam redes neurais, apenas 36% deles usam mquinas de
vetores de suporte. Redes neurais so mais populares do que mquinas de vetores
de suporte em diversas reas de aplicao, dado que as mquinas de vetores de
suporte comearam a ser estudadas, de forma mais intensa, somente em meados
de 1990. Redes neurais, no entanto, tm sido estudada desde a dcada de 1940,
embora na maior parte da dcada de 1950 elas receberam muito pouca ateno do
meio acadmico. Dado que as mquinas de vetores de suporte tornaram-se populares
75
muito recentemente, perfeitamente normal que exista uma lacuna em seu uso
em comparao com redes neurais nas reas de aplicao, incluindo minerao de
processos, embora as duas tcnicas apresentam resultados semelhantes.
Em relao aos estudos que usam redes neurais, 71% usam a arquitetura feedforward
multicamadas com aprendizado supervisionado e apenas 29% usam a arquitetura de
camada competitiva com o aprendizado no supervisionado. O uso desses tipos de
redes neurais esperado, visto que eles so os mais populares na minerao de dados,
principalmente devido a seu potencial para a resoluo de problemas, desse modo,
uma maior disponibilidade de ferramentas computacionais de suporte a aplicaes.
No entanto, as arquiteturas de feedforward de camada nica, recorrentes de camada
nica, recorrentes multicamada, e tambm tipos de redes de aprendizado por reforo
e de pesos fixos no so usadas em nenhum dos estudos primrios selecionados. Isso
tambm era esperado, uma vez que, mesmo na rea de minerao de dados em geral,
esses tipos de redes neurais aparecem com menor frequncia, ou porque eles so
muito simples e limitados como a arquitetura de camada nica, ou porque eles so
s adequados para o tratamento tipos de problemas variados como o aprendizado
por reforo, altamente aplicveis em simuladores e robtica.
Em relao aos estudos que usam mquinas de vetores de suporte, todos eles usam a
classificao bsica do modelo de mquinas de vetores de suporte para classificao
(com aprendizado supervisionado); isto , as variaes de classificao por vetores
suporte e regresso por vetores suporte no so usadas em qualquer estudo. Isto
provavelmente porque redes neurais so mais populares, desde que classificao
por vetores suporte e redes neurais so igualmente aplicveis para contextos de
agrupamento, como mquinas de vetores de suporte e para contextos de regresso.
De qualquer forma, considerando um total de apenas 11 estudos primrios, a falta de
estudos que usam classificao por vetores suporte e regresso por vetores suporte
no representa necessariamente um padro para rea de minerao no processo, mas
sim apenas um indicativo.
Com relao s tarefas de minerao de dados que esto sendo tratados em estudos
de minerao de processos que usam redes neurais ou mquinas de vetores de suporte, os
dados apresentados mostram que: 55% dos estudos identificados tratam a tarefa predio
categrica (ou classificao); 27% tratam a tarefa previso numrica (considerando o tipo
76
De acordo com a avaliao dos estudos primrios em relao sua qualidade, como
mostra a tabela 8, estes estudos foram geralmente bem avaliados, especialmente em relao
aos critrios de relatrio e relevncia. No entanto, apenas artigos publicados nos
ltimos trs anos foram completamente bem avaliados em relao maioria dos critrios,
incluindo tambm rigor e credibilidade, com exceo de um estudo publicado em 2006,
que em sete dos critrios foi bem avaliado. Os documentos menos recentes referem-se a
estudos mais bsicos, e que no apresentam claramente a aplicao, testes e verificao
dos resultados obtidos com as abordagens propostas. Estes concentram a maior parte dos
estudos publicados em anais de congressos, o que poderia explicar um pouco a avaliao
desfavorvel em termos de qualidade. Alm disso, os documentos mais antigos referem-se
ao perodo em que a minerao de processos estava ainda sendo divulgada, com o trabalho
de pesquisa focado em mostrar o seu potencial. A boa avaliao sobre a qualidade dos
trabalhos recm-publicados mostra que os pesquisadores esto mais preocupados com
a contribuio real das redes neurais e mquinas de vetores de suporte no contexto de
minerao de processos.
Dezessete conferncias publicaram pelo menos cinco estudos primrios cada um,
conforme apresentado na tabela 15. Alm disso, estas 17 conferncias mais populares
foram em conjunto responsveis pela publicao de 183 documentos (que representam
39% dos 473 trabalhos publicados em anais de congressos, isto , quase a metade
deles). Os restantes 290 estudos foram espalhados entre 226 conferncias diferentes.
Sete revistas publicaram pelo menos cinco estudos primrios cada uma, conforme
apresentado na tabela 16. Alm disso, essas sete principais revistas mais populares
em conjunto foram responsveis pela publicao de 72 artigos (que representam 31%
80
dos 232 artigos publicados em revistas, isto , cerca de um tero deles). O resto,ou
seja, 160 estudos foram espalhados entre 110 revistas diferentes.
Ainda em termos gerais, por meio de uma verificao manual nos dados de autoria
de cada estudo, encontrou-se que os 705 estudos primrios selecionados nesse mapea-
mento sistemtico foram produzidos por 1.275 autores diferentes, de 469 instituies de
pesquisa diferentes, localizadas em 61 pases diferentes. Esses nmeros representam o
quo generalizada a pesquisa relacionada a minerao de processos. Uma anlise foi
realizando levando-se em conta apenas os mais produtivos, para permitir uma anlise mais
81
Nos trs casos anteriormente mencionados, um mesmo trabalho pode ser produzido
por autores de diferentes instituies ou mesmo diferentes pases. Assim, mais de uma
instituio ou mais de um pas pode ter contribudo para sua produo.
As sees a seguir apresentam os resultados relacionados s respostas das questes
de pesquisa estruturados nessa ordem.
82
desde 2008, exceto para o ltimo ano, em que os dados podem no estar completos ainda.
Seguido do tipo Conformidade de processos, o qual foi quase constante durante seis anos
(2005-2010) e h apenas dois anos teve um incremento (2011-2012). Por fim, um ano mais
tarde, isto , apenas em 2012, o tipo Aprimoramento de processos, a menos aplicada,
comeou a apresentar um incremento depois de um perodo de sete anos (2005-2011) de
praticamente um uso constante.
Para avaliar as tcnicas usadas nos estudos primrios selecionados, elas foram
agrupados em funo do princpio fundamental usado na soluo da tarefa de minerao.
Devido grande variedade de abordagens usadas, assim como de variaes dos algoritmos
propostos pelos autores, para essa classificao, houve uma forte necessidade do auxlio
dos conhecimentos da Profa. Dra. Sarajane Peres, quem a coorientadora deste trabalho
e especialista na rea de minerao de dados.
A figura 18 representa as evidncias de aplicao para 13 diferentes tcnicas
de inteligncia computacional e de aprendizado de mquina; assim como, 12 tcnicas
tradicionais em minerao de dados consideradas em estudo e definidas na seo 2.2.3.
O grfico est dividido em duas partes: no lado esquerdo, as ocorrncias das tcnicas
especficas das reas de inteligncia computacional ou aprendizado de mquina; e, no lado
direito, as ocorrncias das tcnicas consideradas neste trabalho como tradicionais para
este contexto. Note-se que um mesmo trabalho pode apresentar a ocorrncia de mais do
que uma tcnica sendo usada para resolver uma ou mais tarefas de minerao de dados;
assim, a quantidade total de tcnicas muito maior ao total de estudos primrios.
No total, so 1.253 ocorrncias de 25 classes de tcnicas em 705 estudos primrios,
234 de tais tcnicas so relacionadas s reas de inteligncia computacional e de aprendizado
de mquina, as quais representam um 19% do total encontrado; em contraste, 1019 tcnicas
so consideradas como tradicionais em minerao de dados, as quais representam um
71% do total encontrado. Alm do mais, considerando as tcnicas das reas puramente
de inteligncia computacional e de aprendizado de mquina, apenas trs delas isto ,
computao evolutiva, lgica fuzzy e rvores de deciso conseguiram mais do que 5% do
total encontrado. Entretanto, considerando as tcnicas tradicionais de minerao de dados,
a maioria delas, exceto por apenas trs isto , tcnicas baseados em agentes, operaes
OLAP e tcnicas baseadas em caso - conseguiram mais de 5% do total encontrado.
Ainda sobre os diferentes tipos de tcnicas a ser aplicadas, de acordo com os
dados apresentados na figura 19, do nmero total de estudos primrios selecionados no
mapeamento realizado 705, apenas 12% deles usam puramente (uma ou mais) tcnicas
de inteligncia computacional de aprendizado de mquina, exclusivamente. Por outro
lado, 72% deles usam puramente (uma ou mais) as tcnicas tradicionais de minerao de
90
dados, exclusivamente. Por ltimo, 16% dos estudos primrios usam ambos os tipos de
tcnicas em um mesmo trabalho: (uma ou mais) tcnicas de inteligncia computacional ou
aprendizado de mquina e (uma ou mais) tcnicas de minerao de dados tradicionais.
Ao todo, apenas 28% dos estudos primrios usam pelo menos uma tcnica de inteligncia
computacional ou o aprendizado da mquina; ou seja, 198 dos 705 estudos.
Especificamente em termos das 234 ocorrncias de tcnicas de inteligncia com-
putacional e de aprendizado de mquina, conforme apresentado na figura 18, a figura 20
apresenta uma viso detalhada segundo o tipo classificao principal usado; ou seja, inteli-
gncia computacional ou aprendizado de mquina, e neste ltimo caso, tambm em termos
de aprendizado, seja Aprendizado supervisionado ou Aprendizado no supervisionado. No
total, existem mais de 234 ocorrncias na figura 20 uma vez que trs das tcnicas so
classificadas como tcnicas de inteligncia computacional e de aprendizado de mquina,
ou seja, redes neurais, mquinas de vetores de suporte e SOM. Como resultado, os estudos
que usam essas tcnicas so contados duas vezes. Em linhas gerais, 140 estudos usam
alguma tcnica de inteligncia computacional, ou seja, 55% do montante total, ao passo
que 116 usam alguma tcnica de aprendizado de mquina, ou seja, 45% do montante total
(dos quais, 89 usam abordagens de aprendizado supervisionado e 27 usam aprendizado
no supervisionado, isto 35% e 11% do total, respectivamente).
A figura 21 mostra uma anlise cruzada entre as tcnicas de minerao de dados
(aquelas de inteligncia computacional e de aprendizado de mquina do lado esquerdo e as
tcnicas tradicionais do lado direito da imagem), quando aplicadas em cada um dos trs
tipos de minerao de processos. Em termos das combinaes tcnica usada com tipo de
minerao de processos, as quatro combinaes mais frequentes so: primeiro, Tcnicas
92
de processos dada por Dumas et al. (2013). Por outro lado, 63 estudos no satisfazem
nenhuma de tais caractersticas (isto , 9%), e, portanto, pode ser considerada totalmente
no aderente a tal definio, embora eles satisfazem todos os critrios de incluso.
que poderia levar aplicao de tcnicas tradicionais de acordo com o contexto tratado
neste trabalho; e (ii) depois, por meio da aplicao de tcnicas especificamente da rea
de inteligncia computacional e/ou aprendizado de mquina, o que demandaria o uso de
ferramentas mais gerais da rea de minerao de dados.
Considerando, a primeira parte do exemplo, os resultados do mapeamento sistem-
tico realizado neste trabalho sinalizam as ferramentas Disco Fluxicon e ProM como as mais
usadas em minerao de processos. A primeira, uma plataforma de cdigo aberto, possui
uma grande variedade de plug-ins disponveis para os trs tipos de minerao de processos.
J a Disco Fluxicon uma ferramenta comercial (porm com licenas especiais para uso
acadmico) exclusiva para o tipo de minerao de processos Descoberta de processos.
Essas duas ferramentas foram usadas no domnio de aplicao do sistema EVC a fim de
exemplificar a minerao de processos. Assim, essas duas ferramentas foram selecionadas
para uso neste exemplo.
Em relao aos tipos de minerao a serem usados, foram selecionados descoberta
de processos e conformidade de processos. minerao de processos se encaixa no domnio
de aplicao do sistema EVC visto que no existe um modelo de processo explicitamente
definido em tal contexto, embora pudesse ser til para os diversos atores envolvidos.
Assim, para esse caso especfico, o exemplo construdo consistiu em apresentar os log de
eventos, pr-processados de forma a atender aos requisitos de entrada de dados de ambas
ferramentas Disco Fluxicon e ProM, para resolver o tipo de minerao descoberta de
processos.
Alm da descoberta de processos, o tipo de minerao conformidade tambm foi
explorado nesse exemplo, uma vez que, alm de estar disponvel na ferramenta ProM, o
segundo tipo mais usado de acordo com o mapeamento realizado e tem potencial de trazer
99
informaes importantes para os atores do sistema EVC. Para isso, o conjunto completo
log de eventos pr-processado foi dividido em grupos (trs, nesse caso especfico) para
explorar a conformidade do processo entre diferentes grupos de usurios do sistema: assim,
primeiramente, um dos grupos seria usado para se descobrir o processo, e outros grupos
seriam usados para verificar a conformidade do processos que eles estavam executando
com o processo descoberto inicialmente para o primeiro grupo. As caratersticas usadas
para a separao dos usurios em grupos est apresentada na seo 4.3.3.
Para essa primeira parte do exemplo, no foi possvel haver uma definio prvia da
tcnica a ser usada e da tarefa de minerao de dados a ser resolvida assim como da tarefa
de minerao de dados a ser tratada. Isso ocorreu por limitao da abordagem seguida
que se baseava no uso das ferramentas Disco Fluxicon e ProM. Para o caso da ferramenta
Disco Fluxicon, por ser uma ferramenta comercial, e at onde foi possvel averiguar em um
trabalho de busca de informao em artigos cientficos, tcnicos e em websites correlatos ao
tema, no h informaes sobre o algoritmo ou a tcnica usada para resolver os problemas
de minerao de processos; mas apenas que essa ferramenta realiza uma anlise baseada
nas frequncias de ocorrncia de cada atividade. Em relao ferramenta ProM, ainda
seria necessrio executar uma explorao prtica dos diversos plug-ins nela disponveis,
pois so inmeros, com diferentes caractersticas e limitaes.
Na segunda parte do exemplo, para exercitar a aplicao de uma tcnica de inte-
ligncia computacional e/ou de aprendizado de mquina no contexto de minerao de
processos, considerando o domnio de aplicao do sistema EVC, optou-se por, primeira-
mente, escolher uma tarefa de minerao de dados a ser usada no exemplo, e ento definir
a tcnica a ser aplicada. Seguindo os resultados do mapeamento sistemtico realizado,
verificou-se que a tarefa de predio categrica (ou classificao) a mais frequentemente
usada; e, considerando que no domnio de aplicao do sistema EVC a resoluo da tarefa
de classificao potencialmente til, essa tarefa foi escolhida para ser tratada nesse
exemplo de aplicao.
No contexto do sistema EVC, o problema de predio categrica foi definido como
um problema binrio expresso em termos do resultado final do aluno no curso (aprovado;
reprovado) em relao ao seu comportamento em termos do processo seguido no sistema
EVC durante o curso. A ideia por trs dessa modelagem que seja possvel obter um
modelo capaz de predizer o resultado de final de aprovao ou reprovao do aluno com
base no processo que ele est seguindo no sistema EVC, assumindo que o comportamento
100
de alunos anteriores pode ser usado como uma generalizao do comportamento de novos
alunos em novos oferecimentos do curso.
A tcnica escolhida para resoluo dessa tarefa de classificao foi redes neurais,
mais especificamente, a arquitetura Multilayer Perceptron - uma arquitetura feedforward
multicamada presente na maioria dos trabalhos de minerao de processos que usam redes
neurais artificias, conforme identificado na reviso sistemtica realizada neste trabalho
(MAITA et al., 2015). Como apoio para a aplicao da rede neural no problema em questo,
foi escolhida a ferramenta Weka (Waikaito Environment for Knowledge Analysis), uma
ferramenta para processamento, minerao e anlise de dados escrita em Java (distribudo
sob GNU Public License).
O problema de classificao como definido aqui exigiu que o conjunto de dados gerado
a partir do pr-processamento do log de eventos passasse por mais alguns procedimentos de
adequao, o que gerou dois diferentes conjuntos que representaram dois nveis diferentes
de complexidade para o problema, como descrito na seo 4.3.3.
reduziu o conjunto de 493 valores diferentes para o campo Informao para um conjunto
de 12 valores diferentes para o campo Atividade.
A fim de viabilizar a realizao de alguns teste com as ferramentas Disco Fluxicon
e ProM, o conjunto de dados foi dividido em trs subconjuntos, usando como atributo de
diviso uma informao externa aos registros de log: a nota final obtida por cada aluno
em uma das disciplinas. Apenas uma das disciplinas foi usada como exemplo de aplicao.
Foram criadas trs categorias de alunos com base nesse critrio de diviso:
excelente: alunos que obtiveram notas finais iguais ou maiores que 9,0, com 225.439
registros;
regular: alunos que obtiveram notas finais iguais ou maiores que 7,0 e menores que
9,0, com 20.489 registros;
insuficiente: alunos que obtiveram notas finais menores 7,0, com 6.233 registros.
Por fim, para a categoria, uma distribuio binria foi obtida, conforme descrio a
seguir:
aprovado: alunos que obtiveram notas finais maiores ou iguais que 7,0, com 261
registros;
reprovado: alunos que obtiveram notas finais menores que 7,0, com 30 registros.
104
atividades como Legenda vdeo-aula foram as mais acessadas nos trs grupos de
alunos, ou seja, independentemente de seu desempenho final;
alunos com desempenho excelente e regular acessam mais frequentemente as
atividades relacionadas a desenvolvimento de Projeto de pesquisa, Documentos
tutoriais e Avaliao do projeto, quando comparados aos alunos com desempenho
insuficiente;
Provavelmente alunos com desempenho insuficiente apresentam baixa frequncia
em relao ao acesso a essas atividades por no terem cumprido adequadamente tais
tarefas e por isso tiveram um desempenho abaixo do esperado.
Alunos com desempenho excelente, por exemplo, aparentemente mostraram ser
mais organizados em visitar as atividades relacionadas tanto s matrias, tais como:
Video de apoio, Convivncia democrtica, Educao especial/inclusiva, Pro-
fisso docente, Direitos humanos e Sade na escola, como quelas atividades
relacionadas ao acompanhamento do curso, tais como: Manual, Documentos e
tutoriais, Avaliao de projetos, Nota Portflio, etc. Por outro lado, alunos
com desempenho regular mostram menos conexes entre o fluxo de execuo de
atividades relacionadas s matrias ou acompanhamento do curso.
Um entendimento mais refinado sobre tais resultados poderia ainda considerar outras
perspectivas, tais como: quais outros erros cometeram os alunos de desempenho insuficiente;
ou se houve falhas de projeto de interface grfica no sistema EVC que dificultaram o acesso
a outros recursos. Essas questes indicam que necessria a realizao de trabalhos futuros
mais centrados em resolv-las. Embora, para o objetivo deste trabalho, os resultados
apresentam o potencial de minerao de processos para gerar processos alinhados com a
realidade que permitam a melhoria de processo de negcio.
111
e veculos para publicao (705 estudos primrios, produzidos por 1.275 autores, em
469 instituies de pesquisa, localizadas em 61 pases). A grande diversidade de autores,
instituies de pesquisa, e pases onde foram publicados esses artigos representam a
ampla abrangncia deste estudo e verifica-se, assim, um crescente interesse por parte dos
autores em realizar pesquisas na rea de minerao de processos. Apesar disso, conforme
apresentado nas tabelas 17, 18 e 19, ainda existe uma grande concentrao das pesquisas
em pases (17 pases contribuem com 62% do total), em instituies (12 instituies
contribuem com 34% do total), e em pesquisadores (16 pesquisadores contribuem com 29%
do total). Especificamente em termos de pesquisador individual, o mais produtivo Wil
van der Aaslt, quem responsvel por cerca de 15% dos estudos, enquanto que os prximos
trs pesquisadores mais populares foram responsveis por cerca de apenas 3% cada um.
Tais concentraes podem ser uma das responsveis por algumas das concluses deste
mapeamento em termos de, por exemplo, os tipos de tcnicas que esto sendo aplicadas
visto que, embora exista uma vasta gama de tcnicas aplicveis, natural que um grupo
especfico de pesquisadores se torne especializado em algum conjunto determinado de
tcnicas.
Em relao aos tipos de minerao de processos, dos trs tipos usados como
referncia neste projeto, descoberta de processos o mais usado (identificado em 70% dos
estudos). Embora a principal preocupao das organizaes pode ser o aprimoramento de
processos, um maior nmero de estudos que trata a descoberta de processos, isto pode
ser entendido como um fenmeno natural, uma vez que o tratamento de tais melhorias
depende da existncia prvia dos modelos de processos para ser melhorados. Alm disso,
conformidade de processos pode ser vista como um passo intermedirio necessrio para
encontrar problemas no processo que precisa de ser melhorado, tendo como uma entrada
o modelo de processo, o que poderia explicar que seja o tipo de minerao de processos
intermedirio em termos de ocorrncia, como indicado nos resultados deste mapeamento
sistemtico.
Em relao s tarefas de minerao de dados, verifica-se que h cinco tarefas
bastante usadas neste contexto, nesta ordem: predio categrica (ou classificao),
anlise de dados estruturados; anlise de agrupamentos, Descoberta de padres
frequentes, regras de associao e regras de correlao e Anlise de evoluo. As outras
trs tarefas so bem menos usadas neste contexto. Esse resultado no inesperado, j
que essas tarefas tambm no so uniformemente distribudas para a rea de minerao
116
mapeamento sistemtico. Desta forma, verifica-se uma lacuna de pesquisa para trabalhos
futuros.
De forma geral, o exemplo de aplicao permitiu encontrar duas limitaes impor-
tantes ao aplicar tcnicas de inteligncia computacional e de aprendizado de mquina. Por
um lado, encontrou-se uma limitao em relao modelagem do problema em si; e, por
outro lado, a adaptao de tais tcnicas antes de serem aplicadas com esse tipo de dados.
Assim, provavelmente novas metodologias de pr-processamento dos logs de eventos devem
ser propostas assim como adaptaes nas abordagens de inteligncia computacional e de
aprendizado de mquina devem ser tratadas para serem aplicadas no contexto especfico
de minerao de processos. Ambas as lacunas so propostas de trabalhos futuros.
120
5 Concluso
inteligncia computacional e aprendizado de mquina, tais como redes neurais. Isso abre
uma srie de novas possibilidades de pesquisa para serem tratadas em mais profundidade
em futuros projetos, incluindo, por exemplo:
Referncias1
FRALEY, C.; RAFTERY, A. E. How many clusters? which clustering method? answers
via model-based cluster analysis. The computer journal, Br Computer Soc, v. 41, n. 8, p.
578588, 1998. Citado na pgina 38.
GANTZ, J.; REINSEL, D. The digital universe decade are you ready? IDC White Paper,
EMC Corporation, 2010. Citado na pgina 19.
GROUP, O. O. M. Business Process Model and Notation (BPMN) Version 2.0. 2011.
Http://www.omg.org/spec/BPMN/2.0/PDF/. Disponvel em: <http://www.omg.org-
/spec/BPMN/2.0/PDF/>. Citado na pgina 26.
HAN, J.; KAMBER, M. Data mining: Concepts and Techniques. 2. ed. [S.l.]: Morgan
Kaufmann San Francisco, Calif, USA, 2006. Citado 6 vezes nas pginas 17, 30, 31, 44, 58
e 62.
HAYKIN, S. Neural networks and learning machine. 3. ed. [S.l.]: Prentice Hall, 2009.
Citado 2 vezes nas pginas 35 e 58.
127
JORDAN, D.; EVDEMON, J. Web Services Business Process Execution Language Version
2.0. 2007. Http://docs.oasisopen.org/wsbpel/2.0/OS/wsbpelv2.0OS.pdf. Disponvel
em: <http://docs.oasisopen.org/wsbpel/2.0/OS/wsbpelv2.0OS.pdf>. Citado na
pgina 27.
KOHONEN, T. Self-organizing Maps. [S.l.]: Springer Berlin, 2001. Citado na pgina 38.
MAITA, A. R. C. et al. Process mining through artificial neural networks and support
vector machines: a systematic literature review. Business Process Management Journal,
Emerald Group Publishing Limited, v. 21, n. 6, 2015. Citado 10 vezes nas pginas 57, 59,
66, 67, 68, 69, 70, 71, 100 e 121.
NAZEM, S. M.; SHIN, B. Data mining: New arsenal for strategic decision-making. In:
IRM PRESS. Data warehousing and web engineering. [S.l.], 2002. p. 103112. Citado na
pgina 30.
RUSSELL, N. et al. On the suitability of UML 2.0 activity diagrams for business process
modelling. In: Proceedings of the 3rd AsiaPacific Conference on Conceptual Modelling.
Hobart, Tasmania, Australia: Australian Computer Society, 2006. (APCCM 2005), p.
95104. Citado na pgina 26.
RUSSELL, S.; NORVING, P. Artificial intelligence. 2. ed. [S.l.]: Elsevier, 2004. Citado na
pgina 35.
STAHL, F.; JORDANOV, I. An overview of the use of neural networks for data mining
tasks. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Wiley
Periodicals, Inc. New York, USA, v. 2, n. 3, p. 193208, 2012. Citado 4 vezes nas pginas
17, 37, 38 e 56.
THOM, A. C. G. Redes neurais: uma ferramenta para kdd e data mining. Material
Didtico <http://equipe. nce. ufrj. br/thome/grad/nn/mat_didatico/apostila_kdd_mbi.
pdf>, Outubro, 2002. Citado na pgina 30.
VAPNIK, V. The Nature of Statistical Learning Theory. [S.l.]: Springer Science & Business
Media, 2013. 314 p. Citado na pgina 37.
WANG, L.; FU, X. Data mining with computational intelligence. Berlin Heidelberg:
Springer, 2006. Citado 2 vezes nas pginas 17 e 30.
129
WU, X. et al. Top 10 algorithms in data mining, knowledge information systems. Know
Inf Syst, Springer-Verlag, v. 1, n. 14, p. 137, 2008. Citado 5 vezes nas pginas 18, 21, 30,
38 e 56.
YUE, D. et al. A review of process mining algorithms. In: Business Management and
Electronic Information (BMEI), 2011 International Conference on. [S.l.]: IEEE, 2011. v. 5,
p. 181185. Citado 3 vezes nas pginas 20, 21 e 50.
ZHANG, M.; DUAN, Z. From business process models to web services orchestration:
The case of UML 2.0 activity diagram to BPEL. In: Proceedings of the 6th International
Conference on ServiceOriented Computing. Sydney, Australia: Springer Verlag, 2008.
(ICSOC 2008), p. 505510. Citado na pgina 26.