Академический Документы
Профессиональный Документы
Культура Документы
DESCOBERTA DE PADRES PARA A IDENTIFICAO DE BENEFICIRIOS COM INDICATIVOS A INFARTO AGUDO DO MIOCRDIO
CURITIBA 2012
DESCOBERTA DE PADRES PARA A IDENTIFICAO DE BENEFICIRIOS COM INDICATIVOS A INFARTO AGUDO DO MIOCRDIO
Trabalho de Concluso de Curso apresentado ao Programa de PsGraduao em Banco de Dados da Pontifcia Universidade Catlica do Paran, como requisito parcial obteno do ttulo de especialista em Banco de Dados. Orientador: Professor Rosano Dallagassa MSc. Marcelo
CURITIBA 2012
DESCOBERTA DE PADRES PARA A IDENTIFICAO DE BENEFICIRIOS COM INDICATIVOS A INFARTO AGUDO DO MIOCRDIO
Trabalho de Concluso de Curso apresentado ao Programa de Ps-Graduao em Banco de Dados da Pontifcia Universidade Catlica do Paran, como requisito parcial obteno do ttulo de especialista em Banco de Dados.
COMISSO EXAMINADORA
_____________________________________ Prof. MSc. Marcelo Rosano Dallagassa Pontifcia Universidade Catlica do Paran
_____________________________________ Prof. Dra. Raquel Kolitski Stasiu Pontifcia Universidade Catlica do Paran
Eu, Adriano, dedico este trabalho aos meus queridos pais, sem vosso apoio eu jamais chegaria at aqui. Eu, Fernando, dedico este trabalho minha esposa Adriana e aos meus pais, que sempre acreditaram e mim.
AGRADECIMENTOS
Ao Professor MSc. Marcelo Rosano Dallagassa, nosso sincero e grandioso agradecimento pela extraordinria orientao. Professora Dra. Raquel Kolitski e ao Professor MSc. Marcio Fucker, nosso muito obrigado pelas crticas construtivas.
"Se, a princpio, a ideia no absurda, ento no h esperana para ela. Albert Einstein
RESUMO
De acordo com a Sociedade Brasileira de Cardiologia, o Infarto Agudo do Miocrdio a principal causa isolada de mortes no Brasil, sendo responsvel por mais de 60 mil mortes por ano. Doenas cardiovasculares, como o IAM, so classificadas como doenas crnicas no transmissveis e podem ser prevenidas, evitando os altos custos do tratamento. O objetivo deste trabalho foi utilizar uma metodologia para identificar no Plano Celos Sade da Fundao Celesc de Seguridade Social CELOS, os beneficirios com forte indicativo a sofrerem Infarto Agudo do Miocrdio, encaminhar esses pacientes para programas de promoo sade e consequentemente prover qualidade de vida e diminuir os custos assistenciais do plano. A identificao dos beneficirios foi feita utilizando uma metodologia proposta por Dallagassa (2009), baseada no processo de descoberta de conhecimento em base de dados, proposto por Fayyad et al (1996), para a classificao dos beneficirios em com indicativo ou sem indicativo ao IAM, baseando-se nas informaes sobre os procedimentos mdicos realizados pertinentes doena. A metodologia utilizada seguiu os seguintes passos: Seleo das variveis relevantes para o estudo, contando com a ajuda de mdico especialista em cardiologia, para a criao do quadro de variveis, buscando os dados dos sistemas operacionais da Celos e criando uma base de dados para teste, exclusivo para o desenvolvimento deste trabalho. O prximo passo, foi a realizao do pr-processamento, onde foram criados os registros base para o algoritmo de minerao. Para o trabalho, criamos dois grupos de estudo: o Grupo 1: Infartados, com 271 beneficirios que tiveram IAM e o grupo 2: No Infartados, com 11.637 beneficirios. Em seguida, foi realizada a minerao de dados, utilizando o algoritmo de rvore de deciso C4.5, que fez a classificao para a descoberta de novas regras. Em seguida, os dados foram analisados e validados por especialista da rea mdica em cardiologia. Palavras-chave: Banco de dados, KDD, Data Mining, Infarto Agudo do Miocrdio.
ABSTRACT
According to the Brazilian Society of Cardiology, Acute Myocardial Infarction is the leading cause of death in Brazil, accounting for more than 60 000 deaths per year. Cardiovascular diseases are classified as non-transmissible and chronic diseases, and can be prevented, avoiding the high treatment costs. The goal of this study was to use a methodology to identify among the beneficiaries of health plan Fundao Celos Celesc Seguridade Social - CELOS, those who have a strong indication to suffer acute myocardial infarction, take them for health promotion programs and thus provide life quality and reduce the health plan costs. The beneficiaries identification was perfomed using a methodology proposed by Dallagassa (2009), based on the knowledge discovery in databases process, proposed by Fayyad et al (1996), for the classification of the beneficiaries between "with indicative" or "without indicative " to Acute Myocardial Infarction, based on information about the relevant medical procedures for this disease. The methodology involved the following steps: Selection of the relevant variables to the study helped by an cardiology specialist, fetching data from CELOS' systems and creating a database exclusively for testing the development of this work. The next step was to perform preprocessing, where the records were created to be used by the mining algorithm. For this work, we created two groups: Group 1: "Infarcted", with 271 beneficiaries who had Acute Myocardial Infarction and group 2: "Not infarcted", with 11,637 beneficiaries. Next, we performed data mining, using the decision tree algorithm C4.5, which discovered new rules. Then the data were analyzed and validated by a cardiology expert. Key-words: Databases, KDD, Data Mining, Acute Myocardial Infarction.
LISTA DE FIGURAS
Figura 1 Viso geral dos passos que compem o KDD ......................................... 25 Figura 2 Exemplo de rvore de deciso para determinar a espcie, ou classe, da flor ris com base nos atributos comprimento da ptala, comprimento da stala, largura da ptala, largura da stala. .......................................................................... 27 Figura 3 Metodologia proposta por Dallagassa (2009). .......................................... 32 Figura 4 Etapas do estudo. .................................................................................... 34 Figura 5 rvore de deciso gerada pelo algortmo. ................................................ 43
LISTA DE TABELAS
Tabela 1 Receita de contraprestaes e despesa assistencial das operadoras mdico-hospitalares. ................................................................................................. 19 Tabela 2 Comprometimento da receita de planos de sade em 2010 ................... 19 Tabela 3 Taxa de utilizao do plano de sade hospitalar da Fundao CELESC de Seguridade Social. ............................................................................................... 21 Tabela 4 Receita de contraprestaes e despesa assistencial da CELOS em 2010 .................................................................................................................................. 21 Tabela 5 Custos para o tratamento do infarto agudo do miocrdio entre o ano 2001 e 2010 no plano CELOS. .......................................................................................... 22 Tabela 6: Resumo dos resultados obtidos por KOBUS (2006) ................................. 30 Tabela 7 Somatrio dos exames e internaes para os grupos de Infartados e noinfartados................................................................................................................... 40 Tabela 8 Estrutura do registro utilizado para a criao do objeto de dados para minerao.................................................................................................................. 41 Tabela 9 Matriz de confuso. ................................................................................. 42 Tabela 10 Conjunto de regras encontradas na rvore de deciso. ........................ 45
LISTA DE GRFICOS
Grfico 1 - Beneficirios de planos privados de sade por cobertura assistencial do plano (Brasil - 2000-2010) ......................................................................................... 18 Grfico 2 - Distribuio da populao, entre infartados e no infartados. ................. 38 Grfico 3 - Distribuio da populao, entre infartados e no infartados. ................. 39 Grfico 4: Distribuio da populao de infartados e no infartados, de acordo com a idade. ........................................................................................................................ 39
IAM KDD
Infarto Agudo do Miocrdio Knowledge Discovery in Databases Descoberta de Conhecimento em Bases de dados
Organizao Mundial de Sade Sociedade Brasileira de Cardiologia Waikato Environment for Knowledge Analysis
SUMRIO
1 INTRODUO ...................................................................................................... 14 1.1 OBJETIVOS ........................................................................................................ 15 1.1.1 Objetivo Geral ............................................................................................... 15 1.1.2 Objetivos Especficos................................................................................... 15 1.2 QUESTES NORTEADORAS ........................................................................... 15 1.3 ESTRUTURA DO TRABALHO ........................................................................... 15 2 FUNDAMENTAO TERICA ............................................................................ 17 2.1 SADE SUPLEMENTAR .................................................................................... 17 2.1.1 Crise da Sade Suplementar ....................................................................... 18 2.1.2 O Cenrio da Fundao CELESC de Seguridade Social CELOS ........... 20 2.1.3 Infarto Agudo do Miocrdio ......................................................................... 22 2.1.4 Futuro ............................................................................................................ 23 2.2 INTELIGNCIA ARTIFICIAL ............................................................................... 24 2.2.1 Descoberta de Conhecimento em Bases de Dados................................... 24 2.2.2 Aprendizagem de Mquina e a Tarefa de Classificao ............................ 25 2.2.2.1 Aprendizagem por rvore de Deciso .......................................................... 26 2.3 TRABALHOS RELACIONADOS ......................................................................... 29 2.3.1 Aplicao da Descoberta de Conhecimento em Bases de Dados para Identificao de Usurios com Doenas Cardiovaculares Elegveis para Programas de Gerenciamento de Caso ................................................................ 29 2.3.2 Concepo de uma Metodologia Para Identificao de Beneficirios com Indicativos de Diabetes Mellitus Tipo 2 ................................................................. 31 3 METODOLOGIA ................................................................................................... 32 3.1 ETAPAS DO ESTUDO........................................................................................ 32 3.1.1 Identificao das variveis anlise inicial ............................................... 34 3.1.2 Pr-processamento ...................................................................................... 35 3.1.3 Minerao de Dados ..................................................................................... 35 3.1.4 Avaliao e Interpretao dos Resultados ................................................. 36 3.1.5 Validao das Regras ................................................................................... 36 3.1.6 Aspectos ticos ............................................................................................ 37
4 APRESENTAO E DISCUSSO DOS RESULTADOS .................................... 37 4.1 ANLISE DAS VARIVEIS................................................................................. 37 4.2 PR-PROCESSAMENTO................................................................................... 40 4.3 MINERAO DE DADOS................................................................................... 42 4.4 VALIDAO DAS REGRAS ............................................................................... 48 4.5 AVALIAO DOS ESPECIALISTAS .................................................................. 48 5 CONSIDERAES FINAIS .................................................................................. 54 5.1 TRABALHOS FUTUROS .................................................................................... 55 REFERNCIAS ......................................................................................................... 56
14
1 INTRODUO
Data Mining, considerada a principal etapa do KDD (sigla em ingls para Knowledge Discovery in Databases), um ramo da cincia da computao que visa descoberta de padres e relacionamentos interessantes e teis em grandes volumes de dados. Data Mining utiliza ferramentas das reas da estatstica e inteligncia artificial (tais como redes neurais e aprendizado de mquina) juntamente com a gesto de bancos de dados. Suas principais reas de aplicao so: negcios (seguros, bancrios, comrcio), pesquisas cientficas (astronomia, medicina) e segurana nacional (deteco de criminosos e terroristas) (Aurlio et al, 1999). Essa tcnica foi explorada por Dallagassa (2009) para a concepo de uma metodologia para a identificao de beneficirios de planos de sade com indicativos de Diabetes Mellitus tipo 2. Essa metologia ser utilizada para a anlise dos dados do plano de sade da empresa CELOS Fundao Celesc de Seguridade Social, a fim de identificar os beneficirios com alta probabilidade de terem um infarto agudo do miocrdio. A motivao para essa pesquisa prover uma melhor qualidade de vida para esses beneficirios, procurando investir em programas de preveno,
consequentemente, diminuindo os custos do plano com internaes devido a infarto agudo do miocrdio, que hoje uma das internaes com maior custo agregado. Ou seja, quanto antes os problemas forem identificados, mais cedo os beneficirios podem ser tratados e com um custo menor. Esta anlise se basear em dados histricos dos beneficirios, identificando aqueles que j tiveram um infarto agudo do miocrdio. E como resultado esperado, sero encontrados padres, que sero aplicado aos demais beneficirios do plano, na tentativa de identificar os demais beneficirios com indicativo de terem infarto agudo do miocrdio.
15
1.1 OBJETIVOS
Utilizar uma metodologia para identificar no Plano Celos Sade da Fundao Celesc de Seguridade Social CELOS, regras que possibilitem classificar beneficirios com propenso a sofrerem Infarto Agudo do Miocrdio.
a) Identificar as variveis relevantes para o processo de descoberta de conhecimento referentes a infarto agudo do miocrdio; b) Aplicar uma metodologia para a seleo de regras para a identificao de beneficirios com indicativos a uma doena crnica no transmissvel; c) Validar as regras descobertas com especialistas em cardiologia.
possvel encontrar padres que identifiquem beneficirios de planos de sade com propenso ao Infarto Agudo do Miocrdio? Qual a tcnica que permitir encontrar esses padres?
No captulo 2 apresentado a fundamentao terica para o trabalho, abordando aspectos da sade suplementar, a crise atual e as perspectivas futuras
16
para o setor. Tambm so abordados os tpicos necessrios sobre Infarto Agudo do Miocrdio e tcnicas de Inteligncia Artificial e bases de dados para o entendimento da metodologia utilizada. No captulo 3 apresentada a metodologia utilizada para o desenvolvimento deste trabalho. No captulo 4 so apresentados os resultados encontrados com a aplicao da metodologia e dos experimentos realizados. No captulo 5 so apresentas as consideraes finais acerca dos objetivos e resultados encontrados no trabalho e tambm os trabalhos futuros.
17
2 FUNDAMENTAO TERICA
Por se tratar de uma pesquisa no ramo da informtica aplicada sade, conceitos de ambas as reas so necessrios. No que concerne a sade, necessrio entender o atual cenrio da sade suplementar no Brasil, o que e qual sua misso. Tambm relacionado sade, sero apresentados tpicos relacionados ao Infarto Agudo do Miocrdio, o que , as causas, preveno e os impactos dessa doena na sade suplementar no Brasil. No que concerne informtica, sero apresentados os conceitos de Business Inteligence, Data Mining e KDD (Knowledge Discovery in Databases), explicando tambm a importncia desses conceitos para se alcanar os objetivos desse trabalho.
A Lei 9.656/1998 define Plano Privado de Assistncia Sade como sendo pessoa jurdica constituda sob a modalidade de sociedade civil ou comercial, cooperativa, ou entidade de autogesto, que opere produto, servio ou contrato de prestao continuada de servios ou cobertura de custos assistenciais a preo pr ou ps estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistncia sade, pela faculdade de acesso e atendimento por profissionais ou servios de sade, livremente escolhidos, integrantes ou no de rede credenciada, contratada ou referenciada, visando a assistncia mdica, hospitalar e odontolgica, a ser paga integral ou parcialmente s expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor (BRASIL, ANS, 2010).
18
No Brasil, mais de 45,7 milhes de pessoas so beneficirios de planos de assistncia mdica, correspondendo a cerca de 24,1% da populao, sendo 18,7% beneficirios de planos de sade privados e 5,4% beneficirios de planos de sade pblicos (BRASIL, ANS, 2010). Observando o crescimento da adeso aos planos privados de sade, apresentado no grfico 1, observamos um aumento de mais de 12 milhes de beneficirios entre dezembro do ano 2000 at maro de 2010, e tambm que a taxa de adeso tem aumentado em cerca de 2 milhes de beneficirios por ano.
50,0 45,0 40,87 42,86
43,20
40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 30,71 31,13 31,11 31,77 33,67
35,11
36,93
38,78
dez/00 dez/01 dez/02 dez/03 dez/04 dez/05 dez/06 dez/07 dez/08 dez/09 mar/10 Grfico 1 - Beneficirios de planos privados de sade por cobertura assistencial do plano (Brasil 2000-2010). Fonte: BRASIL, ANS, 2010 (adaptao do autor).
O lucro apresentado na tabela 1 considera apenas o lucro assistencial, portanto no esto sendo consideradas as despesas administrativas que uma empresa possui. Em 2009, as despesas administrativas das operadoras mdicohospitalares de planos privados de sade foram maiores do que 10,2 bilhes de reais. (BRASIL, ANS, 2010).
19
Tabela 1 Receita de contraprestaes e despesa assistencial das operadoras mdico-hospitalares (Brasil 2003-2010). Fonte: BRASIL, ANS, 2010 (adaptao do autor).
Ano
Receita (R$)
Lucro assistencial (R$) 5.231.030.639 5.865.517.144 6.767.599.669 8.345.136.989 9.877.560.993 11.625.642.418 10.856.047.366 3.380.761.399
Estudos apresentados pela Federao Nacional de Sade Suplementar revelam que as operadoras de plano de sade comprometem, em mdia, 98,2% da receita de mensalidades com despesas totais, sendo que as despesas assistenciais representam 79,8% desse total, conforme apresentado na tabela 2. (BRASIL, IESS, 2011).
Tabela 2 Comprometimento da receita de planos de sade em 2010. Fonte: BRASIL, IESS, 2011 (adaptao do autor).
2010 Receita de Mensalidades Despesas Assistenciais Internaes Exames Consultas Terapias Outras despesas Mdicas Hospitalares, Ambulatoriais e Odontolgicas Despesas Administrativas Despesa com Pessoal Tributos e outras Despesas Administrativas Despesas de Comercializao Resultado Operacional
% 100,0 79,8 39,7 22,2 19,7 4,4 14,0 14,9 38,2 61,8 3,5 1,8
20
A dificuldade financeira das operadoras de plano de sade deve-se a um regime em que as receitas so fixas pr-determinadas, enquanto que os gastos assistenciais so variveis e tendem a aumentar medida que o ocorre o envelhecimento populacional, a incorporao de novas tecnologias na execuo dos procedimentos e o aumento na utilizao dos servios. (MIRANDA, 2003). Diante desse cenrio, observa-se a necessidade de um modelo de gesto voltada preveno e promoo sade, visando melhorar a qualidade de vida dos beneficirios e ao mesmo tempo diminuir os custos assistncias.
A Fundao Celesc de Seguridade Social (CELOS) uma operadora de plano privado de assistncia sade de autogesto localizada em Santa Catarina e que beneficia funcionrios, e seus assistidos, e os vinculados das empresas Centrais Eltricas de Santa Catarina S.A. CELESC e da prpria CELOS, fornecendo prestao continuada de servios ambulatoriais, hospitalares com obstetrcia e odontolgicos (CELOS, 2011). O plano de sade odontolgico no objeto de estudo desse trabalho, portanto, seus dados no contriburam para a justificativa do mesmo. Conforme apresentado na tabela 3, o plano de sade hospitalar da CELOS possua, em 2010, 19547 beneficirios. Neste mesmo ano, 17847 beneficirios utilizaram o plano pelo menos uma vez, alcanando uma taxa de utilizao de 91,30%.O comportamento humano norteado por objetivos, ou seja, motivado por algum desejo em atingir determinada meta.
21
Tabela 3 Taxa de utilizao do plano de sade hospitalar da Fundao CELESC de Seguridade Social.
Ano 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001
Beneficirios 19547 19950 20378 20718 21219 20708 21169 21307 21714 22083
Beneficirios ativos 17847 18182 18323 18449 18554 18328 18422 18626 19223 19564
Taxa de utilizao 91,30% 91,14% 89,92% 89,05% 87,44% 88,51% 87,02% 87,42% 88,53% 88,59%
A tabela 4 mostra que, em 2010, as despesas assistenciais do plano CELOS corresponderam a 88,84% da receita bruta. Nesse clculo no esto contabilizadas despesas administrativas e outras despesas gerais.
Tabela 4 Receita de contraprestaes e despesa assistencial da CELOS em 2010. Fonte: CELOS, 2010 (adaptao do autor).
Ano
Receita (R$)
2010
43.502.964,81
38.649.572,43
A tabela 5 apresenta os custos do plano CELOS para o tratamento do infarto agudo do miocrdio entre o ano de 2001 e o ano de 2010. Observa-se que, mesmo com a reduo da ocorrncia de IAM, os custos para o tratamento aumentaram.
22
Tabela 5 Custos para o tratamento do infarto agudo do miocrdio entre o ano 2001 e 2010 no plano CELOS.
Ano 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 21 14 23 17 26 17 22 17 14 16
Quantidade
Custo Total (R$) 372.520,95 267.957,10 557.858,55 474.220,62 959.191,52 550.129,75 1.006.560,30 639.193,34 631.592,28 602.537,25
Custo Mdio (R$) 17.739,09 19.139,79 24.254,72 27.895,33 36.891,98 32.360,57 45.752,74 37.599,61 45.113,73 37.658,58
A causa para a carncia de oxignio das clulas do msculo cardaco , segundo Kamel e Kamel (1996, p.12):
[...] Deve-se quase que exclusivamente, mais de 95% dos casos, deposio de colesterol e de outras gorduras no sangue (triglicerdios e fosfolipdios) nas artrias, constituindo o processo patolgico da arteriosclerose. O enfarte pode ser compreendido de uma maneira simplista como sendo, exclusivamente, de origem arteriosclertica (formao de placas gordurosas, ateromas) nas artrias coronarianas.
Outros fatores, tais como: ausncia de exerccios fsicos, m alimentao stress dirio e tenses emocionais, aliados deposio do colesterol e outras
23
gorduras no sangue, tambm contribuem para acentuar o risco de ocorrer o infarto agudo do miocrdio (Kamel e Kamel, 1996, p.12; Olszewer, 1992, p. 42). Segundo dados Sociedade Brasileira de Cardiologia (2004), o infarto agudo do miocrdio responsvel por 60.080 bitos no Brasil, sendo assim considerada a principal causa isolada de morte no pas. No se sabe exatamente qual o nmero de infartos anualmente, estima-se entre 300 mil e 400 mil, levando taxa de um bito para cada 5 a 7 infartos. A ocorrncia do infarto agudo do miocrdio em um paciente pode ser evitada se medidas profilticas forem tomadas. As operadoras de plano de sade, visando a melhoria da qualidade de vida de seus beneficirios, devem identificar aqueles com indicativos a desenvolverem a doena e encaminh-los para programas de preveno sade. esperado que essas medidas tambm contribuam para a diminuio dos custos assistenciais.
2.1.4 Futuro
Segundo Miranda (2003), o modelo atual de assistncia sade, ou seja, baseado em um paradigma assistencialista focado na doena, est equivocado, pois, de acordo com dados da OMS, apenas 10% dos fatores que fazem com que um individuo ultrapasse os 65 anos de idade esto ligado assistncia mdica, estilo de vida representa 53%, meio ambiente 20% e herana gentica 17%. Esses dados evidenciam a necessidade de um novo paradigma preventivo em substituio do atual modelo reativo. Para Kobus (2006), o novo modelo de gesto deve propiciar prestao de servios de qualidade, focando na preveno de doenas e promoo sade, e sustentabilidade financeira. De acordo com Dallagassa (2009), as informaes clnicas dos beneficirios, que permitiriam a identificao daqueles com riscos a desenvolverem determinadas doenas, muitas vezes no esto contidas nas bases de dados das operadoras de sade, dificultando a identificao dos mesmos para ingresso em programas de promoo sade. Nesse contexto, o uso de tcnicas da Tecnologia da Informao e da Cincia da Computao, como Inteligncia Artificial, se tornam primordiais em um no modelo
24
de gesto orientado preveno e promoo sade contribuindo para o processo de tomada de deciso.
Segundo Turban (1995), Inteligncia Artificial uma subdiviso da cincia da computao, voltada criao de software e hardware que objetiva a produo de conhecimentos, tal como os produzidos pelos seres humanos. Portanto, Inteligncia artificial pode ser entendida como agentes
computacionais automatizados para realizar atividades humanas nas quais processos de tomada de deciso e aprendizagem so necessrios. De acordo Dallagassa (2009), a utilizao de tcnicas de inteligncia artificial, como o KDD (Knowledge Discovery in Databases), em banco de dados e sistemas especialistas se fazem necessrios para a anlise das informaes das bases de dados das operadoras de plano de sade, no s pelo grande volume dados, mas tambm pela complexidade de se interpretar e produzir conhecimento.
Fayyad et al (1996) definiu o processo de Descoberta de Conhecimento em Bases de Dados como: ... o processo no trivial de identificao de padres vlidos, novos, potencialmente teis e compreensveis em dados. Ser um processo implica em executar um conjunto de etapas, que no KDD compreende: analise inicial, seleo, limpeza e pr-processamento, transformao, minerao, interpretao dos padres encontrados e utilizao do conhecimento (Fayyad et al, 1996): 1. Anlise inicial: um processo de conhecimento do domnio de trabalho e definio das metas a serem alcanadas pelo processo de KDD; 2. Seleo dos dados: definio de qual ser o domnio dos dados para uso no processo;
25
3. Limpeza e pr-processamento dos dados: envolve a remoo dos outliers (dados atpicos), registros repetidos e definio de estratgias para lidar com dados faltantes; 4. Transformao dos dados: visa encontrar caratersticas importantes para representar os dados de acordo com o objetivo do processo e reduzir o nmero de variveis; 5. Minerao dos dados: considerada a principal etapa do KDD, refere-se aplicao de algoritmos especficos para a extrao de padres em bases de dados, transformando dados em informao; 6. Interpretao dos padres encontrados; 7. Utilizao do conhecimento gerado.
Figura 1 Viso geral dos passos que compem o KDD. Fonte: Fayyad et al, 1996.
Aprendizagem de mquina pode ser definida como o estudo de mtodos para o aprendizado de programas de computadores, e suas tarefas so dividas em
26
supervisionados e no supervisionadas. A aprendizagem supervisionada faz uso de um conjunto de dados de treinamento em que cada objeto possui uma classe rotuladora. A partir desse modelo, o algoritmo deve ser capaz de inferir a classe de novos objetos. (Dietterich, 2003). Portanto, aprendizagem de mquina supervisionada por classificao consiste em treinar o algoritmo a partir de objetos previamente classificados para que, ento, o algoritmo seja capaz de inferir a classe de novos objetos. Por exemplo, suponha um conjunto de pacientes que sofreram infarto agudo do miocrdio e outro conjunto que no sofreu. Os dados sobre consultas, exames realizados, etc. definem o objeto de treinamento, ter sofrido infarto agudo do miocrdio ou no, define a classe. O algoritmo ento treinado com esses dois conjuntos e deve aprender como classificar novos objetos, alm dos utilizados no treinamento. H uma vasta quantidade de algoritmos para aprendizagem supervisionada por classificao, entre elas: redes neurais, redes Bayesianas e rvores de deciso. Dietterich (2003) classifica esse ltimo como ... um dos mais versteis, eficiente e popular algoritmo de aprendizagem de mquina. Este algoritmo foi o escolhido para a realizao desse trabalho.
Em computao, uma rvore uma estrutura de dados composta por uma raz, ramos e ao fim dos ramos, folhas. De acordo com Dietterich (2003), uma rvore de deciso uma estrutura que segue o mesmo conceito descrito acima, em que cada n da rvore (ramo ou raz) responsvel por testar o valor de um atributo do objeto. Caso o resultado seja verdadeiro, a rvore escolhe o ramo da esquerda para seguir, se for falso, segue o da direita. Esse processo se repete at que se alcanado uma folha da rvore. As folhas no fazem tomadas de deciso, elas apenas atribuem o rtulo, ou classe, ao objeto. A prxima figura apresenta um exemplo de rvore de deciso que determina a espcie, ou classe (ris-setosa, ris-virgnica, ris-versicolor), da flor ris baseada
27
nos atributos largura da ptala, largura da stala, comprimento da ptala e comprimento da stala. Neste exemplo, todos os atributos da flor compem o objeto de estudo.
Figura 2 Exemplo de rvore de deciso para determinar a espcie, ou classe, da flor ris com base nos atributos comprimento da ptala, comprimento da stala, largura da ptala, largura da stala.
Essa rvore foi gerada com base em 150 registros de teste previamente classificados para utilizao no processo de aprendizagem supervisionada. O algoritmo gerado toma as seguintes decises: 1. Se a largura da ptala for menor ou igual a 0.6 cm, a flor ris ser classificada como ris-setosa. 2. Caso a largura da ptala for maior que 0,6 cm e menor ou igual a 1.7 cm, ento ser necessrio testar o comprimento da stala. Seno, a flor ris ser classificada como ris-virgnica.
28
3. Caso o comprimento da stala seja menor ou igual a 4.9 cm, ento a flor ris ser classificada como ris-versicolor. 4. Caso o comprimento da stala for maior que 4.9 cm e a largura da ptala for menor ou igual a 1.5 cm, ento a flor ris ser classificada como risvirgnica. Seno, ser classificada como ris-versicolor. Como grandes vantagens dos algoritmos de aprendizagem por rvore de deciso esto a facilidade com que humanos podem interpretar o resultado gerado e, tambm, a fcil implementao do algoritmo nos sistemas que efetivamente faro uso. Para o teste do algoritmo gerado nesse trabalho, foi escolhido o mtodo validao cruzada por k-fold. Segundo Refaeilzadeh et al (2009), Validao cruzada um mtodo estatstico para avaliao e comparao de algoritmos de aprendizagem atravs da diviso dos dados em dois segmentos: aprendizagem e validao. O mtodo k-fold baseia-se na diviso do conjunto de dados em k grupos mutuamente exclusivos, em seguida realizada k iteraes em que o equivalente a k 1 grupos faro parte do segmento de aprendizagem e o grupo restante ser o grupo de teste. A cada iterao, o grupo de teste deve ser diferente (Refaeilzadeh et al, 2009). Para a anlise dos resultados gerados, so utilizadas as seguintes mtricas: acurcia, a quantidade de objetos de estudo classificados corretamente, e taxa de erro, quantidade de registros classificados incorretamente (Dallagassa, 2009). Portanto, quanto maior a acurcia e, consequentemente, menor a taxa de erro, maior a eficincia do algoritmo. O algoritmo utilizado para a gerao da rvore de deciso desse trabalho o J48, que uma implementao em linguagem Java do algoritmo C4.5 proposto por Quinlan (1993). O C4.5 constri a rvore de deciso de a partir de um conjunto dos dados de teste previamente classificados. O processo se baseia na induo e posterior refinamento da rvore de deciso, onde as regras com melhor aproveitamento aps o refinamento so utilizadas (Vianna, 2007).
29
H atualmente na literatura uma srie de trabalhos que fazem uso de tcnicas de KDD para a descoberta de padres em bases de dados, inclusive voltados a temas ligado a sade. Entretanto, especificamente voltados para a identificao de padres para a descoberta de beneficirios com indicativos a Infarto Agudo do Miocrdio no foram encontrados.
2.3.1 Aplicao da Descoberta de Conhecimento em Bases de Dados para Identificao de Usurios com Doenas Cardiovaculares Elegveis para Programas de Gerenciamento de Caso
Kobus (2006) utilizou tcnicas de KDD para a identificao de beneficirios com indicativos a doenas cardiovasculares, incluindo o Infarto Agudo do Miocrdio, elegveis para programas de gerenciamento de caso. Kobus (2006) apresenta resumidamente o resultado de sua pesquisa conforme o quadro a seguir.
30
Tabela 6: Resumo dos resultados obtidos por Kobus (2006). Fonte: Kobus (2006).
Usurios a serem indicados Variveis administrativas para programas de gerenciamento de casos cardiovasculares Com mais de 40 anos, que apresentarem em seu histrico procedimentos indicativos a diabetes (Microalbuminria, Hemoglobina Glicosada, Mapeamento de retina) e que forem do sexo masculino. Idade, cdigos de procedimentos dos usurios, custo e complexidade dos eventos.
Eventos alertas
Cateterismo cardaco, angioplastia de vaso nico, implante de stent, cintilografia do miocrdio, VR cateterismo cardaco, VR revascularizao do miocrdio, consultas de emergncia, hemoglobina glicosada, mapeamento de retina e microalbuminria.
importante ressaltar que cada base de dados nica em termos estruturais, tipos de informaes relevantes para cada negcio, compromisso com a qualidade dos dados armazenados, etc. Fatores como estes implicam em descobertas diferentes em cada estudo e, consequentemente, em se tratando de KDD, regras diferentes. Entretanto, conforme ser apresentado a seguir nos resultados encontrados, veremos que os eventos alertas descobertos por Kobus (2006), muito se assemelham aos deste trabalho.
31
2.3.2 Concepo de uma Metodologia Para Identificao de Beneficirios com Indicativos de Diabetes Mellitus Tipo 2
Dallagassa (2009), utilizou tcnicas de KDD, tambm aplicados a base de dados de uma operadora de plano de sade, com o objetivo de propor uma metodologia para a identificao de beneficirios com indicativo de Diabetes Mellitus Tipo 2. A metodologia proposta por Dallagassa (2009) se mostrou eficaz para a descoberta de padres para a identificao de beneficirios com indicativos a outras doenas crnicas no transmissveis, com o Infarto Agudo do Miocrdio, fato este que colocado prova pela utilizao dessa mesma metodologia nesse trabalho.
32
3 METODOLOGIA
Este trabalho ir utilizar a metodologia proposta por Dallagassa (2009) para identificar na base de dados da CELOS beneficirios do plano de sade administrado pela empresa, com alta probabilidade de sofrerem infarto agudo do miocrdio. A seguir, a proposta metolgica proposta por Dallagassa (2009):
33
A Celos no dispe de um ambiente Data Warehouse, ento, foi necessrio criar uma base de dados oracle para estudo que iria receber os dados da base de produo. O primeiro passo do trabalho foi realizar o levantamento de todas as tabelas necessrias distribudas entre os sistemas em produo da CELOS, para compor a base de dados de estudo. Este levantamento foi realizado em conjunto com os analistas de sistemas da CELOS, que ao final do levantamento, disponibilizaram o arquivo de exportao dos dados levantados, que posteriormente foram importados pela base de dados de estudo. Em seguida, foi feito a seleo das variveis importantes para o estudo, disponibilizados por especialista na rea mdica em cardiologia. Os dois grandes grupos de estudo foram criados no passo seguinte: Grupo 1: Beneficirios que se submeteram ao procedimento de revascularizao do miocrdio; Grupo 2: Beneficirios que no se submeteram ao procedimento de revascularizao do miocrdio; Pr-processamento, onde foi criado o arquivo com a estrutura baseada nas variveis selecionadas. Minerao dos dados onde foi utilizado o algoritmo de rvore de deciso C4.5 para realizar a tarefa de classificao para a descoberta das regras. E por fim, a anlise e validao dos resultados obtidos.
34
Para realizar o estudo, selecionamos dados de dois grupos distintos da base de dados, tendo adotado a data de 31/12/2010 como data limite: Grupo 1: Beneficirios que se submeteram ao procedimento de Revascularizao do Miocrdio; Grupo 2: Beneficirios que no se submeteram ao procedimento de Revascularizao do Miocrdio. Para a criao destes dois grupos, foi verificada a ocorrncia do procedimento Revascularizao do Miocrdio, dentre as internaes pelas quais os beneficirios se submeteram. Para os beneficirios onde houve ocorrncia do procedimento de Revascularizao do Miocrdio, o mesmo foi classificado no Grupo 1, e para os que no tiveram ocorrncia deste procedimento, foram classificados no Grupo 2. A identificao das variveis relevantes para o estudo foi cedida por mdico especialista em cardiologia, sendo: 1. Ressonncia Magntica
35
3.1.2 Pr-processamento
Para o Grupo 2, as variveis quantitativas (1 a 5) foram acumuladas para cada beneficirio, no perodo de 5 anos, at a data limite, ou seja, de 01/01/2006 a 31/12/2010. E as variveis 6 e 7 foram obtidas na data limite. Os beneficirios do Grupo 2, que no possuam 5 anos de permanncia no plano de sade, foram excludas do estudo, assim como os beneficirios que no estavam dentro dos limites de idade, sendo 29 a idade mnima e 83 a idade mxima. Este limite de idade foi feito para equiparar os grupos, pois o Grupo 1 est dentro desta faixa de idade. Para o Grupo 1, foram excludos somente os beneficirios que no possuam nenhum histrico anterior os procedimento de Revascularizao do Miocrdio. Ao final deste levantamento, obtivemos 271 beneficirios no Grupo 1 e 11.637 no Grupo 2, com seus dados sumarizados por beneficirio, omitindo-se a identificao do beneficirio. Para a fase de treinamento e validao, foi criado o atributo rtulo Infartado. Para o Grupo 1, este atributo possui o valor Sim e para o Grupo 2, este atributo possui o valor No.
Pela facilidade de interpretao, o algoritmo escolhido para a minerao dos dados, foi a rvore de deciso, com aprendizagem supervisionada, que realiza
36
inferncia nos dados permitindo que sejam feitos previses ou descoberto tendncias. O software utilizado para a realizao dos estudos, foi a ferramenta de software livre WEKA (Waikato Environment for Knowledge Analysis, disponvel em http://www.cs.waikato.ac.nz/ml/weka/), com o algoritmo de classificao J4.8, sendo uma verso do algoritmo C4.5 proposto por Quinlan (1993). Para a execuo dos testes, foi utilizado o mtodo de validao cruzada com 10 repeties.
Para a avaliao e interpretao dos resultados, analisado a rvore de deciso, com as regras geradas, bem como a matriz de confuso, onde observa-se a acurcia e taxa de erro da populao dos dados e de cada regra. As categorias adotadas para a classificao foram: A Com indicativo a ter infarto agudo do miocrdio; B Sem indicativo a ter infarto agudo do miocrdio.
Para a validao das regras, utilizamos um formulrio (Apndice A), com discriminao das 16 regras encontradas na rvore de deciso e disponibilizamos para 2 mdicos especialistas em cardiologia. Neste formulrio, os especialistas analisaram as regras e fizeram suas inferncias, validando as mesmas.
37
Para a elaborao deste trabalho, foram omitidos todas as informaes que pudessem identificar os beneficirios. O arquivo de exportao cedido pela CELOS no continham os dados pessoais que pudessem identificar os beneficirios, mantendo assim a privacidade dos mesmos.
Este captulo apresentar os resultados obtidos em cada etapa deste trabalho. Com uma breve apresentao dos dados de acordo com as variveis selecionadas para o estudo. Em seguida, detalha-se os resultados obtidos com a rvore de deciso gerada pelo WEKA. E por fim, as concluses apontadas pelos especialistas com os resultados obtidos com modelo de previso.
As variveis utilizadas para estudo so o sexo, idade e quantidade de exames e internaes pela qual os beneficirios foram submetidos. A sumarizao dos exames e internaes segue-se as seguintes regras: Perodo: o Infartados: Data final como sendo a data do infarto, limitado a 31/12/2010 e a data inicial sendo a data de inscrio no plano de sade; o No infartados: de 01/01/2006 a 31/12/2010. Excluso da populao: o Infartados: beneficirios que no possuam nenhum histrico das variveis de estudo antes do infarto;
38
o No-Infartados: Limitao da idade, entre 29 e 83. O limite de 29 foi escolhido, em funo da idade do infartado, que foi de 34 anos, e como estamos analisando 5 anos de histrico, subtramos 5 anos da idade mnima. O limite de 83, a idade do infartado de maior idade da populao; Beneficirios que no possuam 5 anos completos dentro do plano de sade; Realizado esse processo, chega-se ao nmero de 271 infartados e 11637 no infartados, conforme grfico abaixo.
Infartado No_infartado
A primeira anlise realizada com relao ao atributo rtulo, diz respeito ao sexo dos participantes. Foi verificado que o grande grupo de risco do sexo masculino, pois identificou-se os seguintes nmeros: Sexo masculino: o Infartado: 216 o No infartado: 5601 Sexo feminino: o Infartado: 55 o No infartado: 6036
39
A seguir, a distribuio da populao, referenciando os atributos sexo com a situao de infartados, distribudo graficamente, onde os pontos vermelhos so do sexo feminino e os azuis so do sexo masculino, na parte superior do grfico so os beneficirios infartados e na parte inferior so os beneficirios no infartados.
Em seguida, analisou-se o atributo rtulo infartado, fazendo relao com a idade dos participantes. Onde verificou-se que a grande concentrao dos infartados (em vermelho) esto entre 53 e 77 anos, conforme distribuio no grfico a seguir.
40
As demais variveis, tratam do somatrio de exames e internaes para os dois grupos de estudo, onde temos o resultado a seguir.
Tabela 7 Somatrio dos exames e internaes para os grupos de Infartados e no-infartados.
Infartado ECG TESTE_ESFORCO CONSULTA_EMERGENCIA ECOCARDIO CATETERISMO CINTILOGRAFIA ANGIOPLASTIA MARCAPASSO MAPA ANGIOTOMOGRAFIA RESSONANCIA_MAGNETICA
Como estamos trabalhando com toda a populao de beneficirios, o simples somatrio no evidencia as regras, esta anlise foi realizada por meio da rvore de deciso.
4.2 PR-PROCESSAMENTO
Com a base de dados disponibilizada pela Celos e devido enorme quantidade de registros na base de dados, foram criadas duas tabela, uma de infartados e outra para os no-infartados, de forma a facilitar as consultas futuras. Ainda nestas tabelas, criamos, em forma de coluna, todas as variveis do estudo. Em seguida, as colunas foram populadas, fazendo o somatrio das variveis. O somatrio foi realizado por beneficirio, de acordo com a estrutura a seguir.
41
Tabela 8 Estrutura do registro utilizado para a criao do objeto de dados para minerao.
Nome ECG
Domnio Contnuo
TESTE_ESFORCO
Contnuo
CONSULTA_EMERGENCIA
Contnuo
ECOCARDIO
Contnuo
CATETERISMO
Contnuo
CINTILOGRAFIA
Contnuo
ANGIOPLASTIA
Contnuo
MARCAPASSO
Contnuo
MAPA
Contnuo
ANGIOTOMOGRAFIA
Contnuo
42
RESSONANCIA_MAGNETICA
Contnuo
SEXO
Nominal
IDADE
Contnuo
INFARTADO
RTULO (Categrico)
Seguindo a metodologia sugerida por Dallagassa (2009), a ferramenta utilizada para o processo de minerao foi o WEKA, software livre, produzido pela Universidade de Waikato Nova Zelndia, utilizando-se o mtodo de classificao C4.5 (Quinlan, 1993), aplicando o mtodo de referncia cruzada, na repetio 10. Importado o objeto de minerao na ferramenta, analisou-se a matriz de confuso gerada pela ferramenta, recurso que nos permite verificar a acurcia e a taxa de erro do modelo. No primeiro teste realizado, verificou-se que o atributo Cateterismo indicava o atributo alvo, invalidando os resultados, desta forma, este atributo foi retirado do modelo. Aps a retirada do atributo, executou-se novamente o algoritmo C4.5, e obtivemos 97.88% como taxa de acurcia, sendo 11656 registros classificados corretamente, da populao de 11908 registros.
Tabela 9 Matriz de confuso.
Real
No-Infartado Infartado
43
A rvore de deciso gerada pelo algoritmo, gerou uma estrutura com 16 regras encontradas. A seguir, a rvore gerada pelo algoritmo:
A seguir, esto descritas as regras encontradas com indicativo a infarto agudo do miocrdio: 1. Beneficirios que no possuem marcapasso e no fizeram nenhuma consulta em emergncia e fizeram um exame de cintilografia e fizeram at dois exames de teste de esforo e fizeram um ou mais exames de ecocrdio e fizeram at 7 exames de ECG e so do sexo masculino;
44
2. Beneficiarios que no possuem marcapasso e que no fizeram nenhuma consulta em emergncia e que fizeram at um exame de cintilografia e so do sexo masculino e fizeram at 2 exames de teste de esforo e no fizeram nenhum ecg e so menores de 60 anos; 3. Beneficiarios que no possuem marcapasso e que no fizeram nenhuma consulta em emergncia e que fizeram at um exame de cintilografia e so do sexo masculino e fizeram at 2 exames de teste de esforo e fizeram 1 ou mais exames de ecocardiografia e fizeram mais de 7 exames de ECG e so maiores de 68 anos de idade; 4. Beneficiarios que no possuem marcapasso e que no fizeram nenhuma consulta em emergncia e que fizeram mais de um exame de cintilografia e que so do sexo masculino e fizeram mais de 2 exames de teste de esforo e fizeram mais de 1 ecocardio e fizeram mais de 1 mapa; 5. Beneficiarios que possuem marcapasso e que fizeram at 15 exames de ECG e que so do sexo feminino e que no fizeram nenhum exame de cintilografia; 6. Beneficiarios que possuem marcapasso e que fizeram at 15 exames de ECG e que so do sexo masculino.
45
Regras
Infartado Sim No X
(MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA <= 0) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = F) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO <= 0) e ( IDADE <= 60) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO <= 0) e ( IDADE >60) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO > 0) e X X
46
(ECG <=7) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO > 0) e (ECG > 7) e (IDADE <= 68) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO > 0) e (ECG > 7) e (IDADE > 68) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA > 1) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO > 2) e (ECOCARDIO <= 1) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e X X X X X
47
(CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO > 2) e (ECOCARDIO > 1) e (MAPA <= 0) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO > 2) e (ECOCARDIO > 1) e (MAPA > 0) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA > 0) (MARCAPASSO > 0) e (ECG <= 15) e (SEXO = F) e (CINTILOGRAFIA <= 0) (MARCAPASSO > 0) e (ECG <= 15) e (SEXO = F) e (CINTILOGRAFIA > 0) (MARCAPASSO > 0) e (ECG <= 15) e (SEXO = M) (MARCAPASSO > 0) e (ECG > 15) X X X X X X
48
Para a validao das regras, foi criado um formulrio para preenchimento por especialista da rea mdica em cardiologia, com as regras que indicam a tendncia a infarto agudo do miocrdio. Como o nosso trabalho verifica somente a tendncia de ter ou no ter infarto, optou-se por inserir neste formulrio somente as regras que indicam tendncia ao infarto, de modo que o no atendimento regra, indica implicitamente que o beneficirio no tem tendncia a ter um infarto.
Nesta etapa, solicitou-se a avaliao das regras encontradas, por parte de especialistas em cardiologia, por meio de um instrumento de validao (modelo disponvel no Apndice A), devidamente respondido pelos especialistas. O mdico especialista respondeu ao instrumento de validao, preenchendo a coluna Avaliao da Regra com as seguintes opes: 1 Concordo com a regra 2 Concordo parcialmente com a regra 3 Discordo da regra
No campo observao, o mdico especialista deu o seu parecer sobre a avaliao informada. A seguir, quadro com as respostas do especialista convidado para a avaliao, os comentrios retirados desta anlise esto disponveis logo aps.
49
Regra Beneficirios que no possuem marcapasso E no fizeram nenhuma consulta em emergncia E fizeram um exame de cintilografia E fizeram at dois exames de teste de esforo E fizeram um ou mais exames de ecocrdio E fizeram at 7 exames de ECG E so do sexo masculino. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino e fizeram at 2 exames de teste de esforo E no fizeram nenhum ecg e so menores de 60 anos. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino E fizeram at 2 exames de teste de esforo
Especialista 1
50
E fizeram 1 ou mais exames de ecocardiografia E fizeram mais de 7 exames de ECG E so maiores de 68 anos de idade. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram mais de um exame de cintilografia E que so do sexo masculino e fizeram mais de 2 exames de teste de esforo E fizeram mais de 1 ecocardio e fizeram mais de 1 mapa. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo feminino E que no fizeram nenhum exame de cintilografia. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo masculino. 1 1 2
No quadro a seguir, os comentrios realizados pelo especialista, da forma exata como foi escrito, para cada regra avaliada:
51
Especialista possuem Marcapasso seria uma consequncia da revascularizao. ?? nenhuma consulta em emergncia??
no fizeram nenhuma consulta em Cintilografia ok -> revascularizao obr emergncia E fizeram um exame de cintilografia E deteco da isquemia. Ecocardio ok -> ECG -> OK qto a frequncia
fizeram at dois exames de teste de Sexo Masculino mais suscetvel aos esforo E fizeram ecocrdio E fizeram at 7 exames de ECG E so do sexo masculino. Beneficiarios marcapasso E que no possuem Teste de esforo 2 em um intervalo de 5 anos = concorda 2 teste de esforo em 5 anos = ok. um ou mais exames de eventos coronarianos.
que no fizeram nenhuma consulta em Discorda e equivoco em relao ao ECG. emergncia E que fizeram at um exame Menor de 60 anos havia tendncia de abaixo de 70, acima de 70 tratamento clinico Hoje em dia isso esta mudando. Comenta que deva-se considerar um ponto de corte um pouco mais alto de 70
fizeram at 2 exames de teste de anos. esforo E no fizeram nenhum ecg e so menores de 60 anos. Beneficiarios que no possuem
52
marcapasso E
que no fizeram nenhuma consulta em Algumas revascularizaes acontecero emergncia E que fizeram at um exame depois de uma consulta de emergncia. Acima de 70 comentrio acima e com de foco no tratamento eletivo.
cintilografia E so do sexo masculino E fizeram at 2 exames de teste de esforo E fizeram 1 ou mais exames de
ecocardiografia E fizeram mais de 7 exames de ECG E so maiores de 68 anos de idade. Beneficiarios marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram mais de um exame de cintilografia E que so do sexo masculino e fizeram mais de 2 exames de teste de esforo E fizeram mais de 1 ecocardio e que no possuem Mais de 1 mapa valida a experincia .
53
fizeram mais de 1 mapa. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo feminino E que no fizeram nenhum exame de cintilografia. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo masculino. Concorda na negao da cintio, porem ter que realizar um Cateterismo. Essa regra pode ser explorada Concorda na negao da cintio, porem ter que realizar um Cateterismo. Essa regra pode ser explorada
Conforme as respostas do mdico especialista, nenhuma regra encontrada pela rvore de deciso foi rejeitada. Percebe-se em alguns comentrios o questionamento sobre o nmero de consultas em emergncia. Analisando a base de dados, descobrimos realmente que o nmero muito baixo, o que pode indicar uma falha na base de dados e no no modelo encontrado.
54
5 CONSIDERAES FINAIS
Em 2010, as empresas de plano de sade comprometeram, em mdia, o equivalente a 79,8% do arrecadamento total somente com despesas assistncias, obtendo no final do balano um lucro de 1,8%. (BRASIL, IESS, 2011). A arrecadao de uma operadora de plano de sade conhecida de antemo, enquanto as despesas so variveis, e os custos so maiores quando o atendimento aos beneficirios reativo a suas doenas. Por isso, as operadoras de plano de sade precisam mudar o modelo de gerenciamento de seus beneficirios, focando em um modelo preventivo a doenas, visando melhorar a qualidade de vida dos seus beneficirios e tambm diminuir os custos assistenciais. Essa uma ao crtica para as operadoras de plano de sade para que possam sobreviver em meio grande concorrncia e aos altos custos assistncias (Miranda, 2003). O Infarto Agudo do Miocrdio a principal causa isolada de mortes no Brasil, e o seu tratamento de alto custo para as operadoras. Observou-se que no Plano CELOS, o custo mdio para o tratamento de um beneficirio que sofreu IAM nos ltimos 5 anos esteve acima de 40 mil reais. Nesse contexto, surgiu a motivao para a utilizao de tcnicas de Inteligncia Artificial voltadas descoberta de padres em Banco de Dados para a identificao de beneficirios com indicativos a Infarto Agudo do Miocrdio, para que estes sejam encaminhados a programas de preveno, proporcionando melhor qualidade de vida e, consequentemente, diminuindo os custos assistenciais dos planos de sade. A elaborao das regras, a partir da rvore de deciso gerada pelo algoritmo, permitiu que um especialista em cardiologia atestasse o conhecimento encontrado, validando as regras encontradas, sendo que, nenhuma hiptese foi recusada pelo especialista, mostrando a eficincia da metodologia proposta por Dallagassa. O resultado deste trabalho pode ser amplamente utilizado pela CELOS, para a criao de programas promoo, preveno e gerenciamento de casos de beneficirios que possuem tendncia a ter um infarto agudo do miocrdio. Este tipo de trabalho, alm de promover a qualidade de vida dos participantes do plano de sade, permite um melhor gerenciamento dos recursos financeiros do plano de sade, at mesmo, a diminuio dos custos com internaes e procedimentos.
55
Para trabalhos futuros, verificou-se a necessidade da construo de um aplicativo que implementasse a metodologia proposta por Dallagassa (2009). Este aplicativo deveria ter a capacidade de solicitar ao usurio a definio do atributo rtulo e das variveis que sero utilizadas no modelo. A partir desta definio, padronizar a entrada dos dados do modelo, atravs de arquivos XML ou outras solues possveis. Ainda como sugesto, poderia existir neste aplicativo uma interface de conexo com bancos de dados, onde seria possvel programar as consultas que resultariam nos dados do modelo.
56
REFERNCIAS
AURLIO, Marco; VELLASCO, Marley; LOPES, Carlos Henrique. Descoberta de Conhecimento e Minerao de Dados. Rio de Janeiro, 1999. BRASIL. Agncia Nacional de Sade Suplementar. Caderno de Informao da Sade Suplementar: Beneficirios, Operadoras e Planos. Rio de Janeiro: ANS, 2010. 12 p. BRASIL. Instituto de Estudos de Sade Suplementar. As despesas das operadoras de planos de sade representam 98% da receita de mensalidades. Disponvel em: <http://www.iess.org.br/informativosiess/15.htm>. Acesso em 15 de jul. 2011. CELOS, Regulamento do Plano CELOS Sade. Florianpolis: CELOS: 2011. DALLAGASSA, Marcelo. Concepo de uma metodologia para a identificao de beneficirios com indicativos de Diabetes Mellitus Tipo 2. Programa de PsGraduao em Tecnologia em Sade. Pontifcia Universidade Catlica do Paran. Curitiba, 2009. DIETTERICH, Thomas G. Machine Learning. In Nature Encyclopedia of Cognitive Science, London: Macmillan, 2003. FAYYAD, Usama; PIATESKY-SHAPIRO, Gregory; SMYTH, Padhraic. Advances in Knowledge Discovery and data mining. Boston: MIT Press, 1996. HALHUBER, Carola; HALHUBER, Max J.; HELLMUTH, Bruno. Infarto do miocrdio: deteco precoce, como super-lo, como evitar o reinfarto. Rio de Janeiro: Ao Livro Tcnico, 1981. KAMEL, Dilson; KAMEL, Jos Guilherme Nogueira. Como prevenir o enfarto do miocrdio: atravs de atividade fsica e alimentao adequada. Rio de Janeiro: Sprint, 1996. 103 p. KOBUS, Luciana S. G. Aplicao da Descoberta de Conhecimentos em Bases de Dados Para Identificao de Usurio com Doenas Cardiovasculares Elegveis Para Programas de Gerenciamento de Caso. Programa de PsGraduao em Tecnologia em Sade. Pontifcia Universidade Catlica do Paran. Curitiba, 2006. MIRANDA, Cludio Rocha, Gerenciamento de Custos em Planos de Assistncia Sade, 2003. Trabalho Tcnico. Rio de Janeiro: Agncia Nacional de Sade
57
Suplementar. Disponvel em: <http://www.ans.gov.br/portal/upload/biblioteca/TT_AS_20_ClaudioMiranda_Gerenci amentodeCusto.pdf> Publico em nov. 2003. Acesso em 15 de jul. 2011. OLSZEWER, Efrain. Como enfrentar a angina de peito e o infarto agudo de miocrdio. So Paulo: cone, 1992. QUINLAN, J. Ross. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers. Califrnia, USA: Morgan Kaufmann, 1993. REFAEILZADEH, Payam; TANG, Lei; LIU, Huan. Cross Validation. In Encyclopedia of Database Systems. Springer, 2009. SOCIEDADE BRASILEIRA DE CARDIOLOGIA (SBC). III Diretrizes Sobre Tratamento do Infarto Agudo do Miocrdio. Disponvel em: <http://publicacoes.cardiol.br/consenso/2004/DirIII_TrataIAM.pdf>. Publicado em ago. 2004. Acesso em 10 de nov. 2011. TURBAN, Efraim. Decision Support and Expert Systems: management support systems. New Jersey, USA: Prentice-Hall Inc, 1995. VIANNA, Rossana Cristina Xavier Ferreira. Identificao de Caractersticas Relacionadas Mortalidade Infantil Utilizando a Descoberta de Conhecimento em Base de Dados de Sade Pblica. Programa de Ps-Graduao em Tecnologia em Sade. Pontifcia Universidade Catlica do Paran. Curitiba, 2007. WEKA, Waikato Environment for Knowledge Analysis. Disponvel em <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em 15 de dez. 2011, University of Waikato, New Zealand, 2007.
58
APNDICE A
Especialidade mdica:
Para a realizao do estudo, selecionamos dados de dois grupos distintos da base de dados, tendo adotado a data de 31/12/2010 como data limite: Grupo 1: Beneficirios que se submeteram ao procedimento de Revascularizao do Miocrdio; Grupo 2: Beneficirios que no se submeteram ao procedimento de Revascularizao do Miocrdio. Para a criao destes dois grupos, foi verificada a ocorrncia do procedimento Revascularizao do Miocrdio, dentre as internaes pelas quais os beneficirios se submeteram. Para os beneficirios onde houve ocorrncia do procedimento de Revascularizao do Miocrdio, o mesmo foi classificado no Grupo 1, e para os que no tiveram ocorrncia deste procedimento, foram classificados no Grupo 2. A identificao das variveis relevantes para o estudo foi cedida por mdico especialista em cardiologia, sendo: 1. Ressonncia Magntica; 2. Cateterismo; 3. Cintilografia; 4. Angioplastia; 5. Marcapasso; 6. Sexo; 7. Idade; 8. Consulta de Emergncia. Para o Grupo 2, as variveis quantitativas (1 a 5) foram acumuladas para cada beneficirio, no perodo de 5 anos, at a data limite, ou seja, de 01/01/2006 a 31/12/2010. E as variveis 6 e 7 foram obtidas na data limite. Os beneficirios do Grupo 2, que no possuam 5 anos de permanncia no plano de sade, foram excludas do estudo, assim como os beneficirios que no
59
estavam dentro dos limites de idade, sendo 29 a idade mnima e 83 a idade mxima. Este limite de idade foi feito para equiparar os grupos, pois o Grupo 1 est dentro desta faixa de idade. Para o Grupo 1, foram excludos somente os beneficirios que no possuam nenhum histrico anterior os procedimento de Revascularizao do Miocrdio. Ao final deste levantamento, obtivemos 271 beneficirios no Grupo 1 e 11.637 no Grupo 2, com seus dados sumarizados por beneficirio, omitindo-se a identificao do beneficirio. Preenchimento: o mdico especialista deve preencher a coluna Avaliao da Regra com as seguintes opes: 1 Concordo com a regra 2 Concordo parcialmente com a regra 3 Discordo da regra
No campo observao, o mdico especialista deve dar o seu parecer sobre a avaliao informada. Regra Avaliao da Regra Beneficirios que no possuem marcapasso E no fizeram nenhuma consulta em emergncia E fizeram um exame de cintilografia E fizeram at dois exames de teste de esforo E fizeram um ou mais exames de ecocrdio E Observao
60
fizeram at 7 exames de ECG E so do sexo masculino. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma
consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino e fizeram at 2 exames de teste de esforo E no fizeram nenhum ecg e so menores de 60 anos. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma
consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino E fizeram at 2 exames de teste de esforo E fizeram 1 ou mais exames de
61
ecocardiografia E fizeram mais de 7 exames de ECG E so maiores de 68 anos de idade. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma
consulta em emergncia E que fizeram mais de um exame de cintilografia E que so do sexo masculino e fizeram mais de 2 exames de teste de esforo E fizeram mais de 1 ecocardio e fizeram mais de 1 mapa. Beneficiarios marcapasso E que fizeram at 15 exames de ECG E que so do sexo feminino E que no fizeram nenhum exame de cintilografia. Beneficiarios marcapasso que possuem que possuem
62