Relatorio 03

Recuperação de Informação de Casos Clínicos no contexto
do R-Diagnosis
Sidney L. de Sá1, Bruno V. Cunha de Sá1, Bruno Alves Hilário¹, Joao Freitas ¹
1
Pós-Graduação em Computação – Universidade Federal Fluminense (UFF)
CEP 24210-310 – Niterói – RJ – Brasil
{loyoladesa,bcunhasa,brhilario, silva.joaomf }@gmail.com,
Abstract. This work presents a form of insertion and retrieval of information

from clinical cases, to assist in the construction of a collaborative system of
the medical community. The goal of this system is to improve and accelerate
the diagnosis of rare diseases. We used text mining with the Naive Bayes
algorithm to classify similar clinical cases.
Resumo. Este trabalho apresenta forma de inserção e recuperação de

informações de casos clínicos, para auxiliar na construção de sistema
colaborativo da comunidade médica. O objetivo desse sistema é melhorar e
acelerar o diagnóstico de doenças raras. Utilizou-se mineração de textos com
o algoritmo Naive Bayes para classificar casos clínicos semelhantes.
1. Introdução
Apesar de todo o avanço da Medicina existem doenças de difícil diagnóstico. Em
muitos casos, não existem exames que comprovem o diagnóstico da doença,
dependendo da experiência e conhecimento do Médico especialista para se iniciar o
tratamento adequado. Porém, dependendo do caso, não são suficientes para realizar o
diagnóstico e determinar um tratamento. Por isso, os médicos também dependem da
troca de informações com outros médicos. Seja participando de fóruns de medicina,
conversas e grupos de WhatsApp com outros colegas de profissão.
Por não terem uma plataforma unificada, as informações são pouco difundidas e
de difícil recuperação. Por esse motivo, foi idealizada uma ferramenta onde os casos
médicos pudessem ser registrados, ainda que sem expor o paciente, com os sintomas
apresentados e os tratamentos realizados. Servindo como base para outros médicos que
estiverem analisando casos semelhantes. Para a implantação dessa ferramenta de
colaboração da comunidade médica, verificou-se a necessidade de recuperação de
informação sobre casos semelhantes já existentes na base. Nesse trabalho apresentamos
a forma como lidamos com esse problema.
2. Inteligência Coletiva
Google é um excelente exemplo de como grupos de pessoas vagamente organizadas
com apoio de ferramentas eletrônicas podem produzir resultados surpreendentes.
Através das avaliações de milhões de pessoas o Google cria índices de páginas web para
produzir resultados incríveis para as questões inseridas em seu mecanismo de busca [1].
Há diversas outras aplicações que, com apoio de ferramentas online, permite
conectar diferentes pessoas para produzir soluções para diversos problemas, dentre elas
a Wikipedia, o Waze e até a construção de softwares como o navegador Mozilla Firefox.
As multidões podem criar resultados ativamente ou passivamente, um exemplo
seria o algoritmo do Waze que avalia o trajeto executado por uma determinada pessoa,
através de um celular que tenha seu aplicativo instalado, ou seja, uma pessoa apenas se
movimentando está contribuindo para as informações de trânsito em tempo real.
Para um melhor aproveitamento desse tipo de aplicação podemos utilizar o
Genoma do sistema para melhor construção de uma aplicação de Inteligência Coletiva.
Os blocos que definem o sistema são chamados genes e respondem às seguintes
perguntas: O que deve ser feito? Quem está fazendo? Porque eles farão? Como isto será
feito [1]?
3. R-Diagnosis
Diversas pessoas sofrem com doenças raras, que Segundo a Organização Mundial de
Saúde seria a doença que afeta até 65 pessoas em cada 100 mil habitantes. Esses
pacientes demoram de 2 até 10 anos para serem diagnosticados, devido aos seus
sintomas serem confundidos com o de outras doenças. Assim, esses indivíduos
peregrinam de médico em médico até conseguirem encontrar o especialista correto para
que seja realizado o diagnóstico [2].
Por isso, o R-Diagnosis foi pensado como uma ferramenta para que os médicos
pudessem trabalhar em conjunto acelerando o diagnóstico e criando uma base de
informações para facilitar o estudo. Quando um profissional se deparasse com um caso
de difícil solução ele poderia indicar o quadro clínico, sempre de forma anônima tanto
para o médico quanto para o paciente, e a ferramenta utilizando, o algoritmo Naive
Bayes, indicaria um possível diagnóstico inicial e os demais médicos colaborariam com
opiniões e indicações.
Utilizando o Genoma de Inteligência Coletiva para projetar nosso sistema
decidimos recompensar os médicos que colaborassem, tanto inserindo novos casos
quanto opinando sobre o diagnóstico, através de incentivo financeiro e reconhecimento
público. A decisão sobre qual tratamento seguir e diagnóstico é do médico que postou o
caso, ele também seria o responsável por fornecer o feedback para a comunidade.
Os ganhos para a comunidade são base de informações para estudo de casos
reais, solução através de colaboração entre médicos que de outra forma demorariam para
trabalhar em conjunto, encontro mais rápido com o especialista em determinado assunto
pelas informações estarem organizadas.
4. Experimento
Ao iniciar o desenvolvimento de um protótipo nos deparamos com o seguinte problema:
como representar um caso clínico e quando inserido um novo caso, como informar se já
existe um caso semelhante?
As respostas para esses questionamentos são vitais para a continuação do projeto
e não é trivial. A ideia inicial era estruturar as informações através dos sintomas, mas
em consulta com especialistas informaram que o ideal seria fazer em forma de texto
livre para a inserção dos casos, pois não poderiam estruturar todos os sintomas
possíveis.
Dessa forma, nosso sistema deve ser capaz de recuperar informações de texto
livre, transformando-o em um caso estruturado. Após essa etapa, um classificador seria
utilizado para determinar se há casos semelhantes, apresentando os mesmos ao usuário
que decidiria inserir um novo caso ou não.
Para solucionar o problema de recuperação de informações de texto livre
utilizamos a mineração de textos trabalhando com dados não estruturados. Para esse
processo primeiro normalizamos o texto, removendo o que não é necessário através de
tokenização, stemming e stopwords [3].
A tokenização separa as palavras do texto, removendo as pontuações, espaços
em branco e outros caracteres, já o stemming reduz as palavras ao seu radical
eliminando as variações morfológicas, evitando erros de classificação causados por
possíveis problemas de digitação. Depois dessa preparação inicial, eliminamos as
palavras desnecessárias, as stopwords, identificando dentre as palavras restantes os
sintomas para a construção do caso clínico.
Após selecionados os sintomas, construímos o caso e tentamos classifica-lo para
encontrar casos semelhantes. Nesse trabalho, foi utilizado o algoritmo Naive Bayes
através do Weka [4] para análise da eficácia desse procedimento. Devido à dificuldade
em encontrar uma base de dados de casos médicos disponíveis em português utilizamos
a Disease-Symptom Knowledge Database [5] que é uma base construída da associação
de sintomas a doenças.
Com ajuda de um especialista selecionamos sintomas para criar casos clínicos
distintos associados a mesma doença, alimentando nosso protótipo com essa base.
Inserindo novos casos clínicos, o sistema retornou casos semelhantes com mais de 80%
de acurácia.
7. Conclusão
Esse projeto apresenta um Sistema que possibilite a colaboração entre os médicos com o
objetivo de melhorar e acelerar o processo de diagnóstico. Além disso, utilizando essa
nova tecnologia será possível construir um conjunto de dados para consulta e posteriores
estudos. Uma dificuldade inicial era de como estruturar os dados dos casos clínicos e
quando houvesse a inserção de um novo caso, como retornar casos semelhantes.
O problema foi tratado permitindo que os médicos insiram os casos em texto
livre, sugerindo possíveis sintomas já cadastrados. Após isso, é realizada uma mineração
no texto para identificar e estruturar os sintomas apresentados pelos médicos. Utiliza-se
um classificador Naive Bayes para retornar casos semelhantes, quando analisado com o
auxílio do nosso protótipo conseguimos acurácia de 80% em classificar os casos
similares.
A principal dificuldade ainda reside na falta de conjuntos de dados estruturados
para apresentação de casos clínicos na língua portuguesa. Em trabalhos futuros
pretende-se aprimorar o minerador de textos e realizar estudo comparativo com outros
algoritmos classificadores, em especifico, árvores de decisão.
Referências
[1] T. Malone, R. Laubacher, e C. Dellarocas, “The collective intelligence genome”,
IEEE Engineering Management Review, vol. 38, no 3, p. 38–52, 2010.
[2] “Doenças raras – quais são e por que são chamadas dessa forma?”, Laboratórios
Pfizer | Saúde para uma vida melhor, 16-abr-2015. [Online]. Disponível em:
https://www.pfizer.com.br/noticias/Doencas-raras-quais-sao-e-porque-sao-
chamadas-assim. [Acessado: 08-jul-2019].
[3] “Aplicação de Técnicas de Mineração de Textos para Classificação de Documentos:
um Estudo da Automatização da Triagem de Denúncias na CGU”, p. 65.
[4] “Weka 3 - Data Mining with Open Source Machine Learning Software in Java”.
[Online]. Disponível em: https://www.cs.waikato.ac.nz/ml/weka/. [Acessado: 06-
jul-2019].
[5] “Disease”. [Online]. Disponível em:
http://people.dbmi.columbia.edu/~friedma/Projects/DiseaseSymptomKB/index.html
. [Acessado: 09-jul-2019].

Relatorio 03

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Relatorio 03

Загружено:

Авторское право:

Доступные форматы

Recuperação de Informação de Casos Clínicos no contexto

Abstract. This work presents a form of insertion and retrieval of information

Resumo. Este trabalho apresenta forma de inserção e recuperação de

Вам также может понравиться