Вы находитесь на странице: 1из 21

Aluna: Bruna Toledo Guedes

Relatório de Utilização
da ferramenta Weka
Introdução

O câncer de mama é o tipo mais comum entre as mulheres no mundo e no


Brasil, respondendo por cerca de 28% dos casos novos a cada ano. Ele é
considerado raro antes dos 35 anos, acima desta idade sua incidência cresce
progressivamente, especialmente após os 50 anos.

A maneira considerada mais eficaz na redução das complicações causadas pelo


câncer de mama é a sua detecção precoce
Base de dados utilizada

Breast Cancer Data Set

Dados de pacientes com câncer de


mama tratados no Centro Médico
Universitário, Instituto de Oncologia,
Eslovênia
Resultados obtidos na Mineração de dados
Classificação - Árvore de decisão
❖Matriz de confusão gerada utilizando todos os atributos:

❖ 79.38% de instâncias classificadas corretamente. Entretanto, 17 casos de recorrência


de câncer foram classificados de forma errada como não recorrentes (Falso Negativo),
que é a falha mais grave.
Resultados obtidos na Mineração de dados
Classificação - Árvore de decisão
❖Matriz de confusão gerada utilizado os atributos: class, deg-malig e
irradiat

❖ 74,23% de instâncias classificadas corretamente, diminuiu para casos de recorrência


de câncer foram classificados de forma errada, como não recorrentes: 10 casos
Resultados obtidos na Mineração de dados
Classificação - Árvore de decisão
Resultados obtidos na Mineração de dados
Classificação - Árvore de decisão
Resultados obtidos na Mineração de dados
Coeficiente Kappa

: Concordância observada
: Concordância ao acaso
Resultados obtidos na Mineração de dados
Coeficiente Kappa
Resultados obtidos na Mineração de dados
Classificação - KNN
Resultados obtidos na Mineração de dados
Classificação - Naive Bayes
Resultados obtidos na Mineração de dados
Comparação dos desempenhos
Resultados obtidos na Mineração de dados
Clusterização: k-means

❖ Atributos escolhidos: Node-caps e deg-malig


Resultados obtidos na Mineração de dados
Clusterização: k-means
Resultados obtidos na Mineração de dados
Clusterização - DBSCAN
Parâmetros - Raio: 0.1 e Número mínimo: 1 até 3
Resultados obtidos na Mineração de dados
Associação

Atributos: class, menopause, tumor-size, deg-malig e breast sup: 0,3 conf: 0.7

• R1: deg-malig = 2 => class = no-recurrence-events conf: 0.78%


lift:1.12

• R2: breast-right => class = no-recurrence-events conf: 0,73%


lift: 1.04

• R3: menopause=ge40 => class=no-recurrence-events conf: 0,73%


lift: 1.04
Resultados obtidos na Mineração de dados
Associação

Todas as três regras possuem lift maior que 1.0

• R1: Pacientes que tiveram câncer de mama grau 2, aumentam em 1.12 a chance de
não terem recorrência do câncer

• R2: Pacientes que tiveram tumor na mama direita aumentam em 1.04 a chance de
não terem recorrência do câncer

• R3: Mulheres que tiveram menopausa depois dos 40 anos aumentam em 1,04 a
chance de não terem recorrência do câncer
Resultados obtidos na Mineração de dados
Associação

Atributos: inv-nodes, irradiat e node-caps Sup: 0.6 Conf: 0.8

• R1: inv - nodes: 0 - 2 => irradiat = no conf: 0.86 lift: 1.13

• R2: node - caps = no => irradiat = no conf: 0.84 lift: 1.11


Resultados obtidos na Mineração de dados
Associação

• R1: Pacientes que tiveram até 2 linfonodos axilares que contêm


células cancerígenas aumentam em 1.13 a chance de não fazerem
radioterapia

• R2: Pacientes que não tiveram metástase para os linfonodos


aumentam em 1.11 a chance de não fazerem radioterapia
Conclusão

• Através dos experimentos foi possível determinar padrões que


indicam a possibilidade de recorrência ou não do câncer de mama,
identificar a relação entre os atributos e características de grupos.

• As análises resultaram em um melhor entendimento do conjunto de


dados, foi observado também que é importante variar os parâmetros
de entrada e os atributos para se extrair informações importantes da
base de dados
Referências
UCI Machine Learning Repository: Breast Cancer Data Sets, https://archive.ics.uci.edu/ ml/datasets/breast+cancer, 16/11/2018.
This breast cancer domain was obtained from the University Medical Centre, Institute of Oncology, Ljubljana, Eslovenia.
Agradecimento aos fornecedores dos dados M. Zwitter e M. Soklic, julho de 1988.
Kharya, S., Agrawal, S. and Soni., S. (2014). “Naive Bayes Classifiers: A Probabilistic Detection Model for Breast Cancer”,
International Journal of Computer Applications. 92. 10.5120/16045-5206.
INCA – Instituto nacional do Cancer, http://www2.inca.gov.br/wps/wcm/connect/ tiposdecancer/site/home/mama, 16/11/2018.
Wikipedia, https://pt.wikipedia.org/wiki/Algoritmo_C4.5, 20/11/2018.
Costa, H., Solla, J. and Temporão, J. (2014). “Controle do Câncer de Mama: Documento de Consenso”, Ministério da Saúde.
Instituto Nacional do Câncer. Rio de Janeiro, 2004.
Kappa, http://www.abgconsultoria.com.br/blog/coeficiente-de-concordancia-de-kappa/, 2018.
Clinica da mama,https://clinicadamama.com.br/quais-sao-os-estagios-cancer-de-mama/, 2017
Ontoguia, http://www.oncoguia.org.br/conteudo/linfonodos-e-cancer/6814/1/, 2016
Data Sets, https://archive.ics.uci.edu/ml/datasets/breast+cancer, 16/11/2018.
Anshul, D. and Rajni, M. (2012) “Performance Comparison of Naïve Bayes and J48 Classification Algorithms”, International Journal
of Applied Engineering Research, India
Mackenzie, A., Rodríguez., A, Joao., E and Martínez, R (2017) “Machine learning for the Evolutionary Analysis of Breast Cancer” In
Journal of science and research, pages 44-49
Mittal, K., Mahajan, P. (2017) “Performance of Analysis of K-Nearest Neighbor and K-means clustering to predict the diagnostic
accuracy”, Conference on: Information, Communication and Computing Technology.
Fausto, J (2016) “Modelo de análise de dados: Desperdício de alimentos e desenvolvimento das nações: Um estudo com 40
estados membros da ONU, Universidade Federal de Uberlândia.