Вы находитесь на странице: 1из 36

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

BUSINESS ANALYTICS

PROYECTO: PREDICCIÓN DE PRESENCIA DE


ENFERMEDADES CARDÍACAS

INTEGRANTES:

- Camizan Vigo Amparo


- Perez Pacheco Angela
- Rivera Tello Paula

LIMA - PERÚ
2020

Classification: Public
TABLA DE CONTENIDO

1. RESUMEN
2. INTRODUCCIÓN
3. ANTECEDENTES Y CONTEXTO DEL PROYECTO
4. METODOLOGÍA
5. CONCLUSIONES
6. BIBLIOGRAFÍA

Classification: Public
I. RESUMEN

Este proyecto presenta el estudio para predecir la presencia de enfermedades


cardíacas, que contiene una base de datos de 76 atributos, de los cuales se
han empleado un subconjunto de 14 de ellos (incluido la función objetivo).
Las investigaciones se basan en las siguientes fuentes de información:
Fundación clínica de Cleveland, Instituto húngaro de cardiología, Centro
médico V.A. y el hospital universitario de Zúrich
En particular, la base de datos de Cleveland es la única que ha sido utilizada
por investigadores, sin embargo; los cuatro archivos sin procesar también
existen en este directorio, y se obtuvieron del deposito de aprendizaje de UCI
para machine learning.
El campo "objetivo" se refiere a la presencia de enfermedad cardíaca en el
paciente. Tiene un valor entero de 0 (sin presencia) a 1 (presencia de
enfermedad cardíaca). El archivo heart-disease.names de la página
“kaggle.com” , contiene los detalles de atributos y variables.
En este estudio, los clasificadores se crearon utilizando los conjuntos de datos
combinados y su rendimiento se evaluó mediante validación cruzada. La
técnica empleada es: analitica predictiva o supervisada y como tareas:
clasificación y arbol de decisión.
El proyecto fue dividido en dos fases. La fase I, se centró en el procesamiento
previo de datos y la exploración, la fase II, consiste en la construcción del
modelo, y finalmente en la fase III, se realizó una exploración de cada atributo y
de igual manera se examinó sus interrelaciones, puntos que se cubren en este
informe. Los resultados obtenidos luego de realizar el modelamiento de datos
con el software: Knime, permite predecir que la población con mayor incidencia
de presentar enfermedades cardíacas se encuentra localizada en mujeres y en
el rango de edades entre 43 y 56 años.

Classification: Public
II. INTRODUCCIÓN

La enfermedad cardíaca es una de las principales causas de muerte en todo el


mundo. Se anticipa que el desarrollo de métodos de cálculo puedan predecir la
presencia de enfermedad cardíaca , lo cual reducirá significativamente la
mortalidad causada por esta, mientras que la detección temprana podria
conducir a una reducción sustancial en los costos de atención médica. Los
métodos estadísticos tradicionales extraen inferencias de un número limitado
de variables obtenidas de experimentos realizados en condiciones controladas.
Por el contrario, los métodos de Machine Learning pueden usar una gran
cantidad de variables a menudo complejas obtenidas de una variedad de
bancos de datos médicos para predecir si un paciente tiene una enfermedad
cardíaca. La medicina cardiovascular genera una gran cantidad de datos
biomédicos, clínicos y operativos como parte de la prestación de atención
médica del paciente, lo que hace que este campo sea ideal para el desarrollo y
uso de métodos computacionales para predecir que un paciente tiene una
enfermedad cardíaca. Los esfuerzos recientes para desarrollar modelos
computacionales capaces de analizar y predeir si una personal tiene una
enfermedad cardíaca han demostrado ser muy prometedores.

Classification: Public
III. ANTECEDENTES Y CONTEXTO DEL PROYECTO

3.1. Descripción del área en la que se desarrolla el proyecto o del


proceso en el que se generan los datos.
Los datos fueron generados por UCI Machine Learning Reposity (repositorio de
información) , porque pueden usar una gran cantidad de variables a menudo
complejas obtenidas de una variedad de bancos de datos médicos para
predecir si un paciente tiene una enfermedad cardíaca. La medicina
cardiovascular genera una gran cantidad de datos biomédicos clínicos y
operativos como parte de la prestación de atención médica del paciente,
haciendo este campo ideal para el desarrollo y uso de métodos
computacionales para predecir si un paciente tiene una enfermedad cardíaca
III.2. Resumen de los proyectos similares y qué aportan al proyecto
Se han desarrollado varios estudios a fin de construir clasificadores para
predecir si una persona tiene enfermedad cardiovascular y a la vez contar con
herramientas que puedan predecir los paros cardiacos, detectándolos con
características que se presenten tempranamente en los pacientes, no solo
puede evitar muertes, sino también costos por cuidado.
Los proyectos similares que se han logrado identificar y que son parte
importante de este trabajo por su valioso aporte son los siguientes:
 Fundación clínica de Cleveland
 Instituto húngaro de cardiología
 Centro Medico V.A.
 Hospital universitario de Zúrich
La base de datos general consta de resultados de pruebas médicas y
diagnósticos de enfermedades cardíacas.
Asimismo se tiene un listado de documentos que citan estudios acerca de
enfermedades cardíacas referenciadas en la bibliografía
(http://archive.ics.uci.edu/ml/datasets/heart+disease,
https://www.ijcaonline.org/archives/volume147/number9/bethel-2016-ijca-
911187.pdf)

Classification: Public
IV. METODOLOGÍA

4.1. Problema a resolver u oportunidad para apoyar la toma de


decisiones, cuál es la meta del proyecto
La enfermedad cardíaca sigue siendo un tema de estudio y de interés a nivel
mundial, debido a su alta incidencia en jóvenes y adultos.
La característica de destino tiene dos clases y, por lo tanto, es un problema de
clasificación binaria. Para reiterar, el objetivo es predecir si una persona tiene
una enfermedad cardíaca.

Oportunidades para Meta Contribución


la toma de decisiones
Existen gran cantidad Establecer Reducir la tasa de
de data de proyectos parámetros mortalidad a causa
similares. predictivos a fin de de paro cardíacos y a
agilizar la detección su vez la detección
Investigaciones de posibles infartos temprana podría
previas , que permiten en función a las conducir a una
conocer las características que reducción
metodologías presente el paciente. considerable en los
empleadas.
costos generados por
atención médica.

Figura 1.- Oportunidad, meta y contribucion del proyecto

Classification: Public
IV.2. Diseño del proyecto

1. ENTEDIMIENTO DEL NEGOCIO: Para el análisis de muertes por infarto


se establece lo siguiente:

Objetivo de la
analítica
Identificar el grupo de
El campo objetivo se Identificar cada gupo
refiere a la presencia mayor riesgo de de pacientes con un
de enfermedad presentar una target de: Tiene un
cardíaca en el enfermedad cardíaca valor entero 0 = sin
paciente según: edad, sexo, enfermedad y 1 =
nivel de colesterol, enfermedad
entre otros atributos.

Objetivo del
Target
negocio

Figura 2.- Objetivo del negocio, objetivo de la analitica y target del proyecto

En este proceso de análisis para predecir la presencia de una enfermedad


cardíaca se utilizará:
Técnica: Analitica predictiva o aprendizaje supervisado
Tarea: Macrotécnica :clasificar los atributos asignados previamente
Datos usados : 1025, 14 atributos (a partir de 76 variables)

2. ENTENDIMIENTO DE DATOS:

a. Inventario descriptivo de fuentes de información disponibles para


desarrollar el proceso de analítica.
Los conjuntos de datos combinados se leyeron al tratar los valores de cadena
como caracteres. Las columnas de cadena se convirtieron posteriormente en
factores (categóricos) despues del procesamiento de datos.
Dentro del desarrollo del proceso de aprendizaje se han comparado 6
clasificadores de aprendizaje automático y se evluaron la precisión de cada
uno de ellos mediante validación cruzada estratificada.

Classification: Public
Figura 3.- Cuadro de los tipos de analisis y mineria de datos

La descripción de la variable se produce aquí desde el archivo Heart-


disease.names
 Edad, en años
 Género, 1= masculino; 0 = femenino
 Tipos de dolores/ angina en el pecho(CP)
Valor 1: angina típica
Valor 2: angina atípica
Valor 3: Dolor no anginal
Valor 4: asintomático
 Presión sanguínea de reposo(mmHg/ al momento de la admisión)
(Trestbps)
 Colesterol graso (chol)(mg/dl)
 Glucosa en la sangre (Fbs) (>120 mg/dl)
Valor 1= Verdadero
Valor 0 = Falso
 Resultados de electrocardiograma en reposo (restecg)
• Valor 0 = normal
• Valor 1 = anormal
• Valor 2 = hipertrofía ventricular
 Pulso cardíaco máximo por minuto (Thalach)(bpm)
 Ejercicio inducido de angina (Exang)
• Valor 1 = si
• Valor 0 = no
 Depresión ST inducida por ejercicio relacionado al descanso (oldpeak)
 Pendiente del segmento del pico del ejercicio ST (Slope)
• Valor 1 = ascenso
• Valor 2 = plano
• Valor 3 = descenso

Classification: Public
 Número de vasos arteriales mayores coloreados por fluoroscopía
(0-3) (Ca)
 Defecto reversible (Thal)
• Normal = 3
• Defecto fijo = 6
• Defecto reversible = 7
 Target
• Sin enfermedad = 0
• Con enfermedad = 1

Tabla 1.-Descripcion de variables - Caso prediccion de muertes por infartos

Id Variable Nombre del Tipo de atributo


atributo

1 Age in years Age Numérico

2 Sex ( 1 = male, 0 = female) Sex Cualitativo

3 Chest pain type ( 4 values) cp Cualitativo

4 Resting blood presure trestbps Numérico

5 serum cholestoral in mg/dl chol Numérico

6 (fasting blood sugar > 120 fbs Cualitativo


mg/dl) (1 = true; 0 = false)

7 resting electrocardiographic restecg Cualitativo


results

8 maximum heart rate achieved thalach Numérico

9 exercise induced angina (1 = yes; exang Cualitativo


0 = no)

10 ST depression induced by oldpeak Numérico


exercise relative to rest

11 the slope of the peak exercise ST slope Cualitativo


segment

12 number of major vessels (0-3) ca Cualitativo


colored by flouroscopy

13 1 = normal; 2 = fixed defect; 3 = thal Cualitativo


reversable defect

14 1 or 0 target Cualitativo

Classification: Public
b. Análisis de datos
Las variables a evaluar son:
Características Numéricas

- Edad: (rango de edades)

Figura 4.- Histograma de edades estudiadas para la evaluacion de presencia de un infarto

Figura 5.- Grafico de Box Plot para el atributo edad

La mediana de edad para los pacientes en este estudio fue de 56 años, siendo
el más joven y el mayor de 29 y 77 años, respectivamente.
En general las personas que exhibían enfermedad cardíaca tienen edades que
van desde los 48 hasta los 61 años.

Classification: Public
- Presón sanguínea

Figura 6.- Histograma de valores de la presion sanguinea evaluados para predecir la


presencia de un infarto

Figura 7.- Gráfico de Box plot para el atributo presión sanguínea

La presión sanguínea agregada en reposo tiene como valor medio de 130


mmHg.
Existen 06 datos atípicos por encima de los 170 mmHg.
La mayoría de los valores de presión sanguínea se encuentran distribuidos
entre 120 mmHg y 140 mmHg

Classification: Public
- Colesterol

Figura 8.- Histograma de valores de Colesterol para predecir la presencia de un infarto

Figura 9.- Grafico de Box Plot para el atributo Colesterol

El colesterol tiene como valor medio de 240 mg/dL.


Existen 05 datos atípicos por encima de los 360 mg/dL.
La mayoría de registros se encuentran distribuidos entre 211 y 275 mg/dL.

Classification: Public
- Frecuencia Cardiaca

Figura 10.- Histograma de valores de la Frecuencia cardiaca para predecir la presencia de un


infarto

Figura 11.- Gráfico de Box plot para el atributo Frecuencia Cardiaca

De acuerdo con el diagrama, el valor medio para los registros de frecuencia


cardíaca es de 152 bpm.
Hay 01 dato atípico por debajo de 88 bpm.
La mayoría de valores para la frecuencia cardíaca se encuentra entre los 132 y
166 bpms.

Classification: Public
- Electrocardiograma

Figura 12.- Histograma de valores de electrocardiograma para predecir la presencia de un


infarto

Figura 13.- Gráfico de Box plot para el atributo Electrocardiograma

El valor medio para el registro de datos de los electrocardiogramas es de 0.8.


Existen 02 datos atípicos por encima de un oldpeak de 4.4.
La mayor cantidad de valores se encuentran por debajo de un oldpeak de 1.8.

Classification: Public
c. Correlacion de datos
De la evaluación de correlación, se aprecia que la relación es muy débil. Los
valores de correlación fluctúan entre 0.2 a 0.4.
Las relaciones más significativas ocurren para los atributos: thalach, thal, slope,
sex, oldpeak, cp y age.

Figura 14.- Grafico de correlaciones entre los atributos evaluados

Figura 15.- Tabla de valores de correlacion

Classification: Public
3. PREPARACIÓN DE DATOS:

En este paso se identifican aquelos registros vacios o que no sean


representativos para la muestra, asi como aquellos que sean atipicos.
De igual manera se seleccionan los atributos con alto potencial para la
tarea analitica.

a. Limpieza de datos

Figura 16.- Flujo de trabajo “Limpieza de datos”

Para los registros vacios y con valores fuera de la tendencia, se utilizaron los
nodos Numeric Outliers y Missing Values. Sin embargo, la data descargada ya
habia pasado anteriormente por este paso, por lo que solo se presentan a
modo informativo.

Classification: Public
Limpieza de datos atipicos y perdidos

Figura 17.- Multinodo “Limpieza de datos” : nodo Numeric Outliers (Apply)

Figura 18.- Multinodo “Limpieza de datos”: nodo Numeric Outliers (Apply)

- Configuración

Classification: Public
Figura 19.- Multinodo “Limpieza de datos”: nodo Missing value

Figura 20.- Metanodo “Limpieza de datos”: nodo Missing value – Configuracion

Classification: Public
b. Vista minable

En la generacion de vista minable, no se considero numerizar ya que los


atributos son netamente cualitativos.

Figura 21.- Flujo de trabajo "Vista minable"

Normalizar y discretizar

Figura 22.- Metanodo “Normalizer Discretizer”

En el nodo Normalizer se ponen a una misma escale lso parámetros mostrados en la


Figura 23.
En el nodo Autobinner, se separa por grupos

Classification: Public
Figura 23.- Metanodo “Normalizer Discretizer”: Nodo Normalizer - Configuracion

Figura 24.- Metanodo “Normalizer Discretizer”: Nodo Autobinner - Configuracion

Classification: Public
Sobremuestreo

Figura 25.- Metanodo "Oversampling"

Figura 26.- Metanodo “Oversampling”: Nodo Row Splitter - Configuracion

Classification: Public
Figura 27.-Metanodo “Oversampling”: Nodo Bootsrap Sampling

Figura 28.- Flujo de trabajo “Vista minable”: Nodo Bar Chart

Classification: Public
Figura 29.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Colesterol vs. Edad

De acuerdo con la Figura 29, la poblacion con mayor concetracion de


enfermedades cardiacas oscila entre los rangos de edades de 50 y 59
años.

Figura 30.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Presion sanguínea vs. Edad

Classification: Public
Figura 31.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Edad vs. Target

Classification: Public
4. MODELAMIENTO DE DATOS

a. Arbol de decision

Figura 32.- Flujo de trabajo “Arbol de decision”

PARTICION 70%

Figura 33.- Nodo Partitioning 70%

Classification: Public
Classification: Public
Figura 34.- Nodo Decision Tree Learner

Figura 35.- Nodo Decision Tree Learner

Classification: Public
PARTICION 10%

Figura 36.- Nodo Partiotioning 10%

Figura 37.- Decision Tree Learner

Classification: Public
Figura 38.- Decision Tree Learner

b. Ensambles

Figura 39.- Flujo de trabajo "Ensamlbe"

Se utiliza el nodo Random Forest Learner por considerar una mayor cantidad de datos e
integrar varios modelos. Integra muchos arboles para poder hacer la clasificación.
A un mayor porcentaje, se entrega una mejor precisión de la prediccion.

Classification: Public
Figura 40.- Partioning 70% - Nodo Random Forest Learner - Configuracion

Figura 41.- Partitioning 10% - Nodo Random Fores Learner - Configuracion

Classification: Public
c. Clustering
Clasifica por similitudes.

Figura 42.-Flujo de trabajo Clustering

Figura 43.- Nodo Rule Based Row Filter

Classification: Public
Figura 44.- Nodo Hierarchical Cluster View

Figura 45.- Nodo Color manager

Classification: Public
Figura 46.- Nodo Shape Manager

En la Figura 47 se puede observar que las personas entre las edades de 51 y 59 años,
tienen mayor probabilidades de tener una enfermedad cardiaca si son hombres.

Figura 47.- Nodo Scatter Plot: Sexo vs. Edad

Classification: Public
Figura 48.- Nodo Scatter Plot: Colesterol vs. Sexo

En la Figura 48 Los hombres con valores de colesterol entre 204 y 243 tienen mayores
probabilidades de tener enfermedades cardiacas en comparacion de los mismos valores
para las mujeres.

Classification: Public
V. CONCLUSIONES

 La exploración de los datos indicó que la edad del paciente, el nivel de


colesterol, la frecuencia cardíaca máxima, la depresión pico ST inducida
por el ejercicio y la pendiente del segmento ST de ejercicio pico, el sexo
y la angina inducida por el ejercicio fueron posibles características útiles
para predecir la presencia de enfermedad cardíaca.
 La población masculina tiene una mayor probabilidad de sufrir
enfermedades cardiacas.
 Las edades donde se deberia tener mayor precaucion y llevar controles
medicos son a los 40 años y a partir de los 50 años.
 Durante la admision o al momento de controles de los parametrons
evaluados en caso de tener los siguientes valores, se deberia considerar
acudir a la brevedad a un medico:
 Presión sanguínea en reposo: 129.24 mmHg
 Colesterol: 240.98 mg/dL
 Pulso cardiaco máximo: 158.59 bpm

Classification: Public
VI. BIBLIOGRAFIA

1. Heart Disease Dataset. (2020). Retrieved 1 May 2020, from


https://www.kaggle.com/johnsmith88/heart-disease-dataset/kernels

2. UCI Machine Learning Repository: Heart Disease Data Set. (2020). Retrieved 1
May 2020, from https://archive.ics.uci.edu/ml/datasets/Heart+Disease
3. (s3688570), C. (2020). Heart Disease Prediction. Retrieved 1 May 2020, from
http://rstudio-pubs-
static.s3.amazonaws.com/396380_639e2f68b09e41a0b05f97b5dc8eb3f2.html
4. (2020). Retrieved 11 June 2020, from
https://www.ijcaonline.org/archives/volume147/number9/bethel-2016-ijca-
911187.pdf

Classification: Public

Вам также может понравиться