Proyecto-Predicción de Enfermedades Cardiacas

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
BUSINESS ANALYTICS
PROYECTO: PREDICCIÓN DE PRESENCIA DE

ENFERMEDADES CARDÍACAS
INTEGRANTES:
- Camizan Vigo Amparo

- Perez Pacheco Angela
- Rivera Tello Paula
LIMA - PERÚ
2020
Classification: Public
TABLA DE CONTENIDO
1. RESUMEN
2. INTRODUCCIÓN
3. ANTECEDENTES Y CONTEXTO DEL PROYECTO
4. METODOLOGÍA
5. CONCLUSIONES
6. BIBLIOGRAFÍA
I. RESUMEN
Este proyecto presenta el estudio para predecir la presencia de enfermedades

cardíacas, que contiene una base de datos de 76 atributos, de los cuales se
han empleado un subconjunto de 14 de ellos (incluido la función objetivo).
Las investigaciones se basan en las siguientes fuentes de información:
Fundación clínica de Cleveland, Instituto húngaro de cardiología, Centro
médico V.A. y el hospital universitario de Zúrich
En particular, la base de datos de Cleveland es la única que ha sido utilizada
por investigadores, sin embargo; los cuatro archivos sin procesar también
existen en este directorio, y se obtuvieron del deposito de aprendizaje de UCI
para machine learning.
El campo "objetivo" se refiere a la presencia de enfermedad cardíaca en el
paciente. Tiene un valor entero de 0 (sin presencia) a 1 (presencia de
enfermedad cardíaca). El archivo heart-disease.names de la página
“kaggle.com” , contiene los detalles de atributos y variables.
En este estudio, los clasificadores se crearon utilizando los conjuntos de datos
combinados y su rendimiento se evaluó mediante validación cruzada. La
técnica empleada es: analitica predictiva o supervisada y como tareas:
clasificación y arbol de decisión.
El proyecto fue dividido en dos fases. La fase I, se centró en el procesamiento
previo de datos y la exploración, la fase II, consiste en la construcción del
modelo, y finalmente en la fase III, se realizó una exploración de cada atributo y
de igual manera se examinó sus interrelaciones, puntos que se cubren en este
informe. Los resultados obtenidos luego de realizar el modelamiento de datos
con el software: Knime, permite predecir que la población con mayor incidencia
de presentar enfermedades cardíacas se encuentra localizada en mujeres y en
el rango de edades entre 43 y 56 años.
II. INTRODUCCIÓN
La enfermedad cardíaca es una de las principales causas de muerte en todo el

mundo. Se anticipa que el desarrollo de métodos de cálculo puedan predecir la
presencia de enfermedad cardíaca , lo cual reducirá significativamente la
mortalidad causada por esta, mientras que la detección temprana podria
conducir a una reducción sustancial en los costos de atención médica. Los
métodos estadísticos tradicionales extraen inferencias de un número limitado
de variables obtenidas de experimentos realizados en condiciones controladas.
Por el contrario, los métodos de Machine Learning pueden usar una gran
cantidad de variables a menudo complejas obtenidas de una variedad de
bancos de datos médicos para predecir si un paciente tiene una enfermedad
cardíaca. La medicina cardiovascular genera una gran cantidad de datos
biomédicos, clínicos y operativos como parte de la prestación de atención
médica del paciente, lo que hace que este campo sea ideal para el desarrollo y
uso de métodos computacionales para predecir que un paciente tiene una
enfermedad cardíaca. Los esfuerzos recientes para desarrollar modelos
computacionales capaces de analizar y predeir si una personal tiene una
enfermedad cardíaca han demostrado ser muy prometedores.
III. ANTECEDENTES Y CONTEXTO DEL PROYECTO
3.1. Descripción del área en la que se desarrolla el proyecto o del

proceso en el que se generan los datos.
Los datos fueron generados por UCI Machine Learning Reposity (repositorio de
información) , porque pueden usar una gran cantidad de variables a menudo
complejas obtenidas de una variedad de bancos de datos médicos para
predecir si un paciente tiene una enfermedad cardíaca. La medicina
cardiovascular genera una gran cantidad de datos biomédicos clínicos y
operativos como parte de la prestación de atención médica del paciente,
haciendo este campo ideal para el desarrollo y uso de métodos
computacionales para predecir si un paciente tiene una enfermedad cardíaca
III.2. Resumen de los proyectos similares y qué aportan al proyecto
Se han desarrollado varios estudios a fin de construir clasificadores para
predecir si una persona tiene enfermedad cardiovascular y a la vez contar con
herramientas que puedan predecir los paros cardiacos, detectándolos con
características que se presenten tempranamente en los pacientes, no solo
puede evitar muertes, sino también costos por cuidado.
Los proyectos similares que se han logrado identificar y que son parte
importante de este trabajo por su valioso aporte son los siguientes:
 Fundación clínica de Cleveland
 Instituto húngaro de cardiología
 Centro Medico V.A.
 Hospital universitario de Zúrich
La base de datos general consta de resultados de pruebas médicas y
diagnósticos de enfermedades cardíacas.
Asimismo se tiene un listado de documentos que citan estudios acerca de
enfermedades cardíacas referenciadas en la bibliografía
(http://archive.ics.uci.edu/ml/datasets/heart+disease,
https://www.ijcaonline.org/archives/volume147/number9/bethel-2016-ijca-
911187.pdf)
IV. METODOLOGÍA
4.1. Problema a resolver u oportunidad para apoyar la toma de

decisiones, cuál es la meta del proyecto
La enfermedad cardíaca sigue siendo un tema de estudio y de interés a nivel
mundial, debido a su alta incidencia en jóvenes y adultos.
La característica de destino tiene dos clases y, por lo tanto, es un problema de
clasificación binaria. Para reiterar, el objetivo es predecir si una persona tiene
una enfermedad cardíaca.
Oportunidades para Meta Contribución

la toma de decisiones
Existen gran cantidad Establecer Reducir la tasa de
de data de proyectos parámetros mortalidad a causa
similares. predictivos a fin de de paro cardíacos y a
agilizar la detección su vez la detección
Investigaciones de posibles infartos temprana podría
previas , que permiten en función a las conducir a una
conocer las características que reducción
metodologías presente el paciente. considerable en los
empleadas.
costos generados por
atención médica.
Figura 1.- Oportunidad, meta y contribucion del proyecto
IV.2. Diseño del proyecto
1. ENTEDIMIENTO DEL NEGOCIO: Para el análisis de muertes por infarto

se establece lo siguiente:
Objetivo de la
analítica
Identificar el grupo de
El campo objetivo se Identificar cada gupo
refiere a la presencia mayor riesgo de de pacientes con un
de enfermedad presentar una target de: Tiene un
cardíaca en el enfermedad cardíaca valor entero 0 = sin
paciente según: edad, sexo, enfermedad y 1 =
nivel de colesterol, enfermedad
entre otros atributos.
Objetivo del
Target
negocio
Figura 2.- Objetivo del negocio, objetivo de la analitica y target del proyecto
En este proceso de análisis para predecir la presencia de una enfermedad

cardíaca se utilizará:
Técnica: Analitica predictiva o aprendizaje supervisado
Tarea: Macrotécnica :clasificar los atributos asignados previamente
Datos usados : 1025, 14 atributos (a partir de 76 variables)
2. ENTENDIMIENTO DE DATOS:
a. Inventario descriptivo de fuentes de información disponibles para

desarrollar el proceso de analítica.
Los conjuntos de datos combinados se leyeron al tratar los valores de cadena
como caracteres. Las columnas de cadena se convirtieron posteriormente en
factores (categóricos) despues del procesamiento de datos.
Dentro del desarrollo del proceso de aprendizaje se han comparado 6
clasificadores de aprendizaje automático y se evluaron la precisión de cada
uno de ellos mediante validación cruzada estratificada.
Figura 3.- Cuadro de los tipos de analisis y mineria de datos
La descripción de la variable se produce aquí desde el archivo Heart-

disease.names
 Edad, en años
 Género, 1= masculino; 0 = femenino
 Tipos de dolores/ angina en el pecho(CP)
Valor 1: angina típica
Valor 2: angina atípica
Valor 3: Dolor no anginal
Valor 4: asintomático
 Presión sanguínea de reposo(mmHg/ al momento de la admisión)
(Trestbps)
 Colesterol graso (chol)(mg/dl)
 Glucosa en la sangre (Fbs) (>120 mg/dl)
Valor 1= Verdadero
Valor 0 = Falso
 Resultados de electrocardiograma en reposo (restecg)
• Valor 0 = normal
• Valor 1 = anormal
• Valor 2 = hipertrofía ventricular
 Pulso cardíaco máximo por minuto (Thalach)(bpm)
 Ejercicio inducido de angina (Exang)
• Valor 1 = si
• Valor 0 = no
 Depresión ST inducida por ejercicio relacionado al descanso (oldpeak)
 Pendiente del segmento del pico del ejercicio ST (Slope)
• Valor 1 = ascenso
• Valor 2 = plano
• Valor 3 = descenso
 Número de vasos arteriales mayores coloreados por fluoroscopía
(0-3) (Ca)
 Defecto reversible (Thal)
• Normal = 3
• Defecto fijo = 6
• Defecto reversible = 7
 Target
• Sin enfermedad = 0
• Con enfermedad = 1
Tabla 1.-Descripcion de variables - Caso prediccion de muertes por infartos
Id Variable Nombre del Tipo de atributo

atributo
1 Age in years Age Numérico
2 Sex ( 1 = male, 0 = female) Sex Cualitativo
3 Chest pain type ( 4 values) cp Cualitativo
4 Resting blood presure trestbps Numérico
5 serum cholestoral in mg/dl chol Numérico
6 (fasting blood sugar > 120 fbs Cualitativo

mg/dl) (1 = true; 0 = false)
7 resting electrocardiographic restecg Cualitativo

results
8 maximum heart rate achieved thalach Numérico
9 exercise induced angina (1 = yes; exang Cualitativo

0 = no)
10 ST depression induced by oldpeak Numérico

exercise relative to rest
11 the slope of the peak exercise ST slope Cualitativo

segment
12 number of major vessels (0-3) ca Cualitativo

colored by flouroscopy
13 1 = normal; 2 = fixed defect; 3 = thal Cualitativo

reversable defect
14 1 or 0 target Cualitativo
b. Análisis de datos
Las variables a evaluar son:
Características Numéricas
- Edad: (rango de edades)
Figura 4.- Histograma de edades estudiadas para la evaluacion de presencia de un infarto
Figura 5.- Grafico de Box Plot para el atributo edad
La mediana de edad para los pacientes en este estudio fue de 56 años, siendo
el más joven y el mayor de 29 y 77 años, respectivamente.
En general las personas que exhibían enfermedad cardíaca tienen edades que
van desde los 48 hasta los 61 años.
- Presón sanguínea
Figura 6.- Histograma de valores de la presion sanguinea evaluados para predecir la

presencia de un infarto
Figura 7.- Gráfico de Box plot para el atributo presión sanguínea
La presión sanguínea agregada en reposo tiene como valor medio de 130

mmHg.
Existen 06 datos atípicos por encima de los 170 mmHg.
La mayoría de los valores de presión sanguínea se encuentran distribuidos
entre 120 mmHg y 140 mmHg
- Colesterol
Figura 8.- Histograma de valores de Colesterol para predecir la presencia de un infarto
Figura 9.- Grafico de Box Plot para el atributo Colesterol
El colesterol tiene como valor medio de 240 mg/dL.

Existen 05 datos atípicos por encima de los 360 mg/dL.
La mayoría de registros se encuentran distribuidos entre 211 y 275 mg/dL.
- Frecuencia Cardiaca
Figura 10.- Histograma de valores de la Frecuencia cardiaca para predecir la presencia de un

infarto
Figura 11.- Gráfico de Box plot para el atributo Frecuencia Cardiaca
De acuerdo con el diagrama, el valor medio para los registros de frecuencia

cardíaca es de 152 bpm.
Hay 01 dato atípico por debajo de 88 bpm.
La mayoría de valores para la frecuencia cardíaca se encuentra entre los 132 y
166 bpms.
- Electrocardiograma
Figura 12.- Histograma de valores de electrocardiograma para predecir la presencia de un

infarto
Figura 13.- Gráfico de Box plot para el atributo Electrocardiograma
El valor medio para el registro de datos de los electrocardiogramas es de 0.8.

Existen 02 datos atípicos por encima de un oldpeak de 4.4.
La mayor cantidad de valores se encuentran por debajo de un oldpeak de 1.8.
c. Correlacion de datos
De la evaluación de correlación, se aprecia que la relación es muy débil. Los
valores de correlación fluctúan entre 0.2 a 0.4.
Las relaciones más significativas ocurren para los atributos: thalach, thal, slope,
sex, oldpeak, cp y age.
Figura 14.- Grafico de correlaciones entre los atributos evaluados
Figura 15.- Tabla de valores de correlacion
3. PREPARACIÓN DE DATOS:
En este paso se identifican aquelos registros vacios o que no sean

representativos para la muestra, asi como aquellos que sean atipicos.
De igual manera se seleccionan los atributos con alto potencial para la
tarea analitica.
a. Limpieza de datos
Figura 16.- Flujo de trabajo “Limpieza de datos”
Para los registros vacios y con valores fuera de la tendencia, se utilizaron los
nodos Numeric Outliers y Missing Values. Sin embargo, la data descargada ya
habia pasado anteriormente por este paso, por lo que solo se presentan a
modo informativo.
Limpieza de datos atipicos y perdidos
Figura 17.- Multinodo “Limpieza de datos” : nodo Numeric Outliers (Apply)
Figura 18.- Multinodo “Limpieza de datos”: nodo Numeric Outliers (Apply)
- Configuración
Figura 19.- Multinodo “Limpieza de datos”: nodo Missing value
Figura 20.- Metanodo “Limpieza de datos”: nodo Missing value – Configuracion
b. Vista minable
En la generacion de vista minable, no se considero numerizar ya que los

atributos son netamente cualitativos.
Figura 21.- Flujo de trabajo "Vista minable"
Normalizar y discretizar
Figura 22.- Metanodo “Normalizer Discretizer”
En el nodo Normalizer se ponen a una misma escale lso parámetros mostrados en la

Figura 23.
En el nodo Autobinner, se separa por grupos
Figura 23.- Metanodo “Normalizer Discretizer”: Nodo Normalizer - Configuracion
Figura 24.- Metanodo “Normalizer Discretizer”: Nodo Autobinner - Configuracion
Sobremuestreo
Figura 25.- Metanodo "Oversampling"
Figura 26.- Metanodo “Oversampling”: Nodo Row Splitter - Configuracion
Figura 27.-Metanodo “Oversampling”: Nodo Bootsrap Sampling
Figura 28.- Flujo de trabajo “Vista minable”: Nodo Bar Chart
Figura 29.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Colesterol vs. Edad
De acuerdo con la Figura 29, la poblacion con mayor concetracion de

enfermedades cardiacas oscila entre los rangos de edades de 50 y 59
años.
Figura 30.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Presion sanguínea vs. Edad
Figura 31.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Edad vs. Target
4. MODELAMIENTO DE DATOS
a. Arbol de decision
Figura 32.- Flujo de trabajo “Arbol de decision”
PARTICION 70%
Figura 33.- Nodo Partitioning 70%
Figura 34.- Nodo Decision Tree Learner
Figura 35.- Nodo Decision Tree Learner
PARTICION 10%
Figura 36.- Nodo Partiotioning 10%
Figura 37.- Decision Tree Learner
Figura 38.- Decision Tree Learner
b. Ensambles
Figura 39.- Flujo de trabajo "Ensamlbe"
Se utiliza el nodo Random Forest Learner por considerar una mayor cantidad de datos e
integrar varios modelos. Integra muchos arboles para poder hacer la clasificación.
A un mayor porcentaje, se entrega una mejor precisión de la prediccion.
Figura 40.- Partioning 70% - Nodo Random Forest Learner - Configuracion
Figura 41.- Partitioning 10% - Nodo Random Fores Learner - Configuracion
c. Clustering
Clasifica por similitudes.
Figura 42.-Flujo de trabajo Clustering
Figura 43.- Nodo Rule Based Row Filter
Figura 44.- Nodo Hierarchical Cluster View
Figura 45.- Nodo Color manager
Figura 46.- Nodo Shape Manager
En la Figura 47 se puede observar que las personas entre las edades de 51 y 59 años,
tienen mayor probabilidades de tener una enfermedad cardiaca si son hombres.
Figura 47.- Nodo Scatter Plot: Sexo vs. Edad
Figura 48.- Nodo Scatter Plot: Colesterol vs. Sexo
En la Figura 48 Los hombres con valores de colesterol entre 204 y 243 tienen mayores
probabilidades de tener enfermedades cardiacas en comparacion de los mismos valores
para las mujeres.
V. CONCLUSIONES
 La exploración de los datos indicó que la edad del paciente, el nivel de

colesterol, la frecuencia cardíaca máxima, la depresión pico ST inducida
por el ejercicio y la pendiente del segmento ST de ejercicio pico, el sexo
y la angina inducida por el ejercicio fueron posibles características útiles
para predecir la presencia de enfermedad cardíaca.
 La población masculina tiene una mayor probabilidad de sufrir
enfermedades cardiacas.
 Las edades donde se deberia tener mayor precaucion y llevar controles
medicos son a los 40 años y a partir de los 50 años.
 Durante la admision o al momento de controles de los parametrons
evaluados en caso de tener los siguientes valores, se deberia considerar
acudir a la brevedad a un medico:
 Presión sanguínea en reposo: 129.24 mmHg
 Colesterol: 240.98 mg/dL
 Pulso cardiaco máximo: 158.59 bpm
VI. BIBLIOGRAFIA
1. Heart Disease Dataset. (2020). Retrieved 1 May 2020, from

https://www.kaggle.com/johnsmith88/heart-disease-dataset/kernels
2. UCI Machine Learning Repository: Heart Disease Data Set. (2020). Retrieved 1
May 2020, from https://archive.ics.uci.edu/ml/datasets/Heart+Disease
3. (s3688570), C. (2020). Heart Disease Prediction. Retrieved 1 May 2020, from
http://rstudio-pubs-
static.s3.amazonaws.com/396380_639e2f68b09e41a0b05f97b5dc8eb3f2.html
4. (2020). Retrieved 11 June 2020, from
https://www.ijcaonline.org/archives/volume147/number9/bethel-2016-ijca-
911187.pdf

Proyecto-Predicción de Enfermedades Cardiacas

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Proyecto-Predicción de Enfermedades Cardiacas

Загружено:

Авторское право:

Доступные форматы

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

PROYECTO: PREDICCIÓN DE PRESENCIA DE

- Camizan Vigo Amparo

Este proyecto presenta el estudio para predecir la presencia de enfermedades

La enfermedad cardíaca es una de las principales causas de muerte en todo el

3.1. Descripción del área en la que se desarrolla el proyecto o del

4.1. Problema a resolver u oportunidad para apoyar la toma de

Oportunidades para Meta Contribución

Figura 1.- Oportunidad, meta y contribucion del proyecto

1. ENTEDIMIENTO DEL NEGOCIO: Para el análisis de muertes por infarto

En este proceso de análisis para predecir la presencia de una enfermedad

a. Inventario descriptivo de fuentes de información disponibles para

La descripción de la variable se produce aquí desde el archivo Heart-

Tabla 1.-Descripcion de variables - Caso prediccion de muertes por infartos

Id Variable Nombre del Tipo de atributo

1 Age in years Age Numérico

2 Sex ( 1 = male, 0 = female) Sex Cualitativo

3 Chest pain type ( 4 values) cp Cualitativo

4 Resting blood presure trestbps Numérico

5 serum cholestoral in mg/dl chol Numérico

6 (fasting blood sugar &gt; 120 fbs Cualitativo

7 resting electrocardiographic restecg Cualitativo

8 maximum heart rate achieved thalach Numérico

9 exercise induced angina (1 = yes; exang Cualitativo

10 ST depression induced by oldpeak Numérico

11 the slope of the peak exercise ST slope Cualitativo

12 number of major vessels (0-3) ca Cualitativo

13 1 = normal; 2 = fixed defect; 3 = thal Cualitativo

- Edad: (rango de edades)

Figura 4.- Histograma de edades estudiadas para la evaluacion de presencia de un infarto

Figura 5.- Grafico de Box Plot para el atributo edad

Figura 6.- Histograma de valores de la presion sanguinea evaluados para predecir la

Figura 7.- Gráfico de Box plot para el atributo presión sanguínea

La presión sanguínea agregada en reposo tiene como valor medio de 130

Figura 8.- Histograma de valores de Colesterol para predecir la presencia de un infarto

Figura 9.- Grafico de Box Plot para el atributo Colesterol

El colesterol tiene como valor medio de 240 mg/dL.

Figura 10.- Histograma de valores de la Frecuencia cardiaca para predecir la presencia de un

Figura 11.- Gráfico de Box plot para el atributo Frecuencia Cardiaca

De acuerdo con el diagrama, el valor medio para los registros de frecuencia

Figura 12.- Histograma de valores de electrocardiograma para predecir la presencia de un

Figura 13.- Gráfico de Box plot para el atributo Electrocardiograma

El valor medio para el registro de datos de los electrocardiogramas es de 0.8.

Figura 14.- Grafico de correlaciones entre los atributos evaluados

Figura 15.- Tabla de valores de correlacion

En este paso se identifican aquelos registros vacios o que no sean

Figura 16.- Flujo de trabajo “Limpieza de datos”

Figura 17.- Multinodo “Limpieza de datos” : nodo Numeric Outliers (Apply)

Figura 18.- Multinodo “Limpieza de datos”: nodo Numeric Outliers (Apply)

Figura 20.- Metanodo “Limpieza de datos”: nodo Missing value – Configuracion

En la generacion de vista minable, no se considero numerizar ya que los

Figura 21.- Flujo de trabajo "Vista minable"

Figura 22.- Metanodo “Normalizer Discretizer”

En el nodo Normalizer se ponen a una misma escale lso parámetros mostrados en la

Figura 24.- Metanodo “Normalizer Discretizer”: Nodo Autobinner - Configuracion

Figura 25.- Metanodo "Oversampling"

Figura 26.- Metanodo “Oversampling”: Nodo Row Splitter - Configuracion

Figura 28.- Flujo de trabajo “Vista minable”: Nodo Bar Chart

De acuerdo con la Figura 29, la poblacion con mayor concetracion de

Figura 32.- Flujo de trabajo “Arbol de decision”

Figura 33.- Nodo Partitioning 70%

Figura 35.- Nodo Decision Tree Learner

6 (fasting blood sugar > 120 fbs Cualitativo