Академический Документы
Профессиональный Документы
Культура Документы
BUSINESS ANALYTICS
INTEGRANTES:
LIMA - PERÚ
2020
Classification: Public
TABLA DE CONTENIDO
1. RESUMEN
2. INTRODUCCIÓN
3. ANTECEDENTES Y CONTEXTO DEL PROYECTO
4. METODOLOGÍA
5. CONCLUSIONES
6. BIBLIOGRAFÍA
Classification: Public
I. RESUMEN
Classification: Public
II. INTRODUCCIÓN
Classification: Public
III. ANTECEDENTES Y CONTEXTO DEL PROYECTO
Classification: Public
IV. METODOLOGÍA
Classification: Public
IV.2. Diseño del proyecto
Objetivo de la
analítica
Identificar el grupo de
El campo objetivo se Identificar cada gupo
refiere a la presencia mayor riesgo de de pacientes con un
de enfermedad presentar una target de: Tiene un
cardíaca en el enfermedad cardíaca valor entero 0 = sin
paciente según: edad, sexo, enfermedad y 1 =
nivel de colesterol, enfermedad
entre otros atributos.
Objetivo del
Target
negocio
Figura 2.- Objetivo del negocio, objetivo de la analitica y target del proyecto
2. ENTENDIMIENTO DE DATOS:
Classification: Public
Figura 3.- Cuadro de los tipos de analisis y mineria de datos
Classification: Public
Número de vasos arteriales mayores coloreados por fluoroscopía
(0-3) (Ca)
Defecto reversible (Thal)
• Normal = 3
• Defecto fijo = 6
• Defecto reversible = 7
Target
• Sin enfermedad = 0
• Con enfermedad = 1
14 1 or 0 target Cualitativo
Classification: Public
b. Análisis de datos
Las variables a evaluar son:
Características Numéricas
La mediana de edad para los pacientes en este estudio fue de 56 años, siendo
el más joven y el mayor de 29 y 77 años, respectivamente.
En general las personas que exhibían enfermedad cardíaca tienen edades que
van desde los 48 hasta los 61 años.
Classification: Public
- Presón sanguínea
Classification: Public
- Colesterol
Classification: Public
- Frecuencia Cardiaca
Classification: Public
- Electrocardiograma
Classification: Public
c. Correlacion de datos
De la evaluación de correlación, se aprecia que la relación es muy débil. Los
valores de correlación fluctúan entre 0.2 a 0.4.
Las relaciones más significativas ocurren para los atributos: thalach, thal, slope,
sex, oldpeak, cp y age.
Classification: Public
3. PREPARACIÓN DE DATOS:
a. Limpieza de datos
Para los registros vacios y con valores fuera de la tendencia, se utilizaron los
nodos Numeric Outliers y Missing Values. Sin embargo, la data descargada ya
habia pasado anteriormente por este paso, por lo que solo se presentan a
modo informativo.
Classification: Public
Limpieza de datos atipicos y perdidos
- Configuración
Classification: Public
Figura 19.- Multinodo “Limpieza de datos”: nodo Missing value
Classification: Public
b. Vista minable
Normalizar y discretizar
Classification: Public
Figura 23.- Metanodo “Normalizer Discretizer”: Nodo Normalizer - Configuracion
Classification: Public
Sobremuestreo
Classification: Public
Figura 27.-Metanodo “Oversampling”: Nodo Bootsrap Sampling
Classification: Public
Figura 29.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Colesterol vs. Edad
Figura 30.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Presion sanguínea vs. Edad
Classification: Public
Figura 31.- Flujo de trabajo “Vista minable”: Nodo Scatter Plot – Edad vs. Target
Classification: Public
4. MODELAMIENTO DE DATOS
a. Arbol de decision
PARTICION 70%
Classification: Public
Classification: Public
Figura 34.- Nodo Decision Tree Learner
Classification: Public
PARTICION 10%
Classification: Public
Figura 38.- Decision Tree Learner
b. Ensambles
Se utiliza el nodo Random Forest Learner por considerar una mayor cantidad de datos e
integrar varios modelos. Integra muchos arboles para poder hacer la clasificación.
A un mayor porcentaje, se entrega una mejor precisión de la prediccion.
Classification: Public
Figura 40.- Partioning 70% - Nodo Random Forest Learner - Configuracion
Classification: Public
c. Clustering
Clasifica por similitudes.
Classification: Public
Figura 44.- Nodo Hierarchical Cluster View
Classification: Public
Figura 46.- Nodo Shape Manager
En la Figura 47 se puede observar que las personas entre las edades de 51 y 59 años,
tienen mayor probabilidades de tener una enfermedad cardiaca si son hombres.
Classification: Public
Figura 48.- Nodo Scatter Plot: Colesterol vs. Sexo
En la Figura 48 Los hombres con valores de colesterol entre 204 y 243 tienen mayores
probabilidades de tener enfermedades cardiacas en comparacion de los mismos valores
para las mujeres.
Classification: Public
V. CONCLUSIONES
Classification: Public
VI. BIBLIOGRAFIA
2. UCI Machine Learning Repository: Heart Disease Data Set. (2020). Retrieved 1
May 2020, from https://archive.ics.uci.edu/ml/datasets/Heart+Disease
3. (s3688570), C. (2020). Heart Disease Prediction. Retrieved 1 May 2020, from
http://rstudio-pubs-
static.s3.amazonaws.com/396380_639e2f68b09e41a0b05f97b5dc8eb3f2.html
4. (2020). Retrieved 11 June 2020, from
https://www.ijcaonline.org/archives/volume147/number9/bethel-2016-ijca-
911187.pdf
Classification: Public