You are on page 1of 8

UAGRM SCHOOL OF ENGINEERING

FACULTAD DE INGENIERÍA EN CIENCIAS DE LA


COMPUTACIÓN Y TELECOMUNICACIONES
MAESTRÍA EN INGENIERÍA DE SOFTWARE

Modulo: Modelado de Base de Datos.

Docente: MSc. Ing. Carlos Daniel Sandoval

Maestrante: Ing. Tito Flores Vicente

Santa Cruz, Bolivia


Ejercicios de minería de datos

1. Caso: días que se ha podido jugar al tenis.


DATA: panorama (soleado, nublado, lluvioso), temperatura (caliente, leve, fresco), humedad (alta, normal),
ventoso (verdadero, falso), jugar (si, no).
a. Cuantos registros tiene el caso?
14
b. Cuantos atributos tiene el caso?
5
c. Se tienen atributos numéricos?
No
d. Del total del universo de casos, qué cantidad de juegan y qué cantidad no juegan?
Si = 9 No=5
e. Elaborar un modelo de árbol de decisión (use el algoritmo J48).

f. Del caso anterior cual es la precisión del modelo?


g. Visualizar la gráfica o árbol, responder lo siguiente:

● Cuántos casos se juega en condiciones de sol?


Se juegan 2
● Cuántos casos se juega en condiciones de viento?
Se juegan 3
● En qué condiciones climatológicas existe mayores posibilidades de jugarse tenis?
Cuando el panorama esta NUBLADO
● En qué condiciones climatológicas es posible no jugar tenis?
Cuando el panorama es soleado y la humedad es alta o cuando el panorama es lluvioso y
ventoso
h. Interprete la matriz de confusión

a. Hay un total de 14 instancias


b. En 9 ocasiones SI se juega al tenis
c. En 5 ocasiones NO se juega al tenis.

i. Cuantos registros se tuvo como error de aquellos casos que si juegan tenis?
Se tuvo 0
j. Cuantos registros se tuvo como error de aquellos casos que no juegan tenis?
Se tuvo 0
k. Los resultados arrojados por la matriz de confusión son confiables?
Si son all 100 %
l. Cuantos grupos se generan aplicando SimpleKMeans?
Se generan 2
m. Describa la interpretación del primer Cluster.
Panorama Lluvioso, Temperatura Leve, Humedad Normal, Ventoso Falso, Si se juega al
Tenis
n. Realice una asociación aplicando el algoritmo “Apriori” e interprete los resultados.
 Confiabilidad del 100% en todas las reglas encontradas
 4 veces que el panorama estaba nublado se jugó al tenis.
 4 veces que la temperatura esta fresca, la humedad estuvo normal
 4 veces que la temperatura estuvo normal, se jugó al tenis.
o. Cuál es la variable más importante?
Jugar
p. Se juega al tenis dependiendo del panorama? (visualización)

2. Caso: Fármaco que se debe administrar a un paciente.


DATA: edad, sexo, presión sanguínea-BP, colesterol, sodio-Na, potasio -k
a. Cuál es el fármaco más usual que se administra a la mayoría de los pacientes?
DrogaY (DrugY) : 91
b. Qué porcentaje de una clasificación dada corresponde a la mayoría de los casos? (para lo
indicado usar el método ZeroR).
45%
c. Cuál es la precisión de la clasificación utilizando el método J-48?
97%
d. Interpretar la matriz de confusión.
o DrugY se vendió 88 veces solo, 2 con DrugX y 1 con DrugB
o DrugC se vendió 16 veces solo.
o DrugX se vendió 52 veces solo, 2 con DrugY
o DrugA se vendió 23 veces solo.
o DrugB se vendió 15 veces solo y 1 con DrugY.

e. Analizar el par de atributos de forma gráfica X:Na , Y:K. ¿Cuál es el fármaco más aplicado?

f. Cuantos grupos se generan aplicando SimpleKMeans?


 Se generan 2
o 0 : 94 (47%)
o 1 : 106 (53%)
g. Describa la interpretación del primer Cluster.
 El 47% de los encuestados (consumen DrugY)
o Edad : 44.1489
o ii. Sexo : F
o iii. BP : Low
o iv. Choresterol : NORMAL
o v. Na : 0.7207
o vi. K : 0.0491
o vii. Consumen DrugY
h. Genere la visualización de los grupos.
i. Realice una asociación aplicando el algoritmo “Apriori” e interprete los resultados.
No se puede realizar el algoritmo esta deshabilitado

3. Caso: Conceder un crédito


DATA: checking status, duration, credit history, purpose, credit amount, savings status, employment,
installment commitment, personal status, other parties, residence since, property magnitude,
age, other payment plans, housing, existing credits, job, num dependents, own telephone,
foreign worker, class
a. Cuantos registros tiene el caso?
Tiene 1000
b. Cuantos atributos numéricos tiene el caso? y cuantos no numéricos?
 7 numéricos
 14 No numéricos
c. Cuál sería su conclusión de analizar los atributos “edad” y “motivo del crédito”.
 Edad
o Valor máximo ➔ 75
o Valor mínimo ➔ 19
o Promedio edad ➔ 35.546
o Desv. Standard ➔11.375
 b. Motivo del crédito
o El principal motivo de crédito es para comprar Radio/Tv en 280
oportunidades.
o 234 para compra de vehículos nuevos.
o 181 para mobiliario
o 103 para compra de vehículos usados
o 97 para negocios
o 50 para educación
o 22 para reparaciones
o 12 para electrodomésticos
o 12 otros motivos varios
o 9 para reentrenamiento
o Nadie pidió para vacaciones
d. Cual es precisión de dar un crédito aplicando el método ZeroR?
Presicion 70%
e. Cual es precisión de dar un crédito aplicando el algoritmo J48?
Precision 78%
f. Cuantos grupos se generan aplicando SimpleKMeans?
Se generan 2
g. Describa la interpretación del primer Cluster.
 El 64% de las solicitudes de crédito están agrupadas en:
o checking status : no checking
o ii. duration : 19.9285
o iii. credit history : Existing paid
o iv. purpose : radio/tv
o v. credit amount : 2924.7869
o vi. savings status : < 1000
o vii. employment : >= 7
o viii. installment commitment : 2.9944
o ix. personal status : male single
o x. other parties : none
o xi. residence since : 3.3585
o xii. property magnitude : car
o xiii. age : 33.2364
o xiv. other payment plans : none
o xv. housing : own
o xvi. existing credits : 1.3701
o xvii. job : skilled
o xviii. num dependents : 1.1011
o xix. own telephone : none
o xx. foreign worker : yes
o xxi. class : good
h. Genere la visualización de los grupos.

i. Realice una asociación aplicando el algoritmo “Apriori” e interprete los resultados.


No esta habilitada el Algoritmo

j. Cual sería un segmento atractivo al cual un banco debería hacer foco para la otorgación de
créditos? (descubra información en la base de datos usando los criterios que considere
necesarios).
Los solteros varones, con un promedio de edad de 33 años, que sean propietarios de sus
viviendas y tengan vehículo propio.
4. Caso: Empleados
DATA: sueldo, casado, coche, hijos, alq/prop, sindicato, bajas, antigüedad, sexo

a. Cuantos registros tiene el caso?


Tiene 15
b. Cuantos atributos numéricos tiene el caso? y cuantos no numéricos?
Tiene 4
c. Cuál sería su conclusión de analizar los atributos “sueldo” y “casado”.
 11 empleados tienen su salario esta entre 8000 y 29000. 5 son casados y 6
solteros
 4 empleados tienen su salario ente 29000 y 50000 2 están casados y 2 solteros.
d. Cuál sería su conclusión de analizar los atributos “sueldo” e “hijo”.
 11 empleados tienen su salario esta entre 8000 y 29000. Tienen 1 o menos hijos.
 4 empleados tienen su salario ente 29000 y 50000. Tienen más de un hijo.
e. Cuál sería su conclusión de analizar los atributos “sueldo” y “sexo”.
 11 empleados tienen su salario esta entre 8000 y 29000. 8 son hombres y 3 mujeres
 4 empleados tienen su salario ente 29000 y 50000. 3 son mujeres y 1 hombre
f. Realice una clasificación usando J48. ¿Cuál es la precisión?
Precision de 80%
g. En base al punto anterior interprete la matriz de confusión.
 Hay 4 casados
 Hay 8 solteros
h. Elabore el árbol de decisión. Interprete los resultados.
 Son 7 casados y 8 solteros .
 4 tienen mas de un hijo y 11 tienen 1 o cero hijos.
 Todos los que ganan igual o menos de 15000 son hombres, 7 de los que ganan mas de
15000 son mujeres.
i. Realice una agrupación usando SimpleKmeans. Interprete el cluster generado.
 Los que tienen un promedio de sueldo de 24777.78 son solteros.
 Los que tienen un promedio de sueldo de 24777.78 tienen en promedio no tienen hijos.
 Los que tienen un promedio de sueldo de 24777.78 en promedio son mujeres.
 Los que tienen un promedio de sueldo de 15500 están casados.
 Los que tienen un promedio de sueldo de 15500 tienen en promedio más de 1 hijo
 Los que tienen un promedio de sueldo de 15500 en promedio son hombres.
j. En base al caso anterior visualice el cluster. Analice combinación de par de atributos ( casado-
sueldo, sueldo – hijos, sueldo-sexo)
 casado- sueldo: Datos polarizados por contar con solo dos valores posibles para el estado
civil.

 sueldo – hijos: Se puede apreciar que los que tienen más hijos son los casados
(color azul).

 sueldo-sexo: Se puede observar que los hombres ganan menos que las mujeres
5. Caso: Titanic
DATA: clase (0=tripulación, 1=primera, 2=segunda, 3=tercera), edad (1=adulto, 0=niño), sexo (1=hombre,
0=mujer), sobrevivió?(1=si, 0=no).
a. Cuantos registros tiene el caso?
Tiene 2201
b. Cuantos atributos numéricos tiene el caso? y cuantos no numéricos?
Tiene 4 numericos y 0 no numericos
c. Realice una asociación (use “apriori”), interprete los resultados obtenidos.
 885 son tripulación y son adultos
 862 son tripulación, hombres.
 1364 hombres murieron, de los cuales 1329 eran adultos y 35 niños hombres.
 1490 murieron de los cuales 1438 eran adultos y 52 niños
 Del total de pasajeros 1731 eran hombres de los cuales 1667 adultos.
d. Cuál es la confianza de no sobrevivir para los hombres adultos?
97%
e. Cuál es la confianza de no sobrevivir para mujeres adultas?
92%
6. Caso: hepatitis
a. Analizar los atributos del caso, cuales son de interés.
Todos son importantes dependiendo al contexto que se quiere analizar.
b. Cuál es la composición de personas que mueren sean estas hombres o mujeres?
De las 32 personas que mueren, todas son mujeres.
c. Realice una clasificación e interprete el resultado
 Con la clasificación tipo árbol con el algoritmo J48
o El 7.7% es el margen de error.
o 22 personas mueren
o 121 personas viven
d. Realice una agrupación e interprete el resultado
La tendencia es que las personas vivan a la enfermedad.
e. Cuál de las alternativas anteriores es el más conveniente para la extracción de información. Por
qué? (utilizar los criterios necesarios, sean algoritmos, métodos, gráficos, etc. que permitan
brindar conocimiento a partir de la información).
 Las agrupaciones aplicando SimpleKMeans. Se puede visualizar que la tendencia a padecer
la enfermedad es en las mujeres y que sobreviven la enfermedad.