Академический Документы
Профессиональный Документы
Культура Документы
DE
DATA MINING (DM)
PAMELA WILSON S.
pamelawilsons@gmail.com
pamela.wilson@pucv.cl
1
OBJETIVOS
2
CONTENIDO
1. Introducción.
3
BIBLIOGRAFÍA
1.
1. Larose,
Larose, D.
D. T.
T. (2005).
(2005). Discovering
Discovering Knowledge
Knowledge inin Data:
Data: An
An
Introduction
IntroductiontotoData
DataMining.
Mining.John
JohnWiley
Wiley&&Sons.
Sons.
2.
2. Torgo,
Torgo, L.L. (2010).
(2010). Data
Data Mining
Mining with
with R.
R. Learning
Learning with
with Case
Case
Studies.
Studies.Chapman
Chapman&&Hall/CRC
Hall/CRCPress.
Press.
4
Evaluaciones:
5
EVALUACION
Jueves 19 de Marzo.
Jueves 19 de Marzo.
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Jueves 29 de Marzo.
Jueves 29 de Marzo.
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
Jueves 16 de Abril.
Jueves 16 de Abril.
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
Jueves 30 de Abril.
Jueves 30 de Abril.
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
Jueves 07 de Mayo.
Jueves 07 de Mayo.
Contenido 3. Exposición (grupal). Ponderación: 20%
Contenido 3. Exposición (grupal). Ponderación: 20%
Jueves 28 de Mayo.
Jueves 28 de Mayo.
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
Jueves 11 de Junio.
Jueves 11 de Junio.
Examen final de toda la materia
Examen final de toda la materia
6
EVALUACION (Re-preogramación)
Jueves 19 de Marzo.
Jueves 19 de Marzo.
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Jueves 29 de Marzo.
Jueves 29 de Marzo.
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
Jueves 23 de Abril.
Jueves 23 de Abril.
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
Jueves 30 de Abril.
Jueves 30 de Abril.
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
Jueves 07 de Mayo.
Jueves 07 de Mayo.
Contenido 3. Exposición (grupal). Ponderación: 20%
Contenido 3. Exposición (grupal). Ponderación: 20%
Jueves 28 de Mayo.
Jueves 28 de Mayo.
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
Fecha por definir (posterior al 11 de junio)
Fecha por definir (posterior al 11 de junio)
Examen final de toda la materia
Examen final de toda la materia
7
¿Qué es Data Mining (Minería de Datos)?
8
Data Mining (DM)
1.Descriptiva
Agrupamiento (cluster)
Reglas de Asociación
Cronológica
2.Predictiva
Clasificación
Regresión
9
Algoritmos de clasificación:
10
Aplicaciones de Data Mining
Segmentación de clientes
Database Marketing
Predicción de compra
Retención de clientes
Predicción de fuga
Datos
12
Datos
Información
Decisión
13
Motivaciones para Almacenar
Datos
14
En telecomunicación:
En supermercados:
• Numéricos
• Textos
• Imágenes
20Nº 1
Datos Cualitativos: corresponde aquellos datos, que son
categóricos, pero no son numéricos. Cuando los datos son
cualitativos, la diferencia entre ellos es de clase y no de
cantidad.
21
Datos cuantitativos: los valores de los datos representan
diferentes magnitudes.
22
Medida. Es el número o categoría que se asigna al medir un
fenómeno. Un sinónimo de medida es observación.
23
Nivel de datos
• Valores Perdidos
• Distorsiones
• Mal grabados
• Muestreo inadecuado
• Datos atípicos
25Nº 1
Valores Perdidos
“Calidad de la data”
28
Evaluación #2:
30
Tipos de relaciones en DM
Clases
Observaciones con varias variables en estudio.
Asignación en grupos.
Minimizar probabilidad de clasificación incorrecta.
Compañías de seguro, clasificación de clientes de
riesgo bajo, medio y alto.
Tipos de relaciones en DM
Cluster
Observaciones con varias variables en estudio.
Construcción de grupos de características
similares.
Criterio indicado por el investigador.
Segmentación de mercado, “entender” el
comportamiento de los clientes.
Tipos de relaciones en DM
Asociaciones
Observaciones con varias variables en estudio.
Asociaciones entre variables a lo menos
ordinales.
“descubrir”, asociaciones no comunes.
Ventas: tipos de productos adquiridos.
Tipos de relaciones en DM
Secuencia
Observaciones con varias variables en estudio.
Tendencia y comportamiento.
Asociaciones entre variables a lo menos
ordinales.
“Secuencias” genéticas para estudios de
enfermedades.
Etapas en DM
Calidad de la data.
Modelos estadísticos.
Interpretación.
¿Es posible predecir
36
¿Es posible predecir
37
Recuerdo: Regresión
REGRESION LINEAL SIMPLE
Yi f ( X i , ) i
i 1,..., n
La variable respuesta, se asume como una variable aleatoria
observable.
Regresión no lineal
Relación funcional no lineal en los parámetros.
Linealizables.
No linealizables.
MODELO DE REGRESION LINEAL
Yi 0 1 X i i
i 1,..., n
E ( i ) 0 i 1,..., n
Mínimos V ( i ) 2
Cuadrados
Máxima Correlación( i , j ) 0 i j
Varosimilitud
i ~ N (0, 2 )
Función a minimizar
n n
g ( 0 , 1 ) ( yi 0 1 xi )
i
2 2
i 1 i 1
i
2
i 1
(Y X ) t
(Y X ) YY t
2 t
X t
Y t
( X t
X )
La solución está dada por:
Cov( x, y )
1 0 y 1 x
S x2
n
i
2 ( X t X ) X tY
i 1
2 X t Y 2( X t X )
(X X ) X Y
t 1 t
Las segundas derivadas de la función a minimizar, garantizan
el mínimo buscado.
yi 0 1 xi YX
Diagrama de dispersión y regresión ajustada
100
90
80
70
y
60
50
40
3 4 5 6 7 8 9
x
Propiedades de los estimadores
#Linear fit
fit1=lm(y~(x))
fit2=lm(y1~(x))
fit3=lm(y~(x1))
fit4=lm(y1~(x1))
#Info modelo
summary(fit1);summary(fit2);summary(fit3);summary(fit4)
Ejemplo
e1=residuals(fit1)
e2=residuals(fit2)
e3=residuals(fit3)
e4=residuals(fit4)
summary(e1);summary(e2);summary(e3);summary(e4)
var(e1);var(e2);var(e3);var(e4)
Inferencia respecto a los parámetros
n
1
2
n 2 i 1
( yi y i ) 2
Otras cantidades de interés, (intervalos de confianza o
contraste de hipótesis) son:
Estimación de la media
Y / xp
Y / xp
Tabla de análisis de Varianza (ANDEVA - ANOVA)
(Yi Y ) (Y i Y ) (Yi Y i )
i 1,..., n
En resumen:
n n n
(Y
i 1
i Y ) (Y i Y ) (Yi Y i ) 2
2
i 1
2
i 1
H 0 : 1 0
v/s H 0 : 1 2 ... k 0
H 1 : 1 0
Valor-p (p-value)
Valor más pequeño de α, para el cual se espera rechazar la
hipótesis nula.
SCR
R2
SCT
n 1
R 2
ajustado 1 (1 R )
2
n p 1
REGRESION
LOGISTICA
La idea consiste en establecer una relación funcional entre la
variable a explicar, y una o más variables explicativas (simple o
múltiple).
Yi f ( X i , ) i
i 1,..., n
Las variables explicativas (variables independientes), de tipo
cualitativo o cuantitativo.
Ejemplo 2:
Éxito: el paciente no tiene la enfermedad.
X: edad (años) 35 20 25 32 26 20 40 26 19 31 21 24 26 29 26 21
Y: tipo de cliente 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0
¿Modelo?
69
########### MRLS
x=c(35,20,25,32,26,20,40,26,19,31,21,24,26,29,26,21)
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
cor.test(x,y)
fit=lm(y~x)
summary(fit)
confint(fit)
Yi ~ b(ni , pi )
i 1,..., m
n
L( /( x1 , y1 ),..., ( xk , yk )) p (1 pi )
i
yi 1 yi
i 1
pi p( xi ; )
76
Para realizar la estimación de la variable binaria (cualitativa),
se transforma la RL en Rlogística.
77
Posterior a la transformación se estiman los parámetros del
modelo y finalmente para encontrar los resultados se utiliza la
transformación exponencial.
ln( p /(1 p )) 0 1 xi
exp( 0 1 xi )
1 exp( 0 1 xi )
78
Modelo de Regresión Logística Binaria (Logit)
p( X 1 ,..., X k ) G ( 0 1 X 1 ... k X k )
X
e
G ( x)
1 e X
79
Modelo de Regresión Logística Binaria (Logit)
1
P(Y 1 / x1 ,..., xk )
1 exp( 0 1 X 1 ... X k )
80
Modelo de Regresión Logística Binaria (Logit)
81
Ejemplo:
x=c(0,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1)
Edad Cliente de cliente
(0) menores a 30 años
(1) 30 años o más
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
Tipo de cliente
(0) No Moroso
(1) Moroso
Ejemplo
## ingreso de data
x=c(0,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1)
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
## ver data
x;y
## ajustar modelo
modelo1=glm(y~x, family=binomial, data=data1)
## resumen del modelo
summary(modelo1)
Inferencia del modelo
e 0.91630.2231( Edad *0 )
P ( Moroso / Edad 0) 0.9163 0.2231( Edad *0 )
0.7143
1 e
exp( 1 )
p
ln
1 p
89
2. Parámetros:
Coeficiente positivo, aumento en posibilidad de
evento.
Coeficiente negativo, disminución en posibilidad de
evento.
90