Copia de MAGISTER S1 EII 861 1-2020

TÉCNICAS
DE
DATA MINING (DM)
PAMELA WILSON S.
pamelawilsons@gmail.com
pamela.wilson@pucv.cl
1
OBJETIVOS
 Conocer de manera general las técnicas y enfoques de

Minería de Datos.
 Exploración y uso de fuentes de datos para análisis y toma

de decisiones.
 Técnicas a la solución de problemas de reconocimiento de

patrones, clasificación y pronóstico.
 Analizar e interpretar datos reales con R.
2
CONTENIDO
1. Introducción.
2. El ciclo de Data Mining: fases y tipos de problemas.
3. Técnicas de Data Mining.
3
BIBLIOGRAFÍA
1.
1. Larose,
Larose, D.
D. T.
T. (2005).
(2005). Discovering
Discovering Knowledge
Knowledge inin Data:
Data: An
An
Introduction
IntroductiontotoData
DataMining.
Mining.John
JohnWiley
Wiley&&Sons.
Sons.
2.
2. Torgo,
Torgo, L.L. (2010).
(2010). Data
Data Mining
Mining with
with R.
R. Learning
Learning with
with Case
Case
Studies.
Studies.Chapman
Chapman&&Hall/CRC
Hall/CRCPress.
Press.
4
Evaluaciones:
Trabajos (individuales – grupales), presentaciones

(presenciales, video, on-line) y Prueba Final.
El curso requiere alto grado de investigación por parte de los

alumnos.
5
EVALUACION
Jueves 19 de Marzo.
Jueves 19 de Marzo.
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Jueves 29 de Marzo.
Jueves 29 de Marzo.
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%

Jueves 16 de Abril.
Jueves 16 de Abril.
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%

Jueves 30 de Abril.
Jueves 30 de Abril.
Contenido 2. Análisis de caso (grupal). Ponderación: 20%

Jueves 07 de Mayo.
Jueves 07 de Mayo.
Contenido 3. Exposición (grupal). Ponderación: 20%

Jueves 28 de Mayo.
Jueves 28 de Mayo.

Jueves 11 de Junio.
Jueves 11 de Junio.
Examen final de toda la materia
6
EVALUACION (Re-preogramación)
Jueves 19 de Marzo.
Jueves 19 de Marzo.
Jueves 29 de Marzo.
Jueves 29 de Marzo.

Jueves 23 de Abril.
Jueves 23 de Abril.

Jueves 30 de Abril.
Jueves 30 de Abril.

Jueves 07 de Mayo.
Jueves 07 de Mayo.

Jueves 28 de Mayo.
Jueves 28 de Mayo.

Fecha por definir (posterior al 11 de junio)
Fecha por definir (posterior al 11 de junio)
7
¿Qué es Data Mining (Minería de Datos)?
Proceso de extracción de información de grandes bases de

datos.
8
Data Mining (DM)
1.Descriptiva
 Agrupamiento (cluster)
 Reglas de Asociación
 Cronológica
2.Predictiva
 Clasificación
 Regresión
9
Algoritmos de clasificación:
Cluster. Diego Quiroz
Árboles de decisión. Cristian Rojas
Redes neuronales. Miguel Fernández
Redes Bayesianas. Daniel Alvarez
10
Aplicaciones de Data Mining
 Segmentación de clientes
 Database Marketing
 Predicción de compra
 Retención de clientes
 Predicción de fuga
 Detección de Fraude: Tarjetas de crédito.
 Predicción de series de tiempo

Materia Prima
Datos
12
Datos
Información
Decisión
13
Motivaciones para Almacenar
Datos
14
En telecomunicación:
Razón Inicial: Facturación de llamadas

Potencial: detección de fraudes
En supermercados:
Razón Inicial: Gestión del inventario

Potencial: Asociación de ventas
En bancos:
Razón inicial: Manejo de cuentas

Potencial: Segmentación de clientes
En empresas de producción:
Razón Inicial: Control de procesos

Potencial: mantenimiento preventivo
Idea básica
Empresas y Organizaciones tienen gran cantidad de datos

almacenados.
Los datos disponibles contienen información importante.
La información está escondida en los datos.

Data mining puede encontrar información nueva y
potencialmente útil en los datos
¿Qué sucede en la realidad de las PYMES?
Naturaleza de los datos
Los datos pueden adquirir varias formas, por

ejemplo:
• Numéricos
• Textos
• Imágenes
20Nº 1
Datos Cualitativos: corresponde aquellos datos, que son
categóricos, pero no son numéricos. Cuando los datos son
cualitativos, la diferencia entre ellos es de clase y no de
cantidad.
21
Datos cuantitativos: los valores de los datos representan
diferentes magnitudes.
22
Medida. Es el número o categoría que se asigna al medir un
fenómeno. Un sinónimo de medida es observación.
Escala de Medida. Una escala de medida es el conjunto de

valores que puede tomar una determinada medida. Se pueden
clasificar en los siguientes tipos:
Escalas de medida Categóricas : Nominales.

Ordinales.
Escalas de medida Numéricas ; De intervalos.
De razón.
23
Nivel de datos
Nivel Significado Ejemplo Operación

permitida
Escala nominal “Etiqueta” RUT Comparación
Escala ordinal “Orden” Evaluación Comparación

(sin distancia) (B-R-M) grados de calid
Escala de Punto cero Notas y=ax + b

intervalo “arbitrario” (a>0)
Escala de Punto cero Peso en kg y=ax

Razón “común” Ingreso en $ (a>0)
Naturaleza de los datos
Los datos recolectados poseen varias características

que dificultan su estudio:
• Valores Perdidos
• Distorsiones
• Mal grabados
• Muestreo inadecuado
• Datos atípicos
25Nº 1
Valores Perdidos
 Hasta los 70’s: Procedimientos particulares para cada

caso, no existe teoría. Ej. eliminación de casos.
 Los 80’s: Algoritmos basados en estimaciones de

máxima verosimilitud, algoritmo EM.
 Los 90’s: Cadenas de Markov, Monte Carlo, Métodos

Bayesianos.
 Evaluación #1:
 ¿Qué es la Imputación de Datos?

 ¿Técnicas de Imputación de Datos?
 Ejemplo y aplicación.
Es esencial examinar los datos completamente antes de
realizar cualquier análisis formal.
“Calidad de la data”
28
 Evaluación #2:
 Lectura: Calidad de la data.

 Observaciones y comentarios de la situación
investigada y planteada.
 Margen de error.
 Imputaciones.
¿Cuáles son las expectativas
de los
estudiantes sobre DM?
30
Tipos de relaciones en DM
 Clases
 Observaciones con varias variables en estudio.
 Asignación en grupos.
 Minimizar probabilidad de clasificación incorrecta.
 Compañías de seguro, clasificación de clientes de
riesgo bajo, medio y alto.
 Cluster
 Construcción de grupos de características
similares.
 Criterio indicado por el investigador.
 Segmentación de mercado, “entender” el
comportamiento de los clientes.
 Asociaciones
 Asociaciones entre variables a lo menos
ordinales.
 “descubrir”, asociaciones no comunes.
 Ventas: tipos de productos adquiridos.
 Secuencia
 Tendencia y comportamiento.
 Asociaciones entre variables a lo menos
ordinales.
 “Secuencias” genéticas para estudios de
enfermedades.
Etapas en DM
 Comprensión (del problema).
 Calidad de la data.
 Modelos estadísticos.
 Validación del modelo.
 Interpretación.
¿Es posible predecir
si un cliente cancelará un crédito?

si un paciente se contagiará de virus anta?
si un estudiante aprobará una asignatura?
si una persona dejará el alcohol después de un
tratamiento?
 etc.
36
¿Es posible predecir
si un cliente cancelará un crédito?
Si en el estudio se considera que la edad es una variable que

puede ayudar a predecir, cuál es el modelo? Existen otras
variables que puedan ayudar?
37
Recuerdo: Regresión
REGRESION LINEAL SIMPLE
La idea consiste en establecer una relación funcional entre la

variable a explicar, y una o más variables explicativas.
La variable a explicar se denomina también: variable respuesta,

predecida, dependiente, objetivo.
Las variables explicativas se denominan también: variables

predictoras, independientes, control, regresoras.
MODELO GENERAL
Yi  f ( X i ,  )   i
i  1,..., n
La variable respuesta, se asume como una variable aleatoria
observable.
La componente de incertidumbre (el error) es una variable

aleatoria no observable de valor esperado cero, varianza
constante y no correlacionados.
La relación funcional seleccionada caracteriza el problema de

regresión contiene parámetros desconocidos y se asume que las
variables predictoras se miden sin error.
Regresión lineal:
Relación funcional lineal en los parámetros.
Regresión no lineal
Relación funcional no lineal en los parámetros.
Linealizables.
No linealizables.
MODELO DE REGRESION LINEAL
Yi   0  1 X i   i
i  1,..., n
Yi   0  1 xi1   2 xi 2  ...   k xik   i

i  1,..., n
Nuestro problema es estimar los parámetros para poder
identificar el modelo.
Un método bastante empleado en la estimación de

parámetros de modelos de regresión, es el Método de
Mínimos Cuadrados (ordinarios). También se puede utilizar el
Método de Máxima Verosimilitud.
¿Deben ser iguales los parámetros estimados en los distintos

métodos utilizados?
Supuestos del Modelo
E ( i )  0  i  1,..., n
Mínimos V ( i )   2
Cuadrados
Máxima Correlación( i ,  j )  0 i  j
Varosimilitud
 i ~ N (0,  2 )
Función a minimizar
n n
g (  0 , 1 )      ( yi   0  1 xi )
i
2 2
i 1 i 1
 i
 2
i 1
 (Y  X ) t
(Y  X )  YY t
 2  t
X t
Y   t
( X t
X )
La solución está dada por:
 Cov( x, y )  
1   0  y  1 x
S x2
 
n
i
2 ( X t X )   X tY
i 1
 2 X t Y  2( X t X ) 


  (X X ) X Y
t 1 t
Las segundas derivadas de la función a minimizar, garantizan
el mínimo buscado.
El modelo de regresión lineal se puede utilizar para obtener

valores de la variable respuesta.
    
yi   0  1 xi YX
Diagrama de dispersión y regresión ajustada
Modelo de regresión lineal
100
90
80
70
y
60
50
40
3 4 5 6 7 8 9
x
Propiedades de los estimadores
Bajo los supuestos planteados se pueden evaluar y verificar

que los estimadores mínimo cuadrados, que coinciden con los
estimadores máximo verosímil de los parámetros del modelo,
son insesgados. También es posible verificar que éstos
estimadores poseen mínima varianza dentro de los
estimadores lineales insesgados de los parámetros.
Ejemplo
#Linear fit
fit1=lm(y~(x))
fit2=lm(y1~(x))
fit3=lm(y~(x1))
fit4=lm(y1~(x1))
#Info modelo
summary(fit1);summary(fit2);summary(fit3);summary(fit4)
Ejemplo
e1=residuals(fit1)
e2=residuals(fit2)
e3=residuals(fit3)
e4=residuals(fit4)
summary(e1);summary(e2);summary(e3);summary(e4)
var(e1);var(e2);var(e3);var(e4)
Inferencia respecto a los parámetros
Como resultado del supuesto probabilísticos y de las

propiedades de los estimadores, se tiene:
   1 x
2

0 ~ N  0 ,   
2

  n ( n  1) S 2

  x 
   2

1 ~ N  1 , 2 
 ( n  1) S x 
Con el objeto de eliminar el sesgo asociado, se considera el
estimador:
n
 1 
2  
n  2 i 1
( yi  y i ) 2
Otras cantidades de interés, (intervalos de confianza o
contraste de hipótesis) son:
Estimación de la media
Predicción de un valor particular de la variable respuesta

 Y / xp

Y / xp
Tabla de análisis de Varianza (ANDEVA - ANOVA)
La tabla de análisis de varianza (en regresión) descompone la

variabilidad total de la variable respuesta, entre lo explicado
por el modelo y lo no explicado por el modelo.
 
(Yi  Y )  (Y i  Y )  (Yi  Y i )
i  1,..., n
En resumen:
n n  n 
 (Y
i 1
i  Y )   (Y i  Y )   (Yi  Y i ) 2
2
i 1
2
i 1
SCT  SCR  SCE
Utilizando estas sumas se construye la tabla de análisis de

varianza (ANDEVA).
ANDEVA (ANOVA)
Fuente de Grados Sumas de Cuadrado Estadístico

variación de libertad Cuadrado Medio
Regresión p 1 SCR SCR
CMR  CMR
p 1
Residuos n p SCE SCE CME
CME 
n p
Total n 1 SCT
Bajo los supuestos probabilísticos considerados para el error,
la tabla de análisis de varianza, permite poner a prueba el
modelo propuesto para la respuesta media, que corresponde
a al siguiente contraste:
H 0 : 1  0
v/s H 0 : 1   2  ...   k  0
H 1 : 1  0
Valor-p (p-value)
Valor más pequeño de α, para el cual se espera rechazar la
hipótesis nula.
valor-p ≤ 0,01 Altamente significativo (***)
0,01<valor-p≤0,05 Muy significativo (**)
0,05<valor-p≤0,1 Significativo (*)
valor-p>0.1 No significativo (ns)

VALOR – p > 
No rechazo la hipótesis nula
A partir de la tabla de análisis de varianza, es posible
construir un indicador que permite analizar la capacidad
predictiva del modelo, que se conoce como: coeficiente de
determinación.
SCR
R2 
SCT
 n 1 
R 2
ajustado  1  (1  R )
2

 n  p 1
REGRESION
LOGISTICA
La idea consiste en establecer una relación funcional entre la
variable a explicar, y una o más variables explicativas (simple o
múltiple).
Yi  f ( X i ,  )   i
i  1,..., n
Las variables explicativas (variables independientes), de tipo
cualitativo o cuantitativo.
La variable a explicar (variable dependiente), de tipo categórica

binaria (caso más común), es decir solo tiene dos posibles
resultados: éxito y fracaso.
Ejemplo 1:
Éxito: el cliente cancela a tiempo.
Fracaso: el cliente no cancela a tiempo.
Ejemplo 2:
Éxito: el paciente no tiene la enfermedad.
Fracaso: el paciente tiene la enfermedad.

Ejemplo 1:
X: edad (años) 35 20 25 32 26 20 40 26 19 31 21 24 26 29 26 21
Y: tipo de cliente 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0
¿Modelo?
¿Qué sucede en términos reales?
69
########### MRLS
x=c(35,20,25,32,26,20,40,26,19,31,21,24,26,29,26,21)
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
cor.test(x,y)
fit=lm(y~x)
summary(fit)
confint(fit)
nuevas.edades=data.frame(edad = seq(19, 40))

predict(fit, nuevas.edades)
La Regresión Logística permite construir un modelo que permita
explicar la probabilidad de ocurrencia de un suceso en estudio
dado un conjunto de variables independientes.
Variable
Yi ~ b(ni , pi )
i  1,..., m
Ejemplo: proporción de clientes que no cancelan (pi) después

que (ni) reciben un crédito de consumo.
73
74
Se dispone de una muestra de observaciones formadas por:
(x1, y1), (x2, y2), …, (xn, yn)
xi  ( xi1 ,..., xik )

Función de verosimilitud:
n
L(  /( x1 , y1 ),..., ( xk , yk ))   p (1  pi )
i
yi 1 yi
i 1
pi  p( xi ;  )
76
Para realizar la estimación de la variable binaria (cualitativa),
se transforma la RL en Rlogística.
var iable original : y

transformación : ln( p /(1  p))
77
Posterior a la transformación se estiman los parámetros del
modelo y finalmente para encontrar los resultados se utiliza la
transformación exponencial.
ln( p /(1  p ))   0  1 xi
exp(  0  1 xi )
1  exp(  0  1 xi )
78
Modelo de Regresión Logística Binaria (Logit)
p( X 1 ,..., X k )  G (  0  1 X 1  ...   k X k )
X
e
G ( x) 
1 e X
79
1
P(Y  1 / x1 ,..., xk ) 
1  exp(   0  1 X 1  ...  X k )
80
Logit ( P(Y  1 / x1 ,..., xk ))  Logit ( P(Y  1 / x))

~
 P(Y  1 // x) 
 log  ~ 
 1  P(Y  1 // x) 
 ~ 
  0  1 x1  ..   k xk
81
Ejemplo:
Los estudiantes universitarios suelen recibir tarjetas de crédito

en los últimos años de estudio, sin embargo existe la sospecha
que estos no cancelen. El interés de cierto investigador:
1. Variable dependiente: tipo de cliente (Moroso =1, No

moroso =0).
2. Variable independiente: Edad (30 años o más=1, menores a
30 años =0).
¿Cuál es el modelo?
Data
x=c(0,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1)
Edad Cliente de cliente
(0) menores a 30 años
(1) 30 años o más
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
Tipo de cliente
(0) No Moroso
(1) Moroso
Ejemplo
## ingreso de data
x=c(0,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1)
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
## ver data
x;y
## ajustar modelo
modelo1=glm(y~x, family=binomial, data=data1)
## resumen del modelo
summary(modelo1)
Inferencia del modelo
log it ( pi )  0.9163  0.2231( Edad )
0.9163 0.2231( Edad )

e
P ( Moroso / Edad )  0.9163 0.2231( Edad )
1 e
Inferencia del modelo
e 0.91630.2231( Edad *0 )
P ( Moroso / Edad  0)  0.9163 0.2231( Edad *0 )
 0.7143
1 e
0.9163 0.2231( Edad *1)

e
P ( Moroso / Edad  1)  0.9163 0.2231( Edad *1)
 0.6667
1 e
Magnitud de la asociación entre la Morosidad (variable
dependiente) y la edad (factor de interés).
exp( 1 )
0.9163 0.2231( Edad )

e
P ( Moroso / Edad )  0.9163 0.2231( Edad )
1 e
Interpretación:
1.Función de enlace logit:
 p 
ln 
1 p 
Linealiza la relación entre la probabilidad y la componente

sistémica (predictor lineal).
89
2. Parámetros:
 Coeficiente positivo, aumento en posibilidad de
evento.
 Coeficiente negativo, disminución en posibilidad de
evento.
90

Copia de MAGISTER S1 EII 861 1-2020

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Copia de MAGISTER S1 EII 861 1-2020

Загружено:

Авторское право:

Доступные форматы

TÉCNICAS

 Conocer de manera general las técnicas y enfoques de

 Exploración y uso de fuentes de datos para análisis y toma

 Técnicas a la solución de problemas de reconocimiento de

 Analizar e interpretar datos reales con R.

2. El ciclo de Data Mining: fases y tipos de problemas.

3. Técnicas de Data Mining.

Trabajos (individuales – grupales), presentaciones

El curso requiere alto grado de investigación por parte de los

Proceso de extracción de información de grandes bases de

Cluster. Diego Quiroz

Árboles de decisión. Cristian Rojas

Redes neuronales. Miguel Fernández

Redes Bayesianas. Daniel Alvarez

 Detección de Fraude: Tarjetas de crédito.

 Predicción de series de tiempo

Razón Inicial: Facturación de llamadas

Razón Inicial: Gestión del inventario

Razón inicial: Manejo de cuentas

En empresas de producción:

Razón Inicial: Control de procesos

Empresas y Organizaciones tienen gran cantidad de datos

Los datos disponibles contienen información importante.

La información está escondida en los datos.

Los datos pueden adquirir varias formas, por

Escala de Medida. Una escala de medida es el conjunto de

Escalas de medida Categóricas : Nominales.

Nivel Significado Ejemplo Operación

Escala nominal “Etiqueta” RUT Comparación

Escala ordinal “Orden” Evaluación Comparación

Escala de Punto cero Notas y=ax + b

Escala de Punto cero Peso en kg y=ax

Los datos recolectados poseen varias características

 Hasta los 70’s: Procedimientos particulares para cada

 Los 80’s: Algoritmos basados en estimaciones de

 Los 90’s: Cadenas de Markov, Monte Carlo, Métodos

 ¿Qué es la Imputación de Datos?

 Lectura: Calidad de la data.

 Comprensión (del problema).

 Validación del modelo.

si un cliente cancelará un crédito?

si un cliente cancelará un crédito?

Si en el estudio se considera que la edad es una variable que

La idea consiste en establecer una relación funcional entre la

La variable a explicar se denomina también: variable respuesta,

Las variables explicativas se denominan también: variables

La componente de incertidumbre (el error) es una variable

La relación funcional seleccionada caracteriza el problema de

Yi   0  1 xi1   2 xi 2  ...   k xik   i

Un método bastante empleado en la estimación de

¿Deben ser iguales los parámetros estimados en los distintos

El modelo de regresión lineal se puede utilizar para obtener

Modelo de regresión lineal

Bajo los supuestos planteados se pueden evaluar y verificar

Como resultado del supuesto probabilísticos y de las

Predicción de un valor particular de la variable respuesta

La tabla de análisis de varianza (en regresión) descompone la

SCT  SCR  SCE

Utilizando estas sumas se construye la tabla de análisis de

Fuente de Grados Sumas de Cuadrado Estadístico

valor-p ≤ 0,01 Altamente significativo (***)

0,01<valor-p≤0,05 Muy significativo (**)

0,05<valor-p≤0,1 Significativo (*)

valor-p>0.1 No significativo (ns)