Вы находитесь на странице: 1из 90

TÉCNICAS

DE
DATA MINING (DM)

PAMELA WILSON S.
pamelawilsons@gmail.com
pamela.wilson@pucv.cl

1
OBJETIVOS

 Conocer de manera general las técnicas y enfoques de


Minería de Datos.

 Exploración y uso de fuentes de datos para análisis y toma


de decisiones.

 Técnicas a la solución de problemas de reconocimiento de


patrones, clasificación y pronóstico.

 Analizar e interpretar datos reales con R.

2
CONTENIDO

1. Introducción.

2. El ciclo de Data Mining: fases y tipos de problemas.

3. Técnicas de Data Mining.

3
BIBLIOGRAFÍA

1.
1. Larose,
Larose, D.
D. T.
T. (2005).
(2005). Discovering
Discovering Knowledge
Knowledge inin Data:
Data: An
An
Introduction
IntroductiontotoData
DataMining.
Mining.John
JohnWiley
Wiley&&Sons.
Sons.

2.
2. Torgo,
Torgo, L.L. (2010).
(2010). Data
Data Mining
Mining with
with R.
R. Learning
Learning with
with Case
Case
Studies.
Studies.Chapman
Chapman&&Hall/CRC
Hall/CRCPress.
Press.

4
Evaluaciones:

Trabajos (individuales – grupales), presentaciones


(presenciales, video, on-line) y Prueba Final.

El curso requiere alto grado de investigación por parte de los


alumnos.

5
EVALUACION

Jueves 19 de Marzo.
Jueves 19 de Marzo.
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Jueves 29 de Marzo.
Jueves 29 de Marzo.
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
 
 
Jueves 16 de Abril.
Jueves 16 de Abril.
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
 
 
Jueves 30 de Abril.
Jueves 30 de Abril.
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
 
 
Jueves 07 de Mayo.
Jueves 07 de Mayo.
Contenido 3. Exposición (grupal). Ponderación: 20%
Contenido 3. Exposición (grupal). Ponderación: 20%
 
 
Jueves 28 de Mayo.
Jueves 28 de Mayo.
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
 
 
Jueves 11 de Junio.
Jueves 11 de Junio.
Examen final de toda la materia
Examen final de toda la materia

6
EVALUACION (Re-preogramación)

Jueves 19 de Marzo.
Jueves 19 de Marzo.
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Contenido 1: Exposición “Imputación” (individual). Ponderación: 10%
Jueves 29 de Marzo.
Jueves 29 de Marzo.
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
Contenido 1: Exposición (individual) Calidad de la data. Ponderación: 10%
 
 
Jueves 23 de Abril.
Jueves 23 de Abril.
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
Contenidos 2. Exposición (individual). Algoritmos de clasificación. Ponderación: 20%
 
 
Jueves 30 de Abril.
Jueves 30 de Abril.
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
Contenido 2. Análisis de caso (grupal). Ponderación: 20%
 
 
Jueves 07 de Mayo.
Jueves 07 de Mayo.
Contenido 3. Exposición (grupal). Ponderación: 20%
Contenido 3. Exposición (grupal). Ponderación: 20%
 
 
Jueves 28 de Mayo.
Jueves 28 de Mayo.
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
Contenido 3. Análisis de caso (grupal). Ponderación: 20%
 
 
Fecha por definir (posterior al 11 de junio)
Fecha por definir (posterior al 11 de junio)
Examen final de toda la materia
Examen final de toda la materia

7
¿Qué es Data Mining (Minería de Datos)?

Proceso de extracción de información de grandes bases de


datos.

8
Data Mining (DM)

1.Descriptiva
 Agrupamiento (cluster)
 Reglas de Asociación
 Cronológica

2.Predictiva
 Clasificación
 Regresión

9
Algoritmos de clasificación:

Cluster. Diego Quiroz

Árboles de decisión. Cristian Rojas

Redes neuronales. Miguel Fernández

Redes Bayesianas. Daniel Alvarez

10
Aplicaciones de Data Mining

 Segmentación de clientes

 Database Marketing

 Predicción de compra

 Retención de clientes

 Predicción de fuga

 Detección de Fraude: Tarjetas de crédito.

 Predicción de series de tiempo


Materia Prima

Datos

12
Datos

Información

Decisión

13
Motivaciones para Almacenar

Datos

14
En telecomunicación:

Razón Inicial: Facturación de llamadas


Potencial: detección de fraudes

En supermercados:

Razón Inicial: Gestión del inventario


Potencial: Asociación de ventas
En bancos:

Razón inicial: Manejo de cuentas


Potencial: Segmentación de clientes

En empresas de producción:

Razón Inicial: Control de procesos


Potencial: mantenimiento preventivo
Idea básica

Empresas y Organizaciones tienen gran cantidad de datos


almacenados.

Los datos disponibles contienen información importante.

La información está escondida en los datos.


Data mining puede encontrar información nueva y
potencialmente útil en los datos
¿Qué sucede en la realidad de las PYMES?
Naturaleza de los datos

Los datos pueden adquirir varias formas, por


ejemplo:

• Numéricos
• Textos
• Imágenes

20Nº 1
Datos Cualitativos: corresponde aquellos datos, que son
categóricos, pero no son numéricos. Cuando los datos son
cualitativos, la diferencia entre ellos es de clase y no de
cantidad.

21
Datos cuantitativos: los valores de los datos representan
diferentes magnitudes.

22
Medida. Es el número o categoría que se asigna al medir un
fenómeno. Un sinónimo de medida es observación.

Escala de Medida. Una escala de medida es el conjunto de


valores que puede tomar una determinada medida. Se pueden
clasificar en los siguientes tipos:

Escalas de medida Categóricas : Nominales.


Ordinales.
Escalas de medida Numéricas ; De intervalos.
De razón.

23
Nivel de datos

Nivel Significado Ejemplo Operación


permitida

Escala nominal “Etiqueta” RUT Comparación

Escala ordinal “Orden” Evaluación Comparación


(sin distancia) (B-R-M) grados de calid

Escala de Punto cero Notas y=ax + b


intervalo “arbitrario” (a>0)

Escala de Punto cero Peso en kg y=ax


Razón “común” Ingreso en $ (a>0)
Naturaleza de los datos

Los datos recolectados poseen varias características


que dificultan su estudio:

• Valores Perdidos
• Distorsiones
• Mal grabados
• Muestreo inadecuado
• Datos atípicos

25Nº 1
Valores Perdidos

 Hasta los 70’s: Procedimientos particulares para cada


caso, no existe teoría. Ej. eliminación de casos.

 Los 80’s: Algoritmos basados en estimaciones de


máxima verosimilitud, algoritmo EM.

 Los 90’s: Cadenas de Markov, Monte Carlo, Métodos


Bayesianos.
 Evaluación #1:

 ¿Qué es la Imputación de Datos?


 ¿Técnicas de Imputación de Datos?
 Ejemplo y aplicación.
Es esencial examinar los datos completamente antes de
realizar cualquier análisis formal.

“Calidad de la data”

28
 Evaluación #2:

 Lectura: Calidad de la data.


 Observaciones y comentarios de la situación
investigada y planteada.
 Margen de error.
 Imputaciones.
¿Cuáles son las expectativas
de los
estudiantes sobre DM?

30
Tipos de relaciones en DM

 Clases
 Observaciones con varias variables en estudio.
 Asignación en grupos.
 Minimizar probabilidad de clasificación incorrecta.
 Compañías de seguro, clasificación de clientes de
riesgo bajo, medio y alto.
Tipos de relaciones en DM

 Cluster
 Observaciones con varias variables en estudio.
 Construcción de grupos de características
similares.
 Criterio indicado por el investigador.
 Segmentación de mercado, “entender” el
comportamiento de los clientes.
Tipos de relaciones en DM

 Asociaciones
 Observaciones con varias variables en estudio.
 Asociaciones entre variables a lo menos
ordinales.
 “descubrir”, asociaciones no comunes.
 Ventas: tipos de productos adquiridos.
Tipos de relaciones en DM

 Secuencia
 Observaciones con varias variables en estudio.
 Tendencia y comportamiento.
 Asociaciones entre variables a lo menos
ordinales.
 “Secuencias” genéticas para estudios de
enfermedades.
Etapas en DM

 Comprensión (del problema).

 Calidad de la data.

 Modelos estadísticos.

 Validación del modelo.

 Interpretación.
¿Es posible predecir

si un cliente cancelará un crédito?


si un paciente se contagiará de virus anta?
si un estudiante aprobará una asignatura?
si una persona dejará el alcohol después de un
tratamiento?
 etc.

36
¿Es posible predecir

si un cliente cancelará un crédito?

Si en el estudio se considera que la edad es una variable que


puede ayudar a predecir, cuál es el modelo? Existen otras
variables que puedan ayudar?

37
Recuerdo: Regresión
REGRESION LINEAL SIMPLE

La idea consiste en establecer una relación funcional entre la


variable a explicar, y una o más variables explicativas.

La variable a explicar se denomina también: variable respuesta,


predecida, dependiente, objetivo.

Las variables explicativas se denominan también: variables


predictoras, independientes, control, regresoras.
MODELO GENERAL

Yi  f ( X i ,  )   i
i  1,..., n
La variable respuesta, se asume como una variable aleatoria
observable.

La componente de incertidumbre (el error) es una variable


aleatoria no observable de valor esperado cero, varianza
constante y no correlacionados.

La relación funcional seleccionada caracteriza el problema de


regresión contiene parámetros desconocidos y se asume que las
variables predictoras se miden sin error.
Regresión lineal:
Relación funcional lineal en los parámetros.

Regresión no lineal
Relación funcional no lineal en los parámetros.
Linealizables.
No linealizables.
MODELO DE REGRESION LINEAL

Yi   0  1 X i   i
i  1,..., n

Yi   0  1 xi1   2 xi 2  ...   k xik   i


i  1,..., n
Nuestro problema es estimar los parámetros para poder
identificar el modelo.

Un método bastante empleado en la estimación de


parámetros de modelos de regresión, es el Método de
Mínimos Cuadrados (ordinarios). También se puede utilizar el
Método de Máxima Verosimilitud.

¿Deben ser iguales los parámetros estimados en los distintos


métodos utilizados?
Supuestos del Modelo

E ( i )  0  i  1,..., n
Mínimos V ( i )   2
Cuadrados
Máxima Correlación( i ,  j )  0 i  j
Varosimilitud

 i ~ N (0,  2 )
Función a minimizar

n n
g (  0 , 1 )      ( yi   0  1 xi )
i
2 2

i 1 i 1

 i
 2

i 1
 (Y  X ) t
(Y  X )  YY t
 2  t
X t
Y   t
( X t
X )
La solución está dada por:

 Cov( x, y )  
1   0  y  1 x
S x2

 
n

i
2 ( X t X )   X tY
i 1
 2 X t Y  2( X t X ) 


  (X X ) X Y
t 1 t
Las segundas derivadas de la función a minimizar, garantizan
el mínimo buscado.

El modelo de regresión lineal se puede utilizar para obtener


valores de la variable respuesta.

    
yi   0  1 xi YX
Diagrama de dispersión y regresión ajustada

Modelo de regresión lineal

100
90
80
70
y

60
50
40

3 4 5 6 7 8 9

x
Propiedades de los estimadores

Bajo los supuestos planteados se pueden evaluar y verificar


que los estimadores mínimo cuadrados, que coinciden con los
estimadores máximo verosímil de los parámetros del modelo,
son insesgados. También es posible verificar que éstos
estimadores poseen mínima varianza dentro de los
estimadores lineales insesgados de los parámetros.
Ejemplo

#Linear fit
fit1=lm(y~(x))
fit2=lm(y1~(x))
fit3=lm(y~(x1))
fit4=lm(y1~(x1))

#Info modelo
summary(fit1);summary(fit2);summary(fit3);summary(fit4)
Ejemplo

e1=residuals(fit1)
e2=residuals(fit2)
e3=residuals(fit3)
e4=residuals(fit4)

summary(e1);summary(e2);summary(e3);summary(e4)

var(e1);var(e2);var(e3);var(e4)
Inferencia respecto a los parámetros

Como resultado del supuesto probabilísticos y de las


propiedades de los estimadores, se tiene:
   1 x
2

0 ~ N  0 ,   
2

  n ( n  1) S 2

  x 
   2

1 ~ N  1 , 2 
 ( n  1) S x 
Con el objeto de eliminar el sesgo asociado, se considera el
estimador:

n
 1 
2  
n  2 i 1
( yi  y i ) 2
Otras cantidades de interés, (intervalos de confianza o
contraste de hipótesis) son:

Estimación de la media

Predicción de un valor particular de la variable respuesta


 Y / xp


Y / xp
Tabla de análisis de Varianza (ANDEVA - ANOVA)

La tabla de análisis de varianza (en regresión) descompone la


variabilidad total de la variable respuesta, entre lo explicado
por el modelo y lo no explicado por el modelo.

 
(Yi  Y )  (Y i  Y )  (Yi  Y i )
i  1,..., n
En resumen:

n n  n 
 (Y
i 1
i  Y )   (Y i  Y )   (Yi  Y i ) 2
2

i 1
2

i 1

SCT  SCR  SCE

Utilizando estas sumas se construye la tabla de análisis de


varianza (ANDEVA).
ANDEVA (ANOVA)

Fuente de Grados Sumas de Cuadrado Estadístico


variación de libertad Cuadrado Medio
Regresión p 1 SCR SCR
CMR  CMR
p 1
Residuos n p SCE SCE CME
CME 
n p
Total n 1 SCT
Bajo los supuestos probabilísticos considerados para el error,
la tabla de análisis de varianza, permite poner a prueba el
modelo propuesto para la respuesta media, que corresponde
a al siguiente contraste:

H 0 : 1  0
v/s H 0 : 1   2  ...   k  0
H 1 : 1  0
Valor-p (p-value)
Valor más pequeño de α, para el cual se espera rechazar la
hipótesis nula.

valor-p ≤ 0,01 Altamente significativo (***)

0,01<valor-p≤0,05 Muy significativo (**)

0,05<valor-p≤0,1 Significativo (*)

valor-p>0.1 No significativo (ns)


VALOR – p > 
No rechazo la hipótesis nula
A partir de la tabla de análisis de varianza, es posible
construir un indicador que permite analizar la capacidad
predictiva del modelo, que se conoce como: coeficiente de
determinación.

SCR
R2 
SCT

 n 1 
R 2
ajustado  1  (1  R )
2

 n  p 1
REGRESION

LOGISTICA
La idea consiste en establecer una relación funcional entre la
variable a explicar, y una o más variables explicativas (simple o
múltiple).

Yi  f ( X i ,  )   i
i  1,..., n
Las variables explicativas (variables independientes), de tipo
cualitativo o cuantitativo.

La variable a explicar (variable dependiente), de tipo categórica


binaria (caso más común), es decir solo tiene dos posibles
resultados: éxito y fracaso.
Ejemplo 1:
Éxito: el cliente cancela a tiempo.

Fracaso: el cliente no cancela a tiempo.

Ejemplo 2:
Éxito: el paciente no tiene la enfermedad.

Fracaso: el paciente tiene la enfermedad.


Ejemplo 1:

X: edad (años) 35 20 25 32 26 20 40 26 19 31 21 24 26 29 26 21

Y: tipo de cliente 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0

¿Modelo?

¿Qué sucede en términos reales?

69
########### MRLS
x=c(35,20,25,32,26,20,40,26,19,31,21,24,26,29,26,21)
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
cor.test(x,y)
fit=lm(y~x)
summary(fit)
confint(fit)

nuevas.edades=data.frame(edad = seq(19, 40))


predict(fit, nuevas.edades)
La Regresión Logística permite construir un modelo que permita
explicar la probabilidad de ocurrencia de un suceso en estudio
dado un conjunto de variables independientes.
Variable

Yi ~ b(ni , pi )
i  1,..., m

Ejemplo: proporción de clientes que no cancelan (pi) después


que (ni) reciben un crédito de consumo.
73
74
Se dispone de una muestra de observaciones formadas por:
(x1, y1), (x2, y2), …, (xn, yn)

xi  ( xi1 ,..., xik )


Función de verosimilitud:

n
L(  /( x1 , y1 ),..., ( xk , yk ))   p (1  pi )
i
yi 1 yi

i 1

pi  p( xi ;  )

76
Para realizar la estimación de la variable binaria (cualitativa),
se transforma la RL en Rlogística.

var iable original : y


transformación : ln( p /(1  p))

77
Posterior a la transformación se estiman los parámetros del
modelo y finalmente para encontrar los resultados se utiliza la
transformación exponencial.

ln( p /(1  p ))   0  1 xi

exp(  0  1 xi )
1  exp(  0  1 xi )

78
Modelo de Regresión Logística Binaria (Logit)

p( X 1 ,..., X k )  G (  0  1 X 1  ...   k X k )
X
e
G ( x) 
1 e X

79
Modelo de Regresión Logística Binaria (Logit)

1
P(Y  1 / x1 ,..., xk ) 
1  exp(   0  1 X 1  ...  X k )

80
Modelo de Regresión Logística Binaria (Logit)

Logit ( P(Y  1 / x1 ,..., xk ))  Logit ( P(Y  1 / x))


~
 P(Y  1 // x) 
 log  ~ 
 1  P(Y  1 // x) 
 ~ 
  0  1 x1  ..   k xk

81
Ejemplo:

Los estudiantes universitarios suelen recibir tarjetas de crédito


en los últimos años de estudio, sin embargo existe la sospecha
que estos no cancelen. El interés de cierto investigador:

1. Variable dependiente: tipo de cliente (Moroso =1, No


moroso =0).
2. Variable independiente: Edad (30 años o más=1, menores a
30 años =0).
¿Cuál es el modelo?
Data

x=c(0,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1)
Edad Cliente de cliente
(0) menores a 30 años
(1) 30 años o más

y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
Tipo de cliente
(0) No Moroso
(1) Moroso
Ejemplo

## ingreso de data
x=c(0,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1)
y=c(1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0)
## ver data
x;y
## ajustar modelo
modelo1=glm(y~x, family=binomial, data=data1)
## resumen del modelo
summary(modelo1)
Inferencia del modelo

log it ( pi )  0.9163  0.2231( Edad )

0.9163 0.2231( Edad )


e
P ( Moroso / Edad )  0.9163 0.2231( Edad )
1 e
Inferencia del modelo

e 0.91630.2231( Edad *0 )
P ( Moroso / Edad  0)  0.9163 0.2231( Edad *0 )
 0.7143
1 e

0.9163 0.2231( Edad *1)


e
P ( Moroso / Edad  1)  0.9163 0.2231( Edad *1)
 0.6667
1 e
Magnitud de la asociación entre la Morosidad (variable
dependiente) y la edad (factor de interés).

exp( 1 )

0.9163 0.2231( Edad )


e
P ( Moroso / Edad )  0.9163 0.2231( Edad )
1 e
Interpretación:

1.Función de enlace logit:

 p 
ln 
1 p 

Linealiza la relación entre la probabilidad y la componente


sistémica (predictor lineal).

89
2. Parámetros:
 Coeficiente positivo, aumento en posibilidad de
evento.
 Coeficiente negativo, disminución en posibilidad de
evento.

90

Вам также может понравиться