Вы находитесь на странице: 1из 27

Torturando a los datos para que nos

digan la verdad
Curso Taller Minera de Datos
Aplicaciones en Marketing
1
www.dataminingperu.com
Esquema del Curso Taller Data Mining
2
Herramientas:
- SPSS
- Excel
- SQL Server
- Rapid Miner
www.dataminingperu.com
Introduccin
Jonny Chambi Canahuire. MBA por la Universidad Peruana de Ciencias
Aplicadas. Master en Marketing y Gestin Comercial. Bachiller en Ingeniera
Estadstica por la Universidad Nacional de Ingeniera. Con experiencia en
ms de 8 aos en la construccin de modelos analticos para la gestin
Comercial.
Wilson Arias Huamani. Bachiller de Ingeniera Estadstica por la Universidad
Nacional de Ingeniera. Con experiencia en el desarrollo de modelos de
riesgo crediticio para entidades bancarias. Ha desarrollado su trabajo en
entidades como Banco Falabella, Banco Interbank y BBVA Banco
Continental.
3
I - Introduccin
Curso Taller Minera de Datos
Aplicaciones en Marketing
4
www.dataminingperu.com
Introduccin
5
Qu es Business Intelligence?
Conjunto de estrategias y herramientas enfocadas a la administracin y
creacin de conocimiento mediante el anlisis de datos existentes en la
organizacin o empresa.

6
Que es la Minera de Datos?
Consiste en la extraccin no trivial de informacin que reside de manera implcita en
los datos.
La minera de datos prepara, sondea y explora los datos para extraer la informacin
oculta en ellos.
Data mining is a multi-disciplinary field which combines statistics, machine learning,
artificial intelligence and database technology.

7
Que es Big Data?
8
Reportes
Estndar
Reportes
Ad Hoc
Query
Drill Down
Alertas
Anlisis
Estadstico
Pronostico
Modelado
Predictivo
Optimizacin
Grado de Inteligencia
V
a
l
o
r

a
l

N
e
g
o
c
i
o

Que paso?
Por qu Paso?
Qu va a pasar?
Cmo me preparo?
Niveles de Anlisis
9
Tipos de Anlisis
Para Explicar
el Pasado
Univariado
Bivariado
Categrico
Numrico
- Totales y Porcentajes
- Grficos: Barra y Pie
- Min, Max, Media, Mediana, Moda
- Rangos Intercuartilicos, Varianza,
Desviacin Estndar, Coeficiente de
Variacin
- Kurtosis y Asimetria
- Grficos: Histograma y Cajas (Boxplot)
Categrico Vs
Categrico
Numrico Vs
Numrico
Categrico Vs
Numrico
- Chi Cuadrado
- Grficos: Barras y de dos Ejes
- Correlacin
- Scatter Plot (Dispersin)
- Z Test, T Test, ANOVA
- Grficos: Barras y Lneas
10
Anlisis de Variables Nmericas
11
Univariate Analysis - Numerical
Estadstico Visualizacin Ecuacin Descripcin
Total Histograma N Nmero de observaciones de la variable
Mnimo Box Plot Min El menor valor de la variable
Mximo Box Plot Max El mximo valor de la variable
Media Box Plot La suma de todos los valores de la variable dividida entre la suma
Mediana Box Plot
El valor central. La mediana divide a la variable en dos partes iguales
por debajo y arriba de este valor.
Moda Histograma El valor ms frecuente de la variable. Puede ser no nico.
Cuantiles Box Plot
Conjunto de puntos de corte que dividen a la muestra en partes iguales
(Cuartiles, Quintiles, Percentiles)
Rango Box Plot Max-Min La diferencia entre el mximo y el mnimo
Varianza Histograma El indicador de la dispersin de la variable.
Desviacin Estandar Histograma La raz cuadrada de la Varianza. Se expresa en las mismas unidades .
Coeficiente de Variacin Histograma La dispersin expresada en funcin a la media.
Coef. de Asimtra Histograma
Sirve para identificar si una distribucin es asimetrca o no, con
respecto a la media.
Kurtosis Histograma
Estadstico que sirve para medir cuanto se asemeja a una distribucin
normal.
Tipos de Anlisis
Para Predecir
el Futuro
Clasificacin
Segmentacin
Arboles de
Decisin
Regresin
Logstica
Reglas de
Asociacin
SVM
Redes
Neuronales
Naive Baues
Aglomerativa
Divisiva
K-means
Estimacin
Regresin
Mltiple
12
Funciones o Tareas del DM
Clasificacin
Clasificar si un cliente desea adquirir una tarjeta de crdito o un producto especifico.
Se pueden clasificar en ms de dos niveles.
Estimacin
Predecir un valor no conocido y que sea de carcter continuo.
Ejemplo: Un estimador de Ingresos.
Prediccin
Estrictamente es la tarea de identificar un valor en el futuro.
Demanda de un producto, Estimacin de precios. Estimacin del valor de una accin en el mercado.
Clustering
Segmentacin. Se trata de dividir los registros en grupos heterogneos y que son homogeneos dentro de
los mismos.
Segmentacin por estilos de vida.
Asociacin
Conocido tambien como Market Basket Analysis. Consiste en encontrar registros que de forma natural se
les puede encontrar juntos. Estos puedes ser productos, transacciones, secuencias de operaciones, etc.
13
Minera de Datos Tareas: Clasificacin
14
Mtodos que permiten determinar la clase de un objeto previamente
definido.
Tcnicas
Estadstica,
Arboles de Decisin
Bayes
Redes Neuronales
Anlisis de Regresin
...
Como clasificar
una nueva
observacin?
X
Y
Clasificacin: Regresin Lineal
15
La regresin calcula
coeficiente wi para
minimizar el error
cuadrtico en el ajuste de
la ecuacin lineal.
No es lo suficientemente
flxible



w
0
+ w
1
x + w
2
y >= 0
X
Y
Tcnicas de Clasificacin: Arboles de Decisin
16
X
Y
5 2
3
Si X > 5 Entonces Azul
Sino Y > 3 Entonces Azul
Sino X > 2 Entonces Naranja
Sino Azul
Regla de Decisin
Clasificacin: Redes Neuronales
17
Se pueden elegir regiones ms
complejas.
Pueden ser ms precisas.
Sin embargo, puede
sobreajustar la data. Encontrar
patrones en data totalmente
aleatoria.
X
Y
Tareas del Data Mining: Clustering
18
El Objetivo es encontrar agrupaciones naturales sobre elementos no
clasificados.
X
Y
Aplicaciones de la Minera de Datos
Banca y Finanzas
Determinacin de Fraude con el uso de Tarjetas de Crdito
Generacin de Score de Riesgos para clientes morosos.
Determinacin del Gasto en Tarjetas de Crdito por Grupos

Retail
Analisis de Canasta
Segmentacin de Clientes
Propensin a la compra de Productos Estrella
Estimacin de Stocks
Telecomunicaciones
Establecimiento de Patrones de Llamadas
Modelo de Carga en Redes
Deteccin de Fraude
Seguros y Salud
Prediccin de clientes que contratan nuevas plizas
Identificacin de Comportamiento Fraudulento
Identificacin de patrones de comportamiento para clientes con riesgo.
19
Mejorar las campaas de marketing
para la venta de Tarjetas de Crdito.
Problema de Negocio
Mejorar la gestin de los clientes en
base al uso del producto.
Identificar los clientes con mayor
valor potencial.
Evitar la cancelacin de los mejores
clientes.
Mejorar los ratios de mora de los
clientes de tarjeta de crdito.
Generar un modelo de propensin
para la compra.
Modelo de segmentacin por uso.
Generar un modelo de Valor de
cliente. Segmentacin por valor.
Generar un modelo de Churn o de
fuga de clientes.
Generar un modelo de riesgo
crediticio.
Problema de Minera de Datos
Ejemplos de Minera de Datos
20
Herramientas
Comerciales
Open Source
http://www.r-project.org/
http://www.cs.waikato.ac.nz/ml/weka/
http://rapid-i.com/
http://orange.biolab.si/
21
Herramientas ms Utilizadas de Data Mining
22
Fuente: 5th Annual Data Miner Survey www.rexeranalytics.com
Diferencias entre las Herramientas
23
Fuente: 5th Annual Data Miner Survey www.rexeranalytics.com
Que se requiere para tener xito en minera de
Datos?
24
Experiencia en
Tema o negocio
Datos
Modelos
Analticos
Transformar los Datos
Actuar
Medir los resultados
Identificar
En informacin accionable
usando tcnicas de MD
Con la informacin disponible
Sobre los esfuerzos, para
completar el ciclo de
aprendizaje.
Las oportunidades de negocio,
donde el anlisis de los datos
puede proporcionar valor.
El virtuoso ciclo de la Minera de Datos
25
www.dataminingperu.com
Consultas
Realiza una Consulta
26
Contacto
@jonnychambi
facebook/jonny.chambi
linkedin.com/in/jonnychambi
jchambi@dataminingperu.com
27

Вам также может понравиться