Segmentacion Machine Learning

Segmentacin
MBA
Universidad ICESI, Febrero 5 de 2016
Carlos Ignacio Patio F.
Control de Lectura
Defina, en sus propias palabras,
el trmino segmentacin
Qu es una medida de
similitud?
Segmentacin Estratgica
Empleada de manera usual para segmentar clientes,
unidades de negocio, puntos de venta, proveedores,

empleados
Simple; basada en uno o pocos factores al tiempo
(geografa, ventas, referencias, tecnologa, funciones,

etc)
til para la gestin de operaciones
Segmentacin Natural
Surge a partir del anlisis de mltiples dimensiones de
manera simultnea
Separacin natural entre grupos de unidades de anlisis
Clustering: Permite agrupar clientes (o cualquier otra unidad
de inters) en grupos homogneos tales que sus miembros

son similares en trminos de demografa y comportamiento,
mientras que unidades en diferentes clusters son diferentes
entre si
Proceso para Clustering

Definicin
de unidad
analtica a
segmentar
Variables
Similaridad
Mtodo
Nmero de
k
Perfilar y
evaluar
Refinar?
Variables para la segmentacin

Beneficios (qu buscan los clientes en los
productos?) encuestas
Variables
Psicogrficas
Demogrficas
Geogrficas
Comportamiento (transaccionales)
Competitivas (SoW)
Valor (Lifetime Value, etc)
Medidas de Similaridad
Similaridad
Hamming
Atributo 2
Euclideana
B:
(2,3)
C:
(5,3)
Manhattan
Similaridad Coseno
A:
(1,1)
Atributo 1
Distancia Euclideana
Si los valores son reales, se
emplea la Distancia Euclideana:

D(xi, xj)
=|| x i - x j ||
Ak
( v ik v jk )2
Ejemplo
Ejemplo 1 (MPG dataset, 3 real-valued input attributes)
Car 1: weight = 2500, displacement = 250, horsepower = 100
Cul carro es ms similar al carro 1?

D(x1, x2) = (2500 3000)2 + (250 150)2 + (100 150)2 512
D(x1, x3) = (2500 3050)2 + (250 250)2 + (100 100)2 = 550
Ejemplo, normalizando valores

Ejemplo 2 (MPG dataset, 3 scaled real-valued input attributes)
Car 1: weight = -0.20, displacement = 0.32, horsepower = -0.51
Car 2: weight = 0.75, displacement = -0.90, horsepower = -0.19
Car 3: weight = 0.84, displacement = 0.32, horsepower = -0.51
El peso en el carro 3 est
0.84 desviaciones estndar
por encima del peso medio
para todo el dataset.
El carro 3 es ahora el ms cercano

al carro 1:
D(x1, x2) = 1.58
D(x1, x3) = 1.04
Distancia Hamming
Si los valores son discretos, se emplea la
Distancia Hamming:
D(xi, xj) = # de atributos para los cuales x i y xj
son diferentes
Distancia Manhattan
City Block: esta medida mide la
distancia en el nmero de unidades

horizontales y verticales que toma
llegar de un punto (real) a otro (no
permite movimientos diagonales)
Mtodos
Jerrquico
Generan una estructura de tipo arbol a travs de la fusin serial de

clusters (mtodo aglomerativo)
No
Jerrquico
Dependen de la seleccin del nmero de clusters por parte del

usuario
Mtodo Aglomerativo para Clustering

Jerrquico
Inicia con n segmentos (donde n es el nmero de
observaciones)
Produce una solucin con n-1 segmentos, al combinar
los segmentos ms cercanos

Itera sobre el paso anterior (n-2, ) hasta que todas
las observaciones han sido asignadas a un solo

segmento
Ejemplo
14 registros
2 atributos reales
Distancia: Euclidean
Ejemplo
(1 fusin)
Ejemplo
(2 fusiones)
Ejemplo
(6 fusiones)
Ejemplo
(7 fusiones)
Ejemplo
(8 fusiones)
Ejemplo
(9 fusiones)
Ejemplo
(9 fusiones)
Ejemplo
(10 fusiones)
Ejemplo
(11 fusiones)
Ejemplo
(12 fusiones)
Ejemplo
Fin!
Mtodo K-Medias
Especificar nmero k de segmentos (usuario)
Seleccin aleatoria de k centros (unidades analticas)
El resto de las observaciones se asignan al centro ms cercano
Clculo de nuevos centros (promedios para cada variable en cada cluster)
Reasignar instancias de acuerdo a la distancia frente a los nuevos centros
ITERAR y PARAR cuando no ocurran reasignaciones
K-means
1. Seleccione k
Gracias a Andrew Moore y Daniel Neill por este ejemplo
K-means
1. Seleccione k
2. Seleccione centros
de manera aleatoria
K-means
1. Seleccione k
de manera aleatoria
3. Cada instancia
busca su centro
ms cercano
K-means
1. Seleccione k
de manera aleatoria
3. Cada instancia
busca su centro
ms cercano
4. Cada centro es
recalculado
teniendo en las
instancias en el
segmento
K-means
1. Seleccione k
de manera aleatoria
3. Cada instancia
busca su centro
ms cercano
4. Cada centro es
recalculado
teniendo
las
Repetir
3 y 4en
hasta
instancias
en el
que
haya
segmento
convergencia
Nmero de Segmentos, k
La parte ms difcil
Subjetividad es importante
Tradeof entre significado gerencial y costo de
implementacin
Alternativas formales
Interpretacin de Resultados
Perfilamiento
Fue correcto el nmero de clusters?
Es necesario incluir variables adicionales?
Es necesario probar un mtodo diferente?
Ejemplo:
Caso de estudio interpretacin de segmentacin

Segmentacion Machine Learning

Загружено:

Сведения о документе

Исходное описание:

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Segmentacion Machine Learning

Загружено:

Авторское право:

Доступные форматы

Segmentacin

unidades de negocio, puntos de venta, proveedores,

(geografa, ventas, referencias, tecnologa, funciones,

de inters) en grupos homogneos tales que sus miembros

Proceso para Clustering

Variables para la segmentacin

emplea la Distancia Euclideana:

Cul carro es ms similar al carro 1?

Ejemplo, normalizando valores

El carro 3 es ahora el ms cercano

distancia en el nmero de unidades

Generan una estructura de tipo arbol a travs de la fusin serial de

Dependen de la seleccin del nmero de clusters por parte del

Mtodo Aglomerativo para Clustering

los segmentos ms cercanos

las observaciones han sido asignadas a un solo

Gracias a Andrew Moore y Daniel Neill por este ejemplo

Gracias a Andrew Moore y Daniel Neill por este ejemplo

Gracias a Andrew Moore y Daniel Neill por este ejemplo

Gracias a Andrew Moore y Daniel Neill por este ejemplo

Gracias a Andrew Moore y Daniel Neill por este ejemplo

Caso de estudio interpretacin de segmentacin

Вам также может понравиться