Академический Документы
Профессиональный Документы
Культура Документы
Introduccin al Aprendizaje de
Mquinas
CLUSTERING
Prof. Dr. Csar A. Beltrn Castan
cbeltran@pucp.pe
Contenido
Introduccin
Clusterizacin por K-medias
Clusterizacin jerrquica
Clustering
Aprendizaje no supervizado:
Encuentra el agrupamiento
natural de las instancias
dada informacin no
etiquetada
Mtodos de Clustering
Varios distintos mtodos y algoritmos:
Clusters:
exclusivo vs. overlapping
Representacin Simple
2-D Non-overlapping
Diagrama de
Venn
Overlapping
d
j
k
g
c
h
i
j
k
g
c
h
i
Evaluacin de Clustering
Inspeccin manual
Benchmarking sobre etiquetas existentes
Medida de la calidad del Cluster
Medida de distancias
Alta similaridad dentro de un cluster, baja
entre clusters (intra-especfica, interespecfica)
Funcin distancia
Caso simple: un atributo numrico A
Distancia(X,Y) = A(X) A(Y)
k1
Y
Defina 3
pivots
Iniciales, centros
de cluster
(aleatoriamente)
k2
k3
X
k1
Y
Asignar cada
punto al
pivot ms
cercano
k2
k3
X
k1
k1
Y
Mover cada
pivot a la
media de
cada cluster
k2
k3
k2
k3
X
Reasignar los
puntos al nuevo
pivot ms
cercano
Q: Qu puntos
fueron
reasignados?
k1
Y
k3
k2
k1
Y
A: tres
puntos con
animacin
k3
k2
k1
Y
re-calcular
la media de
los clusters
k3
k2
k1
Y
Mover pivots
a la media
de cada
cluster
k2
k3
Discusin, 1
Cules pueden ser los problemas con
clustering por K-medias?
Discusin, 2
Los resultados pueden variar
significativamente dependiendo de la eleccin
inicial de las semillas (nmero y ubicacin)
Se puede entrampar en mnimos locales
Ejemplo:
initial
cluster
centers
instances
Q: Qu se puede hacer?
Discusin, 3
A: para incrementear la chace de
encontrar un optimo global:
reinicie con diferentes semillas
aleatoriamente.
Resumen de K-means
clustering
Ventajas
Simple, entendible
Items asignados
automticamente a los
clusters
Desventajas
Se debe definir
previamente en forma
manual el nmero de
clusters
Todos los items son
forzados a estar en un
cluster
Muy sensible a outliers
Variacin de K-medias
K-medianas en vez de media, use la
mediana de cada cluster
Media de 1, 3, 5, 7, 95 es
205es
Media de 1, 3, 5, 7, 1009
Mediana de 1, 3, 5, 7, 1009
5 es
Ventaja de mediana: no es afectada por
valores extremos
Clustering jerrquico
Bottom up
Top down
g a c i e d k b j f h
Caso de Estudio
20
g2
v4
18
16
v6
14
12
Tipo B
10
Espacio de
caractersticas
Tipo A
8
6
v2
v1
Clases
v3
2
0
v5
10
12
14
16
18
20
g1
Caso de Estudio:
Clustering
Input
Output
20
20
18
18
16
16
14
12
14
12
10
10
10
12
14
16
18
20
10
12
14
16
Conjunto de entrenamiento
Clases del espacio
de caractersticas
con ejemplos no
identificados
Clasificacin no supervisada:
algoritmo de clusterizacin
18
20
10
12
14
16
18
20
20
18
v1
16
14
12
v3
10
8
v6
6
4
2
0
10
12
14
16
18
20
Dendrograma
v4
v5
Otros enfoques de
EM clustering basado en clustering
probabilidad
Clustering Bayesiano
SOM self-organizing maps
Discusin
Se puede interpretar cluster mediante el uso de
aprendizaje supervisado
Paso de pre-procesamiento
Ejm. use anlisis de componentes principales
Ejemplos de aplicacin de
Clustering
Marketing: descubrir grupos de clientes y
usarlos para un marketing dirigido y
reorganizacin
Astronoma: encuentra grupos de
estrellas y galaxias similares
Genoma: encuentra grupos de genes con
expresin similar
Clustering Resumen
No supervisado
Varios enfoques
K-medias simple, muchas veces til
K-medianas es menos sensible a outliers
La evaluacin es un problema