Вы находитесь на странице: 1из 31

Inteligencia Artificial

Introduccin al Aprendizaje de
Mquinas
CLUSTERING
Prof. Dr. Csar A. Beltrn Castan
cbeltran@pucp.pe

Contenido
Introduccin
Clusterizacin por K-medias
Clusterizacin jerrquica

Clasificacin vs. Clustering


Clasificacin:
Aprendizaje
supervisado:
Aprende un mtodo
para predecir la
clase de la
instancia a partir
de instancias predefinidas
(clasificadas)

Clustering
Aprendizaje no supervizado:
Encuentra el agrupamiento
natural de las instancias
dada informacin no
etiquetada

Mtodos de Clustering
Varios distintos mtodos y algoritmos:

Para informacin numrica y/o simblica


Deterministica vs. probabilistica
Exclusiva vs. overlapping
Jerrquica vs. plana
Top-down vs. bottom-up

Clusters:
exclusivo vs. overlapping

Representacin Simple
2-D Non-overlapping

Diagrama de
Venn
Overlapping
d

j
k
g

c
h
i

j
k
g

c
h
i

Evaluacin de Clustering

Inspeccin manual
Benchmarking sobre etiquetas existentes
Medida de la calidad del Cluster
Medida de distancias
Alta similaridad dentro de un cluster, baja
entre clusters (intra-especfica, interespecfica)

Funcin distancia
Caso simple: un atributo numrico A
Distancia(X,Y) = A(X) A(Y)

Varios atributos numricos:


Distancia(X,Y) = Distancia Euclideana
entre X,Y

Atributos Nominales: la distancia es 1 si


los valores son diferentes, 0 si son
iguales
Distancia Mahalanobis? Lleva en
consideracin la distribucin de los datos

Simple Clustering: KTrabaja solo con datos numricosmedias


1) Define un nmero (K) de pivots (centros
de cluster) puede ser aleatoriamente
2) Asignar cada item a su pivot ms
cercano (ejm. Usando distancia
Euclideana)
3) Mover el pivot a la media de sus items
asignados
4) Repetir pasos 2,3 hasta convergir
(cambios en pivots son mnimos)

K-means ejemplo, paso 1

k1
Y
Defina 3
pivots
Iniciales, centros
de cluster
(aleatoriamente)

k2

k3
X

K-means ejemplo, paso 2

k1
Y
Asignar cada
punto al
pivot ms
cercano

k2

k3
X

K-means ejemplo, paso 3

k1

k1

Y
Mover cada
pivot a la
media de
cada cluster

k2
k3

k2
k3
X

K-means ejemplo, paso 4

Reasignar los
puntos al nuevo
pivot ms
cercano
Q: Qu puntos
fueron
reasignados?

k1

Y
k3

k2

K-means ejemplo, paso 4

k1
Y
A: tres
puntos con
animacin

k3

k2

K-means ejemplo, paso 4b

k1
Y
re-calcular
la media de
los clusters

k3

k2

K-means ejemplo, paso 5

k1
Y

Mover pivots
a la media
de cada
cluster

k2
k3

Discusin, 1
Cules pueden ser los problemas con
clustering por K-medias?

Discusin, 2
Los resultados pueden variar
significativamente dependiendo de la eleccin
inicial de las semillas (nmero y ubicacin)
Se puede entrampar en mnimos locales

Ejemplo:

initial
cluster
centers

instances

Q: Qu se puede hacer?

Discusin, 3
A: para incrementear la chace de
encontrar un optimo global:
reinicie con diferentes semillas
aleatoriamente.

Resumen de K-means
clustering
Ventajas
Simple, entendible
Items asignados
automticamente a los
clusters

Desventajas
Se debe definir
previamente en forma
manual el nmero de
clusters
Todos los items son
forzados a estar en un
cluster
Muy sensible a outliers

K-medias clustering outliers ?


Qu hacer con los outliers?

Variacin de K-medias
K-medianas en vez de media, use la
mediana de cada cluster

Media de 1, 3, 5, 7, 95 es
205es
Media de 1, 3, 5, 7, 1009
Mediana de 1, 3, 5, 7, 1009
5 es
Ventaja de mediana: no es afectada por
valores extremos

Para grandes bases de datos, use


muestreo

Clustering jerrquico

Bottom up

Comienza con clusters de simples instancias


En cada paso, une los dos clusters ms prximos
Decisin de diseo: clusters entre distancias

Top down

Comienza con un cluster universal


Encuentra dos clusters
Procede recursivamente en cada subconjunto
Puede ser muy rpido

Ambos mtodos producen un


dendrograma

g a c i e d k b j f h

Caso de Estudio
20

g2

v4

18
16

v6

14
12

Tipo B

10

Espacio de
caractersticas

Tipo A

8
6

v2

v1

Clases
v3

2
0

v5

10

12

14

16

18

20

g1

Caso de Estudio:
Clustering
Input

Output

20

20

18

18

16

16

14
12

14
12

10

10

10

12

14

16

18

20

10

12

14

16

Conjunto de entrenamiento
Clases del espacio
de caractersticas
con ejemplos no
identificados
Clasificacin no supervisada:
algoritmo de clusterizacin

18

20

Caso de Estudio: Algoritmo


Linkage
20
18
16
14
12
10
8
6
4
2
0

10

12

14

16

18

20

Caso de Estudio: Algoritmo


Linkage
v2

20
18

v1

16
14
12

v3

10
8

v6

6
4
2
0

10

12

14

16

18

20

Dendrograma

v4
v5

Otros enfoques de
EM clustering basado en clustering
probabilidad

Clustering Bayesiano
SOM self-organizing maps

Discusin
Se puede interpretar cluster mediante el uso de
aprendizaje supervisado

Aprenda un clasificador basado en clusters

Disminuya la dependencia entre atributos?

Paso de pre-procesamiento
Ejm. use anlisis de componentes principales

Puede ser usado para llenar valores perdidos


Ventaja clave del clustering probabilstico:

Se puede estimar la verosemejanza de la informacin


selo para comparar distintos mtodos objetivamente

Ejemplos de aplicacin de
Clustering
Marketing: descubrir grupos de clientes y
usarlos para un marketing dirigido y
reorganizacin
Astronoma: encuentra grupos de
estrellas y galaxias similares
Genoma: encuentra grupos de genes con
expresin similar

Clustering Resumen
No supervisado
Varios enfoques
K-medias simple, muchas veces til
K-medianas es menos sensible a outliers

Clustering jerrquico trabaja para


atributos simblicos

La evaluacin es un problema

Вам также может понравиться