04-IA-Introducción A Sistemas Inteligentes (SE) - 4

Inteligencia Artificial
Introduccin al Aprendizaje de
Mquinas
CLUSTERING
Prof. Dr. Csar A. Beltrn Castan
cbeltran@pucp.pe
Contenido
Introduccin
Clusterizacin por K-medias
Clusterizacin jerrquica
Clasificacin vs. Clustering

Clasificacin:
Aprendizaje
supervisado:
Aprende un mtodo
para predecir la
clase de la
instancia a partir
de instancias predefinidas
(clasificadas)
Clustering
Aprendizaje no supervizado:
Encuentra el agrupamiento
natural de las instancias
dada informacin no
etiquetada
Mtodos de Clustering
Varios distintos mtodos y algoritmos:
Para informacin numrica y/o simblica

Deterministica vs. probabilistica
Exclusiva vs. overlapping
Jerrquica vs. plana
Top-down vs. bottom-up
Clusters:
exclusivo vs. overlapping
Representacin Simple
2-D Non-overlapping
Diagrama de
Venn
Overlapping
d
j
k
g
c
h
i
j
k
g
c
h
i
Evaluacin de Clustering
Inspeccin manual
Benchmarking sobre etiquetas existentes
Medida de la calidad del Cluster
Medida de distancias
Alta similaridad dentro de un cluster, baja
entre clusters (intra-especfica, interespecfica)
Funcin distancia
Caso simple: un atributo numrico A
Distancia(X,Y) = A(X) A(Y)
Varios atributos numricos:

Distancia(X,Y) = Distancia Euclideana
entre X,Y
Atributos Nominales: la distancia es 1 si

los valores son diferentes, 0 si son
iguales
Distancia Mahalanobis? Lleva en
consideracin la distribucin de los datos
Simple Clustering: KTrabaja solo con datos numricosmedias

1) Define un nmero (K) de pivots (centros
de cluster) puede ser aleatoriamente
2) Asignar cada item a su pivot ms
cercano (ejm. Usando distancia
Euclideana)
3) Mover el pivot a la media de sus items
asignados
4) Repetir pasos 2,3 hasta convergir
(cambios en pivots son mnimos)
K-means ejemplo, paso 1
k1
Y
Defina 3
pivots
Iniciales, centros
de cluster
(aleatoriamente)
k2
k3
X
k1
Y
Asignar cada
punto al
pivot ms
cercano
k2
k3
X
k1
k1
Y
Mover cada
pivot a la
media de
cada cluster
k2
k3
k2
k3
X
Reasignar los
puntos al nuevo
pivot ms
cercano
Q: Qu puntos
fueron
reasignados?
k1
Y
k3
k2
k1
Y
A: tres
puntos con
animacin
k3
k2
K-means ejemplo, paso 4b
k1
Y
re-calcular
la media de
los clusters
k3
k2
k1
Y
Mover pivots
a la media
de cada
cluster
k2
k3
Discusin, 1
Cules pueden ser los problemas con
clustering por K-medias?
Discusin, 2
Los resultados pueden variar
significativamente dependiendo de la eleccin
inicial de las semillas (nmero y ubicacin)
Se puede entrampar en mnimos locales
Ejemplo:
initial
cluster
centers
instances
Q: Qu se puede hacer?
Discusin, 3
A: para incrementear la chace de
encontrar un optimo global:
reinicie con diferentes semillas
aleatoriamente.
Resumen de K-means
clustering
Ventajas
Simple, entendible
Items asignados
automticamente a los
clusters
Desventajas
Se debe definir
previamente en forma
manual el nmero de
clusters
Todos los items son
forzados a estar en un
cluster
Muy sensible a outliers
K-medias clustering outliers ?

Qu hacer con los outliers?
Variacin de K-medias
K-medianas en vez de media, use la
mediana de cada cluster
Media de 1, 3, 5, 7, 95 es
205es
Media de 1, 3, 5, 7, 1009
Mediana de 1, 3, 5, 7, 1009
5 es
Ventaja de mediana: no es afectada por
valores extremos
Para grandes bases de datos, use

muestreo
Clustering jerrquico
Bottom up
Comienza con clusters de simples instancias

En cada paso, une los dos clusters ms prximos
Decisin de diseo: clusters entre distancias
Top down
Comienza con un cluster universal

Encuentra dos clusters
Procede recursivamente en cada subconjunto
Puede ser muy rpido
Ambos mtodos producen un

dendrograma
g a c i e d k b j f h
Caso de Estudio
20
g2
v4
18
16
v6
14
12
Tipo B
10
Espacio de
caractersticas
Tipo A
8
6
v2
v1
Clases
v3
2
0
v5
10
12
14
16
18
20
g1
Caso de Estudio:
Clustering
Input
Output
20
20
18
18
16
16
14
12
14
12
10
10
10
12
14
16
18
20
10
12
14
16
Conjunto de entrenamiento
Clases del espacio
de caractersticas
con ejemplos no
identificados
Clasificacin no supervisada:
algoritmo de clusterizacin
18
20
Caso de Estudio: Algoritmo

Linkage
20
18
16
14
12
10
8
6
4
2
0
10
12
14
16
18
20
Caso de Estudio: Algoritmo

Linkage
v2
20
18
v1
16
14
12
v3
10
8
v6
6
4
2
0
10
12
14
16
18
20
Dendrograma
v4
v5
Otros enfoques de
EM clustering basado en clustering
probabilidad
Clustering Bayesiano
SOM self-organizing maps
Discusin
Se puede interpretar cluster mediante el uso de
aprendizaje supervisado
Aprenda un clasificador basado en clusters
Disminuya la dependencia entre atributos?
Paso de pre-procesamiento
Ejm. use anlisis de componentes principales
Puede ser usado para llenar valores perdidos

Ventaja clave del clustering probabilstico:
Se puede estimar la verosemejanza de la informacin

selo para comparar distintos mtodos objetivamente
Ejemplos de aplicacin de
Clustering
Marketing: descubrir grupos de clientes y
usarlos para un marketing dirigido y
reorganizacin
Astronoma: encuentra grupos de
estrellas y galaxias similares
Genoma: encuentra grupos de genes con
expresin similar
Clustering Resumen
No supervisado
Varios enfoques
K-medias simple, muchas veces til
K-medianas es menos sensible a outliers
Clustering jerrquico trabaja para

atributos simblicos
La evaluacin es un problema

04-IA-Introducción A Sistemas Inteligentes (SE) - 4

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

04-IA-Introducción A Sistemas Inteligentes (SE) - 4

Загружено:

Авторское право:

Доступные форматы

Inteligencia Artificial

Clasificacin vs. Clustering

Para informacin numrica y/o simblica

Varios atributos numricos:

Atributos Nominales: la distancia es 1 si

Simple Clustering: KTrabaja solo con datos numricosmedias

K-means ejemplo, paso 1

K-means ejemplo, paso 2

K-means ejemplo, paso 3

K-means ejemplo, paso 4

K-means ejemplo, paso 4

K-means ejemplo, paso 4b

K-means ejemplo, paso 5

K-medias clustering outliers ?

Para grandes bases de datos, use

Comienza con clusters de simples instancias

Comienza con un cluster universal

Ambos mtodos producen un

Caso de Estudio: Algoritmo

Caso de Estudio: Algoritmo

Aprenda un clasificador basado en clusters

Disminuya la dependencia entre atributos?

Puede ser usado para llenar valores perdidos

Se puede estimar la verosemejanza de la informacin

Clustering jerrquico trabaja para

Вам также может понравиться