Вы находитесь на странице: 1из 17

Resumo da Aula

Clusterizao ou
Agrupamento de Dados

Clusterizao ou anlise de agrupamentos:




Stanley R. M. Oliveira

Conceitos bsicos e aplicaes.

Tipos de dados em clusterizao.

Avaliando a qualidade de clusters gerados.

Similaridade entre objetos.

Mtodos de Clusterizao:


Particionamento;

Hierrquico;

Baseado em densidade.

Outros.

MT803 Tpicos em Matemtica Aplicada Aula 6

O que anlise de agrupamentos?




Cluster: uma coleo de objetos





Classificao supervisionada


Agrupamento de conjuntos de dados em clusters.




O agrupamento o resultado de uma especificao


externa.

Particionamento de um Grafo


MT803 Tpicos em Matemtica Aplicada Aula 6

Diviso de estudantes em diferentes grupos, registrados


em ordem alfabtica, pelo ltimo nome.

Resultados de uma Consulta




Clusterizao uma classificao no


supervisionada: sem classes predefinidas.

Possui atributo meta com informao (classes).

Segmentao Simples


Clusterizao


O que no Clusterizao?


Similares aos objetos do mesmo cluster


Dissimilares aos objetos de outros clusters

Os agrupamento pode ter sinergia ou relevncia, mas as


reas no so idnticas.

MT803 Tpicos em Matemtica Aplicada Aula 6

A noo de um cluster pode ser ambgua

Aplicaes gerais de clusterizao




Reconhecimento de padres.

Anlise de dados espaciais:




Quantos clusters?

Dois Clusters

Seis Clusters

Outros exemplos de aplicaes




Agrupamento de pacientes c/ mesmos sintomas

Marketing e business: segmentao de mercado

Web:

Quatro Clusters

MT803 Tpicos em Matemtica Aplicada Aula 6

Classificao de documentos.

Anlise de Weblog para descobrir grupos de padres de


acessos similares.

MT803 Tpicos em Matemtica Aplicada Aula 6

O que uma boa clusterizao?

Marketing: identifica grupos distintos de clientes


til para desenvolver programas de marketing.

Uso da terra: Identifica reas usadas com o mesmo


propsito em um DB com observaes da terra.

Seguro: Identifica grupos de clientes que fazem


comunicao de sinistro com alta freqncia.
Planejamento (cidade): Identifica grupos de casas
de acordo com o tipo, valor e localizao geogrfica.

MT803 Tpicos em Matemtica Aplicada Aula 6

Criao de mapas temticos em GIS por meio de


agrupamento de caractersticas espaciais

Uma boa clusterizao sempre produz clusters com:




Alta similaridade nas classes (grupos).

Baixa similaridade entre as classes (grupos).

A qualidade dos resultados depende do(a):




Medida de similaridade usada.

Mtodo e sua implementao.

A qualidade do mtodo de clusterizao tambm


medida pela sua habilidade de descobrir alguns ou
todos os padres escondidos.

MT803 Tpicos em Matemtica Aplicada Aula 6

Clusterizao: Requisitos em Minerao




Escalabilidade.

Habilidade para lidar com diferentes tipos de atributos.

Habilidade para lidar com dados dinmicos.

Descoberta de clusters com diferentes formatos (shapes).

Necessidade mnima de conhecimento do domnio para


determinar parmetros de entrada (input).

Habilidade de trabalhar com rudos e outliers.

Insensibilidade com relao nmero de registros de entrada.

Alta dimensionalidade.

Incorporao de restries definidas por usurios.

Interpretabilidade e usabilidade.

MT803 Tpicos em Matemtica Aplicada Aula 6

Tipos de dados em clusterizao ...




Variveis numricas:



Possuem somente dois estados: 0 ou 1.

Generalizao de variveis binrias.


Ex: Cores (azul, amarelo, verde, vermelho, etc).

Variveis composta de vrios tipos (mistura)

MT803 Tpicos em Matemtica Aplicada Aula 6

Matriz de distncias

x 1f

...

...
...

...
x if

...
...

...

...

...

...

x nf

...

0
d ( 3,2 )

:
d ( n ,2 )

:
...

x 1p

...
x ip

...
x np

... 0

10

A similaridade entre dois objetos i e j expressa em


termos de distncia: d(i, j).

Para cada tipo de varivel, existe uma funo para


clculo de distncia.

Existe uma funo de qualidade que mede a eficcia


de um cluster.

Pesos podem ser associados com diferentes variveis


dependendo da aplicao.

difcil definir similaridade ou eficcia de um cluster ?




11

0
d(2,1)

d(3,1 )

:
d ( n ,1)

...

Avaliando a qualidade de clusters

Variveis nominais:


Podem ser reais ou inteiras.


Ex: temperatura, latitude, longitude, altura, peso, etc.

Matriz de dados

x 11

...
x
i1
...
x
n1

MT803 Tpicos em Matemtica Aplicada Aula 6

Variveis binrias:


Tipos de dados em clusterizao

A resposta tipicamente subjetiva.

MT803 Tpicos em Matemtica Aplicada Aula 6

12

Normalizao de variveis numricas




Normalizao variveis com mesmo peso.




Min-Max para um atributo f:


S
if

Exerccio 1

xif min f
max f min f

Z-score zif =

1. Selecionar o dataset iris;

(novoMax novoMin ) + novoMin


f

2. Normalizar atributos usando Min-max;

3. Normalizar atributos usando Z-score;

xif m f

Usando o software Weka:

4. Selecionar o dataset segment-challenge e


aplicar Min-Max e Z-score para normalizar os seus
atributos.

Desvio absoluto mdio

s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
Onde: m f = 1n (x1 f + x2 f

+ ... +

xnf )

MT803 Tpicos em Matemtica Aplicada Aula 6

13

Similaridade entre variveis numricas




Distncias so geralmente usadas para medir a


similaridade ou dissimilaridade entre objetos.

Quando q = 2, d a distncia Euclidiana:


d (i, j) = (| x x |2 + | x x |2 +...+ | x x |2 )
i1 j1
i2 j 2
ip jp

Exemplos incluem: a distncia de Minkowski:




onde i = (xi1, xi2, , xip) e j = (xj1, xj2, , xjp) so dois objetos


p-dimensional e q um inteiro positivo

Quando q = 1, d a distncia de Manhattan


d (i, j) =| x x | + | x x | +...+ | x x |
i1 j1
i2 j 2
ip jp

MT803 Tpicos em Matemtica Aplicada Aula 6

14

Similaridade entre variveis numricas




d (i, j) = q (| x x |q + | x x |q +...+ | x x |q )
i1 j1
i2 j 2
ip jp

MT803 Tpicos em Matemtica Aplicada Aula 6

Propriedades:


d(i,j) 0

d(i,i) = 0

d(i,j) = d(j,i)

d(i,j) d(i,k) + d(k,j)

Qual a distncia Euclidiana e de Manhattan para os


pontos: A=(7,9) e B=(4,5) ?
15

MT803 Tpicos em Matemtica Aplicada Aula 6

16

Exerccio 2

Similaridade entre variveis binrias

1. Dados os pontos P = (-1, 3, -2); Q = (-4, 5, -2);


R = (4, -1, 0); S = (7, 0, 1), pede-se:

Tabela de contingncia para variveis binrias:


Objeto j

1
0

a) O centride dos pontos P, Q, R, S.


Objeto i

b) As distncias Euclidiana e de Manhattan entre


os pontos PQ, RS e QS.

Exemplo:
Nome
Jack
Mary
Jim

Sexo
M
F
M

Febre Tosse
Y
N
Y
N
Y
P

Test-1 Test-2 Test-3 Test-4


P
N
N
N
P
N
P
N
N
N
N
N




0 +1
= 0 . 33
2 + 0 +1
1+1
= 0 . 67
d ( Jack , Jim ) =
1+1+1
1+ 2
( Jim Mary)
, Mary = ?
) =
d (Jim,
= 0 . 75
d
1+1+ 2
MT803 Tpicos em Matemtica Aplicada Aula 6

) =

b+c
a+b+c+d
b+c
a+b+c
18

Uma generalizao da varivel binria que ela pode ter


mais de 2 estados (Ex: vermelho, amarelo, azul, verde).

Mtodo 1: Simple matching


m: nmero de matches, p: nmero total de variveis

d (i, j) = p pm


Mtodo 2: uso de um grande nmero de variveis binrias




19

a +b
c+d

Similaridade para variveis nominais

Sexo um atributo simtrico.


Os demais atributos so assimtricos.
Suponha que os valores Y e P representam 1, e o valor N representa 0
d ( Jack , Mary

b
d

MT803 Tpicos em Matemtica Aplicada Aula 6




a
c

Coeficiente de Jaccard - varivel assimtrica:


d (i, j ) =

Similaridade entre variveis binrias

sum

Similaridade invariante - varivel simtrica (ex: sexo):


d (i, j ) =

17

sum a + c b + d


MT803 Tpicos em Matemtica Aplicada Aula 6

Cria-se uma varivel binria para cada um dos M estados


nominais.

MT803 Tpicos em Matemtica Aplicada Aula 6

20

Variveis intervalares


Similaridade para variveis ordinais

Permitem no apenas ordenar em postos os itens


que esto sendo medidos, mas tambm quantificar
e comparar o tamanho das diferenas entre eles.

Uma varivel ordinal pode ser discreta ou contnua.

A ordem importante (Exemplo: ranqueamento).

Podem ser tratadas como variveis intervalares.

Exemplo: temperatura medida em graus Celsius


constitui uma varivel intervalar.
Pode-se dizer que a temperatura de 40C maior
do que 30C e que um aumento de 20C para 40C
duas vezes maior do que um aumento de 30C
para 40C.

MT803 Tpicos em Matemtica Aplicada Aula 6

21

Similaridade para variveis de razo




Varivel de razo: uma medida positiva sobre uma escala no


linear. Aproxima-se da escala exponencial, como por exemplo:

Substituir xif pela sua posio no rank.

Mapear o domnio de cada varivel no intervalo [0, 1] substituindo


o i-th objeto na f-th varivel:

z if =


Exemplos de variveis (escalas) de razo so: idade, salrio,


preo, volume de vendas, distncias.

Mtodos:


r if 1
M f 1

Computar a similaridade usando mtodos para variveis


intervalares.

MT803 Tpicos em Matemtica Aplicada Aula 6

Um dataset pode conter vrios tipos de variveis:




Binria simtrica, binria assimtrica, nominal, ordinal, intervalar e


e escala de razo.

Pode-se usar uma frmula ponderada para combinar


seus efeitos:
pf = 1 ij( f ) d ij( f )
d (i, j ) =
pf = 1 ij( f )
Se f binria ou nominal:

Trat-las como variveis intervalares no uma boa escolha!


(por que? a escala do intervalo pode ser distorcido).

Aplicar a transformao logartmica:

Se f intervalar: usar a distncia normalizada.

yif = log(xif)

Se f ordinal ou escala de razo:

MT803 Tpicos em Matemtica Aplicada Aula 6

dij(f) = 0 Se xif = xjf , ou dij(f) = 1 caso contrrio.

Trat-las como dados ordinais contnuos e tratar seus


posicionamentos ranks como intervalares.

Computar os posicionamentos (ranks) rif e

tratar zif como intervalares:


23

22

Similaridade para variveis mistas

AeBt ou Ae-Bt


r if {1,..., M f }

MT803 Tpicos em Matemtica Aplicada Aula 6

z if

r
M

if
f

1
24

Exerccio 3

Mtodos de clusterizao


Particionamento: Constri vrias parties e as


avalia usando algum critrio.

2. Converter os atributos de nominal para binrio;

Hierrquico: Cria uma decomposio


hierrquica dos objetos usando algum critrio.

3. Selecionar o dataset soybean e converter seus


atributos de nominal para binrio.

Baseado em densidade: Fundamenta-se em


funes de conectividade e de densidade.

Outros mtodos: Ver captulo 7 do livro:

Usando o software Weka:

1. Selecionar o dataset contact-lenses;



MT803 Tpicos em Matemtica Aplicada Aula 6

25

Mtodos baseados em particionamento




Particionamento: Segmenta um banco de dados D de n


objetos em um conjunto de k clusters.

Objetivo: Encontrar uma partio de k clusters que otimiza o


critrio de particionamento escolhido.

Funo Objetivo: minimizar a soma dos quadrados das


distncias, tal que:

Onde:


E a soma dos quadrados dos erros para todos os objetos no


dataset;

p o ponto no espao representando um dado objeto;

mi o centride do cluster Ci.

MT803 Tpicos em Matemtica Aplicada Aula 6

MT803 Tpicos em Matemtica Aplicada Aula 6

27

26

Mtodos baseados em particionamento




E = ik=1 pCi ( p mi ) 2

Data Mining: Concepts and Techniques


Autores: Jiawei Han e Micheline Kamber.

Dado um valor de k, encontrar k clusters que


otimiza um critrio de particionamento escolhido:


timo Global: exaustivamente enumera todas as parties;

Principais heursticas: algoritmos k-means e k-medoids.

k-means (MacQueen67): Cada cluster representado pelo


centro (centride) do cluster.

k-medoids ou PAM (Partition Around Medoids) (Kaufman


& Rousseeuw87): Cada cluster representado por um dos
objetos no cluster.

MT803 Tpicos em Matemtica Aplicada Aula 6

28

K-means: algoritmo

K-means: exemplo 1

Input: k, D
Output: K centrides e os objetos de cada cluster
Passo 1:Selecionar arbitrariamente k objetos como os clusters
iniciais.

10

10

0
0

Passo 2: Calcular os centrides dos k clusters da posio atual.


Passo 3: Associar cada objeto ao cluster (centride) mais perto
(maior similaridade).
Passo 4: Retornar ao Passo 2 e parar quando no houver mais
mudanas significativas entre os objetos.

10

(1)

10

10

10

(4)

Registros so associados a Centro de


Clusters atravs de um processo iterativo.

PASSO 1:


10

K-means: exemplo 2

29

MT803 Tpicos em Matemtica Aplicada Aula 6

(2)

MT803 Tpicos em Matemtica Aplicada Aula 6

10

(3)

30

K-means: exemplo 2 ...

Seleo arbitrria de K pontos para serem os


Centros de Cluster

MT803 Tpicos em Matemtica Aplicada Aula 6

31

MT803 Tpicos em Matemtica Aplicada Aula 6

32

K-means: exemplo 2 ...

K-means: exemplo 2 ...




PASSO 2:


Associar cada registro ao Centro de Cluster mais


prximo.

Escolha Inicial de Centros de Cluster


MT803 Tpicos em Matemtica Aplicada Aula 6

33

K-means: exemplo 2 ...

MT803 Tpicos em Matemtica Aplicada Aula 6

34

K-means: exemplo 2 ...

Aten
Ateno a esse Registro

PASSO 3:


Calcular os novos Centros de Cluster

Mdia das coordenadas de todos os pontos


associados a cada Centro de Cluster.

Associao de cada Registro aos Centros de Cluster


MT803 Tpicos em Matemtica Aplicada Aula 6

35

MT803 Tpicos em Matemtica Aplicada Aula 6

36

K-means: exemplo 2 ...

K-means: exemplo 2 ...




PASSO 4:


Associar cada registro aos novos Centros de


Cluster.

Novos Centros de Cluster aps 1a. Iterao


MT803 Tpicos em Matemtica Aplicada Aula 6

37

K-means: exemplo 2 ...

MT803 Tpicos em Matemtica Aplicada Aula 6

38

K-means: exemplo 2 ...




PROCESSO ITERATIVO


Passos 2, 3 e 4 so repetidos at que no ocorra


mais mudanas no conjunto de registros que
compem cada Cluster.

Associaes de Registros aos Novos Centros de Cluster

MT803 Tpicos em Matemtica Aplicada Aula 6

39

MT803 Tpicos em Matemtica Aplicada Aula 6

40

K-means: pontos positivos

K-means: pontos negativos

 Relativamente

Aplicvel somente quando a mdia definida


ineficiente para atributos nominais? (verso
original).

Necessidade de especificar k, o nmero de clusters,


a priori.

Ineficiente para lidar com rudos e outliers.

Inadequado para descobrir clusters com formato noconvexo.

Sensvel a outliers, pois todos os pontos (objetos)


so agrupados impacta centrides dos clusters.

eficiente (escalvel).

 Complexidade:





O(tkn), onde

n o nmero de objetos;
k o nmero de clusters;
t o nmero de iteraes;
Normalmente: k, t << n.

 Frequentemente

termina em um timo local.

O

timo global pode ser achado usando


tcnicas, tais como algoritmos genticos.

MT803 Tpicos em Matemtica Aplicada Aula 6

41

Variaes do Mtodo K-means




EM Expectation Maximization


Algoritmo de aprendizado por maximizao de esperana (EM).

Seleo dos pontos iniciais.


Clculo da similaridade entre os pontos.
Estratgias para calcular os centrides dos clusters.

Aplicado em aprendizado no supervisionado agrupamento e


mistura de densidades.

Objetivo: estimar o nmero de populaes (clusters) na


amostra. Cada cluster representa uma dist. de probabilidade.

Idia geral:




42

Algumas verses do K-means diferem em:




MT803 Tpicos em Matemtica Aplicada Aula 6

EM (Expectativa-Maximizao) estende o
paradigma usado no K-means.

Para atributos nominais: K-modes (Huang98)

Substitui as mdias dos clusters por modas.

Usa medidas de similaridade para atributos nominais.

Usa um mtodo baseado em frequncias para atualizar as


modas dos clusters.

MT803 Tpicos em Matemtica Aplicada Aula 6

43

EM aplicado em situaes onde se deseja estimar um conjunto de


parmetros que descreve uma distribuio de probabilidade.
Ou seja, estima a mdia amostral e sua varincia.

EM uma extenso do algoritmo k-means.


Associa cada objeto a um cluster de acordo com um peso (prob.
distribuio), representando sua probabilidade de membresia.
Novas mdias so computadas com base em medidas ponderadas.

MT803 Tpicos em Matemtica Aplicada Aula 6

44

EM Expectation Maximization


O Algoritmo EM

Idia Geral:


Comea com uma estimativa inicial de um vetor de


parmetros.

Iterativamente reavalia (pondera) os objetos com relao


mistura distribuies produzida pelo vetor de parmetros.

Os objetos reavaliados (novos pesos) so usados para


atualizar a estimativa dos parmetros.

A cada objeto associada uma probabilidade de pertencer a


um cluster.

Inicialmente, k objetos so selecionados aleatoriamente


para representar os centride dos clusters.

Iterativamente refina os clusters em dois passos:




P ( xi Ck ) = p (Ck xi ) =


Algoritmo converge rapidamente, mas pode no


atingir um timo global.

MT803 Tpicos em Matemtica Aplicada Aula 6

45

O Algoritmo EM


MT803 Tpicos em Matemtica Aplicada Aula 6

46

Usando o software Weka:


1. Selecionar um dataset com variveis numricas.
3. Explorar o algoritmo k-means:
a) Qual o nmero de clusters pr-definido pelo algoritmo?

Os Passos E e M fazem parte de um processo iterativo,


em que as novas probabilidades, calculadas na fase M,
sero utilizadas para realizar a inferncia na fase E.
O Passo M a maximizao da funo de
verossimilhana das distribuies de probabilidade.

MT803 Tpicos em Matemtica Aplicada Aula 6

Onde p(xi/Ck)= N(mk, Ek(xi)) segue uma distribuio normal


(Gaussiana) de probabilidade com mdia mk e valor
esperado Ek.

2. Normalizar atributos (Z-score).

1 n xi p ( xi Ck )

n i =1 p ( xi C j )
j

p (Ck ) p( xi Ck )
p ( xi )

Exerccio 4

Passo M (Maximization): usa as probabilidades


estimadas no passo anterior para re-estimar (refinar) os
parmetros do modelo:

mk =

Passo E (Expectation): associa cada objeto xi ao cluster Ci


com a seguinte probabilidade:

b) Mude a semente (seed) para o k-means e observe o


comportamento do algoritmo.

4. Selecionar um dataset com variveis nominais e


repetir os exerccios 1, 2 e 3.
5. Como os algoritmos EM e k-means poderiam ser
usados conjuntamente.

47

MT803 Tpicos em Matemtica Aplicada Aula 6

48

Mtodos Hierrquicos

Mtodos Hierrquicos ...

MTODOS DIVISIVOS Todos Registros Um


Grande Cluster.

Este Grande Cluster dividido em dois ou mais


Clusters menores.


49

AGNES (Agglomerative Nesting)


Referncia: Livro [Kaufmann & Rousseeuw (1990)]

Implementado em pacotes de anlise estatsticas (Ex: Splus).

Usa o mtodo Single-Link e matriz de dissimilaridade (distncias).

Faz o merge dos ns que tm a menor dissimilaridade.

Clusters so formados usando-se a estratgia bottom-up.

Eventualmente todos os ns pertencem ao mesmo cluster.


10

10

0
2

10

aglomerativo
(AGNES)

ab
abcde

cde

de

e
Step 4

Step 3

divisivo
(DIANA)

Step 2 Step 1 Step 0

MT803 Tpicos em Matemtica Aplicada Aula 6

50

AGLOMERATIVO

5
0.2

3
5

0.15

0.1

4
4

0.05

objetos

0
1

Step 2 Step 3 Step 4

AGNES (Agglomerative Nesting)

10

Step 1

A cada passo, combina-se Clusters com alguma caracterstica


comum at que se chegue a um Grande Cluster.

MT803 Tpicos em Matemtica Aplicada Aula 6

MTODOS AGLOMERATIVOS Cada registro


um Cluster


Usa a matriz de distncias como critrio de segmentao. Esse


mtodo no exige o nmero de clusters k como input, mas precisa
de uma condio para terminar.
Step 0

At que cada Cluster tenha somente registros semelhantes.


A cada passo, alguma medida de valor do conjunto de Cluster
realizada at chegar ao melhor conjunto de Clusters.

0
0

MT803 Tpicos em Matemtica Aplicada Aula 6

10

10

51

MT803 Tpicos em Matemtica Aplicada Aula 6

52

Exemplo de Dendograma: AGNES

DIANA (Divisive Analysis)

Decompe objetos em vrios nveis de particionamento


aninhados (rvore de clusters), conhecida como dendograma.

Uma clusterizao dos objetos obtida particionando-se o


dendograma em um nvel desejado. Cada componente
conectado forma um cluster.

Referncia: Livro [Kaufmann and Rousseeuw (1990)]

Implementado em pacotes de anlise estatisticos (Ex: Splus).

Procedimento: o inverso de AGNES.

Eventualmente cada n forma um cluster.

10

0
0

10

10

MT803 Tpicos em Matemtica Aplicada Aula 6

10

54

Mtodo baseado em densidade

Pontos Fracos:

Os algoritmos no so escalveis.

Complexidade: O(n2), onde n o nmero de objetos.

Uma vez que os clusters so formados, eles no podem


ser mudados (no existe undo).

DBSCAN um algoritmo baseado em densidade.




Densidade = nmero de pontos dentro de um raio


especfico (Eps)

Um core point tem um nmero mnimo de pontos


especificados pelo usurio (MinPts) dentro do raio (Eps).

Um border point fica localizado na vizinhana de um


core point.

Um noise point qualquer ponto que no se classifica


como core point nem como border point.

Pontos Fortes:


Pode ser integrado com mtodos no hierrquicos.

BIRCH (1996): usa CF-tree com sumrios dos objetos


e ajusta a qualidade dos sub-clusters.

CURE (1998): produz clusters (com diferentes formas


e tamanhos) de alta qualidade na existncia de outliers

CHAMELEON (1999): utiliza modelagem dinmica.

MT803 Tpicos em Matemtica Aplicada Aula 6

Mais sobre mtodos hierrquicos

53

MT803 Tpicos em Matemtica Aplicada Aula 6

10

10

55

MT803 Tpicos em Matemtica Aplicada Aula 6

56

DBSCAN Idia Geral

O Algoritmo DBSCAN

Idia: Um cluster definido como um conjunto mximo de


pontos densamente conectados.

Encontra clusters com formatos (shape) arbitrrios em


bancos de dados espaciais, contendo rudos (outliers).
Outlier
Border

Arbitrariamente, seleciona um ponto p.

Identifica todos os pontos densamente conectados a p


com relao aos parmetros Eps e MinPts.

Se p um core point, um cluster formado.

Se p um border point e no h pontos densamente


conectados a p, DBSCAN visita o prximo ponto do
conjunto de dados.

Continua o processo at que todos os pontos do


conjunto de dados tenham sido analisados.

Eps = 1cm

Core

MinPts = 5

MT803 Tpicos em Matemtica Aplicada Aula 6

57

MT803 Tpicos em Matemtica Aplicada Aula 6

Quando DBSCAN funciona bem?

DBSCAN: Core, Border e Noise Points

Pontos Originais
Pontos Originais

Tipos de pontos: core,


border e noise

Clusters

Na presena de rudos (Noise)


Na gerao de clusters com diferentes formatos e tamanhos.

Eps = 10, MinPts = 4


MT803 Tpicos em Matemtica Aplicada Aula 6

58

59

MT803 Tpicos em Matemtica Aplicada Aula 6

60

Validao de Clusters

Quando DBSCAN no funciona bem?

(MinPts=4, Eps=9.75).

Em classificao supervisionada, existe uma grande


variedade de medidas para avaliar quo bom um modelo
: Acurcia, preciso, cobertura, kappa etc.

Para anlise de clusters, como avaliar a qualidade dos


clusters gerados?

Em geral, os clusters so avaliados por especialistas de


forma subjetiva.

Ento, por que precisamos avaliar clusters?

Pontos Originais

Variao na densidade dos pontos

Para evitar encontrar padres com rudos.

Dados com alta dimensionalidade.

Para comparar algoritmos de clusterizao.

Para comparar clusters gerados por mais de um algoritmo.

(MinPts=4, Eps=9.92)
MT803 Tpicos em Matemtica Aplicada Aula 6

61

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

Pontos
Aleatrios

Clusters encontrados dados aleatrios

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.2

0.4

0.6

0.8

DBSCAN

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.2

0.4

0.6

0.8

x
MT803 Tpicos em Matemtica Aplicada Aula 6

Coeso: Mede a proximidade dos objetos de um cluster.




0.2

0.4

0.6

0.8

62

Medidas Internas: Coeso e Separao




K-means

MT803 Tpicos em Matemtica Aplicada Aula 6

Exemplo: Soma do Erro Quadrtico (SEQ).

Separao: Mede como um cluster distinto ou bem


separado dos outros.

Exemplo: Erro Quadrtico




Coeso medida pela SEQ interna (dentro de um cluster).


WSS = ( x mi )2
i xC i

Separao medida pela soma de quadrados entre clusters.

Complete
Link

BSS = Ci (m mi )2
i
0

0.2

0.4

0.6

0.8

 Onde |Ci| o tamanho (cardinalidade) do cluster i.

x
63

MT803 Tpicos em Matemtica Aplicada Aula 6

64

Medidas Internas: Coeso e Separao




Exemplo: SEQ


Medidas Internas: Coeso e Separao

BSS + WSS = constante

m1

K=1 cluster:

Um grafo de proximidade tambm pode ser usado para


coeso e separao.

m2

Coeso a soma dos pesos de todos os links dentro de um cluster.


Separao a soma de todos os pesos entre os ns de um cluster e ns
fora do cluster.

WSS= (1 3) 2 + ( 2 3) 2 + ( 4 3) 2 + (5 3) 2 = 10
BSS= 4 (3 3) 2 = 0
Total = 10 + 0 = 10

K=2 clusters:

WSS = (1 1.5) 2 + ( 2 1.5) 2 + ( 4 4.5) 2 + (5 4.5) 2 = 1


BSS = 2 (3 1.5) 2 + 2 ( 4.5 3) 2 = 9

coeso

separao

Total = 1 + 9 = 10
MT803 Tpicos em Matemtica Aplicada Aula 6

65

Medidas Externas: Entropy e Purity

MT803 Tpicos em Matemtica Aplicada Aula 6

66

Exerccio 5


Usando o software Weka:


1. Selecionar o dataset cpu.
2. Normalizar atributos (Z-score).
3. Execute o algoritmo DBScan sem ajustar os
parmetros. Qual foi o resultado encontrado?
4. Explorar os parmetros epsilon e mimPoints do
algoritmo DBScan. Analisar os resultados
encontrados.
5. Indique uma vantagem do algoritmo DBScan em
relao ao k-means.

MT803 Tpicos em Matemtica Aplicada Aula 6

67

MT803 Tpicos em Matemtica Aplicada Aula 6

68