Вы находитесь на странице: 1из 33

CLUSTER ANALYSIS

KELOMPOK 5
1. GUSTI WIRA BAYUTAMA (2513204002)
2. NATHANIA NIWEDYA (2513201004)
3. SOFYAN MUZAKKI (2513204009)
4. NI PUTU WANSRI SEPTI DEWI (2513201010)
5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012)

1
WHAT IS CLUSTER ANALYSIS?
Analisis cluster adalah salah satu teknik multivariate untuk
mengelompokkan obyek berdasarkan kesamaan karakteristik di
antara obyek-obyek tersebut sehingga obyek-obyek yang berada
dalam satu cluster akan mempunyai kemiripan satu sama lain.
Ciri-ciri Cluster yang Baik
• Homogenitas internal (within cluster) : kesamaan antar anggota
dalam satu cluster.
• Heterogenitas external (between cluster): perbedaan antara
cluster yang satu dengan cluster yang lain.
Asusmsi
• Representativeness of the sample : sampel yang diambil dapat
mewakili populasi yang ada.
• Multokolinieritas: Terdapat hubungan yang linier antar variabel2 .
CLUSTER ANALYSIS

Metode
Pengelompokan
Tidak baik untuk
mengolah
sampel ukuran Hirarchical Non Hirarchical
besar Clustering Clustering
Method Method

Single Linkage Complete Average Ward’s Method Centroid K-Mean


Linkage Linkage Method Method

Untuk data sampel


ukuran besar 3
HIRARCHICAL CLUSTERING METHOD

Single Linkage
Complete Linkage

Average Linkage Centroid Method


4
HIRARCHICAL CLUSTERING METHOD

1. Single Linkage  didasarkan pada jarak minimum (nearest


neighbor ). Dimulai dengan dua objek yang dipisahkan dengan
jarak paling pendek maka keduanya akan ditempatkan pada
cluster pertama, dan seterusnya.
Jarak antara nearest
neighbor

Example :

Jarak yang Paling


Minimum

5
HIRARCHICAL CLUSTERING METHOD CONT…

Object 5 dan object 3 digabungkan, kemudian dicari terdekat


menuju object berikutnya
Jarak yang paling
minimum adalah
dari object (3,5)
ke object 1

Object (5,3) digabungkan


dengan object 1.

6
HIRARCHICAL CLUSTERING METHOD CONT…

Jarak yang paling


minimum adalah
dari object (1,3,5)
ke object 4

Jarak yang
Paling DENDOGRAM
Minimum

Jarak
antar
cluster

Cluster 1 Cluster 2
HIRARCHICAL CLUSTERING METHOD CONT…

2. Completelinkage  dasarnya adalah jarak maksimum. Dalam


metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain
pada suatu jarak maksimuma atau dengan kesamaan minimum.

Jarak antara most


distance members
dari cluster

Example :

Awalnya dicari Jarak yang


Paling Minimum  3 dan 5
didekatkan/digabungkan

8
HIRARCHICAL CLUSTERING METHOD CONT…

Jarak paling
minimum
adalah dari
object 4 ke 2

DENDOGRAM

Jarak yang paling


minimum. Sehingga
(2,4) didekatkan
dengan object 1
9

Cluster 1 Cluster 2
HIRARCHICAL CLUSTERING METHOD CONT…

3. Average Linkage  Dasarnya adalah jarak rata-rata antar


object. Dimana jarak antar cluster merupakan jarak rata-
rata antar object Jarak antara object ke i
dalam cluster (UV) dan
object ke j dalam cluster (w)
Banyaknya item di cluster
(UV) dan W
Example :
Subject Id Income Education
($ thous.) (years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
10
S5 25 20
S6 30 19
HIRARCHICAL CLUSTERING METHOD CONT…

Dengan menggunakan
euclidean distance
diperoleh jarak paling
minimum yaitu S1 dan S2

Jarak paling minimum


selanjutnya sehingga S3
dan S4 digabungkan

11
HIRARCHICAL CLUSTERING METHOD CONT…

4. Centroid Method  mempertimbangkan jarak centroid


pada cluster.
Example :
dimana Subject Id Income Education
($) (years)
Jarak antara S1 5 5
klaster A dan S2 6 6
klaster B adalah
S3 15 14
jarak rata-rata
data x dan y dari S4 16 15
klaster A dan B S5 25 20
S6 30 19
nA dan nB masing-masing adalah
banyaknya data dalam set A dan B 12
HIRARCHICAL CLUSTERING METHOD CONT…

Dengan menggunakan
euclidean distance
dicari jarak paling
minimum yaitu (S1, S2)

S1&S2 digabungkan
menjadi 1 klaster dengan
rata-rata income : (5+6)/2
= 5,5 dan rata-rata
education : (5+6)/2 = 5,5

13
HIRARCHICAL CLUSTERING METHOD CONT…

Rata-rata income dan


education dari S3 dan S4

DENDOGRAM

14

Cluster 1 Cluster 2
HIRARCHICAL CLUSTERING METHOD CONT…

5. Ward’s Method  Dalam metode ini jarak antara dua


cluster adalah jumlah kuadrat antara dua cluster untuk
seluruh variabel.

dimana :
nA dan nB masing-masing adalah banyaknya data dalam set
A dan B
s2AB adalah jarak antara klaster A dan B menggunakan
centroid linkage

Metode ini bertujuan untuk meminimasi jumlah kuadrat


dalam cluster (within-cluster sum of square) 15
HIRARCHICAL CLUSTERING METHOD CONT…

Example : •ESS adalah error sum of square


ESS untuk S1 dan S2 :
(5-5,5)2+(6-5,5)2+(5-5,5)2+(6-5,5)2 = 1

Metode ward ini menghitung


kemungkinan tiap cluster

DENDOGRAM

16
Cluster 1 Cluster 2
NON HIRARCHICAL CLUSTERING
METHOD
• K-MEAN CLUSTERING METHOD : Menentukan Banyaknya
cluster (K)
Dimulai dengan menentukan terlebih
dahulu jumlah cluster yang diinginkan Menentukan pusat
(dua, tiga, atau yang lain). Setelah (centroid )
jumlah cluster ditentukan, maka proses
Menghitung jarak object
cluster dilakukan tanpa mengikuti ke pusat (centroid)
proses hirarki.
• KELEBIHAN : Cukup efisien, algoritma Mengelompokan object
berdasarkan jarak minimum
berhenti dalam kondisi optimum.
• KELEMAHAN : Harus menentukan Terdapat object yang harus ya
jumlah cluster yang dibentuk, tidak dipindahkan
dapat menangani data yang Tidak
mengalami penyimpangan (outlier). 17
Selesai
K-MEAN CLUSTERING METHOD CONT ...

• ALGORITMA 1 DATA
• ALGORITMA 2 Subject Id Income
($)
Education
(years)

• ALGORITMA 3 S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19

18
ALGORITMA 1
1. Tentukan jumlah cluster (k) k=3
2. Tentukan observasi yang menjadi centroid sejumlah (k) Initial Cluster
Centroid

3. Menghitung jarak dari Cluster Centroids


D213= (5-15)2 + (5-14)2 = 181

S3, S4, S5, & S6


tergabung dalam
satu cluster 19
ALGORITMA 1 CONT ...
• ITERASI 1 b. Menghitung jarak dari Cluster Centroids
a. Mengubah Cluster Centroids
DATA

Rata-rata D213= (5-21,5)2 + (5-17)2 = 416,25

Iterasi selesai karena


Reassigment = Previous
Assigment
20
ALGORITMA 1 VS ALGORITMA 2

• ALGORITMA 1 : KITA BEBAS MENENTUKAN INITIAL CLUSTER CENTROID


• ALGORITMA 2 : INITIAL CLUSTER CENTROID DIMODIFIKASI
• LANGKAH SELANJUTNYA SAMA

21
ALGORITMA 2

1. Tentukan jumlah cluster (k) k=3


2. Tentukan observasi yang menjadi centroid sejumlah (k) Initial Cluster
Centroid

3. Modifikasi Initial Cluster Centroid


3.1 Tentukan jarak terkecil (selain nol) antar observasi
Jarak terkecil :
S1 & S2

22
ALGORITMA 2 CONT...

3.2 Menetukan replacement seeds


S4 tidak dapat dijadikan replacement
seed karena jarak S1 dan S2 tidak
lebih kecil dari jarak S4 dengan seed
terdekat (S3).

S5 dijadikan replacement seed karena


jarak S1 dan S2 lebih kecil dari jarak
S5 dengan seed terdekat (S3).
3.3 Cluster Centroid hasil modifikasi

S5 menggantikan seed S2 karena


jarak S5 dan S2 lebih kecil
15 25
14 20 daripada S5 dan S1.
23
ALGORITMA 2 CONT ...
4. Menghitung jarak dari Cluster Centroids
b. Menghitung jarak dari Cluster Centroids

D212= (5-15)2 + (5-14)2 = 181 D213= (5-25)2 + (5-20)2 = 625

• ITERASI 1 D213= (5-27,5)2 + (5-19,5)2 = 716,5


a. Mengubah Cluster Centroids

Iterasi selesai karena


Reassigment = Previous
Assigment

24

S1 & S2 S3 & S4 S5 & S6


ALGORITMA 3

• Initial seeds (Ci) ditentukan dengan rumus

• Sum(i) : total nilai semua variable tiap observasi


• Min : nilai terkecil sum(i) dari data
• Max : nilai terbesar sum(i) dari data
• K : jumlah cluster

• Reassigment berdasarkan minimum Error Sum of Square (ESS)

25
ALGORITMA 3 CONT ...

1. Menentukan Initial Cluster melalui rumus Ci

Sum (1) = income (1) + Education (1) (12 − 10)(3 − 0,0001)


𝐶2 = + 1 = 1,15 ≈ 1
= 5 + 5 = 10 49 − 10

(31 − 10)(3 − 0,0001)


𝐶4 = + 1 = 2,61 ≈ 2
49 − 10
26
ALGORITMA 3 CONT ...

2. Reassignment cluster melalui ESS

Cluster sudah
optimal karena
reassignment =
previous
assignment

• S1 jika dipindah ke cluster 3

Subject berpindah cluster menuju cluster


27
dengan perubahan ESS yang paling negatif
SIMILARITY MEASURES
• Similarity measures dapat 1. Euclidean Distance  untuk
diklasifikasikan menjadi tiga bentuk : mengukur similarity Jarak
euclidean antara titik i dengan j
1. Distance measures dalam dimensi p :
2. Association coefficient
3. Correlation coefficient Dij adalah jarak antara titik i dengan j
dan p adalah jumlah variable
Distance Measures
2. Minkowski Metric general
Terdapat beberapa metode dalam metric dari Euclidean distance.
mengukur jarak, seperti Euclidean;
Minkowski; City-block;
Mahalanobis; dan lain sebagainya.
Jika n = 2 akan menghasilkan euclidean
distance, maka n = 1 akan
28
menghasilkan city-block distance
SIMILARITY MEASURES CONT...

3. City-block or manhattan distance


 bentuk khusus dari minkowski
metric dengan n = 1.

Example :
Menghitung Jarak Dengan
menggunakan euclidean distance :
D122 = (5-6)2 + (5-6)2 = 2
D12 = 1,41
Dengan menggunakan city-block distance :
D12 = I5-6I + I5-6I = 2 29
SIMILARITY MEASURES CONT...
4. Mahalanobis Distance
menghitung korelasi diantara variable yang tidak berkorelasi 
variabel. mahalanobis distance mengurangi
euclidean distance untuk unstandardized
data.
dimana Σ adalah covariance matrix
Dalam hal Σ = 1, maka jarak ini sehingga euclidean distance untuk
menjadi Euclidean standardized data merupakan bentuk
khusus dari mahalanobis distance.

30
CORRELATION COEFFICIENT Association Coefficient
• Untuk mengukur similarity juga dapat digunakan untuk menunjukkan
menggunakan pearson product similarity untuk variabel biner.
moment correlation coefficient. Untuk data biner dapat
menggunakan ukuran seperti
• Baik correlation coefficient maupun polychoric correlation atau
association coefficient merupakan simple matching coefficients
bentuk dissimilarity, dimana nilai atau variasi untuk menunjukkan
similarity antar observasi.
tertinggi menunjukkan similarity dan
kebalikannya. Example : 1 0
1 a b
• Koefisien korelasi dapat dengan 0 c d
mudah dirubah ke bentuk similarity a, b, c, d adalah frekuensi kejadian,
31
dengan menambahkan variabel satu similarity antara 2 variabel tersebut
dengan yang lain, namun tidak bisa adalah : ad
untuk beberapa properti dari true abcd
metric yang lain.
RELIABILITY AND EXTERNAL VALIDITY

Reliability
Salah satu indikator reliability adalah degree of agreement
antara assignment dengan analisis klaster.

External Validity diperoleh dengan membandingkan hasil


dari analisis klaster dengan kriteria eksternal.
Misalnya mengelompokkan perusahaan berdasarkan rasio
keuangan sehingga diperoleh 2 klaster, yaitu perusahaan
yang sehat secara finansial dan perusahaan yang tidak
sehat secara finansial.

32
Thank you
for
your attention

33

Вам также может понравиться