Hirarki Non Hirarki

CLUSTER ANALYSIS
KELOMPOK 5
1. GUSTI WIRA BAYUTAMA (2513204002)
2. NATHANIA NIWEDYA (2513201004)
3. SOFYAN MUZAKKI (2513204009)
4. NI PUTU WANSRI SEPTI DEWI (2513201010)
5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012)
1
WHAT IS CLUSTER ANALYSIS?
Analisis cluster adalah salah satu teknik multivariate untuk
mengelompokkan obyek berdasarkan kesamaan karakteristik di
antara obyek-obyek tersebut sehingga obyek-obyek yang berada
dalam satu cluster akan mempunyai kemiripan satu sama lain.
Ciri-ciri Cluster yang Baik
• Homogenitas internal (within cluster) : kesamaan antar anggota
dalam satu cluster.
• Heterogenitas external (between cluster): perbedaan antara
cluster yang satu dengan cluster yang lain.
Asusmsi
• Representativeness of the sample : sampel yang diambil dapat
mewakili populasi yang ada.
• Multokolinieritas: Terdapat hubungan yang linier antar variabel2 .
CLUSTER ANALYSIS
Metode
Pengelompokan
Tidak baik untuk
mengolah
sampel ukuran Hirarchical Non Hirarchical
besar Clustering Clustering
Method Method
Single Linkage Complete Average Ward’s Method Centroid K-Mean

Linkage Linkage Method Method
Untuk data sampel

ukuran besar 3
HIRARCHICAL CLUSTERING METHOD
Single Linkage
Complete Linkage
Average Linkage Centroid Method

4
HIRARCHICAL CLUSTERING METHOD
1. Single Linkage  didasarkan pada jarak minimum (nearest

neighbor ). Dimulai dengan dua objek yang dipisahkan dengan
jarak paling pendek maka keduanya akan ditempatkan pada
cluster pertama, dan seterusnya.
Jarak antara nearest
neighbor
Example :
Jarak yang Paling

Minimum
5
HIRARCHICAL CLUSTERING METHOD CONT…
Object 5 dan object 3 digabungkan, kemudian dicari terdekat

menuju object berikutnya
Jarak yang paling
minimum adalah
dari object (3,5)
ke object 1
Object (5,3) digabungkan

dengan object 1.
6
Jarak yang paling

minimum adalah
dari object (1,3,5)
ke object 4
Jarak yang
Paling DENDOGRAM
Minimum
Jarak
antar
cluster
Cluster 1 Cluster 2
2. Completelinkage  dasarnya adalah jarak maksimum. Dalam

metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain
pada suatu jarak maksimuma atau dengan kesamaan minimum.
Jarak antara most

distance members
dari cluster
Example :
Awalnya dicari Jarak yang

Paling Minimum  3 dan 5
didekatkan/digabungkan
8
Jarak paling
minimum
adalah dari
object 4 ke 2
DENDOGRAM
Jarak yang paling

minimum. Sehingga
(2,4) didekatkan
dengan object 1
9
Cluster 1 Cluster 2
3. Average Linkage  Dasarnya adalah jarak rata-rata antar

object. Dimana jarak antar cluster merupakan jarak rata-
rata antar object Jarak antara object ke i
dalam cluster (UV) dan
object ke j dalam cluster (w)
Banyaknya item di cluster
(UV) dan W
Example :
Subject Id Income Education
($ thous.) (years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
10
S5 25 20
S6 30 19
Dengan menggunakan
euclidean distance
diperoleh jarak paling
minimum yaitu S1 dan S2
Jarak paling minimum

selanjutnya sehingga S3
dan S4 digabungkan
11
4. Centroid Method  mempertimbangkan jarak centroid

pada cluster.
Example :
dimana Subject Id Income Education
($) (years)
Jarak antara S1 5 5
klaster A dan S2 6 6
klaster B adalah
S3 15 14
jarak rata-rata
data x dan y dari S4 16 15
klaster A dan B S5 25 20
S6 30 19
nA dan nB masing-masing adalah
banyaknya data dalam set A dan B 12
Dengan menggunakan
euclidean distance
dicari jarak paling
minimum yaitu (S1, S2)
S1&S2 digabungkan
menjadi 1 klaster dengan
rata-rata income : (5+6)/2
= 5,5 dan rata-rata
education : (5+6)/2 = 5,5
13
Rata-rata income dan

education dari S3 dan S4
DENDOGRAM
14
Cluster 1 Cluster 2
5. Ward’s Method  Dalam metode ini jarak antara dua

cluster adalah jumlah kuadrat antara dua cluster untuk
seluruh variabel.
dimana :
nA dan nB masing-masing adalah banyaknya data dalam set
A dan B
s2AB adalah jarak antara klaster A dan B menggunakan
centroid linkage
Metode ini bertujuan untuk meminimasi jumlah kuadrat

dalam cluster (within-cluster sum of square) 15
Example : •ESS adalah error sum of square

ESS untuk S1 dan S2 :
(5-5,5)2+(6-5,5)2+(5-5,5)2+(6-5,5)2 = 1
Metode ward ini menghitung

kemungkinan tiap cluster
DENDOGRAM
16
Cluster 1 Cluster 2
NON HIRARCHICAL CLUSTERING
METHOD
• K-MEAN CLUSTERING METHOD : Menentukan Banyaknya
cluster (K)
Dimulai dengan menentukan terlebih
dahulu jumlah cluster yang diinginkan Menentukan pusat
(dua, tiga, atau yang lain). Setelah (centroid )
jumlah cluster ditentukan, maka proses
Menghitung jarak object
cluster dilakukan tanpa mengikuti ke pusat (centroid)
proses hirarki.
• KELEBIHAN : Cukup efisien, algoritma Mengelompokan object
berdasarkan jarak minimum
berhenti dalam kondisi optimum.
• KELEMAHAN : Harus menentukan Terdapat object yang harus ya
jumlah cluster yang dibentuk, tidak dipindahkan
dapat menangani data yang Tidak
mengalami penyimpangan (outlier). 17
Selesai
K-MEAN CLUSTERING METHOD CONT ...
• ALGORITMA 1 DATA
• ALGORITMA 2 Subject Id Income
($)
Education
(years)
• ALGORITMA 3 S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
18
ALGORITMA 1
1. Tentukan jumlah cluster (k) k=3
2. Tentukan observasi yang menjadi centroid sejumlah (k) Initial Cluster
Centroid
3. Menghitung jarak dari Cluster Centroids

D213= (5-15)2 + (5-14)2 = 181
S3, S4, S5, & S6

tergabung dalam
satu cluster 19
ALGORITMA 1 CONT ...
• ITERASI 1 b. Menghitung jarak dari Cluster Centroids
a. Mengubah Cluster Centroids
DATA
Rata-rata D213= (5-21,5)2 + (5-17)2 = 416,25
Iterasi selesai karena

Reassigment = Previous
Assigment
20
ALGORITMA 1 VS ALGORITMA 2
• ALGORITMA 1 : KITA BEBAS MENENTUKAN INITIAL CLUSTER CENTROID

• ALGORITMA 2 : INITIAL CLUSTER CENTROID DIMODIFIKASI
• LANGKAH SELANJUTNYA SAMA
21
ALGORITMA 2
1. Tentukan jumlah cluster (k) k=3

2. Tentukan observasi yang menjadi centroid sejumlah (k) Initial Cluster
Centroid
3. Modifikasi Initial Cluster Centroid

3.1 Tentukan jarak terkecil (selain nol) antar observasi
Jarak terkecil :
S1 & S2
22
ALGORITMA 2 CONT...
3.2 Menetukan replacement seeds

S4 tidak dapat dijadikan replacement
seed karena jarak S1 dan S2 tidak
lebih kecil dari jarak S4 dengan seed
terdekat (S3).
S5 dijadikan replacement seed karena

jarak S1 dan S2 lebih kecil dari jarak
S5 dengan seed terdekat (S3).
3.3 Cluster Centroid hasil modifikasi
S5 menggantikan seed S2 karena

jarak S5 dan S2 lebih kecil
15 25
14 20 daripada S5 dan S1.
23
4. Menghitung jarak dari Cluster Centroids
b. Menghitung jarak dari Cluster Centroids
D212= (5-15)2 + (5-14)2 = 181 D213= (5-25)2 + (5-20)2 = 625
• ITERASI 1 D213= (5-27,5)2 + (5-19,5)2 = 716,5

a. Mengubah Cluster Centroids
Iterasi selesai karena

Reassigment = Previous
Assigment
24
S1 & S2 S3 & S4 S5 & S6

ALGORITMA 3
• Initial seeds (Ci) ditentukan dengan rumus
• Sum(i) : total nilai semua variable tiap observasi

• Min : nilai terkecil sum(i) dari data
• Max : nilai terbesar sum(i) dari data
• K : jumlah cluster
• Reassigment berdasarkan minimum Error Sum of Square (ESS)
25
1. Menentukan Initial Cluster melalui rumus Ci
Sum (1) = income (1) + Education (1) (12 − 10)(3 − 0,0001)

𝐶2 = + 1 = 1,15 ≈ 1
= 5 + 5 = 10 49 − 10
(31 − 10)(3 − 0,0001)

𝐶4 = + 1 = 2,61 ≈ 2
49 − 10
26
2. Reassignment cluster melalui ESS
Cluster sudah
optimal karena
reassignment =
previous
assignment
• S1 jika dipindah ke cluster 3
Subject berpindah cluster menuju cluster

27
dengan perubahan ESS yang paling negatif
SIMILARITY MEASURES
• Similarity measures dapat 1. Euclidean Distance  untuk
diklasifikasikan menjadi tiga bentuk : mengukur similarity Jarak
euclidean antara titik i dengan j
1. Distance measures dalam dimensi p :
2. Association coefficient
3. Correlation coefficient Dij adalah jarak antara titik i dengan j
dan p adalah jumlah variable
Distance Measures
2. Minkowski Metric general
Terdapat beberapa metode dalam metric dari Euclidean distance.
mengukur jarak, seperti Euclidean;
Minkowski; City-block;
Mahalanobis; dan lain sebagainya.
Jika n = 2 akan menghasilkan euclidean
distance, maka n = 1 akan
28
menghasilkan city-block distance
SIMILARITY MEASURES CONT...
3. City-block or manhattan distance

 bentuk khusus dari minkowski
metric dengan n = 1.
Example :
Menghitung Jarak Dengan
menggunakan euclidean distance :
D122 = (5-6)2 + (5-6)2 = 2
D12 = 1,41
Dengan menggunakan city-block distance :
D12 = I5-6I + I5-6I = 2 29
SIMILARITY MEASURES CONT...
4. Mahalanobis Distance
menghitung korelasi diantara variable yang tidak berkorelasi 
variabel. mahalanobis distance mengurangi
euclidean distance untuk unstandardized
data.
dimana Σ adalah covariance matrix
Dalam hal Σ = 1, maka jarak ini sehingga euclidean distance untuk
menjadi Euclidean standardized data merupakan bentuk
khusus dari mahalanobis distance.
30
CORRELATION COEFFICIENT Association Coefficient
• Untuk mengukur similarity juga dapat digunakan untuk menunjukkan
menggunakan pearson product similarity untuk variabel biner.
moment correlation coefficient. Untuk data biner dapat
menggunakan ukuran seperti
• Baik correlation coefficient maupun polychoric correlation atau
association coefficient merupakan simple matching coefficients
bentuk dissimilarity, dimana nilai atau variasi untuk menunjukkan
similarity antar observasi.
tertinggi menunjukkan similarity dan
kebalikannya. Example : 1 0
1 a b
• Koefisien korelasi dapat dengan 0 c d
mudah dirubah ke bentuk similarity a, b, c, d adalah frekuensi kejadian,
31
dengan menambahkan variabel satu similarity antara 2 variabel tersebut
dengan yang lain, namun tidak bisa adalah : ad
untuk beberapa properti dari true abcd
metric yang lain.
RELIABILITY AND EXTERNAL VALIDITY
Reliability
Salah satu indikator reliability adalah degree of agreement
antara assignment dengan analisis klaster.
External Validity diperoleh dengan membandingkan hasil

dari analisis klaster dengan kriteria eksternal.
Misalnya mengelompokkan perusahaan berdasarkan rasio
keuangan sehingga diperoleh 2 klaster, yaitu perusahaan
yang sehat secara finansial dan perusahaan yang tidak
sehat secara finansial.
32
Thank you
for
your attention
33

Hirarki Non Hirarki

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Hirarki Non Hirarki

Загружено:

Авторское право:

Доступные форматы

CLUSTER ANALYSIS

Single Linkage Complete Average Ward’s Method Centroid K-Mean

Untuk data sampel

Average Linkage Centroid Method

1. Single Linkage  didasarkan pada jarak minimum (nearest

Jarak yang Paling

Object 5 dan object 3 digabungkan, kemudian dicari terdekat

Object (5,3) digabungkan

Jarak yang paling

2. Completelinkage  dasarnya adalah jarak maksimum. Dalam

Jarak antara most

Awalnya dicari Jarak yang

Jarak yang paling

3. Average Linkage  Dasarnya adalah jarak rata-rata antar

Jarak paling minimum

4. Centroid Method  mempertimbangkan jarak centroid

Rata-rata income dan

5. Ward’s Method  Dalam metode ini jarak antara dua

Metode ini bertujuan untuk meminimasi jumlah kuadrat

Example : •ESS adalah error sum of square

Metode ward ini menghitung

3. Menghitung jarak dari Cluster Centroids

S3, S4, S5, & S6

Rata-rata D213= (5-21,5)2 + (5-17)2 = 416,25

Iterasi selesai karena

• ALGORITMA 1 : KITA BEBAS MENENTUKAN INITIAL CLUSTER CENTROID

1. Tentukan jumlah cluster (k) k=3

3. Modifikasi Initial Cluster Centroid

3.2 Menetukan replacement seeds

S5 dijadikan replacement seed karena

S5 menggantikan seed S2 karena

D212= (5-15)2 + (5-14)2 = 181 D213= (5-25)2 + (5-20)2 = 625

• ITERASI 1 D213= (5-27,5)2 + (5-19,5)2 = 716,5

Iterasi selesai karena

S1 & S2 S3 & S4 S5 & S6

• Initial seeds (Ci) ditentukan dengan rumus

• Sum(i) : total nilai semua variable tiap observasi

• Reassigment berdasarkan minimum Error Sum of Square (ESS)

1. Menentukan Initial Cluster melalui rumus Ci

Sum (1) = income (1) + Education (1) (12 − 10)(3 − 0,0001)

(31 − 10)(3 − 0,0001)

2. Reassignment cluster melalui ESS

• S1 jika dipindah ke cluster 3

Subject berpindah cluster menuju cluster

3. City-block or manhattan distance

External Validity diperoleh dengan membandingkan hasil

Вам также может понравиться