Академический Документы
Профессиональный Документы
Культура Документы
KELOMPOK 5
1. GUSTI WIRA BAYUTAMA (2513204002)
2. NATHANIA NIWEDYA (2513201004)
3. SOFYAN MUZAKKI (2513204009)
4. NI PUTU WANSRI SEPTI DEWI (2513201010)
5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012)
1
WHAT IS CLUSTER ANALYSIS?
Analisis cluster adalah salah satu teknik multivariate untuk
mengelompokkan obyek berdasarkan kesamaan karakteristik di
antara obyek-obyek tersebut sehingga obyek-obyek yang berada
dalam satu cluster akan mempunyai kemiripan satu sama lain.
Ciri-ciri Cluster yang Baik
• Homogenitas internal (within cluster) : kesamaan antar anggota
dalam satu cluster.
• Heterogenitas external (between cluster): perbedaan antara
cluster yang satu dengan cluster yang lain.
Asusmsi
• Representativeness of the sample : sampel yang diambil dapat
mewakili populasi yang ada.
• Multokolinieritas: Terdapat hubungan yang linier antar variabel2 .
CLUSTER ANALYSIS
Metode
Pengelompokan
Tidak baik untuk
mengolah
sampel ukuran Hirarchical Non Hirarchical
besar Clustering Clustering
Method Method
Single Linkage
Complete Linkage
Example :
5
HIRARCHICAL CLUSTERING METHOD CONT…
6
HIRARCHICAL CLUSTERING METHOD CONT…
Jarak yang
Paling DENDOGRAM
Minimum
Jarak
antar
cluster
Cluster 1 Cluster 2
HIRARCHICAL CLUSTERING METHOD CONT…
Example :
8
HIRARCHICAL CLUSTERING METHOD CONT…
Jarak paling
minimum
adalah dari
object 4 ke 2
DENDOGRAM
Cluster 1 Cluster 2
HIRARCHICAL CLUSTERING METHOD CONT…
Dengan menggunakan
euclidean distance
diperoleh jarak paling
minimum yaitu S1 dan S2
11
HIRARCHICAL CLUSTERING METHOD CONT…
Dengan menggunakan
euclidean distance
dicari jarak paling
minimum yaitu (S1, S2)
S1&S2 digabungkan
menjadi 1 klaster dengan
rata-rata income : (5+6)/2
= 5,5 dan rata-rata
education : (5+6)/2 = 5,5
13
HIRARCHICAL CLUSTERING METHOD CONT…
DENDOGRAM
14
Cluster 1 Cluster 2
HIRARCHICAL CLUSTERING METHOD CONT…
dimana :
nA dan nB masing-masing adalah banyaknya data dalam set
A dan B
s2AB adalah jarak antara klaster A dan B menggunakan
centroid linkage
DENDOGRAM
16
Cluster 1 Cluster 2
NON HIRARCHICAL CLUSTERING
METHOD
• K-MEAN CLUSTERING METHOD : Menentukan Banyaknya
cluster (K)
Dimulai dengan menentukan terlebih
dahulu jumlah cluster yang diinginkan Menentukan pusat
(dua, tiga, atau yang lain). Setelah (centroid )
jumlah cluster ditentukan, maka proses
Menghitung jarak object
cluster dilakukan tanpa mengikuti ke pusat (centroid)
proses hirarki.
• KELEBIHAN : Cukup efisien, algoritma Mengelompokan object
berdasarkan jarak minimum
berhenti dalam kondisi optimum.
• KELEMAHAN : Harus menentukan Terdapat object yang harus ya
jumlah cluster yang dibentuk, tidak dipindahkan
dapat menangani data yang Tidak
mengalami penyimpangan (outlier). 17
Selesai
K-MEAN CLUSTERING METHOD CONT ...
• ALGORITMA 1 DATA
• ALGORITMA 2 Subject Id Income
($)
Education
(years)
• ALGORITMA 3 S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
18
ALGORITMA 1
1. Tentukan jumlah cluster (k) k=3
2. Tentukan observasi yang menjadi centroid sejumlah (k) Initial Cluster
Centroid
21
ALGORITMA 2
22
ALGORITMA 2 CONT...
24
25
ALGORITMA 3 CONT ...
Cluster sudah
optimal karena
reassignment =
previous
assignment
Example :
Menghitung Jarak Dengan
menggunakan euclidean distance :
D122 = (5-6)2 + (5-6)2 = 2
D12 = 1,41
Dengan menggunakan city-block distance :
D12 = I5-6I + I5-6I = 2 29
SIMILARITY MEASURES CONT...
4. Mahalanobis Distance
menghitung korelasi diantara variable yang tidak berkorelasi
variabel. mahalanobis distance mengurangi
euclidean distance untuk unstandardized
data.
dimana Σ adalah covariance matrix
Dalam hal Σ = 1, maka jarak ini sehingga euclidean distance untuk
menjadi Euclidean standardized data merupakan bentuk
khusus dari mahalanobis distance.
30
CORRELATION COEFFICIENT Association Coefficient
• Untuk mengukur similarity juga dapat digunakan untuk menunjukkan
menggunakan pearson product similarity untuk variabel biner.
moment correlation coefficient. Untuk data biner dapat
menggunakan ukuran seperti
• Baik correlation coefficient maupun polychoric correlation atau
association coefficient merupakan simple matching coefficients
bentuk dissimilarity, dimana nilai atau variasi untuk menunjukkan
similarity antar observasi.
tertinggi menunjukkan similarity dan
kebalikannya. Example : 1 0
1 a b
• Koefisien korelasi dapat dengan 0 c d
mudah dirubah ke bentuk similarity a, b, c, d adalah frekuensi kejadian,
31
dengan menambahkan variabel satu similarity antara 2 variabel tersebut
dengan yang lain, namun tidak bisa adalah : ad
untuk beberapa properti dari true abcd
metric yang lain.
RELIABILITY AND EXTERNAL VALIDITY
Reliability
Salah satu indikator reliability adalah degree of agreement
antara assignment dengan analisis klaster.
32
Thank you
for
your attention
33