Академический Документы
Профессиональный Документы
Культура Документы
A, ji
d(i ,j) (2.6)
dengan j adalah dokumen lain dalam satu cluster A dan d(i,j) adalah jarak antar
dokumen i dengan j.
2. Kemudian hitung juga rata-rata jarak dari dokumen i tersebut dengan semua dokumen
di cluster lain, lalu diambil nilai terkecilnya.
d(i,C) =
1
|A|
] C d(i ,j) (2.7)
dengan d(i,C) adalah jarak rata-rata dokumen i dengan semua objek pada cluster lain
C dimana A C.
b(i) = min C A d(i,C) (2.8)
3. Maka Silhouette Coefficient nya adalah
[1]
:
s(i) =
b()- u()
max(u(),b())
(2.9)
19
2.7.2 Purity
Purity (kemurnian) suatu cluster direpresentasikan sebagai anggota cluster yang paling
banyak cocok di suatu kelas. Purity (kemurnian) dapat direpresentasikan sebagai berikut :
Purity (j) =
1
n]
max (n
ij
) (2.10)
Total nilai purity merupakan jumlah keseluruhan purity pada semua cluster. Total nilai
purity dapat direpresentasikan sebagai berikut :
Purity =
n]
n
]
=0
purity (j) (2.11)
Range nilai purity ialah dari 0 sampai dengan 1. Secara umum, semakin besar nilai purity
maka semakin baik cluster
[13]
. Pada tugas akhir ini nilai purity diukur secara manual dari hasil
output sistem. Setelah hasil Clustering keluar maka akan dilihat apakah dokumen-dokumen
dalam satu cluster berasal dari kategori yang sama.
Pengujian purity dilakaukan dengan manual. Setiap cluster yang telah terbentuk akan
diperiksa apakah ada dokumen dokumen yang tidak murni atau yang tidak mirip dengan
dokumen lainnya. Jika ada dokumen yang tidak mirip dengan dokumen lainnya maka akan
dilakukan dengan rumus purity diatas. Pengujian secara purity merupakan pengujian yang sangat
baik karena pengujian ini memeriksa setiap cluster secara teliti. Jika nilai dari purity sama
dengan 1 maka didalam cluster tersebut tidak terdapat dokumen yang lain. Dengan kata lain,
cluster tersebut merupakan cluster yang murni.
20
BAB III GAMBARAN SISTEM
3.1 Gambaran Umum Sistem
Gambar 3.1 Gambaran Umum Sistem Clustering
Contoh proses mengenai gambaran sistem diatas akan coba digambarkan dimana data
inputnya dapat dilihat pada Tabel 3-1 :
Tabel 3-1 Contoh Data Input
Dokumen Input Isi Dokumen
Dokumen 1 Gitaris band musik rock tersebut tidak akan bermain musik lagi.
Dokumen 2 Musik rock sangat disenangi oleh anak remaja.
Dokumen 3 Olahraga paling digemari di dunia adalah olahraga sepakbola.
Dokumen 4 Italia terakhir kali menjuarai sepakbola dunia pada tahun 2006.
I. Preprocessing
I.1 Tokenisasi
Pada tahap ini setiap isi dokumen akan diubah menjadi huruf kecil, mengalami
penghilangan tanda baca dan karakter selain huruf.
Tabel 3-2 Hasil Tokenisasi
Dokumen Input Hasil Tokenisasi
Dokumen 1 gitaris band musik rock tersebut tidak akan bermain musik lagi
Dokumen 2 musik rock sangat disenangi oleh anak remaja
Clustering
Dokumen
input *.txt
Tokenisasi
(pembuangan tanda
baca, case folding,
penghilangan
karakter selain
huruf)
Hirarchical Clustering
(Single Linkage)
Partitioned Clustering
(K-Means)
Term
Weighting
Stemming Stopword Removal
Evaluasi Cluster (menggunakan
Silohuette Coefficient, purity,
cophenetic correlation coefficient)
Dokumen dalam
beberapa cluster
Preprocessing
21
Dokumen 3 olahraga paling digemari di dunia adalah olahraga sepakbola
Dokumen 4 italia terakhir kali menjuarai sepakbola dunia pada tahun
I.2 Stopword removal
Pada tahap ini sistem akan menghapus stopword yang terdapat pada setiap dokumen.
Tabel 3-3 Hasil Stopword Removal
Dokumen Input Hasil Stopword Removal
Dokumen 1 gitaris band musik rock bermain musik
Dokumen 2 musik rock disenangi anak remaja
Dokumen 3 olahraga digemari dunia olahraga sepakbola
Dokumen 4 italia terakhir menjuarai sepakbola dunia tahun
I.3 Stemming
Selanjutnya pada tahap ini akan dilakukan stemming Nazief-adriani terhadap setiap isi
dokumen.
Tabel 3-4 Hasil Stemming
Dokumen Input Hasil Stemming
Dokumen 1 gitaris band musik rock main musik
Dokumen 2 musik rock senang anak remaja
Dokumen 3 olahraga gemar dunia olahraga sepakbola
Dokumen 4 italia akhir juara sepakbola dunia tahun
II. Term Weighting
Setelah dokumen mengalami preprocessing maka selanjutnya term-term yang ada di
setiap dokumen akan diberi bobot.
Tabel 3-5 Bobot TF
dokumen gitaris band musik rock main juara tahun
1 1 1 2 1 1 0 0
2 0 0 1 1 0 0 0
3 0 0 0 0 0 0 0
4 0 0 0 0 0 1 1
Tabel 3-6 Bobot IDF
Term gitaris band musik rock main juara tahun
Bobot IDF 0,602 0,602 0,301 0,301 0,602 0,602 0,602
Maka bobot TF-IDF setiap term akan menjadi :
22
Tabel 3-7 Bobot TF-IDF
dokumen gitaris band musik rock main juara tahun
1 0,602 0,602 0,602 0,301 0,602 0 0
2 0 0 0,301 0,301 0 0 0
3 0 0 0 0 0 0 0
4 0 0 0 0 0 0,602 0,602
Sebelum digunakan, bobot TF-IDF akan dinormalisasi terlebih dahulu sesuai
dengan panjang dokumen.
III. Clustering
Pada tahap ini akan dilakukan clustering dimana setiap dokumen akan dianggap
sebagai sebuah cluster. Di setiap tahapan akan ada penggabungan cluster sesusai dengan
metode yang dipilih sampai jumlah cluster memenuhi jumlah cluster yang diinginkan.
Pada akhirnya akan muncul hasilnya cluster-cluster berisi dokumen-dokumen yang
termasuk dalam cluster tersebut. Pada contoh ini kita akan mengelompokkan dokumen
sampai menjadi satu cluster dengan metode single linkage clustering.
Tabel 3-8 Jarak antar Dokumen Metode Single Link
Dokumen 1 Dokumen 2 Dokumen 3 Dokumen 4
Dokumen 1 0 1.26928 1.41421 1.41421
Dokumen 2 0 1.41421 1.41421
Dokumen 3 0 1.34126
Dokumen 4 0
Dengan melihat tabel diatas maka urutan clustering dengan metode single clustering
yang terjadi adalah :
dokumen 1 dan dokumen 2 memiliki jarak 1.2692823822415176 clustering ke-1
dokumen 3 dan dokumen 4 memiliki jarak 1.3412652373591722 clustering ke-2
dokumen 1 dan dokumen 3 memiliki jarak 1.414213562373095 clustering ke-3
23
IV. Evaluasi Cluster
Setelah diketahui hasil clustering, maka akan dilakukan evaluasi yaitu dengan
menghitung rata-rata jarak dokumen dalam cluster dan jarak terpendek rata-rata suatu
dokumen dengan cluster lain
3.2 Spesifikasi Kebutuhan Sistem
3.2.1 User
Aplikasi dari sistem keamanan data ini ditujukan untuk user yang memiliki komputer
desktop dan di komputer desktopnya telah terinstal :
1. JRE (Java Runtime Environment)
2. Software Eclipse (Optional)
Dalam pembuatan aplikasi keamanan ini, perangkat keras yang digunanakaan adalah
sebagai berikut :
1. Processor Intel Core 2 Duo T6500 2.1 GHz.
2. RAM 2GB
3. Harddisk 320 GB
4. 14.0 LCD
Sistem operasi Windows 7 Profesional
3.2.2 Input Data
Input data yang diperlukan dalam sistem keamanan ini adalah berita berita yang diambil
dari internet. Berita berita ini akan di copy ke dalam notepad. Kemudian akan disimpan dalam
suatu folder. Setelah itu berit berita itu akan di input ke dalam sistem. Yang masuk ke dalam
sistem adalah semua judul berita dan isi berita. Judul dan isi berita ini akan diolah oleh sistem
melalui setiap tahapan yang terlampir dalam gambaran umum sistem. Hal yang sangat
merepresentasi setiap berita adalah kata kata yang sangat jarang muncul karena sesuai dengan
pembobotan yang digunakan TFIDF akan memberikan nilai pembobotan yang sangat besar
untuk kata kata yang jarang muncul.
24
3.2.3 Proses / Fungsionalitas Sistem
Kebutuhan sistem merupakan kebutuhan yang diperlukan untuk menghasilkan sistem
yang memiliki fungsionalitas sebagai berikut :
1. Sistem dapat memilih folder inputan yang berisi dokumen-dokumen berita bahasa Indonesia
dengan format *.txt.
2. Sistem dapat menampilkan isi dari tiap-tiap dokumen input yang akan mengalami clustering.
3. Sistem dapat melakukan preprocessing dan menampilkan term dari tiap dokumen yang telah
dimasukkan.
4. Sistem dapat melakukan proses klasterisasi terhadap data input dan menampilkan hasil dari
proses clustering yang telah dilakukan.
5. Sistem dapat menampilkan performansi kualitas cluster yang telah dilakukan berupa nilai
silhouette coefficient.
6. Apabila ada dokumen berita baru yang baru dimasukan ke dalam sistem maka akan
dilakukan proses dari awal.
3.2.4 Keluaran Sistem
Keluaran sistem dari tugas akhir ini adalah berupa kumpulan berita yang telah
terkelompok. Berita ini akan terkumpul sesuai dengan cluster nya. Jika cluster olahraga maka
cluster tersebut akan diisi dengan berita berita olahraga. Jika cluster ekonomi maka cluster
tersebut akan diisi denga berita berita ekonomi begitu seterusnya sesuai dengan kemiripan dari
setiap cluster.
3.3 Software Tools
Software yang digunakan untuk pembuatan dan pemodelan sistem keamanan ini adalah
sebagai berikut :
1. Sistem Operasi : Windows 7
2. Bahasa pemrogaman : Java JDK 1.7.0
3. Net Beans IDE 7.0.1
4. Notepad++
5. Microsoft Excel
6. XA
25
3.4 Model Analisis
3.4.1 Use Case Diagram
User
System
Insertion of Data
Preprocess of Data
Selection of
cluster method
Gambar 3.2 Use Case System Clusterinng
26
3.4.2 Skenario Use Case Diagram
Skenario yang digunakan untuk menjelaskan use case diagram di atas adalah sebagai
berikut :
3.4.2.1 Insertion of data
Use case : Insertion of data
Aktor : User
Tujuan` : Untuk melihat isi dari dokumen yang diinputkan
Deskripsi : User memasukkan dokumen yang ingin di-clustering (*.txt) kemudian user
memilih dokumen mana yang ingin dilihat isinya, sistem akan menampilkan
isi dari dokumen tersebut.
Skenario
Kondisi awal : Sistem belum mempunyai dokumen yang ingin diproses dan belum ada
yang dokumen yang bisa ditampilkan.
Tabel 3-9 Skenario Insert data
No. Aksi yang dilakukan Aktor Respon dari Sistem
1. Aktor memasukkan dokumen-
dokumen yang ingin diproses
Membuka tempat penyimpanan
dokumen-dokumen
2. Aktor memilih dokumen yang ingin
dilihat isinya
Menampilkan isi dari dokumen
Kondisi Akhir : Sistem menampilkan isi dari dokumen yang dipilih oleh user.
3.4.2.2 Preprocess of data
Use case : PreProcessing
Aktor : User
Tujuan : Untuk melakukan preprocessing terhadap data masukan
Deskripsi : User melakukan preprocessing (tokenization, stopword removal, stemming,
dan term weighting) terhadap data masukan.
Skenario
Kondisi Awal : Data masukan (*.txt) masih berupa dokumen yang tidak terstruktur dan
belum mengalami preprocessing.
27
Tabel 3-10 Skenario Preprocessing
No. Aksi yang dilakukan Aktor Respon dari Sistem
1. Aktor menekan tombol
preprocessing
Melakukan preprocessing
terhadap data masukan.
2. Aktor memilih dokumen yang ingin
dilihat isinya
Menampilkan term dari dokumen
yang telah mengalami
preprocessing
3.4.2.3 Selection of cluster method
Use case : Clustering
Aktor : User
Tujuan : Untuk melakukan clustering terhadap data masukan menggunakan salah
satu metode hierarchical agglomerative clustering.
Deskripsi : Dokumen berita yang telah mengalami preprocessing di-clustering.
Skenario
Kondisi awal : Dokumen berita hasil preprocessing belum diclustering.
Tabel 3-11 Skenario Clustering
No. Aksi yang dilakukan Aktor Respon dari Sistem
1. Aktor memilih jumlah cluster
yang ingin dibentuk
2. Aktor memilih metode
hierarchical agglomerative
clustering yang ingin digunakan
3. Aktor menekan tombol
clustering
Melakukan clustering terhadap
dokumen yang sudah di
preprocessing dengan jumlah
cluster dan metode yang telah
dipilih
Kondisi akhir : Setiap dokumen sudah berada dalam suatu cluster.
28
3.5 Data Base
DBMS yang digunakan dalam pembangunan sistem adalah MySql. Database yang dibuat
terdiri dari dua buah tabel yaitu kamus dan stopwords. Tabel kamus berisi kumpulan kata-kata
dasar yang digunakan untuk keperluan stemming Nazief-Adriani, sedangkan tabel stopwords
berisi kumpulan stopword yang digunakan untuk proses stopword removal. Isi dari tabel-tabel ini
hanya akan di-load ke dalam sistem sebanyak satu kali dan disimpan dalam array untuk
mempercepat proses komputasi.
3.6 Desain Interface
Gambar 3.3 Desain Interface System Clustering
Dalam desain ini di buat berdasarkan use case yang telah di jelaskan di atas. Use Case
diatas menjelaskan bahwa system bisa melakukan input data. Dalam input data ini akan
diarahkan ke folder yang akan berisi dokumen dokumen yang akan diolah. Dan dokumen
tersebut akan ditampilkan ke dalam document collection. Dan setiap dokumen akan bisa dibaca
pada view document. Preprocesing akan memberikan pengolahan data menjadi data yang akan
di hitung representasi nya menjadi nilai yang bisa di olah untuk pen-cluster. Kemudian akan
dipilih metode yang ingin digunakan single linkage atau K-means.
//: Browse
View Document
Document
collection
Single Linkage
K - Means
Preproce
sing
29
3.7 Implementasi Sistem
Aplikasi tugas akhir ini diimplementasikan dalam bahasa java. Software yang
digunakan untuk membuat aplikasi tugas akhir ini adalah Netbeans 7.1. Spesifikasi
hardware pembuatan aplikasi adalah processor intel core 2 dou, memory 2 GB, harddisk
320 GB, LCD 14. Sistem operasi yang digunakan adalah Windows 7 Professional.
Software software pendukung aplikasi ini adalah notepad++. Peranan dari software
software pendukung ini sangat membantu dalam memecahkan setiap permasalahan
gambar. Terutam dalam mengubah ekstensi setiap gambar. Dengan demikian tidak perlu
membuat suatu source code yang mengubah ekstensi suatu gambar. Cukup menggunakan
software software pendukung tersebut.
3.8 Rancangan Pengujian
Pada tugas akhir ini akan digunakan metode pengujian perancangan system
menggunkan silhouette coofecient dan purity. Untuk silhouette coofecient jika nilai nya
mendekati 1 maka kualitas dari kluster tersebut sangat baik. Kualitas ini memberikan
bahwa setiap kluster sudah terkelompok dengan tingkat kemiripan yang sama persis.
Purity metode pengujian cluster dengan mengecek setiap cluster secara manual.
Maksudnya adalah dengan membaca dokumen setiap cluster satu persatu. Apabila tiap
cluster semakin sama maka cluster tersebut semakin murni. Metode pengujian ini akan
memberikan tingkat pengujian yang lebih kuat karena hasil nya bisa langsung terbukti.
30
BAB IV KONTRIBUSI KEILMUAN
Tugas akhir ini merupakan bidang keilmuan data mining. Data mining merupakan cabang
ilmu yang mempelajari suatu proses untuk mendapatkan informasi yang berguna dari gudang
basis data yang besar. Untuk mendapatkan informasi tersebut dilakukan penelusuran terhadap
data yang ada supaya bisa membangun suatu model data. Model data tersebut digunakan untuk
mengenali pola pola data yang ada untuk mengetahui pola data lain yang tidak berada di dalam
basis data tersebut. Dengan demikian jika kita ingin membutuhkan suatu sistem prediksi maka
system tersebut akan memberikan hasil yang akurat. Kebutuhan sistem pengelompokkan data
akan menghasilkan kelompok kelompok data yang semakin mirip tiap kelompoknya. Kebutuhan
sistem anomali data transaksi semakin baik system pendeteksian data nya sehingga mengetahui
langkah selanjutnya yang harus dilakukan.
Posisi data mining dalam berbagai ilmu pengetahuan di jelaskan dalam gambar berikut :
Kesamaan data mining dengan cabang ilmu diatas tidak mencapai seratus persen. Dalam bidang
statistik kesamaannya mengenai penyampelan, estimasi, dan pengujian hipotesis. Dalam bidang
kecerdasan buatan (artificial intellegence), pengenalan pola (pattern recognation), pembelajaran
mesin (machine learning) data mining memiliki kesamaan pembahasan mengenai algoritma
pencarian, teknik pemodelan, teori pembelajaran. Dalam bidang basis data, data mining
menggunkan basis data sebagai pendukung media penyimpanan yang efesien, pengindeksan,
STATISTIK
INFORMATION
RETRIEVAL
AI, MACHINE
LEARNING, PATTERN
RECOGNITION
DATA
MINING
Data Base, Parallel
Computing, Distributed
Computing
31
pemrosesan query. Bidang komputasi parallel, data mining sering menggunakan pemrosesan
komputasi parallel untuk memberikan kinerja yang tinggi untuk ukuran set data yang besar,
sedangkan dalam komputasi terdistribusi, data mining menggunakan konsep terdistribusi untuk
menangani masalah ketika data tidak dapat disimpan dalam suatu tempat.
32
DAFTAR PUSTAKA
Agusta, Y.2007.K-Means-Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan
Informatika, Vol.3, pp.47-60.(22 April 2013)
Hartini, E. 2012. Metode Clustering Hirarki. http://www.batan.go.id/ppin/lokakarya/
LKSTN_15/Entin.pdf. (22 April 2013).
He, Q. (1999). A Review of Clustering Algorithms as Applied in IR
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.4917&rep=rep1&type=pdf.
(22 April 2013).
Prasetyo, Eko. 2012. Data Mining Konsep dan Aplikasi menggunakan MATLAB. Andi:
Jogjakarta.