Академический Документы
Профессиональный Документы
Культура Документы
Disusun Oleh :
A. DESKRIPSI UMUM Data yang diolah pada proses data mining ini adalah data MPG otomatis. Setelah dilakukan analisis awal data ini memiliki beberapa atribut yaitu : mpg, cylinders, displacement, horsepower, weight, acceleration, model year, and origin. Metode yang dipilih untuk melakukan analisis adalah data mining model klasifikasi dengan menggunakan algoritma C4.5 untuk membangun Decision Tree. Pemilihan metode didasarkan pada pertimbangan bahwa dengan sudah dimilikinya data lama yang dapat digunakan membangun decision tree. B. DESKRIPSI DATA N o 1. Atribut Mpg : Value terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 2 yaitu extravagant dan economical terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu big-C, medium-C dan small-C terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu high-D, mediumD dan low-D terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu medium-HP, high-HP dan low-HP terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu big-W, mediumW dan small-W terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu slow-A, fast-A dan medium-A terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu seventy-Ydan
2.
Cylinders
3.
Displacement
4.
Horsepower
5.
Weight
6.
Acceleration
7.
Model year
8.
Origin
eighty-Y terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu one-O, two-O dan three-O Extravagant, economical
Untuk proses data mining dilakukan dua kali analisis yakni dengan proses perhitungan otomatis menggunakan software Tanagra. Datanya sejumlah 398 dengan jumlah field 8 buah. Untuk targetnya adalah mpg dengan inputannya berjumlah 7 buah, yaitu cylinders, displacement, horsepower, weight, acceleration, model year, and origin. Sebelum dilakukan pemrosesan menggunakan software Tanagra, data mentah yang diproses harus dilakukan pengubahan dulu dari data yang continuos yang berwujud angka diubah menjadi symbol tertentu, karena Tanagra tidak bisa memprosesnya. Data sebelum diubah:
2. Pilih file data dengan klik Browse pada Dataset, disini klik data_3.xls.Lalu klik OK.
3. Muncul dataset.Klik data visualization View dataset.Drag ke View dataset 1 lalu klik View
4. Klik pada toolbar atas, maka muncul Define status 1.Klik Target => masukkan mpg
5. Klik Spv learning C4.5.Drag ke View dataset 1, muncul Supervised Learning 1 (C4.5).Klik kanan pada Supervised Learning 1 (C4.5) pilih Supervised parameter
Berikut tampilan tiap kita mengklik tiap-tiap layer pada kolom kiri Tanagra.
1. Dataset (data_3.xls)
2. View dataset 1
3. Define status 1
Berdasarkan analisi yang kami lakukan maka Berdasarkan analisis yang kami peroleh didapat bahwa tingkat pesimistis (convidence) sebesar 0.1 atau sebanyak 10%
Dataset yang digunakan pada Clustering tidak menampilkan Class / target attribute, sedangkan Dataset yang digunakan pada Classification mutlak harus menampilkan class / target attribute. Pengetahuan yang dihasilkan oleh metode Clustering berupa Cluster, sedangkan Pengetahuan yang dihasilkan oleh metode Classification berupa selain Cluster (bisa Decision Tree, Ruleset, Weight2 pada BackPropagation, dll).
Clustering pada umumnya menggunakan pembelajaran unsupervised learning, sedangkan Classification umumnya menggunakan pembelajaran supervised learning.
: Kumpulan data yang siap dimining. : Komponen/Properties/Column/Field yang ada pada dataset. : Attribute pada Dataset yang berisi penggolongan / Target Attribute. : 1 data pada dataset (Row\