0 оценок0% нашли этот документ полезным (0 голосов)
2K просмотров10 страниц
Dokumen tersebut membahas tentang penanganan outlier pada data set, yang merupakan nilai-nilai yang berbeda dari kebanyakan data. Ada dua teknik untuk mendeteksi outlier, yaitu berdasarkan statistik seperti rata-rata dan simpangan baku, serta berdasarkan jarak antar nilai dengan menghitung jarak terdekatnya. Contoh soal juga diberikan untuk latihan mendeteksi outlier menggunakan dua teknik tersebut.
Dokumen tersebut membahas tentang penanganan outlier pada data set, yang merupakan nilai-nilai yang berbeda dari kebanyakan data. Ada dua teknik untuk mendeteksi outlier, yaitu berdasarkan statistik seperti rata-rata dan simpangan baku, serta berdasarkan jarak antar nilai dengan menghitung jarak terdekatnya. Contoh soal juga diberikan untuk latihan mendeteksi outlier menggunakan dua teknik tersebut.
Авторское право:
Attribution Non-Commercial (BY-NC)
Доступные форматы
Скачайте в формате PDF, TXT или читайте онлайн в Scribd
Dokumen tersebut membahas tentang penanganan outlier pada data set, yang merupakan nilai-nilai yang berbeda dari kebanyakan data. Ada dua teknik untuk mendeteksi outlier, yaitu berdasarkan statistik seperti rata-rata dan simpangan baku, serta berdasarkan jarak antar nilai dengan menghitung jarak terdekatnya. Contoh soal juga diberikan untuk latihan mendeteksi outlier menggunakan dua teknik tersebut.
Авторское право:
Attribution Non-Commercial (BY-NC)
Доступные форматы
Скачайте в формате PDF, TXT или читайте онлайн в Scribd
Pengertian Outlier Seringkali pada data set, terdapat suatu nilai yang berbeda, lain dari biasanya dan tidak mencerminkan karakteristik data secara umum. Nilai yang tidak konsisten tersebut dinamakan dengan outlier. Berikut contoh dari outlier : Umur seseorang pada database diisi dengan nilai -1, kesalahan tersebut terjadi dikarenakan setting default dari field yang tidak diisi sehingga otomatis akan diisi dengan nilai -1. Jumlah anak yang dimiliki oleh seseorang adalah 25, nilai ini tidak umum dan perlu diperiksa kebenarannya, mungkin terjadi kesalahan ketik pada saat mengentri data. Deteksi Outlier Berdasar Teknik Statistik Cara paling sederhana untuk mendeteksi outlier untuk sample satu dimensi adalah berdasarkan statistic. Perlu dilakukan perhitungan nilai rata-rata (mean) dan standart deviasi. Kemudian berdasarkan nilai tersebut dibentuk fungsi threshold berdasarkan fungsi standart deviasi. Semua sample yang berada diluar nilai threshold berpotensi untuk dinyatakan sebagai outlier Handling Outlier based on Statistics Dimisalkan terdapat data set yang merepresentasikan fitur Usia yang memiliki 12 (dua belas) nilai sebagai berikut : Usia = {3,56,23,39,156,+1,22,9,28,139,31,55,20,-67, 37,11,55,+5,37) Kemudian dilakukan perhitungan terhadap nilai mean dan variance Nean = 39.9 Standard deviation = +5.65 Jika kita nyatakan nilai threshold untuk distribusi normal dari data sebagai berikut : Threshold = Nean 2 Standard deviation Naka semua data yang berada diluar range {-51.+, 131.2) dinyatakan sebagai outliers. Usia sendiri diketahui bahwa nilainya selalu lebih dari nol sehingga nilai threshold dapat dinyatakan dengan {0,131.2). Coba cari, yang mana outlier ? Distance-based Outlier Detection Netode ini berusaha mengeliminasi keterbatasan dari pendeteksian outlier berdasarkan teknik statistic. Perbedaan paling penting diantara dua metode ini adalah bahwa metode yang kedua ini cocok digunakan untuk data dengan banyak dimensi (multidimensi). Cara yang digunakan pada pendekatan yang kedua ini adalah dengan mengevaluasi nilai jarak (distance) diantara semua sample data set yang berukuran n-dimensi. Dinyatakan bahwa sampel si pada data set S adalah outlier jika nilai p dari sample S yang memiliki jarak lebih besar daripada d, nilainya lebih besar daripada nilai threshold yang sudah ditentukan. Dengan kata lain, outlier berdasarkan jarak (distance based outliers) disini mencari data-data yang memiliki jumlah tetangga jauh paling banyak (p) dari jarak d yang sudah ditetapkan. !lustrasi Distance-based Outlier Detection (1) data set S dua dimensi berikut ini dengan parameter pa+ dan da3 S={s1,s2,s3,s+,s5,s6,s7) ={(2,+),(3,2),(1,1),(+,3),(1,6),(5,3), (+,2)) Digunakan jarak Euclidian, d = [(x1-x2)2 + (y1-y2) 2| !lustrasi Distance-based Outlier Detection (2) !lustrasi Distance-based Outlier Detection (3) Kemudian berdasarkan tabel jarak tersebut kita hitung nilai untuk parameter p dengan jarak threshold yang sudah ditetapkan (d=3) untuk setiap sample data. Dari tabel, bisa kita lihat bahwa samples S3 dan S5 adalah outliers LATIHAN SOAL : 1. Diberikan sample empat dimensi dengan missing value sebagai berikut : X1={0,1,2,2) X2={2,1,_,1) X3={_,2,_,_) Jika domain untuk semua atribut [0,1,2| dan missing value dinterprestasikan sebagai don't'care value" lengkapi data tersebut sehingga tidak terdapat missing value. 2. Jumlah anak yang dimiliki oleh pasien pada database rumah sakit dinyatakan dengan vector berikut : C = {2,1,0,3,1,5,6,+,-2,0,0,8,15,6) Temukan outliers dalam himpunan C dengan menggunakan standard statistical parameters mean dan variance Jika nilai threshold diubah dari 3 standard deviations ke 2 standard deviations, ada berapa tambahan data yang menjadi outlier ? 3. Diberikan data set X tiga dimensi sebagai berikut : X=[{1,2,0), {2,1,+),{2,1,+),{0,1,3),{2,1,3),{+,3,2),{5,2,1),{6,6,6),{0,0,0),{2,3,3)|. Temukan outliers dengan menggunakan distance based technique jika: threshold distance=+, dan threshold fraction p untuk non-neighbor samples=3. Latihan Pemrograman Buat Prosedur (dalam bahasa pemrograman apapun) untuk menghilangkan outlier pada dataset
Goodness of Fit Test - Bab 1 Pendahuluan - Modul 5 - Laboratorium Statistika Industri - Data Praktikum - Risalah - Moch Ahlan Munajat - Universitas Komputer Indonesia