Академический Документы
Профессиональный Документы
Культура Документы
Aplikasi Classification and Regression Tree (CART) dan Regresi Logistik Ordinal
dalam Bidang Pendididikan
(Studi Kasus: Predikat Kelulusan Mahasiswa S1 Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Mulawarman)
The Application of Classification and Regression Tree (CART) and Ordinal Logistic Regression
in Education
(Case Study: Predicate of Bachelor Degree’s Graduation at Faculty of Mathematics
and Natural Sciences)
Abstract
CART method is a nonparametric statistical methods which is for obtaining accurate data group in the
classification analysis. CART main goal is to get an accurate data as a group identifier of a classification.
CART can be applied in three main steps, namely the establishment of a classification tree, trimming the
classification tree, and determination of optimal classification tree. Ordinal logistic regression is a statistical
method for analysis response variables that have an ordinal scale consisting of three or more categories.
Predictor variables that can be included in the model can be either continuous or categorical data consisting
of two or more variables. This study wanted to know the classification results FMIPA UNMUL predicate
graduation, the main factor that affect the predicate graduation FMIPA UNMUL who graduated in 2014,
and a comparison of the accuracy of the classification results between CART and ordinal logistic regression.
The results showed that gender (X1), region origin (X2), major (X3), the status of secondary school (X4), and
duration of the study period (X5) is the primary identifier graduation predicate FMIPA UNMUL, whereas
gender (X1 ) and duration of the study period (X5) is a factor that affects the predicate graduation. Ordinal
logistic regression model was able to predict with 65% accuracy, while the CART method has a predictive
accuracy of 54.9%
Indeks Prestasi Kumulatif (IPK) adalah salah nominal = 2L-1 – 1 pemilahan, dan jika variabel
satu tolak ukur keberhasilan dalam studi seorang prediktor kategori ordinal = L – 1 pemilahan.
mahasiswa. Semakin tinggi IPK, maka Sampel tersebut akan dipilah berdasarkan aturan
mengindikasikan bahwa mahasiswa tersebut pemilahan dan kriteria goodness-of-split. Untuk
cerdas. Dan sudah menjadi kewajiban bagi mengukur tingkat keheterogenan suatu kelas dari
universitas untuk mengontrol prestasi suatu node tertentu dalam pohon klasifikasi
mahasiswanya. IPK akan digunakan untuk dikenal dengan istilah impurity measure i (t).
menentukan kriteria predikat kelulusan Ukuran ini akan membantu kita menemukan
mahasiswa pada saat lulus nanti. Menurut buku fungsi pemilah yang optimal. Fungsi
peraturan akademik Universitas Mulawarman keheterogenan yang digunakan adalah indeks
terdapat empat kategori predikat kelulusan Gini seperti berikut:
mahasiswa, yaitu cukup, memuaskan, sangat
memuaskan dan dengan pujian (cumlaude).
i( t ) p( j | t ) p( i | t )
ji
(1)
Adapun tujuan penelitian ini yaitu untuk p( j | t ) adalah peluang j pada node t. Goodness
mengetahui hasil pengklasifikasian predikat
kelulusan dengan menggunakan metode CART, of split merupakan suatu evaluasi pemilahan oleh
mengetahui faktor yang mempengaruhi predikat pemilah s pada node t. Goodness of split ( s, t )
kelulusan dengan regresi logistik ordinal, dan didefinisikan sebagai penurunan keheterogenan.
membandingkan ketepatan klasifikasi CART dan Kualitas ukuran dari seberapa baik pemilah s
regresi logistik ordinal. dalam menyaring data menurut kelas merupakan
ukuran penurunan keheterogenan dari suatu kelas
CART(Classification and Regression Tree) dan didefinisikan sebagai
CART adalah suatu metode atau algoritma
dari salah satu teknik eksplorasi data yaitu teknik ( s ,t ) i( s ,t ) i( t ) p L i( t L ) p R i( t R ) (2)
pohon keputusan. Metode ini di kembangkan oleh Tahap kedua adalah penentuan terminal node.
Leo Breiman, Jerome H. Friedman, Richard A. Suatu node t akan menjadi terminal node atau
Olsen dan Charles J. Stone sekitar tahun 1980-an. tidak, akan dipilah kembali bila pada node t tidak
CART dikembangkan untuk melakukan analisis terdapat penurunan keheterogenan secara berarti
klasifikasi pada variabel respon baik yang atau adanya batasan minimum n seperti hanya
nominal, ordinal, maupun kontinu. CART juga terdapat satu pengamataan pada tiap node anak.
dapat menyeleksi variabel-variabel dan interaksi- Umumnya jumlah kasus minimum dalam suatu
interaksi variabel yang paling penting dalam terminal akhir adalah 5, dan apabila hal itu
menentukan hasil atau variabel responnya. CART terpenuhi maka pengembangan pohon dihentikan
menghasilkan suatu pohon klasifikasi jika (Lewis, 2000).
variabel responnya kategorik, dan menghasilkan Tahap ketiga yaitu penandaan label kelas.
pohon regresi jika variabel responnya kontinu. Penandaan label kelas pada terminal node
Tujuan utama CART adalah untuk mendapatkan dilakukan berdasarkan aturan jumlah terbanyak,
suatu kelompok data yang akurat sebagai penciri yaitu:
dari suatu pengklasifikasian (Timofeev, 2004). N j(t )
Pohon klasifikasi merupakan metode penyekatan p( j0 | t ) maxj p( j | t ) maxj (3)
data secara berulang (rekursif) dan secara biner N( t )
(binary recursive partitioning), karena selalu dimana p( j | t ) adalah proporsi kelas j pada node
membagi kumpulan data menjadi dua sekatan. t, Nj(t) adalah jumlah pengamatan kelas j pada
Setiap sekatan data dinyatakan sebagai node node t dan N(t) adalah jumlah pengamatan pada
dalam pohon yang terbentuk. Pembentukan pohon node t. Label kelas terminal node t adalah j0 yang
klasifikasi dilakukan melalui penyekatan gugus memberi nilai dugaan kesalahan pengklasifikasian
data dengan sederetan penyekat biner sampai node t terbesar. Proses pembentukan pohon
dihasilkan node akhir. Proses pembentukannya klasifikasi berhenti saat terdapat hanya satu
terdiri dari 3 tahapan, yaitu pemilihan pemilah, pengamatan dalam tiap-tiap node anak atau
penentuan node terminal, dan penandaan label adanya batasan minimum n, semua pengamatan
kelas. dalam tiap node anak identik, dan adanya batasan
jumlah level/kedalaman pohon maksimal.
Pembentukan Pohon Klasifikasi
Tahap pertama membentuk pohon klasifikasi Pemangkasan Pohon Klasifikasi
digunakan sampel data Learning (L) yang masih Setelah terbentuk pohon maksimal, tahap
bersifat heterogen. Setiap pemilahan hanya selanjutnya adalah pemangkasan pohon untuk
bergantung pada nilai yang berasal dari suatu mencegah terbentuknya pohon klasifikasi yang
variabel independen. Rumus kemungkinan berukuran besar dan kompleks. Pemangkasan
pemilah yaitu jika variabel prediktor kontinu = n (pruning) yaitu suatu penilaian ukuran pohon
– 1 pemilahan, jika variabel prediktor kategori tanpa mengorbankan ketepatan melalui
pengurangan node pohon sehingga mencapai Model yang dapat dipakai untuk regresi
ukuran pohon yang layak. Ukuran pemangkasan logistik ordinal adalah model logit. Model logit
yang digunakan untuk memperoleh ukuran pohon tersebut adalah cumulative logit models. Pada
yang layak adalah Cost Complexity Minimum model logit ini sifat ordinal dari respon Y
(Breiman et. al, 1993). Ukuran complexity adalah dituangkan dalam peluang kumulatif yaitu
sebagai berikut: peluang kurang dari satu atau sama dengan
~ kategori respon ke-j pada p variabel prediktor
R ( t ) R( T ) T (4) yang dinyatakan dalam vektor X, P(Y ≤ j|X),
dengan peluang lebih besar dari kategori respon
dimana, R( T ) adalah Resubtution Estimate ke-j, P(Y > j|X) (Hosmer dan Lameshow, 2000).
(Proporsi kesalahan pada sub pohon), α adalah Peluang kumulatif, P(Y ≤ j|X), didefinisikan
kompleksitas Parameter (Complexity Parameter) sebagai berikut:
~ p
dan T adalah ukuran banyaknya node terminal exp j
k X k
P( Y j | X ) k 1 (8)
pohon T. p
Cost complexity prunning menentukan suatu 1 exp j
k X k
k 1
pohon bagian T ( ) yang meminimumkan R ( t )
dimana j = 1,2,…, J-1 adalah kategori respon
pada seluruh pohon bagian, atau untuk setiap nilai (Agresti, 2002) . .
(1 )
i
1 yi k 1 k
c
i
L
dimana, ok y
k 1
i
2 ln 0 (11)
Lk c
m j ˆ j
Pengambilan Keputusan k
n'k
k 1
Statistik uji G mengikuti distribusi chi-Squared
dengan derajat bebas banyaknya parameter dalam nk = total pengamatan grup k
model, karena itu untuk memperoleh keputusan Pengambilan keputusan
uji adalah membandingkan nilai G dengan nilai Uji ini mengikuti distribusi Chi Squared
H0 terima: jika G ≤ χ2(p,α) atau nilai p-value ≥ α dengan derajat bebas df – 2. Daerah
H0 tolak : jika G > χ2(p,α) atau nilai p-value < α penolakan H0 adalah jika nilai Ĉ > χ2(df-2)
(Basuki, 2004) atau nilai P-value < α.
(Hosmer and Lameshow, 2000)
Uji Individu
Untuk pengujian signifikansi parameter model Interpretasi Koefisien Model Regresi Logistik
secara individu dapat diuji dengan Wald Test. Ordinal
Hasil dari uji Wald ini akan menunjukkan apakah Interpretasi atau penaksiran dari perbandingan
suatu variabel prediktor signifikan atau layak selisih/odds ratio (ψ) adalah menjelaskan berapa
untuk masuk ke dalam model atau tidak. kali lipat kenaikan atau penurunan peluang Y = 1,
Hipotesis jika nilai variabel prediktor (X) berubah sebesar
H0 : βk = 0, k = 1,2,…, n (tidak ada pengaruh nilai tertentu. Nilai odds ratio selalu positif.
variabel prediktor ke-k terhadap variabel didapatkan penduga untuk odds ratio sebagai
respon) berikut:
H1 : βk ≠ 0, k = 1,2,3,…,n (ada pengaruh
variabel prediktor ke-k terhadap exp( ˆ k ) (14)
variabel respon)