Вы находитесь на странице: 1из 10

Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

Aplikasi Classification and Regression Tree (CART) dan Regresi Logistik Ordinal
dalam Bidang Pendididikan
(Studi Kasus: Predikat Kelulusan Mahasiswa S1 Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Mulawarman)

The Application of Classification and Regression Tree (CART) and Ordinal Logistic Regression
in Education
(Case Study: Predicate of Bachelor Degree’s Graduation at Faculty of Mathematics
and Natural Sciences)

David Siahaan1, Sri Wahyuningsih2, dan Fidia Deny Tisna Amijaya3


1
Laboratorium Statistika Terapan FMIPA Universitas Mulawarman
2,3
Program Studi Statistika FMIPA Universitas Mulawarman
Email: deviidsuho@gmail.com

Abstract
CART method is a nonparametric statistical methods which is for obtaining accurate data group in the
classification analysis. CART main goal is to get an accurate data as a group identifier of a classification.
CART can be applied in three main steps, namely the establishment of a classification tree, trimming the
classification tree, and determination of optimal classification tree. Ordinal logistic regression is a statistical
method for analysis response variables that have an ordinal scale consisting of three or more categories.
Predictor variables that can be included in the model can be either continuous or categorical data consisting
of two or more variables. This study wanted to know the classification results FMIPA UNMUL predicate
graduation, the main factor that affect the predicate graduation FMIPA UNMUL who graduated in 2014,
and a comparison of the accuracy of the classification results between CART and ordinal logistic regression.
The results showed that gender (X1), region origin (X2), major (X3), the status of secondary school (X4), and
duration of the study period (X5) is the primary identifier graduation predicate FMIPA UNMUL, whereas
gender (X1 ) and duration of the study period (X5) is a factor that affects the predicate graduation. Ordinal
logistic regression model was able to predict with 65% accuracy, while the CART method has a predictive
accuracy of 54.9%

Keywords: CART, classification trees, predicate graduation, ordinal logistic regression.

Pendahuluan masing metode tersebut memiliki kekuatan dan


Pengklasifikasian merupakan salah satu kelemahannya masing-masing (Maimon and
metode statistik untuk mengelompokkan atau Rokach, 2010)
mengklasifikasikan suatu data yang disusun CART adalah salah satu metode atau
secara sistematis. Masalah klasifikasi sering alogaritma dari salah satu teknik eksplorasi data
dijumpai dalam kehidupan sehari-hari, baik yaitu teknik pohon keputusan. CART
pengklasifikasian data pada bidang akademik, dikembangkan untuk melakukan analisis
kesehatan, segmentasi pasar, maupun pada bidang klasifikasi pada variabel respon baik yang
lainnya. Masalah-masalah tersebut dapat nominal, ordinal maupun kontinu. CART juga
diselesaikan dengan metode klasifikasi, namun dapat menyeleksi variabel-variabel dan interaksi-
pada penyelesaiannya perlu diperhatikan dalam interaksi variabel yang paling penting dalam
memilih metode klasifikasi yang tepat. menentukan hasil atau variabel prediktor
Metode klasifikasi dapat dilakukan dengan (Breiman et al, 1993).
pendekatan parametrik dan nonparametrik. Salah Regresi logistik terbagi menjadi tiga, yaitu
satu metode klasifikasi dengan pendekatan analisis regresi logistik biner, regresi logistik
nonparametrik yang sering digunakan adalah nominal, dan regresi logistik ordinal. Regresi
Decision Tree (Pohon keputusan). Pohon logistik biner digunakan ketika variabel prediktor
keputusan adalah suatu metode eksplorasi terdapat dua kategori, regresi logistik nominal
berstruktur pohon untuk melihat hubungan antar digunakan ketika variabelnya lebih dari dua.
variabel respon dengan variabel penjelasnya. Sedangkan regresi logistik ordinal digunakan
Beberapa metode yang dapat digunakan dalam untuk menganalisis variabel respon yang
metode pohon keputusan antara lain CHAID mempunyai skala ordinal yang terdiri atas tiga
(Chi-Squared Automatic Interaction Detection kategori atau lebih.Variabel respon yang dapat
Analysis), QUEST (Quick, Unbiased Efficient, disertakan dalam model berupa data kategori atau
Statistical Tree), CART( Classification and kontinu yang terdiri atas dua variabel atau lebih
Regression Tree), dan lain-lain dimana masing- (Agresti, 2002).

Program Studi Statistika FMIPA Universitas Mulawarman 95


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

Indeks Prestasi Kumulatif (IPK) adalah salah nominal = 2L-1 – 1 pemilahan, dan jika variabel
satu tolak ukur keberhasilan dalam studi seorang prediktor kategori ordinal = L – 1 pemilahan.
mahasiswa. Semakin tinggi IPK, maka Sampel tersebut akan dipilah berdasarkan aturan
mengindikasikan bahwa mahasiswa tersebut pemilahan dan kriteria goodness-of-split. Untuk
cerdas. Dan sudah menjadi kewajiban bagi mengukur tingkat keheterogenan suatu kelas dari
universitas untuk mengontrol prestasi suatu node tertentu dalam pohon klasifikasi
mahasiswanya. IPK akan digunakan untuk dikenal dengan istilah impurity measure i (t).
menentukan kriteria predikat kelulusan Ukuran ini akan membantu kita menemukan
mahasiswa pada saat lulus nanti. Menurut buku fungsi pemilah yang optimal. Fungsi
peraturan akademik Universitas Mulawarman keheterogenan yang digunakan adalah indeks
terdapat empat kategori predikat kelulusan Gini seperti berikut:
mahasiswa, yaitu cukup, memuaskan, sangat
memuaskan dan dengan pujian (cumlaude).
i( t )   p( j | t ) p( i | t )
ji
(1)

Adapun tujuan penelitian ini yaitu untuk p( j | t ) adalah peluang j pada node t. Goodness
mengetahui hasil pengklasifikasian predikat
kelulusan dengan menggunakan metode CART, of split merupakan suatu evaluasi pemilahan oleh
mengetahui faktor yang mempengaruhi predikat pemilah s pada node t. Goodness of split  ( s, t )
kelulusan dengan regresi logistik ordinal, dan didefinisikan sebagai penurunan keheterogenan.
membandingkan ketepatan klasifikasi CART dan Kualitas ukuran dari seberapa baik pemilah s
regresi logistik ordinal. dalam menyaring data menurut kelas merupakan
ukuran penurunan keheterogenan dari suatu kelas
CART(Classification and Regression Tree) dan didefinisikan sebagai
CART adalah suatu metode atau algoritma
dari salah satu teknik eksplorasi data yaitu teknik  ( s ,t )   i( s ,t )  i( t )  p L i( t L )  p R i( t R ) (2)
pohon keputusan. Metode ini di kembangkan oleh Tahap kedua adalah penentuan terminal node.
Leo Breiman, Jerome H. Friedman, Richard A. Suatu node t akan menjadi terminal node atau
Olsen dan Charles J. Stone sekitar tahun 1980-an. tidak, akan dipilah kembali bila pada node t tidak
CART dikembangkan untuk melakukan analisis terdapat penurunan keheterogenan secara berarti
klasifikasi pada variabel respon baik yang atau adanya batasan minimum n seperti hanya
nominal, ordinal, maupun kontinu. CART juga terdapat satu pengamataan pada tiap node anak.
dapat menyeleksi variabel-variabel dan interaksi- Umumnya jumlah kasus minimum dalam suatu
interaksi variabel yang paling penting dalam terminal akhir adalah 5, dan apabila hal itu
menentukan hasil atau variabel responnya. CART terpenuhi maka pengembangan pohon dihentikan
menghasilkan suatu pohon klasifikasi jika (Lewis, 2000).
variabel responnya kategorik, dan menghasilkan Tahap ketiga yaitu penandaan label kelas.
pohon regresi jika variabel responnya kontinu. Penandaan label kelas pada terminal node
Tujuan utama CART adalah untuk mendapatkan dilakukan berdasarkan aturan jumlah terbanyak,
suatu kelompok data yang akurat sebagai penciri yaitu:
dari suatu pengklasifikasian (Timofeev, 2004). N j(t )
Pohon klasifikasi merupakan metode penyekatan p( j0 | t )  maxj p( j | t )  maxj (3)
data secara berulang (rekursif) dan secara biner N( t )
(binary recursive partitioning), karena selalu dimana p( j | t ) adalah proporsi kelas j pada node
membagi kumpulan data menjadi dua sekatan. t, Nj(t) adalah jumlah pengamatan kelas j pada
Setiap sekatan data dinyatakan sebagai node node t dan N(t) adalah jumlah pengamatan pada
dalam pohon yang terbentuk. Pembentukan pohon node t. Label kelas terminal node t adalah j0 yang
klasifikasi dilakukan melalui penyekatan gugus memberi nilai dugaan kesalahan pengklasifikasian
data dengan sederetan penyekat biner sampai node t terbesar. Proses pembentukan pohon
dihasilkan node akhir. Proses pembentukannya klasifikasi berhenti saat terdapat hanya satu
terdiri dari 3 tahapan, yaitu pemilihan pemilah, pengamatan dalam tiap-tiap node anak atau
penentuan node terminal, dan penandaan label adanya batasan minimum n, semua pengamatan
kelas. dalam tiap node anak identik, dan adanya batasan
jumlah level/kedalaman pohon maksimal.
Pembentukan Pohon Klasifikasi
Tahap pertama membentuk pohon klasifikasi Pemangkasan Pohon Klasifikasi
digunakan sampel data Learning (L) yang masih Setelah terbentuk pohon maksimal, tahap
bersifat heterogen. Setiap pemilahan hanya selanjutnya adalah pemangkasan pohon untuk
bergantung pada nilai yang berasal dari suatu mencegah terbentuknya pohon klasifikasi yang
variabel independen. Rumus kemungkinan berukuran besar dan kompleks. Pemangkasan
pemilah yaitu jika variabel prediktor kontinu = n (pruning) yaitu suatu penilaian ukuran pohon
– 1 pemilahan, jika variabel prediktor kategori tanpa mengorbankan ketepatan melalui

96 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

pengurangan node pohon sehingga mencapai Model yang dapat dipakai untuk regresi
ukuran pohon yang layak. Ukuran pemangkasan logistik ordinal adalah model logit. Model logit
yang digunakan untuk memperoleh ukuran pohon tersebut adalah cumulative logit models. Pada
yang layak adalah Cost Complexity Minimum model logit ini sifat ordinal dari respon Y
(Breiman et. al, 1993). Ukuran complexity adalah dituangkan dalam peluang kumulatif yaitu
sebagai berikut: peluang kurang dari satu atau sama dengan
~ kategori respon ke-j pada p variabel prediktor
R ( t )  R( T )   T (4) yang dinyatakan dalam vektor X, P(Y ≤ j|X),
dengan peluang lebih besar dari kategori respon
dimana, R( T ) adalah Resubtution Estimate ke-j, P(Y > j|X) (Hosmer dan Lameshow, 2000).
(Proporsi kesalahan pada sub pohon), α adalah Peluang kumulatif, P(Y ≤ j|X), didefinisikan
kompleksitas Parameter (Complexity Parameter) sebagai berikut:
~  p 
dan T adalah ukuran banyaknya node terminal exp j 
 
k X k 

P( Y  j | X )   k 1  (8)
pohon T.  p 
Cost complexity prunning menentukan suatu 1  exp j 
 
k X k 

 k 1 
pohon bagian T (  ) yang meminimumkan R ( t )
dimana j = 1,2,…, J-1 adalah kategori respon
pada seluruh pohon bagian, atau untuk setiap nilai (Agresti, 2002) . .

 , dicari pohon bagian T (  )  T max yang


meminimumkan R ( t ) yaitu: Estimasi Parameter
Estimasi parameter dapat dipergunakan metode
R ( T (  ))  minT T max R ( T ) (5)
maksimum likelihood. Metode ini memperoleh
dugaan maksimum likelihood bagi β dengan
Penentuan Pohon Klasifikasi Optimal langkah awal yaitu membentuk fungsi likelihood.
Setelah dilakukan pemangkasan diperoleh Salah satu metode yang dapat digunakan dalam
pohon klasifikasi optimal yang berukuran mengestimasi parameter model logistik adalah
sederhana namun memberikan nilai pengganti Maximum Estimation Likelihood (MLE). Pada
yang cukup kecil. Penduga pengganti yang sering dasarnya metode ini memberikan nilai estimasi
digunakan adalah validate silang lipat V (Cross parameter β dengan cara memaksimumkan fungsi
Validation V-Fold Estimates) likelihood-nya. Jika fungsi distribusi peluang
Penduga validasi silang lipat V sering digunakan untuk Yi adalah f(Yi) = γY1(1-γ)1-Y1, maka fungsi
apabila amatan yang tidak cukup besar. Amatan likelihood untuk n pengamatan bebas adalah:
dalam L dibagi secara aca menjadi bagian V
[  ( X 
n
bagian yang saling lepas dengan ukuran kurang L(  0 , 1 ,  2 ,..., k )  i )] Yi [1   ( X i )]1Yi
lebih sama besar untuk setiap kelasnya. Pohon i 1
 
n

T ( V ) dibentuk dari L  LV dengan v=1,2,…,V.   ( X i )


 Yi
 i 1 
   [1   ( X i )]
(v)  1   ( X i )
i
 
(9)
Misalkan d ( x ) adalah hasil pengklasifikasian,  

penduga sampel uji untuk R( T1 ) yaitu


(v) Berdasarkan fungsi likelihood didapatkan ln
fungsi likelihoodnya sebagai berikut:

1
Rts ( Tt( V ) )  X( d ( V ) ( xn )  jn ) (6) ln( L( 0 , 1 , 2 ,...,k ))  ( 0 , 1 , 2 ,...,k )
Nv ( x j
n n )LV
n
Yi (  0  1 X 1   2 X 2  ...   k X k ) 
dengan Nv  N
V
adalah jumlah amatan dalam  ln1  e
i 1
( 0  1 X1  2 X 2 ... k X k )
  (10)

LV . Kemudian dilakukan prosedur yang sama
Estimasi parameter regresi logistik didapatkan
menggunakan seluruh L, maka penduga validasi
dari turunan parsial pertama fungsi ln likelihood
silang lipat V untuk ( Tt( V ) ) adalah terhadap paramter yang akan diestimasi kemudian
v disamakan dengan nol.
R
1
R Cv ( Tt )  ts
(T (v ) ) (7) Estimasi dari parameter regresi logistik
V v 1 ordinal didapatkan dengan menurunkan fungsi log
Regresi Logistik Ordinal likelihood terhadap parameter yang akan
Regresi logistik ordinal merupakan salah satu diestimasi dan disamakan dengan nol. Persamaan
L(  )
metode statistik untuk mengganalisis variabel  0 dipergunakan untuk estimasi
respon yang mempunyai skala ordinal yang terdiri  k
atas tiga kategori atau lebih. Variabel prediktor parameter  k dimana k=1, 2, …, n dan
yang dapat disertakan dalam model dapat berupa
data kategori atau kontinu yang terdiri atas dua
variabel atau lebih.

Program Studi Statistika FMIPA Universitas Mulawarman 97


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

L(  ) Statistik Uji


 0 merupakan estimasi intersep  o
 o ˆ k
W  (12)
dimana j = 1, 2, …, j – 1. SE( ˆ k )
L(  ) L(  )
Hasil persamaan  0 dan 0 dimana,
 k  o
SE( ̂ k ) = var ˆ k
merupakan fungsi nonlinier sehingga diperlukan
metode iterasi untuk memperoleh estimasi W = Nilai statistik uji wald
parameternya. Metode iterasi yang dipergunakan ̂ k = Estimasi koefisien parameter ke –k
adalah metode iterative Weighted Least Square Daerah Kritis
(WLS) yaitu algoritma Newton-Raphson. H0 ditolak bila |W| lebih besar dari Zα/2 atau
(Agresti, 1990). p-value kurang dari α. Hal ini dikarenakan
statistik uji W mengikuti distribusi normal.
Uji Serentak (Hosmer dan Lemeshow, 2000)
Uji serentak dilakukan dengan menggunakan uji
G, yaitu pada dasarnya menunjukkan apakah Uji Kecocokan Model Regresi Logistik Ordinal
semua variabel bebas yang dimasukkan dalam Dalam mencocokan sebuah model logistik,
model mempunyai pengaruh secara bersama-sama perlu dipilih sebuah model dengan fungsi
terhadap variabel terikat. Adapun hipotesis yang penghubung dan variabel penjelas yang hasilnya
digunakan adalah sebagai berikut: paling cocok. Uji ini digunakan untuk menilai
Hipotesis kecocokan model dengan membandingkan hasil
H0 :β1 = β2 =…=βk = 0 (secara simultan pengamatan dengan nilai dugaan.
variabel prediktor tidak berpengaruh
terhadap variabel respon) Hipotesis
H1 :βi ≠ 0; i=1,2,…,k (minimal ada satu dari H0 : Model sesuai (Tidak terdapat perbedaan
variabel prediktor yang berpengaruh antara hasil pengamatan dengan nilai
terhadap variabel respon) dugaan)
Taraf signifikansi H1 : Model tidak sesuai (Terdapat perbedaan
Taraf signifikansi yang digunakan adalah antar hasil pengamatan dengan nilai
  0,05 dugaan)
Statistik uji Statistik Uji
n
( ok  n'k  k )
G  2 y 1
( n / n ) n0 Ĉ  n  '
k (1   k )
(13)

(1   )
i
1 yi k 1 k
c
i

L
dimana, ok  y
k 1
i
 2 ln 0 (11)
Lk c
m j ˆ j
Pengambilan Keputusan k 
n'k

k 1
Statistik uji G mengikuti distribusi chi-Squared
dengan derajat bebas banyaknya parameter dalam nk = total pengamatan grup k
model, karena itu untuk memperoleh keputusan Pengambilan keputusan
uji adalah membandingkan nilai G dengan nilai Uji ini mengikuti distribusi Chi Squared
H0 terima: jika G ≤ χ2(p,α) atau nilai p-value ≥ α dengan derajat bebas df – 2. Daerah
H0 tolak : jika G > χ2(p,α) atau nilai p-value < α penolakan H0 adalah jika nilai Ĉ > χ2(df-2)
(Basuki, 2004) atau nilai P-value < α.
(Hosmer and Lameshow, 2000)
Uji Individu
Untuk pengujian signifikansi parameter model Interpretasi Koefisien Model Regresi Logistik
secara individu dapat diuji dengan Wald Test. Ordinal
Hasil dari uji Wald ini akan menunjukkan apakah Interpretasi atau penaksiran dari perbandingan
suatu variabel prediktor signifikan atau layak selisih/odds ratio (ψ) adalah menjelaskan berapa
untuk masuk ke dalam model atau tidak. kali lipat kenaikan atau penurunan peluang Y = 1,
Hipotesis jika nilai variabel prediktor (X) berubah sebesar
H0 : βk = 0, k = 1,2,…, n (tidak ada pengaruh nilai tertentu. Nilai odds ratio selalu positif.
variabel prediktor ke-k terhadap variabel didapatkan penduga untuk odds ratio sebagai
respon) berikut:
H1 : βk ≠ 0, k = 1,2,3,…,n (ada pengaruh
variabel prediktor ke-k terhadap   exp( ˆ k ) (14)
variabel respon)

98 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

Indeks Prestasi Kumulatif b. Pengujian individu. Melakukan pengujian


Penilaian keberhasilan akademik mahasiswa secara individu untuk mengetahui ada
didasarkan pada nilai bobot rata-rata atau Indeks tidaknya pengaruh antara variabel respon
Prestasi (IP). Indeks Prestasi dibedakan atas dan variabel prediktor.
Indeks Prestasi Semester dan Indeks Prestasi c. Pemilihan model regresi logistik ordinal
Kumulatif (IPK). IPK dan IPS dihitung dari mata terbaik.
kuliah yang tertera pada Kartu Hasil Studi (KHS). d. Interpretasi model regresi logistik ordinal
terbaik.
Kriteria Predikat Kelulusan Hasil dan Pembahasan
Menurut buku peraturan akademik Universitas a. Statistika Dekriptif
Mulawarman tahun 2014, IPK sebagai dasar
penentuan predikat kelulusan Program Vokasi, Memuaskan
Sarjana, dan Profesi adalah: 19
Sangat
a. IPK 2,00 - 2,75 : Cukup 68 Memuaskan
159 Dengan
b. IPK 2,76 – 3,50 : Memuaskan Pujian

c. IPK 3,51 – 3,69 : Sangat memuaskan


d. IPK ≥ 3,70 : Dengan pujian (cum Gambar 1. Pie Chart untuk Predikat Kelulusan
laude), jika mahasiswa dapat menyelesaikan Berdasarkan gambar dapat diketahui bahwa
masa studi tidak melebihi n + 0,5. Tidak mahasiswa yang lulus dengan predikat
pernah mengulang mata kuliah dan tanpa memuaskan ada 159 mahasiswa. Mahasiswa yang
nilai C serta semua mata kuliah ditempuh di lulus dengan predikat sangat memuaskan ada 68
UNMUL. mahasiswa dan mahasiswa yang lulus dengan
predikat dengan pujian ada 19 mahasiswa dari
Metodologi Penelitian total sebanyak 246 mahasiswa lulusan program
1. Analisis Deskriptif Sarjana FMIPA UNMUL.
Pada analisis ini menggunakan bantuan
software SPSS 17 dengan menyajikan grafik b. Analisis CART
dari data predikat kelulusan mahasiswa Tahap pertama pembentukan pohon klasifikasi
FMIPA UNMUL tahun 2014. maksimal adalah pemilihan pemilah. Perhitungan
2. Analisis CART pemilah setiap variabel prediktor diperoleh hasil
Dalam analisis menggunakan metode CART seperti berikut
ada beberapa langkah-langkah yaitu sebagai a. Variabel jenis kelamin mempunyai dua
berikut: kategori yaitu perempuan dan laki-laki.
a. Membentuk pohon klasifikasi, yang terdiri Maka banyak kemungkinan pemilah dari
dari pemilahan pemilah terbaik n variabel ini adalah 22-1-1 = 1 pemilah.
penentuan terminal node. Pemilahan b. Variabel asal daerah memiliki dua kategori,
terbaik dihitung berdasarkan selisih yaitu Samarinda dan luar Samarinda. Maka
terbesar rata-rata kuadrat sisa antara antara banyak kemungkinan pemilah variabel ini
node induk dan kedua node anak yang adalah 22-1-1 = 1 pemilah.
memilahnya ketika tidak memungkinkan c. Variabel program studi (prodi), mempunyai
lagi melakukan pemilahan pada suatu node 5 kategori yaitu Biologi, Fisika, Ilkom,
atau jika tidak terdapat penurunan Kimia, Statistika. Maka banyak
keheterogenan yang berarti, sehingga tidak kemungkinan pemilah dari variabel ini
akan dipilah lagi. adalah 25-1-1 = 15 pemilah.
b. Memangkas pohon klasifikasi yang paling d. Variabel status sekolah menengah memiliki
kecil dengan menggunakan kriteria dua kategori, yaitu SMA dan SMK. Maka
kompleksitas kesalahan (cost complexity) banyak kemungkinan pemilah variabel ini
yang minimum adalah 22-1-1 = 1 pemilah.
c. Memilih pohon terbaik e. Variabel lama masa studi memiliki dua
d. Hasil klasifikasi dan interpretasi kategori, yaitu lulus ≤ 5 tahun dan lulus
3. Analisis regresi logistik ordinal antara 5 sampai 7 tahun. Maka banyak
Dalam analisis menggunakan metode regresi kemungkinan pemilah variabel ini adalah
logistik ordinal ada beberapa langkah yang 22-1-1 = 1 pemilah
harus dilakukan yaitu: Perhitungan pemilah menggunakan rumus
a. Pengujian serentak. Melakukan uji untuk indeks Gini. Berdasarkan nilai Indeks Gini kelima
mengetahui ada tidaknya pengaruh antara variabel prediktor, dapat diketahui bahwa variabel
variabel respon dan variabel prediktor yang memiliki nilai indeks Gini terkecil adalah
secara. variabel lama masa studi dengan nilai indeks Gini
0,4578. Sehingga variabel lama masa studi dipilih

Program Studi Statistika FMIPA Universitas Mulawarman 99


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

sebagai pemilah pertama. Setelah semua pemilah


ditentukan maka kita dapatkan pohon klasifikasi
maksimal pada Gambar 2.

Gambar 3. Plot Relative Cost


Garis hijau pada Gambar 4 menunjukkan nilai
relative cost minimum pada pohon optimal
sebesar 0,568 dan garis merah menunjukkan nilai
relative cost maximum pada pohon maksimal
sebesar 0,581. Sedangkan nilai test set relative
Gambar 2. Pohon Klasifikasi Maksimal cost dan parameter complexity masing-masing
Tahap selanjutnya adalah melakukan sebesar 0,56799 ± 0,05904. Gambar 4
pemangkasan pohon klasifikasi maksimal. Proses memberikan informasi bahwa nilai relative cost
pemangkasan pohon klasifikasi dimulai dengan pohon klasifikasi maksimal lebih besar
mengambil tR yang merupakan node anak kanan dibandingkan dengan nilai relative cost pohon
dan tL yang merupakan node anak kiri dari TMax klasifikasi optimal. Oleh karena itu harus
yang dihasilkan dari node induk t. Proses ini dilakukan pemangkasan pohon maksimal agar
diulangi sampai tidak ada lagi pemangkasan yang didapatkan nilai relative cost yang paling kecil.
mungkin terjadi, sehingga diperoleh ukuran Setelah proses pemangkasan selesai maka akan
pohon yang layak dan memenuhi cost complexity terbentuk pohon klasifikasi optimal pada Gambar
minimum seperti pada Gambar 3. 4.

Gambar 4 Pohon Klasifikasi Optimal

100 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

Berdasarkan Gambar 4 dapat diketahui bahwa Kriteria Pengujian


kelima variabel prediktor masuk menjadi pemilah H0 diterima jika G ≤ χ2(p,α) atau nilai
pembentuk pohon klasifikasi optimal. Artinya P-value ≥ α, H0 ditolak jika G > χ2(p,α) atau
kelima variabel prediktor tadi merupakan nilai P-value < α
kelompok penciri data dari klasifikasi predikat Keputusan
kelulusan FMIPA UNMUL tahun 2014. Dari tabel diperoleh nilai G (49,176) > χ2(8,0,05)
(15,51) dan nilai P-value (0,000) < 0,05. Maka
Ketepatan Klasifikasi H0 ditolak.
Pohon klasifikasi optimal yang telah Kesimpulan
terpilih tadi kemudian diuji tingkat keakuratannya Dari hasil analisis dengan menggunakan uji G
dalam mengelompokkan data, dapat kita lihat likelihood ratio dapat disimpulkan bahwa
ketepatan klasifikasi sebagai berikut: minimal ada satu variabel prediktor yang
berpengaruh signifikan terhadap variabel
Tabel 1. Tabel Ketepatan Klasifikasi
respon.
Kelas Prediksi
Aktual Memuas Sangat Dengan Uji Individu
kan Memuaskan Pujian Uji ini berfungsi untuk mengetahui apakah
ada pengaruh dari variabel prediktor terhadap
Memuaskan 82 49 28 variabel respon secara individu. Uji ini
menggunakan statistik uji dari Wald sehingga bisa
Sangat 14 38 16 juga disebut sebagai uji Wald.
Memuaskan
Dengan 1 3 15 Tabel 3. Uji Individu
Pujian
Variabel W P-Value Keputusan
Dari Tabel 1 diperoleh ketepatan Jenis Kelamin (X1) 2,49 0,013 H0 ditolak
pengklasifikasian sebesar: Asal Daerah (X2) 0,63 0,526 H0 diterima
14  1  49  3  28  16 111
  0 ,451 Program Studi (X3) 1,32 0,188 H0 diterima
246 246
Sehingga ketepatan klasifikasinya adalah 1 – Status Sekolah 0,94 0,947 H0 diterima
0,451 = 0,549 atau 54,9%. Artinya pohon Menengah (X4)
klasifikasi yang terbentuk mampu memprediksi Lama Studi (X5) 4,35 0,000 H0 ditolak
dengan tepat pengamatan sebesar 54,9%.
Dari pengujian secara individu dapat kita lihat
c. Regresi Logistik Ordinal bahwa variabel prediktor yang berpengaruh
Adapun langkah-langkah pengujian regresi signifikan terhadap predikat keluluan mahasiswa
logistik ordinal yaitu, uji serentak, uji individu, FMIPA UNMUL adalah variabel jenis kelamin
dan uji kecocokan model regresi logistik ordinal. dan variabel lama studi.

Uji Serentak Uji Kecocokan Model Regresi Logistik Ordinal


Uji ini berfungsi untuk mengetahui apakah Uji ini berfungsi untuk menilai kesesuaian model
variabel prediktor mempunyai pengaruh yang regresi logistik dengan membandingkan hasil
signifikan terhadap variabel respon secara pengamatan dengan nilai dugaan.
keseluruhan. Hipotesis
Hipotesis H0 : Model sesuai (tidak terdapat perbedaan
H0 : β1 = β2 = … = βk = 0 (secara serentak antara hasil pengamatan dengan nilai
tidak ada pengaruh yang signifikan antara dugaan)
variabel prediktor terhadap variabel H1 : Model tidak sesuai (terdapat perbedaan
respon) antara hasil pengamatan dengan nilai
H1 : Minimal ada satu βi ≠ 0, i = 1, 2, …k dugaan)
(secara serentak ada pengaruh yang Statistik Uji
signifikan antara variabel prediktor
Tabel 4. Uji kecocokan model
terhdapa variabel respon) Method Chi-Squared Df P_value
Statistik Uji
Pearson 6,681 4 0,154
Tabel 2. Uji Simultan atau Uji Likelihood Ratio
G DF P_value Log-
Likelihood
49,176 8 0,000 -180,627

Program Studi Statistika FMIPA Universitas Mulawarman 101


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

Keputusan Dari tabel 5 diperoleh ketepatan pengklasifikasian


Jika Ĉ   2 ( df  2 ) atau nilai sebesar:
36  8  31  11 86
P-value > 0,05 maka H0 diterima   0 ,35
246 246
Jika C   ( df  2 ) atau
2
nilai
Sehingga ketepatan klasifikasinya adalah 1 – 0,35
P-value ≤ 0,05 maka H0 ditolak = 0,65 atau 65%. Artinya model regresi logistik
Kesimpulan ordinal mampu memprediksi dengan tepat
Dari Tabel 4.25 diketahui bahwa nilai pengamatan sebesar 65%.
Ĉ  6 ,681   (24 )  9 ,49 dan nilai P value
Interpretasi Koefisien Model Regresi Logistik
adalah sebesar 0,154 > α = 0,05 maka H0
Ordinal
diterima. Sehingga dapat disimpulkan
Berdasarkan model regresi logistik ordinal
bahwa model sesuai atau tidak terdapat
dapat kita tentukan nilai Odds Ratio seperti di
perbedaan antara hasil pengamatan dengan
bawah ini:
nilai dugaan.
- Untuk variabel jenis kelamin
Model Regresi Logistik Ordinal   exp( ˆ k )  exp( 0,834 )  2,30
Berdasarkan hasil pengujian simultan maupun
parsial didapatkan model regresi logistik ordinal Jadi, mahasiswa dengan jenis kelamin
dengan 2 intersep karena pada variabel respon perempuan memiliki peluang 2,30 kali lebih
terdapat 3 kategori (Y=1, 2 dan 3) besar untuk mendapatkan predikat kelulusan
dengan pujian daripada mahasiswa berjenis
Tabel 5. Hasil Estimasi Parameter kelamin laki-laki.
Variabel Keterangan W P- Coef(β)
value - Untuk variabel lama masa studi
Const (1) -2,33 0,020 -0,501   exp( ˆ k )  exp(1,502 )  4,49
Const (2) 6,01 0,000 1,601
Jadi, mahasiswa dengan lama masa studi ≤ 5
X1 Jenis Kelamin 2,81 0,005 0,834
X2 Lama studi 5,18 0,000 1,502
tahun memiliki peluang 4,49 kali lebih besar
untuk mendapatkan predikat kelulusan
dengan pujian daripada mahasiswa dengan
Model regresi logistik ordinal
lama masa studi antara 5 sampai 7 tahun.
P( Y  1 | X )   1   1 X 1   2 X 2
  0 ,501  0 ,834 X 1  1,502 X 5 Kesimpulan
P( Y  2 | X )   2   1 X 1   2 X 2 Berdasarkan hasil analisis dan pembahasan yang
 1,601  0 ,834 X 1  1,502 X 5 dilakukan, kesimpulan yang diperoleh dari
penelitian mengenai predikat kelulusan
Atau model peluang persamaan logistiknya
mahasiswa program sarjana FMIPA UNMUL
adalah
yaitu:
exp(0,501 0,834X1  1,502X 5 )
P( Y  1| X )  1. Berdasarkan hasil klasifikasi CART,
1  exp(0,501 0,834X1  1,502X 5 ) variabel prediktor yang menjadi penciri
exp(1,601 0,834X 1  1,502X 5 ) utama variabel predikat kelulusan
P( Y  2 | X )  mahasiswa program sarjana FMIPA
1  exp(1,601 0,834X 1  1,502X 5 )
UNMUL adalah variabel jenis kelamin, asal
daerah, program studi, status sekolah
Ketepatan Klasifikasi Regresi Logistik Ordinal menengah dan lama masa studi.
Berdasarkan model regresi logistik ordinal 2. Berdasarkan analisis regresi logistik ordinal,
dapat kita tentukan hasil klasifikasi. Untuk faktor-faktor yang mempengaruhi predikat
melihat keakuratan model regresi logistik ordinal kelulusan mahasiswa program sarjana
dalam mengklasifikasikan data maka FMIPA UNMUL adalah variabel jenis
digunakanlah tabel ketepatan klasifikasi kelamin dan lama masa studi.
Tabel 5. Tabel Ketepatan Klasifikasi Model 3. Berdasarkan tabel ketepatan klasifikasi,
Regresi Logistik Ordinal model regresi logistik ordinal lebih baik
dalam memprediksi hasil pengamatan
Prediksi
Aktual
daripada metode CART. Hal ini dilihat dari
Memuaskan Sangat Dengan tingkat keakuratan klasifikasi model regresi
Memuaskan Pujian logistik ordinal yang bernilai 65%,
Memuaskan 128 31 0 sedangkan metode CART hanya memiliki
Sangat 36 32 0 keakuratan klasifikasi sebesar 54,9%.
Memuaskan
Dengan Pujian 8 11 0

102 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

Daftar Pustaka (CART) Analysis. Annual Meeting of the


Agresti, A. 2002. Categorical Data Analysis. Society for Academic Emergency
New York: John Wiley & Sons, Inc. Medicine in San Franscisco. California:
Basuki, Achmad. 2004. Modeling dan Simulasi. Departement of Emergency Medicine
Surabaya: IPTAQ Mulia Media Maimon, Oded and Rokach, Lior. 2010. Data
Breiman, L., Friedman, J.H., Olsen, R.A., dan
Mining and Knowledge Discovery
Stone, C.J. 1993. Classification and
Regression Trees. New York: Chapman Handbook. Springer.
& Hall. Timofeev, Roman. 2004. Classification and
Hosmer, D. W., and Lameshow, S. 2000. Applied Regression Trees (C&RT) Theory and
Logistic Regression. New York: John Application. A Master Thesis. CASE-
Wiley & Sons, Inc. Center of Applied Statistics and
Lewis, R.J. 2000. An Introduction to Economics. Berlin: Humboldt
Classification and Regression Tree University.

Program Studi Statistika FMIPA Universitas Mulawarman 103


Jurnal EKSPONENSIAL Volume 7, Nomor 1, Mei 2016 ISSN 2085-7829

104 Program Studi Statistika FMIPA Universitas Mulawarman

Вам также может понравиться