Вы находитесь на странице: 1из 15

ANALISIS DATA KATEGORIK

REGRESI LOGISTIK BINER

Disusun Oleh:

Rahmawaty Ahmad 413415014


Zulaiha Rahasia 413415015

PROGRAM STUDI STATISTIKA


JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN IPA
2018
Contoh Kasus

Data ini terdiri dari 50 perempuan yang didiagnosis memiliki penyakit


payudara jinak dan 128 usia cocok kontrol, dengan tiga kontrol perkasus.
Pencocokan didasarkan pada usia subjek pada saat wawancara. Kasus termasuk
wanita dengan diagnosis biopsi dikonfirmasi fibrokistik penyakit payudara
diidentifikasi melalui dua rumah sakit di New Haven, Connecticut. Kontrol dipilih
dari pasien dirawat di bedah umum, ortopedi, atau Otolaryngologic layanan di dua
rumah sakit yang sama.
Tabel 1: Data keterangan pasien kanker payudara jinak

NO USSW DA PUM UPKH UPKM SBB UTKM


1 39 1 1 23 13 118 39
2 39 0 2 16 11 175 39
3 39 0 2 20 12 135 39
4 39 0 1 21 11 125 40
5 38 0 2 20 15 183 38
6 38 0 2 19 11 218 38
7 38 0 1 23 13 192 37
8 38 1 1 22 15 125 38
9 38 0 2 20 14 123 38
10 38 0 1 19 13 140 37
11 38 0 1 18 13 160 38
12 38 1 1 24 14 150 38
13 38 0 1 26 13 130 38
14 38 0 2 23 14 140 38
15 38 0 1 25 16 130 38
16 38 1 1 21 17 150 38
17 38 0 2 20 12 148 38
18 38 0 1 16 14 138 38
19 38 1 1 24 12 116 39
20 38 0 2 19 12 145 35
21 38 0 2 21 10 195 35
22 38 0 1 25 8 180 38
23 37 0 1 20 11 135 37
24 37 0 1 18 10 155 37
25 37 0 2 22 13 120 38
26 36 0 1 20 12 191 36
27 36 0 2 17 10 185 37
28 36 0 2 23 12 119 37
29 35 1 1 23 14 129 36
30 35 0 2 21 11 170 34
31 36 0 1 22 14 110 36
32 35 0 2 24 11 155 35
33 35 1 2 21 12 105 29
34 36 0 1 26 13 115 36
35 36 0 2 22 12 120 36
36 36 0 1 33 16 150 36
37 35 0 2 18 13 110 35
38 35 0 1 19 11 170 36
39 35 0 1 21 12 145 36
40 34 1 2 25 10 170 34
41 35 0 1 27 13 140 35
42 34 0 1 20 11 240 34
43 34 0 2 25 16 100 35
44 33 0 2 21 11 160 33
45 32 0 2 24 12 155 32
46 33 0 1 25 12 132 33
47 33 1 1 28 14 110 33
48 33 0 1 21 12 145 29
49 33 0 2 20 13 155 29
50 33 0 1 21 13 110 33
51 32 1 1 30 13 129 32
52 32 0 1 25 11 131 32
53 32 0 2 20 9 218 26
54 32 0 1 23 16 115 32
55 31 1 1 30 14 110 30
56 30 0 1 21 14 130 30
57 31 0 2 23 11 97 31
58 31 0 2 24 13 120 31
59 68 1 1 22 12 130 50
60 68 0 1 34 14 150 53
61 68 0 2 19 12 145 46
62 64 1 2 30 14 135 53
63 64 0 1 26 11 205 42
64 64 0 1 25 10 127 50
65 63 1 1 21 15 120 52
66 63 0 2 24 11 144 50
67 62 0 1 26 15 170 39
68 62 0 2 32 12 134 53
69 62 0 1 22 12 155 39
70 61 1 1 28 14 125 53
71 61 0 2 26 13 140 50
72 61 0 2 28 15 120 41
73 61 0 1 27 14 134 45
74 61 1 1 22 16 150 56
75 62 0 2 30 11 117 36
76 62 0 2 25 15 147 52
77 61 0 2 26 13 124 52
78 61 1 1 26 17 129 34
79 62 0 1 33 11 170 54
80 61 0 2 25 13 153 50
81 61 0 1 29 13 130 55
82 61 1 2 21 15 145 53
83 61 0 1 18 13 140 56
84 61 0 1 22 17 155 55
85 61 0 1 23 15 116 43
86 60 1 1 28 17 115 51
87 60 0 2 25 11 175 42
88 60 0 2 24 13 179 50
89 60 0 1 33 15 119 47
90 58 1 1 20 12 153 53
91 58 0 2 25 16 185 55
92 58 0 1 24 10 140 25
93 55 1 1 30 16 126 44
94 55 0 2 30 13 193 50
95 55 0 1 24 14 116 47
96 55 1 1 24 14 140 52
97 55 0 1 16 12 175 47
98 55 0 1 26 15 155 50
99 52 0 1 28 12 113 45
100 52 0 2 20 14 110 40
101 52 0 2 25 13 190 48
102 52 1 1 23 14 114 50
103 52 0 2 21 12 126 43
104 52 0 2 23 11 159 42
105 52 0 1 20 11 170 42
106 51 1 2 24 16 156 52
107 51 0 2 24 12 161 50
108 51 0 1 22 13 150 45
109 51 0 1 24 13 115 51
110 49 0 2 25 12 235 44
111 49 0 2 24 13 145 44
112 49 0 1 25 13 123 49
113 48 1 1 22 11 145 48
114 48 0 2 22 11 155 48
115 48 0 2 19 11 190 29
116 47 1 1 26 14 120 47
117 47 0 2 20 12 110 47
118 47 0 1 24 14 148 45
119 47 0 1 22 13 120 45
120 47 1 1 19 12 132 47
121 47 0 2 23 15 115 29
122 47 0 1 23 13 125 47
123 47 0 1 21 12 120 39
124 46 1 2 27 15 155 46
125 46 0 2 19 11 170 45
126 46 0 1 26 13 180 46
127 46 0 1 15 13 179 40
128 46 1 1 27 12 137 46
129 46 0 2 23 12 107 46
130 46 0 1 22 11 144 46
131 46 0 1 17 13 189 39
132 45 1 1 33 14 80 45
133 45 0 1 25 13 142 38
134 45 0 2 20 11 150 45
135 45 0 1 22 11 154 46
136 45 0 2 23 11 150 45
137 45 0 1 20 12 102 28
138 45 0 1 30 12 110 45
139 45 1 1 18 15 101 45
140 45 0 2 22 17 109 40
141 45 0 2 30 13 210 40
142 45 0 1 22 10 198 33
143 45 1 1 25 16 124 45
144 45 0 2 23 12 133 45
145 45 0 1 23 13 120 46
146 45 0 2 23 12 165 35
147 44 1 1 25 12 130 44
148 44 0 1 27 13 240 45
149 44 0 1 27 14 125 44
150 44 1 1 24 15 130 44
151 44 0 2 22 15 105 44
152 44 0 1 23 12 123 33
153 44 0 2 18 17 180 44
154 43 1 1 27 15 130 43
155 43 0 1 31 12 104 43
156 43 0 1 14 12 158 21
157 43 0 1 20 14 160 39
158 27 0 2 22 12 127 27
159 28 0 2 20 11 145 27
160 28 0 1 23 16 127 29
161 53 1 1 29 12 132 50
162 53 0 1 28 11 140 49
163 53 0 1 26 11 130 49
164 56 1 1 21 17 130 47
165 56 0 2 27 11 265 42
166 56 0 1 26 13 195 50
167 56 0 2 25 12 125 47
168 41 1 1 25 16 105 27
169 41 0 1 20 13 161 31
170 41 0 2 21 14 135 36
171 41 0 1 22 12 185 41
172 41 1 1 40 15 115 41
173 41 0 1 21 16 140 41
174 40 0 1 21 12 145 40
175 41 0 2 26 14 195 41
176 41 1 1 34 13 138 42
177 41 0 2 30 12 129 41
178 39 1 1 23 13 118 39

Variabel terkait :

Diagnosa Akhir (DA)

Variabel bebas :

a. Usia Subjek saat wawancara (USSW)


b. Pemeriksaan umum medis (PUM)
c. Usia pertama kali hamil (UPKH)
d. Usia pertama kali menstruasi (UPKM)
e. Berat badan subjek (SBB)
f. Usia terakhir kali menstruasi (UTKM)

Interpretasi Output
Model Summary

Model Summary

Step -2 Log Cox & Snell R Nagelkerke R


likelihood Square Square

1 143,029a ,241 ,365

Gambar 1. Output Model Summary


Cox & Snell R Square merupaan ukuran yang mencoba meniru kuran R
Square pada multiple regression yang didasarkan pada teknik estimasi likelihood
dengan nilai maksimum kurang dari 1 sehingga sulit untuk diinterpretasikan. Oleh
karena it, Nagelkerke R Square yang merupakan modifikasi dari Cox & Snell di
mana nilainya bervariasi dari 0-1, akan lebih mudah untuk diinterpretasikan
sebagaimana interpretasi atas R Square pada multiple regression atau Pseudo R-
Square dalam multinomial logistic regression.

Nagelkerke R Square pada tabel diatas menunjukkan nilai sebesar 0,365


atau 36,5 %. Hal ini berarti, variabilitas variabel dependen dapat dijelaskan oleh
variabilitas variabel-variabel independen sebesar 36,5 %. Artinya, seluruh variabel
independen mempengaruhi variabel dependen secara serentask pada kisaran 36,5
%, sedangkan 63,5 % lainya dipengaruhi atau dijelaskan oleh variabel-variabel
yang tidak dimasukkan dalam penelitian ini. Namun nilai ini hanya pendekatan saja
karena pada regresi logistik koefisien determinasi tidak dapat dihitung seperti
regresi linier, sehingga yang perlu lebih diperhatikan adalah seberapa banyak kita
dapat memprediksi dengan benar yang tercermin dari nilai Classification Table.

Classification Tablea

Observed Predicted

diagnosa akhir Percentage

tidak terdiagnosa Correct

terdiagnosa

tidak terdiagnosa 124 13 90,5


diagnosa akhir
Step 1 terdiagnosa 26 15 36,6

Overall Percentage 78,1


Gambar 2. Output Classification Table
Dari tabel diatas didapatkan penjelasan mengenai variabel dependen. Dari
hasil tersebut didapatkan bahwa hasil diagnosa 178 orang wanita yang melakukan
pemeriksaan medis dan dinyatakan positif mengidap penyakit kanker payudara
sebanyak 28 orang dan yang dinyatakan negattif mengidap penyakit kanker
payudara sebanyak 150 orang. Tapi pada kenyataanya dari 178 wanita yang
melakukan pemeriksaan medis dan dinyatakan positif mengidap kanker payudara
sebanyak 41 orang dan yang dinyatakan negatif sebanyak 137 orang. jadi, model
regresi logistik yang digunakan cukup baik karena mampu menebak dengan benar
78,1 % kondisi yang terjadi.

Uji Kecocokan Model ( Goodness of fit )

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 49,098 6 ,000

Step 1 Block 49,098 6 ,000

Model 49,098 6 ,000


Gambar 3. Output Omnimbus Test
Berdasarkan tabel diatas, untuk mendapatkan model yang layak digunakan
dilakukan uji hipotesis dalam anova yaitu digunakan uji Overall. Berikut
analisisnya :

a) Hipotesis
𝐻0 : 𝛽1 = 𝛽2 = ... 𝛽𝑝 = 0 (Model layak digunakan/tidak ada pengaruh
variabel bebas terhadap variabel terikat)
𝐻1 : ada 𝛽1 ≠ 0, dimana i = 1,2,..., p (Model layak digunakan / ada pengaruh
variabel bebas terhadap variabel terikat )
b) Tingkat Signifikansi (tingkat risiko)
Tingkat signifikansinya (𝛼) = 5% = 0.05, dengan begitu tingkat kepercayaan
(Confidence Interval) yang digunakan praktikan adalah 95%.
c) Daerah kritis
Tolak jika: P-Value 𝐻0 < 𝛼
Chi-Square > Chi- Square tabel
d) Statistika Uji
Model : P-Value (0.000) < 𝛼 (0.05)
e) Keputusan
Tolak 𝐻0
f) Kesimpulan
Dengan menggunakan 𝛼 sebesar 5%, maka keputusannya tolak 𝐻0 , artinya
ada 𝛽1 yang tidak sama dengan 0 (Model layak digunakan/ada pengaruh
variabel bebas terhadap variabel terikat).

Uji Parsial

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

USSW -,051 ,037 1,895 1 ,169 ,951

PUM(1) -1,314 ,515 6,499 1 ,011 ,269

UPKH ,067 ,053 1,562 1 ,211 1,069


Step 1a UPKM ,402 ,126 10,246 1 ,001 1,495

SBB -,026 ,010 6,069 1 ,014 ,974

UTKM ,113 ,051 4,815 1 ,028 1,119

Constant -6,712 2,801 5,741 1 ,017 ,001

a. Variable(s) entered on step 1: USSW, PUM, UPKH, UPKM, SBB, UTKM.

Gambar 4. Output Variable in the Equation


Hasil output gambar diatas menampilkan uji t yang digunakan untuk menguji
parameter secara parsial, dengan kata lain untuk mengetahui apakah variabel
independen (x) berpengaruh secara signifikan (nyata) terhadap variabel dependen.
Berikut merupakan hipotesis untuk uji parsial dari model yng didapat :

Tabel 2. Hipotesis Uji Parsial


Tingkat Statistik
Model Hipotesis Keputusan Kesimpulan
Sig. Uji
Constanta 𝐻0 : 𝛽0 = 0 (konstanta 𝛼 = 0,05 Sig. = Tolak 𝐻0 konstanta
tidak signifikan) 0,005 < jika Sig. < signifikan
𝐻1 : 𝛽0 ≠ 0 (konstanta 𝛼 𝛼
signifikan)
USSW 𝐻0 : 𝛽1 = 0 (koefisien 𝛼 = 0,05 Sig. = Gagal tolak koefisien
regresi XUSSW tidak 0,169 > 𝐻0 jika Sig. regresi usia
signifikan) 𝛼 >𝛼 subjek saat
𝐻1 : 𝛽1 ≠ 0 (koefisien diwawancara
regresi Xkinerja tidak
signifikan) signifikan
PUM 𝐻0 : 𝛽2 = 0 (koefisien 𝛼 = 0,05 Sig. = Tolak 𝐻0 koefisien
regresi XPUM tidak 0,011 < jika Sig. < regresi
signifikan) 𝛼 𝛼 pemerikaan
𝐻1 : 𝛽2 ≠ 0 (koefisien umum medis
regresi XPUM signifikan
signifikan)
UPKH 𝐻0 : 𝛽3 = 0 (koefisien 𝛼 = 0,05 Sig. = Gagal tolak koefisien
regresi XUPKH tidak 0,211 > 𝐻0 jika Sig. regresi Usia
signifikan) 𝛼 >𝛼 pertama kali
𝐻1 : 𝛽3 ≠ 0 (koefisien hamil tidak
regresi XUPKH signifikan
signifikan)
UPKM 𝐻0 : 𝛽4 = 0 (koefisien 𝛼 = 0,05 Sig. = Tolak 𝐻0 koefisien
regresi XUPKM tidak 0,001 < jika Sig. < regresi usia
signifikan) 𝛼 𝛼 pertama kali
𝐻1 : 𝛽4 ≠ 0 (koefisien menstruasi
regresi XUPKM signifikan
signifikan)
SBB 𝐻0 : 𝛽5 = 0 (koefisien 𝛼 = 0,05 Sig. = Tolak 𝐻0 koefisien
regresi XSBB tidak 0,014 < jika Sig. < regresi
signifikan) 𝛼 𝛼 subjek berat
𝐻1 : 𝛽5 ≠ 0 (koefisien badan
regresi XSBB signifikan
signifikan)
UTKM 𝐻0 : 𝛽6 = 0 (koefisien 𝛼 = 0,05 Sig. = Tolak 𝐻0 koefisien
regresi XUTKM tidak 0,028 < jika Sig. < regresi usia
signifikan) 𝛼 𝛼 terakhir kali
𝐻1 : 𝛽6 ≠ 0 (koefisien menstruasi
regresi XUTKM signifikan
signifikan)

Parameter Model

Uji parameter model dengan data (uji hosmer and lemeshow), uji ini untuk
mengukur apakah probabilitas yang diprediksi sesuai dengan probabilitas yang
diobservasi. Namun uji ini dapat dilakukan ketika sudah dapat dipastikan bahwa
model yang diperoleh refresentatif dengan menggunakan Tabel 6 berikut.

Hosmer and Lemeshow Test

Step Chi-square df Sig.

1 18,173 8 ,020
Gambar 5. Output Hosmer and Lemeshow Test
a. Hipotesis
𝐻0 = model sesuai dengan data atau tidak ada perbedaan antara model
dengan data sehingga dapat dikatakan fit
𝐻1 = model tidak sesuai dengan data atau ada perbedaan antara model
dengan data sehingga dapat dikatakan fit (peluang data asli dengan peluang
data prediksi sama atau sesuai)
b. Tingkat signifikansi : 𝛼 : 0,05
c. Daerah Kritis
p-value < 𝛼, maka tolak 𝐻0
d. Statistik uji
p-value =0.020
e. Keputusan
p-value (0.020) < 𝛼 (0,05) maka tolak 𝐻0
f. Kesimpulan
karena nilai p-value signifikan maka probabilitas yang diprediksi tidak
sesuai dengan probabilitas yang diobservasi.
Dari serangkaian uji yang telah dilakukan, dapat diinterpretasikan model yang
diperoleh sebagai berikut.
1. Exp (𝛽1 )= 0,951 Artinya setiap pertambahan usia subjek saat diwawancara
sebesar 1 satuan akan meningkatkan peluang wanita tidak mengidap peyakit
kanker payudara jinak sebesar 0,951 kali, dengan nilai variabel lain tetap.
Atau dengan kata lain semakin bertambah usia wanita maka akan semakin
mempunyai kecenderungan untuk tidak mengidap penyakit kanker
payudara jinak.
2. Exp (𝛽2 ) = 0,269 Artinya setiap wanita yang melakukan pemeriksaan
umum medis akan didiagnosa mengidap penyakit kanker payudara jinak
sebesar 0,269 kali dari pada yang tidak melakukan pemeriksaan medis.
3. Exp (𝛽3 ) = 1.069 Artinya setiap pertambahan usia pertama kali hamil
sebesar 1 satuan akan meningkatkan peluang wanita tidak mengidap peyakit
kanker payudara jinak sebesar 1,069 kali, dengan nilai variabel lain tetap.
Atau dengan kata lain semakin bertambah usia wanita untuk pertama kali
hamil maka akan semakin mempunyai kecenderungan untuk tidak
mengidap penyakit kanker payudara jinak.
4. Exp (𝛽4 ) = 1,495 Artinya setiap pertambahan usia pertama kali menstruasi
sebesar 1 satuan akan meningkatkan peluang wanita tidak mengidap peyakit
kanker payudara jinak sebesar 1,495 kali, dengan nilai variabel lain tetap.
Atau dengan kata lain semakin bertambah usia wanita untuk pertama kali
menstruasi maka akan semakin mempunyai kecenderungan untuk tidak
mengidap penyakit kanker payudara jinak.
5. Exp (𝛽5 ) = 0,974 Artinya setiap pertambahan berat badan wanita sebesar 1
satuan akan meningkatkan peluang wanita tidak mengidap peyakit kanker
payudara jinak sebesar 0,974 kali, dengan nilai variabel lain tetap. Atau
dengan kata lain semakin bertambah berat badan wanita maka akan
semakin mempunyai kecenderungan untuk tidak mengidap penyakit kanker
payudara jinak.
6. Exp (𝛽6 ) = 1,119 Artinya setiap pertambahan usia wanita untuk menopouse
sebesar 1 satuan meningkatkan kelipatan seorang wanita sebesar 1,118 kali
untuk tidak mengidap penyakit kanker payudara jinak.

Kesimpulan

Regresi logistik adalah bagian dari analisis regresi yang digunakan ketika
variabel dependen (respon) merupakan variabel dikotomi. Sedangkan Variabel
yang dikotomi/biner adalah variabel yang hanya mempunyai dua kategori saja,
yaitu kategori yang menyatakan kejadian sukses (Y=1) dan kategori yang
menyatakan kejadian gagal (Y=0).

Dalam kasus ini setelah dilakukan analisis regresi logistik biner. Nilai
Nagelkerke R Square yang didapatkan adalah sebesar 0,365 atau 36,5 % yang
berarti seluruh variabel independen mempengaruhi variabel dependen secara
serentak pada kisaran 36,5 %, sedangkan 63,5 % lainya dipengaruhi atau dijelaskan
oleh variabel-variabel yang tidak dimasukkan dalam penelitian ini.

Jadi, model regresi logistik yang digunakan cukup baik karena mampu
menebak dengan benar 78,1 % kondisi yang terjadi. Dari keseluruhan model yang
didapatkan, terbukti bahwa modelnya layak untuk digunakan.

Вам также может понравиться