Bahan Ajar

MANAJEMEN DATA SPSS Statistika dapat didefinisikan sebagai ilmu yang dipakai untuk mengambil keputusan dalam kondisi
tidak pasti, pijakan utama untuk mengambil keputusan adalah data. Dalam modul ini akan dibahas berbagai macam cara untuk mengelola data dengan bantuan SPSS. Setelah meliputi : a. Pendefinisian variabel b. Pembersihan data c. export/import data d. Penggabungan data e. Pemilihan data f. Pemecahan data g. Penyusunan syntax a. Pendefinisian Variabel Sebelum melakukan pemasukan data, biasanya dilakukan pendefinisian variabel yang meliputi nama variabel, jenisnya (numerik atau bukan), pemberian label, dan missing value. klik data+define variable sebagai contoh disajikan contoh peragaan pendefinisian variabel jenis kelamin responden : mempelajari modul ini, mahasiswa diharapkan mampu melakukan manajemen data dengan bantuan SPSS, manajemen data ini
variabel jenis kelamin responden diberi nama : sex, setelah nama variabel sudah ditentukan maka ditentukan jenis variabel dengan mengklik Type
Variabel sex ini jenisnya adalah numeric dengan lebar 1 angka, angka yang diisikan nantinya adalah 1 untuk laki-laki, dan 2 untuk perempuan. Untuk membe-ri label seperti ini dilakukan perintah dengan mengklik Labels Variabel sex diberi label Jenis Kelamin Responden dan bernilai 1 untuk laki-laki dan 2 untuk perempu-an, jika ada responden yang tidak mengisi pertanyaan ini, maka hal ini disebut missing values. untuk memfasilitasi hal ini dapat dilakukan dengan mengklik Missing Values di define variable window
Jika ada responden yang tidak mengisi pertanyaan jenis kelamin, maka ditandai dengan -1, pemilihan lambing bilangan untuk missing values biasanya diberi sebagai suatu nilai yang tidak mungkin seandainya variabel tersebut terisi
b. Pembersihan Data Data yang sudah dimasukkan dengan bantuan komputer, masih dimungkinkan untuk salah dimasukkan akibat kelalaian manusia. Untuk memeriksa adanya kesalahan semacam ini dapat digunakan distribusi frekuensi untuk data yang bersklala diskrit ataupun nilai statistik deskriptif untuk data yang berskala kontinyu.
Jenis Kelamin Responden Frequency 47 47 2 1 97 3 100 Percent 47.0 47.0 2.0 1.0 97.0 3.0 100.0 Valid Percent 48.5 48.5 2.1 1.0 100.0 Cumulative Percent 48.5 96.9 99.0 100.0
Valid
Missing Total
Laki-laki Perempuan 3 4 Total -1
Dari contoh distribusi frekuensi di atas, terlihat ada jenis kelamin yang bernilai 3 dan 4 , sehingga masih ada kesalahan yang perlu untuk diperbaiki dengan melihat kembali data yang tercatat sebelum dimasukkan ke komputer.
Descriptive Statistics N NIlai makan siang kemarin Valid N (listwise) 98 98 Minimum 8.00 Maximum Mean Std. Deviation 3609.45489
14800.00 7904.1633
Rata-rata komsumsi responden untuk sekali makan siang adalah adalah 7904 rupiah dengan nilai minimum 8 rupiah, nilai minimum 8 rupiah jelas merupakan data yang salah mengingat tidak mungkin sekali makan siang menghabiskan 8 rupiah. Sehingga perlu diadakan perbaikan data dengan memeriksa kembali catatan data sebelum dimasukkan ke komputer. Pemriksaan kesalahan data dapat juga dengan melibatkan dua variabel seperti contoh berikut :
Banyaknya anak * status perkawinan Crosstabulation Count status perkawinan Belum Menikah Menikah 0 46 13 2 11 0 17 0 8 0 49 48
Banyaknya anak
.00 1.00 2.00 3.00 4.00
Total
Total 46 15 11 17 8 97
Ada responden yang belum menikah yang sudah mempunyai anak, hal ini perlu dilakukan pemeriksaan, apakah memang benar seperti ini atau terjadi kesalahan. c. Export/Import Data Setiap program paket Statistika diharapkan mampu berkomunikasi dengan program paket Statistika yang lain dengan cara mampu untuk berbagi data, atau data yang telah disimpan dengan program paket A diharapkan dapat diolah oleh program B, sebagai contoh diperagakan hal berikut :
1. Buka data world95.sav dengan SPSS klik File+Open+Data
2. Simpan data dengan type dbf ke c:\My Documents\world95.dbf Klik File+Save As
3. Buka world95.dbf dengan bantuan MINITAB Klik File+Open Worksheet
dan data world95 siap diolah dengan bantuan MINITAB
d. Penggabungan Data Program paket SPSS mempunyai kemampuan untuk menggabung file kesamping atau ke bawah : Contoh penggabungan kesamping : Ada dua file : File Biodata : NRP, Nama, Tempat Lahir, Tgl Lahir, Jenis Kelamin File NIlai : NRP, PMS, MAT1, MAT2, ED, AR Dua file ini dapat digabung jika ada variabel yang bersifat unik (nilainya berbeda untuk mahasiswa yang berbeda), variabel ini disebut juga sebagai key variable. Dalam hal ini variabel tersebut adalah NRP. Dengan bantuan SPSS penggabungan tersebut dapat dilakukan dengan tahapan : 1. Buka file pertama dengan cara File+Open+data 2. Gabung dengan file kedua dengan cara klik Data+Merge Files+Add Variables kemudian isikan key-variablenya Contoh penggabungan kebawah : Ada dua file File NIlai 1 File NIlai 2 tahapan : 1. Buka file pertama dengan cara File+Open+data 2. Gabung dengan file kedua dengan cara klik Data+Merge Files+Add cases kemudian isikan key-variablenya e. Pemilihan Data Di dalam program paket SPSS tersedia fasilitas pemilihan kasus, sehingga analisis Statistika yang dilakukan hanya valid untuk kasus yang terpilih. Contoh peragaan dari fasilitas ini adalah : : NRP, PMS, MAT1, MAT2, ED, AR : NRP, PMS, MAT1, MAT2, ED, AR
Dengan bantuan SPSS penggabungan tersebut dapat dilakukan dengan
Tampilkan scatter-plot dari harapan hidup perempuan dan pendapatan perkapita untuk Negara-negara di Asia/Pasifik. 1. Pemilihan Negara-negara Asia, klik Data+Select Cases
klik if
Dari hasil pemilihan Negara dari region=3(Asia) akan tampak hasil berikut :
Negara-negara yang tidak terpilih akan tercoret.
2.
Scatter-plot, Klik Graph+Scatter+Simple
klik options
10
f. Pemecahan Data Di dalam program paket SPSS juga tersedia vasilitas pengelompokan data berdasarkan nilai variabel tertentu. Setetlah pengelompokan dilakukan maka analisis yang dilakukan, hasilnya akan disajikan pada setiap kelompok variabel tersebut. Contoh peragaan dari pemecahan data adalah : Tampilkan scatter-plot antara harapan hidup perempuan dan pendapatan perkapita pada setiap region(Asia, Afrika,). 1. Pemecahan Data : Klik Data+Split File
3.
2, Scatter-Plot, Klik Graph+Scatter+Simple
Akan disajikan scatter-plotuntuk setiap region.
11
h. Penyusunan Syntax Program paket SPSS dapat dioperasikan dengan dua macam cara. Cara pertama melalui klik pada menu yang ada dan cara kedua dengan cara menuliskan syntax. Contoh penulisan syntax adalaghsebagai berikut : Klik File+New+Syntax Kemudian tuliskan perintah-perintah yang dibutuhkan :
Cara pengoperasian SPSS melalui syntax akan terasa lebih efisien, bila data berukuran besar dan analisis yang akan dilakukan pada data tersebut ada banyak macamnya.
12
PEMERIKSAAN DATA Statistika dapat didefinisikan sebagai ilmu yang dipergunakan untuk menyimpulkan kondisi populasi berdasarkan kondisi sampel, untuk melakukan hal ini biasanya dilakukan tahapan yang disebut pengujian hipotesis, hasil dari pengujian hipotesis ini dapat dikatakan valid jika beberapa syarat terpenuhi, syarat-syarat itu kompetensi : a. Melakukan pemeriksaan dan pengujian kenormalan b. Melakukan pemeriksaan dan pengujian kehomogenan varians Kenormalan Asumsi tentang distribusi seringkali dibutuhkan kalau kita menggunakan Statistika parametrik, asumsi terutama dibutuhkan jika diadakan pengujian hipotesis. Asumsi ini dapat diperiksa dengan beberapa cara diantaranya melalui histogram dan normal probability plot. Contoh histogram dan npp dari data yang berdistribusi uniform, eksponensial dan normal adalah sebagai berikut : (Gambar 1.) Dari contoh gambar ini, dapat disimpulkan bahwa data yang berdistribusi uniform mempunyai normal probability-plot-nya berbentuk huruf S, sedangan data yang berdistribusi eksponensial mempunyai normal probability plot berbentuk huruf u, serta data yang berdistribusi normal mempunyai normal probability plot garis lurus. diantaranya, kenormalan, kehomogenan varians dan kelinearan. Diharapkan setelah mempelajari modul ini mahasiswa mempunyai
13
70
1.00
Normal P-P Plot of U
60
50
.75
Expected Cum Prob
40
.50
30
20
.25
10 0 100.0 110.0 120.0 130.0 140.0 150.0 160.0 170.0 180.0 190.0 200.0
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
300 1.00
Normal P-P Plot of E
200
.75
100
Expected Cum Prob
.50
.25
0
0 0. .0 00 13 .0 00 12 .0 00 11 .0 00 10 0 0. 90 0 0. 80 0 0. 70 0 0. 60 0 0. 50 0 0. 40 0 0. 30 0 0. 20 0 0. 10
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
120
1.00
Normal P-P Plot of N
100
.75
80
40
Expected Cum Prob
60
.50
.25
20
0.00 0.00 .25 .50 .75 1.00
0
2.5 23 7.5 22 2.5 22 7.5 21 2.5 21 7.5 20 2.5 20 7.5 19 2.5 19 7.5 18 2.5 18 7.5 17 2.5 17 7.5 16
Observed Cum Prob
Gambar 1. Histogram dan normal probability plot dari data yang berdistribusi uniform, eksponensial dan normal
14
Variabel membentuk huruf U.
harapan lurus,
hidup
perempuan
untuk
Negara-negara perkapita
Asia
cenderung berdistribusi normal, Karena normal probability plot-nya cenderung garis sedangkan pendapatan cenderung berdistribusi eksponen-sial, karena normal probability plot-nya membentuk
Normal P-P Plot of Average female life expect

1.00
.75
Expected Cum Prob
.50
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
Normal P-P Plot of Gross domestic product / c

1.00
.75
Expected Cum Prob
.50
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
15
Selain dengan menggunakan normal probability plot, kenormalan data dapat juga diuji dengan menggunakan beberapa statistik uji berikut : a. Goodness of fit 2 b. Kolmogorov Smirnov c. Anderson Darling d. Shapiro Wilk
a. Goodness of fit 2 Statistik uji ini mengukur jumlah kuadrat perbedaan frekuensi sesungguhnya dengan frekuensi yang diharapkan kalau data berdistribusi normal. Secara rinci statistik uji ini dapat dinyatakan dalam formula berikut :
( o i ei ) 2 ei
2 =
i =1
Tolak H0 (Data berdistribusi normal) jika nilai 2 > 2, k-2 Statistik uji ini diharapkan dipergunakan untuk data yang berukuran besar. Statistik uji ini tidak tersedia di dalam paket SPSS ataupun MINITAB, program paket yang menyediakan statistik uji ini adalah STATGRAPHICS. b. Kolmogorov Smirnov Statistik uji KS ditentukan berdasarkan nilai terbesar dari selisih antara nilai fungsi distribusi teoritis dengan nilai fungsi distribusi empiris. D= max|F(x)-i/n| Tolak H0 (data berdistribusi normal) jika D>D . Statistik uji ini hanya dapat dipergunakan untuk data yang kontinyu dan jika nilai dugaan parameter dihitung dari sampel maka hasil pengujian ini cenderung tidak valid mengingat dari hasil simulasi ditunjukkan nilai taksiran cenderung lebih kecil dari . Statistik uji ini tersedia di program paket SPSS dan MINITAB. Hasil pengujian
16
kenormalan untuk data harapan hidup perempuan untuk Negara-negara di Asia adalah sebagai berikut : [klik statistics+nonparamterics test+1 sample KS]
One-Sample Kolmogorov-Smirnov Test Average female life expectancy 17 67.41 10.886 .169 .090 -.169 .695 .719
N a,b Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Mean Std. Deviation Absolute Positive Negative
a. Test distribution is Normal. b. Calculated from data.
c. Anderson Darling Statistik uji ini dikembangkan untuk mengatasi kelemahan statistik uji Kolmogorov Smirnov yang hasil pengujiannya bisa tidak valid jika nilai dugaan parameternya dihitung dari sampel. Nilai statistik uji ini dihitung dengan cara : A 2 = n
i =1 n
(2i 1) [ln F (Yi ) + ln( F (Yi ) + ln(1 F (Yn +1i ))] n
17
Statistik uji ini tidak tersedia di SPSS tetapi di MINITAB ada. Hasil pengujian kenormalan dengan statistik uji Anderson Darling adalah : [klik stat+basic statistics+normality test]
18
19
Shapiro-Wilk Statistik uji Shapiro-Wilk dihitung berdasarkan urutan data yang dinyatakan dalam :
n
W=
( ai x( i ) ) 2
(x
i =1
i =1 n
x)2
Statistik Shapiro-Wilk telah dibandingkan dengan statistik uji kenormalan yang lain melalui simulasi dan hasilnya lebih baik terutama untuk sampel kecil. Hasil pengujian Shapiro-Wilk untuk data pendapatan per-kapita adalah : [klik stat+basic statistics+normality test]
20
Kehomogenan varians Kehomogenan varian untuk beberapa kelompok data dapat diperiksa melalui box-plot. Box-plot dari harapan hidup perempuan dan pendapatan perkapita untuk beberapa region Afrika, Timur Tengah dan Amerika Latin adalah sebagai berikut : [klik graphs+box-plot+defines]
90
16000 14000
80
12000 10000
70
Gross domestic product / capita
8000
Barbados
Average female life expectancy
6000 4000 2000 0 -2000

N= 19 17 21 Gabon South Africa Botswana Somalia
60
50
Haiti
40
N= 19 17 21
Africa
Middle East
Latn America
Africa
Middle East
Latn America
Region or economic group
Region or economic group
Varians harapan hidup perempuan di region Afrika, Timur Tengah dan Amerika Latin relatif cenderung lebih homogen daripada pendapatan perkapita,
21
karena besar kotak harapan hidup perempuan cenderung sama besar daripada besar kotak pendapatan per-kapita. Selain dengan melihat box-plot, kehomogenan varians dapat diuji dengan statistik uji Bartlett dan Levene. Statistik uji Bartlett dapat dipergunakan jika data berdistribusi normal, sedangkan statistik uji Levene tidak membutuhkan syarat kenormalan data. Statistik uji Bartlett dan Levene dapat ditentukan dengan cara :
k
( vi ) ln
i =1
v s
i =1 k
2 i i
B=
v
i =1
vi ln( si2 )
i =1
1 + (
i =1
1 1 k ) /[3(k 1)] vi vi
i =1
k s2i vi ni
= banyaknya kelompok = varians data pada kelompok ke-i = ni 1 = banyaknya data pada kelompok ke-i
k
L=
(n k ) ni ( mi m.. ) 2 (k 1) ( xij mi ) 2
i =1 j =1 i =1 k ni
mi m..
= median data pada pelompok ke-i = median untuk keseluruhan data Hasil pengujian kehomogenan varians dengan menggunakan statistik uji
Levene untuk data pendapatan perkapita di region Afrika, Timur Tengah dan Amerika Latin adalah : [klik statistics+compare means+oneway anova]
22
Test of Homogeneity of Variances Levene Statistic Average female life expectancy Gross domestic product / capita 1.850 13.739 df1 2 2 df2 54 54 Sig. .167 .000
Sesuai dengan hasil pemeriksaan box-plot, dapat disimpulkan varians harapan hidup perempuan adalah homogen (sig.> ) sedangkan varians pendapatan perkapita adalah tidak homogen (sig.< ) di region Afrika, Timur Tengah dan Amerika Latin.
23
TRANSFORMASI
Kompetensi Setelah mempelajari modul ini diharapkan mahasiswa mampu untuk melakukan transformasi untuk menormalkan data, menghomogenkan varians dan melinearkan hubungan antar variabel. Tujuan Transformasi 1. Menormalkan data 2. Menghomogenkan varians 3. Melinearkan hubungan antar variabel Transformasi Box-Cox Salah satu transformasi yang dapat dipakai untuk memnuhi tujuan transformasi di atas adalah transformasi Box-Cox. Tranformasi ini dapat dinyatakan sebagai berikut :
y= x 1
untuk 0 dan y=ln(x) untuk = 0
Pemilihan nilai biasanya dilakukan secara coba-coba dari nilai -3 sampai dengan +3, coba-coba itu dilakukan dengan aturan : Nomor 1 2 3 Tujuan Transformasi Menormalkan Menhomogenkan varians Melinearkan Optimasi Memaksimukan korelasi antara nilai observasi yang terurut dengan nilai F-1[(i-3/8)/(n+1/4)] Meminimukan nilai statistik uji F, Levene atau
Bartlett hubu- Memaksimukan nilai korelasi antar variabel yang sudah ditransformasi
ngan antar variabel
24
Transformasi untuk menormalkan Transformasi Box-Cox untuk menormalkan data dilakukan melalui algoritma berikut : 1. mulai 2. =3.1 3. r_max=0, _optimum=-3
4. .=+0.1 5. jika =0 maka y=ln(x) jika tidak y =

x 1
6. r=korelasi antara nilai y dengan z=F-1[(i-3/8)/(n+1/4)] 7. Jika r>r_max maka r_max=r dan _optimum= 8. Jika <3 maka pergi ke 4 9. Tulis _optimum 10. selesai Algoritma di atas dapat dinyatakan dalam macro MINITAB sebagai berikut :
25
macro box1 x mconstant i n l l_opt r_max temp mcolumn x y z lambda r t1 t2 mmatrix mr let n=count(x) let l=-3.1 let i=0 let r_max=0 while l<3 let i=i+1 let l=l+0.1 let lambda(i)=l if l=0 let y=ln(x) endif if l<>0 let y=(x**l-1)/l endif nscore y z corr y z mr copy mr t1 t2 let temp=t1(2) if temp>r_max let r_max=temp let l_opt=l endif let r(i)=temp endwhile plot r*lambda print l_opt r_max endmacro
26
Tranformasi untuk menghomogenkan varians Kehomogenan varians dari k kelompok data dapat diuji dengan menggunakan statistik uji Bartlett (T) yang dinyatakan :
k
T=
(n k ) ln s (ni 1) ln(si2 )
2 p i =1 k 1 1 1 1+ ( ) 3(k 1) i =1 (ni 1) (n k )
dan
s2 p =
(n
i =1
1) si2
(n k )
Pemilihan nilai untuk transformasi Box-Cox untuk menghomogenkan varians dilakukan dengan cara meminimukan statistik uji Barlett (T), algoritma untuk memilih nilai itu dapat dinyatakan sebagai berikut : 1. mulai 2. 3. =3.1 t_min=1000, _optimum=-3
4. .=+0.1 5. jika =0 maka y=ln(x) jika tidak y =

x 1
6. t=nilai statistic uji Bartlett untuk menguji kehomogenan y 7. Jika t<t_min maka t_min=t dan _optimum= 8. Jika <3 maka pergi ke 4 9. Tulis _optimum 10. selesai Algoritma di atas dapat diimplementasikan ke dalam macro MINITAB berikut :
27
macro box2 x group mconstant i j k n ii sp t t1 t2 l l_opt t_min mcolumn x group ni vari y z lambda index temp bartlett let n=count(x) let l=-3.1 let ii=0 let k=maxi(group) do i=1:k let ni(i)=0 enddo let j=1 do i=1:n if group(i)=j let ni(j)=ni(j)+1 endif if group(i)<>j let j=j+1 let ni(j)=ni(j)+1 endif enddo do i=1:k if i=1 let index(i)=1 endif if i>1 let index(i)=index(i-1)+ni(i-1) endif enddo while l<3 let ii=ii+1 let l=l+0.1 let lambda(ii)=l if l=0 let y=ln(x) endif if l<>0 let y=(x**l-1)/l endif do i=1:k let t1=index(i) let t2=t1+ni(i)-1 copy y temp; use t1:t2. let vari(i)=(stdev(temp))**2 enddo let sp=sum((ni-1)*vari/(n-k)) let t1=(n-k)*loge(sp)-sum((ni-1)*loge(vari)) let t2=1+1/(3*(k-1))*((sum(1/(ni-1))-1/(n-k))) let t=t1/t2 let bartlett(ii)=t endwhile plot bartlett*lambda sort bartlett lambda bartlett lambda let l_opt=lambda(1) let t_min=bartlett(1) print l_opt t_min endmacro
28
Transfomasi untuk melinearkan data Permilihan nilai untuk melinearkan hubungan antara variabel y dengan x, dilakukan dengan cara memaksimukan korelasi antara variabel y dengan transfrormasi variabel x. . Algoritma untuk memaksimumkan korelasi tersebut adalah : 1. mulai 2. =3.1 3. r_max=0, _optimum=-3 4. . =+0.1 5. jika =0 maka z=ln(x) jika tidak z =
x 1
6. r=harga mutlak korelasi antara nilai y dengan z 7. Jika r>r_max maka r_max=r dan _optimum= 8. Jika <3 maka pergi ke 4 9. Tulis _optimum 10. selesai Algoritma di atas dapat dinyatakan dalam macro MINITAB berikut :
29
macro box1 y x mconstant i n l l_opt r_max temp mcolumn x y z lambda r t1 t2 mmatrix mr let n=count(x) let l=-3.1 let i=0 let r_max=0 while l<3 let i=i+1 let l=l+0.1 let lambda(i)=l if l=0 let z=ln(x) endif if l<>0 let z=(x**l-1)/l endif corr y z mr copy mr t1 t2 let temp=t1(2) let temp=abs(temp) if temp>r_max let r_max=temp let l_opt=l endif let r(i)=temp endwhile plot r*lambda print l_opt r_max endmacro
30
Kegiatan Praktikum 1. Banyaknya penumpang pesawat udara bulanan yang dicatat selama 12 tahun adalah sebagai berikut :
112 104 158 199 183 236 204 203 312 413 355 362 360 362 508 118 118 133 199 218 235 188 229 274 405 422 348 342 405 461 132 115 114 184 230 229 235 242 237 355 465 363 406 417 390 129 126 140 162 242 243 227 233 278 306 467 435 396 391 432 121 141 145 146 209 264 234 267 284 271 404 491 420 419 135 135 150 166 191 272 264 269 277 306 347 505 472 461 148 125 178 171 172 237 302 270 317 315 305 404 548 472 148 149 163 180 194 211 293 315 313 301 336 359 559 535 136 170 172 193 196 180 259 364 318 356 340 310 463 622 119 170 178 181 196 201 229 347 374 348 318 337 407 606
Periksalah kenormalan di atas, jika data tidak berdistribusi normal maka tentukan transformasi yang sesuai untuk menormalkan data. 2. Lakukan pengujian kesamaan varians antar tahun untuk data di atas, jika ternyata varians tidak homogen, tentukan transformasi yang sesuai untuk menghomogenkan varians. 3. Niai harapan hidup perempuan (y) dan pendapatan per-kapita (x) Negara-negara di Asia adalah sebagai berikut :
COUNTRY Afghanistan Bangladesh Cambodia China Hong Kong India Indonesia Japan Malaysia N. Korea Pakistan Philippines S. Korea Singapore Taiwan Thailand Vietnam LIFEEXPF 44 53 52 69 80 59 65 82 72 73 58 68 74 79 78 72 68 GDP_CAP 205 202 260 377 14641 275 681 19860 2995 1000 406 867 6627 14990 7055 1800 230
Tentukan model yang paling sesuai untuk menjelaskan hubungan antar variabel y dan x.
31
Penyelesaian : 1. Pemeriksaan dan pengujian kenormalan : MTB > %pp.txt c1; SUBC> blom; SUBC> normal.
Pearson correlation of xsort and inv = 0.977
Nilai korelasi antara nilai observasi dengan F-1[(i-3/8)/(n+1/4)] adalah 0.977 lebih kecil dari nilai r0.05 sehingga dapat disimpulkan data penumpang pesawat udara tidak berdistribusi normal. Untuk menormalkan dilakukan transformasi Box-Cox :
MTB > %box1.txt c1
32
l_opt
0.000000000
r_max
0.990184
Nilai korelasi antara nilai observasi dengan F-1[(i-3/8)/(n+1/4)] yang diperoleh dengan transformasi Box-Cox dengan =0 sudah lebih besar dari nilai r_tabel sehingga dapat disimpulkan bahwa transformsi ln(x) berhasil menormalkan data. 2. Pengujian kehomogenan varians : MTB > %Vartest 'x' 'tahun' Bartlett's Test (normal distribution) Test Statistic: 66.511 P-Value : 0.000 Levene's Test (any continuous distribution) Test Statistic: 2.727 P-Value : 0.003 p-value<5% sehiingga dapat disimpulkan varians penumpang pesawat udara bulanan tidak mempunyai varians yang konstan. Untuk menstabilkan varians ini dilakukan transformasi Box-Cox sebagai berikut : MTB > %box2.txt c1 c2
l_opt
-0.300000
t_min
1.50878
33
Nilai optimum adalah -0.3 dekat dengan =0 (bilangan bulat terdekat dan menyesuaikan dengan transformasi yang menormalkan data), sehingga dicoba ditransformasi dengan ln(x). Hasil pengujian kehomogenan varians untuk data transformasi ln(x) adalah : MTB > %vartest c10 c2 Bartlett's Test (normal distribution) Test Statistic: 4.610 P-Value : 0.949 Levene's Test (any continuous distribution) Test Statistic: 0.199 P-Value : 0.997 3. Langkah awal untuk menentukan model terbaik yang mengubungkan antar variabel, dapat dilakukan dengan cara memilih transformasi untuk memaksimumkan korelasi antar dua variabel : MTB > %box3.txt c2 c3
l_opt
-0.500000
r_max
0.887895
34
Nilai optimum diperoleh =-0.5 sehingga model yang paling sesuai adalah:
y = + 1 + x
Nilai dugaan untuk dan adalah ::

MTB > let c4=1/sqrt(c3) MTB > regr c2 1 c4
Regression Analysis: LIFEEXPF versus akr-GDP
The regression equation is LIFEEXPF = 82.4 - 409 akr-GDP Predictor Coef SE Coef T P Constant 82.408 2.366 34.83 0.000 akr-GDP -409.17 54.74 -7.47 0.000 S = 5.172 R-Sq = 78.8% R-Sq(adj) = 77.4%
Sehingga dugaan modelnya adalah : life = 82.408 0.409 gdp gambar persamaan garis ini adalah :
35
PENDUGAAN DAN PENGUJIAN PARAMETER SATU POPULASI Tahapan didalam pengambilan keputusan secara Statistika dapat dinyatakan dalam : pengambilan sampel, pendugaan parameter populasi dan pengujian parameter populasi. Setelah mempelajari modul ini di harapkan mahsiswa dapat melkukan pendugaan dan pengujian parameter satu populasi dengan bantuan program paket Statistika. a. Pendugaan Parameter Satu Populasi Klasifikasi tabel berikut : No. 1 Parameter 2 tak diketahui 2 diketahui 2 Statistik Confidence interval Perintah MINITAB Onet c1 Onez c1; sigma= %varia.txt c1 pendugaan parameter untuk ukuran pemusatan dan penyebaran satu populasi yang berdistribusi normal dapat dinyatakan dalam
x= x s =
2
x
i =1
x t / 2 s /
n
x z / 2 / n
2 3
(x
i =1
x)
n 1
(n 1) s 2 (n 1) s 2 2 < < 2 2 1 / 2;n 1 / 2; n 1
Di dalam program paket MINITAB tidak tersedia secara langsung fasilitas untuk menentukan confidence interval untuk varians, untuk mengatasi hal ini dapat diselesaikan dengan cara membuat macro MINITAB. Dalam praktek pengolahan data untuk penentuan confidence interval, asumsi kenormalan tidak selalu dapat dipenuhi, untuk mengatasi hal ini dapat dilakukan penggunaan metode bootstrap. Algoritma dari metode bootstrap adalah sebagai berikut :
36
Mulai 1. 2. 3. 4. 5. Lakukan pengambilan sampel dari populasi : x 1, x2, , xn b=1000 i=0 i=i+1 Lakukan pengambilan sampel ke-i lagi dari sampel yang ada sebanyak n 6. Tentukan nilai statistik i 7. JIka i<b pergi ke 5 = 8. Tentukan nilai statistik dan standard error dengan cara : i b
i =1 b
dan s =
i =1
)2 ( i b b 1
9. Tentukan bootstrap confidence interval melalui nilai persentil dari i yaitu P100(/2) dan P100(1-/2) 10. Selesai
Selain dengan mengunakan metode bootstrap penentuan confidence interval dapat juga menggunakan metode nonparametrik yang lain yaitu tanda (sign) dan Wilcoxon, confidence interval untuk median dengan menggunakan dua metode ini adalah : Nomor Metode 1 Tanda 2 Wilcoxon Perintah Minitab sinterval 95 c1 winterval 95 c1
b. Pengujian Parameter Populasi Pengujian ukuran pemusatan populasi dapat diklasifikasikasikan menjadi dua kelompok yaitu : a. Asumsi distribusi normal terpenuhi dan pengujiannya dilakukan terhadap rata-rata populasi serta statistik ujinya adalah t untuk varians populasi tak diketahui dan z untuk varians populasi diketahui b. Asumsi distribusi normal tak terpenuhi, pengujiannya dilakukan terhadap median dan statistik ujinya adalah uji tanda ataupun uji Wilcoxon
37
Perintah MINITAB untuk dua macam klasifikasi di atas adalah : No. Syarat Hipotesis Statistik uji Perintah MINITAB nol 1 Onet c1; Normal, 2 =0 x Test 0. Tak 0 t= diketahui s/ n 2 2 Onez c1; x 0 Normal, =0 z= Sigma ; Diketahui / n Test 0.. 3 Simetri Median=M0 Tanda Stest M0 C1 4 Simetri Median=M0 Wilcoxon Wtest Mo C1 Selain dengan mengunakan cara di atas, pengujian hipotesis dapat juga dilakukan dengan menggunakan metode bootstrap, jika nilai 0 atau M0 termuat di dalam bootstrap confidence interval maka hipotesis nol diterima yang berarti nilai rata-rata populasi tidak berbeda dengan 0 atau nilai median populasi tidak berbeda dengan M0. Kegiatan Praktikum 1. Tentukan confidence interval 95 % untuk rata-rata dan varians harapan hidup perempuan di region Asia 2. Ujilah pernyataan yang menyatakan bahwa rata-rata harapan hidup perempuan di region Asia adalah 65 tahun. 3. Tentukan confidence interval 95 % untuk rata-rata dan varians pendapatan per-kapita di region Asia 4. Tentukan confidence interval 95 % untuk rata-rata pendapatan perkapita di region OECD
38
Penyelesaian 1. confidence interval 95 % untuk rata-rata dan varians harapan hidup perempuan di region Asia Untuk menyelesaiakan masalah ini, dibutuhkan tahapan Pemilihan Negara-negara di region Asia, yang diluar region Asia dihapus, [klik Data+Select Cases]
sehingga yang tersisa adalah hanya 17 negara di region Asia/Pasifik
39
Simpan data dalam format dbf [klik File+Sae As]
Buka data Asia.dbf dengan bantuan MINITAB [Klik File+open worksheet]
40
41
Uji
kenormalan
variabel
harapan
hidup
perempuan
dengan
Kolmogorov Smirnov [klik Stat+Basic Statistics+normality test]
dan hasilnya adalah :
p-value> sehingga harapan hidup perempuan berdistribusi normal
42
- Penentuan confidence interval rata-rata :[klik stat+basic stat+1 sample t]

One-Sample T: LIFEEXPF
Variable LIFEEXPF N 17 Mean 67.41 StDev 10.89 SE Mean 2.64 ( 95.0% CI 61.81, 73.01)
Harapan hidup perempuan di Asia berkisar antara 61.81 tahun sampai dengan 73 tahun dengan peluang sebesar 95% Confidence interval untuk varians adalah : MTB > %varia.txt c6 95
lower upper 65.7339 274.495
Varians harapan hidup perempuan Asia berkisar antara 65 sampai dengan 274 dengan peluang 95%.
43
2. Rata-rata harapan hidup perempuan di region Asia adalah 65 tahun. Karena harpan hidup perempuan berdistribusi normal, maka pengujian rata-ratanya dapat dilakukan dengan menggunakan stastik uji t sebagai berikut : [klik stat+basic statistics+1 sample t]

One-Sample T: LIFEEXPF
Test of mu = 65 vs mu not = 65 Variable LIFEEXPF Variable LIFEEXPF ( N 17 Mean 67.41 StDev 10.89 T 0.91 SE Mean 2.64 P 0.375
95.0% CI 61.81, 73.01)
p-value(0.375)> dan confidence interval memuat 65 sehingga H0 diterima yang berarti rata-rata harapan hidup perempuan Asia masih dapat dianggap sama dengan 65 tahun pada =5%.
44
3. Confidence interval 95 % untuk rata-rata dan varians pendapatan per-kapita di region Asia Untuk menyelesaikan permasalahan ini dibutuhkan informasi tentang kenormalan variabel pendapatan per-kapita. Hasil pengujian kenormalan dengan menggunakan statisitik uji Kolmogorov-Smirnov adalah sebagai berikut :
p-value < sehingga tolak H0 yang berarti pendapatan perkapita negara-negara Asia tidak berdistribusi normal sehingga confidence interval t tidak dapat digunakan, Pada kasus ini dapat digunakan sign confidence interval atau wilcoxon confidence interval sebagai alternatif jika pendapatan perkapita berdistribusi simetri. Histogram dari pendapatan perkapita
45
adalah
Dari histogram di atas dapat disimpulkan bahwa pendapatan perkapita berdistribusi tidak simetri. Untuk menjawab permasalahan data yang tidak berdistribusi normal dan tidak simetri, metode bootstrap dapat digunakan dengan cara : MTB > bootmean.txt c11 dan hasilnya adalah : stat_b se_b lower upper 4242.74 1508.60 1549.71 7467.06
Rata-rata pendapatan perkapita untuk Negara-negara Asia adalah 4242.74 dengan standard error 1508. Rata-rata pendapatan perkapita ini berkisar dari 1549 sampai dengan 7467 dengan peluang 95%. Sedangkan varians pendapatan perkapita adalah : MTB > %bootvar.txt c11 stat_b se_b lower 36838694 14993480 6298082
46
upper
64034876
Varians pendapatan perkapita Negara-negara Asia berkisar dari 6298082 sampai dengan 64034876 dengan peluang 95%.
47
4. confidence interval 95 % untuk rata-rata pendapatan perkapita di OECD Confidence interval untuk rata-rata dapat diselesaikan dengan confidence interval t jika data berdistribusi normal dan dapat diselesaikan dengan sign confidence interval atau wilcoxon confidence interval jika data berdistribusi simetri. Histogram dan hasil pengujian Kolmogorov Smirnov untuk variabel ini adalah :
Dari gambar di atas dapat disimpulkan bahwa pendapatan perkapita berdistribusi simetri tetapi tidak normal ( p-value<5%) sehingga sign atau wilcoxon confidence interval dapat dipergunakan. MTB > sinterval c11
GDP_CAP N 21 Median 17245 Achieved Confidence 0.9216 0.9500 0.9734 Confidence interval ( 15974, 17912) ( 15942, 18031) ( 15877, 18277) Position 7 NLI 6
Median pendapatan perkapita berkisar diantara urutan data 7 terkecil sampai dengan 7 data terbesar dengan peluang sebesar 0.9216 Median pendapatan perkapita berkisar dari 15942 sampai dengan 18031 dengan peluang sebesar 0.95. MTB > winterval c11
GDP_CAP N 21 Estimated Median 17126 Achieved Confidence 94.8 Confidence Interval ( 15146, 18093)
Pendapatan perkapita Negara-negara OECD berkisar dari 15146 sampai dengan 18093 dengan peluang sebesar 94.8%
48
Lampiran 1. Macro MINITAB untuk menentukan confidence interval varians

macro varia y ci mconstant i n var lower upper ci chis1 chis2 alpha alpha1 alpha2 df mcolumn y let n=count(y) let df=n-1 let alpha=1-ci/100 let alpha1=alpha/2 let alpha2=1-alpha1 let var=stde(y)*stde(y) invcdf alpha1 chis2; chis df. invcdf alpha2 chis1; chis df. let lower=df*var/chis1 let upper=df*var/chis2 print lower upper endmacro
Lampiran 2. Macro MINITAB untuk Menentukan Bootstrap Confidence Interval untuk Rata-rata dan Varians
macro bootmean x mconstant i n b lower upper stat_b se_b mcolumn x y stat let n=count(x) let b=1000 do i=1:b sample n x y; replacement. let stat(i)=mean(y) enddo let stat_b=mean(stat) let se_b=stde(stat) histo stat sort stat stat let lower=stat(25) let upper=stat(975) print stat_b se_b lower upper endmacro macro bootvar x mconstant i n b lower upper stat_b mconstant se_b mcolumn x y stat let n=count(x) let b=1000 do i=1:b sample n x y; replacement. let stat(i)=stde(y)*stde(y) enddo let stat_b=mean(stat) let se_b=stde(stat) histo stat sort stat stat let lower=stat(25) let upper=stat(975) print stat_b se_b lower upper endmacro
49
PENGUJIAN PARAMETER k POPULASI Pengujian ukuran pemusatan k populasi dapat diklasifikasikan
berdasarkan terpenuhinya asumsi kenormalan, kehomogenan varians dan keterkaitan antar populasi. Secara rinci klasifikasi tersebut dapat dinyatakan dalam tabel berikut : No. H0 1 12=0 Syarat Normal 2 12 = 2 Normal 12 22 Normal paired Normal 2 12 = 2 = ... = k2
t=
Statistik Uji ( x1 x 2 ) 0
s p 1 / n1 + 1 / n 2
Perintah SPSS
T-TEST GROUPS = region(3 4) /VARIABLES = lifeexpf.
12=0
t=
( x1 x 2 ) 0
2 s12 s 2 + n1 n 2
D=0
t=
1=2=...=k
T-TEST PAIRS = lifeexpf WITH lifeexpm (PAIRED). MS .between.group ONEWAY F = MS .within.group calories BY region /STATISTICS HOMOGENEITY /POSTHOC = LSD ALPHA(.05).
d 0 sd
M1=M2
Simetri
Mann-Whitney
NPAR TESTS /M-W= gdp_cap region(1 2).
BY
MD=M0
Simetri paired
Wilcoxon
NPAR TEST /WILCOXON=lit_fema WITH lit_male (PAIRED). NPAR TESTS /K-W=urban region(1 6).
M1=M2=
simetri
Kruskal-Wallis H= 12 ni ( Ri R )
i =1 k 2
BY
n(n + 1)
50
Kegiatan Praktikum Dengan menggunakan program paket SPSS, ujilah pernyataan berikut : 1. Rata-rata harapan hidup perempuan untuk region Asia dan Afrika adalah sama. 2. Harapan hidup perempuan lebih tinggi daripada harapan hidup lakilaki 3. Rata-rata konsumsi kalori perhari Negara-negara di seluruh region adalah sama 4. Rata-rata pendapatan perkapita Negara-negara OECD dengan Eropa Timur adalah sama 5. Persentase penduduk laki-laki yang dapat membaca tidak sama dengan persentase penduduk perempuan yang dapat membaca 6. Rata-rata kepadatan penduduk untuk seluruh region adalah sama Untuk menguji seluruh pernyataan di atas, dapat dilakukan dengan membuat syntax SPSS sebagai berikut : [klik File+New+syntax]
51
Untuk menjalankan syntax di atas dapat dilakukan dengan [klik Run+all], dan hasilnya adalah : 1. Rata-rata harapan hidup perempuan untuk region Asia dan Afrika adalah sama.
Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means
F Equal variances assumed Equal variances not assumed 1.698
Sig. .201
t 4.164 4.093
df 34 29.099
Sig. (2-tailed) .000 .000
Pengujian kesamaan rata-rata didahului dengan uji kesamaan varians, hasil uji kesamaan varians menyimpulkan varians harapan hidup perempuan untuk region Asia dan Afrika adalah sama, sehingga uji t untuk kesamaan
52
varians yang dipilih adalah uji t yang membutuhkan syarat varians homogen, dari hasil uji t ini diperoleh informasi bahwa rata-rata harapan hidup perempuan Asia tidak sama dengan rata-rata harapan hidup perempuan Afrika. 2. Harapan hidup perempuan lebih tinggi daripada harapan hidup laki-laki
Paired Samples Test Paired Differences
Mean Pair 1 Average female life expectancy - Average 5.239 male life expectancy
Std. Deviation 2.269
Std. Error Mean .217
t 24.109
df 108
Sig. (2-tailed) .000
Harapan hidup perempuan dan harapan hidup laki-laki adalah variabel yang saling dependent, sehingga untuk menguji pernyataan ini dilakukan dengan menggunakan uji t untuk sampel berpasangan, dari hasil ini diperoleh nilai t positif dan sig<, sehingga dapat diputuskan H0 ditolak yang berarti harapan hidup perempuan lebih tinggi daripada harapan hidup laki-laki 3. Rata-rata konsumsi kalori perhari Negara-negara di seluruh region adalah sama
Test of Homogeneity of Variances Daily calorie intake Levene Statistic 1.924 df1 5 df2 69 Sig. .101
Varians daily calorie intake untuk seluruh region adalah homogen, sehingga pengujian kesamaan rata-rata daily calorie intake untuk seluruh region dapat dilakukan dengan menggunakan oneway anova.
53
ANOVA Daily calorie intake Sum of Squares Between Groups 18449025 Within Groups 5410672 Total 23859697 df 5 69 74 Mean Square 3689804.945 78415.537 F 47.055 Sig. .000
Nilai sig.< sehingga H0 ditolak yang berarti rata-rata daily calorie intake untuk seluruh region adalah tidak sama. Untuk menguji pasangan region mana saja yang rata-rata daily calorie intake-nya berbeda, dapat dilakukan dengan menggunakan uji multiple comparison. Program paket SPSS menyediakan beberapa statistic uji untuk multiple comparison yaitu
54
Dengan menggunakan LSD diperoleh informasi pasangan region yang rata-rata daily calorie intake-nya homogen adalah pasangan region OECD-Eropa Timur dan pasangan region Asia/Pasifik-Amerika Latin.
55
Multiple Comparisons Dependent Variable: Daily calorie intake LSD Mean Difference (I-J) Std. Error -41.333 174.628 921.394* 107.169 1283.354* 96.215 352.292* 118.989 935.509* 92.106 41.333 174.628 962.727* 182.393 1324.688* 176.180 393.625* 189.580 976.842* 173.970 -921.394* 107.169 -962.727* 182.393 361.960* 109.680 -569.102* 130.118 14.115 106.093 -1283.354* 96.215 -1324.688* 176.180 -361.960* 109.680 -931.063* 121.256 -347.845* 95.016 -352.292* 118.989 -393.625* 189.580 569.102* 130.118 931.063* 121.256 583.217* 118.022 -935.509* 92.106 -976.842* 173.970 -14.115 106.093 347.845* 95.016 -583.217* 118.022
(I) Region or economic group OECD
East Europe
Pacific/Asia
Africa
Middle East
Latn America
(J) Region or economic group East Europe Pacific/Asia Africa Middle East Latn America OECD Pacific/Asia Africa Middle East Latn America OECD East Europe Africa Middle East Latn America OECD East Europe Pacific/Asia Middle East Latn America OECD East Europe Pacific/Asia Africa Latn America OECD East Europe Pacific/Asia Africa Middle East
Sig. .814 .000 .000 .004 .000 .814 .000 .000 .042 .000 .000 .000 .002 .000 .895 .000 .000 .002 .000 .000 .004 .042 .000 .000 .000 .000 .000 .895 .000 .000
*. The mean difference is significant at the .05 level.
56
4. Rata-rata pendapatan perkapita Negara-negara OECD dengan Eropa Timur adalah sama
Ranks Gross domestic product / capita Region or economic group OECD East Europe Total N 21 14 35 Mean Rank Sum of Ranks 25.00 525.00 7.50 105.00
b Test Statistics
Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)]
Gross domestic product / capita .000 105.000 -4.950 .000 .000

a
a. Not corrected for ties. b. Grouping Variable: Region or economic group
Dari modul sebelumnya diperoleh informasi bahwa pendapatan per-kapita tidak berdistribusi normal, sehingga statistik uji t tidak dapat dipergunakan dan sebagai alternatif dapat digunakan stastik uji Mann-Whitney, hasil pengujian dengan menggunakan statistik uji ini menyimpulkan bahwa median pendapatan perkapita region OECD tidak sama dengan median pendapatan perkapita region Eropa Timur.
57
5. Persentase penduduk laki-laki yang dapat membaca tidak sama dengan persentase membaca penduduk perempuan
Ranks N Males who read (%) Negative Ranks Females who read (%) Positive Ranks Ties Total 0a 66 b 19 c 85 Mean Rank .00 33.50 Sum of Ranks .00 2211.00
a. Males who read (%) < Females who read (%) b. Males who read (%) > Females who read (%) c. Males who read (%) = Females who read (%)
b Test Statistics
Males who read (%) Females who read (%) Z -7.065 a Asymp. Sig. (2-tailed) .000 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test
Nilai sig.< sehingga H0 ditolak yang berarti median persentase penduduk laki-laki yang dapat membaca tidak sama dengan median persentase penduduk perempuan yang dapat membaca.
58
6. Rata-rata kepadatan penduduk untuk seluruh region adalah sama

One-Sample Kolmogorov-Smirnov Test Number of people / sq. kilometer 109 203.415 675.7052 .383 .356 -.383 3.999 .000
N a,b Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Mean Std. Deviation Absolute Positive Negative
a. Test distribution is Normal. b. Calculated from data.
Dengan menggunakan statistic uji Kolmogorov Smirnov, diperoleh hasil kepadatan penduduk tidak berditribusi normal sehinggan oneway anova tidak dapat dipergunakan, sebagai alternatif dapat dipergunakan statistik uji Kruskal-Wallis
Ranks Number of people / sq. kilometer Region or economic group OECD East Europe Pacific/Asia Africa Middle East Latn America Total N 21 14 17 19 17 21 109 Mean Rank 54.74 57.93 84.65 39.87 53.32 44.36
Test Statistics Number of people / sq. kilometer 21.862 5 .001
Chi-Square df Asymp. Sig.
Nilai sig.< sehingga H0 ditolak yang berarti median kepadatan penduduk untuk seluruh region tidak dapat dianggap sama.
59
ANALISIS REGRESI
Analisis memodelkan
regresi
adalah
analisis
statistika
yang
bertujuan dengan
untuk variabel
hubungan
antara
variabel
independent
dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah : Y= f(X,) +
60
Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model : Y = 0 + 1X1 + 2X2 + + pXp + Dalam catatan matriks, model regresi linear dapat ditulis dalam : Y =X + atau
Y1 1 Y 1 2 = ... ... 1 Yn X 11 X 21 ... X n1 ... ... X p1 0 1 X2p 1 + 2 ... ... ... X np p n
Nilai dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara :
= ( X ' X ) 1 ( X ' Y )
0 = 2 ... p
n x1 (X ' X ) = ... x p[
x x
1
1 2 1
... ...
x x x
x x
y x1 y 1 p ( X 'Y ) = ... 2 xp x p y
p
Pengujian terhadap dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu. Pengujian secera serentak Hipotesis : H0 : = 0 H1 : 0
61
Statistik Uji Sumber Variasi Regresi Residual Total df p n-p-1 n-1 Sum Squares
Y ) (Y
2
of MS
Y ) (Y ) (Y Y
2
F
/p /( n p 1)
) (Y Y (Y Y ) 2
2
MS . Re gresi MS . Re sidual
Tolak Ho jika F>F,p,n-p-1 Pengujian secara individu Hipotesis H0 : I = 0 H1 : I 0 Statistik uji

t= i s
i
Tolak H0 jika |t|>t/2,n-p-1 Kegiatan Praktikum Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam : Y = 0 + 1 ln(gdp_cap) + 2 ln(density) + Penyelesaian : a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik transform+ compute]
62
63
b. Melakukan analisis regresi ;[klik+analyze+regression+linear]

Model Summary Model 1 R R Square .840 a .706 Adjusted R Square .700 Std. Error of the Estimate 5.788
a. Predictors: (Constant), ln_gdp, ln_dens
b ANOVA
Model 1
Sum of Squares Regression 8519.080 Residual 3551.268 Total 12070.349
df 2 106 108
Mean Square 4259.540 33.503
F 127.141
Sig. .000 a
a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy
64
a Coefficients
Model 1
(Constant) ln_dens ln_gdp
Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390
Standardized Coefficients Beta .123 .831
t 5.136 2.332 15.766
Sig. .000 .022 .000
a. Dependent Variable: Average female life expectancy
Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model : Y= 17.981 +0.904 ln(density) +6.150 ln(gdp_cap)
65
PEMILIHAN MODEL TERBAIK

Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variabel dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria model terbaik adalah : Nomor Kriteria 1 SSE 2 MSE 3 R2 4 5 6 7 Adjusted R2 Cp Mallow AIC SBC Formula
/(n p 1)
) (Y Y
)2 (Y Y
2
Y ) (Y (Y Y )
2 2
100%
Optimum Minimum Minimum Maksimum Maksimum Minimum Minimum Minimum
1 [1 R 2 ]
( n 1) (n p)
SSE (n 2 p) MSE
ln(SSE/n) +2p/n ln(SSE/n)+p/n ln(n)
66
Untuk memperoleh model terbaik, ada beberapa metode yang biasa digunakan yaitu : Metode Backward Penjelasan Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai Forward tidak ada lagi variabel independent yang tidak significant Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel StepSwise independent yang significant Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan Best subset Metode ini tersedia di dalam program paket MINITAB. Metode regression ini menyajikan k buah model terbaik untuk model dengan 1,2, ,p variabel independent.
67
Kegiatan Praktikum Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persenta-se penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt). rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression. Penyelesaian : Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara : [klik analyze+regression+linear]
atau melalui syntax :

REGRESSION /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt
68
ANOVA Model 1 Sum of Squares 7229.894 2337.565 9567.459 8206.309 1361.150 9567.459 8906.744 660.716 9567.459 9017.788 549.672 9567.459 df 1 72 73 2 71 73 3 70 73 4 69 73 Mean Square 7229.894 32.466 4103.154 19.171 2968.915 9.439 2254.447 7.966 F 222.690 Sig. .000
Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total
214.028
.000
314.544
.000
282.999
.000
Model Summary Model 1 2 3 4 R R Square .869 a .756 .926 b .858 c .965 .931 .971 d .943 Adjusted R Square .752 .854 .928 .939 Std. Error of the Estimate 5.698 4.378 3.072 2.822
a. Predictors: (Constant), People who read (%) b. Predictors: (Constant), People who read (%), Death rate per 1000 people c. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita d. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake
69
a Coefficients
Model 1 2
(Constant) People who read (%) (Constant) People who read (%) Death rate per 1000 people (Constant) People who read (%) Death rate per 1000 people Gross domestic product / capita (Constant) People who read (%) Death rate per 1000 people Gross domestic product / capita Daily calorie intake
Unstandardized Coefficients B Std. Error 36.226 2.275 .430 .029 53.279 2.961 .330 .026 -.966 62.740 .192 -1.211 .001 54.214 .172 -1.136 .000 .004 .135 2.350 .024 .099 .000 3.143 .023 .093 .000 .001
Standardized Coefficients Beta .869 .667 -.378 .389 -.474 .363 .347 -.444 .252 .186
t 15.924 14.923 17.995 12.606 -7.137 26.699 7.890 -12.214 8.614 17.252 7.456 -12.178 5.170 3.734
Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000
Sehingga model terbaiknya adalah : lifeexpf = 54.214 +0.172 literacy 1.136 death_rt + 0.000 gdp_cap +0.004 calori dengan R2= 0.943 Dengan menggunakan best subset regression :[klik stat+regression+best subset]
70
diperoleh hasil : Response is LIFEEXPF L I T E R A C Y X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X G D P _ C A P C A L O R I E S D E A T H _ R T
Vars 1 1 1 2 2 2 3 3 3 4 4 4 5
R-Sq 75.6 60.2 59.8 86.9 85.8 83.7 93.1 92.1 89.6 94.3 93.5 92.5 94.4
R-Sq(adj) 75.2 59.6 59.3 86.6 85.4 83.3 92.8 91.7 89.2 93.9 93.1 92.1 94.0
C-p 225.8 412.2 416.2 90.3 103.5 128.9 17.5 30.1 59.8 5.5 15.1 26.2 6.0
S 5.6979 7.2752 7.3055 4.1981 4.3686 4.6816 3.0711 3.2935 3.7688 2.8207 3.0095 3.2150 2.8112
U R B A N
Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise
71
DUMMY VARIABLE
Dalam beberapa kasus tertentu, penggunaan analisis regresi melibatkan adanya variabel independent yang berskala nominal ataupun ordinal. Untuk mengatasi hal ini dipergunakan dummy variable. Sebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan dengan pendapan perkapita dan region (Asia dan Afrika). Model yang menggambarkan hubungan antar variabel tersebut dapat dinyatakan dalam persamaan regresi : lifeexpf = 0 + 1 ln(gdp_cap) + 1 lifeexpf = 0 + 1 ln(gdp_cap) + 2 untuk region Asia untuk region Afrika
Dua persamaan regresi di atas dapat dijadikan satu persamaan regresi dengan cara menyisipkan sebuah dummy variable (D) yang bernilai 0 untuk region Asia dan 1 untuk region Afrika : lifeexpf = 0 + 1 ln(gdp_cap) + 2 D + 3 D*ln(gdp_cap) + Nilai 2 menggambarkan perbedaaan intercept antara region Asia dan Afrika, sedangkan nilai 3 menggambarkan perbedaan slope antara region Asia dan Afrika. Jika region yang dilibatkan lebih dari dua, misalkan region Asia, Afrika dan Amerika Latin maka persamaan regresinya menjadi : lifeexpf=0+1ln(gdp_cap)+2D1+3D1*ln(gdp_cap)+4D1+5D1*ln(gdp_cap)+ dengan aturan pemberian nilai dummy variabel adalah : region Asia Afrika Amerika Latin D1 0 0 1 D2 0 1 0 Persamaan regresi 0+1ln(gdp_cap)+ (0+2) +(1+3)ln(gdp_cap)+ (0+4) +(1+5)ln(gdp_cap)+
72
Secara umum banyaknya dummy variable yang dibutuhkan adalah banyaknya region-1. Kegiatan Praktikum : Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan dan pendapatan perkapita di region Asia, Afrika dan Amerika Latin Penyelesaian : Pembangkitan nilai D1 dan D2 :[klik transform+compute]
73
Lakukan dengan cara yang sama untuk membangkitkan variabel D2( bernilai 0 untuk region Asia, Amerika Latin dan bernilai 1 untuk region Afrika). Pembangkitan nilai D1*ln(gdp_cap) dan D2*ln(gdp_cap)
74
Analisis regresi :[klik analyze+regression+linear]

a Coefficients
Model 1
(Constant) ln_gdp D1 d2 d1_lngdp d2_lngdp
Unstandardized Coefficients B Std. Error 27.034 6.116 5.643 .834 22.860 14.130 -4.190 10.402 -2.986 1.761 -.720 1.547
Standardized Coefficients Beta .720 .975 -.184 -1.049 -.205
t 4.420 6.767 1.618 -.403 -1.696 -.465
Sig. .000 .000 .112 .689 .097 .644
Masih ada koefisien regresi yang tidak significant, setelah digunakan metode backward diperoleh hasil sebagai berikut :
75
a Coefficients
Model 1
(Constant) ln_gdp D1 d2 d1_lngdp d2_lngdp (Constant) ln_gdp D1 d1_lngdp d2_lngdp (Constant) ln_gdp d1_lngdp d2_lngdp (Constant) ln_gdp d2_lngdp
Unstandardized Coefficients B Std. Error 27.034 6.116 5.643 .834 22.860 14.130 -4.190 10.402 -2.986 1.761 -.720 1.547 25.585 4.904 5.836 .677 24.308 13.545 -3.179 1.680 -1.333 .284 28.771 4.674 5.412 .649 -.197 .255 -1.397 .288 29.562 4.542 5.202 .587 -1.308 .263
Standardized Coefficients Beta .720 .975 -.184 -1.049 -.205 .745 1.037 -1.117 -.379 .691 -.069 -.398 .664 -.373
t 4.420 6.767 1.618 -.403 -1.696 -.465 5.217 8.619 1.795 -1.892 -4.695 6.156 8.341 -.773 -4.851 6.508 8.860 -4.972
Sig. .000 .000 .112 .689 .097 .644 .000 .000 .079 .065 .000 .000 .000 .443 .000 .000 .000 .000
Model terbaik yang menggambarkan hubungan antara harapan hidup perempuan dan pendapatan per-kapita adalah : lifeexpf = 29.562 + 5.202 ln(gdp_cap) -1.308 D 2*ln(gdp_cap) atau region Asia Afrika Amerika Latin D1 0 0 1 D2 0 1 0 Persamaan regresi lifeexpf = 29.562 + 5.202 ln(gdp_cap) lifeexpf = 29.562 + 3.894 ln(gdp_cap) lifeexpf = 29.562 + 5.202 ln(gdp_cap)
76
INFLUENTIAL OBSERVATIONS
Influential observations adalah titik pengamatan yang keberadaannya mempunyai pengaruh terhadap persamaan regresi, sebagai contoh seperti yang tetera pada gambar di atas, titik (13.12.74) adalah influential observation, persamaan regresi kalau titik ini diikutkan adalah : The regression equation is Y3 = 3.00 + 0.500 X R 2 = 66.6% sedangkan kalau titik ini tidak diikutkan, diperoleh persamaan regresi : The regression equation is Y3 = 4.01 + 0.345 X R2 = 100.0 %
77
Untuk mendeteksi adanya influential observation dapat dipergunakan beberapa statistik berikut : No 1 Statistik DFFIT Formula
Y Y i (i ) ) stdev (Y
i
influential
>2 p n
Penjelasan Difference fit Perbedaan nilai Y taksiran dengan atau tanpa peng-
DFBETAS
b j b j (i ) stdev (b j )
> 2 n
amatan ke-i Difference Betas Perbedaan koefisien nilai regresi
dengan atau tanpa 3 Cooks Distance pengamatan ke-i Perbedaan vector

(bi b)' ( X ' X )(b( i ) b) > F0.50 , p .n p koefisien regresi pMSE dengan atau tanpa
COVRATIO
cov( ) cov( ( i )
pengamatan ke-i Covariance ratio Nisbah koefisien dterminan regresi matriks covariance dengan atau tanpa pengamatan ke-i
78
Kegiatan Praktikum : Tentukan Negara di Asia yang keberadaanya mempengaruhi hubungan antara harapan hidup perempuan dengan pedapatan per-kapita dengan menggunakan kriteria DFFIT Penyelesaian Memilih Negara di region Asia : [klik Data+Select Cases]
Analisis regresi : [klik analyze + regression +linear]
klik save
79

a Coefficients
Model 1
(Constant) ln_gdp
Unstandardized Coefficients B Std. Error 27.034 6.350 5.643 .866
Standardized Coefficients Beta .860
t 4.257 6.517
Sig. .001 .000
b Model Summary
Model 1
R R Square .860 a .739
Adjusted R Square .722
Std. Error of the Estimate 5.744
a. Predictors: (Constant), ln_gdp b. Dependent Variable: Average female life expectancy
80
Negara yang merupakan influential observation adalah Negara yang nilai

DFFIT > 2 p n
atau
DFFIT >0.69 ,
Negara tersebut adalah Negara
Afganistan, Cina, Kamboja dan Vietnam
81
ASUMSI DALAM ANALISIS REGRESI

Model linear yang menggambarkan hubungan antara variabel
independent dan variabel dependent adalah : Y = 0 + 1X1 + 2X2 + + pXp + Asumsi yang diperlukan untuk model ini adalah : a. ~N(0. )
2
2 b. var(i)= untuk semua i
c. cov(I,j) = 0 untuk ij d. antar X saling independent Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan : No. 1 Masalah Residual berdistribusi 2 normal Hetroscedastivit y 3 var(i) Autocorrelation
2
Deteksi tak normal probability plot
Solusi Tranformasi variabel
Uji kenormalan : KS, Regresi bootstrap

Plot e dengan y
Transformasi variabel Weighted Least Squares Regresi beda, Regresi ratio memasukkan trend Cochrane Orcutt, HildrethLu,Durbin, Prais-Winsten stepwise Principal component reg.
Uji Glesjer, White Uji Golfeld-Quandt

Plot e dengan y
cov(I,j) 0 untuk ij 4 Multicollinearity
Uji Durbin Watson ACF plot r(Xi,Xj) tinggi, VIF>10

X ' X 0
R2 tinggi tetapi tidak Ridge regression ada yang significant
82
REGRESI BOOTSTRAPP
Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t. Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil pengujian dengan statistik uji F dan t menjadi tidak valid asumsi kenormalan ini dapat dipergunakan uji Untuk menguji Kolmogorov-Smirnov,
Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit 2, jika hasil pengujian kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi adalah dengan menerapkan metode regresi bootstrap. Algoritma dari metode regresi bootstrap adalah : 1. mulai 2. Tentukan nilai taksiran dari model Y=X+ dengan metode kuadrat terkecil, hasil taksirannya adalah j , ols dan nilai taksirannya adalah
Y i , ols
Tentukan nilai e1, e2, , en, ei = Yi Y B=1000 i=0 i=i+1 Melakukan resampling with resampling sebanyak n dari ei hasil resamplingnya adalah e(i) 8. Menentukan nilai Yi =Y i , ols +e ( i ) 9. Menduga besarnya j pada resampling ke-i yaitu j ,i dari dan data Yi dengan Xji dengan metode kuadrat terkecil 10.Jika i<B pergi ke 6 11. Tentukan nilai taksiran koefisien regresi dari metode bootstrapp sebagai rata-rata nilai koefisien regresi hasil resampling sebanyak B kali 12. Tentukan confidence interval koefisien regresi melalui nilai persentil 13. Selesai
3. 4. 5. 6. 7.
83
Kegiatan Praktikum : Tentukan model yang menngambarkan hubungan antara harapan hidup perempuan dengan pendapatan perkapita serta ujilah asumsi kenormalan residual dengan uji Kolmogorov-Smirnov. Penyelesaian : Dengan bantuan MINITAB permaslahan ini dapat diselesaikan dengan cara Tranformasi variabel MTB > let c27=loge(lifeexpf) MTB > name c27=ln_gdp Regresi [klk stat+regression+regression]
klik storage
84

The regression equation is LIFEEXPF = 21.7 + 6.15 ln_gdp Predictor Coef SE Coef T P Constant 21.670 3.187 6.80 0.000 ln_gdp 6.1538 0.3981 15.46 0.000 S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8% Analysis of Variance Source DF SS MS F Regression 1 8336.9 8336.9 238.93 Residual Error 107 3733.4 34.9 Total 108 12070.3
P 0.000
Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]
85
Dengan
menggunakan
metode
kuadrat
terkecil
diperoleh
hasil
kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan metode regresi bootstrapp yang dinyatakan dalam macro MINITAB : macro regb y x mconstant n i b low_b0 up_b0 low_b1 up_b1 mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_boot let n=count(y) let b=1000 regr y 1 x; resid e; fits yhat. do i=1:b sample n e ee; replacement. let yy=yhat+ee regr yy 1 x; coef beta. let b0(i)=beta(1) let b1(i)=beta(2) enddo histo b0 histo b1 let b0_boot=mean(b0) let b1_boot=mean(b1) sort b1 b1 sort b0 b0 let low_b0=b0(25) let up_b0=b0(975) let low_b1=b1(25) let up_b1=b1(975) print b0_boot low_b0 up_b0 print b1_boot low_b1 up_b1 endmacro Untuk menjalankan macro di atas dapat dilakukan dengan cara : MTB > %regb.txt lifeexpf ln_gdp dan hasilnya adalah :
86
b0
b1
low_b0 up_b0 b0_boot 21.5513
14.7859 27.6859
low_b1 up_b1
5.40552 6.96901
b1_boot 6.16731
Confidence interval yang diperoleh untuk 0 dan 1 semuanya tidak melalui titik 0, sehingga dapat disimpulkan dua koefisien regresi ini significant pada =5%. Dan model yang diperoleh adalah : lifeexpf = 21.5513 + 6.16731 ln(gdp_cap)
87
HETEROSCEDASTICITY
Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau :
var( i ) = i2 = 2 i
Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual

, jika scatter plot membentuk gambar yang sudah dibakukan dengan nilai y
seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.
Selain dengan menggunakan scatter-plot seperti di atas, keberadaan hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau :
88
Jika
e =k .x1 .
maka dilakukan transformasi sebagai berikut :
x x x y 1 = 0 + 1 1 + 2 2 + 3 3 + ... atau x1 x1 x1 x1 x1
* * * y * = 1 + 0 x1 + 2 x2 + 3 x3 + ...
Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh :
* * * y * = b1 + b0 x1 + b2 x 2 + b3 x3 + ...
Kemudian
model
ini
dikembalikan
ke
variabel
asal
dengan
menggandakan ruas kiri dan ruas kanan dengan x 1 sehingga diperoleh :

y = b1 + b0 x1 + b2 x 2 + b3 x3 + ...
Secara umum masalah
heterocedasticity dapat diatasi dengan
mengguna-kan metode weighted least-squares yaitu :

1 1 =( X ' X ) 1 X Y dan adalah matriks diagonal dengan unsur
diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel independent, jika korelasi ini significant maka cenderung terjadi kasus hetroscedasticity. Koefisien korelasi Spearman dihitung dengan cara :
r =1 n(n 2 1) 6D 2
dan D adalah selisih rank antar dua variabel.
89
Kegiatan Praktikum : Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity untuk data berikut : Year 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Savin g Income 264 8777 105 9210 90 9954 131 10508 122 10979 107 11912 406 12747 503 13499 431 14269 588 15522 898 16730 950 17663 779 18575 819 19635 1222 21163 1702 22880 1578 24127 1654 25604 1400 26500 1829 27670 2200 28300 2017 27430 2105 29560 1600 28150 2250 32100 2420 32500 2570 35250 1720 33500 1900 36000 2100 36200 2300 38200
90
Penyelesaian : Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara : MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12. dan hasilnya adalah : The regression equation is saving = - 648 + 0.0847 income Predictor Constant income S = 247.6 Coef -648.1 0.084665 SE Coef 118.2 0.004882 T -5.49 17.34 P 0.000 0.000
R-Sq = 91.2%
R-Sq(adj) = 90.9%
Untuk melakukan uji Glejser, dilakukan perintah : MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income' The regression equation is abs_res = - 7.7 + 0.00935 income Predictor Constant income S = 100.0 Coef -7.69 0.009346 SE Coef 47.73 0.001972 T -0.16 4.74 P 0.873 0.000
R-Sq = 43.6%
R-Sq(adj) = 41.7%
Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak residual dengan variabel income sehingga terjadi kasus heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model : saving/income = 0 + 1 (1/income)+ Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan dengan cara :
91
MTB > MTB > MTB > MTB > SUBC>
let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*'; resid c21.
dan hasilnya adalah : The regression equation is y* = 0.0881 - 723 x* Predictor Constant x* S = 0.01051 Coef 0.088139 -722.50 SE Coef 0.004372 72.36 T 20.16 -9.98 P 0.000 0.000
R-Sq = 77.5%
R-Sq(adj) = 76.7%
Pengujian adanya heteroscedasticity dengan uji Glejser MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income' Hasil pengujian Glejser The regression equation is absres = 0.00793 +0.000000 income Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0% NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak residual dengan income atau varians residual cenderung sudah homogen. Sedangkan asumsi kenormalan residual dapat diuji dengan cara : MTB > %NormPlot C21; SUBC> Kstest. Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :
92
Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah : y* = 0.0881 - 723 x* atau : saving/income= 0.0881 -723 (1/income) setelah ruas kiri dan kanan digandakan dengan income maka diperoleh : saving=-723 +0.0881 income
93
MULTICOLLINEARITY
Multicollinearity Adanya hubungan linear antar variabel independent Multicollinearity dapat dideteksi dengan : a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c.
X ' X 0
d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda Multicollinearity dapat diatasi dengan : a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise.
= ( X ' X + kI ) 1 X ' Y , 0<k<1 b. Ridge Regression.
c. Principal Component Regression, tahapan dari metode ini adalah : Melakukan pembakuan data : z =
xx s
Membangkitkan variabel baru yang saling independent w1 = a11x1 + a12x2 + + a1pxp w2 = a21x1 + a22x2 + + a2pxp wp = ap1x1 + ap2x2 + + appxp atau wi =aix, nilai aI adalah eigen-vector dari eigen-value ke-i dari matriks korelasi antar variabel independent
Melakukan regresi y dengan w dan menyatakan model regresi y dengan w ke dalam model y dengan x
94
Kegiatan Praktikum 1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin 2. JIka ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi multicollinearity Penyelesaian a. Memilih data dari region Amerika Latin klik data+select cases+if
b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent :klik analyze+correlate+bivariate
95
Correlations Gross domestic product / capita .550** 1 .285 .617** .581** People living in cities (%) .500* .285 1 .578** .542* Males who read (%) .756** .581** .542* .956** 1
Average female life expectancy Average female life expectancy Gross domestic product / capita People living in cities (%) Females who read (%) Males who read (%) 1 .550** .500* .833** .756**
Females who read (%) .833** .617** .578** 1 .956**
**. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).
Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity. c. Memeriksa adanya kasus analyze+regression+linear multicollinearity dengan VIF:klik
klik statistics
96
a Coefficients
(Constant) Gross domestic product / capita People living in cities (%) Males who read (%) Females who read (%)
Unstandardized Coefficients B Std. Error 45.921 8.483 .000 .011 -.273 .594 .001 .068 .274 .238
t 5.413 .320 .159 -.997 2.498
Sig. .000 .753 .875 .334 .024
Collinearity Statistics VIF 1.640 1.525 11.573 13.289
Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk males who read negatif sedangkan koefisien korelasinya positif sehingga memang ada kasus multicollinearity. d. Mengatasi multicollinearity dengan metode stepwise : klik analyze + regression + linear + method stepwise
a Coefficients
Model 1
(Constant) Females who read (%)
Unstandardized Coefficients B Std. Error 39.013 5.077 .406 .062
t 7.684 6.557
Sig. .000 .000
Collinearity Statistics VIF 1.000
97
e. Mengatasi multicollinearity dengan ridge regression : klik file + new + syntax
klik Run +All

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE ______ ______ ________ ________ ________ ________ .00000 .71418 .054792 .026292 1.216924 -.453266 .05000 .69610 .094060 .064195 .727695 -.027707 .10000 .68316 .108722 .079079 .576309 .089996 .15000 .67496 .116972 .087904 .499551 .141542 .20000 .66894 .122256 .093883 .451628 .168551 .25000 .66400 .125810 .098171 .418018 .183994 .30000 .65966 .128228 .101326 .392635 .193180 .35000 .65564 .129847 .103668 .372467 .198665 .40000 .65182 .130880 .105402 .355839 .201821 .45000 .64811 .131470 .106666 .341745 .203441 .50000 .64445 .131719 .107560 .329540 .204016 .55000 .64083 .131700 .108158 .318790 .203861 .60000 .63722 .131470 .108517 .309190 .203186 .65000 .63360 .131071 .108681 .300520 .202137 .70000 .62999 .130537 .108683 .292617 .200817 .75000 .62637 .129895 .108551 .285355 .199298 .80000 .62273 .129165 .108309 .278639 .197636 .85000 .61909 .128365 .107975 .272392 .195871 .90000 .61544 .127509 .107564 .266551 .194033 .95000 .61179 .126608 .107088 .261068 .192146 1.0000 .60813 .125671 .106558 .255901 .190227
Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi
98
kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut :
99
f. Mengatasi multicollinearity dengan principal component regression 1. Menentukan skor komponen (w1, w2,)
MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.
Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable GDP_CAP URBAN LIT_MALE LIT_FEMA 2.8278 0.707 0.707 PC1 -0.435 -0.414 -0.560 -0.571 0.7163 0.179 0.886 PC2 0.655 -0.755 0.028 0.022 0.4141 0.104 0.990 PC3 -0.616 -0.506 0.478 0.368 0.0419 0.010 1.000 PC4 0.049 0.046 0.676 -0.734
2.
Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1
MTB > regr 'lifeexpf' 1 'w1' The regression equation is LIFEEXPF = 71.8 - 3.51 w1
Predictor Constant w1 Coef 71.7619 -3.5140
SE Coef 0.9930 0.6051
T 72.26 -5.81
P 0.000 0.000
3.
Menyatakan model regresi ke dalam variabel asal y = 71.8 -3.51 w1 y = 71.8 3.51(-0.435 z1 -0.414 z2 -0.560 z3 -0.571 z4 y = 71.8 + 1.53 z1 + 1.45 z2 + 1.97 z3 + 2.00 z4 x x3 x x1 x x2 x x4 y = 71.8 + 1.53 1 + 1.45 2 + 1.97 3 +2 4 s x1 s x2 s x3 s x4
100
AUTOCORRELATION
Autocorrelation Adanya hubungan antar residual atau residual bersifat tidak saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation dapat dideteksi dengan : a. Statistik uji Durbin-Watson :
n
d=
(e
i=2
i n
ei 1 ) 2
2 i
e
i =1
b. ACF plot, ada nilai r(et,et-k) melampaui batas 0 tidak saling independent c. Statistik uji Ljung-Box
Q = n ( n + 2)
j =1 k
2 maka residual n
r j2 n j
tolak Ho : residual saling independent jika Q>2,k
Adanya residual yang saling dependent dapat diatasi dengan : a. Regresi beda
y t y t 1 = 0 + 1 ( xt xt 1 ) + t
b. Regresi Nisbah
yt x = 0 + 1 t + t y t 1 xt 1
c. y t . y t 1 = 0 + 1 ( xt .xt 1 ) + t
101
Kegiatan Praktikum tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 export 102 105 105 105 104 104 106 106 105 106 106 106 106 106 108 108 109 110 113 113 112 114 113 112 114 113 117 117 117 117 gdp 255 261 261 260 257 257 261 260 257 259 259 258 257 257 261 261 262 264 271 271 268 271 269 266 270 267 276 276 276 275
Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.
102
Penyelesaian a. Penentuan model regresi dan pemeriksaan asumsi independent residual MTB > regr gdp 1 export; SUBC > resid c5.
The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549 Coef 110.354 1.40664 SE Coef 6.839 0.06251 T 16.14 22.50 P 0.000 0.000
R-Sq = 94.8%
R-Sq(adj) = 94.6%
MTB > %acf c5
Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent.
103
b. Mengatasi autocorrelation dengan regresi beda MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.
The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Constant dif_xprt S = 0.4956 Coef -0.48789 2.27658 SE Coef 0.09875 0.06924 T -4.94 32.88 P 0.000 0.000
R-Sq = 97.6%
R-Sq(adj) = 97.5%
MTB > %acf c9
residual sudah saling independent, dan modelnya adalah :

( gdp t gdp t 1 ) = 0.488 + 2.28(exp ort t exp ort t 1 )
104
Mengatasi autocorrelation dengan regresi nisbah MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13.
The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Constant C11 S = 0.001930 Coef 0.05627 0.94186 SE Coef 0.02957 0.02942 T 1.90 32.01 P 0.068 0.000
R-Sq = 97.4%
R-Sq(adj) = 97.3%
MTB > %acf c13
residual sudah saling independent, dan modelnya adalah

gdpt exp ort t = 0.0563 + 0.942 gdpt 1 exp ort t 1
105
ROBUST REGRESSION
Metode pendugaan parameter yang paling sering dipergunakan di dalam analisis regresi adalah metode kuadrat terkecil ( least squares), metode ini mempunyai kelemahan jika diterapkan pada data yang mengandung pengamatan berpengaruh (inflentual observation), persamaan regresi yang dihasilkan oleh metode kuadrat terkecil cenderung mudah berubah-ubah dengan adanya pengamatan berpengaruh.
Untik mengatasi kelemahan metode kuadrat terkecil ini dapat dilakukan dengan dua cara yaitu : a. Mengeluarkan titik yang berpengaruh yang dapat dideteksi dengan dffit, cook distance, dfbetas, setelah itu tetap menggunakan metode kuadrat terkecil b. Tetap menggunakan seluruh data, tetapi dengan memberikan bobot yang kecil untuk pengamatan yang berpengaruh, metode ini dikenal dengan nama metode regresi robust.
106
Metode pendugaan parameter di dalam analisis regresi robust a. Least Absolute Deviation (LAD), metode ini bekerja dengan meminimukan harga mutlak residual atau meminimumkan b. Least Trimmed Squares, metode ini bekerja
e
i =1
dengan
cara
meminimumkan jumlah kuadrat q buah residual terkecil atau meminimumkan c.
e
i =1
2 i
, besarnya q n / 2
Least Median Squares (LMS), metode ini bekerja dengan cara meminimumkan median kuadrat residual atau meminimumkan median( ei )
2
d.
M estimate, metode ini dikenalkan oleh Huber dengan cara meminimumkan jumlah fungsi dari residual atau meminimumkan
f (e ) , jika
i =1 i
f (ei ) = ei2 maka metode ini sama dengan OLS dan
jika f (ei ) = ei maka metode ini sama dengan LAD. Peminimuman dari
f (e )
i =1 i n
biasanya dilakukan dengan cara iteratively reweighted
least squares (IRLS) atau :

2 min f (ei ) ekuivalen dengan min wi ei dengan wi = i =1 i =1 n n
f (ei ) ei2
untuk metode
1
LAD :min
ei
i =1
ekuivalen dengan min
w e
i =1 i
2 i
dengan wi = e , penentuan wi dapat juga ditentukan dengan i cara :
107
wi = 1
untuk ei < median( ei ) dan

ei
wi =
median( ei )
untuk ei > median( ei )
Implementasi metode LAD dapat dinyatakan dalam macro berikut : macro lad y x mconstant i n s iterasi delta mcolumn y x w error b_old b_new let n=count(y) let iterasi=0 let delta=10 regr y 1 x; resid error; coef b_old. let error=abs(error) let s=median(error) while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 do i=1:n if error(i)<s let w(i)=1 else let w(i)=s/error(i) endif enddo regr y 1 x; weight w; resid error; coef b_new. let delta=sum(abs(b_old-b_new)) let error=abs(error) let s=median(error) let b_old=b_new endwhile endmacro
108
Kegiatan Praktikum Dari data Anscombe berikut, tentukan model regresi robust dengan metode LAD dan bandingkan hasilnya dengan metode OLS setelah pengamatan berpengaruhnya dikeluarkan. Nomo r X Y 1 10 7.46 2 8 6.77 3 13 12.74 4 9 7.11 5 11 7.81 6 14 8.84 7 6 6.08 8 4 5.39 9 12 8.15 10 7 6.42 11 5 5.73 Penyelesaian Dengan menggunakan MINITAB diperoleh hasil sebagai berikut : MTB >%lad.txt c2 c1 The regression equation is Y = 4.01 + 0.345 X Predictor Coef SE Coef T P Constant 4.00533 0.03445 116.26 0.000 X 0.345467 0.003783 91.31 0.000 S = 0.03554 R-Sq = 99.9% R-Sq(adj) = 99.9%
Analysis of Variance Source DF Regression 1 Residual Error 9 Total 10 SS 10.533 0.011 10.545
Fit 8.4964
MS 10.533 0.001
SE Fit 0.0207
F 8338.16
P 0.000
Unusual Observations Obs X Y 3 13.0 12.7400
Residual 4.2436
St Resid 2.99R
109
Setelah kasus ke-3 dihilangkan, diperoleh persamaan regresi berikut : MTB > let c2(3)=* MTB > regr c2 1 c1 MTB > regr y 1 x The regression equation is Y = 4.01 + 0.345 X 10 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant 4.00565 0.00292 1369.81 0.000 X 0.345390 0.000321 1077.35 0.000 S = 0.003082 R-Sq = 100.0% R-Sq(adj) = 100.0% Setelah kasus ke-3 dihilangkan ternyata persamaan regresi dari OLS dan LAD adalah hampir sama
110
NONLINEAR REGRESSION
Berdasarkan kelinearan antar parameter di dalam model regresi, maka model regresi dapat diklasifikasikan menjadi dua macam yaitu linear dan nonlinear. Model regresi dikatakan linear jika dapat dinyatakan dalam model :
y = 0 + 1 x 1 + 2 x 2 + 3 x3 + ... + k x k +
JIka model regresi tidak dapat dinyatakan ke dalam model di atas maka model yang diperoleh adalah model regresi non-linear, secara umum model regresi non-linear dapat dinyatakan dalam persamaan :
y = f ( x, ) +
NIlai dapat diduga dengan dengan cara meminimukan jumlah kuadrat residual, jumlah kuadrat ini dapat diminimukan jika turunan pertama terhadap sama dengan nol atau :
SSE = [ y i f ( xi , )]
i =1 n 2
n f ( xi , ) SSE = [ y i f ( xi , )] =0 i =1
Hasil turunan pertama terhadap sama dengan nol membentuk suatu sistem persamaan non-linear yang tidak dapat diselesaikan secara langsung tetapi dapat didekati secara iteratif dengan menggunakan metode numerik, salah satu metode numerik yang dapat menyelesaikan hal ini adalah metode Gauss-Newton. Metode Gauss-Newton ini bekerja dengan menggunakan pendekatan deret Taylor dari fungsi pada iterasi ke i+1 adalah :
= + ( ' ) 1 ' e i +1 i i i i i
SSE sampai suku kedua. Nilai dugaan
dan
111
f ( x1 , ) f ( x1 , ) f ( x1 , ) ... 1 k 0 f ( x 2 , ) f ( x 2 , ) ... f ( x 2 , ) = 0 1 k ... f ( x n , ) f ( x n , ) ... f ( x n , ) 1 k 0

Iterasi ini dihentikan jika nilai
atau i+ 1 i
0.0000 i+ 1 i
Levenberg-Marquardt menyempurnakan metode Gauss-Newton dengan memasukkan konstanta (nilai awal =1) yang besarnya berubah-ubah mengikuti perubahan SSE. Nilai akan diperkecil sepersepuluh kali dan
iterasi diteruskan jika SSE turun serta nilai akan meningkat sepuluh kali dan kembali ke iterasi awal jika SSE meningkat. Formula Levenberg-Marquardt adalah :
= + ( ' + diag' ) 1 ' e i +1 i i i i i i i
112
Kegiatan Praktikum Tahun Penduduk 1980 100 1981 105 1982 110 1983 115 1984 124 1985 130 1986 135 1987 142 1988 149 1989 155 1990 165 1991 172 1992 182 1993 194 1994 203 1995 212 1996 223 1997 234 1998 246 1999 258 2000 271 Banyaknya penduduk pada interval tahun 1980 sampai dengan tahun 2000 diduga mempunyai pola pertumbuhan eksponensial yang dapat dinyatakan dalam model :
y = 0 e 1t +
Tentukan nilai dugaan untuk 0 dan 1
Penyelesaian
t Model y = 0 e 1 + adalah model non linear, berbeda dengan model
y = 0 e 1t e e yang dapat dilinearkan dengan transformasi logaritma, untuk

menduga besarnya koefisien regresi digunakan metode Gauss-Newton dengan formula berikut :
= + ( ' ) 1 ' e i +1 i i i i i
113
Dengan nilai awal untuk 0
=100
(Nilai y pada tahun dasar) dan untuk
= 0.05 (nilai pertumbuhan relatif dari dua nilai y awal :100 ke 105). 1
Sedangkan nilai matriks dapat ditentukan dari
f f dan yaitu : 0 1
f = 0 e 1t
f = e t 0
1
f = 0 te t 1
1
sehingga matriks menjadi :
e 1t1 1t 2 e = ... 1t n e
0 t.e 1t1 0t.e 1t 2 ... 0t.e 1t n

i =1 n 2 2 2 i ti 0 ti e i =1
n
dan matriks adalah :
n 2 1ti e ' = n i =1 t e2 i ti 0i i =1
te
0 i
2 iti
Untuk menyelesaikan kaus ini dengan metode Gauss-Newton, dapat dilakukan dengan bantuan Macro MINITAB berikut :
macro nonlin yy xx b0 b1 mconstant b0 b1 bb0 bb1 iterasi delta mcolumn yy xx x1 x2 b yhat error mmatrix x xt xtx xtxinv xte e yyhat h b_old b_new # # nilai awal # let b(1)=b0 let b(2)=b1 copy b b_old let yhat=b0*expo(b1*xx)
114
let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 x let delta=10 let iterasi=0 # # iterasi gauss-newton # while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 transpose x xt multiply xt x xtx invert xtx xtxinv multiply xt e xte multiply xtxinv xte h add b_old h b_new copy b_new b let bb0=b(1) let bb1=b(2) let delta=abs(b0-bb0)+abs(b1-bb1) let b0=bb0 let b1=bb1 copy b_new b_old let yhat=b0*expo(b1*xx) let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 x endwhile print b0 b1 endmacro
Untuk menjalankan macro MINITAB di atas dapat dilakukan dengan perintah :

MTB > DATA> DATA> MTB > DATA> DATA> DATA> DATA> MTB > b0 b1 set c1 0:20 end set c2 100 105 110 115 165 172 182 194 271 end %nonlin.txt c2 c1 100 0.05 100.150 0.0499193
124 203
130 212
135 223
142 234
149 246
155 258
Sehingga model pertumbuhan eksponensial banyaknya penduduk dari tahun 1980 sampai dengan tahun 2000 adalah :
115
y t = 100.150e 0.0499 t
Dengan bantuan SPSS pemodelan regresi nonlinear untuk banyaknya penduduk dapat dilakukan dengan : klik analyze+regression+nonlinear
klik parameters
Iteration 1 1.1 2 2.1 3 3.1
Residual SS 22.83350008 22.58470063 22.58470063 22.58469961 22.58469961 22.58469961
B0 100.000000 100.149827 100.149827 100.149728 100.149728 100.149729
B1 .050000000 .049919149 .049919149 .049919293 .049919293 .049919293
Nilai koefisien regresi dan SSE sudah tidak berubah lagi sehingga iterasi berhenti.
Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression Residual 2 19 681946.41530 22.58470 340973.20765 1.18867
116
Uncorrected Total 21 681969.00000 (Corrected Total) 20 56224.95238 R squared = 1 - Residual SS / Corrected SS = .99960 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 100.14972863 .350807378 99.415480345 100.88397691 B1 .049919293 .000241815 .049413169 .050425416
Confidence interval untuk koefisien regresi tidak ada yang melalui titik nol sehingga dapat dikatakan koefisien regresi yang diperoleh significant pada =5%. Latihan 1. Rasio elektrifikasi
57.44 95.26 99.67 64.57 96.44 99.75
(Persentase rumah tangga yang berlangganan PLN)

71.09 97.34 76.85 98.02 81.76 98.52 85.81 98.90 89.09 99.18 91.68 99.39 93.70 99.55
selama 20 tahun di suatu daerah adalah sebagai berikut :
Tentukan
model
yang
menggambarkan
hubungan
antara
rasio
elektrifikasi dengan waktu 2. Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (y), persentase penduduk yang tinggal di perkotaan (x 1), harapan hidup laki-laki (x2) dan pendapatan perkapita(x3) yang dinyatakan dalam model :
y = 0 x11 x 2 2 x3 3 +
Penyelesaian Persentase penduduk yang berlangganan PLN tidak mungkin lebih dari 100 %, dan akan mendekati 100 % untuk t yang sangat besar, salah satu model yang memenuhi sifat-sifat ini adalah :
yt = 100 + 1 + 0 e t
Dengan bantuan SPSS
117
Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 2 164053.29912 82026.64956 Residual 18 1.799245E-04 9.995807E-06 Uncorrected Total 20 164053.29930 (Corrected Total) 19 3129.70530 R squared = 1 - Residual SS / Corrected SS = 1.00000 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 B1 .740850358 .299981460 .000067112 .000027927 .740709362 .299922787 .740991355 .300040132
118
Pemodelan y = 0 x1 1 x 2 2 x3 3 + dengan bantuan SPSS dapat dilakukan dengan cara :
Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source DF Sum of Squares Mean Square Regression 4 542255.95702 135563.98926 Residual 104 368.04298 3.53887 Uncorrected Total 108 542624.00000 (Corrected Total) 107 12023.07407 R squared = 1 - Residual SS / Corrected SS = .96939 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 1.266804442 .150462507 .968431646 1.565177239 B1 .010369463 .007318355 -.004143109 .024882036 B2 .934838552 .033915777 .867582293 1.002094811 B3 .009008014 .003101373 .002857875 .015158153
Confidence interval untuk 1 memuat titik nol, sehingga koefisien ini tidak significant sehingga analisis regresi nonlinear perlu dilanjutkan dengan tanpa memasukkan variabel persentase penduduk yang tinggal diperkotaan.
119
Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source Regression Residual Uncorrected Total (Corrected Total) DF 3 106 109 108 Sum of Squares 548174.04067 378.95933 548553.00000 12070.34862 .96860 Mean Square 182724.68022 3.57509
R squared = 1 - Residual SS / Corrected SS = Asymptotic Std. Error .138090655 .031327433 .002967936
Parameter B0 B2 B3
Estimate 1.208565153 .953133843 .010483637
Asymptotic 95 % Confidence Interval Lower Upper .934786998 .891024160 .004599416 1.482343308 1.015243525 .016367859
120
RANCANGAN PERCOBAAN (EXPERIMENTAL DESIGN)
Tujuan Mengkaji pengaruh pemberian perlakuan ( treatment) terhadap satuan percobaan (unit of experiment). Pengaruh dari perlakuan terhadap satuan percobaan ditandai oleh bervariasinya nilai variabel respon ( response variable) yang diduga karena pemberian perlakuan yang berbeda. Contoh Dilakukan percobaan penentuan obat penurun tekanan darah terbaik dengan mencobakan 3 macam obat, dan dilakukan pengukuran tekanan darah systolic dan diastolic sebelum diberi obat dan setengah jam setelah minum obat pada kelompok umur 30-40 tahun, 40-50 tahun dan 50-60 tahun. Perlakuan Kelompok (Block) Variabel respon Covariate Satuan percobaan Pemberian obat penurun tekanan darah Kelompok umur Tekanan darah setengah jam setelah minum obat Tekanan darah sebelum minum obat Pasien
121
Klasifikasi Rancangan Lingkungan (Environmental design) a. Rancangan Acak Lengkap (Completely Random Design), dipakai pada kasus satuan percobaan bersifat homogen b. Rancangan Acak Kelompok (Block Random Design), dipakai pada kasus satuan percobaan bersifat heterogen, kemudian dilakukan pengelompokan sedemikian hingga satuan percobaan di dalam kelompok yang sama masih bersifat homogen. Rancangan Perlakuan (Treatment design) a. Dilihat dari penentuan perlakuan :fixed dan random, dikatakan random jika penentuan perlakuan dipilih secara acak dan kesimpulannya nanti berlaku untuk populasi perlakuan. b. Dilihat dari macam perlakuan : tunggal dan faktorial, dikatakan faktorial, jika perlakuan terdiri dari beberapa factor dan antar fakor dimungkinkan terjadi interaksi
122
Rancangan Acak Lengkap : Contoh 1 : Untuk meneliti efektifitas obat penurun tekanan darah tinggi, dilakukan percobaan pemberian obat yang terdiri dari tiga macam obat yaitu obat A: placebo, obat B, dan obat C, setiap obat dicobakan pada 10 orang, dan pada setiap orang diukur tekanan darah systolic sebellum minum obat (y1) dan 30 menit setelah minum obat (y2). Respon yang diamati adalah nilai y1-y2. Pelaksanaan Percobaan Untuk melakukan percobaan ini dibutuhkan 30 orang yang mempunyai kondisi kesehatan yang sama dan dari kelompok umur yang sama serta berjenis kelamin sama misalkan perempuan. Kemudian untuk menentukan perlakuan ke setiap orang dibutukan pengacakan yang dapat dengan cara berikut. Ambil 30 buah kartu yang ditandai a1,a2,,a10, b1,,b10, c1,,c10 kemudian dikocok kemudian berikan pada setiap orang satu kartu, beri perlakuan yang sesuai dengan kartu yang diperoleh setiap orang. Nilai variabel respon yang diamati adalah Obat A B C 1 2 11 17 2 6 9 18 3 7 11 16 4 3 11 18 5 0 11 23 6 1 10 25 7 4 15 20 8 5 8 22 9 10 9 17 10 4 9 16 dilakukan
123
Model yang sesuai untuk kasus ini adalah : ke-j

Yij = + i + ij , i=1,,t dan j=1,..,r Yij : Nilai penurunn tekanan darah
ij : Galat Percobaan (Experimental Error) Asumsi : ij beristribusi normal dengan rata-rata=0 dan varians konstan
: Rata-rata penurunan tekanan darah i : Pengaruh pemberian obat ke-i
setelah diberi obat ke-i untuk orang
Hipotesis : H0 : Tidak ada pengaruh pemberian obat terhadap penurunan tekanan darah H1 : Ada pengaruh pemberian obat terhadap penurunaan tekanan darah atau
i H0 : i = 0 H1 : i 0 Statistik uji :
atau
H1 : i j
H0 : 1 = 2 = 3
Sumber Variasi derajat bebas Perlakuan t
Jumlah Kuadrat
(Sum of Squares)
t r 2
Kuadrat Tengah F-hitung

(Mean of squares)
t r 2
Y ) (Y ij
i 1 j= 1
Y ) (Y ij
i 1 j =1
MS .Treatment MS . Re sidual
Sisa (residual)
rt-t-1
) (Yij Y ij
i 1 j= 1
) (Yij Y ij
i 1 j =1
rt t 1
Total
rt-1
(Yij Y )
i 1 j= 1
Tolak Ho jika F-hitung> f ,t 1. rt t 1
124
Dengan bantuan SPSS, pengujian pengaruh pemberian obat terhadap penurunan tekanan darah dapat dilakukan dengan cara : a. Pemasukan Data
b. Analysis of variance klik analyze+compare means+oneway ANOVA
125
c. Pengujian kesamaan varians klk options
d. Pembandingan berganda (multiple comparison) klik post-hoc

Test of Homogeneity of Variances Levene Statistic Penurunan Tekanan Darah 1.686 df1 2 df2 27 Sig. .204
Nilai sig. lebih besar dari 5%, sehingga H0 diterima yang berarti varians penurunan tekanan darah untuk ketiga macam perlakuan pemberian obat adalah sama.
126
ANOVA Sum of Squares Penurunan Tekanan Darah Between Groups Within Groups Total 1136.267 203.600 1339.867 df 2 27 29 Mean Square 568.133 7.541 F 75.342 Sig. .000
Nilai sig.<5% sehingga dapat disimpulkan ada pengaruh pemberian obat terhadap penurunan tekanan darah atau rata-rata penurunan tekanan darah dari perlakuan tiga macam obat tidak bisa dikatakan sama, untuk menguji pasangan rata-rata yang berbeda dari perlakuan pemberian tiga macam obat dapat dilakukan pembandingan berganda dengan menggunakan statistik uji Least Significance Difference sebagai berikut :
Multiple Comparisons Dependent Variable: Penurunan Tekanan Darah LSD (I) Jenis obat tekanan darah A B C (J) Jenis obat tekanan darah B C A C A B 95% Confidence Interval Lower Upper Bound Bound -8.7198 -3.6802 -17.5198 -12.4802 3.6802 8.7198 -11.3198 -6.2802 12.4802 17.5198 6.2802 11.3198
Mean Difference (I-J) Std. Error -6.2000* 1.228 -15.0000* 1.228 6.2000* 1.228 -8.8000* 1.228 15.0000* 1.228 8.8000* 1.228
Sig. .000 .000 .000 .000 .000 .000
*. The mean difference is significant at the .05 level.
Dari hasil pembandingan berganda, diperoleh informasi bahwa ketiga macam obat memberikan rata-rata penurunan tekanan darah yang berbeda, urutan penurunan tekanan darah adalah A<B<C.
127
Rancangan Acak Lengkap : analysis of covariance Contoh 2 : Untuk meneliti efektifitas obat penurun tekanan darah tinggi, dilakukan percobaan pemberian obat yang terdiri dari tiga macam obat yaitu obat A: placebo, obat B, dan obat C, setiap obat dicobakan pada 10 orang, dan pada setiap orang diukur tekanan darah systolic sebellum minum obat (y1) dan 30 menit setelah minum obat (y2). Respon yang diamati adalah y2, sedangkan y1 adalah covariate. Model yang sesuai untuk kasus ini adalah :
Yij = +i + ( X ij X .. ) +ij
Yij : Nilai tekanan darah setelah minum obat ke-I untuk orang ke-j
: Nilai rata-rata tekanan darah setelah minum obat

i : Pengaruh obat ke-i
X ij : NIlai tekanan darah sebelum minum obat ke-I untuk orang ke-k
Hipotesis 1: H0 : Tidak ada pengaruh pemberian obat ke-I terhadap tekanan darah H1 : Ada pengaruh pemberian obat ke-I terhadap tekanan darah
i dan H1 : i 0 atau H0 : i = 0
Hipotesis 2 : H0 : Tidak ada hubungan antara tekanan darah sebelum dan sesudah minum obat H1 : Ada hubungan antara tekanan darah sebelum dan sesudah minum obat atau : H0 : = 0 dan H1 : 0
128
Data : Sesudah Sebelum Sesudah Sebelum Sesudah Sebelum Tekanan darah sebelum dan sesudah minum obat A 142 143 145 150 144 145 148 142 146 144 149 152 153 144 146 152 147 156 Tekanan darah sebelum dan sesudah minum obat B 143 141 149 145 147 144 145 146 149 154 150 160 156 158 154 160 154 158 Tekanan darah sebelum dan sesudah minum obat C 143 150 143 150 146 146 146 147 142 160 168 159 168 169 171 166 169 159 142 146 143 152 150 166
Dengan bantuan SPSS hal ini dapat diselesaikan dengan cara : a. Pemasukan Data
129
b. Analisis Covariance : klik Analyze + General linear model + factorial

a,b ANOVA
Sum of Squares Tekanan darah sesudah minum obat Covariates Tekanan darah sebelum minum obat obat penurun tekanan darah
df
Unique Method Mean Square
Sig.
113.072
113.072
30.393
.000
Main Effects
56.224 126.472 96.728 223.200
2 3 26 29
28.112 42.157 3.720 7.697
7.556 11.332
.003 .000
Model Residual Total
a. Tekanan darah sesudah minum obat by obat penurun tekanan darah with Tekanan darah sebelum minum obat b. All effects entered simultaneously
Nilai sig. untuk covariates lebih kecil dari 5 % berarti ada hubungan antara tekanan darah sebelum dan sesudah minum obat. Nilai sig. untuk main effects lebih kecil dari 5% berarti ada pengaruh pemberian obat penurun tekanan darah terhadap tekanan darah setelah minum obat
130
Rancangan LIngkungan : Rancangan Acak Lengkap Rancangan Perlakuan : Faktorial You as a biologist are studying how zooplankton live in two lakes. You set up twelve tanks in your laboratory, six each with water from a different lake. You add one of three nutrient supplements to each tank and after 30 days you count the zooplankton in a unit volume of water. Data untuk kasus ini diperoleh dari MINITAB (EXH_AOV.MTW), model yang sesuai untuk kasus ini adalah :
Yijk = + i + j + ( ) ij + ijk dan i=1,2,3 j=1,2 k=1,2
Yijk : Banyaknya zooplankton pada air danau ke j yang diberi supplement
ke- i dan ulangan (replication) ke-k
: Rata-rata banyaknya zooplankton

i : Pengaruh supplement ke-i terhadap banyaknya zooplankton
j : Pengaruh penggunaan air dari danau ke-j terhadap banyaknya
zooplankton Dengan bantuan MINITAB kasus ini dapat diselesaikan dengan cara : klik stat + anova+two-way :
131

Analysis of Variance for Zooplank Source DF SS MS Suppleme 2 1919 959 Lake 1 21 21 Interaction 2 561 281 Error 6 622 104 Total 11 3123 Suppleme 1 2 3 Mean 43.5 68.3 39.8 F 9.25 0.21 2.71 P 0.015 0.666 0.145
Individual 95% CI --+---------+---------+---------+--------(-------*-------) (--------*-------) (--------*-------) --+---------+---------+---------+--------30.0 45.0 60.0 75.0
Dilihat dari p-value dapat disimpulkan bahwa ada pengaruh supplement tidak ada pengaruh penggunaan air dari danau yang berbeda, tidak ada pengaruh interaksi antara penggunaan air yang berbeda dengan jenis supplement terhadap banyaknya zooplankton. Supplement terbaik adalah supplement yang kedua, yang memberikan rata-rata banyaknya zooplankton tertinggi dibandingkan dengan supplement yang lain.
132
Rancangan Lingkungan : Rancangan Acak Kelompok Rancangan Perlakuan : Perlakuan Tunggal
/* Getting Started Example 2: Randomized Complete Block Design */ title 'Randomized Complete Block'; data RCB; input Block Treatment $ Yield Worth @@; datalines; 1 A 32.6 112 1 B 36.4 130 1 C 29.5 106 2 A 42.7 139 2 B 47.1 143 2 C 32.9 112 3 A 35.3 124 3 B 40.1 134 3 C 33.6 116 ; proc anova; class Block Treatment; model Yield Worth=Block Treatment; means Treatment; run;
Dependent Variable: Yield Source Model Error Corrected Total Sum of DF Squares Mean Square F Value Pr > F 4 225.2777778 56.3194444 8.94 0.0283 4 25.1911111 6.2977778 8 250.4688889 Coeff Var 6.840047 DF 2 2 Root MSE Yield Mean 2.509537 36.68889 Mean Square F Value Pr > F
R-Square 0.899424 Source Block Treatment
Anova SS
98.1755556 49.0877778 7.79 0.0417 127.1022222 63.5511111 10.09 0.0274
Dependent Variable: Worth Source Model Error Corrected Total Sum of DF Squares Mean Square F Value Pr > F 4 1247.333333 311.833333 8.28 0.0323 4 150.666667 37.666667 8 1398.000000 Coeff Var 4.949450 Root MSE Worth Mean 6.137318 124.0000
R-Square 0.892227 Source Block Treatment
DF Anova SS Mean Square F Value Pr > F 2 354.6666667 177.3333333 4.71 0.0889 2 892.6666667 446.3333333 11.85 0.0209
Rancangan Lingkungan : Rancangan Acak Kelompok Rancangan Perlakuan : Faktorial

*/ */
/* Example 1: Randomized Complete Block /* With Factorial Treatment Structure
133
title 'Randomized Complete Block With Two Factors'; data PainRelief; input PainLevel Codeine Acupuncture Relief @@; datalines; 1 1 1 0.0 1 2 1 0.5 1 1 2 0.6 1 2 2 1.2 2 1 1 0.3 2 2 1 0.6 2 1 2 0.7 2 2 2 1.3 3 1 1 0.4 3 2 1 0.8 3 1 2 0.8 3 2 2 1.6 4 1 1 0.4 4 2 1 0.7 4 1 2 0.9 4 2 2 1.5 5 1 1 0.6 5 2 1 1.0 5 1 2 1.5 5 2 2 1.9 6 1 1 0.9 6 2 1 1.4 6 1 2 1.6 6 2 2 2.3 7 1 1 1.0 7 2 1 1.8 7 1 2 1.7 7 2 2 2.1 8 1 1 1.2 8 2 1 1.7 8 1 2 1.6 8 2 2 2.4 ; proc anova; class PainLevel Codeine Acupuncture; model Relief = PainLevel Codeine|Acupuncture; run;
The ANOVA Procedure Dependent Variable: Relief Source Model Error Corrected Total DF 10 21 Sum of Squares Mean Square F Value Pr > F 11.33500000 1.13350000 78.37 <.0001 0.30375000 0.01446429 31 11.63875000 Root MSE Relief Mean 0.120268 1.156250 Mean Square F Value Pr > F
R-Square 0.973902 Source PainLevel Codeine Acupuncture Codeine*Acupuncture
Coeff Var 10.40152 DF 7 1
Anova SS
5.59875000 0.79982143 55.30 <.0001 2.31125000 2.31125000 159.79 <.0001 1 3.38000000 3.38000000 233.68 <.0001 1 0.04500000 0.04500000 3.11 0.0923
Split Plot Rancangan Lingkungan : Rancangan Acak Kelompok Rancangan Perlakuan : Faktorial Faktor pertama diacak di dalam kelompok, sedangkan factor kedua diacak dalam factor pertama, error untuk factor pertama adalah interaksi antara kelompok dengan factor pertama. data Split; input Block 1 A 2 B 3 Response; datalines;
134
142 141 112 111 121 122 132 131 221 222 212 211 241 242 231 232 ;
40.0 39.5 37.9 35.4 36.7 38.2 36.4 34.8 42.7 41.6 40.3 41.6 44.5 47.6 43.6 42.8 proc anova; class Block A B; model Response = Block A Block*A B A*B; test h=A e=Block*A; run;
DF 11 4 Sum of Squares Mean Square F Value Pr > F 182.0200000 16.5472727 7.85 0.0306 8.4300000 2.1075000 15 190.4500000
Source Model Error Corrected Total R-Square 0.955736
Source Block A Block*A B A*B
Coeff Var Root MSE Response Mean 3.609007 1.451723 40.22500 DF Anova SS Mean Square F Value Pr > F 1 131.1025000 131.1025000 62.21 0.0014 3 40.1900000 13.3966667 6.36 0.0530 3 6.9275000 2.3091667 1.10 0.4476 1 2.2500000 2.2500000 1.07 0.3599 3 1.5500000 0.5166667 0.25 0.8612
Tests of Hypotheses Using the Anova MS for Block*A as an Error Term Source DF Anova SS Mean Square F Value Pr > F A 3 40.19000000 13.39666667 5.80 0.0914
135

Bahan Ajar

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Bahan Ajar

Загружено:

Авторское право:

Доступные форматы

MANAJEMEN DATA SPSS Statistika dapat didefinisikan sebagai ilmu yang dipakai untuk mengambil keputusan dalam kondisi

Laki-laki Perempuan 3 4 Total -1

.00 1.00 2.00 3.00 4.00

1. Buka data world95.sav dengan SPSS klik File+Open+Data

2. Simpan data dengan type dbf ke c:\My Documents\world95.dbf Klik File+Save As

3. Buka world95.dbf dengan bantuan MINITAB Klik File+Open Worksheet

dan data world95 siap diolah dengan bantuan MINITAB

Dengan bantuan SPSS penggabungan tersebut dapat dilakukan dengan

Negara-negara yang tidak terpilih akan tercoret.

Scatter-plot, Klik Graph+Scatter+Simple

2, Scatter-Plot, Klik Graph+Scatter+Simple

Akan disajikan scatter-plotuntuk setiap region.

Normal P-P Plot of U

Expected Cum Prob

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Normal P-P Plot of E

Expected Cum Prob

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Normal P-P Plot of N

Expected Cum Prob

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Variabel membentuk huruf U.

Normal P-P Plot of Average female life expect

Expected Cum Prob

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Normal P-P Plot of Gross domestic product / c

Expected Cum Prob

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Mean Std. Deviation Absolute Positive Negative

a. Test distribution is Normal. b. Calculated from data.

(2i 1) [ln F (Yi ) + ln( F (Yi ) + ln(1 F (Yn +1i ))] n

Gross domestic product / capita

Average female life expectancy

6000 4000 2000 0 -2000

Region or economic group

Region or economic group

untuk 0 dan y=ln(x) untuk = 0

ngan antar variabel

4. .=+0.1 5. jika =0 maka y=ln(x) jika tidak y =

4. .=+0.1 5. jika =0 maka y=ln(x) jika tidak y =

Pearson correlation of xsort and inv = 0.977

Nilai dugaan untuk dan adalah ::

Regression Analysis: LIFEEXPF versus akr-GDP

(n 1) s 2 (n 1) s 2 2 < < 2 2 1 / 2;n 1 / 2; n 1

sehingga yang tersisa adalah hanya 17 negara di region Asia/Pasifik

Simpan data dalam format dbf [klik File+Sae As]

Buka data Asia.dbf dengan bantuan MINITAB [Klik File+open worksheet]

Kolmogorov Smirnov [klik Stat+Basic Statistics+normality test]

dan hasilnya adalah :

p-value> sehingga harapan hidup perempuan berdistribusi normal

- Penentuan confidence interval rata-rata :[klik stat+basic stat+1 sample t]

dan hasilnya adalah :

dan hasilnya adalah :

95.0% CI 61.81, 73.01)

Lampiran 1. Macro MINITAB untuk menentukan confidence interval varians

PENGUJIAN PARAMETER k POPULASI Pengujian ukuran pemusatan k populasi dapat diklasifikasikan

NPAR TESTS /M-W= gdp_cap region(1 2).

F Equal variances assumed Equal variances not assumed 1.698