Вы находитесь на странице: 1из 135

MANAJEMEN DATA SPSS Statistika dapat didefinisikan sebagai ilmu yang dipakai untuk mengambil keputusan dalam kondisi

tidak pasti, pijakan utama untuk mengambil keputusan adalah data. Dalam modul ini akan dibahas berbagai macam cara untuk mengelola data dengan bantuan SPSS. Setelah meliputi : a. Pendefinisian variabel b. Pembersihan data c. export/import data d. Penggabungan data e. Pemilihan data f. Pemecahan data g. Penyusunan syntax a. Pendefinisian Variabel Sebelum melakukan pemasukan data, biasanya dilakukan pendefinisian variabel yang meliputi nama variabel, jenisnya (numerik atau bukan), pemberian label, dan missing value. klik data+define variable sebagai contoh disajikan contoh peragaan pendefinisian variabel jenis kelamin responden : mempelajari modul ini, mahasiswa diharapkan mampu melakukan manajemen data dengan bantuan SPSS, manajemen data ini

variabel jenis kelamin responden diberi nama : sex, setelah nama variabel sudah ditentukan maka ditentukan jenis variabel dengan mengklik Type

Variabel sex ini jenisnya adalah numeric dengan lebar 1 angka, angka yang diisikan nantinya adalah 1 untuk laki-laki, dan 2 untuk perempuan. Untuk membe-ri label seperti ini dilakukan perintah dengan mengklik Labels Variabel sex diberi label Jenis Kelamin Responden dan bernilai 1 untuk laki-laki dan 2 untuk perempu-an, jika ada responden yang tidak mengisi pertanyaan ini, maka hal ini disebut missing values. untuk memfasilitasi hal ini dapat dilakukan dengan mengklik Missing Values di define variable window

Jika ada responden yang tidak mengisi pertanyaan jenis kelamin, maka ditandai dengan -1, pemilihan lambing bilangan untuk missing values biasanya diberi sebagai suatu nilai yang tidak mungkin seandainya variabel tersebut terisi

b. Pembersihan Data Data yang sudah dimasukkan dengan bantuan komputer, masih dimungkinkan untuk salah dimasukkan akibat kelalaian manusia. Untuk memeriksa adanya kesalahan semacam ini dapat digunakan distribusi frekuensi untuk data yang bersklala diskrit ataupun nilai statistik deskriptif untuk data yang berskala kontinyu.
Jenis Kelamin Responden Frequency 47 47 2 1 97 3 100 Percent 47.0 47.0 2.0 1.0 97.0 3.0 100.0 Valid Percent 48.5 48.5 2.1 1.0 100.0 Cumulative Percent 48.5 96.9 99.0 100.0

Valid

Missing Total

Laki-laki Perempuan 3 4 Total -1

Dari contoh distribusi frekuensi di atas, terlihat ada jenis kelamin yang bernilai 3 dan 4 , sehingga masih ada kesalahan yang perlu untuk diperbaiki dengan melihat kembali data yang tercatat sebelum dimasukkan ke komputer.

Descriptive Statistics N NIlai makan siang kemarin Valid N (listwise) 98 98 Minimum 8.00 Maximum Mean Std. Deviation 3609.45489

14800.00 7904.1633

Rata-rata komsumsi responden untuk sekali makan siang adalah adalah 7904 rupiah dengan nilai minimum 8 rupiah, nilai minimum 8 rupiah jelas merupakan data yang salah mengingat tidak mungkin sekali makan siang menghabiskan 8 rupiah. Sehingga perlu diadakan perbaikan data dengan memeriksa kembali catatan data sebelum dimasukkan ke komputer. Pemriksaan kesalahan data dapat juga dengan melibatkan dua variabel seperti contoh berikut :
Banyaknya anak * status perkawinan Crosstabulation Count status perkawinan Belum Menikah Menikah 0 46 13 2 11 0 17 0 8 0 49 48

Banyaknya anak

.00 1.00 2.00 3.00 4.00

Total

Total 46 15 11 17 8 97

Ada responden yang belum menikah yang sudah mempunyai anak, hal ini perlu dilakukan pemeriksaan, apakah memang benar seperti ini atau terjadi kesalahan. c. Export/Import Data Setiap program paket Statistika diharapkan mampu berkomunikasi dengan program paket Statistika yang lain dengan cara mampu untuk berbagi data, atau data yang telah disimpan dengan program paket A diharapkan dapat diolah oleh program B, sebagai contoh diperagakan hal berikut :

1. Buka data world95.sav dengan SPSS klik File+Open+Data

2. Simpan data dengan type dbf ke c:\My Documents\world95.dbf Klik File+Save As

3. Buka world95.dbf dengan bantuan MINITAB Klik File+Open Worksheet

dan data world95 siap diolah dengan bantuan MINITAB

d. Penggabungan Data Program paket SPSS mempunyai kemampuan untuk menggabung file kesamping atau ke bawah : Contoh penggabungan kesamping : Ada dua file : File Biodata : NRP, Nama, Tempat Lahir, Tgl Lahir, Jenis Kelamin File NIlai : NRP, PMS, MAT1, MAT2, ED, AR Dua file ini dapat digabung jika ada variabel yang bersifat unik (nilainya berbeda untuk mahasiswa yang berbeda), variabel ini disebut juga sebagai key variable. Dalam hal ini variabel tersebut adalah NRP. Dengan bantuan SPSS penggabungan tersebut dapat dilakukan dengan tahapan : 1. Buka file pertama dengan cara File+Open+data 2. Gabung dengan file kedua dengan cara klik Data+Merge Files+Add Variables kemudian isikan key-variablenya Contoh penggabungan kebawah : Ada dua file File NIlai 1 File NIlai 2 tahapan : 1. Buka file pertama dengan cara File+Open+data 2. Gabung dengan file kedua dengan cara klik Data+Merge Files+Add cases kemudian isikan key-variablenya e. Pemilihan Data Di dalam program paket SPSS tersedia fasilitas pemilihan kasus, sehingga analisis Statistika yang dilakukan hanya valid untuk kasus yang terpilih. Contoh peragaan dari fasilitas ini adalah : : NRP, PMS, MAT1, MAT2, ED, AR : NRP, PMS, MAT1, MAT2, ED, AR

Dengan bantuan SPSS penggabungan tersebut dapat dilakukan dengan

Tampilkan scatter-plot dari harapan hidup perempuan dan pendapatan perkapita untuk Negara-negara di Asia/Pasifik. 1. Pemilihan Negara-negara Asia, klik Data+Select Cases

klik if

Dari hasil pemilihan Negara dari region=3(Asia) akan tampak hasil berikut :

Negara-negara yang tidak terpilih akan tercoret.

2.

Scatter-plot, Klik Graph+Scatter+Simple

klik options

10

f. Pemecahan Data Di dalam program paket SPSS juga tersedia vasilitas pengelompokan data berdasarkan nilai variabel tertentu. Setetlah pengelompokan dilakukan maka analisis yang dilakukan, hasilnya akan disajikan pada setiap kelompok variabel tersebut. Contoh peragaan dari pemecahan data adalah : Tampilkan scatter-plot antara harapan hidup perempuan dan pendapatan perkapita pada setiap region(Asia, Afrika,). 1. Pemecahan Data : Klik Data+Split File

3.

2, Scatter-Plot, Klik Graph+Scatter+Simple

Akan disajikan scatter-plotuntuk setiap region.

11

h. Penyusunan Syntax Program paket SPSS dapat dioperasikan dengan dua macam cara. Cara pertama melalui klik pada menu yang ada dan cara kedua dengan cara menuliskan syntax. Contoh penulisan syntax adalaghsebagai berikut : Klik File+New+Syntax Kemudian tuliskan perintah-perintah yang dibutuhkan :

Cara pengoperasian SPSS melalui syntax akan terasa lebih efisien, bila data berukuran besar dan analisis yang akan dilakukan pada data tersebut ada banyak macamnya.

12

PEMERIKSAAN DATA Statistika dapat didefinisikan sebagai ilmu yang dipergunakan untuk menyimpulkan kondisi populasi berdasarkan kondisi sampel, untuk melakukan hal ini biasanya dilakukan tahapan yang disebut pengujian hipotesis, hasil dari pengujian hipotesis ini dapat dikatakan valid jika beberapa syarat terpenuhi, syarat-syarat itu kompetensi : a. Melakukan pemeriksaan dan pengujian kenormalan b. Melakukan pemeriksaan dan pengujian kehomogenan varians Kenormalan Asumsi tentang distribusi seringkali dibutuhkan kalau kita menggunakan Statistika parametrik, asumsi terutama dibutuhkan jika diadakan pengujian hipotesis. Asumsi ini dapat diperiksa dengan beberapa cara diantaranya melalui histogram dan normal probability plot. Contoh histogram dan npp dari data yang berdistribusi uniform, eksponensial dan normal adalah sebagai berikut : (Gambar 1.) Dari contoh gambar ini, dapat disimpulkan bahwa data yang berdistribusi uniform mempunyai normal probability-plot-nya berbentuk huruf S, sedangan data yang berdistribusi eksponensial mempunyai normal probability plot berbentuk huruf u, serta data yang berdistribusi normal mempunyai normal probability plot garis lurus. diantaranya, kenormalan, kehomogenan varians dan kelinearan. Diharapkan setelah mempelajari modul ini mahasiswa mempunyai

13

70
1.00

Normal P-P Plot of U

60

50

.75

Expected Cum Prob

40

.50

30

20

.25

10 0 100.0 110.0 120.0 130.0 140.0 150.0 160.0 170.0 180.0 190.0 200.0

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

300 1.00

Normal P-P Plot of E

200

.75

100

Expected Cum Prob

.50

.25

0
0 0. .0 00 13 .0 00 12 .0 00 11 .0 00 10 0 0. 90 0 0. 80 0 0. 70 0 0. 60 0 0. 50 0 0. 40 0 0. 30 0 0. 20 0 0. 10

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

120
1.00

Normal P-P Plot of N

100
.75

80

40

Expected Cum Prob

60

.50

.25

20

0.00 0.00 .25 .50 .75 1.00

0
2.5 23 7.5 22 2.5 22 7.5 21 2.5 21 7.5 20 2.5 20 7.5 19 2.5 19 7.5 18 2.5 18 7.5 17 2.5 17 7.5 16

Observed Cum Prob

Gambar 1. Histogram dan normal probability plot dari data yang berdistribusi uniform, eksponensial dan normal

14

Variabel membentuk huruf U.

harapan lurus,

hidup

perempuan

untuk

Negara-negara perkapita

Asia

cenderung berdistribusi normal, Karena normal probability plot-nya cenderung garis sedangkan pendapatan cenderung berdistribusi eksponen-sial, karena normal probability plot-nya membentuk

Normal P-P Plot of Average female life expect


1.00

.75

Expected Cum Prob

.50

.25

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Normal P-P Plot of Gross domestic product / c


1.00

.75

Expected Cum Prob

.50

.25

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

15

Selain dengan menggunakan normal probability plot, kenormalan data dapat juga diuji dengan menggunakan beberapa statistik uji berikut : a. Goodness of fit 2 b. Kolmogorov Smirnov c. Anderson Darling d. Shapiro Wilk

a. Goodness of fit 2 Statistik uji ini mengukur jumlah kuadrat perbedaan frekuensi sesungguhnya dengan frekuensi yang diharapkan kalau data berdistribusi normal. Secara rinci statistik uji ini dapat dinyatakan dalam formula berikut :
( o i ei ) 2 ei

2 =
i =1

Tolak H0 (Data berdistribusi normal) jika nilai 2 > 2, k-2 Statistik uji ini diharapkan dipergunakan untuk data yang berukuran besar. Statistik uji ini tidak tersedia di dalam paket SPSS ataupun MINITAB, program paket yang menyediakan statistik uji ini adalah STATGRAPHICS. b. Kolmogorov Smirnov Statistik uji KS ditentukan berdasarkan nilai terbesar dari selisih antara nilai fungsi distribusi teoritis dengan nilai fungsi distribusi empiris. D= max|F(x)-i/n| Tolak H0 (data berdistribusi normal) jika D>D . Statistik uji ini hanya dapat dipergunakan untuk data yang kontinyu dan jika nilai dugaan parameter dihitung dari sampel maka hasil pengujian ini cenderung tidak valid mengingat dari hasil simulasi ditunjukkan nilai taksiran cenderung lebih kecil dari . Statistik uji ini tersedia di program paket SPSS dan MINITAB. Hasil pengujian

16

kenormalan untuk data harapan hidup perempuan untuk Negara-negara di Asia adalah sebagai berikut : [klik statistics+nonparamterics test+1 sample KS]

One-Sample Kolmogorov-Smirnov Test Average female life expectancy 17 67.41 10.886 .169 .090 -.169 .695 .719

N a,b Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)

Mean Std. Deviation Absolute Positive Negative

a. Test distribution is Normal. b. Calculated from data.

c. Anderson Darling Statistik uji ini dikembangkan untuk mengatasi kelemahan statistik uji Kolmogorov Smirnov yang hasil pengujiannya bisa tidak valid jika nilai dugaan parameternya dihitung dari sampel. Nilai statistik uji ini dihitung dengan cara : A 2 = n
i =1 n

(2i 1) [ln F (Yi ) + ln( F (Yi ) + ln(1 F (Yn +1i ))] n

17

Statistik uji ini tidak tersedia di SPSS tetapi di MINITAB ada. Hasil pengujian kenormalan dengan statistik uji Anderson Darling adalah : [klik stat+basic statistics+normality test]

18

19

Shapiro-Wilk Statistik uji Shapiro-Wilk dihitung berdasarkan urutan data yang dinyatakan dalam :
n

W=

( ai x( i ) ) 2

(x
i =1

i =1 n

x)2

Statistik Shapiro-Wilk telah dibandingkan dengan statistik uji kenormalan yang lain melalui simulasi dan hasilnya lebih baik terutama untuk sampel kecil. Hasil pengujian Shapiro-Wilk untuk data pendapatan per-kapita adalah : [klik stat+basic statistics+normality test]

20

Kehomogenan varians Kehomogenan varian untuk beberapa kelompok data dapat diperiksa melalui box-plot. Box-plot dari harapan hidup perempuan dan pendapatan perkapita untuk beberapa region Afrika, Timur Tengah dan Amerika Latin adalah sebagai berikut : [klik graphs+box-plot+defines]

90

16000 14000

80

12000 10000

70

Gross domestic product / capita

8000
Barbados

Average female life expectancy

6000 4000 2000 0 -2000


N= 19 17 21 Gabon South Africa Botswana Somalia

60

50
Haiti

40
N= 19 17 21

Africa

Middle East

Latn America

Africa

Middle East

Latn America

Region or economic group

Region or economic group

Varians harapan hidup perempuan di region Afrika, Timur Tengah dan Amerika Latin relatif cenderung lebih homogen daripada pendapatan perkapita,

21

karena besar kotak harapan hidup perempuan cenderung sama besar daripada besar kotak pendapatan per-kapita. Selain dengan melihat box-plot, kehomogenan varians dapat diuji dengan statistik uji Bartlett dan Levene. Statistik uji Bartlett dapat dipergunakan jika data berdistribusi normal, sedangkan statistik uji Levene tidak membutuhkan syarat kenormalan data. Statistik uji Bartlett dan Levene dapat ditentukan dengan cara :
k

( vi ) ln
i =1

v s
i =1 k

2 i i

B=

v
i =1

vi ln( si2 )
i =1

1 + (
i =1

1 1 k ) /[3(k 1)] vi vi
i =1

k s2i vi ni

= banyaknya kelompok = varians data pada kelompok ke-i = ni 1 = banyaknya data pada kelompok ke-i
k

L=

(n k ) ni ( mi m.. ) 2 (k 1) ( xij mi ) 2
i =1 j =1 i =1 k ni

mi m..

= median data pada pelompok ke-i = median untuk keseluruhan data Hasil pengujian kehomogenan varians dengan menggunakan statistik uji

Levene untuk data pendapatan perkapita di region Afrika, Timur Tengah dan Amerika Latin adalah : [klik statistics+compare means+oneway anova]

22

Test of Homogeneity of Variances Levene Statistic Average female life expectancy Gross domestic product / capita 1.850 13.739 df1 2 2 df2 54 54 Sig. .167 .000

Sesuai dengan hasil pemeriksaan box-plot, dapat disimpulkan varians harapan hidup perempuan adalah homogen (sig.> ) sedangkan varians pendapatan perkapita adalah tidak homogen (sig.< ) di region Afrika, Timur Tengah dan Amerika Latin.

23

TRANSFORMASI
Kompetensi Setelah mempelajari modul ini diharapkan mahasiswa mampu untuk melakukan transformasi untuk menormalkan data, menghomogenkan varians dan melinearkan hubungan antar variabel. Tujuan Transformasi 1. Menormalkan data 2. Menghomogenkan varians 3. Melinearkan hubungan antar variabel Transformasi Box-Cox Salah satu transformasi yang dapat dipakai untuk memnuhi tujuan transformasi di atas adalah transformasi Box-Cox. Tranformasi ini dapat dinyatakan sebagai berikut :
y= x 1

untuk 0 dan y=ln(x) untuk = 0

Pemilihan nilai biasanya dilakukan secara coba-coba dari nilai -3 sampai dengan +3, coba-coba itu dilakukan dengan aturan : Nomor 1 2 3 Tujuan Transformasi Menormalkan Menhomogenkan varians Melinearkan Optimasi Memaksimukan korelasi antara nilai observasi yang terurut dengan nilai F-1[(i-3/8)/(n+1/4)] Meminimukan nilai statistik uji F, Levene atau

Bartlett hubu- Memaksimukan nilai korelasi antar variabel yang sudah ditransformasi

ngan antar variabel

24

Transformasi untuk menormalkan Transformasi Box-Cox untuk menormalkan data dilakukan melalui algoritma berikut : 1. mulai 2. =3.1 3. r_max=0, _optimum=-3

4. .=+0.1 5. jika =0 maka y=ln(x) jika tidak y =


x 1

6. r=korelasi antara nilai y dengan z=F-1[(i-3/8)/(n+1/4)] 7. Jika r>r_max maka r_max=r dan _optimum= 8. Jika <3 maka pergi ke 4 9. Tulis _optimum 10. selesai Algoritma di atas dapat dinyatakan dalam macro MINITAB sebagai berikut :

25

macro box1 x mconstant i n l l_opt r_max temp mcolumn x y z lambda r t1 t2 mmatrix mr let n=count(x) let l=-3.1 let i=0 let r_max=0 while l<3 let i=i+1 let l=l+0.1 let lambda(i)=l if l=0 let y=ln(x) endif if l<>0 let y=(x**l-1)/l endif nscore y z corr y z mr copy mr t1 t2 let temp=t1(2) if temp>r_max let r_max=temp let l_opt=l endif let r(i)=temp endwhile plot r*lambda print l_opt r_max endmacro

26

Tranformasi untuk menghomogenkan varians Kehomogenan varians dari k kelompok data dapat diuji dengan menggunakan statistik uji Bartlett (T) yang dinyatakan :
k

T=

(n k ) ln s (ni 1) ln(si2 )
2 p i =1 k 1 1 1 1+ ( ) 3(k 1) i =1 (ni 1) (n k )

dan

s2 p =

(n
i =1

1) si2

(n k )

Pemilihan nilai untuk transformasi Box-Cox untuk menghomogenkan varians dilakukan dengan cara meminimukan statistik uji Barlett (T), algoritma untuk memilih nilai itu dapat dinyatakan sebagai berikut : 1. mulai 2. 3. =3.1 t_min=1000, _optimum=-3

4. .=+0.1 5. jika =0 maka y=ln(x) jika tidak y =


x 1

6. t=nilai statistic uji Bartlett untuk menguji kehomogenan y 7. Jika t<t_min maka t_min=t dan _optimum= 8. Jika <3 maka pergi ke 4 9. Tulis _optimum 10. selesai Algoritma di atas dapat diimplementasikan ke dalam macro MINITAB berikut :

27

macro box2 x group mconstant i j k n ii sp t t1 t2 l l_opt t_min mcolumn x group ni vari y z lambda index temp bartlett let n=count(x) let l=-3.1 let ii=0 let k=maxi(group) do i=1:k let ni(i)=0 enddo let j=1 do i=1:n if group(i)=j let ni(j)=ni(j)+1 endif if group(i)<>j let j=j+1 let ni(j)=ni(j)+1 endif enddo do i=1:k if i=1 let index(i)=1 endif if i>1 let index(i)=index(i-1)+ni(i-1) endif enddo while l<3 let ii=ii+1 let l=l+0.1 let lambda(ii)=l if l=0 let y=ln(x) endif if l<>0 let y=(x**l-1)/l endif do i=1:k let t1=index(i) let t2=t1+ni(i)-1 copy y temp; use t1:t2. let vari(i)=(stdev(temp))**2 enddo let sp=sum((ni-1)*vari/(n-k)) let t1=(n-k)*loge(sp)-sum((ni-1)*loge(vari)) let t2=1+1/(3*(k-1))*((sum(1/(ni-1))-1/(n-k))) let t=t1/t2 let bartlett(ii)=t endwhile plot bartlett*lambda sort bartlett lambda bartlett lambda let l_opt=lambda(1) let t_min=bartlett(1) print l_opt t_min endmacro

28

Transfomasi untuk melinearkan data Permilihan nilai untuk melinearkan hubungan antara variabel y dengan x, dilakukan dengan cara memaksimukan korelasi antara variabel y dengan transfrormasi variabel x. . Algoritma untuk memaksimumkan korelasi tersebut adalah : 1. mulai 2. =3.1 3. r_max=0, _optimum=-3 4. . =+0.1 5. jika =0 maka z=ln(x) jika tidak z =
x 1

6. r=harga mutlak korelasi antara nilai y dengan z 7. Jika r>r_max maka r_max=r dan _optimum= 8. Jika <3 maka pergi ke 4 9. Tulis _optimum 10. selesai Algoritma di atas dapat dinyatakan dalam macro MINITAB berikut :

29

macro box1 y x mconstant i n l l_opt r_max temp mcolumn x y z lambda r t1 t2 mmatrix mr let n=count(x) let l=-3.1 let i=0 let r_max=0 while l<3 let i=i+1 let l=l+0.1 let lambda(i)=l if l=0 let z=ln(x) endif if l<>0 let z=(x**l-1)/l endif corr y z mr copy mr t1 t2 let temp=t1(2) let temp=abs(temp) if temp>r_max let r_max=temp let l_opt=l endif let r(i)=temp endwhile plot r*lambda print l_opt r_max endmacro

30

Kegiatan Praktikum 1. Banyaknya penumpang pesawat udara bulanan yang dicatat selama 12 tahun adalah sebagai berikut :
112 104 158 199 183 236 204 203 312 413 355 362 360 362 508 118 118 133 199 218 235 188 229 274 405 422 348 342 405 461 132 115 114 184 230 229 235 242 237 355 465 363 406 417 390 129 126 140 162 242 243 227 233 278 306 467 435 396 391 432 121 141 145 146 209 264 234 267 284 271 404 491 420 419 135 135 150 166 191 272 264 269 277 306 347 505 472 461 148 125 178 171 172 237 302 270 317 315 305 404 548 472 148 149 163 180 194 211 293 315 313 301 336 359 559 535 136 170 172 193 196 180 259 364 318 356 340 310 463 622 119 170 178 181 196 201 229 347 374 348 318 337 407 606

Periksalah kenormalan di atas, jika data tidak berdistribusi normal maka tentukan transformasi yang sesuai untuk menormalkan data. 2. Lakukan pengujian kesamaan varians antar tahun untuk data di atas, jika ternyata varians tidak homogen, tentukan transformasi yang sesuai untuk menghomogenkan varians. 3. Niai harapan hidup perempuan (y) dan pendapatan per-kapita (x) Negara-negara di Asia adalah sebagai berikut :
COUNTRY Afghanistan Bangladesh Cambodia China Hong Kong India Indonesia Japan Malaysia N. Korea Pakistan Philippines S. Korea Singapore Taiwan Thailand Vietnam LIFEEXPF 44 53 52 69 80 59 65 82 72 73 58 68 74 79 78 72 68 GDP_CAP 205 202 260 377 14641 275 681 19860 2995 1000 406 867 6627 14990 7055 1800 230

Tentukan model yang paling sesuai untuk menjelaskan hubungan antar variabel y dan x.

31

Penyelesaian : 1. Pemeriksaan dan pengujian kenormalan : MTB > %pp.txt c1; SUBC> blom; SUBC> normal.

Pearson correlation of xsort and inv = 0.977

Nilai korelasi antara nilai observasi dengan F-1[(i-3/8)/(n+1/4)] adalah 0.977 lebih kecil dari nilai r0.05 sehingga dapat disimpulkan data penumpang pesawat udara tidak berdistribusi normal. Untuk menormalkan dilakukan transformasi Box-Cox :
MTB > %box1.txt c1

32

l_opt

0.000000000

r_max

0.990184

Nilai korelasi antara nilai observasi dengan F-1[(i-3/8)/(n+1/4)] yang diperoleh dengan transformasi Box-Cox dengan =0 sudah lebih besar dari nilai r_tabel sehingga dapat disimpulkan bahwa transformsi ln(x) berhasil menormalkan data. 2. Pengujian kehomogenan varians : MTB > %Vartest 'x' 'tahun' Bartlett's Test (normal distribution) Test Statistic: 66.511 P-Value : 0.000 Levene's Test (any continuous distribution) Test Statistic: 2.727 P-Value : 0.003 p-value<5% sehiingga dapat disimpulkan varians penumpang pesawat udara bulanan tidak mempunyai varians yang konstan. Untuk menstabilkan varians ini dilakukan transformasi Box-Cox sebagai berikut : MTB > %box2.txt c1 c2

l_opt

-0.300000

t_min

1.50878

33

Nilai optimum adalah -0.3 dekat dengan =0 (bilangan bulat terdekat dan menyesuaikan dengan transformasi yang menormalkan data), sehingga dicoba ditransformasi dengan ln(x). Hasil pengujian kehomogenan varians untuk data transformasi ln(x) adalah : MTB > %vartest c10 c2 Bartlett's Test (normal distribution) Test Statistic: 4.610 P-Value : 0.949 Levene's Test (any continuous distribution) Test Statistic: 0.199 P-Value : 0.997 3. Langkah awal untuk menentukan model terbaik yang mengubungkan antar variabel, dapat dilakukan dengan cara memilih transformasi untuk memaksimumkan korelasi antar dua variabel : MTB > %box3.txt c2 c3

l_opt

-0.500000

r_max

0.887895

34

Nilai optimum diperoleh =-0.5 sehingga model yang paling sesuai adalah:
y = + 1 + x

Nilai dugaan untuk dan adalah ::


MTB > let c4=1/sqrt(c3) MTB > regr c2 1 c4

Regression Analysis: LIFEEXPF versus akr-GDP

The regression equation is LIFEEXPF = 82.4 - 409 akr-GDP Predictor Coef SE Coef T P Constant 82.408 2.366 34.83 0.000 akr-GDP -409.17 54.74 -7.47 0.000 S = 5.172 R-Sq = 78.8% R-Sq(adj) = 77.4%

Sehingga dugaan modelnya adalah : life = 82.408 0.409 gdp gambar persamaan garis ini adalah :

35

PENDUGAAN DAN PENGUJIAN PARAMETER SATU POPULASI Tahapan didalam pengambilan keputusan secara Statistika dapat dinyatakan dalam : pengambilan sampel, pendugaan parameter populasi dan pengujian parameter populasi. Setelah mempelajari modul ini di harapkan mahsiswa dapat melkukan pendugaan dan pengujian parameter satu populasi dengan bantuan program paket Statistika. a. Pendugaan Parameter Satu Populasi Klasifikasi tabel berikut : No. 1 Parameter 2 tak diketahui 2 diketahui 2 Statistik Confidence interval Perintah MINITAB Onet c1 Onez c1; sigma= %varia.txt c1 pendugaan parameter untuk ukuran pemusatan dan penyebaran satu populasi yang berdistribusi normal dapat dinyatakan dalam

x= x s =
2

x
i =1

x t / 2 s /

n
x z / 2 / n

2 3

(x
i =1

x)

n 1

(n 1) s 2 (n 1) s 2 2 < < 2 2 1 / 2;n 1 / 2; n 1

Di dalam program paket MINITAB tidak tersedia secara langsung fasilitas untuk menentukan confidence interval untuk varians, untuk mengatasi hal ini dapat diselesaikan dengan cara membuat macro MINITAB. Dalam praktek pengolahan data untuk penentuan confidence interval, asumsi kenormalan tidak selalu dapat dipenuhi, untuk mengatasi hal ini dapat dilakukan penggunaan metode bootstrap. Algoritma dari metode bootstrap adalah sebagai berikut :

36

Mulai 1. 2. 3. 4. 5. Lakukan pengambilan sampel dari populasi : x 1, x2, , xn b=1000 i=0 i=i+1 Lakukan pengambilan sampel ke-i lagi dari sampel yang ada sebanyak n 6. Tentukan nilai statistik i 7. JIka i<b pergi ke 5 = 8. Tentukan nilai statistik dan standard error dengan cara : i b
i =1 b

dan s =

i =1

)2 ( i b b 1

9. Tentukan bootstrap confidence interval melalui nilai persentil dari i yaitu P100(/2) dan P100(1-/2) 10. Selesai

Selain dengan mengunakan metode bootstrap penentuan confidence interval dapat juga menggunakan metode nonparametrik yang lain yaitu tanda (sign) dan Wilcoxon, confidence interval untuk median dengan menggunakan dua metode ini adalah : Nomor Metode 1 Tanda 2 Wilcoxon Perintah Minitab sinterval 95 c1 winterval 95 c1

b. Pengujian Parameter Populasi Pengujian ukuran pemusatan populasi dapat diklasifikasikasikan menjadi dua kelompok yaitu : a. Asumsi distribusi normal terpenuhi dan pengujiannya dilakukan terhadap rata-rata populasi serta statistik ujinya adalah t untuk varians populasi tak diketahui dan z untuk varians populasi diketahui b. Asumsi distribusi normal tak terpenuhi, pengujiannya dilakukan terhadap median dan statistik ujinya adalah uji tanda ataupun uji Wilcoxon

37

Perintah MINITAB untuk dua macam klasifikasi di atas adalah : No. Syarat Hipotesis Statistik uji Perintah MINITAB nol 1 Onet c1; Normal, 2 =0 x Test 0. Tak 0 t= diketahui s/ n 2 2 Onez c1; x 0 Normal, =0 z= Sigma ; Diketahui / n Test 0.. 3 Simetri Median=M0 Tanda Stest M0 C1 4 Simetri Median=M0 Wilcoxon Wtest Mo C1 Selain dengan mengunakan cara di atas, pengujian hipotesis dapat juga dilakukan dengan menggunakan metode bootstrap, jika nilai 0 atau M0 termuat di dalam bootstrap confidence interval maka hipotesis nol diterima yang berarti nilai rata-rata populasi tidak berbeda dengan 0 atau nilai median populasi tidak berbeda dengan M0. Kegiatan Praktikum 1. Tentukan confidence interval 95 % untuk rata-rata dan varians harapan hidup perempuan di region Asia 2. Ujilah pernyataan yang menyatakan bahwa rata-rata harapan hidup perempuan di region Asia adalah 65 tahun. 3. Tentukan confidence interval 95 % untuk rata-rata dan varians pendapatan per-kapita di region Asia 4. Tentukan confidence interval 95 % untuk rata-rata pendapatan perkapita di region OECD

38

Penyelesaian 1. confidence interval 95 % untuk rata-rata dan varians harapan hidup perempuan di region Asia Untuk menyelesaiakan masalah ini, dibutuhkan tahapan Pemilihan Negara-negara di region Asia, yang diluar region Asia dihapus, [klik Data+Select Cases]

sehingga yang tersisa adalah hanya 17 negara di region Asia/Pasifik

39

Simpan data dalam format dbf [klik File+Sae As]

Buka data Asia.dbf dengan bantuan MINITAB [Klik File+open worksheet]

40

41

Uji

kenormalan

variabel

harapan

hidup

perempuan

dengan

Kolmogorov Smirnov [klik Stat+Basic Statistics+normality test]

dan hasilnya adalah :

p-value> sehingga harapan hidup perempuan berdistribusi normal

42

- Penentuan confidence interval rata-rata :[klik stat+basic stat+1 sample t]

dan hasilnya adalah :


One-Sample T: LIFEEXPF
Variable LIFEEXPF N 17 Mean 67.41 StDev 10.89 SE Mean 2.64 ( 95.0% CI 61.81, 73.01)

Harapan hidup perempuan di Asia berkisar antara 61.81 tahun sampai dengan 73 tahun dengan peluang sebesar 95% Confidence interval untuk varians adalah : MTB > %varia.txt c6 95
lower upper 65.7339 274.495

Varians harapan hidup perempuan Asia berkisar antara 65 sampai dengan 274 dengan peluang 95%.

43

2. Rata-rata harapan hidup perempuan di region Asia adalah 65 tahun. Karena harpan hidup perempuan berdistribusi normal, maka pengujian rata-ratanya dapat dilakukan dengan menggunakan stastik uji t sebagai berikut : [klik stat+basic statistics+1 sample t]

dan hasilnya adalah :


One-Sample T: LIFEEXPF
Test of mu = 65 vs mu not = 65 Variable LIFEEXPF Variable LIFEEXPF ( N 17 Mean 67.41 StDev 10.89 T 0.91 SE Mean 2.64 P 0.375

95.0% CI 61.81, 73.01)

p-value(0.375)> dan confidence interval memuat 65 sehingga H0 diterima yang berarti rata-rata harapan hidup perempuan Asia masih dapat dianggap sama dengan 65 tahun pada =5%.

44

3. Confidence interval 95 % untuk rata-rata dan varians pendapatan per-kapita di region Asia Untuk menyelesaikan permasalahan ini dibutuhkan informasi tentang kenormalan variabel pendapatan per-kapita. Hasil pengujian kenormalan dengan menggunakan statisitik uji Kolmogorov-Smirnov adalah sebagai berikut :

p-value < sehingga tolak H0 yang berarti pendapatan perkapita negara-negara Asia tidak berdistribusi normal sehingga confidence interval t tidak dapat digunakan, Pada kasus ini dapat digunakan sign confidence interval atau wilcoxon confidence interval sebagai alternatif jika pendapatan perkapita berdistribusi simetri. Histogram dari pendapatan perkapita

45

adalah

Dari histogram di atas dapat disimpulkan bahwa pendapatan perkapita berdistribusi tidak simetri. Untuk menjawab permasalahan data yang tidak berdistribusi normal dan tidak simetri, metode bootstrap dapat digunakan dengan cara : MTB > bootmean.txt c11 dan hasilnya adalah : stat_b se_b lower upper 4242.74 1508.60 1549.71 7467.06

Rata-rata pendapatan perkapita untuk Negara-negara Asia adalah 4242.74 dengan standard error 1508. Rata-rata pendapatan perkapita ini berkisar dari 1549 sampai dengan 7467 dengan peluang 95%. Sedangkan varians pendapatan perkapita adalah : MTB > %bootvar.txt c11 stat_b se_b lower 36838694 14993480 6298082

46

upper

64034876

Varians pendapatan perkapita Negara-negara Asia berkisar dari 6298082 sampai dengan 64034876 dengan peluang 95%.

47

4. confidence interval 95 % untuk rata-rata pendapatan perkapita di OECD Confidence interval untuk rata-rata dapat diselesaikan dengan confidence interval t jika data berdistribusi normal dan dapat diselesaikan dengan sign confidence interval atau wilcoxon confidence interval jika data berdistribusi simetri. Histogram dan hasil pengujian Kolmogorov Smirnov untuk variabel ini adalah :

Dari gambar di atas dapat disimpulkan bahwa pendapatan perkapita berdistribusi simetri tetapi tidak normal ( p-value<5%) sehingga sign atau wilcoxon confidence interval dapat dipergunakan. MTB > sinterval c11
GDP_CAP N 21 Median 17245 Achieved Confidence 0.9216 0.9500 0.9734 Confidence interval ( 15974, 17912) ( 15942, 18031) ( 15877, 18277) Position 7 NLI 6

Median pendapatan perkapita berkisar diantara urutan data 7 terkecil sampai dengan 7 data terbesar dengan peluang sebesar 0.9216 Median pendapatan perkapita berkisar dari 15942 sampai dengan 18031 dengan peluang sebesar 0.95. MTB > winterval c11
GDP_CAP N 21 Estimated Median 17126 Achieved Confidence 94.8 Confidence Interval ( 15146, 18093)

Pendapatan perkapita Negara-negara OECD berkisar dari 15146 sampai dengan 18093 dengan peluang sebesar 94.8%

48

Lampiran 1. Macro MINITAB untuk menentukan confidence interval varians


macro varia y ci mconstant i n var lower upper ci chis1 chis2 alpha alpha1 alpha2 df mcolumn y let n=count(y) let df=n-1 let alpha=1-ci/100 let alpha1=alpha/2 let alpha2=1-alpha1 let var=stde(y)*stde(y) invcdf alpha1 chis2; chis df. invcdf alpha2 chis1; chis df. let lower=df*var/chis1 let upper=df*var/chis2 print lower upper endmacro

Lampiran 2. Macro MINITAB untuk Menentukan Bootstrap Confidence Interval untuk Rata-rata dan Varians
macro bootmean x mconstant i n b lower upper stat_b se_b mcolumn x y stat let n=count(x) let b=1000 do i=1:b sample n x y; replacement. let stat(i)=mean(y) enddo let stat_b=mean(stat) let se_b=stde(stat) histo stat sort stat stat let lower=stat(25) let upper=stat(975) print stat_b se_b lower upper endmacro macro bootvar x mconstant i n b lower upper stat_b mconstant se_b mcolumn x y stat let n=count(x) let b=1000 do i=1:b sample n x y; replacement. let stat(i)=stde(y)*stde(y) enddo let stat_b=mean(stat) let se_b=stde(stat) histo stat sort stat stat let lower=stat(25) let upper=stat(975) print stat_b se_b lower upper endmacro

49

PENGUJIAN PARAMETER k POPULASI Pengujian ukuran pemusatan k populasi dapat diklasifikasikan

berdasarkan terpenuhinya asumsi kenormalan, kehomogenan varians dan keterkaitan antar populasi. Secara rinci klasifikasi tersebut dapat dinyatakan dalam tabel berikut : No. H0 1 12=0 Syarat Normal 2 12 = 2 Normal 12 22 Normal paired Normal 2 12 = 2 = ... = k2
t=

Statistik Uji ( x1 x 2 ) 0
s p 1 / n1 + 1 / n 2

Perintah SPSS
T-TEST GROUPS = region(3 4) /VARIABLES = lifeexpf.

12=0

t=

( x1 x 2 ) 0
2 s12 s 2 + n1 n 2

D=0

t=

1=2=...=k

T-TEST PAIRS = lifeexpf WITH lifeexpm (PAIRED). MS .between.group ONEWAY F = MS .within.group calories BY region /STATISTICS HOMOGENEITY /POSTHOC = LSD ALPHA(.05).

d 0 sd

M1=M2

Simetri

Mann-Whitney

NPAR TESTS /M-W= gdp_cap region(1 2).

BY

MD=M0

Simetri paired

Wilcoxon

NPAR TEST /WILCOXON=lit_fema WITH lit_male (PAIRED). NPAR TESTS /K-W=urban region(1 6).

M1=M2=

simetri

Kruskal-Wallis H= 12 ni ( Ri R )
i =1 k 2

BY

n(n + 1)

50

Kegiatan Praktikum Dengan menggunakan program paket SPSS, ujilah pernyataan berikut : 1. Rata-rata harapan hidup perempuan untuk region Asia dan Afrika adalah sama. 2. Harapan hidup perempuan lebih tinggi daripada harapan hidup lakilaki 3. Rata-rata konsumsi kalori perhari Negara-negara di seluruh region adalah sama 4. Rata-rata pendapatan perkapita Negara-negara OECD dengan Eropa Timur adalah sama 5. Persentase penduduk laki-laki yang dapat membaca tidak sama dengan persentase penduduk perempuan yang dapat membaca 6. Rata-rata kepadatan penduduk untuk seluruh region adalah sama Untuk menguji seluruh pernyataan di atas, dapat dilakukan dengan membuat syntax SPSS sebagai berikut : [klik File+New+syntax]

51

Untuk menjalankan syntax di atas dapat dilakukan dengan [klik Run+all], dan hasilnya adalah : 1. Rata-rata harapan hidup perempuan untuk region Asia dan Afrika adalah sama.
Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means

F Equal variances assumed Equal variances not assumed 1.698

Sig. .201

t 4.164 4.093

df 34 29.099

Sig. (2-tailed) .000 .000

Pengujian kesamaan rata-rata didahului dengan uji kesamaan varians, hasil uji kesamaan varians menyimpulkan varians harapan hidup perempuan untuk region Asia dan Afrika adalah sama, sehingga uji t untuk kesamaan

52

varians yang dipilih adalah uji t yang membutuhkan syarat varians homogen, dari hasil uji t ini diperoleh informasi bahwa rata-rata harapan hidup perempuan Asia tidak sama dengan rata-rata harapan hidup perempuan Afrika. 2. Harapan hidup perempuan lebih tinggi daripada harapan hidup laki-laki
Paired Samples Test Paired Differences

Mean Pair 1 Average female life expectancy - Average 5.239 male life expectancy

Std. Deviation 2.269

Std. Error Mean .217

t 24.109

df 108

Sig. (2-tailed) .000

Harapan hidup perempuan dan harapan hidup laki-laki adalah variabel yang saling dependent, sehingga untuk menguji pernyataan ini dilakukan dengan menggunakan uji t untuk sampel berpasangan, dari hasil ini diperoleh nilai t positif dan sig<, sehingga dapat diputuskan H0 ditolak yang berarti harapan hidup perempuan lebih tinggi daripada harapan hidup laki-laki 3. Rata-rata konsumsi kalori perhari Negara-negara di seluruh region adalah sama
Test of Homogeneity of Variances Daily calorie intake Levene Statistic 1.924 df1 5 df2 69 Sig. .101

Varians daily calorie intake untuk seluruh region adalah homogen, sehingga pengujian kesamaan rata-rata daily calorie intake untuk seluruh region dapat dilakukan dengan menggunakan oneway anova.

53

ANOVA Daily calorie intake Sum of Squares Between Groups 18449025 Within Groups 5410672 Total 23859697 df 5 69 74 Mean Square 3689804.945 78415.537 F 47.055 Sig. .000

Nilai sig.< sehingga H0 ditolak yang berarti rata-rata daily calorie intake untuk seluruh region adalah tidak sama. Untuk menguji pasangan region mana saja yang rata-rata daily calorie intake-nya berbeda, dapat dilakukan dengan menggunakan uji multiple comparison. Program paket SPSS menyediakan beberapa statistic uji untuk multiple comparison yaitu

54

Dengan menggunakan LSD diperoleh informasi pasangan region yang rata-rata daily calorie intake-nya homogen adalah pasangan region OECD-Eropa Timur dan pasangan region Asia/Pasifik-Amerika Latin.

55

Multiple Comparisons Dependent Variable: Daily calorie intake LSD Mean Difference (I-J) Std. Error -41.333 174.628 921.394* 107.169 1283.354* 96.215 352.292* 118.989 935.509* 92.106 41.333 174.628 962.727* 182.393 1324.688* 176.180 393.625* 189.580 976.842* 173.970 -921.394* 107.169 -962.727* 182.393 361.960* 109.680 -569.102* 130.118 14.115 106.093 -1283.354* 96.215 -1324.688* 176.180 -361.960* 109.680 -931.063* 121.256 -347.845* 95.016 -352.292* 118.989 -393.625* 189.580 569.102* 130.118 931.063* 121.256 583.217* 118.022 -935.509* 92.106 -976.842* 173.970 -14.115 106.093 347.845* 95.016 -583.217* 118.022

(I) Region or economic group OECD

East Europe

Pacific/Asia

Africa

Middle East

Latn America

(J) Region or economic group East Europe Pacific/Asia Africa Middle East Latn America OECD Pacific/Asia Africa Middle East Latn America OECD East Europe Africa Middle East Latn America OECD East Europe Pacific/Asia Middle East Latn America OECD East Europe Pacific/Asia Africa Latn America OECD East Europe Pacific/Asia Africa Middle East

Sig. .814 .000 .000 .004 .000 .814 .000 .000 .042 .000 .000 .000 .002 .000 .895 .000 .000 .002 .000 .000 .004 .042 .000 .000 .000 .000 .000 .895 .000 .000

*. The mean difference is significant at the .05 level.

56

4. Rata-rata pendapatan perkapita Negara-negara OECD dengan Eropa Timur adalah sama
Ranks Gross domestic product / capita Region or economic group OECD East Europe Total N 21 14 35 Mean Rank Sum of Ranks 25.00 525.00 7.50 105.00

b Test Statistics

Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)]

Gross domestic product / capita .000 105.000 -4.950 .000 .000


a

a. Not corrected for ties. b. Grouping Variable: Region or economic group

Dari modul sebelumnya diperoleh informasi bahwa pendapatan per-kapita tidak berdistribusi normal, sehingga statistik uji t tidak dapat dipergunakan dan sebagai alternatif dapat digunakan stastik uji Mann-Whitney, hasil pengujian dengan menggunakan statistik uji ini menyimpulkan bahwa median pendapatan perkapita region OECD tidak sama dengan median pendapatan perkapita region Eropa Timur.

57

5. Persentase penduduk laki-laki yang dapat membaca tidak sama dengan persentase membaca penduduk perempuan
Ranks N Males who read (%) Negative Ranks Females who read (%) Positive Ranks Ties Total 0a 66 b 19 c 85 Mean Rank .00 33.50 Sum of Ranks .00 2211.00

a. Males who read (%) < Females who read (%) b. Males who read (%) > Females who read (%) c. Males who read (%) = Females who read (%)

b Test Statistics

Males who read (%) Females who read (%) Z -7.065 a Asymp. Sig. (2-tailed) .000 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test

Nilai sig.< sehingga H0 ditolak yang berarti median persentase penduduk laki-laki yang dapat membaca tidak sama dengan median persentase penduduk perempuan yang dapat membaca.

58

6. Rata-rata kepadatan penduduk untuk seluruh region adalah sama


One-Sample Kolmogorov-Smirnov Test Number of people / sq. kilometer 109 203.415 675.7052 .383 .356 -.383 3.999 .000

N a,b Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)

Mean Std. Deviation Absolute Positive Negative

a. Test distribution is Normal. b. Calculated from data.

Dengan menggunakan statistic uji Kolmogorov Smirnov, diperoleh hasil kepadatan penduduk tidak berditribusi normal sehinggan oneway anova tidak dapat dipergunakan, sebagai alternatif dapat dipergunakan statistik uji Kruskal-Wallis
Ranks Number of people / sq. kilometer Region or economic group OECD East Europe Pacific/Asia Africa Middle East Latn America Total N 21 14 17 19 17 21 109 Mean Rank 54.74 57.93 84.65 39.87 53.32 44.36

Test Statistics Number of people / sq. kilometer 21.862 5 .001

Chi-Square df Asymp. Sig.

Nilai sig.< sehingga H0 ditolak yang berarti median kepadatan penduduk untuk seluruh region tidak dapat dianggap sama.

59

ANALISIS REGRESI

Analisis memodelkan

regresi

adalah

analisis

statistika

yang

bertujuan dengan

untuk variabel

hubungan

antara

variabel

independent

dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah : Y= f(X,) +

60

Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model : Y = 0 + 1X1 + 2X2 + + pXp + Dalam catatan matriks, model regresi linear dapat ditulis dalam : Y =X + atau
Y1 1 Y 1 2 = ... ... 1 Yn X 11 X 21 ... X n1 ... ... X p1 0 1 X2p 1 + 2 ... ... ... X np p n

Nilai dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara :
= ( X ' X ) 1 ( X ' Y )

0 = 2 ... p

n x1 (X ' X ) = ... x p[

x x
1

1 2 1

... ...

x x x

x x

y x1 y 1 p ( X 'Y ) = ... 2 xp x p y
p

Pengujian terhadap dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu. Pengujian secera serentak Hipotesis : H0 : = 0 H1 : 0

61

Statistik Uji Sumber Variasi Regresi Residual Total df p n-p-1 n-1 Sum Squares
Y ) (Y
2

of MS
Y ) (Y ) (Y Y
2

F
/p /( n p 1)

) (Y Y (Y Y ) 2
2

MS . Re gresi MS . Re sidual

Tolak Ho jika F>F,p,n-p-1 Pengujian secara individu Hipotesis H0 : I = 0 H1 : I 0 Statistik uji


t= i s
i

Tolak H0 jika |t|>t/2,n-p-1 Kegiatan Praktikum Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam : Y = 0 + 1 ln(gdp_cap) + 2 ln(density) + Penyelesaian : a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik transform+ compute]

62

63

b. Melakukan analisis regresi ;[klik+analyze+regression+linear]

dan hasilnya adalah :


Model Summary Model 1 R R Square .840 a .706 Adjusted R Square .700 Std. Error of the Estimate 5.788

a. Predictors: (Constant), ln_gdp, ln_dens

b ANOVA

Model 1

Sum of Squares Regression 8519.080 Residual 3551.268 Total 12070.349

df 2 106 108

Mean Square 4259.540 33.503

F 127.141

Sig. .000 a

a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy

64

a Coefficients

Model 1

(Constant) ln_dens ln_gdp

Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390

Standardized Coefficients Beta .123 .831

t 5.136 2.332 15.766

Sig. .000 .022 .000

a. Dependent Variable: Average female life expectancy

Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model : Y= 17.981 +0.904 ln(density) +6.150 ln(gdp_cap)

65

PEMILIHAN MODEL TERBAIK


Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variabel dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria model terbaik adalah : Nomor Kriteria 1 SSE 2 MSE 3 R2 4 5 6 7 Adjusted R2 Cp Mallow AIC SBC Formula
/(n p 1)

) (Y Y

)2 (Y Y
2

Y ) (Y (Y Y )

2 2

100%

Optimum Minimum Minimum Maksimum Maksimum Minimum Minimum Minimum

1 [1 R 2 ]

( n 1) (n p)

SSE (n 2 p) MSE

ln(SSE/n) +2p/n ln(SSE/n)+p/n ln(n)

66

Untuk memperoleh model terbaik, ada beberapa metode yang biasa digunakan yaitu : Metode Backward Penjelasan Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai Forward tidak ada lagi variabel independent yang tidak significant Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel StepSwise independent yang significant Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan Best subset Metode ini tersedia di dalam program paket MINITAB. Metode regression ini menyajikan k buah model terbaik untuk model dengan 1,2, ,p variabel independent.

67

Kegiatan Praktikum Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persenta-se penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt). rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression. Penyelesaian : Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara : [klik analyze+regression+linear]

atau melalui syntax :


REGRESSION /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt

dan hasilnya adalah :

68

ANOVA Model 1 Sum of Squares 7229.894 2337.565 9567.459 8206.309 1361.150 9567.459 8906.744 660.716 9567.459 9017.788 549.672 9567.459 df 1 72 73 2 71 73 3 70 73 4 69 73 Mean Square 7229.894 32.466 4103.154 19.171 2968.915 9.439 2254.447 7.966 F 222.690 Sig. .000

Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total

214.028

.000

314.544

.000

282.999

.000

Model Summary Model 1 2 3 4 R R Square .869 a .756 .926 b .858 c .965 .931 .971 d .943 Adjusted R Square .752 .854 .928 .939 Std. Error of the Estimate 5.698 4.378 3.072 2.822

a. Predictors: (Constant), People who read (%) b. Predictors: (Constant), People who read (%), Death rate per 1000 people c. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita d. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake

69

a Coefficients

Model 1 2

(Constant) People who read (%) (Constant) People who read (%) Death rate per 1000 people (Constant) People who read (%) Death rate per 1000 people Gross domestic product / capita (Constant) People who read (%) Death rate per 1000 people Gross domestic product / capita Daily calorie intake

Unstandardized Coefficients B Std. Error 36.226 2.275 .430 .029 53.279 2.961 .330 .026 -.966 62.740 .192 -1.211 .001 54.214 .172 -1.136 .000 .004 .135 2.350 .024 .099 .000 3.143 .023 .093 .000 .001

Standardized Coefficients Beta .869 .667 -.378 .389 -.474 .363 .347 -.444 .252 .186

t 15.924 14.923 17.995 12.606 -7.137 26.699 7.890 -12.214 8.614 17.252 7.456 -12.178 5.170 3.734

Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000

a. Dependent Variable: Average female life expectancy

Sehingga model terbaiknya adalah : lifeexpf = 54.214 +0.172 literacy 1.136 death_rt + 0.000 gdp_cap +0.004 calori dengan R2= 0.943 Dengan menggunakan best subset regression :[klik stat+regression+best subset]

70

diperoleh hasil : Response is LIFEEXPF L I T E R A C Y X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X G D P _ C A P C A L O R I E S D E A T H _ R T

Vars 1 1 1 2 2 2 3 3 3 4 4 4 5

R-Sq 75.6 60.2 59.8 86.9 85.8 83.7 93.1 92.1 89.6 94.3 93.5 92.5 94.4

R-Sq(adj) 75.2 59.6 59.3 86.6 85.4 83.3 92.8 91.7 89.2 93.9 93.1 92.1 94.0

C-p 225.8 412.2 416.2 90.3 103.5 128.9 17.5 30.1 59.8 5.5 15.1 26.2 6.0

S 5.6979 7.2752 7.3055 4.1981 4.3686 4.6816 3.0711 3.2935 3.7688 2.8207 3.0095 3.2150 2.8112

U R B A N

Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise

71

DUMMY VARIABLE

Dalam beberapa kasus tertentu, penggunaan analisis regresi melibatkan adanya variabel independent yang berskala nominal ataupun ordinal. Untuk mengatasi hal ini dipergunakan dummy variable. Sebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan dengan pendapan perkapita dan region (Asia dan Afrika). Model yang menggambarkan hubungan antar variabel tersebut dapat dinyatakan dalam persamaan regresi : lifeexpf = 0 + 1 ln(gdp_cap) + 1 lifeexpf = 0 + 1 ln(gdp_cap) + 2 untuk region Asia untuk region Afrika

Dua persamaan regresi di atas dapat dijadikan satu persamaan regresi dengan cara menyisipkan sebuah dummy variable (D) yang bernilai 0 untuk region Asia dan 1 untuk region Afrika : lifeexpf = 0 + 1 ln(gdp_cap) + 2 D + 3 D*ln(gdp_cap) + Nilai 2 menggambarkan perbedaaan intercept antara region Asia dan Afrika, sedangkan nilai 3 menggambarkan perbedaan slope antara region Asia dan Afrika. Jika region yang dilibatkan lebih dari dua, misalkan region Asia, Afrika dan Amerika Latin maka persamaan regresinya menjadi : lifeexpf=0+1ln(gdp_cap)+2D1+3D1*ln(gdp_cap)+4D1+5D1*ln(gdp_cap)+ dengan aturan pemberian nilai dummy variabel adalah : region Asia Afrika Amerika Latin D1 0 0 1 D2 0 1 0 Persamaan regresi 0+1ln(gdp_cap)+ (0+2) +(1+3)ln(gdp_cap)+ (0+4) +(1+5)ln(gdp_cap)+

72

Secara umum banyaknya dummy variable yang dibutuhkan adalah banyaknya region-1. Kegiatan Praktikum : Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan dan pendapatan perkapita di region Asia, Afrika dan Amerika Latin Penyelesaian : Pembangkitan nilai D1 dan D2 :[klik transform+compute]

73

Lakukan dengan cara yang sama untuk membangkitkan variabel D2( bernilai 0 untuk region Asia, Amerika Latin dan bernilai 1 untuk region Afrika). Pembangkitan nilai D1*ln(gdp_cap) dan D2*ln(gdp_cap)

74

Analisis regresi :[klik analyze+regression+linear]

dan hasilnya adalah :


a Coefficients

Model 1

(Constant) ln_gdp D1 d2 d1_lngdp d2_lngdp

Unstandardized Coefficients B Std. Error 27.034 6.116 5.643 .834 22.860 14.130 -4.190 10.402 -2.986 1.761 -.720 1.547

Standardized Coefficients Beta .720 .975 -.184 -1.049 -.205

t 4.420 6.767 1.618 -.403 -1.696 -.465

Sig. .000 .000 .112 .689 .097 .644

a. Dependent Variable: Average female life expectancy

Masih ada koefisien regresi yang tidak significant, setelah digunakan metode backward diperoleh hasil sebagai berikut :

75

a Coefficients

Model 1

(Constant) ln_gdp D1 d2 d1_lngdp d2_lngdp (Constant) ln_gdp D1 d1_lngdp d2_lngdp (Constant) ln_gdp d1_lngdp d2_lngdp (Constant) ln_gdp d2_lngdp

Unstandardized Coefficients B Std. Error 27.034 6.116 5.643 .834 22.860 14.130 -4.190 10.402 -2.986 1.761 -.720 1.547 25.585 4.904 5.836 .677 24.308 13.545 -3.179 1.680 -1.333 .284 28.771 4.674 5.412 .649 -.197 .255 -1.397 .288 29.562 4.542 5.202 .587 -1.308 .263

Standardized Coefficients Beta .720 .975 -.184 -1.049 -.205 .745 1.037 -1.117 -.379 .691 -.069 -.398 .664 -.373

t 4.420 6.767 1.618 -.403 -1.696 -.465 5.217 8.619 1.795 -1.892 -4.695 6.156 8.341 -.773 -4.851 6.508 8.860 -4.972

Sig. .000 .000 .112 .689 .097 .644 .000 .000 .079 .065 .000 .000 .000 .443 .000 .000 .000 .000

a. Dependent Variable: Average female life expectancy

Model terbaik yang menggambarkan hubungan antara harapan hidup perempuan dan pendapatan per-kapita adalah : lifeexpf = 29.562 + 5.202 ln(gdp_cap) -1.308 D 2*ln(gdp_cap) atau region Asia Afrika Amerika Latin D1 0 0 1 D2 0 1 0 Persamaan regresi lifeexpf = 29.562 + 5.202 ln(gdp_cap) lifeexpf = 29.562 + 3.894 ln(gdp_cap) lifeexpf = 29.562 + 5.202 ln(gdp_cap)

76

INFLUENTIAL OBSERVATIONS

Influential observations adalah titik pengamatan yang keberadaannya mempunyai pengaruh terhadap persamaan regresi, sebagai contoh seperti yang tetera pada gambar di atas, titik (13.12.74) adalah influential observation, persamaan regresi kalau titik ini diikutkan adalah : The regression equation is Y3 = 3.00 + 0.500 X R 2 = 66.6% sedangkan kalau titik ini tidak diikutkan, diperoleh persamaan regresi : The regression equation is Y3 = 4.01 + 0.345 X R2 = 100.0 %

77

Untuk mendeteksi adanya influential observation dapat dipergunakan beberapa statistik berikut : No 1 Statistik DFFIT Formula
Y Y i (i ) ) stdev (Y
i

influential
>2 p n

Penjelasan Difference fit Perbedaan nilai Y taksiran dengan atau tanpa peng-

DFBETAS
b j b j (i ) stdev (b j )
> 2 n

amatan ke-i Difference Betas Perbedaan koefisien nilai regresi

dengan atau tanpa 3 Cooks Distance pengamatan ke-i Perbedaan vector


(bi b)' ( X ' X )(b( i ) b) > F0.50 , p .n p koefisien regresi pMSE dengan atau tanpa

COVRATIO

cov( ) cov( ( i )

pengamatan ke-i Covariance ratio Nisbah koefisien dterminan regresi matriks covariance dengan atau tanpa pengamatan ke-i

78

Kegiatan Praktikum : Tentukan Negara di Asia yang keberadaanya mempengaruhi hubungan antara harapan hidup perempuan dengan pedapatan per-kapita dengan menggunakan kriteria DFFIT Penyelesaian Memilih Negara di region Asia : [klik Data+Select Cases]

Analisis regresi : [klik analyze + regression +linear]

klik save

79

dan hasilnya adalah :


a Coefficients

Model 1

(Constant) ln_gdp

Unstandardized Coefficients B Std. Error 27.034 6.350 5.643 .866

Standardized Coefficients Beta .860

t 4.257 6.517

Sig. .001 .000

a. Dependent Variable: Average female life expectancy

b Model Summary

Model 1

R R Square .860 a .739

Adjusted R Square .722

Std. Error of the Estimate 5.744

a. Predictors: (Constant), ln_gdp b. Dependent Variable: Average female life expectancy

80

Negara yang merupakan influential observation adalah Negara yang nilai


DFFIT > 2 p n

atau

DFFIT >0.69 ,

Negara tersebut adalah Negara

Afganistan, Cina, Kamboja dan Vietnam

81

ASUMSI DALAM ANALISIS REGRESI


Model linear yang menggambarkan hubungan antara variabel

independent dan variabel dependent adalah : Y = 0 + 1X1 + 2X2 + + pXp + Asumsi yang diperlukan untuk model ini adalah : a. ~N(0. )
2
2 b. var(i)= untuk semua i

c. cov(I,j) = 0 untuk ij d. antar X saling independent Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan : No. 1 Masalah Residual berdistribusi 2 normal Hetroscedastivit y 3 var(i) Autocorrelation
2

Deteksi tak normal probability plot

Solusi Tranformasi variabel

Uji kenormalan : KS, Regresi bootstrap


Plot e dengan y

Transformasi variabel Weighted Least Squares Regresi beda, Regresi ratio memasukkan trend Cochrane Orcutt, HildrethLu,Durbin, Prais-Winsten stepwise Principal component reg.

Uji Glesjer, White Uji Golfeld-Quandt


Plot e dengan y

cov(I,j) 0 untuk ij 4 Multicollinearity

Uji Durbin Watson ACF plot r(Xi,Xj) tinggi, VIF>10


X ' X 0

R2 tinggi tetapi tidak Ridge regression ada yang significant

82

REGRESI BOOTSTRAPP
Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t. Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil pengujian dengan statistik uji F dan t menjadi tidak valid asumsi kenormalan ini dapat dipergunakan uji Untuk menguji Kolmogorov-Smirnov,

Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit 2, jika hasil pengujian kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi adalah dengan menerapkan metode regresi bootstrap. Algoritma dari metode regresi bootstrap adalah : 1. mulai 2. Tentukan nilai taksiran dari model Y=X+ dengan metode kuadrat terkecil, hasil taksirannya adalah j , ols dan nilai taksirannya adalah
Y i , ols

Tentukan nilai e1, e2, , en, ei = Yi Y B=1000 i=0 i=i+1 Melakukan resampling with resampling sebanyak n dari ei hasil resamplingnya adalah e(i) 8. Menentukan nilai Yi =Y i , ols +e ( i ) 9. Menduga besarnya j pada resampling ke-i yaitu j ,i dari dan data Yi dengan Xji dengan metode kuadrat terkecil 10.Jika i<B pergi ke 6 11. Tentukan nilai taksiran koefisien regresi dari metode bootstrapp sebagai rata-rata nilai koefisien regresi hasil resampling sebanyak B kali 12. Tentukan confidence interval koefisien regresi melalui nilai persentil 13. Selesai

3. 4. 5. 6. 7.

83

Kegiatan Praktikum : Tentukan model yang menngambarkan hubungan antara harapan hidup perempuan dengan pendapatan perkapita serta ujilah asumsi kenormalan residual dengan uji Kolmogorov-Smirnov. Penyelesaian : Dengan bantuan MINITAB permaslahan ini dapat diselesaikan dengan cara Tranformasi variabel MTB > let c27=loge(lifeexpf) MTB > name c27=ln_gdp Regresi [klk stat+regression+regression]

klik storage

84

dan hasilnya adalah :


The regression equation is LIFEEXPF = 21.7 + 6.15 ln_gdp Predictor Coef SE Coef T P Constant 21.670 3.187 6.80 0.000 ln_gdp 6.1538 0.3981 15.46 0.000 S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8% Analysis of Variance Source DF SS MS F Regression 1 8336.9 8336.9 238.93 Residual Error 107 3733.4 34.9 Total 108 12070.3

P 0.000

Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]

85

Dengan

menggunakan

metode

kuadrat

terkecil

diperoleh

hasil

kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan metode regresi bootstrapp yang dinyatakan dalam macro MINITAB : macro regb y x mconstant n i b low_b0 up_b0 low_b1 up_b1 mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_boot let n=count(y) let b=1000 regr y 1 x; resid e; fits yhat. do i=1:b sample n e ee; replacement. let yy=yhat+ee regr yy 1 x; coef beta. let b0(i)=beta(1) let b1(i)=beta(2) enddo histo b0 histo b1 let b0_boot=mean(b0) let b1_boot=mean(b1) sort b1 b1 sort b0 b0 let low_b0=b0(25) let up_b0=b0(975) let low_b1=b1(25) let up_b1=b1(975) print b0_boot low_b0 up_b0 print b1_boot low_b1 up_b1 endmacro Untuk menjalankan macro di atas dapat dilakukan dengan cara : MTB > %regb.txt lifeexpf ln_gdp dan hasilnya adalah :

86

b0

b1

low_b0 up_b0 b0_boot 21.5513

14.7859 27.6859

low_b1 up_b1

5.40552 6.96901

b1_boot 6.16731

Confidence interval yang diperoleh untuk 0 dan 1 semuanya tidak melalui titik 0, sehingga dapat disimpulkan dua koefisien regresi ini significant pada =5%. Dan model yang diperoleh adalah : lifeexpf = 21.5513 + 6.16731 ln(gdp_cap)

87

HETEROSCEDASTICITY
Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau :
var( i ) = i2 = 2 i

Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual


, jika scatter plot membentuk gambar yang sudah dibakukan dengan nilai y

seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.

Selain dengan menggunakan scatter-plot seperti di atas, keberadaan hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau :

88

Jika

e =k .x1 .

maka dilakukan transformasi sebagai berikut :

x x x y 1 = 0 + 1 1 + 2 2 + 3 3 + ... atau x1 x1 x1 x1 x1
* * * y * = 1 + 0 x1 + 2 x2 + 3 x3 + ...

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh :
* * * y * = b1 + b0 x1 + b2 x 2 + b3 x3 + ...

Kemudian

model

ini

dikembalikan

ke

variabel

asal

dengan

menggandakan ruas kiri dan ruas kanan dengan x 1 sehingga diperoleh :


y = b1 + b0 x1 + b2 x 2 + b3 x3 + ...

Secara umum masalah

heterocedasticity dapat diatasi dengan

mengguna-kan metode weighted least-squares yaitu :


1 1 =( X ' X ) 1 X Y dan adalah matriks diagonal dengan unsur

diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel independent, jika korelasi ini significant maka cenderung terjadi kasus hetroscedasticity. Koefisien korelasi Spearman dihitung dengan cara :
r =1 n(n 2 1) 6D 2

dan D adalah selisih rank antar dua variabel.

89

Kegiatan Praktikum : Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity untuk data berikut : Year 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Savin g Income 264 8777 105 9210 90 9954 131 10508 122 10979 107 11912 406 12747 503 13499 431 14269 588 15522 898 16730 950 17663 779 18575 819 19635 1222 21163 1702 22880 1578 24127 1654 25604 1400 26500 1829 27670 2200 28300 2017 27430 2105 29560 1600 28150 2250 32100 2420 32500 2570 35250 1720 33500 1900 36000 2100 36200 2300 38200

90

Penyelesaian : Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara : MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12. dan hasilnya adalah : The regression equation is saving = - 648 + 0.0847 income Predictor Constant income S = 247.6 Coef -648.1 0.084665 SE Coef 118.2 0.004882 T -5.49 17.34 P 0.000 0.000

R-Sq = 91.2%

R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah : MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income' The regression equation is abs_res = - 7.7 + 0.00935 income Predictor Constant income S = 100.0 Coef -7.69 0.009346 SE Coef 47.73 0.001972 T -0.16 4.74 P 0.873 0.000

R-Sq = 43.6%

R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak residual dengan variabel income sehingga terjadi kasus heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model : saving/income = 0 + 1 (1/income)+ Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan dengan cara :

91

MTB > MTB > MTB > MTB > SUBC>

let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*'; resid c21.

dan hasilnya adalah : The regression equation is y* = 0.0881 - 723 x* Predictor Constant x* S = 0.01051 Coef 0.088139 -722.50 SE Coef 0.004372 72.36 T 20.16 -9.98 P 0.000 0.000

R-Sq = 77.5%

R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income' Hasil pengujian Glejser The regression equation is absres = 0.00793 +0.000000 income Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0% NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak residual dengan income atau varians residual cenderung sudah homogen. Sedangkan asumsi kenormalan residual dapat diuji dengan cara : MTB > %NormPlot C21; SUBC> Kstest. Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :

92

Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah : y* = 0.0881 - 723 x* atau : saving/income= 0.0881 -723 (1/income) setelah ruas kiri dan kanan digandakan dengan income maka diperoleh : saving=-723 +0.0881 income

93

MULTICOLLINEARITY
Multicollinearity Adanya hubungan linear antar variabel independent Multicollinearity dapat dideteksi dengan : a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c.
X ' X 0

d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda Multicollinearity dapat diatasi dengan : a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise.
= ( X ' X + kI ) 1 X ' Y , 0<k<1 b. Ridge Regression.

c. Principal Component Regression, tahapan dari metode ini adalah : Melakukan pembakuan data : z =
xx s

Membangkitkan variabel baru yang saling independent w1 = a11x1 + a12x2 + + a1pxp w2 = a21x1 + a22x2 + + a2pxp wp = ap1x1 + ap2x2 + + appxp atau wi =aix, nilai aI adalah eigen-vector dari eigen-value ke-i dari matriks korelasi antar variabel independent

Melakukan regresi y dengan w dan menyatakan model regresi y dengan w ke dalam model y dengan x

94

Kegiatan Praktikum 1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin 2. JIka ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi multicollinearity Penyelesaian a. Memilih data dari region Amerika Latin klik data+select cases+if

b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent :klik analyze+correlate+bivariate

95

Correlations Gross domestic product / capita .550** 1 .285 .617** .581** People living in cities (%) .500* .285 1 .578** .542* Males who read (%) .756** .581** .542* .956** 1

Average female life expectancy Average female life expectancy Gross domestic product / capita People living in cities (%) Females who read (%) Males who read (%) 1 .550** .500* .833** .756**

Females who read (%) .833** .617** .578** 1 .956**

**. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).

Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity. c. Memeriksa adanya kasus analyze+regression+linear multicollinearity dengan VIF:klik

klik statistics

96

a Coefficients

(Constant) Gross domestic product / capita People living in cities (%) Males who read (%) Females who read (%)

Unstandardized Coefficients B Std. Error 45.921 8.483 .000 .011 -.273 .594 .001 .068 .274 .238

t 5.413 .320 .159 -.997 2.498

Sig. .000 .753 .875 .334 .024

Collinearity Statistics VIF 1.640 1.525 11.573 13.289

a. Dependent Variable: Average female life expectancy

Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk males who read negatif sedangkan koefisien korelasinya positif sehingga memang ada kasus multicollinearity. d. Mengatasi multicollinearity dengan metode stepwise : klik analyze + regression + linear + method stepwise
a Coefficients

Model 1

(Constant) Females who read (%)

Unstandardized Coefficients B Std. Error 39.013 5.077 .406 .062

t 7.684 6.557

Sig. .000 .000

Collinearity Statistics VIF 1.000

a. Dependent Variable: Average female life expectancy

97

e. Mengatasi multicollinearity dengan ridge regression : klik file + new + syntax

klik Run +All


R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE ______ ______ ________ ________ ________ ________ .00000 .71418 .054792 .026292 1.216924 -.453266 .05000 .69610 .094060 .064195 .727695 -.027707 .10000 .68316 .108722 .079079 .576309 .089996 .15000 .67496 .116972 .087904 .499551 .141542 .20000 .66894 .122256 .093883 .451628 .168551 .25000 .66400 .125810 .098171 .418018 .183994 .30000 .65966 .128228 .101326 .392635 .193180 .35000 .65564 .129847 .103668 .372467 .198665 .40000 .65182 .130880 .105402 .355839 .201821 .45000 .64811 .131470 .106666 .341745 .203441 .50000 .64445 .131719 .107560 .329540 .204016 .55000 .64083 .131700 .108158 .318790 .203861 .60000 .63722 .131470 .108517 .309190 .203186 .65000 .63360 .131071 .108681 .300520 .202137 .70000 .62999 .130537 .108683 .292617 .200817 .75000 .62637 .129895 .108551 .285355 .199298 .80000 .62273 .129165 .108309 .278639 .197636 .85000 .61909 .128365 .107975 .272392 .195871 .90000 .61544 .127509 .107564 .266551 .194033 .95000 .61179 .126608 .107088 .261068 .192146 1.0000 .60813 .125671 .106558 .255901 .190227

Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi

98

kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut :

99

f. Mengatasi multicollinearity dengan principal component regression 1. Menentukan skor komponen (w1, w2,)
MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.
Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable GDP_CAP URBAN LIT_MALE LIT_FEMA 2.8278 0.707 0.707 PC1 -0.435 -0.414 -0.560 -0.571 0.7163 0.179 0.886 PC2 0.655 -0.755 0.028 0.022 0.4141 0.104 0.990 PC3 -0.616 -0.506 0.478 0.368 0.0419 0.010 1.000 PC4 0.049 0.046 0.676 -0.734

2.

Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1
MTB > regr 'lifeexpf' 1 'w1' The regression equation is LIFEEXPF = 71.8 - 3.51 w1
Predictor Constant w1 Coef 71.7619 -3.5140

SE Coef 0.9930 0.6051

T 72.26 -5.81

P 0.000 0.000

3.

Menyatakan model regresi ke dalam variabel asal y = 71.8 -3.51 w1 y = 71.8 3.51(-0.435 z1 -0.414 z2 -0.560 z3 -0.571 z4 y = 71.8 + 1.53 z1 + 1.45 z2 + 1.97 z3 + 2.00 z4 x x3 x x1 x x2 x x4 y = 71.8 + 1.53 1 + 1.45 2 + 1.97 3 +2 4 s x1 s x2 s x3 s x4

100

AUTOCORRELATION
Autocorrelation Adanya hubungan antar residual atau residual bersifat tidak saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation dapat dideteksi dengan : a. Statistik uji Durbin-Watson :
n

d=

(e
i=2

i n

ei 1 ) 2
2 i

e
i =1

b. ACF plot, ada nilai r(et,et-k) melampaui batas 0 tidak saling independent c. Statistik uji Ljung-Box
Q = n ( n + 2)
j =1 k

2 maka residual n

r j2 n j

tolak Ho : residual saling independent jika Q>2,k

Adanya residual yang saling dependent dapat diatasi dengan : a. Regresi beda
y t y t 1 = 0 + 1 ( xt xt 1 ) + t

b. Regresi Nisbah
yt x = 0 + 1 t + t y t 1 xt 1

c. y t . y t 1 = 0 + 1 ( xt .xt 1 ) + t

101

Kegiatan Praktikum tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 export 102 105 105 105 104 104 106 106 105 106 106 106 106 106 108 108 109 110 113 113 112 114 113 112 114 113 117 117 117 117 gdp 255 261 261 260 257 257 261 260 257 259 259 258 257 257 261 261 262 264 271 271 268 271 269 266 270 267 276 276 276 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.

102

Penyelesaian a. Penentuan model regresi dan pemeriksaan asumsi independent residual MTB > regr gdp 1 export; SUBC > resid c5.
The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549 Coef 110.354 1.40664 SE Coef 6.839 0.06251 T 16.14 22.50 P 0.000 0.000

R-Sq = 94.8%

R-Sq(adj) = 94.6%

MTB > %acf c5

Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent.

103

b. Mengatasi autocorrelation dengan regresi beda MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.
The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Constant dif_xprt S = 0.4956 Coef -0.48789 2.27658 SE Coef 0.09875 0.06924 T -4.94 32.88 P 0.000 0.000

R-Sq = 97.6%

R-Sq(adj) = 97.5%

MTB > %acf c9

residual sudah saling independent, dan modelnya adalah :


( gdp t gdp t 1 ) = 0.488 + 2.28(exp ort t exp ort t 1 )

104

Mengatasi autocorrelation dengan regresi nisbah MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13.
The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Constant C11 S = 0.001930 Coef 0.05627 0.94186 SE Coef 0.02957 0.02942 T 1.90 32.01 P 0.068 0.000

R-Sq = 97.4%

R-Sq(adj) = 97.3%

MTB > %acf c13

residual sudah saling independent, dan modelnya adalah


gdpt exp ort t = 0.0563 + 0.942 gdpt 1 exp ort t 1

105

ROBUST REGRESSION
Metode pendugaan parameter yang paling sering dipergunakan di dalam analisis regresi adalah metode kuadrat terkecil ( least squares), metode ini mempunyai kelemahan jika diterapkan pada data yang mengandung pengamatan berpengaruh (inflentual observation), persamaan regresi yang dihasilkan oleh metode kuadrat terkecil cenderung mudah berubah-ubah dengan adanya pengamatan berpengaruh.

Untik mengatasi kelemahan metode kuadrat terkecil ini dapat dilakukan dengan dua cara yaitu : a. Mengeluarkan titik yang berpengaruh yang dapat dideteksi dengan dffit, cook distance, dfbetas, setelah itu tetap menggunakan metode kuadrat terkecil b. Tetap menggunakan seluruh data, tetapi dengan memberikan bobot yang kecil untuk pengamatan yang berpengaruh, metode ini dikenal dengan nama metode regresi robust.

106

Metode pendugaan parameter di dalam analisis regresi robust a. Least Absolute Deviation (LAD), metode ini bekerja dengan meminimukan harga mutlak residual atau meminimumkan b. Least Trimmed Squares, metode ini bekerja

e
i =1

dengan

cara

meminimumkan jumlah kuadrat q buah residual terkecil atau meminimumkan c.

e
i =1

2 i

, besarnya q n / 2

Least Median Squares (LMS), metode ini bekerja dengan cara meminimumkan median kuadrat residual atau meminimumkan median( ei )
2

d.

M estimate, metode ini dikenalkan oleh Huber dengan cara meminimumkan jumlah fungsi dari residual atau meminimumkan

f (e ) , jika
i =1 i

f (ei ) = ei2 maka metode ini sama dengan OLS dan

jika f (ei ) = ei maka metode ini sama dengan LAD. Peminimuman dari

f (e )
i =1 i n

biasanya dilakukan dengan cara iteratively reweighted

least squares (IRLS) atau :


2 min f (ei ) ekuivalen dengan min wi ei dengan wi = i =1 i =1 n n

f (ei ) ei2

untuk metode
1

LAD :min

ei
i =1

ekuivalen dengan min

w e
i =1 i

2 i

dengan wi = e , penentuan wi dapat juga ditentukan dengan i cara :

107

wi = 1

untuk ei < median( ei ) dan


ei

wi =

median( ei )

untuk ei > median( ei )

Implementasi metode LAD dapat dinyatakan dalam macro berikut : macro lad y x mconstant i n s iterasi delta mcolumn y x w error b_old b_new let n=count(y) let iterasi=0 let delta=10 regr y 1 x; resid error; coef b_old. let error=abs(error) let s=median(error) while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 do i=1:n if error(i)<s let w(i)=1 else let w(i)=s/error(i) endif enddo regr y 1 x; weight w; resid error; coef b_new. let delta=sum(abs(b_old-b_new)) let error=abs(error) let s=median(error) let b_old=b_new endwhile endmacro

108

Kegiatan Praktikum Dari data Anscombe berikut, tentukan model regresi robust dengan metode LAD dan bandingkan hasilnya dengan metode OLS setelah pengamatan berpengaruhnya dikeluarkan. Nomo r X Y 1 10 7.46 2 8 6.77 3 13 12.74 4 9 7.11 5 11 7.81 6 14 8.84 7 6 6.08 8 4 5.39 9 12 8.15 10 7 6.42 11 5 5.73 Penyelesaian Dengan menggunakan MINITAB diperoleh hasil sebagai berikut : MTB >%lad.txt c2 c1 The regression equation is Y = 4.01 + 0.345 X Predictor Coef SE Coef T P Constant 4.00533 0.03445 116.26 0.000 X 0.345467 0.003783 91.31 0.000 S = 0.03554 R-Sq = 99.9% R-Sq(adj) = 99.9%
Analysis of Variance Source DF Regression 1 Residual Error 9 Total 10 SS 10.533 0.011 10.545
Fit 8.4964

MS 10.533 0.001
SE Fit 0.0207

F 8338.16

P 0.000

Unusual Observations Obs X Y 3 13.0 12.7400

Residual 4.2436

St Resid 2.99R

109

Setelah kasus ke-3 dihilangkan, diperoleh persamaan regresi berikut : MTB > let c2(3)=* MTB > regr c2 1 c1 MTB > regr y 1 x The regression equation is Y = 4.01 + 0.345 X 10 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant 4.00565 0.00292 1369.81 0.000 X 0.345390 0.000321 1077.35 0.000 S = 0.003082 R-Sq = 100.0% R-Sq(adj) = 100.0% Setelah kasus ke-3 dihilangkan ternyata persamaan regresi dari OLS dan LAD adalah hampir sama

110

NONLINEAR REGRESSION
Berdasarkan kelinearan antar parameter di dalam model regresi, maka model regresi dapat diklasifikasikan menjadi dua macam yaitu linear dan nonlinear. Model regresi dikatakan linear jika dapat dinyatakan dalam model :
y = 0 + 1 x 1 + 2 x 2 + 3 x3 + ... + k x k +

JIka model regresi tidak dapat dinyatakan ke dalam model di atas maka model yang diperoleh adalah model regresi non-linear, secara umum model regresi non-linear dapat dinyatakan dalam persamaan :
y = f ( x, ) +

NIlai dapat diduga dengan dengan cara meminimukan jumlah kuadrat residual, jumlah kuadrat ini dapat diminimukan jika turunan pertama terhadap sama dengan nol atau :
SSE = [ y i f ( xi , )]
i =1 n 2

n f ( xi , ) SSE = [ y i f ( xi , )] =0 i =1

Hasil turunan pertama terhadap sama dengan nol membentuk suatu sistem persamaan non-linear yang tidak dapat diselesaikan secara langsung tetapi dapat didekati secara iteratif dengan menggunakan metode numerik, salah satu metode numerik yang dapat menyelesaikan hal ini adalah metode Gauss-Newton. Metode Gauss-Newton ini bekerja dengan menggunakan pendekatan deret Taylor dari fungsi pada iterasi ke i+1 adalah :
= + ( ' ) 1 ' e i +1 i i i i i

SSE sampai suku kedua. Nilai dugaan

dan

111

f ( x1 , ) f ( x1 , ) f ( x1 , ) ... 1 k 0 f ( x 2 , ) f ( x 2 , ) ... f ( x 2 , ) = 0 1 k ... f ( x n , ) f ( x n , ) ... f ( x n , ) 1 k 0


Iterasi ini dihentikan jika nilai
atau i+ 1 i
0.0000 i+ 1 i

Levenberg-Marquardt menyempurnakan metode Gauss-Newton dengan memasukkan konstanta (nilai awal =1) yang besarnya berubah-ubah mengikuti perubahan SSE. Nilai akan diperkecil sepersepuluh kali dan

iterasi diteruskan jika SSE turun serta nilai akan meningkat sepuluh kali dan kembali ke iterasi awal jika SSE meningkat. Formula Levenberg-Marquardt adalah :
= + ( ' + diag' ) 1 ' e i +1 i i i i i i i

112

Kegiatan Praktikum Tahun Penduduk 1980 100 1981 105 1982 110 1983 115 1984 124 1985 130 1986 135 1987 142 1988 149 1989 155 1990 165 1991 172 1992 182 1993 194 1994 203 1995 212 1996 223 1997 234 1998 246 1999 258 2000 271 Banyaknya penduduk pada interval tahun 1980 sampai dengan tahun 2000 diduga mempunyai pola pertumbuhan eksponensial yang dapat dinyatakan dalam model :

y = 0 e 1t +
Tentukan nilai dugaan untuk 0 dan 1

Penyelesaian
t Model y = 0 e 1 + adalah model non linear, berbeda dengan model

y = 0 e 1t e e yang dapat dilinearkan dengan transformasi logaritma, untuk


menduga besarnya koefisien regresi digunakan metode Gauss-Newton dengan formula berikut :
= + ( ' ) 1 ' e i +1 i i i i i

113

Dengan nilai awal untuk 0

=100

(Nilai y pada tahun dasar) dan untuk

= 0.05 (nilai pertumbuhan relatif dari dua nilai y awal :100 ke 105). 1

Sedangkan nilai matriks dapat ditentukan dari

f f dan yaitu : 0 1

f = 0 e 1t
f = e t 0
1

f = 0 te t 1
1

sehingga matriks menjadi :

e 1t1 1t 2 e = ... 1t n e

0 t.e 1t1 0t.e 1t 2 ... 0t.e 1t n


i =1 n 2 2 2 i ti 0 ti e i =1
n

dan matriks adalah :

n 2 1ti e ' = n i =1 t e2 i ti 0i i =1

te
0 i

2 iti

Untuk menyelesaikan kaus ini dengan metode Gauss-Newton, dapat dilakukan dengan bantuan Macro MINITAB berikut :
macro nonlin yy xx b0 b1 mconstant b0 b1 bb0 bb1 iterasi delta mcolumn yy xx x1 x2 b yhat error mmatrix x xt xtx xtxinv xte e yyhat h b_old b_new # # nilai awal # let b(1)=b0 let b(2)=b1 copy b b_old let yhat=b0*expo(b1*xx)

114

let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 x let delta=10 let iterasi=0 # # iterasi gauss-newton # while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 transpose x xt multiply xt x xtx invert xtx xtxinv multiply xt e xte multiply xtxinv xte h add b_old h b_new copy b_new b let bb0=b(1) let bb1=b(2) let delta=abs(b0-bb0)+abs(b1-bb1) let b0=bb0 let b1=bb1 copy b_new b_old let yhat=b0*expo(b1*xx) let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 x endwhile print b0 b1 endmacro

Untuk menjalankan macro MINITAB di atas dapat dilakukan dengan perintah :


MTB > DATA> DATA> MTB > DATA> DATA> DATA> DATA> MTB > b0 b1 set c1 0:20 end set c2 100 105 110 115 165 172 182 194 271 end %nonlin.txt c2 c1 100 0.05 100.150 0.0499193

124 203

130 212

135 223

142 234

149 246

155 258

Sehingga model pertumbuhan eksponensial banyaknya penduduk dari tahun 1980 sampai dengan tahun 2000 adalah :

115

y t = 100.150e 0.0499 t

Dengan bantuan SPSS pemodelan regresi nonlinear untuk banyaknya penduduk dapat dilakukan dengan : klik analyze+regression+nonlinear

klik parameters

Iteration 1 1.1 2 2.1 3 3.1

Residual SS 22.83350008 22.58470063 22.58470063 22.58469961 22.58469961 22.58469961

B0 100.000000 100.149827 100.149827 100.149728 100.149728 100.149729

B1 .050000000 .049919149 .049919149 .049919293 .049919293 .049919293

Nilai koefisien regresi dan SSE sudah tidak berubah lagi sehingga iterasi berhenti.
Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression Residual 2 19 681946.41530 22.58470 340973.20765 1.18867

116

Uncorrected Total 21 681969.00000 (Corrected Total) 20 56224.95238 R squared = 1 - Residual SS / Corrected SS = .99960 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 100.14972863 .350807378 99.415480345 100.88397691 B1 .049919293 .000241815 .049413169 .050425416

Confidence interval untuk koefisien regresi tidak ada yang melalui titik nol sehingga dapat dikatakan koefisien regresi yang diperoleh significant pada =5%. Latihan 1. Rasio elektrifikasi
57.44 95.26 99.67 64.57 96.44 99.75

(Persentase rumah tangga yang berlangganan PLN)


71.09 97.34 76.85 98.02 81.76 98.52 85.81 98.90 89.09 99.18 91.68 99.39 93.70 99.55

selama 20 tahun di suatu daerah adalah sebagai berikut :

Tentukan

model

yang

menggambarkan

hubungan

antara

rasio

elektrifikasi dengan waktu 2. Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (y), persentase penduduk yang tinggal di perkotaan (x 1), harapan hidup laki-laki (x2) dan pendapatan perkapita(x3) yang dinyatakan dalam model :

y = 0 x11 x 2 2 x3 3 +
Penyelesaian Persentase penduduk yang berlangganan PLN tidak mungkin lebih dari 100 %, dan akan mendekati 100 % untuk t yang sangat besar, salah satu model yang memenuhi sifat-sifat ini adalah :
yt = 100 + 1 + 0 e t

Dengan bantuan SPSS

117

Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 2 164053.29912 82026.64956 Residual 18 1.799245E-04 9.995807E-06 Uncorrected Total 20 164053.29930 (Corrected Total) 19 3129.70530 R squared = 1 - Residual SS / Corrected SS = 1.00000 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 B1 .740850358 .299981460 .000067112 .000027927 .740709362 .299922787 .740991355 .300040132

118

Pemodelan y = 0 x1 1 x 2 2 x3 3 + dengan bantuan SPSS dapat dilakukan dengan cara :

Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source DF Sum of Squares Mean Square Regression 4 542255.95702 135563.98926 Residual 104 368.04298 3.53887 Uncorrected Total 108 542624.00000 (Corrected Total) 107 12023.07407 R squared = 1 - Residual SS / Corrected SS = .96939 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 1.266804442 .150462507 .968431646 1.565177239 B1 .010369463 .007318355 -.004143109 .024882036 B2 .934838552 .033915777 .867582293 1.002094811 B3 .009008014 .003101373 .002857875 .015158153

Confidence interval untuk 1 memuat titik nol, sehingga koefisien ini tidak significant sehingga analisis regresi nonlinear perlu dilanjutkan dengan tanpa memasukkan variabel persentase penduduk yang tinggal diperkotaan.

119

Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source Regression Residual Uncorrected Total (Corrected Total) DF 3 106 109 108 Sum of Squares 548174.04067 378.95933 548553.00000 12070.34862 .96860 Mean Square 182724.68022 3.57509

R squared = 1 - Residual SS / Corrected SS = Asymptotic Std. Error .138090655 .031327433 .002967936

Parameter B0 B2 B3

Estimate 1.208565153 .953133843 .010483637

Asymptotic 95 % Confidence Interval Lower Upper .934786998 .891024160 .004599416 1.482343308 1.015243525 .016367859

120

RANCANGAN PERCOBAAN (EXPERIMENTAL DESIGN)

Tujuan Mengkaji pengaruh pemberian perlakuan ( treatment) terhadap satuan percobaan (unit of experiment). Pengaruh dari perlakuan terhadap satuan percobaan ditandai oleh bervariasinya nilai variabel respon ( response variable) yang diduga karena pemberian perlakuan yang berbeda. Contoh Dilakukan percobaan penentuan obat penurun tekanan darah terbaik dengan mencobakan 3 macam obat, dan dilakukan pengukuran tekanan darah systolic dan diastolic sebelum diberi obat dan setengah jam setelah minum obat pada kelompok umur 30-40 tahun, 40-50 tahun dan 50-60 tahun. Perlakuan Kelompok (Block) Variabel respon Covariate Satuan percobaan Pemberian obat penurun tekanan darah Kelompok umur Tekanan darah setengah jam setelah minum obat Tekanan darah sebelum minum obat Pasien

121

Klasifikasi Rancangan Lingkungan (Environmental design) a. Rancangan Acak Lengkap (Completely Random Design), dipakai pada kasus satuan percobaan bersifat homogen b. Rancangan Acak Kelompok (Block Random Design), dipakai pada kasus satuan percobaan bersifat heterogen, kemudian dilakukan pengelompokan sedemikian hingga satuan percobaan di dalam kelompok yang sama masih bersifat homogen. Rancangan Perlakuan (Treatment design) a. Dilihat dari penentuan perlakuan :fixed dan random, dikatakan random jika penentuan perlakuan dipilih secara acak dan kesimpulannya nanti berlaku untuk populasi perlakuan. b. Dilihat dari macam perlakuan : tunggal dan faktorial, dikatakan faktorial, jika perlakuan terdiri dari beberapa factor dan antar fakor dimungkinkan terjadi interaksi

122

Rancangan Acak Lengkap : Contoh 1 : Untuk meneliti efektifitas obat penurun tekanan darah tinggi, dilakukan percobaan pemberian obat yang terdiri dari tiga macam obat yaitu obat A: placebo, obat B, dan obat C, setiap obat dicobakan pada 10 orang, dan pada setiap orang diukur tekanan darah systolic sebellum minum obat (y1) dan 30 menit setelah minum obat (y2). Respon yang diamati adalah nilai y1-y2. Pelaksanaan Percobaan Untuk melakukan percobaan ini dibutuhkan 30 orang yang mempunyai kondisi kesehatan yang sama dan dari kelompok umur yang sama serta berjenis kelamin sama misalkan perempuan. Kemudian untuk menentukan perlakuan ke setiap orang dibutukan pengacakan yang dapat dengan cara berikut. Ambil 30 buah kartu yang ditandai a1,a2,,a10, b1,,b10, c1,,c10 kemudian dikocok kemudian berikan pada setiap orang satu kartu, beri perlakuan yang sesuai dengan kartu yang diperoleh setiap orang. Nilai variabel respon yang diamati adalah Obat A B C 1 2 11 17 2 6 9 18 3 7 11 16 4 3 11 18 5 0 11 23 6 1 10 25 7 4 15 20 8 5 8 22 9 10 9 17 10 4 9 16 dilakukan

123

Model yang sesuai untuk kasus ini adalah : ke-j


Yij = + i + ij , i=1,,t dan j=1,..,r Yij : Nilai penurunn tekanan darah

ij : Galat Percobaan (Experimental Error) Asumsi : ij beristribusi normal dengan rata-rata=0 dan varians konstan

: Rata-rata penurunan tekanan darah i : Pengaruh pemberian obat ke-i

setelah diberi obat ke-i untuk orang

Hipotesis : H0 : Tidak ada pengaruh pemberian obat terhadap penurunan tekanan darah H1 : Ada pengaruh pemberian obat terhadap penurunaan tekanan darah atau
i H0 : i = 0 H1 : i 0 Statistik uji :

atau

H1 : i j

H0 : 1 = 2 = 3

Sumber Variasi derajat bebas Perlakuan t

Jumlah Kuadrat
(Sum of Squares)
t r 2

Kuadrat Tengah F-hitung


(Mean of squares)
t r 2

Y ) (Y ij
i 1 j= 1

Y ) (Y ij
i 1 j =1

MS .Treatment MS . Re sidual

Sisa (residual)

rt-t-1

) (Yij Y ij
i 1 j= 1

) (Yij Y ij
i 1 j =1

rt t 1

Total

rt-1

(Yij Y )
i 1 j= 1

Tolak Ho jika F-hitung> f ,t 1. rt t 1

124

Dengan bantuan SPSS, pengujian pengaruh pemberian obat terhadap penurunan tekanan darah dapat dilakukan dengan cara : a. Pemasukan Data

b. Analysis of variance klik analyze+compare means+oneway ANOVA

125

c. Pengujian kesamaan varians klk options

d. Pembandingan berganda (multiple comparison) klik post-hoc

dan hasilnya adalah :


Test of Homogeneity of Variances Levene Statistic Penurunan Tekanan Darah 1.686 df1 2 df2 27 Sig. .204

Nilai sig. lebih besar dari 5%, sehingga H0 diterima yang berarti varians penurunan tekanan darah untuk ketiga macam perlakuan pemberian obat adalah sama.

126

ANOVA Sum of Squares Penurunan Tekanan Darah Between Groups Within Groups Total 1136.267 203.600 1339.867 df 2 27 29 Mean Square 568.133 7.541 F 75.342 Sig. .000

Nilai sig.<5% sehingga dapat disimpulkan ada pengaruh pemberian obat terhadap penurunan tekanan darah atau rata-rata penurunan tekanan darah dari perlakuan tiga macam obat tidak bisa dikatakan sama, untuk menguji pasangan rata-rata yang berbeda dari perlakuan pemberian tiga macam obat dapat dilakukan pembandingan berganda dengan menggunakan statistik uji Least Significance Difference sebagai berikut :
Multiple Comparisons Dependent Variable: Penurunan Tekanan Darah LSD (I) Jenis obat tekanan darah A B C (J) Jenis obat tekanan darah B C A C A B 95% Confidence Interval Lower Upper Bound Bound -8.7198 -3.6802 -17.5198 -12.4802 3.6802 8.7198 -11.3198 -6.2802 12.4802 17.5198 6.2802 11.3198

Mean Difference (I-J) Std. Error -6.2000* 1.228 -15.0000* 1.228 6.2000* 1.228 -8.8000* 1.228 15.0000* 1.228 8.8000* 1.228

Sig. .000 .000 .000 .000 .000 .000

*. The mean difference is significant at the .05 level.

Dari hasil pembandingan berganda, diperoleh informasi bahwa ketiga macam obat memberikan rata-rata penurunan tekanan darah yang berbeda, urutan penurunan tekanan darah adalah A<B<C.

127

Rancangan Acak Lengkap : analysis of covariance Contoh 2 : Untuk meneliti efektifitas obat penurun tekanan darah tinggi, dilakukan percobaan pemberian obat yang terdiri dari tiga macam obat yaitu obat A: placebo, obat B, dan obat C, setiap obat dicobakan pada 10 orang, dan pada setiap orang diukur tekanan darah systolic sebellum minum obat (y1) dan 30 menit setelah minum obat (y2). Respon yang diamati adalah y2, sedangkan y1 adalah covariate. Model yang sesuai untuk kasus ini adalah :
Yij = +i + ( X ij X .. ) +ij

Yij : Nilai tekanan darah setelah minum obat ke-I untuk orang ke-j

: Nilai rata-rata tekanan darah setelah minum obat


i : Pengaruh obat ke-i
X ij : NIlai tekanan darah sebelum minum obat ke-I untuk orang ke-k

Hipotesis 1: H0 : Tidak ada pengaruh pemberian obat ke-I terhadap tekanan darah H1 : Ada pengaruh pemberian obat ke-I terhadap tekanan darah
i dan H1 : i 0 atau H0 : i = 0

Hipotesis 2 : H0 : Tidak ada hubungan antara tekanan darah sebelum dan sesudah minum obat H1 : Ada hubungan antara tekanan darah sebelum dan sesudah minum obat atau : H0 : = 0 dan H1 : 0

128

Data : Sesudah Sebelum Sesudah Sebelum Sesudah Sebelum Tekanan darah sebelum dan sesudah minum obat A 142 143 145 150 144 145 148 142 146 144 149 152 153 144 146 152 147 156 Tekanan darah sebelum dan sesudah minum obat B 143 141 149 145 147 144 145 146 149 154 150 160 156 158 154 160 154 158 Tekanan darah sebelum dan sesudah minum obat C 143 150 143 150 146 146 146 147 142 160 168 159 168 169 171 166 169 159 142 146 143 152 150 166

Dengan bantuan SPSS hal ini dapat diselesaikan dengan cara : a. Pemasukan Data

129

b. Analisis Covariance : klik Analyze + General linear model + factorial

dan hasilnya adalah :


a,b ANOVA

Sum of Squares Tekanan darah sesudah minum obat Covariates Tekanan darah sebelum minum obat obat penurun tekanan darah

df

Unique Method Mean Square

Sig.

113.072

113.072

30.393

.000

Main Effects

56.224 126.472 96.728 223.200

2 3 26 29

28.112 42.157 3.720 7.697

7.556 11.332

.003 .000

Model Residual Total

a. Tekanan darah sesudah minum obat by obat penurun tekanan darah with Tekanan darah sebelum minum obat b. All effects entered simultaneously

Nilai sig. untuk covariates lebih kecil dari 5 % berarti ada hubungan antara tekanan darah sebelum dan sesudah minum obat. Nilai sig. untuk main effects lebih kecil dari 5% berarti ada pengaruh pemberian obat penurun tekanan darah terhadap tekanan darah setelah minum obat

130

Rancangan LIngkungan : Rancangan Acak Lengkap Rancangan Perlakuan : Faktorial You as a biologist are studying how zooplankton live in two lakes. You set up twelve tanks in your laboratory, six each with water from a different lake. You add one of three nutrient supplements to each tank and after 30 days you count the zooplankton in a unit volume of water. Data untuk kasus ini diperoleh dari MINITAB (EXH_AOV.MTW), model yang sesuai untuk kasus ini adalah :
Yijk = + i + j + ( ) ij + ijk dan i=1,2,3 j=1,2 k=1,2
Yijk : Banyaknya zooplankton pada air danau ke j yang diberi supplement

ke- i dan ulangan (replication) ke-k

: Rata-rata banyaknya zooplankton


i : Pengaruh supplement ke-i terhadap banyaknya zooplankton
j : Pengaruh penggunaan air dari danau ke-j terhadap banyaknya

zooplankton Dengan bantuan MINITAB kasus ini dapat diselesaikan dengan cara : klik stat + anova+two-way :

131

dan hasilnya adalah :


Analysis of Variance for Zooplank Source DF SS MS Suppleme 2 1919 959 Lake 1 21 21 Interaction 2 561 281 Error 6 622 104 Total 11 3123 Suppleme 1 2 3 Mean 43.5 68.3 39.8 F 9.25 0.21 2.71 P 0.015 0.666 0.145

Individual 95% CI --+---------+---------+---------+--------(-------*-------) (--------*-------) (--------*-------) --+---------+---------+---------+--------30.0 45.0 60.0 75.0

Dilihat dari p-value dapat disimpulkan bahwa ada pengaruh supplement tidak ada pengaruh penggunaan air dari danau yang berbeda, tidak ada pengaruh interaksi antara penggunaan air yang berbeda dengan jenis supplement terhadap banyaknya zooplankton. Supplement terbaik adalah supplement yang kedua, yang memberikan rata-rata banyaknya zooplankton tertinggi dibandingkan dengan supplement yang lain.

132

Rancangan Lingkungan : Rancangan Acak Kelompok Rancangan Perlakuan : Perlakuan Tunggal

/* Getting Started Example 2: Randomized Complete Block Design */ title 'Randomized Complete Block'; data RCB; input Block Treatment $ Yield Worth @@; datalines; 1 A 32.6 112 1 B 36.4 130 1 C 29.5 106 2 A 42.7 139 2 B 47.1 143 2 C 32.9 112 3 A 35.3 124 3 B 40.1 134 3 C 33.6 116 ; proc anova; class Block Treatment; model Yield Worth=Block Treatment; means Treatment; run;
Dependent Variable: Yield Source Model Error Corrected Total Sum of DF Squares Mean Square F Value Pr > F 4 225.2777778 56.3194444 8.94 0.0283 4 25.1911111 6.2977778 8 250.4688889 Coeff Var 6.840047 DF 2 2 Root MSE Yield Mean 2.509537 36.68889 Mean Square F Value Pr > F

R-Square 0.899424 Source Block Treatment

Anova SS

98.1755556 49.0877778 7.79 0.0417 127.1022222 63.5511111 10.09 0.0274

Dependent Variable: Worth Source Model Error Corrected Total Sum of DF Squares Mean Square F Value Pr > F 4 1247.333333 311.833333 8.28 0.0323 4 150.666667 37.666667 8 1398.000000 Coeff Var 4.949450 Root MSE Worth Mean 6.137318 124.0000

R-Square 0.892227 Source Block Treatment

DF Anova SS Mean Square F Value Pr > F 2 354.6666667 177.3333333 4.71 0.0889 2 892.6666667 446.3333333 11.85 0.0209

Rancangan Lingkungan : Rancangan Acak Kelompok Rancangan Perlakuan : Faktorial


*/ */

/* Example 1: Randomized Complete Block /* With Factorial Treatment Structure

133

title 'Randomized Complete Block With Two Factors'; data PainRelief; input PainLevel Codeine Acupuncture Relief @@; datalines; 1 1 1 0.0 1 2 1 0.5 1 1 2 0.6 1 2 2 1.2 2 1 1 0.3 2 2 1 0.6 2 1 2 0.7 2 2 2 1.3 3 1 1 0.4 3 2 1 0.8 3 1 2 0.8 3 2 2 1.6 4 1 1 0.4 4 2 1 0.7 4 1 2 0.9 4 2 2 1.5 5 1 1 0.6 5 2 1 1.0 5 1 2 1.5 5 2 2 1.9 6 1 1 0.9 6 2 1 1.4 6 1 2 1.6 6 2 2 2.3 7 1 1 1.0 7 2 1 1.8 7 1 2 1.7 7 2 2 2.1 8 1 1 1.2 8 2 1 1.7 8 1 2 1.6 8 2 2 2.4 ; proc anova; class PainLevel Codeine Acupuncture; model Relief = PainLevel Codeine|Acupuncture; run;
The ANOVA Procedure Dependent Variable: Relief Source Model Error Corrected Total DF 10 21 Sum of Squares Mean Square F Value Pr > F 11.33500000 1.13350000 78.37 <.0001 0.30375000 0.01446429 31 11.63875000 Root MSE Relief Mean 0.120268 1.156250 Mean Square F Value Pr > F

R-Square 0.973902 Source PainLevel Codeine Acupuncture Codeine*Acupuncture

Coeff Var 10.40152 DF 7 1

Anova SS

5.59875000 0.79982143 55.30 <.0001 2.31125000 2.31125000 159.79 <.0001 1 3.38000000 3.38000000 233.68 <.0001 1 0.04500000 0.04500000 3.11 0.0923

Split Plot Rancangan Lingkungan : Rancangan Acak Kelompok Rancangan Perlakuan : Faktorial Faktor pertama diacak di dalam kelompok, sedangkan factor kedua diacak dalam factor pertama, error untuk factor pertama adalah interaksi antara kelompok dengan factor pertama. data Split; input Block 1 A 2 B 3 Response; datalines;

134

142 141 112 111 121 122 132 131 221 222 212 211 241 242 231 232 ;

40.0 39.5 37.9 35.4 36.7 38.2 36.4 34.8 42.7 41.6 40.3 41.6 44.5 47.6 43.6 42.8 proc anova; class Block A B; model Response = Block A Block*A B A*B; test h=A e=Block*A; run;
DF 11 4 Sum of Squares Mean Square F Value Pr > F 182.0200000 16.5472727 7.85 0.0306 8.4300000 2.1075000 15 190.4500000

Source Model Error Corrected Total R-Square 0.955736

Source Block A Block*A B A*B

Coeff Var Root MSE Response Mean 3.609007 1.451723 40.22500 DF Anova SS Mean Square F Value Pr > F 1 131.1025000 131.1025000 62.21 0.0014 3 40.1900000 13.3966667 6.36 0.0530 3 6.9275000 2.3091667 1.10 0.4476 1 2.2500000 2.2500000 1.07 0.3599 3 1.5500000 0.5166667 0.25 0.8612

Tests of Hypotheses Using the Anova MS for Block*A as an Error Term Source DF Anova SS Mean Square F Value Pr > F A 3 40.19000000 13.39666667 5.80 0.0914

135

Вам также может понравиться