Академический Документы
Профессиональный Документы
Культура Документы
PENDAHULUAN
A. Latar Belakang
Dalam dunia pendidikan, guru memegang peran yang sangat penting
terhadap keberhasilan siswa. Secara garis besar, tugas utama seorang guru yakni
merencanakan pembelajaran, melaksanakan pembelajaran dan menilai proses
serta hasil pembelajaran. Penilaian proses maupun hasil pembelajaran yang
dilakukan untuk mengetahui kemampuan siswa dan untuk mengetahui tingkat
keberhasilan pembelajaran sering dikenal dengan istilah evaluasi. Evaluasi adalah
kegiatan atau proses untuk menilai sesuatu dan untuk dapat menentukan nilai dari
sesuatu yang sedang dinilai tersebut, dilakukanlah pengukuran (Sudijono, 2015).
Wujud dari pengukuran tersebut adalah pengujian yang dalam dunia pendidikan
dikenal dengan istilah tes.
Evaluasi memiliki arti penting dalam kegiatan belajar mengajar yang
dilaksanakan oleh seorang guru. Diantara tujuan dari evaluasi adalah untuk
menilai ketercapaian tujuan pendidikan oleh anak didik, sarana untuk mengetahui
apa yang telah anak didik ketahui dalam kegiatan belajar mengajar, dan
memotivasi anak didik. Untuk mengevaluasi hasil belajar dan proses belajar
siswa, seorang guru menggunakan berbagai macam alat atau instrumen evaluasi
seperti tes tertulis, tes lisan, ceklis-observasi, angket-wawancara, dan
dokumentasi.
Keberhasilan mengungkap hasil dan proses belajar ini sebagaimana
adanya (objektivitas hasil penilaian) sangat bergantung pada kualitas alat
penilainya, di samping itu juga yang tidak kalah pentingnya tergantung pada cara
pelaksanaannya. Suatu alat penilaian dikatakan mempunyai kualitas yang baik
apabila alat tersebut memiliki atau memenuhi dua hal, yaitu validitas (ketepatan)
dan reliabilitas (ketetapan atau keajegan) alat tes terjamin kualitasnya. Alat tes
yang bagaimana dan seperti apa yang dikatakan memiliki validitas dan reliabilias
ini (Sudaryono, 2012). Penganalisisan terhadap butir-butir soal tes hasil belajar
agar memiliki kualitas yang tinggi dapat dilakukan dari tiga segi yaitu dari segi
1
2
tingkat kesukaran itemnya, dari segi daya pembeda itemnya dan dari segi fungsi
distraktornya atau fungsi pengecoh (Sudijono, 2015).
Salah satu teknik yang digunakan untuk melakukan evaluasi terhadap hasil
belajar siswa yaitu dengan tes. Tes adalah cara atau prosedur yang perlu ditempuh
dalam rangka pengukuran dan penilaian di bidang pendidikan, yang berbentuk
pemberian tugas atau serangkaian tugas berupa pertanyaan-pertanyaan yang harus
dijawab atau perintah-perintah yang harus dikerjakan oleh testee, sehingga dapat
dihasilkan nilai yang melambangkan tingkah laku atau prestasi testee (Sudijono,
2015).
Soal tes yang berkualitas tersusun atas butir-butir soal yang berkualitas
pula. Agar dapat mengetahui kualitas suatu soal tes, maka perlu dilakukan analisis
terhadap kualitas soal. Analisis kualitas soal merupakan suatu tahap yang harus
ditempuh untuk mengetahui derajat kualitas suatu soal tes, baik secara
keseluruhan maupun butir soal yang menjadi bagian dari soal tes tersebut.
Analisis kualitas soal yang dimaksudkan adalah analisis yang ditinjau dari
masing-masing aspek Validitas, Reliabilitas, Tingkat Kesukaran dan Efektivitas
Pengecoh. Analisis Validitas dan Reliabilitas dapat digunakan untuk mengetahui
kualitas soal secara keseluruhan, sedangkan analisis Tingkat Kesukaran, Daya
Pembeda dan Efektivitas Pengecoh digunakan untuk mengetahui kualitas butir
soal. Analisis Tingkat Kesukaran maupun Daya Pembeda dapat digunakan untuk
mengukur kualitas butir soal objektif dan uraian.
Salah satu tujuan dilakukannya analisis terhadap kualitas soal adalah untuk
meningkatkan kualitas soal, yaitu apakah suatu soal telah dapat diterima, perlu
diperbaiki karena memiliki beberapa kelemahan atau tidak digunakan sama sekali
karena tidak berfungsi (Surapranata, 2009).
BAB II
PEMBAHASAN
4
5
alat ukur secara substantif atau disebut validitas substantif yang fokus kepada
konseptualisasi dan sejauhmana konsep-konsep sebelumnya yang ditampilkan
dalam kajian literatur (Clark, 1995).
Untuk mengetahui apakah tes valid atau tidak harus dilakukan melalui
penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tes itu sudah meakili
atau mencerminkan keseluruhan konten atau materi yang seharusnya dikuasai
secara proporsional. Oleh karena itu, validitas isi tes tidak mempunyai besaran
tertentu yang dihitung secara statistika, tetap dipahami bahwa tes sudah valid
berdasarkan telaah kisi-kisi tes. Menurut Wiersman dan Jurs (dalam Djaali &
Muljono, 2008) validitas isi lebih mendasarkan pada analisis logika jadi tidak
merupakan suatu koefisien validitas yang dihitung secara statistika.
Untuk memperbaiki validitas suatu tes, maka isi suatu tes harus
diusahakan agar mencakup semua pokok bahasan yang hendak diukur. Kriteria
untuk masing-masing pokok bahasan yang ada dalam suatu tes didasarkan
banyaknya isi masing-masing pokok bahasan yang dapat dilihat dari jumlah
halaman isi dan jumlah jam pertemuan untuk masing-masing pokok bahasan
seperti yang tercantum dalam kurikulum (Djaali & Muljono, 2008).
Selain itu, penentuan proporsi dapat pula didasarkan pendapat para ahli
dalam bidang yang bersangkutan. Jadi suatu tes akan mempunyai validitas isi
yang baik jika tes tersebut terdiri dari item-item yang mewakili semua materi yang
hendak diukur. Salah satu cara yang biasa dilakukan untuk memperbaiki validitas
isi suatu tes ialah dengan menggunakan blue-print untuk menentukan kisi-kisi tes
(Djaali & Muljono, 2008).
b. Validitas Konstruk.
Validitas konstruk adalah sebuah gambaran yang menunjukkan
sejauhmana alat ukur itu menunjukkan hasil yang sesuai dengan teori (Azwar,
2005). Proses pengujian validitas konstruk adalah menghubungkan alat ukur itu
dengan alat ukur lain yang memiliki kesamaan konsep atau dengan alat ukur-alat
ukur lain yang secara teoritis berkaitan dengannya (Murphy & Davidshofer,
1991). Menurut Arikunto (2012) sebuah tes dikatakan memiliki validitas
konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap
aspek berfikir seperti disebutkan dalam tujuan instruksional khusus. Dengan kata
6
lain jika butir-butir soal mengukur aspek berpikir tersebut sudah sesuai dengan
aspek berpikir yang menjadi tujuan instruksional.
Validitas konstruk biasa digunakan untuk instrumen-instrumen yang
dimaksudkan mengukur variabel-variabel konsep. Menetukan validitas konstruk
suatu instrumen harus dilakukan proses penelaahan teoritis dari suatu konsep dari
variabel yang hendak diukur, mulai dari perumusan, konstruk, penentuan dimensi
dan indikator sampai pada penjabaran dan penulisan butir-butir item instrumen.
Perumusan konstrul harus didasarkan sintesis dari teori-teori mengenai konsep
variabel yang hendak diukur melalui proses analisis dan komparasi yang logik dan
cermat (Djaali & Muljono, 2008). Menyimak proses telaah teoritis seperti telah
dikemukakan, maka proses validasi konstruk sebuah instrumen harus dilakukan
melalui penelaahan atau justifikasi pakar atau melalui penilaian sekelompok panel
yang terdiri dari orang-orang yang menguasai substansi atau konten dari variabel
yang hendak diukur.
c. Validitas Empris atau Kriteria
Validitas kriteria adalah mengaitkan alat ukur dengan alat ukur lain
sebagai kriteria, apakah alat ukur ukur itu bisa dijelaskan hasil korelasinya dengan
dengan kriterianya berdasarkan teori yang ada (Devellis, 2010). Validitas empiris
sama dengan validitas kriteria yang berarti bahwa validitas ditentukan berdasarkan
kriteria, baik kriteria internal maupun kriteria eksternal.
Kriteria internal adalah tes atau instrumen itu sendiri yang menjadi
kriteria, sedangkan kriteria eksternal adalah hasil ukur instrumen atau tes lain di
luar instrumen itu sendiri yang menjadi kriteria. Ukuran lain yang sudah dianggap
baku atau dapat dipercaya dapat pula dijadikan sebagai kriteria eksternal.
Validitas yang ditentukan berdasarkan kriteria internal disebut validitas internal,
sedangkan validitas yang ditentukan berdasarkan kriteria eksternal disebut
validitas eksternal (Djaali & Muljono, 2008).
1) Validitas Internal
Validitas internal merupakan validitas yang diukur dengan besaran yang
menggunakan instrumen sebagai suatu kesatuan (keseluruhan butir) sebagai
kriteria untuk menentukan validitas item atau butir dari instrumen itu. Dengan
demikian validitas internal mempermasalahkan validitas butir atau item suatu
7
2. Reliabilitas
Reliabilitas berasal dari kata reliability yang berarti keajegan pengukuran
(Walizer & Wienir, 1987). Reliabilitas merupakan derajat konsistensi suatu
instrument. Suatu tes dapat dikatan reliabel apabila selalu memberikan hasil yang
sama bila diteskan pada kelompok yang sama pada kesempatan yang berbeda.
Menurut Suryabrata (2004) reliabilitas menunjukkan sejauhmana hasil
pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus reliabel
dalam artian harus memiliki tingkat konsistensi dan kemantapan.
Reliabilitas merupakan pengukuran dari alat ukur yang sama (tes dengan
tes ulang) akan memberikan hasil yang sama, atau untuk pengukuran yang lebih
subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar
penilai). Reliabilitas tidak sama dengan validitas. Artinya pengukuran yang dapat
diandalkan akan mengukur secara konsisten, tapi belum tentu mengukur apa yang
seharusnya diukur. Djaali & Muljono (2008) membedakan reliabilitas menjadi
dua macam, yakni Reliabilitas Konsistensi Tanggapan dan Reliabilitas
Konsistensi Gabungan.
a. Reliabilitas Konsistensi Tanggapan
Reliabilitas ini mempersoalkan apakah tanggapan responden atau objek
terhadap tes tersebut sudah baik atau konsisten. Jika hasil pengukuran kedua
menunjukkan ketidak konsistenan maka hal ini akan menunjukkan bahwa hasil
ukur tes atau instrumen tersebut tidak dapat dipercaya atau tidak reliabel serta
tidak dapat digunakan sebagai ukuran untuk mengungkapkan ciri atau keadaan
sesungguhnya dari objek pengukuran (Djaali & Muljono, 2008). Menurut Djaali
& Muljono ada tiga mekanisme untuk memeriksa reliabilitas tanggapan responden
terhadap tes yaitu:
1) Teknik test-retest
Teknik test-retest ialah pengetesan dua kali dengan menggunakan suatu tes
yang sama pada waktu yang berbeda. Metode ini melibatkan dua kali penggunaan
tes yang sama terhadap kelompok yang sama dengan interval waktu tertentu.
Suatu hal yang perlu diperhatikan adalah interval waktu untuk memberikan tes
kedua (re-tes), sebaiknya jangan terlalu dekat sebab dihawatirkan siswa masih
dapat mengingat soal yang diberikan pada tes pertama. Oleh karena itu peneliti
9
hendaknya membuat soal yang tidak mudah diingat oleh siswa, mungkin tes
obyektif mungkin lebih “sulit” diingat dibandingkan dengan tes essay yang
jumlah soalnya relatif lebih sedikit dibandingkan dengan tes obyektif. Memang
tidak ada patokan berapa lama interval waktu untuk melakukan tes dan re-tes,
akan tetapi biasanya antara dua sampai empat minggu. Setelah diperoleh nilai tes
yang dipandang sebagai nilai X dan re-tes yang dipandang sebagai nilai Y,
selanjutnya koefisien reliabilitas dihitung dengan menggunakan teknik korelasi
product moment atau korelasi Pearson untuk menunjukkan korelasi (hubungan)
antara dua set nilai yang diperoleh tersebut. Tinggi rendahnya indeks korelasi
inilah yang menunjukkan derajat reliabilitas instrumen yang digunakan.
2) Teknik belah dua
Teknik belah dua ialah pengetesan (pengukuran) yang dilakukan dengan
dua kelompok item yang setara pada saat yang sama. Prosedur bagi dua ini
meliputi penilaian terhadap satu set soal yang dibagi dua (biasanya soal dengan
nomor ganjil dan nomor genap atau awal dan akhir) dikerjakan secara terpisah
oleh setiap orang. Selanjutnya dihitung koefisien korelasi untuk kedua belahan
soal tersebut. Koefisien korelasi yang diperoleh menunjukan derajat korelasi
terhadap kedua kedua belahan soal, dan oleh karena itu menggambarkan
konsistensi internal dari tes tersebut. Dengan teknik belah dua ganjil-genap
peneliti harus mengelompokkan nilai butir bernomor ganjil sebagai belahan
pertama (X) dan kelompok nilai butir bernomor genap sebagai belahan kedua (Y).
Selanjutnya carilah rXY yaitu korelasi nilai skor belahan pertama dan kedua
dengan menggunakan rumus Spearman – Brown.
3) Bentuk ekivalen
Pengetesan (pengukuran) dilakukan dengan menggunakan dua tes yang
dibuat setara kemudian diberikan kepada responden atau obyek tes dalam waktu
yang bersamaan. Apabila metode ini digunakan, maka dua buah tes (instrumen)
yang terpisah satu sama lain, namun ekuivalen (juga disebut tes pilihan atau tes
paralel) dikenakan pada kelompok individu yang sama pada periode waktu yang
sama dalam arti tidak harus menunggu waktu beberapa hari atau minggu.
Meskipun pertanyaan-pertanyaan antara kedua instrumen tersebut berbeda, akan
tetapi keduanya harus memiliki isi (kontent) yang sama dan mengukur sesuatu
10
yang sama pula atau identik. Setelah diperoleh nilai tes untuk instrumen pertama
yang dipandang sebagai nilai X dan instrumen kedua yang dipandang sebagai
nilai Y, selanjutnya koefisien reliabilitas dihitung dengan menggunakan teknik
korelasi product moment atau korelasi Pearson. Tingginya nilai koefisien korelasi
yang diperoleh, menunjukkan bukti yang kuat mengenai reliabilitas bahwa kedua
instrumen tersebut mengukur sesuatu yang sama.
Metode ini memungkinkan untuk menggabungkan antara metode tes-retes
dan metode paralel (bentuk ekuivalen). Instrumen yang dibuat untuk tes paralel,
diberikan dua kali terhadap kelompok individu yang sama, hanya dengan interval
waktu yang berbeda sebagaimana dilakukan pada metode tes-retes. Koefisien
reliabilitas yang tinggi akan menunjukkan bahwa dua bentuk instrumen tersebut
tidak hanya mengukur dua jenis performance yang sama, akan tetapi juga
memiliki konsistensi sepanjang waktu.
b. Reliabilitas Konsistensi Gabungan
Reliabilitas ini berkaitan dengan kemantapan atau konsistensi antara item-
item suatu tes. Bila terhadap bagian obyek ukur yang sama, hasil ukur melalui
item yang satu kontradiksi atau tidak konsisten dengan hasil ukur melalui item
yang lain maka pengukuran dengan tes (alat ukur) sebagai suatu kesatuan itu tidak
dapat dipercaya (Djaali & Muljono, 2008). Koefesien reliabilitas konsistensi
gabungan item dapat dihitung dengan menggunakan:
1) Rumus Kuder-Richardson, yang dikenal dengan nama KR-20 dan KR-21.
2) Rumus koefisien Alpha atau Alpha Cronbach.
3) Rumus reliabilitas Hoyt, yang menggunakan analisis varian.
Keterangan :
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban (opsi)
1 = bilangan tetap
Kriteria Efektivitas Pengecoh berdasarkan angka indeks pengecoh sebagai
berikut:
Tabel 2.1 Kriteria Efektivitas Pengecoh
Indeks Pengecoh Kualitas
76% - 125% Sangat baik
51% - 75% atau 126% - 150% Baik
26% - 50% atau 151% - 175% Kurang baik
0% - 25% atau 176% - 200% Jelek
Lebih dari 200% Sangat jelek
Sumber : Arifin (2010)
Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang
merupakan pengecoh, jadi pengecoh disini adalah jawaban dari soal yang bisa
mengecoh jawaban yang sebenarnya. Option atau alternatif itu jumlahnya berkisar
antara tuga sampai dengan lima buah, dan dari kemungkinan-kemungkinan jawab
yang terpasang pada setiap butri item itu, salah satu di antaranya adalah merupakan
jawaban betul (= kunci jawaban); sedangkan sisanya adalah merupakaan jawaban
salah. Jawaban-jawaban salah itulah yang biasa dikenal dengan istilah pengecoh
atau pengecoh (Sudijono, 2015).
Untuk menentukan Efektivitas Pengecoh setiap butir soal digunakan skala
dengan rentang antara sangat baik sampai sangat tidak baik (Rahayu & Djazari,
2016).
12
- : kurang baik
_ : jelek
_ _ : sangat jelek
Pada contoh di atas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93% dan
107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat baik
sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta didik menumpuk
pada suatu alternatif jawaban, misalnya seperti berikut :
Tabel 2.3 Contoh Keefektifitasan Pengecoh yang Tidak Baik
Alternatif Jawaban a b c d e
Distribusi jawaban peserta didik 20 2 20 8 0
IP 267% 27% ** 107% 0%
Kualitas Pengecoh ++ - ** ++ -
Sumber : Penulis
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh
(e) dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e)
perlu diganti karena termasuk jelek, dan pengecoh (b) perlu direvisi karena kurang
baik.
c. Membuat tabel untuk mengetahui jawaban (benar atau salah) dari setiap peserta
didik, baik untuk kelompok atas maupun kelompok bawah. Jika jawaban peserta
didik benar diberi angka 1, jika jawaban peserta didik salah diberi angka 0.
Untuk menghitung tingkat kesukaran soal bentuk objektif dapat digunakan
dengan rumus berikut.
Keterangan:
Tk : Indeks tingkat kesukaran butir soal
SA : jumlah skor kelompok atas
SB : jumlah skor kelompok bawah
IA : jumlah skor ideal kelompok atas
IB : jumlah skor ideal kelompok bawah
Untuk menafsirkan tingkat kesukaran soalnya dapat digunakan kriteria
sebagai berikut (Arifin, 2012).
a. Jika jumlah peserta didik yang gagal mencapai 27% termasuk mudah.
b. Jika jumlah peserta didik yang gagal antara 28% sampai dengan 72%
termasuk sedang.
c. Jika jumlah peserta didik yang gagal 73% ke atas termasuk sukar.
Sedangkan menurut Arikunto (2012) untuk menghitung indeks kesukaran
butir soal untuk bentuk soal objektif dapat menggunakan rumus yang lebih
sederhana lagi, yakni sebagai berikut:
𝐵
𝑃=
𝐽𝑆
Keterangan:
P = Indeks kesukaran
B = Banyaknya peserta didik yang menjawab soal itu dengan betul
JS = Jumlah seluruh peserta didik peserta tes.
Tabel 2.4 Interprestasi Tingkat Kesukaran
Tingkat Kesukaran (TK) Interprestasi atau Penafsiran TK
0.00 – 0.29 Sukar
0.30 – 0.69 Sedang
0.70 – 1.00 Mudah
Sumber : Sudjana (2014)
16
10 5
1. TK = 20 × 100% = 50% 6. TK = 20 × 100% = 25%
8 8
2. TK = 20 × 100% = 40% 7. TK = 20 × 100% = 40%
9 8
3. TK = 20 × 100% = 45% 8. TK = 20 × 100% = 40%
7 9
4. TK = 20 × 100% = 35% 9. TK = 20 × 100% = 45%
9 8
5. TK = 20 × 100% = 45% 10. TK = 20 × 100% = 40%
Berdasarkan perhitungan tersebut, maka dapat diketahui klasifikasi tingkat
kesukaran soal yang didasarkan pada criteria penafsiran tingkat kesukaran soal
pada pembahasan sebelumnya.
Tabel 2.7 Klasifikasi Soal Berdasarkan Proporsi Tingkat Kesukaran
Tingkat Kesukaran Soal Nomor Soal Jumlah
Mudah P 27% 6 1 (10%)
Sedang P 28-72% 1,2,3,4,5,7,8,9,10 9 (90%)
Sukar P 73% 0 0
Sumber : Penulis
Untuk memperoleh prestasi belajar yang baik, sebaiknya proporsi antara
tingkatan kesukaran soal tersebar secara normal. Penyusunan suatu soal dilakukan
dengan mempertimbangkan tingkat kesukaran soal, sehingga hasil yang dicapai
peserta didik dapat menggambarkan prestasi yang sesungguhnya. Perhitungan
proporsi antara tingkat kesukaran dapat diatur sebagai berikut.
a. Soal sukar 25%, soal sedang 50%, soal mudah 25%, atau
b. Soal sukar 20%, soal sedang 60%, soal mudah 20%, atau
c. Soal sukar 15%, soal sedang 70%, soal mudah 15%.
2. Soal Bentuk Uraian
Cara menghitung tingkat kesukaran untuk soal bentuk uraian adalah
menghitung beberapa persen peserta didik yang gagal menjawab benar atau ada
dibawah batas lulus (passing grade) untuk tiap-tiap soal. Contoh analisis tingkat
kesukaran soal bentuk uraian adalah sebagai berikut :
33 orang peserta didik di tes dengan lima soal bentuk uraian. Skor maksimum
ditentukan 10 dan skor minimum 0. Jumlah peserta didik yang memperoleh nilai 0-
5 = 10 orang (berarti gagal), nilai 6 = 12 orang, dan nilai 7-10 = 11 orang.
10
Jadi, tingkat kesukaran (TK) = × 100% = 30,3%
33
Tingkat kesukaran 30,3 berada di antara 28 dan 72, berarti soal tersebut termasuk
sedang. Catatan: batas lulus ideal = 6 (skala 0-10).
18
Gambar 2.1
Contoh penyusunan skala
Gambar 2.2
Format Kartu Soal Uraian
21
Gambar 23
Format Kartu Soal dan Pedoman Pennskoran Soal Uraian
Gambar 2.4
Format Kartu Soal Pilihan Ganda
Gambar 2.5
Format Kartu Soal dan Pedoman Penskoran Pilihan Ganda
23
Gambar 2.6
Contoh Soal Pilihan Ganda
1. Validitas
Kevalidan instrumen nontes yang dikembangkan dapat dilihat dari validitas
isi dan konstruk teori yang mendasarinya. Ketepatan dalam menentukan definisi
konseptual, definisi operasional, dan penetapan aspek serta indikator yang
direncanakan. Faktor yang melemahkan validitas:
a. Identifikasi kawasan ukur tidak cukup jelas;
b. Operasionalisasi konsep (perumusan indikator) tidak tepat;
c. Penulisan butir tidak mengikuti kaidah;
d. Administrasi skala yang tidak hati-hati (kondisi subjek, kondisi testing);
e. Pemberian skor tidak cermat;
f. Interpretasi yang keliru;
2. Reliabilitas
Teknik penentuan reliabilitas dapat menggunakan test-retest, tes paralel, tes
belah dua. Rumus yang dapat digunakan antara lain: korelasi product moment,
Sperman Brown, Alpha, dll. Reliabilitas instrumen ditentukan dari besarnya
koefisien korelasi. Koefisien reliabilitas mencerminkan hubungan skor skala yang
diperoleh (X) dengan skor sesungguhnya (skor murni). Koefisien reliabilitas
sebesar 0,9 memiliki arti perbedaan yang tampak pada skala mampu mencerminkan
90% dari variansi skor murni
25
BAB III
PENUTUP
A. Simpulan
Penentuan kualitas butir soal ditinjau dari validitas butir, tingkat
kesukaran, dan efektivitas pengecoh adalah sebagai berikut:
1. Butir soal dikatakan memiliki kualitas baik apabila:
a. Ditinjau dari validitas, butir soal dikatakan valid apabila rpbi lebih besar atau
sama dengan rtabel pada taraf signifikansi 5% sesuai dengan jumlah peserta
tes.
b. Ditinjau dari tingkat kesukaran, butir soal yang baik adalah butir soal yang
termasuk memiliki Tingkat Kesukaran sedang dengan indeks kesukaran 0,31-
0,70.
c. Ditinjau dari efektivitas pengecoh, butir soal dikatakan baik apabila termasuk
kategori baik atau memiliki 3 pengecoh yang berfungsi dan kategori sangat
baik atau memiliki 4 pengecoh berfungsi.
2. Butir soal dikatakan memiliki kualitas yang kurang baik apabila hanya
memenuhi tiga dari keempat kriteria butir soal yang baik.
3. Butir soal dikatakan memiliki kualitas yang tidak baik apabila hanya
memenuhi dua atau kurang dari dua kriteris dari keempat kriteria butir soal
yang baik.
B. Saran
Sebagai calon pendidik maupun pendidik, sangat penting
untuk memahami dan mengeti bagaimana penentuan jenis perilaku yang diukur,
bagaimana penyusunan kisi-kisi yang sesuai dengan pedoman maupun petunjuk
yang diatur oleh Kementrian Pendidikan Republik Indonesia. Sehingga akan
diperoleh soal-soal yang sesuai dengan kompetensi yang diujikan dan hasil yang
dapat menunjukkan kompetensi dari peserta didik tersebut.
25
26
DAFTAR RUJUKAN